Алгоритм Клини

В теоретической информатике , в частности в теории формального языка , алгоритм Клини преобразует данный недетерминированный конечный автомат (NFA) в регулярное выражение . Вместе с другими алгоритмами преобразования он устанавливает эквивалентность нескольких форматов описания для обычных языков . Альтернативные представления одного и того же метода включают «метод исключения» приписываемую Бжозовского и Маккласки , алгоритм Макнотоном и Ямада , ^[1] и использование леммы Арден .

Описание алгоритма

Согласно Гроссу и Йеллен (2004), ^[2] алгоритм восходит к Клини (1956). ^[3] Описание алгоритма в случае детерминированных конечных автоматов (ДКА) дано в Hopcroft and Ullman (1979). ^[4] Алгоритм для NFA представлен ниже в соответствии с Gross and Yellen (2004). ^[2]

Для недетерминированного конечного автомата M = ( Q , Σ, δ, q ₀ , F ) с набором состояний Q = { q ₀ , ..., q _n } алгоритм вычисляет

множества R^k
_ijвсех строк, которые переводят M из состояния q _i в q _j, не проходя через какое-либо состояние с номером выше k .

Здесь «прохождение состояния» означает вход в него и выход из него, поэтому и i, и j могут быть выше k , но никакое промежуточное состояние не может. Каждый набор R^k
_ijпредставлен регулярным выражением; алгоритм вычисляет их шаг за шагом для k = -1, 0, ..., n . Поскольку нет состояний с номерами выше n , регулярное выражение R^п
_0jпредставляет набор всех строк, которые переводят M из начального состояния q ₀ в q _j . Если F = { q ₁ , ..., q _f } - набор состояний принятия , регулярное выражение R^п
₀₁| ... | р^п
_0fпредставляет собой язык , принятый на M .

Исходные регулярные выражения для k = -1 вычисляются для i ≠ j следующим образом :

р⁻¹
_ij= a ₁ | ... | a _m, где q _j ∈ δ ( q _i , a ₁ ), ..., q _j ∈ δ ( q _i , a _m )

и следующим образом для i = j :

р⁻¹
_ii= a ₁ | ... | а _м | ε, где q _i ∈ δ ( q _i , a ₁ ), ..., q _i ∈ δ ( q _i , a _m )

Другими словами, R⁻¹
_ijупоминает все буквы, обозначающие переход от i к j , и мы также включаем ε в случае, когда i = j .

После этого на каждом шаге выражения R^k
_ij вычисляются из предыдущих

р^k
_ij= R^{k -1}
_ik( R^{к -1}
_кк) ^*R^{к -1}
_кДж| р^{k -1}
_ij

Другой способ понять работу алгоритма - это «метод исключения», при котором последовательно удаляются состояния от 0 до n : при удалении состояния k регулярное выражение R^{k -1}
_ij, который описывает слова, обозначающие путь от состояния i > k к состоянию j > k , переписывается в R^k
_ijчтобы учесть возможность перехода через «исключенное» состояние k .

Индукцией по k можно показать, что длина ^[5] каждого выражения R^k
_ij самое большее 1/3(4 ^{k +1} (6 s +7) - 4) символов, где s обозначает количество символов в Σ. Следовательно, длина регулярного выражения, представляющего язык, принятый M , не превышает 1/3(4 ^{n +1} (6 s +7) f - f - 3) символов, где f обозначает количество конечных состояний. Этот экспоненциальный взрыв неизбежен, потому что существуют семейства DFA, для которых любое эквивалентное регулярное выражение должно иметь экспоненциальный размер. ^[6]

На практике размер регулярного выражения, полученного при запуске алгоритма, может сильно отличаться в зависимости от порядка, в котором состояния рассматриваются процедурой, т. Е. Порядка, в котором они пронумерованы от 0 до n .

Пример

Пример DFA для алгоритма Клини

Автомат, изображенный на рисунке, можно описать как M = ( Q , Σ, δ, q ₀ , F ) с

множество состояний Q = { q ₀ , q ₁ , q ₂ },
входной алфавит Σ = { a , b },
функция перехода δ с δ ( q ₀ , a ) = q ₀ , δ ( q ₀ , b ) = q ₁ , δ ( q ₁ , a ) = q ₂ , δ ( q ₁ , b ) = q ₁ , δ ( q ₂ , a ) = q ₁ и δ ( q ₂ , b ) = q ₁ ,
начальное состояние q ₀ , и
набор состояний приема F = { q ₁ }.

Алгоритм Клини вычисляет исходные регулярные выражения как

р⁻¹ ₀₀	= а \| ε
р⁻¹ ₀₁	= b
р⁻¹ ₀₂	= ∅
р⁻¹ ₁₀	= ∅
р⁻¹ ₁₁	= b \| ε
р⁻¹ ₁₂	= а
р⁻¹ ₂₀	= ∅
р⁻¹ ₂₁	= а \| б
р⁻¹ ₂₂	= ε

После этого R^k
_ijвычисляются из R^{k -1}
_ijшаг за шагом для k = 0, 1, 2. Равенства алгебры Клини используются для максимального упрощения регулярных выражений.

Шаг 0

р⁰ ₀₀	= R⁻¹ ₀₀( R⁻¹ ₀₀) ^* R⁻¹ ₀₀\| р⁻¹ ₀₀	= ( а \| ε)	( а \| е) ^*	( а \| е)	\| а \| ε	= а ^*
р⁰ ₀₁	= R⁻¹ ₀₀( R⁻¹ ₀₀) ^* R⁻¹ ₀₁\| р⁻¹ ₀₁	= ( а \| ε)	( а \| е) ^*	б	\| б	= а ^* б
р⁰ ₀₂	= R⁻¹ ₀₀( R⁻¹ ₀₀) ^* R⁻¹ ₀₂\| р⁻¹ ₀₂	= ( а \| ε)	( а \| е) ^*	∅	\| ∅	= ∅
р⁰ ₁₀	= R⁻¹ ₁₀( R⁻¹ ₀₀) ^* R⁻¹ ₀₀\| р⁻¹ ₁₀	= ∅	( а \| е) ^*	( а \| е)	\| ∅	= ∅
р⁰ ₁₁	= R⁻¹ ₁₀( R⁻¹ ₀₀) ^* R⁻¹ ₀₁\| р⁻¹ ₁₁	= ∅	( а \| е) ^*	б	\| б \| ε	= b \| ε
р⁰ ₁₂	= R⁻¹ ₁₀( R⁻¹ ₀₀) ^* R⁻¹ ₀₂\| р⁻¹ ₁₂	= ∅	( а \| е) ^*	∅	\| а	= а
р⁰ ₂₀	= R⁻¹ ₂₀( R⁻¹ ₀₀) ^* R⁻¹ ₀₀\| р⁻¹ ₂₀	= ∅	( а \| е) ^*	( а \| е)	\| ∅	= ∅
р⁰ ₂₁	= R⁻¹ ₂₀( R⁻¹ ₀₀) ^* R⁻¹ ₀₁\| р⁻¹ ₂₁	= ∅	( а \| е) ^*	б	\| а \| б	= а \| б
р⁰ ₂₂	= R⁻¹ ₂₀( R⁻¹ ₀₀) ^* R⁻¹ ₀₂\| р⁻¹ ₂₂	= ∅	( а \| е) ^*	∅	\| ε	= ε

Шаг 1

р¹ ₀₀	= R⁰ ₀₁( R⁰ ₁₁) ^* R⁰ ₁₀\| р⁰ ₀₀	= а ^*б	( b \| ε) ^*	∅	\| а ^*	= а ^*
р¹ ₀₁	= R⁰ ₀₁( R⁰ ₁₁) ^* R⁰ ₁₁\| р⁰ ₀₁	= а ^*б	( b \| ε) ^*	( b \| ε)	\| а ^* б	= а ^* б ^* б
р¹ ₀₂	= R⁰ ₀₁( R⁰ ₁₁) ^* R⁰ ₁₂\| р⁰ ₀₂	= а ^*б	( b \| ε) ^*	а	\| ∅	= а ^* б ^* ба
р¹ ₁₀	= R⁰ ₁₁( R⁰ ₁₁) ^* R⁰ ₁₀\| р⁰ ₁₀	= ( b \| ε)	( b \| ε) ^*	∅	\| ∅	= ∅
р¹ ₁₁	= R⁰ ₁₁( R⁰ ₁₁) ^* R⁰ ₁₁\| р⁰ ₁₁	= ( b \| ε)	( b \| ε) ^*	( b \| ε)	\| б \| ε	= Ь ^*
р¹ ₁₂	= R⁰ ₁₁( R⁰ ₁₁) ^* R⁰ ₁₂\| р⁰ ₁₂	= ( b \| ε)	( b \| ε) ^*	а	\| а	= б ^* а
р¹ ₂₀	= R⁰ ₂₁( R⁰ ₁₁) ^* R⁰ ₁₀\| р⁰ ₂₀	= ( а \| б )	( b \| ε) ^*	∅	\| ∅	= ∅
р¹ ₂₁	= R⁰ ₂₁( R⁰ ₁₁) ^* R⁰ ₁₁\| р⁰ ₂₁	= ( а \| б )	( b \| ε) ^*	( b \| ε)	\| а \| б	= ( а \| Ь ) Ь ^*
р¹ ₂₂	= R⁰ ₂₁( R⁰ ₁₁) ^* R⁰ ₁₂\| р⁰ ₂₂	= ( а \| б )	( b \| ε) ^*	а	\| ε	= ( a \| b ) b ^* a \| ε

Шаг 2

р² ₀₀	= R¹ ₀₂( R¹ ₂₂) ^* R¹ ₂₀\| р¹ ₀₀	= а ^б ^ба	(( a \| b ) b ^a \| ε) ^	∅	\| а ^*	= а ^*
р² ₀₁	= R¹ ₀₂( R¹ ₂₂) ^* R¹ ₂₁\| р¹ ₀₁	= а ^б ^ба	(( a \| b ) b ^a \| ε) ^	( а \| б ) б ^*	\| а ^* б ^* б	= a ^* b ( a ( a \| b ) \| b ) ^*
р² ₀₂	= R¹ ₀₂( R¹ ₂₂) ^* R¹ ₂₂\| р¹ ₀₂	= а ^б ^ба	(( a \| b ) b ^a \| ε) ^	(( a \| b ) b ^*a \| ε)	\| а ^* б ^* ба	= a ^* b ^* b ( a ( a \| b ) b ^* ) ^* a
р² ₁₀	= R¹ ₁₂( R¹ ₂₂) ^* R¹ ₂₀\| р¹ ₁₀	= б ^* а	(( a \| b ) b ^a \| ε) ^	∅	\| ∅	= ∅
р² ₁₁	= R¹ ₁₂( R¹ ₂₂) ^* R¹ ₂₁\| р¹ ₁₁	= б ^* а	(( a \| b ) b ^a \| ε) ^	( а \| б ) б ^*	\| б ^*	= ( а ( а \| б ) \| б ) ^*
р² ₁₂	= R¹ ₁₂( R¹ ₂₂) ^* R¹ ₂₂\| р¹ ₁₂	= б ^* а	(( a \| b ) b ^a \| ε) ^	(( a \| b ) b ^*a \| ε)	\| б ^* а	= ( а ( а \| б ) \| б ) ^* а
р² ₂₀	= R¹ ₂₂( R¹ ₂₂) ^* R¹ ₂₀\| р¹ ₂₀	= (( a \| b ) b ^*a \| ε)	(( a \| b ) b ^a \| ε) ^	∅	\| ∅	= ∅
р² ₂₁	= R¹ ₂₂( R¹ ₂₂) ^* R¹ ₂₁\| р¹ ₂₁	= (( a \| b ) b ^*a \| ε)	(( a \| b ) b ^a \| ε) ^	( а \| б ) б ^*	\| ( а \| б ) б ^*	= ( a \| b ) ( a ( a \| b ) \| b ) ^*
р² ₂₂	= R¹ ₂₂( R¹ ₂₂) ^* R¹ ₂₂\| р¹ ₂₂	= (( a \| b ) b ^*a \| ε)	(( a \| b ) b ^a \| ε) ^	(( a \| b ) b ^*a \| ε)	\| ( a \| b ) b ^* a \| ε	= (( a \| b ) b ^* a ) ^*

Поскольку q ₀ - начальное состояние, а q ₁ - единственное принимаемое состояние, регулярное выражение R²
₀₁ обозначает набор всех строк, принимаемых автоматом.

Смотрите также

Алгоритм Флойда – Уоршалла - алгоритм на взвешенных графах, который может быть реализован алгоритмом Клини с использованием определенной алгебры Клини.
Проблема высоты звезды - какова минимальная глубина вложенности звезд для всех регулярных выражений, соответствующих заданному DFA?
Обобщенная проблема высоты звезды - если в регулярных выражениях дополнительно разрешен оператор дополнения, можно ли ограничить глубину вложенности звезд в выходных данных алгоритма Клини фиксированной границей?
Алгоритм построения Томпсона - преобразует регулярное выражение в конечный автомат

р² ₀₀	= R¹ ₀₂( R¹ ₂₂) ^* R¹ ₂₀\| р¹ ₀₀	= а ^б ^ба	(( a \| b ) b ^a \| ε) ^	∅	\| а ^*	= а ^*
р² ₀₁	= R¹ ₀₂( R¹ ₂₂) ^* R¹ ₂₁\| р¹ ₀₁	= а ^б ^ба	(( a \| b ) b ^a \| ε) ^	( а \| б ) б ^*	\| а ^* б ^* б	= a ^* b ( a ( a \| b ) \| b ) ^*
р² ₀₂	= R¹ ₀₂( R¹ ₂₂) ^* R¹ ₂₂\| р¹ ₀₂	= а ^б ^ба	(( a \| b ) b ^a \| ε) ^	(( a \| b ) b ^*a \| ε)	\| а ^* б ^* ба	= a ^* b ^* b ( a ( a \| b ) b ^* ) ^* a
р² ₁₀	= R¹ ₁₂( R¹ ₂₂) ^* R¹ ₂₀\| р¹ ₁₀	= б ^* а	(( a \| b ) b ^a \| ε) ^	∅	\| ∅	= ∅
р² ₁₁	= R¹ ₁₂( R¹ ₂₂) ^* R¹ ₂₁\| р¹ ₁₁	= б ^* а	(( a \| b ) b ^a \| ε) ^	( а \| б ) б ^*	\| б ^*	= ( а ( а \| б ) \| б ) ^*
р² ₁₂	= R¹ ₁₂( R¹ ₂₂) ^* R¹ ₂₂\| р¹ ₁₂	= б ^* а	(( a \| b ) b ^a \| ε) ^	(( a \| b ) b ^*a \| ε)	\| б ^* а	= ( а ( а \| б ) \| б ) ^* а
р² ₂₀	= R¹ ₂₂( R¹ ₂₂) ^* R¹ ₂₀\| р¹ ₂₀	= (( a \| b ) b ^*a \| ε)	(( a \| b ) b ^a \| ε) ^	∅	\| ∅	= ∅
р² ₂₁	= R¹ ₂₂( R¹ ₂₂) ^* R¹ ₂₁\| р¹ ₂₁	= (( a \| b ) b ^*a \| ε)	(( a \| b ) b ^a \| ε) ^	( а \| б ) б ^*	\| ( а \| б ) б ^*	= ( a \| b ) ( a ( a \| b ) \| b ) ^*
р² ₂₂	= R¹ ₂₂( R¹ ₂₂) ^* R¹ ₂₂\| р¹ ₂₂	= (( a \| b ) b ^*a \| ε)	(( a \| b ) b ^a \| ε) ^	(( a \| b ) b ^*a \| ε)	\| ( a \| b ) b ^* a \| ε	= (( a \| b ) b ^* a ) ^*

Алгоритм Клини

Описание алгоритма

Пример

Смотрите также

Рекомендации