Эта статья поднимает множество проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалить эти сообщения-шаблоны ) ( Узнайте, как и когда удалить этот шаблон сообщения )
|
Конечно-преобразователь ( FST ) представляет собой конечный автомат с двумя памяти лент , следуя терминологии для машин Тьюринга : входной ленты и выходной лентой. Это контрастирует с обычным конечным автоматом , у которого есть единственная лента. FST - это тип конечного автомата, который отображает два набора символов. [1] FST является более общим, чем конечный автомат (FSA). FSA определяет формальный язык, определяя набор принятых строк, в то время как FST определяет отношения между наборами строк.
FST считывает набор строк на входной ленте и генерирует набор отношений на выходной ленте. FST можно рассматривать как переводчик или связующее звено между строками в наборе.
При морфологическом синтаксическом анализе примером может быть ввод строки букв в FST, затем FST выводит строку морфем .
Обзор [ править ]
Внешнее видео | |
---|---|
Конечные преобразователи // Технологический институт Карлсруэ , видео на YouTube |
Автомат можно сказать , что распознать строку , если просмотреть содержимое его ленты в качестве входных данных. Другими словами, автомат вычисляет функцию, которая отображает строки во множество {0,1}. С другой стороны, мы можем сказать, что автомат генерирует строки, что означает просмотр своей ленты как выходной ленты. С этой точки зрения автомат генерирует формальный язык , который представляет собой набор строк. Два вида автоматов эквивалентны: функция, которую вычисляет автомат, в точности является индикаторной функцией набора строк, которые он генерирует. Класс языков, порожденных конечными автоматами, известен как класс регулярных языков .
Две ленты преобразователя обычно рассматриваются как входная и выходная лента. С этой точки зрения, преобразователь, как говорят, преобразовывает (т. Е. Переводит) содержимое своей входной ленты на свою выходную ленту, принимая строку на своей входной ленте и генерируя другую строку на своей выходной ленте. Он может делать это недетерминированно и может производить более одного вывода для каждой входной строки. Преобразователь также может не выдавать выходной сигнал для данной входной строки, и в этом случае говорят, что он отклоняет вход. В общем, преобразователь вычисляет отношение между двумя формальными языками.
Каждый преобразователь конечного состояния строки в строку связывает входной алфавит Σ с выходным алфавитом Γ. Отношения R на Σ * × Γ *, которые могут быть реализованы как конечные преобразователи, называются рациональными отношениями . Рациональные отношения, которые являются частичными функциями , т. Е. Связывают каждую входную строку из Σ * не более чем с одной Γ *, называются рациональными функциями .
Конечные преобразователи часто используются для фонологического и морфологического анализа в исследованиях и приложениях обработки естественного языка . Пионерами в этой области являются Рональд Каплан , Лаури Карттунен , Мартин Кей и Киммо Коскенниеми . [2] [ требуется не первичный источник ] Обычный способ использования преобразователей - это так называемый «каскад», когда преобразователи для различных операций объединяются в один преобразователь путем многократного применения оператора композиции (определенного ниже).
Формальная конструкция [ править ]
Формально конечный преобразователь T - это набор из 6 ( Q , Σ, Γ, I , F , δ ) такой, что:
- Q - конечное множество , множество состояний ;
- Σ - конечное множество, называемое входным алфавитом ;
- Γ - конечное множество, называемое выходным алфавитом ;
- Я это подмножество из Q , множество начальных состояний ;
- F - подмножество Q , множество конечных состояний ; а также
- (где ε - пустая строка ) - отношение перехода .
Мы можем рассматривать ( Q , & delta ; ) в качестве меченого ориентированного графа , известного как графы переходов из T : множество вершин является Q , и означает , что существует меченое ребро , выходящее из вершины ц в вершину г . Мы также говорим, что a - это метка входа, а b - метка выхода этого ребра.
ПРИМЕЧАНИЕ. Это определение конечного преобразователя также называется буквенным преобразователем (Roche and Schabes, 1997); Возможны альтернативные определения, но все они могут быть преобразованы в преобразователи, следующие за этим.
Определите расширенное отношение перехода как наименьшее множество, такое что:
- ;
- для всех ; а также
- всякий раз, когда и тогда .
Расширенное отношение перехода - это, по сути, рефлексивное транзитивное замыкание графа переходов, которое было расширено с учетом меток ребер. Элементы известны как пути . Метки краев пути получаются путем объединения краевых меток составляющих его переходов по порядку.
Поведение преобразователя T является рациональным соотношением [ Т ] определяются следующим образом : если и только если существует , и таким образом, что . Это означает, что T преобразует строку в строку, если существует путь от начального состояния к конечному состоянию, чья входная метка - x, а выходная метка - y .
Взвешенные автоматы [ править ]
Конечные датчики состояния могут быть взвешены, где каждый переход помечен весом в дополнение к меткам входа и выхода. Взвешенный преобразователь конечных состояний (WFST) над набором K весов может быть определен аналогично невзвешенному как 8-элементный набор T = ( Q , Σ, Γ, I , F , E , λ , ρ ) , где:
- Q , Σ, Γ, I , F определены выше;
- (где ε - пустая строка ) - конечное множество переходов;
- отображает начальные состояния в веса;
- отображает конечные состояния в веса.
Чтобы сделать определенные операции над WFST четко определенными, удобно потребовать, чтобы набор весов формировал полукольцо . [3] На практике используются два типичных полукольца: лог-полукольцо и тропическое полукольцо : недетерминированные автоматы можно рассматривать как имеющие веса в булевом полукольце . [4]
Стохастический FST [ править ]
Стохастические FST (также известные как вероятностные FST или статистические FST) предположительно являются формой взвешенных FST. [ необходима цитата ]
Операции на конечных преобразователях [ править ]
Следующие операции, определенные для конечных автоматов, также применимы к конечным преобразователям:
- Союз . Для преобразователей T и S существует такой преобразователь , что если и только если или .
- Конкатенация . Для преобразователей T и S существует такой преобразователь , что тогда и только тогда, когда существуют с и
- Клини закрытие . Для преобразователя T существует преобразователь со следующими свойствами:
- ;
( k1 )
- если и , то ;
( k2 )
- и не выполняется, если это не требуется ( k1 ) или ( k2 ).
- Состав . Для данного преобразователя T на алфавитах Σ и Γ и преобразователя S на алфавитах Γ и Δ существует такой преобразователь на Σ и Δ, что тогда и только тогда, когда существует такая строка , что и . Эта операция распространяется на взвешенный случай. [5]
- В этом определении используются те же обозначения, которые используются в математике для композиции отношений . Однако обычное прочтение композиции отношений - это наоборот: при двух отношениях T и S , когда существует некоторый y такой, что и
- Проекция на автомат. Есть две функции проецирования: сохраняет входную ленту и сохраняет выходную ленту. Первая проекция определяется следующим образом:
- Для преобразователя T существует такой конечный автомат , который принимает x тогда и только тогда, когда существует строка y, для которой
- Вторая проекция определяется аналогично.
- Детерминированность . Учитывая преобразователь T , мы хотим создать эквивалентный преобразователь, который имеет уникальное начальное состояние и такой, что никакие два перехода, выходящие из любого состояния, не имеют одинаковой метки входа. Конструкция powerset может быть расширена до преобразователей или даже преобразователей с весом, но иногда не удается остановиться; действительно, некоторые недетерминированные преобразователи не допускают эквивалентных детерминированных преобразователей. [6] Были предложены характеристики детерминируемых преобразователей [7] вместе с эффективными алгоритмами их тестирования: [8] они основаны на полукольце, используемом во взвешенном случае, а также на общем свойстве структуры преобразователя (близнецы собственности ).
- Весовой толчок для утяжеленного ящика. [9]
- Минимизация для взвешенного случая. [10]
- Удаление эпсилон-переходов .
Дополнительные свойства конечных преобразователей [ править ]
- Решаемо , является ли отношение [ T ] преобразователя T пустым.
- Разрешаемо, существует ли строка y такая, что x [ T ] y для данной строки x .
- Это неразрешимое ли два преобразователя эквивалентны. [11] Однако эквивалентность разрешима в частном случае, когда отношение [ T ] преобразователя T является (частичной) функцией.
- Если определить алфавит меток , преобразователи с конечным числом состояний изоморфны NDFA по алфавиту и, следовательно, могут быть детерминированы (превращены в детерминированные конечные автоматы по алфавиту ) и впоследствии минимизированы, чтобы они имели минимальное количество состояний. [ необходима цитата ]
Приложения [ править ]
Контекстно-зависимые правила перезаписи формы a → b / c _ d , используемые в лингвистике для моделирования фонологических правил и изменения звука , в вычислительном отношении эквивалентны преобразователям с конечным числом состояний, при условии, что приложение нерекурсивно, т.е. одна и та же подстрока дважды. [12]
Взвешенные FST нашли применение в обработке естественного языка , включая машинный перевод , и в машинном обучении . [13] [14] Реализация тегирования части речи может быть найдена как один из компонентов библиотеки OpenGrm [15] .
См. Также [ править ]
- Мучная машина
- Машина Мура
- Морфологический словарь
- foma (программное обеспечение)
- Преобразователь дерева
Заметки [ править ]
- ^ Jurafsky, Daniel (2009). Обработка речи и языка . Пирсон. ISBN 9789332518414.
- ^ Коскенниеми 1983
- ^ Berstel, Жан; Ройтенауэр, Кристоф (2011). Некоммутативные рациональные ряды с приложениями . Энциклопедия математики и ее приложений. 137 . Кембридж: Издательство Кембриджского университета . п. 16. ISBN 978-0-521-19022-0. Zbl 1250,68007 .
- ^ Lothaire, М. (2005). Прикладная комбинаторика слов . Энциклопедия математики и ее приложений. 105 . Коллективный труд Жан Berstel Доминик Перрен, Максим Крошемор, Эрик Лапорта, Меряр Мори, Надя Pisanti, Мари-Франс Sagot, Гезине Рейнертом , Софи Schbath , Майкл Waterman, Филипп Жаке, Войцех Szpankowski , Доминик Poulalhon, Жиль Шеффера, Роман Колпаков , Грегори Кушеров, Жан-Поль Аллуш и Валери Берте . Кембридж: Издательство Кембриджского университета . п. 211 . ISBN 0-521-84802-4. Zbl 1133.68067 .
- ^ Мохри 2004 , стр. 3-5
- ^ [1]
- ^ Мохри 2004 , стр. 5-6
- ^ Аллаузен 2003
- ^ Мохри 2004 , стр. 7-9
- ^ Мохри 2004 , стр. 9-11
- ^ Гриффитс 1968
- ^ "Регулярные модели фонологических систем правил" (PDF) . Архивировано из оригинального (PDF) 11 октября 2010 года . Проверено 25 августа 2012 года .
- ^ Кевин Найт и Джонатан Мэй (2009). «Приложения взвешенных автоматов в обработке естественного языка». В Манфреде Дросте; Вернер Куич; Хайко Фоглер (ред.). Справочник по взвешенным автоматам . Springer Science & Business Media. ISBN 978-3-642-01492-5.CS1 maint: uses authors parameter (link)
- ^ «Обучение с помощью взвешенных преобразователей» (PDF) . Проверено 29 апреля 2017 года .
- ^ OpenGrm
Ссылки [ править ]
- Аллаузен, Кирилл; Мохри, Мехриар (2003). «Эффективные алгоритмы проверки свойства близнецов» (PDF) . Журнал автоматов, языков и комбинаторики . 8 (2): 117–144.
- Коскенниеми, Киммо (1983), Двухуровневая морфология: общая вычислительная модель распознавания и производства словоформ (PDF) , Департамент общего языкознания, Университет Хельсинки
- Мохри, Мехриар (2004). «Взвешенные алгоритмы преобразователя с конечным числом состояний: обзор» (PDF) . Формальные языки и приложения . 148 (620): 551–564. DOI : 10.1007 / 978-3-540-39886-8_29 .
- Гриффитс, ТВ (1968). «Неразрешимость проблемы эквивалентности для Λ-свободных недетерминированных обобщенных машин». 15 (3). ACM: 409–413. Cite journal requires
|journal=
(help)
Внешние ссылки [ править ]
- OpenFst , библиотека с открытым исходным кодом для операций FST.
- Stuttgart Finite State Transducer Tools , еще один набор инструментов FST с открытым исходным кодом
- java FST Framework , java FST Framework с открытым исходным кодом, способная обрабатывать текстовый формат OpenFst.
- Vcsn , платформа с открытым исходным кодом (C ++ и IPython) для взвешенных автоматов и рациональных выражений.
- Конечная морфология состояния - Книга XFST / LEXC, описание реализации Xerox преобразователей с конечным числом состояний, предназначенных для лингвистических приложений.
- FOMA , реализация с открытым исходным кодом большинства возможностей реализации Xerox XFST / LEXC.
Дальнейшее чтение [ править ]
- Джурафский, Даниэль ; Джеймс Х. Мартин (2000). Обработка речи и языка . Прентис Холл. стр. 71 -83. ISBN 0-13-095069-6.
- Корнаи, Андрас (1999). Расширенные модели языка с конечным числом состояний . Издательство Кембриджского университета. ISBN 0-521-63198-X.
- Рош, Эммануэль; Ив Шабес (1997). Обработка конечного языка . MIT Press. С. 1 –65. ISBN 0-262-18182-7.
- Бисли, Кеннет Р .; Лаури Карттунен (2003). Конечная морфология состояния . Центр изучения языка и информации. ISBN 1-57586-434-7.
- Рорк, Брайан; Ричард Спроут (2007). Вычислительные подходы к морфологии и синтаксису . Издательство Оксфордского университета. ISBN 0-19-927478-9.
- Берстель, Жан (1979). Переводы и контекстно-свободные языки . Teubner Verlag.. Бесплатная версия PDF