Таггер Брилл является индуктивным методом частеречной разметки . Он был описан и изобретен Эриком Бриллом в его докторской диссертации 1993 года. Его можно кратко охарактеризовать как «устройство тегов, основанное на преобразовании, управляемом ошибками». Это:
- форма обучения с учителем , направленная на минимизацию ошибок; а также,
- процесс, основанный на преобразовании, в том смысле, что тег присваивается каждому слову и изменяется с использованием набора предопределенных правил.
В процессе преобразования, если слово известно, сначала назначается наиболее часто встречающийся тег, а если слово неизвестно, он наивно присваивает ему тег «существительное». Многократно применяя эти правила, изменяя неверные теги, достигается довольно высокая точность. Такой подход гарантирует, что ценная информация, такая как морфосинтаксическое построение слов, используется в процессе автоматической маркировки.
Алгоритм
Алгоритм начинается с инициализации, которая представляет собой присвоение тегов на основе их вероятности для каждого слова (например, «собака» чаще является существительным, чем глаголом). Затем «патчи» определяются с помощью правил, которые исправляют (вероятные) ошибки тегирования, сделанные на этапе инициализации: [1]
- Инициализация:
- Известные слова (в словаре): присвоение наиболее частого тега, связанного с формой слова
- Неизвестное слово
Правила и обработка
Вводимый текст сначала токенизируется или разбивается на слова. Обычно при обработке естественного языка сокращения, такие как «s», «n't» и т.п., считаются отдельными лексемами слов, как и знаки препинания.
Затем словарь и некоторые морфологические правила предоставляют начальный тег для каждой лексемы слова. Например, простой поиск покажет, что "собака" может быть существительным или глаголом (просто выбирается наиболее частый тег), а неизвестному слову будет назначен тег (и) на основе заглавных букв, различных строк префиксов или суффиксов. и т. д. (такой морфологический анализ , который Брилл называет лексическими правилами , может варьироваться в зависимости от реализации).
После того, как все токены слов имеют (предварительные) теги, контекстные правила применяются итеративно, чтобы исправить теги, исследуя небольшие объемы контекста. Этим метод Брилла отличается от других методов речевой маркировки, например, с использованием скрытых марковских моделей . Правила применяются повторно до тех пор, пока не будет достигнут порог или пока правила больше не будут применяться.
Правила Брилля имеют общий вид:
tag1 → tag2 Условие ЕСЛИ
где Условие проверяет токены предыдущего и / или последующего слова или их теги (обозначения таких правил различаются в зависимости от реализации). Например, в обозначениях Брилла:
В NN WDPREVTAG DT пока
изменит тег слова с IN (предлог) на NN (нарицательное существительное), если тегом предыдущего слова является DT (определитель), а само слово - «while». Это касается таких случаев, как «все время» или «через какое-то время», где «пока» следует пометить как существительное, а не его более распространенное использование как предлог (многие правила более общие).
Правила должны действовать только в том случае, если известно, что изменяемый тег также допустим для рассматриваемого слова или в принципе (например, большинство прилагательных в английском языке также могут использоваться как существительные).
Подобные правила могут быть реализованы с помощью простых конечных автоматов . См. Раздел «Тегирование части речи» для получения более общей информации, включая описание Penn Treebank и других наборов тегов.
Типичные теггеры Brill используют несколько сотен правил, которые могут быть разработаны лингвистической интуицией или машинным обучением на предварительно размеченном корпусе .
Код
Кодовые страницы Брилла в Университете Джона Хопкинса больше не доступны в Интернете. Архивную версию зеркала тэггера Brill в его последней версии, доступной в Plymouth Tech, можно найти на Archive.org. Программное обеспечение использует лицензию MIT .
Рекомендации
- ^ Эрик Брилл. 1992. Простая основанная на правилах часть речевого теггера. В материалах третьей конференции по прикладной обработке естественного языка (ANLC '92). Ассоциация компьютерной лингвистики, Страудсбург, Пенсильвания, США, 152–155. DOI : 10,3115 / 974499,974526
Внешние ссылки
- Brill tagger обучен голландскому языку (онлайн и офлайн версия)
- Brill tagger обучен новому норвежскому языку
- Brill tagger обучен датскому языку (онлайн-демонстрация)
- Brill tagger обучен английскому языку (онлайн-демонстрация)
- taggerXML Модернизированная версия тега Eric Brill's Part Of Speech (исходный код датской и английской версий выше)