Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Лемматизация ( или лемматизация ) в лингвистике - это процесс группирования вместе изменяемых форм слова, чтобы их можно было анализировать как единый элемент, идентифицируемый леммой слова или словарной формой. [1]

В компьютерной лингвистике лемматизация - это алгоритмический процесс определения леммы слова на основе его предполагаемого значения. В отличии от вытекающих , лемматизация зависит от правильного определения намеченной части речи и смысла слова в предложении, а также в более широком контексте , окружающая эту фразу, например, соседние предложения или даже весь документе. В результате разработка эффективных алгоритмов лемматизации остается открытой областью исследований. [2] [3] [4]

Описание [ править ]

Во многих языках слова имеют несколько изменяемых форм. Например, в английском языке глагол «to walk» может выглядеть как «walk», «walking», «walk» или «walking». Базовая форма «прогулка», которую можно найти в словаре, называется леммой для слова. Связь основной формы с частью речи часто называют лексемой слова.

Лемматизация тесно связана с выращиванием стеблей . Разница в том, что стеммер оперирует одним словом без знания контекста и, следовательно, не может различать слова, которые имеют разные значения в зависимости от части речи. Тем не менее, стеммеры обычно проще в использовании и работают быстрее. Пониженная «точность» может не иметь значения для некоторых приложений. Фактически, при использовании в системах поиска информации стемминг улучшает точность отзыва запроса или истинно положительную скорость по сравнению с лемматизацией. Тем не менее, устранение препятствий снижает точность или долю положительно помеченных экземпляров, которые действительно являются положительными, для таких систем. [5]

Например:

  1. Слово «лучше» имеет в качестве леммы «хорошо». Эта ссылка пропущена при поиске по словарю.
  2. Слово «прогулка» является базовой формой для слова «ходьба», и, следовательно, оно совпадает как в стемминге, так и в лемматизации.
  3. Слово «встреча» может быть основной формой существительного или формой глагола («встречаться») в зависимости от контекста; например, «на нашей последней встрече» или «Мы снова встречаемся завтра». В отличие от стемминга, лемматизация пытается выбрать правильную лемму в зависимости от контекста.

Программное обеспечение для индексирования документов, такое как Lucene [6], может сохранять базовый формат слова без знания значения, но только с учетом правил грамматики словообразования. Само слово с корнем не может быть допустимым словом: слово «ленивый», как видно из приведенного ниже примера, многими корнями происходит от слова «лази». Это связано с тем, что цель выделения не состоит в том, чтобы создать соответствующую лемму - это более сложная задача, требующая знания контекста. Основная цель создания корней - сопоставить разные формы слова с одной формой. [7] Как алгоритм, основанный на правилах, зависящий только от написания слова, он жертвует точностью, чтобы гарантировать, что, например, когда слово «лень» переходит в «ленивый», оно имеет ту же основу, что и «ленивый».

Алгоритмы [ править ]

Тривиальный способ выполнить лемматизацию - это простой поиск по словарю. Это хорошо работает для простых изменяемых форм, но система, основанная на правилах, потребуется для других случаев, например, в языках с длинными составными словами . Такие правила могут быть созданы вручную или изучены автоматически из аннотированного корпуса.

Использование в биомедицине [ править ]

Морфологический анализ опубликованной биомедицинской литературы может дать полезные результаты. Морфологическая обработка биомедицинского текста может быть более эффективной с помощью специальной программы лемматизации для биомедицины и может повысить точность практических задач извлечения информации . [8]

См. Также [ править ]

Ссылки [ править ]

  1. ^ Словарь английского языка Коллинза , запись для "lemmatise"
  2. ^ "WebBANC: Создание семантически богатых аннотированных корпусов из аннотаций веб-пользователей языков меньшинств" (PDF) .
  3. ^ Мюллер, Томас; Коттерелл, Райан; Фрейзер, Александр; Шютце, Хинрих (2015). Совместная лемматизация и морфологические теги с LEMMING (PDF) . 2015 Конференция по эмпирическим методам обработки естественного языка. Лиссабон: Ассоциация компьютерной лингвистики. С. 2268–2274. DOI : 10.18653 / v1 / D15-1272 .
  4. ^ Бергманис, Томс; Голдуотер, Шэрон. «Контекстно-зависимая нейронная лемматизация с Lematus» (PDF) .
  5. ^ Мэннинг, Кристофер Д .; Рагхаван, Прабхакар; Шютце, Хинрих. «Введение в поиск информации» . Издательство Кембриджского университета.
  6. ^ "Lucene Snowball" . Проект Apache.
  7. ^ Мартин Портер. "Портер Стеммер" .
  8. ^ Лю, H .; Christiansen, T .; Баумгартнер, Вашингтон; Верспур, К. (2012). «BioLemmatizer: инструмент лемматизации для морфологической обработки биомедицинского текста» . Журнал биомедицинской семантики . 3 : 3. DOI : 10,1186 / 2041-1480-3-3 . PMC 3359276 . PMID 22464129 .  

Внешние ссылки [ править ]