Лемматизация

Лемматизация ( или лемматизация ) в лингвистике - это процесс группирования вместе изменяемых форм слова, чтобы их можно было анализировать как единый элемент, идентифицируемый леммой слова или словарной формой. ^[1]

В компьютерной лингвистике лемматизация - это алгоритмический процесс определения леммы слова на основе его предполагаемого значения. В отличии от вытекающих , лемматизация зависит от правильного определения намеченной части речи и смысла слова в предложении, а также в более широком контексте , окружающая эту фразу, например, соседние предложения или даже весь документе. В результате разработка эффективных алгоритмов лемматизации остается открытой областью исследований. ^[2]^[3]^[4]

Описание [ править ]

Во многих языках слова имеют несколько изменяемых форм. Например, в английском языке глагол «to walk» может выглядеть как «walk», «walking», «walk» или «walking». Базовая форма «прогулка», которую можно найти в словаре, называется леммой для слова. Связь основной формы с частью речи часто называют лексемой слова.

Лемматизация тесно связана с выращиванием стеблей . Разница в том, что стеммер оперирует одним словом без знания контекста и, следовательно, не может различать слова, которые имеют разные значения в зависимости от части речи. Тем не менее, стеммеры обычно проще в использовании и работают быстрее. Пониженная «точность» может не иметь значения для некоторых приложений. Фактически, при использовании в системах поиска информации стемминг улучшает точность отзыва запроса или истинно положительную скорость по сравнению с лемматизацией. Тем не менее, устранение препятствий снижает точность или долю положительно помеченных экземпляров, которые действительно являются положительными, для таких систем. ^[5]

Например:

Слово «лучше» имеет в качестве леммы «хорошо». Эта ссылка пропущена при поиске по словарю.
Слово «прогулка» является базовой формой для слова «ходьба», и, следовательно, оно совпадает как в стемминге, так и в лемматизации.
Слово «встреча» может быть основной формой существительного или формой глагола («встречаться») в зависимости от контекста; например, «на нашей последней встрече» или «Мы снова встречаемся завтра». В отличие от стемминга, лемматизация пытается выбрать правильную лемму в зависимости от контекста.

Программное обеспечение для индексирования документов, такое как Lucene ^[6], может сохранять базовый формат слова без знания значения, но только с учетом правил грамматики словообразования. Само слово с корнем не может быть допустимым словом: слово «ленивый», как видно из приведенного ниже примера, многими корнями происходит от слова «лази». Это связано с тем, что цель выделения не состоит в том, чтобы создать соответствующую лемму - это более сложная задача, требующая знания контекста. Основная цель создания корней - сопоставить разные формы слова с одной формой. ^[7] Как алгоритм, основанный на правилах, зависящий только от написания слова, он жертвует точностью, чтобы гарантировать, что, например, когда слово «лень» переходит в «ленивый», оно имеет ту же основу, что и «ленивый».

Алгоритмы [ править ]

Тривиальный способ выполнить лемматизацию - это простой поиск по словарю. Это хорошо работает для простых изменяемых форм, но система, основанная на правилах, потребуется для других случаев, например, в языках с длинными составными словами . Такие правила могут быть созданы вручную или изучены автоматически из аннотированного корпуса.

Использование в биомедицине [ править ]

Морфологический анализ опубликованной биомедицинской литературы может дать полезные результаты. Морфологическая обработка биомедицинского текста может быть более эффективной с помощью специальной программы лемматизации для биомедицины и может повысить точность практических задач извлечения информации . ^[8]

См. Также [ править ]

Канонизация

Ссылки [ править ]

^ Словарь английского языка Коллинза , запись для "lemmatise"
^ "WebBANC: Создание семантически богатых аннотированных корпусов из аннотаций веб-пользователей языков меньшинств" (PDF) .
^ Мюллер, Томас; Коттерелл, Райан; Фрейзер, Александр; Шютце, Хинрих (2015). Совместная лемматизация и морфологические теги с LEMMING (PDF) . 2015 Конференция по эмпирическим методам обработки естественного языка. Лиссабон: Ассоциация компьютерной лингвистики. С. 2268–2274. DOI : 10.18653 / v1 / D15-1272 .
^ Бергманис, Томс; Голдуотер, Шэрон. «Контекстно-зависимая нейронная лемматизация с Lematus» (PDF) .
^ Мэннинг, Кристофер Д .; Рагхаван, Прабхакар; Шютце, Хинрих. «Введение в поиск информации» . Издательство Кембриджского университета.
^ "Lucene Snowball" . Проект Apache.
^ Мартин Портер. "Портер Стеммер" .
^ Лю, H .; Christiansen, T .; Баумгартнер, Вашингтон; Верспур, К. (2012). «BioLemmatizer: инструмент лемматизации для морфологической обработки биомедицинского текста» . Журнал биомедицинской семантики . 3 : 3. DOI : 10,1186 / 2041-1480-3-3 . PMC 3359276 . PMID 22464129 .

Внешние ссылки [ править ]

Поищите лемматизацию в Викисловаре, бесплатном словаре.

[1] Словарь английского языка Коллинза , запись для "lemmatise"

[Semantic_Annotation_Research-2] "WebBANC: Создание семантически богатых аннотированных корпусов из аннотаций веб-пользователей языков меньшинств" (PDF) .

[Muller,_University_of_Munich-3] Мюллер, Томас; Коттерелл, Райан; Фрейзер, Александр; Шютце, Хинрих (2015). Совместная лемматизация и морфологические теги с LEMMING (PDF) . 2015 Конференция по эмпирическим методам обработки естественного языка. Лиссабон: Ассоциация компьютерной лингвистики. С. 2268–2274. DOI : 10.18653 / v1 / D15-1272 .

[4] Бергманис, Томс; Голдуотер, Шэрон. «Контекстно-зависимая нейронная лемматизация с Lematus» (PDF) .

[Stanford_Information_Retrieval_Book-5] Мэннинг, Кристофер Д .; Рагхаван, Прабхакар; Шютце, Хинрих. «Введение в поиск информации» . Издательство Кембриджского университета.

[Lucene_Snowball-6] "Lucene Snowball" . Проект Apache.

[Porter_Stemmer-7] Мартин Портер. "Портер Стеммер" .

[8] Лю, H .; Christiansen, T .; Баумгартнер, Вашингтон; Верспур, К. (2012). «BioLemmatizer: инструмент лемматизации для морфологической обработки биомедицинского текста» . Журнал биомедицинской семантики . 3 : 3. DOI : 10,1186 / 2041-1480-3-3 . PMC 3359276 . PMID 22464129 .

[1]

vтеОбработка естественного языка
Общие условия	AI-полный Мешок слов н-грамм Биграмма Триграмма Понимание естественного языка Речевой корпус Stopwords Текстовый корпус
Анализ текста	Извлечение словосочетаний Концепция майнинга Обработка сложных терминов Разрешение Coreference Лемматизация Признание именной организации Изучение онтологий Парсинг Пометка части речи Семантическое сходство Анализ настроений Стемминг Извлечение терминологии Фрагменты текста Сегментация текста Сегментация предложения Сегментация слов Текстовое следствие Truecasing Устранение смысловой неоднозначности
Автоматическое суммирование	Резюме из нескольких документов Извлечение приговора Упрощение текста
Машинный перевод	Компьютерная На основе примера Основанный на правилах Нейронный
Автоматическая идентификация и сбор данных	Распознавание речи Сегментация речи Синтез речи Генерация естественного языка Оптическое распознавание символов
Тематическая модель	Скрытое размещение Дирихле Скрытый семантический анализ Распределение патинко
Компьютерное рецензирование	Автоматическая оценка эссе Конкордансер Проверка грамматики Предсказуемый текст Программа проверки орфографии Угадывание синтаксиса
Пользовательский интерфейс на естественном языке	Чат-бот Интерактивная фантастика Ответ на вопрос Виртуальный помощник Голосовой пользовательский интерфейс