Мелкий синтаксический анализ (также разбиение на части или легкий синтаксический анализ ) - это анализ предложения, который сначала определяет составные части предложения (существительные, глаголы, прилагательные и т. Д.), А затем связывает их с единицами более высокого порядка, которые имеют дискретное грамматическое значение ( группы существительных или фразы. , группы глаголов и т. д.). В то время как самые элементарные алгоритмы разбиения на части просто связывают составные части на основе элементарных шаблонов поиска (например, как указано в регулярных выражениях ), подходы, использующие методы машинного обучения (классификаторы, тематическое моделирование)и т. д.) могут учитывать контекстную информацию и, таким образом, составлять фрагменты таким образом, чтобы они лучше отражали семантические отношения между основными составляющими. [1] То есть эти более продвинутые методы позволяют обойти проблему, заключающуюся в том, что комбинации элементарных составляющих могут иметь разные значения более высокого уровня в зависимости от контекста предложения.
Это метод, широко используемый при обработке естественного языка . Это похоже на концепцию лексического анализа для компьютерных языков. Под названием «гипотеза неглубокой структуры» она также используется в качестве объяснения того, почему изучающие второй язык часто не могут правильно разобрать сложные предложения. [2]
Рекомендации
Цитаты
- ^ Джурафски, Даниэль ; Мартин, Джеймс Х. (2000). Обработка речи и языка . Сингапур: Pearson Education Inc., стр. 577–586.
- ^ Классен, Фелсер, Харальд, Клаудиа (2006). «Грамматическая обработка у изучающих язык». Прикладная психолингвистика . 27 : 3–42. DOI : 10.1017 / S0142716406060024 . S2CID 15990215 .
Источники
- "NP Chunking (Состояние дел)" . Ассоциация компьютерной лингвистики . Проверено 30 января 2016 .
- Эбни, Стивен (1991), Анализ по частям (PDF) , Kluwer Academic Publishers, стр. 257–278 Неизвестный параметр
|book-title=
игнорируется ( справка ) .
Внешние ссылки
- Apache OpenNLP OpenNLP включает чанкер.
- Общая архитектура GATE для текстовой инженерии GATE включает блок-фрагмент.
- НЛТК фрагментирование
- Демонстрация мелкого парсера Illinois Shallow Parser