Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Приговорить граничное устранение неоднозначности ( SBD ), также известное как приговор нарушение , границ обнаружения предложения и сегментация предложения , является проблемой естественного языка обработки в принятии решения , где предложения начинаются и заканчиваются. Инструменты обработки естественного языка часто требуют, чтобы их вводные данные были разделены на предложения; однако идентификация границ предложения может быть сложной задачей из-за потенциальной неоднозначности знаков препинания . В письменном английском , период может означать конец предложения, или может обозначать аббревиатурой , а десятичную точку ,многоточие или адрес электронной почты, среди других возможностей. Около 47% точек в корпусе Wall Street Journal обозначают сокращения. [1] Вопросительные и восклицательные знаки могут быть столь же двусмысленными из-за использования в смайликах , компьютерном коде и сленге .

Некоторые языки, включая японский и китайский, имеют однозначные маркеры окончания предложения.

Стратегии [ править ]

Стандартный « ванильный » подход к поиску конца предложения: [ требуется пояснение ]

(а) Если это точка, она заканчивает предложение.
(b) Если предыдущий токен присутствует в составленном вручную списке сокращений , то он не заканчивает предложение.
(c) Если следующий токен написан с заглавной буквы, он завершает предложение.

Эта стратегия дает правильные примерно 95% предложений. [2] Такие вещи, как сокращенные имена, например, « Д.Х. Лоуренс » (с пробелами между отдельными словами, образующими полное имя), идиосинкразические орфографические варианты написания, используемые в стилистических целях (часто относящиеся к одному понятию, например, к названию развлекательного продукта, например " .hack // SIGN «) и использование нестандартных знаков препинания (или нестандартного использования в пунктуации) в тексте часто попадают под оставшиеся 5%.

Другой подход заключается в автоматическом изучении набора правил из набора документов, в которых разрывы предложений отмечены заранее. Решения были основаны на модели максимальной энтропии . [3] Архитектура SATZ использует нейронную сеть для устранения неоднозначности границ предложений и обеспечивает точность 98,5%.

Программное обеспечение [ править ]

Примеры использования регулярных выражений, совместимых с Perl (" PCRE ")
  • ((?<=[a-z0-9][.?!])|(?<=[a-z0-9][.?!]\"))(\s|\r\n)(?=\"?[A-Z])
  • $sentences = preg_split("/(?<!\..)([\?\!\.]+)\s(?!.\.)/", $text, -1, PREG_SPLIT_DELIM_CAPTURE);(для PHP )
Использование в Интернете, библиотеки и API
Наборы инструментов, которые включают обнаружение предложений
  • Apache OpenNLP  - [1]
  • Freeling (программное обеспечение)  - [2]
  • Инструментарий естественного языка  - [3]
  • Стэнфордское НЛП  - [4]
  • GExp  - [5]
  • CogComp-НЛП

См. Также [ править ]

  • Расстояние между предложениями
  • Разделитель слов
  • Слоговая форма
  • Пунктуация
  • Сегментация текста
  • Сегментация речи
  • Извлечение приговора
  • Память переводов
  • Выражение из нескольких слов

Ссылки [ править ]

  1. ^ E. STAMATATOS; Н. ФАКОТАКИС, Г. КОККИНАКИС. «1 АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ ПРАВИЛ ПРЕДОСТАВЛЕНИЯ ГРАНИЦ ДИСАМБИГУАЦИИ» . Университет Патры . Проверено 3 января 2009 . CS1 maint: обескураженный параметр ( ссылка )
  2. ^ О'Нил, Джон. «Работа со словами, часть вторая: определение границ предложения» . Проверено 3 января 2009 . CS1 maint: обескураженный параметр ( ссылка )
  3. ^ Рейнар, JC; Ратнапархи, А. "Максимальный энтропийный подход к определению границ предложения" (PDF) . Проверено 3 января 2009 . CS1 maint: обескураженный параметр ( ссылка )

Внешние ссылки [ править ]

  • Поиск «предложения пограничной неоднозначности» , Google Scholar .