Приговорить граничное устранение неоднозначности ( SBD ), также известное как приговор нарушение , границ обнаружения предложения и сегментация предложения , является проблемой естественного языка обработки в принятии решения , где предложения начинаются и заканчиваются. Инструменты обработки естественного языка часто требуют, чтобы их вводные данные были разделены на предложения; однако идентификация границ предложения может быть сложной задачей из-за потенциальной неоднозначности знаков препинания . В письменном английском , период может означать конец предложения, или может обозначать аббревиатурой , а десятичную точку ,многоточие или адрес электронной почты, среди других возможностей. Около 47% точек в корпусе Wall Street Journal обозначают сокращения. [1] Вопросительные и восклицательные знаки могут быть столь же двусмысленными из-за использования в смайликах , компьютерном коде и сленге .
Некоторые языки, включая японский и китайский, имеют однозначные маркеры окончания предложения.
Стратегии [ править ]
Стандартный « ванильный » подход к поиску конца предложения: [ требуется пояснение ]
- (а) Если это точка, она заканчивает предложение.
- (b) Если предыдущий токен присутствует в составленном вручную списке сокращений , то он не заканчивает предложение.
- (c) Если следующий токен написан с заглавной буквы, он завершает предложение.
Эта стратегия дает правильные примерно 95% предложений. [2] Такие вещи, как сокращенные имена, например, « Д.Х. Лоуренс » (с пробелами между отдельными словами, образующими полное имя), идиосинкразические орфографические варианты написания, используемые в стилистических целях (часто относящиеся к одному понятию, например, к названию развлекательного продукта, например " .hack // SIGN «) и использование нестандартных знаков препинания (или нестандартного использования в пунктуации) в тексте часто попадают под оставшиеся 5%.
Другой подход заключается в автоматическом изучении набора правил из набора документов, в которых разрывы предложений отмечены заранее. Решения были основаны на модели максимальной энтропии . [3] Архитектура SATZ использует нейронную сеть для устранения неоднозначности границ предложений и обеспечивает точность 98,5%.
Программное обеспечение [ править ]
- Примеры использования регулярных выражений, совместимых с Perl (" PCRE ")
((?<=[a-z0-9][.?!])|(?<=[a-z0-9][.?!]\"))(\s|\r\n)(?=\"?[A-Z])
$sentences = preg_split("/(?<!\..)([\?\!\.]+)\s(?!.\.)/", $text, -1, PREG_SPLIT_DELIM_CAPTURE);
(для PHP )
- Использование в Интернете, библиотеки и API
- sent_detector - Java
- Lingua-EN-Sentence - perl
- Sentence.pm - perl
- SATZ - Система адаптивной сегментации предложений - Дэвид Д. Палмер - C
- Наборы инструментов, которые включают обнаружение предложений
- Apache OpenNLP - [1]
- Freeling (программное обеспечение) - [2]
- Инструментарий естественного языка - [3]
- Стэнфордское НЛП - [4]
- GExp - [5]
- CogComp-НЛП
См. Также [ править ]
- Расстояние между предложениями
- Разделитель слов
- Слоговая форма
- Пунктуация
- Сегментация текста
- Сегментация речи
- Извлечение приговора
- Память переводов
- Выражение из нескольких слов
Ссылки [ править ]
- ^ E. STAMATATOS; Н. ФАКОТАКИС, Г. КОККИНАКИС. «1 АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ ПРАВИЛ ПРЕДОСТАВЛЕНИЯ ГРАНИЦ ДИСАМБИГУАЦИИ» . Университет Патры . Проверено 3 января 2009 . CS1 maint: обескураженный параметр ( ссылка )
- ^ О'Нил, Джон. «Работа со словами, часть вторая: определение границ предложения» . Проверено 3 января 2009 . CS1 maint: обескураженный параметр ( ссылка )
- ^ Рейнар, JC; Ратнапархи, А. "Максимальный энтропийный подход к определению границ предложения" (PDF) . Проверено 3 января 2009 . CS1 maint: обескураженный параметр ( ссылка )
Внешние ссылки [ править ]
- Поиск «предложения пограничной неоднозначности» , Google Scholar .