Сегментация текста

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален.
Поиск источников: «Сегментация текста» - новости · газеты · книги · ученый · JSTOR ( октябрь 2011 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Сегментация текста - это процесс разделения письменного текста на значимые единицы, такие как слова, предложения или темы . Этот термин применяется как к умственным процессам, используемым людьми при чтении текста, так и к искусственным процессам, реализованным в компьютерах, которые являются предметом обработки естественного языка . Проблема нетривиальна, потому что, хотя некоторые письменные языки имеют явные маркеры границ слов, такие как пространство слов в письменном английском и отличительные начальные, средние и конечные формы букв арабского языка , такие сигналы иногда неоднозначны и не присутствуют во всех письменных языках. языков.

Сравните речевую сегментацию , процесс разделения речи на лингвистически значимые части.

Проблемы сегментации [ править ]

Сегментация слов [ править ]

Сегментация слов - это проблема разделения строки письменной речи на составляющие ее слова.

В английском и многих других языках, использующих ту или иную форму латинского алфавита , пробел является хорошим приближением к разделителю слов ( разделителю слов ), хотя у этой концепции есть ограничения из-за вариативности того, с какой языковой точки зрения они воспринимают словосочетания и соединения . Многие составные существительные в английском языке написаны по-разному (например, ice box = ice-box = icebox ; pig sty = pig-sty = pigsty ) с соответствующими вариациями того, думают ли говорящие о них как о фразах.или единственные существительные; Существуют тенденции в том, как устанавливаются нормы, например, открытые соединения часто имеют тенденцию к застыванию в соответствии с широко распространенными соглашениями, но вариации остаются системными. Напротив, немецкие составные существительные демонстрируют меньшую орфографическую вариативность, а затвердевание - более сильная норма.

Однако эквивалент символа пробела слова не встречается во всех письменных сценариях, и без него сегментация слов представляет собой сложную проблему. Языки, в которых нет тривиального процесса сегментации слов, включают китайский, японский, где разграничиваются предложения, но не слова, тайский и лаосский , где разграничиваются фразы и предложения, но не слова, и вьетнамский , где разграничиваются слоги, но не слова.

Однако в некоторых системах письма, таких как шрифт Ge'ez, используемый для амхарского и тигринья среди других языков, слова явно разграничены (по крайней мере, исторически) с помощью непробельного символа.

Консорциум Unicode опубликовал стандарт Приложение по сегментации текста , ^[1] изучает вопросы сегментации в multiscript текстов.

Разделение слов - это процесс анализа составного текста (т. Е. Текста, не содержащего пробелов или других разделителей слов), чтобы определить, где существуют разрывы слов.

Разделение слов может также относиться к процессу расстановки переносов .

Сегментация по намерениям [ править ]

Этот раздел может сбивать с толку или непонятно читателям . Помогите, пожалуйста, прояснить раздел . На странице обсуждения может быть обсуждение этого вопроса . ( Сентябрь 2019 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Намеренная сегментация - это проблема разделения написанных слов на ключевые фразы (2 или более группы слов).

В английском и всех других языках основное намерение или желание идентифицируется и становится краеугольным камнем ключевой фразы сегментации намерений. Основной продукт / услуга, идея, действие или мысль закрепляют ключевую фразу.

«[Все вещи состоят из атомов ]. [Маленькие частицы, которые движутся] [в постоянном движении ], [притягивают друг друга ] [когда они находятся на небольшом расстоянии друг от друга], [но отталкиваются ] [при сжатии ] [в одну другой ] ".

Сегментация предложения [ править ]

Сегментация предложений - это проблема разделения строки письменного языка на составные предложения . В английском и некоторых других языках, используя знаки препинания, в частности, полная остановка / период символ является разумным приближением. Однако даже в английском языке эта проблема не является тривиальной из-за использования символа полной остановки для сокращений, которые могут или не могут также завершать предложение. Например, мистер не является его собственным предложением в « Мистер Смит пошел в магазины на Джонс-стрит». При обработке обычного текста таблицы сокращений, содержащие точки, могут помочь предотвратить неправильное назначение границ предложения.

Как и в случае сегментации слов, не все письменные языки содержат знаки препинания, которые полезны для приближения границ предложения.

Сегментация тем [ править ]

Тематический анализ состоит из двух основных задач: определение темы и сегментация текста. В то время как первый представляет собой простую классификацию определенного текста, последний случай подразумевает, что документ может содержать несколько тем, и задача компьютерной сегментации текста может заключаться в автоматическом обнаружении этих тем и соответствующем сегментировании текста. Границы темы могут быть видны из заголовков разделов и абзацев. В других случаях необходимо использовать методы, аналогичные тем, которые используются при классификации документов .

Сегментация текста на темы или повороты бесед может быть полезна в некоторых задачах естественной обработки: она может значительно улучшить поиск информации или распознавание речи (путем более точного индексирования / распознавания документов или предоставления в результате определенной части документа, соответствующей запросу. ). Это также необходимо в системах обнаружения и отслеживания тем и в задачах обобщения текста .

Было испробовано множество различных подходов: ^[2]^[3] например, HMM , лексические цепочки , сходство отрывков с использованием совпадения слов , кластеризация , тематическое моделирование и т. Д.

Это довольно неоднозначная задача - люди, оценивающие системы сегментации текста, часто различаются по тематическим границам. Следовательно, оценка текстового сегмента также является сложной задачей.

Другие проблемы сегментации [ править ]

Процессы могут потребоваться для сегментации текста на сегменты, помимо упомянутых, включая морфемы (задача, обычно называемая морфологическим анализом ) или параграфы .

Подходы к автоматической сегментации [ править ]

Автоматическая сегментация - это проблема при обработке естественного языка, когда компьютерный процесс сегментирует текст.

Когда знаки препинания и аналогичные подсказки не всегда доступны, задача сегментации часто требует довольно нетривиальных методов, таких как принятие статистических решений, большие словари, а также учет синтаксических и семантических ограничений. Эффективные системы обработки естественного языка и инструменты сегментации текста обычно работают с текстом в определенных областях и источниках. Например, обработка текста, используемого в медицинских записях, представляет собой совсем другую проблему, чем обработку новостных статей или объявлений о недвижимости.

Процесс разработки инструментов сегментации текста начинается со сбора большого корпуса текста в домене приложения. Есть два общих подхода:

Ручной анализ текста и написание нестандартного ПО
Добавьте в образец корпуса информацию о границах и используйте машинное обучение

Некоторые системы сегментации текста используют любую разметку, такую как HTML, и знают форматы документов, такие как PDF, чтобы предоставить дополнительные доказательства границ предложений и абзацев.

См. Также [ править ]

Перенос
Обработка естественного языка
Сегментация речи
Лексический анализ
Количество слов
Разрыв строки

Ссылки [ править ]

^ UAX # 29
^ Freddy YY Choi (2000). «Достижения в области независимой линейной сегментации текста» (PDF) . Труды 1-го заседания Североамериканского отделения Ассоциации компьютерной лингвистики (ANLP-NAACL-00) . С. 26–33.
^ Джеффри К. Рейнар (1998). «Тематическая сегментация: алгоритмы и приложения» (PDF) . IRCS-98-21. Пенсильванский университет . Проверено 8 ноября 2007 года . Cite journal requires |journal= (help)

[1] UAX # 29

[2] Freddy YY Choi (2000). «Достижения в области независимой линейной сегментации текста» (PDF) . Труды 1-го заседания Североамериканского отделения Ассоциации компьютерной лингвистики (ANLP-NAACL-00) . С. 26–33.

[3] Джеффри К. Рейнар (1998). «Тематическая сегментация: алгоритмы и приложения» (PDF) . IRCS-98-21. Пенсильванский университет . Проверено 8 ноября 2007 года . Cite journal requires |journal= (help)

vтеОбработка естественного языка
Общие условия	AI-полный Мешок слов н-грамм Биграмма Триграмма Понимание естественного языка Речевой корпус Stopwords Текстовый корпус
Анализ текста	Извлечение словосочетаний Концепция майнинга Обработка сложных терминов Разрешение Coreference Лемматизация Признание именной организации Изучение онтологий Парсинг Пометка части речи Семантическое сходство Анализ настроений Стемминг Извлечение терминологии Фрагменты текста Сегментация текста Сегментация предложения Сегментация слов Текстовое следствие Truecasing Устранение смысловой неоднозначности
Автоматическое суммирование	Резюме из нескольких документов Извлечение приговора Упрощение текста
Машинный перевод	Компьютерная На основе примера Основанный на правилах Нейронный
Автоматическая идентификация и сбор данных	Распознавание речи Сегментация речи Синтез речи Генерация естественного языка Оптическое распознавание символов
Тематическая модель	Скрытое размещение Дирихле Скрытый семантический анализ Распределение патинко
Компьютерное рецензирование	Автоматическая оценка эссе Конкордансер Проверка грамматики Интеллектуального ввода текста Программа проверки орфографии Угадывание синтаксиса
Пользовательский интерфейс на естественном языке	Чат-бот Интерактивная фантастика Ответ на вопрос Виртуальный помощник Голосовой пользовательский интерфейс