Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Сегментация текста - это процесс разделения письменного текста на значимые единицы, такие как слова, предложения или темы . Этот термин применяется как к умственным процессам, используемым людьми при чтении текста, так и к искусственным процессам, реализованным в компьютерах, которые являются предметом обработки естественного языка . Проблема нетривиальна, потому что, хотя некоторые письменные языки имеют явные маркеры границ слов, такие как пространство слов в письменном английском и отличительные начальные, средние и конечные формы букв арабского языка , такие сигналы иногда неоднозначны и не присутствуют во всех письменных языках. языков.

Сравните речевую сегментацию , процесс разделения речи на лингвистически значимые части.

Проблемы сегментации [ править ]

Сегментация слов [ править ]

Сегментация слов - это проблема разделения строки письменной речи на составляющие ее слова.

В английском и многих других языках, использующих ту или иную форму латинского алфавита , пробел является хорошим приближением к разделителю слов ( разделителю слов ), хотя у этой концепции есть ограничения из-за вариативности того, с какой языковой точки зрения они воспринимают словосочетания и соединения . Многие составные существительные в английском языке написаны по-разному (например, ice box = ice-box = icebox ; pig sty = pig-sty = pigsty ) с соответствующими вариациями того, думают ли говорящие о них как о фразах.или единственные существительные; Существуют тенденции в том, как устанавливаются нормы, например, открытые соединения часто имеют тенденцию к застыванию в соответствии с широко распространенными соглашениями, но вариации остаются системными. Напротив, немецкие составные существительные демонстрируют меньшую орфографическую вариативность, а затвердевание - более сильная норма.

Однако эквивалент символа пробела слова не встречается во всех письменных сценариях, и без него сегментация слов представляет собой сложную проблему. Языки, в которых нет тривиального процесса сегментации слов, включают китайский, японский, где разграничиваются предложения, но не слова, тайский и лаосский , где разграничиваются фразы и предложения, но не слова, и вьетнамский , где разграничиваются слоги, но не слова.

Однако в некоторых системах письма, таких как шрифт Ge'ez, используемый для амхарского и тигринья среди других языков, слова явно разграничены (по крайней мере, исторически) с помощью непробельного символа.

Консорциум Unicode опубликовал стандарт Приложение по сегментации текста , [1] изучает вопросы сегментации в multiscript текстов.

Разделение слов - это процесс анализа составного текста (т. Е. Текста, не содержащего пробелов или других разделителей слов), чтобы определить, где существуют разрывы слов.

Разделение слов может также относиться к процессу расстановки переносов .

Сегментация по намерениям [ править ]

Намеренная сегментация - это проблема разделения написанных слов на ключевые фразы (2 или более группы слов).

В английском и всех других языках основное намерение или желание идентифицируется и становится краеугольным камнем ключевой фразы сегментации намерений. Основной продукт / услуга, идея, действие или мысль закрепляют ключевую фразу.

«[Все вещи состоят из атомов ]. [Маленькие частицы, которые движутся] [в постоянном движении ], [притягивают друг друга ] [когда они находятся на небольшом расстоянии друг от друга], [но отталкиваются ] [при сжатии ] [в одну другой ] ".

Сегментация предложения [ править ]

Сегментация предложений - это проблема разделения строки письменного языка на составные предложения . В английском и некоторых других языках, используя знаки препинания, в частности, полная остановка / период символ является разумным приближением. Однако даже в английском языке эта проблема не является тривиальной из-за использования символа полной остановки для сокращений, которые могут или не могут также завершать предложение. Например, мистер не является его собственным предложением в « Мистер Смит пошел в магазины на Джонс-стрит». При обработке обычного текста таблицы сокращений, содержащие точки, могут помочь предотвратить неправильное назначение границ предложения.

Как и в случае сегментации слов, не все письменные языки содержат знаки препинания, которые полезны для приближения границ предложения.

Сегментация тем [ править ]

Тематический анализ состоит из двух основных задач: определение темы и сегментация текста. В то время как первый представляет собой простую классификацию определенного текста, последний случай подразумевает, что документ может содержать несколько тем, и задача компьютерной сегментации текста может заключаться в автоматическом обнаружении этих тем и соответствующем сегментировании текста. Границы темы могут быть видны из заголовков разделов и абзацев. В других случаях необходимо использовать методы, аналогичные тем, которые используются при классификации документов .

Сегментация текста на темы или повороты бесед может быть полезна в некоторых задачах естественной обработки: она может значительно улучшить поиск информации или распознавание речи (путем более точного индексирования / распознавания документов или предоставления в результате определенной части документа, соответствующей запросу. ). Это также необходимо в системах обнаружения и отслеживания тем и в задачах обобщения текста .

Было испробовано множество различных подходов: [2] [3] например, HMM , лексические цепочки , сходство отрывков с использованием совпадения слов , кластеризация , тематическое моделирование и т. Д.

Это довольно неоднозначная задача - люди, оценивающие системы сегментации текста, часто различаются по тематическим границам. Следовательно, оценка текстового сегмента также является сложной задачей.

Другие проблемы сегментации [ править ]

Процессы могут потребоваться для сегментации текста на сегменты, помимо упомянутых, включая морфемы (задача, обычно называемая морфологическим анализом ) или параграфы .

Подходы к автоматической сегментации [ править ]

Автоматическая сегментация - это проблема при обработке естественного языка, когда компьютерный процесс сегментирует текст.

Когда знаки препинания и аналогичные подсказки не всегда доступны, задача сегментации часто требует довольно нетривиальных методов, таких как принятие статистических решений, большие словари, а также учет синтаксических и семантических ограничений. Эффективные системы обработки естественного языка и инструменты сегментации текста обычно работают с текстом в определенных областях и источниках. Например, обработка текста, используемого в медицинских записях, представляет собой совсем другую проблему, чем обработку новостных статей или объявлений о недвижимости.

Процесс разработки инструментов сегментации текста начинается со сбора большого корпуса текста в домене приложения. Есть два общих подхода:

  • Ручной анализ текста и написание нестандартного ПО
  • Добавьте в образец корпуса информацию о границах и используйте машинное обучение

Некоторые системы сегментации текста используют любую разметку, такую ​​как HTML, и знают форматы документов, такие как PDF, чтобы предоставить дополнительные доказательства границ предложений и абзацев.

См. Также [ править ]

  • Перенос
  • Обработка естественного языка
  • Сегментация речи
  • Лексический анализ
  • Количество слов
  • Разрыв строки

Ссылки [ править ]

  1. ^ UAX # 29
  2. ^ Freddy YY Choi (2000). «Достижения в области независимой линейной сегментации текста» (PDF) . Труды 1-го заседания Североамериканского отделения Ассоциации компьютерной лингвистики (ANLP-NAACL-00) . С. 26–33.
  3. ^ Джеффри К. Рейнар (1998). «Тематическая сегментация: алгоритмы и приложения» (PDF) . IRCS-98-21. Пенсильванский университет . Проверено 8 ноября 2007 года . Cite journal requires |journal= (help)