Интеллектуальный анализ текста


Интеллектуальный анализ текста , интеллектуальный анализ текстовых данных ( TDM ) или текстовая аналитика — это процесс извлечения высококачественной информации из текста . Он включает в себя «обнаружение компьютером новой, ранее неизвестной информации путем автоматического извлечения информации из различных письменных ресурсов». [1] Письменные ресурсы могут включать веб-сайты , книги , электронные письма , обзоры и статьи. Высококачественная информация обычно получается путем разработки закономерностей и тенденций с помощью таких средств, как изучение статистических закономерностей.. Согласно Hotho et al. (2005) мы можем различать три различных аспекта интеллектуального анализа текста: извлечение информации , интеллектуальный анализ данных и процесс обнаружения знаний в базах данных (KDD). [2] Интеллектуальный анализ текста обычно включает в себя процесс структурирования входного текста (обычно синтаксический анализ вместе с добавлением одних производных лингвистических признаков и удалением других и последующей вставкой в ​​базу данных ) , получение шаблонов в структурированных данных и, наконец, оценка и интерпретация результатов. «Высокое качество» в текстовом анализе обычно относится к некоторому сочетанию релевантности , новизны и, и проценты. Типичные задачи интеллектуального анализа текста включают категоризацию текста , кластеризацию текста , извлечение понятий/сущностей, создание гранулярных таксономий, анализ настроений , обобщение документов и моделирование отношений сущностей ( т. е . изучение отношений между именованными сущностями ).

Анализ текста включает в себя поиск информации , лексический анализ для изучения частотного распределения слов, распознавание образов , теги / аннотации , извлечение информации , методы интеллектуального анализа данных , включая анализ связей и ассоциаций, визуализацию и прогнозную аналитику . Основная цель состоит в том, чтобы превратить текст в данные для анализа с помощью обработки естественного языка (NLP), различных типов алгоритмов и аналитических методов. Важным этапом этого процесса является интерпретация собранной информации.

Типичным приложением является сканирование набора документов, написанных на естественном языке , и либо моделирование набора документов для целей прогностической классификации , либо заполнение базы данных или поискового индекса извлеченной информацией. Документ является основным элементом при запуске анализа текста . Здесь мы определяем документ как единицу текстовых данных, которая обычно существует во многих типах коллекций. [3]

Текстовая аналитика описывает набор лингвистических , статистических и машинных методов обучения, которые моделируют и структурируют информационное содержание текстовых источников для бизнес-аналитики , исследовательского анализа данных , исследований или расследований. [4] Этот термин является примерно синонимом интеллектуального анализа текста; действительно, Ронен Фельдман изменил описание «интеллектуального анализа текста» 2000 года [5] в 2004 году, чтобы описать «анализ текста». [6] Последний термин теперь чаще используется в бизнес-среде, в то время как «интеллектуальный анализ текста» используется в некоторых из самых ранних областей применения, начиная с 1980-х годов.[7] особенно исследования в области наук о жизни и правительственная разведка.

Термин «текстовая аналитика» также описывает такое применение текстовой аналитики для решения бизнес-задач независимо или в сочетании с запросом и анализом полевых числовых данных. Общеизвестно, что 80 процентов важной для бизнеса информации исходит из неструктурированной формы, в основном в виде текста. [8] Эти методы и процессы обнаруживают и представляют знания — факты, бизнес-правила и отношения, — которые в противном случае заперты в текстовой форме, непроницаемой для автоматизированной обработки.


Пример протокола интеллектуального анализа текста, используемого при изучении белок-белковых комплексов или докинга белков . [18]
Нарративная сеть выборов в США 2012 г. [43]
Видео кампании Fix Copyright, объясняющее TDM и проблемы авторского права в ЕС, 2016 г. [3:51]