Текстовый майнинг


Интеллектуальный анализ текста , также называемый интеллектуальным анализом текстовых данных , похож на текстовую аналитику , - это процесс получения высококачественной информации из текста . Он включает в себя «обнаружение компьютером новой, ранее неизвестной информации путем автоматического извлечения информации из различных письменных ресурсов». [1] Письменные ресурсы могут включать веб-сайты , книги , электронные письма , обзоры и статьи. Качественная информация обычно получается путем разработки шаблонов и тенденций с помощью таких средств, как статистическое изучение шаблонов.. Согласно Hotho et al. (2005) мы можем различать три разных точки зрения интеллектуального анализа текста: извлечение информации , интеллектуальный анализ данных и процесс KDD (обнаружение знаний в базах данных). [2] Интеллектуальный анализ текста обычно включает в себя процесс структурирования входного текста (обычно анализ с добавлением некоторых производных лингвистических функций и удаление других с последующей вставкой в базу данных ), получение шаблонов в структурированных данных и, наконец, оценка и интерпретация результатов. «Высокое качество» в интеллектуальном анализе текста обычно относится к некоторому сочетанию актуальности , новизны и интереса. Задачи горнодобывающих Типичный текста включают текст категоризацию , наслоение текста , концепцию / извлечение сущности, производство гранулированных таксономии, анализ настроений , документ обобщению и моделирование отношения сущностей ( т.е. , изучение отношений между названными лицами ).

Анализ текста включает поиск информации , лексический анализ для изучения частотного распределения слов, распознавание образов , теги / аннотации , извлечение информации , методы интеллектуального анализа данных , включая анализ связей и ассоциаций, визуализацию и прогнозную аналитику . Общая цель, по сути, состоит в том, чтобы превратить текст в данные для анализа с помощью обработки естественного языка (НЛП), различных типов алгоритмов и аналитических методов. Важным этапом этого процесса является интерпретация собранной информации.

Типичное приложение - сканировать набор документов, написанных на естественном языке, и либо моделировать набор документов для целей прогнозной классификации, либо заполнять базу данных или поисковый индекс извлеченной информацией. Документ является основным элементом в то время , начиная с добычей текста. Здесь мы определяем документ как блок текстовых данных, который обычно существует во многих типах коллекций. [3]

Термин « текстовая аналитика» описывает набор лингвистических , статистических и машинных методов обучения , которые моделируют и структурируют информационное содержание текстовых источников для бизнес-аналитики , исследовательского анализа данных , исследования или расследования. [4] Этот термин является примерно синонимом интеллектуального анализа текста; действительно, в 2004 году Ронен Фельдман модифицировал описание «интеллектуального анализа текста» [5] , данное в 2000 году, для описания «текстовой аналитики». [6] Последний термин теперь чаще используется в бизнес-среде, в то время как «интеллектуальный анализ текста» используется в некоторых из самых ранних прикладных областей, относящихся к 1980-м годам [7], особенно в исследованиях биологических наук и правительственной разведки.

Термин «текстовая аналитика» также описывает применение текстовой аналитики для решения бизнес-задач независимо или в сочетании с запросом и анализом полученных числовых данных. Это трюизм, что 80 процентов важной для бизнеса информации происходит в неструктурированной форме, в основном в текстовой форме. [8] Эти методы и процессы обнаруживают и представляют знания - факты, бизнес-правила и отношения, - которые в противном случае заблокированы в текстовой форме и недоступны для автоматизированной обработки.

Подзадачи - компоненты более широкой работы по аналитике текста - обычно включают в себя:

  • Снижение размерности - важный метод предварительной обработки данных. Техника используется для определения корневого слова реальных слов и уменьшения размера текстовых данных. [ необходима цитата ]
  • Поиск информации или идентификация корпуса - это подготовительный этап: сбор или идентификация набора текстовых материалов в Интернете или в файловой системе, базе данных или диспетчере корпусов контента для анализа.
  • Хотя некоторые системы текстовой аналитики применяют исключительно передовые статистические методы, многие другие применяют более обширную обработку естественного языка , такую ​​как часть речевых тегов , синтаксический анализ и другие типы лингвистического анализа. [9]
  • Распознавание именованных сущностей - это использование географических справочников или статистических методов для идентификации именованных текстовых элементов: людей, организаций, географических названий, символов биржевых котировок, определенных сокращений и т. Д.
  • Устранение неоднозначности - использование контекстных подсказок - может потребоваться, чтобы решить, где, например, «Форд» может относиться к бывшему президенту США, производителю автомобилей, кинозвезде, переходу через реку или какой-либо другой сущности. [10]
  • Распознавание сущностей, идентифицированных по шаблону: такие функции, как номера телефонов, адреса электронной почты, количества (с указанием единиц измерения), можно распознать с помощью регулярных выражений или других совпадений с шаблоном.
  • Кластеризация документов: идентификация наборов похожих текстовых документов. [11]
  • Coreference : идентификация словосочетаний и других терминов, относящихся к одному и тому же объекту.
  • Извлечение взаимосвязей, фактов и событий: идентификация ассоциаций между сущностями и другой информацией в тексте
  • Анализ настроений включает в себя распознавание субъективного (в отличие от фактического) материала и извлечение различных форм информации об установках: настроения, мнения, настроения и эмоции. Методы текстовой аналитики полезны при анализе настроений на уровне сущности, концепции или темы, а также в различении держателя мнения и объекта мнения. [12]
  • Количественный анализ текста - это набор методов, восходящих к социальным наукам, когда человек-судья или компьютер извлекают семантические или грамматические отношения между словами, чтобы выяснить значение или стилистические паттерны, как правило, случайного личного текста с целью психологическое профилирование и т. д. [13]

Технология интеллектуального анализа текста в настоящее время широко применяется для решения широкого круга задач в правительстве, исследованиях и бизнесе. Все эти группы могут использовать интеллектуальный анализ текста для управления записями и поиска документов, относящихся к их повседневной деятельности. Юристы могут использовать интеллектуальный анализ текста , например, для электронного поиска . Правительства и военные группировки используют интеллектуальный анализ текста в целях национальной безопасности и разведки. Научные исследователи включают подходы интеллектуального анализа текста в усилия по организации больших наборов текстовых данных (то есть решение проблемы неструктурированных данных ), для определения идей, передаваемых через текст (например, анализ настроений в социальных сетях [14] [15] [16] ) и поддерживать научные открытия в таких областях, как науки о жизни и биоинформатика . В бизнесе приложения используются для поддержки конкурентной разведки и автоматического размещения рекламы , а также для многих других видов деятельности.

Приложения безопасности

Многие программные пакеты для интеллектуального анализа текста продаются для приложений безопасности , особенно для мониторинга и анализа сетевых текстовых источников, таких как новости Интернета , блоги и т. Д., В целях национальной безопасности . [17] Он также занимается изучением шифрования / дешифрования текста .

Биомедицинские приложения

A flowchart of a text mining protocol.
Пример протокола интеллектуального анализа текста, используемого при исследовании белковых комплексов или стыковке белков . [18]

В биомедицинской литературе описан ряд приложений интеллектуального анализа текста [19], в том числе вычислительные подходы для помощи в исследованиях стыковки белков , [20] взаимодействий белков , [21] [22] и ассоциаций «белок-болезнь». [23] Кроме того, с большими наборами текстовых данных о пациентах в клинической области, наборами демографической информации в популяционных исследованиях и отчетах о побочных эффектах интеллектуальный анализ текста может облегчить клинические исследования и точную медицину. Алгоритмы интеллектуального анализа текста могут облегчить стратификацию и индексацию конкретных клинических событий в больших наборах текстовых данных пациентов с симптомами, побочными эффектами и сопутствующими заболеваниями из электронных медицинских карт, отчетов о событиях и отчетов о конкретных диагностических тестах. [24] Одним из приложений онлайн-анализа текста в биомедицинской литературе является PubGene , общедоступная поисковая система , сочетающая биомедицинский анализ текста с сетевой визуализацией. [25] [26] GoPubMed - это поисковая машина по биомедицинским текстам, основанная на знаниях. Методы интеллектуального анализа текста также позволяют нам извлекать неизвестные знания из неструктурированных документов в клинической области [27].

Программные приложения

Методы и программное обеспечение интеллектуального анализа текста также исследуются и разрабатываются крупными фирмами, в том числе IBM и Microsoft , для дальнейшей автоматизации процессов интеллектуального анализа и анализа, а также различными фирмами, работающими в области поиска и индексирования в целом, как способ улучшения своих результатов. . В государственном секторе много усилий было сосредоточено на создании программного обеспечения для отслеживания и мониторинга террористической деятельности . [28] В учебных целях программное обеспечение Weka является одним из самых популярных вариантов в научном мире, выступая в качестве отличной отправной точки для новичков. Для программистов на Python есть отличный инструментарий под названием NLTK для более общих целей. Для более продвинутых программистов есть также библиотека Gensim , которая фокусируется на текстовых представлениях на основе встраивания слов.

Интернет-медиа-приложения

Интеллектуальный анализ текста используется крупными медиа-компаниями, такими как Tribune Company , для уточнения информации и предоставления читателям большего опыта поиска, что, в свою очередь, увеличивает «липкость» сайта и прибыль. Кроме того, на серверной стороне редакторы получают выгоду, поскольку они могут делиться, связывать и упаковывать новости в разных ресурсах, что значительно увеличивает возможности монетизации контента.

Приложения для бизнеса и маркетинга

Текстовая аналитика используется в бизнесе, в частности, в маркетинге, например, в управлении взаимоотношениями с клиентами . [29] Coussement и Van den Poel (2008) [30] [31] применяют его для улучшения моделей прогнозной аналитики для оттока клиентов (оттока клиентов ). [30] Интеллектуальный анализ текста также применяется для прогнозирования доходности акций. [32]

Анализ настроений

Анализ тональности может включать анализ обзоров фильмов для оценки того, насколько они благоприятны для фильма. [33] Для такого анализа может потребоваться маркированный набор данных или маркировка аффективности слов. Ресурсы по аффективности слов и понятий были созданы для WordNet [34] и ConceptNet , [35] соответственно.

Текст использовался для обнаружения эмоций в смежной области аффективных вычислений. [36] Текстовые подходы к аффективным вычислениям использовались во многих корпусах, таких как оценки учащихся, детские рассказы и новости.

Поиск научной литературы и академические приложения

Проблема интеллектуального анализа текста важна для издателей, которые владеют большими базами данных с информацией, требующей индексации для поиска. Это особенно верно в отношении научных дисциплин, в которых очень конкретная информация часто содержится в письменном тексте. Поэтому были предприняты инициативы, такие как предложение Nature по интерфейсу интеллектуального анализа открытого текста (OTMI) и стандартное определение типа документа публикации журнала (DTD) Национального института здравоохранения, которое будет предоставлять семантические подсказки машинам для ответа на конкретные запросы, содержащиеся в текст, не устраняя препятствий для публичного доступа издателей.

Академические учреждения также стали участвовать в инициативе интеллектуального анализа текста:

  • Национальный центр Text Mining (NaCTeM), является первым финансируемым государством анализ текста центром в мире. NaCTeM управляется Манчестерским университетом [37] в тесном сотрудничестве с лабораторией Tsujii [38] Токийского университета . [39] NaCTeM предоставляет индивидуальные инструменты, исследовательские возможности и дает советы академическому сообществу. Они финансируются Объединенным комитетом информационных систем (JISC) и двумя исследовательскими советами Великобритании ( EPSRC и BBSRC ). Изначально фокусируясь на интеллектуальном анализе текстов в биологических и биомедицинских науках, с тех пор исследования расширились в области социальных наук .
  • В Соединенных Штатах, школа информации в Университете Калифорнии, Беркли разрабатывает программу под названием BioText , чтобы помочь биологии исследователей в горнодобывающей промышленности и анализа текста.
  • Анализ текст Портал для исследований (TAPoR), в настоящее время размещена в Университете Альберты , является научным проектом для приложений анализа каталога текста и создать шлюз для исследователей новых к практике.

Методы исследования научной литературы

Вычислительные методы были разработаны для помощи в поиске информации из научной литературы. Опубликованные подходы включают методы поиска [40] определения новизны [41] и уточнения омонимов [42] среди технических отчетов.

Цифровые гуманитарные науки и вычислительная социология

Автоматический анализ огромных текстовых корпусов дал ученым возможность анализировать миллионы документов на нескольких языках с очень ограниченным ручным вмешательством. Ключевые вспомогательные технологии - это синтаксический анализ, машинный перевод , категоризация тем и машинное обучение.

Повествовательная сеть о выборах в США 2012 [43]

Автоматический синтаксический анализ текстовых корпусов позволил извлекать акторов и их реляционные сети в широком масштабе, превращая текстовые данные в сетевые. Полученные сети, которые могут содержать тысячи узлов, затем анализируются с использованием инструментов теории сетей для определения ключевых участников, ключевых сообществ или сторон и общих свойств, таких как надежность или структурная стабильность всей сети или центральность определенных узлы. [44] Это автоматизирует подход, представленный количественным нарративным анализом [45], посредством которого тройки субъект-глагол-объект идентифицируются с парами акторов, связанных действием, или парами, образованными актором-объектом. [43]

Контент-анализ долгое время был традиционной частью социальных наук и медиа-исследований. Автоматизация контент-анализа позволила совершить революцию « больших данных » в этой области с исследованиями в социальных сетях и газетном контенте, который включает миллионы новостей. Гендерная предвзятость , удобочитаемость , сходство контента, предпочтения читателей и даже настроение были проанализированы на основе методов интеллектуального анализа текста в миллионах документов. [46] [47] [48] [49] [50] Анализ читабельности, гендерной предвзятости и тематической предвзятости был продемонстрирован в Flaounas et al. [51] показывает, как разные темы имеют разные гендерные предубеждения и уровни читабельности; также была продемонстрирована возможность определять паттерны настроения у огромного населения путем анализа содержания Twitter. [52] [53]

Компьютерные программы горнодобывающие Text доступны из многих коммерческих и с открытым исходным кодом компании и источников. См. Список программ для интеллектуального анализа текста .

Ситуация в Европе

"> Воспроизвести медиа
Видео кампании Fix Copyright, объясняющее TDM и его проблемы с авторскими правами в ЕС, 2016 [3:52

Согласно европейским законам об авторском праве и базах данных , добыча охраняемых авторским правом произведений (например, с помощью веб-майнинга ) без разрешения владельца авторских прав является незаконной. В Великобритании в 2014 году по рекомендации обзора Харгривса правительство внесло поправки в закон об авторском праве [54], чтобы разрешить интеллектуальный анализ текста в качестве ограничения и исключения . Это была вторая страна в мире, которая сделала это после Японии , которая ввела исключение для майнинга в 2009 году. Однако из-за ограничения Директивы об информационном обществе (2001) исключение для Великобритании разрешает добычу контента только для тех, кто не занимается добычей полезных ископаемых. коммерческие цели. Закон об авторском праве Великобритании не позволяет отменять это положение договорными условиями.

Европейская комиссия способствовала заинтересованным сторонам обсуждения текста и интеллектуальному анализу данных в 2013 год под названием лицензии для Европы. [55] Тот факт, что в центре внимания решения этой юридической проблемы были лицензии, а не ограничения и исключения из закона об авторском праве, побудил представителей университетов, исследователей, библиотек, групп гражданского общества и издателей с открытым доступом покинуть диалог с заинтересованными сторонами в мае. 2013. [56]

Ситуация в США

Закон США об авторском праве , и в частности его положения о добросовестном использовании , означает, что интеллектуальный анализ текста в Америке, а также в других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея, считается законным. Поскольку интеллектуальный анализ текста является трансформирующим, а это означает, что он не заменяет исходную работу, он рассматривается как законный при добросовестном использовании. Например, в рамках мирового соглашения с Google Book председательствующий судья постановил, что проект Google по оцифровке книг, охраняемых авторским правом, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки - одним из таких видов использования был интеллектуальный анализ текста и данных. . [57]

До недавнего времени веб-сайты чаще всего использовали текстовый поиск, который находил только документы, содержащие определенные пользователем слова или фразы. Теперь, благодаря использованию семантической сети , интеллектуальный анализ текста может находить контент на основе значения и контекста (а не только по конкретному слову). Кроме того, программное обеспечение для интеллектуального анализа текста можно использовать для создания больших досье информации о конкретных людях и событиях. Например, можно создавать большие наборы данных на основе данных, извлеченных из новостных отчетов, для облегчения анализа социальных сетей или контрразведки . По сути, программное обеспечение интеллектуального анализа текста может действовать подобно аналитику разведки или библиотекарю-исследователю, хотя и с более ограниченным объемом анализа. Анализ текста также используется в некоторых фильтрах спама в электронной почте как способ определения характеристик сообщений, которые могут быть рекламой или другим нежелательным материалом. Анализ текста играет важную роль в определении настроений финансового рынка .

Все больший интерес проявляется к многоязычному интеллектуальному анализу данных: возможности собирать информацию на разных языках и группировать похожие элементы из разных лингвистических источников в соответствии с их значением.

Проблема использования значительной части корпоративной информации, которая происходит в «неструктурированной» форме, была признана на протяжении десятилетий. [58] Это признано в самом раннем определении бизнес-аналитики (BI) в статье журнала IBM Journal от HP Luhn в октябре 1958 года «Система бизнес-аналитики», в которой описывается система, которая:

"... использовать машины для обработки данных для авто-абстрагирования и автокодирования документов и для создания профилей интересов для каждой из" точек действия "в организации. Как входящие, так и внутренние документы автоматически абстрагируются, характеризуясь словом шаблон и автоматически отправляется в соответствующие точки действий ".

Тем не менее, поскольку информационные системы управления развивались, начиная с 1960-х годов, а бизнес-аналитика возникла в 80-х и 90-х годах как категория программного обеспечения и область практики, упор делался на числовые данные, хранящиеся в реляционных базах данных. Это неудивительно: текст в «неструктурированных» документах сложно обрабатывать. Появление текстовой аналитики в ее нынешнем виде связано с переориентацией исследований в конце 1990-х годов с разработки алгоритмов на приложения, как описано профессором Марти А. Херстом в статье «Распутывание текстовых данных»: [59]

В течение почти десятилетия сообщество компьютерной лингвистики рассматривало большие текстовые коллекции как ресурс, который нужно использовать для создания более совершенных алгоритмов анализа текста. В этой статье я попытался предложить новый акцент: использование больших онлайн-коллекций текстов для открытия новых фактов и тенденций, касающихся самого мира. Я полагаю, что для достижения прогресса нам не нужен полностью искусственный интеллектуальный анализ текста; скорее, сочетание анализа, основанного на вычислениях и управляемом пользователем, может открыть дверь к захватывающим новым результатам.

Заявление Херста о потребностях в 1999 году довольно хорошо описывает состояние технологии и практики текстовой аналитики десять лет спустя.

  • Концепция майнинга
  • Обработка документов
  • Полнотекстовый поиск
  • Список программного обеспечения для интеллектуального анализа текста
  • Настроение рынка
  • Разрешение имен (семантика и извлечение текста)
  • Признание именной организации
  • Аналитика новостей
  • Изучение онтологий
  • Запись связи
  • Последовательный анализ шаблонов ( анализ строк и последовательностей)
  • шинглинг
  • Веб-интеллектуальный анализ , задача, которая может включать интеллектуальный анализ текста (например, сначала найти подходящие веб-страницы, классифицируя просканированные веб-страницы, а затем извлечь желаемую информацию из текстового содержимого этих страниц, считающихся релевантными)

Цитаты

  1. ^ "Марти Херст: Что такое интеллектуальный анализ текста?" .
  2. ^ Hotho А., Nürnberger, А. и Paaß, G. (2005). «Краткий обзор интеллектуального анализа текста». В Ldv Forum, Vol. 20 (1), стр. 19–62
  3. Перейти ↑ Feldman, R. and Sanger, J. (2007). Учебное пособие по горному делу. Издательство Кембриджского университета. Нью-Йорк
  4. ^ [1] Архивировано 29 ноября 2009 года в Wayback Machine.
  5. ^ "KDD-2000 Workshop on Text Mining - Call for Papers" . Cs.cmu.edu . Проверено 23 февраля 2015 .
  6. ^ [2] Архивировано 3 марта 2012 г., в Wayback Machine.
  7. ^ Хоббс, Джерри Р .; Уокер, Дональд Э .; Амслер, Роберт А. (1982). «Доступ к структурированному тексту на естественном языке» . Материалы 9-й конференции по компьютерной лингвистике . 1 . С. 127–32. DOI : 10.3115 / 991813.991833 . S2CID  6433117 .
  8. ^ «Неструктурированные данные и правило 80 процентов» . Прорывной анализ. Август 2008 . Проверено 23 февраля 2015 .
  9. ^ Антунес, Жуан (14 ноября 2018 г.). Exploração de informações contextuais para enriquecimento semântico em репрезентации текстов (Mestrado em Ciências de Computação e Matemática Computacional thesis) (на португальском языке). Сан-Карлос: Университет Сан-Паулу. DOI : 10,11606 / d.55.2019.tde-03012019-103253 .
  10. ^ Моро, Андреа; Раганато, Алессандро; Навильи, Роберто (декабрь 2014 г.). «Связывание сущностей и устранение смысловой неоднозначности: единый подход» . Труды Ассоциации компьютерной лингвистики . 2 : 231–244. DOI : 10,1162 / tacl_a_00179 . ISSN  2307-387X .
  11. ^ Чанг, Вуи Ли; Тай, Кай Мэн; Лим, Чи Пэн (2017-02-06). «Новая развивающаяся древовидная модель с локальным переобучением для кластеризации и визуализации документов» . Письма нейронной обработки . 46 (2): 379–409. DOI : 10.1007 / s11063-017-9597-3 . ISSN  1370-4621 . S2CID  9100902 .
  12. ^ «Полный круговой анализ настроений» . Прорывной анализ. 2010-06-14 . Проверено 23 февраля 2015 .
  13. ^ Мель, Маттиас Р. (2006). «Количественный анализ текста». Справочник по мультиметодам в психологии . п. 141. DOI : 10,1037 / 11383-011 . ISBN 978-1-59147-318-3.
  14. ^ Панг, Бо; Ли, Лилиан (2008). «Анализ мнений и настроений». Основы и тенденции в поиске информации . 2 (1–2): 1–135. CiteSeerX  10.1.1.147.2755 . DOI : 10.1561 / 1500000011 . ISSN  1554-0669 .
  15. ^ Палтоглу, Георгиос; Телуолл, Майк (01.09.2012). «Twitter, MySpace, Digg: неконтролируемый анализ настроений в социальных сетях» . ACM-транзакции по интеллектуальным системам и технологиям . 3 (4): 66. DOI : 10,1145 / 2337542,2337551 . ISSN  2157-6904 . S2CID  16600444 .
  16. ^ «Анализ настроений в Twitter . alt.qcri.org . Проверено 2 октября 2018 .
  17. ^ Занаси, Алессандро (2009). «Виртуальное оружие для настоящих войн: поиск текста для национальной безопасности». Материалы международного семинара по вычислительному интеллекту в защите информационных систем CISIS'08 . Достижения в мягких вычислениях. 53 . п. 53. DOI : 10.1007 / 978-3-540-88181-0_7 . ISBN 978-3-540-88180-3.
  18. ^ Badal, Varsha D .; Kundrotas, Petras J .; Ваксер, Илья А. (09.12.2015). «Анализ текста для стыковки белков» . PLOS Вычислительная биология . 11 (12): e1004630. Bibcode : 2015PLSCB..11E4630B . DOI : 10.1371 / journal.pcbi.1004630 . ISSN  1553-7358 . PMC  4674139 . PMID  26650466 .
  19. ^ Коэн, К. Бретоннель; Хантер, Лоуренс (2008). «Начало работы с интеллектуальным анализом текста» . PLOS Вычислительная биология . 4 (1): e20. Bibcode : 2008PLSCB ... 4 ... 20С . DOI : 10.1371 / journal.pcbi.0040020 . PMC  2217579 . PMID  18225946 .
  20. ^ Бадал, В. Д; Kundrotas, P.J; Ваксер, И. А (2015). «Текстовый майнинг для стыковки белков» . PLOS Вычислительная биология . 11 (12): e1004630. Bibcode : 2015PLSCB..11E4630B . DOI : 10.1371 / journal.pcbi.1004630 . PMC  4674139 . PMID  26650466 .
  21. ^ Папаниколау, Николай; Павлопулос, Георгиос А .; Феодосий, Феодосий; Илиопулос, Иоаннис (2015). «Прогнозы белок-белкового взаимодействия с использованием методов интеллектуального анализа текста». Методы . 74 : 47–53. DOI : 10.1016 / j.ymeth.2014.10.026 . ISSN  1046-2023 . PMID  25448298 .
  22. ^ Шкларчик, Дамиан; Моррис, Джон Х; Повар, Хелен; Кун, Майкл; Уайдер, Стефан; Симонович, Милан; Сантос, Альберто; Дончева, Надежда Т; Рот, Александр (18.10.2016). «База данных STRING в 2017 году: сети белок-белковых ассоциаций с контролируемым качеством, стали общедоступными» . Исследования нуклеиновых кислот . 45 (D1): D362 – D368. DOI : 10.1093 / NAR / gkw937 . ISSN  0305-1048 . PMC  5210637 . PMID  27924014 .
  23. ^ Liem, David A .; Мурали, Санджана; Сигдел, Дибакар; Ши, Ю; Ван, Сюань; Шен, Цзяминь; Чой, Ховард; Caufield, John H .; Ван, Вэй; Пинг, Пейпей; Хан, Цзявэй (2018-10-01). «Анализ фраз текстовых данных для анализа паттернов белков внеклеточного матрикса при сердечно-сосудистых заболеваниях» . Американский журнал физиологии. Сердце и физиология кровообращения . 315 (4): H910 – H924. DOI : 10.1152 / ajpheart.00175.2018 . ISSN  1522-1539 . PMC  6230912 . PMID  29775406 .
  24. ^ Ван Ле, Д; Монтгомери, Дж; Киркби, KC; Сканлан, Дж. (10 августа 2018 г.). «Прогнозирование рисков с использованием обработки электронных записей психического здоровья на естественном языке в условиях стационарной судебной психиатрии» . Журнал биомедицинской информатики . 86 : 49–58. DOI : 10.1016 / j.jbi.2018.08.007 . PMID  30118855 .
  25. ^ Йенссен, Тор-Кристиан; Лэгрейд, Астрид; Коморовский, Ян; Ховиг, Эйвинд (2001). «Литературная сеть человеческих генов для высокопроизводительного анализа экспрессии генов» . Генетика природы . 28 (1): 21–8. DOI : 10.1038 / ng0501-21 . PMID  11326270 . S2CID  8889284 .
  26. ^ Масис, Дэниел Р. (2001). «Связывание данных микрочипа с литературой» . Генетика природы . 28 (1): 9–10. DOI : 10.1038 / ng0501-9 . PMID  11326264 . S2CID  52848745 .
  27. ^ Ренганатан, Винейтертан (2017). «Анализ текста в биомедицинской области с упором на кластеризацию документов» . Исследования в области информатики здравоохранения . 23 (3): 141–146. DOI : 10.4258 / hir.2017.23.3.141 . ISSN  2093-3681 . PMC  5572517 . PMID  28875048 .
  28. [3] Архивировано 4 октября 2013 года в Wayback Machine.
  29. ^ «Текстовая аналитика» . Медалья . Проверено 23 февраля 2015 .
  30. ^ а б Кусмент, Кристоф; Ван ден Поэль, Дирк (2008). «Интеграция голоса клиентов через электронную почту колл-центра в систему поддержки принятия решений для прогнозирования оттока» . Информация и менеджмент . 45 (3): 164–74. CiteSeerX  10.1.1.113.3238 . DOI : 10.1016 / j.im.2008.01.005 .
  31. ^ Кусмент, Кристоф; Ван ден Поэль, Дирк (2008). «Улучшение управления жалобами клиентов за счет автоматической классификации адресов электронной почты с использованием языковых стилей в качестве предикторов» . Системы поддержки принятия решений . 44 (4): 870–82. DOI : 10.1016 / j.dss.2007.10.010 .
  32. ^ Рамиро Х. Гальвес; Агустин Гравано (2017). «Оценка полезности майнинга онлайн-доски объявлений в автоматических системах прогнозирования запасов». Журнал вычислительной науки . 19 : 1877–7503. DOI : 10.1016 / j.jocs.2017.01.001 .
  33. ^ Панг, Бо; Ли, Лилиан; Вайтхьянатан, Шивакумар (2002). "Недурно?". Материалы конференции ACL-02 по эмпирическим методам обработки естественного языка . 10 . С. 79–86. DOI : 10.3115 / 1118693.1118704 . S2CID  7105713 .
  34. ^ Алессандро Валитутти; Карло Страппарава; Оливьеро Сток (2005). «Разработка эффективных лексических ресурсов» (PDF) . Психнологический журнал . 2 (1): 61–83.
  35. ^ Эрик Камбрия; Роберт Спир; Катрин Хаваси; Амир Хуссейн (2010). «SenticNet: общедоступный семантический ресурс для сбора мнений» (PDF) . Труды AAAI CSK . С. 14–18.
  36. ^ Кальво, Рафаэль А; д'Мелло, Сидней (2010). «Обнаружение аффекта: междисциплинарный обзор моделей, методов и их приложений» . IEEE Transactions on Affective Computing . 1 (1): 18–37. DOI : 10.1109 / T-AFFC.2010.1 . S2CID  753606 .
  37. ^ «Манчестерский университет» . Manchester.ac.uk . Проверено 23 февраля 2015 .
  38. ^ "Лаборатория Цудзи" . Tsujii.is.su-tokyo.ac.jp . Проверено 23 февраля 2015 .
  39. ^ «Токийский университет» . UTokyo . Проверено 23 февраля 2015 .
  40. ^ Шен, Цзяминь; Сяо, Цзиньфэн; Он, Синьвэй; Шан, Дзинбо; Синха, Саурабх; Хан, Цзявэй (27.06.2018). Поиск по множеству сущностей в научной литературе: неконтролируемый подход к ранжированию . ACM. С. 565–574. DOI : 10.1145 / 3209978.3210055 . ISBN 978-1-4503-5657-2. S2CID  13748283 .
  41. ^ Уолтер, Лотар; Радауэр, Альфред; Мёрле, Мартин Г. (06.02.2017). «Красота серной бабочки: новизна патентов, выявленная анализом ближней окружающей среды на основе интеллектуального анализа текста» . Наукометрия . 111 (1): 103–115. DOI : 10.1007 / s11192-017-2267-4 . ISSN  0138-9130 . S2CID  11174676 .
  42. ^ Ролл, Ури; Correia, Ricardo A .; Бергер-Тал, Одед (10.03.2018). «Использование машинного обучения для распознавания омонимов в больших текстовых корпусах» . Биология сохранения . 32 (3): 716–724. DOI : 10.1111 / cobi.13044 . ISSN  0888-8892 . PMID  29086438 . S2CID  3783779 .
  43. ^ a b Автоматический анализ президентских выборов в США с использованием Big Data и сетевого анализа; С. Судхахар, Г. А. Велтри, Н. Кристианини; Большие данные и общество 2 (1), 1-28, 2015 г.
  44. ^ Сетевой анализ повествовательного содержания в больших корпусах; С. Судхахар, Дж. Де Фацио, Р. Франзози, Н. Кристианини; Инженерия естественного языка, 1-32, 2013
  45. ^ Количественный анализ повествования; Роберто Франзози; Университет Эмори © 2010
  46. ^ Lansdall-Welfare, Томас; Судхахар, Саатвига; Томпсон, Джеймс; Льюис, Джастин; Команда, газета FindMyPast; Кристианини, Нелло (9 января 2017 г.). «Контент-анализ 150-летия британской периодики» . Труды Национальной академии наук . 114 (4): E457 – E465. DOI : 10.1073 / pnas.1606380114 . ISSN  0027-8424 . PMC  5278459 . PMID  28069962 .
  47. ^ И. Флаунас, М. Турчи, О. Али, Н. Файсон, Т. Де Би, Н. Мосделл, Дж. Льюис, Н. Кристианини, Структура медиасферы ЕС, PLoS ONE, Vol. 5 (12), стр. E14243, 2010.
  48. ^ События прогнозирования текущей погоды из социальной сети со статистическим обучением В. Лампос, Н. Кристианини; Транзакции ACM по интеллектуальным системам и технологиям (TIST) 3 (4), 72
  49. ^ NOAM: система анализа и мониторинга новостных агентств; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini Proc. международной конференции ACM SIGMOD 2011 года по управлению данными
  50. ^ Автоматическое обнаружение шаблонов в медиа-контенте, N Cristianini, Combinatorial Pattern Matching, 2-13, 2011.
  51. ^ И. Флаунас, О. Али, Т. Лэнсдалл-Велфар, Т. Де Би, Н. Мосделл, Дж. Льюис, Н. Кристианини, МЕТОДЫ ИССЛЕДОВАНИЯ В ЭПОХУ ЦИФРОВОЙ ЖУРНАЛИСТИКИ, Цифровая журналистика, Routledge, 2012
  52. ^ Вариации циркадного настроения в материалах Twitter; Фабон Дзоганг, Стаффорд Лайтман, Нелло Кристианини. Достижения мозга и нейробиологии, 1, 2398212817744501.
  53. ^ Влияние рецессии на общественное настроение в Великобритании; Т. Лансдалл-Велфэр, В. Лампос, Н. Кристианини; Сессия Mining Social Network Dynamics (MSND) в приложениях социальных сетей
  54. Исследователи получили право на интеллектуальный анализ данных в соответствии с новыми законами Великобритании об авторском праве. Архивировано 9 июня 2014 г. на Wayback Machine.
  55. ^ «Лицензии для Европы - Структурированный диалог с заинтересованными сторонами 2013» . Европейская комиссия . Проверено 14 ноября 2014 года .
  56. ^ «Text and Data Mining: его важность и необходимость изменений в Европе» . Ассоциация европейских исследовательских библиотек . 2013-04-25 . Проверено 14 ноября 2014 года .
  57. ^ «Судья выносит упрощенное судебное решение в пользу Google Книг - победа добросовестного использования» . Lexology.com . Антонелли Закон Ltd . Проверено 14 ноября 2014 года .
  58. ^ "Краткая история текстовой аналитики Сет Граймс" . Beyenetwork. 2007-10-30 . Проверено 23 февраля 2015 .
  59. ^ Херст, Марти А. (1999). «Распутывание текстовых данных» . Труды 37-го ежегодного собрания Ассоциации компьютерной лингвистики по компьютерной лингвистике . С. 3–10. DOI : 10.3115 / 1034678.1034679 . ISBN 978-1-55860-609-8. S2CID  2340683 .

Источники

  • Ананиаду, С. и Макнот, Дж. (Редакторы) (2006). Text Mining для биологии и биомедицины . Книги Artech House. ISBN  978-1-58053-984-5
  • Билисолы, Р. (2008). Практический анализ текста с помощью Perl . Нью-Йорк: Джон Вили и сыновья. ISBN  978-0-470-17643-6
  • Фельдман Р. и Сэнгер Дж. (2006). Справочник по майнингу текстов . Нью-Йорк: Издательство Кембриджского университета. ISBN  978-0-521-83657-9
  • Хотхо, А., Нюрнбергер, А. и Паас, Г. (2005). «Краткий обзор интеллектуального анализа текста». В Ldv Forum, Vol. 20 (1), стр. 19–62
  • Индуркхья, Н., Дамерау, Ф. (2010). Справочник по обработке естественного языка , 2-е издание. Бока-Ратон, Флорида: CRC Press. ISBN  978-1-4200-8592-1
  • Као, A., и Poteet, S. (редакторы). Обработка естественного языка и интеллектуальный анализ текста . Springer. ISBN  1-84628-175-X
  • Кончады, М. Программирование приложений интеллектуального анализа текста (серия "Программирование") . Чарльз Ривер Медиа. ISBN  1-58450-460-9
  • Мэннинг К. и Шутце Х. (1999). Основы статистической обработки естественного языка . Кембридж, Массачусетс: MIT Press. ISBN  978-0-262-13360-9
  • Майнер Г., Старейшина Дж., Хилл. Т., Нисбет, Р., Делен, Д. и Фаст, А. (2012). Практический анализ текста и статистический анализ приложений с неструктурированными текстовыми данными . Elsevier Academic Press. ISBN  978-0-12-386979-1
  • Макнайт, В. (2005). «Построение бизнес-аналитики: интеллектуальный анализ текстовых данных в бизнес-аналитике». DM Review , 21-22.
  • Шривастава А. и Сахами. М. (2009). Text Mining: классификация, кластеризация и приложения . Бока-Ратон, Флорида: CRC Press. ISBN  978-1-4200-5940-3
  • Занаси, А. (редактор) (2007). Text Mining и его приложения к аналитике, CRM и управлению знаниями . WIT Нажмите. ISBN  978-1-84564-131-3

  • Марти Херст: Что такое интеллектуальный анализ текста? (Октябрь 2003 г.)
  • Автоматическое извлечение контента, Консорциум лингвистических данных
  • Автоматическое извлечение контента, NIST