Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Интеллектуальный анализ текста , также называемый интеллектуальным анализом текстовых данных , похож на текстовую аналитику , - это процесс получения высококачественной информации из текста . Он включает в себя «обнаружение компьютером новой, ранее неизвестной информации путем автоматического извлечения информации из различных письменных ресурсов». [1] Письменные ресурсы могут включать веб-сайты , книги , электронные письма , обзоры и статьи. Качественная информация обычно получается путем разработки шаблонов и тенденций с помощью таких средств, как статистическое изучение шаблонов.. Согласно Hotho et al. (2005) мы можем различать три разных точки зрения интеллектуального анализа текста : извлечение информации , интеллектуальный анализ данных и процесс KDD (обнаружение знаний в базах данных). [2] Интеллектуальный анализ текста обычно включает в себя процесс структурирования входного текста (обычно анализ с добавлением некоторых производных лингвистических функций и удаление других с последующей вставкой в базу данных ), получение шаблонов в структурированных данных и, наконец, оценка и интерпретация результатов. «Высокое качество» в интеллектуальном анализе текста обычно относится к некоторой комбинации актуальности и новизны., и интерес. Задачи горнодобывающих Типичный текста включают текст категоризацию , наслоение текста , концепцию / извлечение сущности, производство гранулированных таксономии, анализ настроений , документ обобщению и моделирование отношения сущностей ( т.е. , изучение отношений между названными лицами ).

Анализ текста включает поиск информации , лексический анализ для изучения частотного распределения слов, распознавание образов , теги / аннотации , извлечение информации , методы интеллектуального анализа данных , включая анализ связей и ассоциаций, визуализацию и прогнозную аналитику . Общая цель, по сути, состоит в том, чтобы превратить текст в данные для анализа с помощью обработки естественного языка (NLP), различных типов алгоритмов и аналитических методов. Важным этапом этого процесса является интерпретация собранной информации.

Типичное приложение - сканировать набор документов, написанных на естественном языке, и либо моделировать набор документов для целей прогнозной классификации, либо заполнять базу данных или поисковый индекс извлеченной информацией. Документ является основным элементом в то время , начиная с добычей текста. Здесь мы определяем документ как блок текстовых данных, который обычно существует во многих типах коллекций. [3]

Текстовая аналитика [ править ]

Термин « текстовая аналитика» описывает набор лингвистических , статистических и машинных методов обучения , которые моделируют и структурируют информационное содержание текстовых источников для бизнес-аналитики , исследовательского анализа данных , исследования или расследования. [4] Этот термин является примерно синонимом интеллектуального анализа текста; действительно, в 2004 году Ронен Фельдман модифицировал описание «интеллектуального анализа текста» [5] , данное в 2000 году, для описания «текстовой аналитики». [6]Последний термин сейчас чаще используется в бизнес-среде, в то время как «интеллектуальный анализ текста» используется в некоторых из самых ранних прикладных областей, относящихся к 1980-м годам [7], особенно в исследованиях биологических наук и правительственной разведки.

Термин «текстовая аналитика» также описывает применение текстовой аналитики для решения бизнес-задач независимо или в сочетании с запросом и анализом полученных числовых данных. Это трюизм, что 80 процентов важной для бизнеса информации происходит в неструктурированной форме, в основном в текстовой форме. [8] Эти методы и процессы обнаруживают и представляют знания - факты, бизнес-правила и отношения, - которые в противном случае заблокированы в текстовой форме и недоступны для автоматизированной обработки.

Процессы анализа текста [ править ]

Подзадачи - компоненты более широкой работы по аналитике текста - обычно включают в себя:

  • Снижение размерности - важный метод предварительной обработки данных. Техника используется для определения корневого слова реальных слов и уменьшения размера текстовых данных. [ необходима цитата ]
  • Поиск информации или идентификация корпуса - это подготовительный этап: сбор или идентификация набора текстовых материалов в Интернете или в файловой системе, базе данных или диспетчере корпусов контента для анализа.
  • Хотя некоторые системы текстовой аналитики применяют исключительно передовые статистические методы, многие другие применяют более обширную обработку естественного языка , такую ​​как часть речевых тегов , синтаксический анализ и другие типы лингвистического анализа. [9]
  • Распознавание именованных сущностей - это использование географических справочников или статистических методов для идентификации именованных текстовых элементов: людей, организаций, географических названий, символов биржевых котировок, определенных сокращений и т. Д.
  • Устранение неоднозначности - использование контекстных подсказок - может потребоваться, чтобы решить, где, например, «Форд» может относиться к бывшему президенту США, производителю автомобилей, кинозвезде, переходу через реку или какой-либо другой сущности. [10]
  • Распознавание сущностей, идентифицированных по шаблону: такие функции, как номера телефонов, адреса электронной почты, количества (с указанием единиц измерения), можно распознать с помощью регулярных выражений или других совпадений с шаблоном.
  • Кластеризация документов: идентификация наборов похожих текстовых документов. [11]
  • Coreference : идентификация словосочетаний и других терминов, относящихся к одному и тому же объекту.
  • Извлечение взаимосвязей, фактов и событий: идентификация ассоциаций между сущностями и другой информацией в тексте
  • Анализ настроений включает в себя распознавание субъективного (в отличие от фактического) материала и извлечение различных форм информации об установках: настроения, мнения, настроения и эмоции. Методы текстовой аналитики полезны при анализе настроений на уровне сущности, концепции или темы, а также в различении держателя мнения и объекта мнения. [12]
  • Количественный анализ текста - это набор методов, восходящих к социальным наукам, когда человек-судья или компьютер извлекают семантические или грамматические отношения между словами, чтобы выяснить значение или стилистические паттерны, как правило, случайного личного текста с целью психологическое профилирование и т. д. [13]

Приложения [ править ]

Технология интеллектуального анализа текста в настоящее время широко применяется для решения широкого круга задач в правительстве, исследованиях и бизнесе. Все эти группы могут использовать интеллектуальный анализ текста для управления записями и поиска документов, относящихся к их повседневной деятельности. Юристы могут использовать интеллектуальный анализ текста , например, для электронного поиска . Правительства и военные группировки используют интеллектуальный анализ текста в целях национальной безопасности и разведки. Научные исследователи включают подходы интеллектуального анализа текста в усилия по организации больших наборов текстовых данных (то есть решение проблемы неструктурированных данных ), для определения идей, передаваемых через текст (например, анализ настроений в социальных сетях [14] [15] [16] ) и поддерживатьнаучное открытие в таких областях, как науки о жизни и биоинформатика . В бизнесе приложения используются для поддержки конкурентной разведки и автоматического размещения рекламы , а также для многих других видов деятельности.

Приложения безопасности [ править ]

Многие программные пакеты для интеллектуального анализа текста продаются для приложений безопасности , особенно для мониторинга и анализа сетевых текстовых источников, таких как новости Интернета , блоги и т. Д., В целях национальной безопасности . [17] Он также занимается изучением шифрования / дешифрования текста .

Биомедицинские приложения [ править ]

Пример протокола интеллектуального анализа текста, используемого при исследовании белковых комплексов или стыковке белков . [18]

В биомедицинской литературе описан ряд приложений интеллектуального анализа текста [19], в том числе вычислительные подходы для помощи в исследованиях стыковки белков , [20] взаимодействий белков , [21] [22] и ассоциаций «белок-болезнь». [23]Кроме того, с большими наборами текстовых данных о пациентах в клинической сфере, наборами демографической информации в популяционных исследованиях и сообщениями о побочных эффектах интеллектуальный анализ текста может облегчить клинические исследования и точную медицину. Алгоритмы интеллектуального анализа текста могут облегчить стратификацию и индексацию конкретных клинических событий в больших наборах текстовых данных пациентов с симптомами, побочными эффектами и сопутствующими заболеваниями из электронных медицинских карт, отчетов о событиях и отчетов о конкретных диагностических тестах. [24] Одним из приложений онлайн-анализа текста в биомедицинской литературе является PubGene , общедоступная поисковая система , сочетающая биомедицинский анализ текста с сетевой визуализацией. [25] [26] GoPubMed- это поисковая система по биомедицинским текстам, основанная на знаниях. Методы интеллектуального анализа текста также позволяют нам извлекать неизвестные знания из неструктурированных документов в клинической области [27].

Программные приложения [ править ]

Методы и программное обеспечение интеллектуального анализа текста также исследуются и разрабатываются крупными фирмами, в том числе IBM и Microsoft , для дальнейшей автоматизации процессов интеллектуального анализа и анализа, а также различными фирмами, работающими в области поиска и индексирования в целом, как способ улучшения своих результатов. . В государственном секторе много усилий было сосредоточено на создании программного обеспечения для отслеживания и мониторинга террористической деятельности . [28] В учебных целях программное обеспечение Weka является одним из самых популярных вариантов в научном мире, выступая в качестве отличной отправной точки для новичков. Для программистов на Python есть отличный инструментарий под названием NLTK.для более общих целей. Для более продвинутых программистов есть также библиотека Gensim , которая фокусируется на текстовых представлениях на основе встраивания слов.

Интернет-медиа-приложения [ править ]

Интеллектуальный анализ текста используется крупными медиа-компаниями, такими как Tribune Company , для уточнения информации и предоставления читателям большего опыта поиска, что, в свою очередь, увеличивает «липкость» сайта и прибыль. Кроме того, на серверной стороне редакторы получают выгоду от возможности делиться, связывать и упаковывать новости в разных ресурсах, что значительно увеличивает возможности монетизации контента.

Приложения для бизнеса и маркетинга [ править ]

Текстовая аналитика используется в бизнесе, в частности, в маркетинге, например, в управлении взаимоотношениями с клиентами . [29] Coussement и Van den Poel (2008) [30] [31] применяют его для улучшения моделей прогнозной аналитики для оттока клиентов (оттока клиентов ). [30] Интеллектуальный анализ текста также применяется для прогнозирования доходности акций. [32]

Анализ настроений [ править ]

Анализ тональности может включать анализ обзоров фильмов для оценки того, насколько они благоприятны для фильма. [33] Для такого анализа может потребоваться маркированный набор данных или маркировка аффективности слов. Ресурсы по аффективности слов и понятий были созданы для WordNet [34] и ConceptNet , [35] соответственно.

Текст использовался для обнаружения эмоций в смежной области аффективных вычислений. [36] Текстовые подходы к аффективным вычислениям использовались во многих корпусах, таких как оценки учащихся, детские рассказы и новости.

Поиск научной литературы и академические приложения [ править ]

Проблема интеллектуального анализа текста важна для издателей, которые владеют большими базами данных с информацией, требующей индексации для поиска. Это особенно верно в отношении научных дисциплин, в которых очень конкретная информация часто содержится в письменном тексте. Поэтому были предприняты инициативы, такие как предложение Nature по интерфейсу интеллектуального анализа открытого текста (OTMI) и стандартное определение типа документа публикации журнала (DTD) Национального института здравоохранения, которое будет предоставлять семантические подсказки машинам для ответа на конкретные запросы, содержащиеся в текст, не снимая барьеров для публичного доступа со стороны издателей.

Академические учреждения также стали участвовать в инициативе интеллектуального анализа текста:

  • Национальный центр Text Mining (NaCTeM), является первым финансируемым государством анализ текста центром в мире. NaCTeM управляется Манчестерским университетом [37] в тесном сотрудничестве с лабораторией Tsujii [38] Токийского университета . [39] NaCTeM предоставляет индивидуальные инструменты, исследовательские возможности и дает советы академическому сообществу. Они финансируются Объединенным комитетом информационных систем (JISC) и двумя исследовательскими советами Великобритании ( EPSRC и BBSRC ). С первоначальным акцентом на интеллектуальный анализ текста в биологических и биомедицинскихнауки, исследования с тех пор расширились в области социальных наук .
  • В Соединенных Штатах, школа информации в Университете Калифорнии, Беркли разрабатывает программу под названием BioText , чтобы помочь биологии исследователей в горнодобывающей промышленности и анализа текста.
  • Анализ текст Портал для исследований (TAPoR), в настоящее время размещена в Университете Альберты , является научным проектом для приложений анализа каталога текста и создать шлюз для исследователей новых к практике.

Методы исследования научной литературы [ править ]

Вычислительные методы были разработаны для помощи в поиске информации из научной литературы. Опубликованные подходы включают методы поиска [40] определения новизны [41] и уточнения омонимов [42] среди технических отчетов.

Цифровые гуманитарные науки и вычислительная социология [ править ]

Автоматический анализ огромных текстовых корпусов дал ученым возможность анализировать миллионы документов на нескольких языках с очень ограниченным ручным вмешательством. Ключевые вспомогательные технологии - это синтаксический анализ, машинный перевод , категоризация тем и машинное обучение.

Повествовательная сеть о выборах в США 2012 [43]

Автоматический синтаксический анализ текстовых корпусов позволил извлекать акторов и их реляционные сети в широком масштабе, превращая текстовые данные в сетевые. Полученные сети, которые могут содержать тысячи узлов, затем анализируются с использованием инструментов теории сетей для определения ключевых участников, ключевых сообществ или сторон и общих свойств, таких как надежность или структурная стабильность всей сети или центральность определенных узлы. [44] Это автоматизирует подход, представленный количественным нарративным анализом [45], посредством которого тройки субъект-глагол-объект идентифицируются с парами акторов, связанных действием, или парами, образованными актором-объектом. [43]

Контент-анализ долгое время был традиционной частью социальных наук и медиа-исследований. Автоматизация контент-анализа позволила совершить революцию « больших данных » в этой области с исследованиями в социальных сетях и газетном контенте, который включает миллионы новостей. Гендерная предвзятость , удобочитаемость , сходство контента, предпочтения читателей и даже настроение были проанализированы на основе методов интеллектуального анализа текста в миллионах документов. [46] [47] [48] [49] [50] Анализ читабельности, гендерной предвзятости и тематической предвзятости был продемонстрирован в Flaounas et al. [51]показать, как разные темы имеют разные гендерные предубеждения и уровни читабельности; также была продемонстрирована возможность определять паттерны настроения у огромного населения путем анализа содержания Twitter. [52] [53]

Программное обеспечение [ править ]

Компьютерные программы горнодобывающие Text доступны из многих коммерческих и с открытым исходным кодом компании и источников. См. Список программ для интеллектуального анализа текста .

Закон об интеллектуальной собственности [ править ]

Ситуация в Европе [ править ]

Воспроизвести медиа
Видео кампании Fix Copyright, объясняющее TDM и его проблемы с авторскими правами в ЕС, 2016 [3:52

Согласно европейским законам об авторском праве и базах данных , добыча охраняемых авторским правом произведений (например, с помощью веб-майнинга ) без разрешения владельца авторских прав является незаконной. В Великобритании в 2014 году по рекомендации обзора Харгривса правительство внесло поправки в закон об авторском праве [54], чтобы разрешить интеллектуальный анализ текста в качестве ограничения и исключения . Это была вторая страна в мире, которая сделала это после Японии , которая ввела исключение для горнодобывающей промышленности в 2009 году. Однако из-за ограничения Директивы об информационном обществе(2001), исключение для Великобритании разрешает добычу контента только в некоммерческих целях. Закон об авторском праве Великобритании не позволяет отменять это положение договорными условиями.

Европейская комиссия способствовала заинтересованным сторонам обсуждения текста и интеллектуальному анализу данных в 2013 год под названием лицензии для Европы. [55] Тот факт, что в центре внимания решения этой юридической проблемы были лицензии, а не ограничения и исключения из закона об авторском праве, побудил представителей университетов, исследователей, библиотек, групп гражданского общества и издателей с открытым доступом покинуть диалог с заинтересованными сторонами в мае. 2013. [56]

Ситуация в США [ править ]

Закон США об авторском праве , и в частности его положения о добросовестном использовании , означает, что интеллектуальный анализ текста в Америке, а также в других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея, считается законным. Поскольку интеллектуальный анализ текста является трансформирующим, а это означает, что он не заменяет исходную работу, он рассматривается как законный при добросовестном использовании. Например, в рамках мирового соглашения с Google Book председательствующий судья постановил, что проект Google по оцифровке книг, охраняемых авторским правом, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки - одним из таких видов использования был интеллектуальный анализ текста и данных. . [57]

Последствия [ править ]

До недавнего времени веб-сайты чаще всего использовали текстовый поиск, который находил только документы, содержащие определенные пользователем слова или фразы. Теперь, благодаря использованию семантической сети , интеллектуальный анализ текста может находить контент на основе значения и контекста (а не только по конкретному слову). Кроме того, программное обеспечение для интеллектуального анализа текста можно использовать для создания больших досье информации о конкретных людях и событиях. Например, можно создавать большие наборы данных на основе данных, извлеченных из новостных отчетов, для облегчения анализа социальных сетей или контрразведки . По сути, программное обеспечение интеллектуального анализа текста может действовать подобно аналитику разведки или библиотекарю-исследователю, хотя и с более ограниченным объемом анализа. Интеллектуальный анализ текста также используется в некоторых фильтрах спама в электронной почте.как способ определения характеристик сообщений, которые могут быть рекламой или другим нежелательным материалом. Анализ текста играет важную роль в определении настроений финансового рынка .

Будущее [ править ]

Все больший интерес проявляется к многоязычному интеллектуальному анализу данных: возможности собирать информацию на разных языках и группировать похожие элементы из разных лингвистических источников в соответствии с их значением.

Проблема использования значительной части корпоративной информации, которая происходит в «неструктурированной» форме, была признана на протяжении десятилетий. [58] Это признано в самом раннем определении бизнес-аналитики (BI) в статье журнала IBM Journal от HP Luhn в октябре 1958 года «Система бизнес-аналитики», в которой описывается система, которая:

"... использовать машины для обработки данных для авто-абстрагирования и автокодирования документов и для создания профилей интересов для каждой из" точек действия "в организации. Как входящие, так и внутренние документы автоматически абстрагируются, характеризуясь словом шаблон и автоматически отправляется в соответствующие точки действий ".

Тем не менее, поскольку информационные системы управления развивались, начиная с 1960-х годов, а бизнес-аналитика возникла в 80-х и 90-х годах как категория программного обеспечения и область практики, упор делался на числовые данные, хранящиеся в реляционных базах данных. Это неудивительно: текст в «неструктурированных» документах сложно обрабатывать. Появление текстовой аналитики в ее нынешней форме связано с переориентацией исследований в конце 1990-х годов с разработки алгоритмов на приложения, как описано профессором Марти А. Херстом в статье «Распутывание текстовых данных»: [59]

В течение почти десятилетия сообщество компьютерной лингвистики рассматривало большие текстовые коллекции как ресурс, который нужно использовать для создания более совершенных алгоритмов анализа текста. В этой статье я попытался предложить новый акцент: использование больших онлайн-коллекций текстов для открытия новых фактов и тенденций, касающихся самого мира. Я полагаю, что для достижения прогресса нам не нужен полностью искусственный интеллектуальный анализ текста; скорее, сочетание анализа, основанного на вычислениях и управляемом пользователем, может открыть дверь к захватывающим новым результатам.

Заявление Херста о потребностях в 1999 году довольно хорошо описывает состояние технологии и практики текстовой аналитики десять лет спустя.

См. Также [ править ]

  • Концепция майнинга
  • Обработка документов
  • Полнотекстовый поиск
  • Список программного обеспечения для интеллектуального анализа текста
  • Настроение рынка
  • Разрешение имен (семантика и извлечение текста)
  • Признание именной организации
  • Аналитика новостей
  • Изучение онтологий
  • Запись связи
  • Последовательный анализ шаблонов ( анализ строк и последовательностей)
  • шинглинг
  • Веб-интеллектуальный анализ , задача, которая может включать интеллектуальный анализ текста (например, сначала найти подходящие веб-страницы, классифицируя просканированные веб-страницы, а затем извлечь желаемую информацию из текстового содержимого этих страниц, считающихся релевантными)

Ссылки [ править ]

Цитаты [ править ]

  1. ^ "Марти Херст: Что такое интеллектуальный анализ текста?" .
  2. ^ Hotho А., Nürnberger, А. и Paaß, G. (2005). «Краткий обзор интеллектуального анализа текста». В Ldv Forum, Vol. 20 (1), стр. 19–62
  3. Перейти ↑ Feldman, R. and Sanger, J. (2007). Учебное пособие по горному делу. Издательство Кембриджского университета. Нью-Йорк
  4. ^ [1] Архивировано 29 ноября 2009 года в Wayback Machine.
  5. ^ "KDD-2000 Workshop on Text Mining - Call for Papers" . Cs.cmu.edu . Проверено 23 февраля 2015 .
  6. ^ [2] Архивировано 3 марта 2012 г., в Wayback Machine.
  7. ^ Хоббс, Джерри Р .; Уокер, Дональд Э .; Амслер, Роберт А. (1982). «Доступ к структурированному тексту на естественном языке» . Материалы 9-й конференции по компьютерной лингвистике . 1 . С. 127–32. DOI : 10.3115 / 991813.991833 . S2CID 6433117 . 
  8. ^ «Неструктурированные данные и правило 80 процентов» . Прорывной анализ. Август 2008 . Проверено 23 февраля 2015 .
  9. ^ Antunes, João (2018-11-14). Exploração de informações contextuais para enriquecimento semântico em репрезентации текстов (Mestrado em Ciências de Computação e Matemática Computacional thesis) (на португальском языке). Сан-Карлос: Университет Сан-Паулу. DOI : 10,11606 / d.55.2019.tde-03012019-103253 .
  10. ^ Моро, Андреа; Раганато, Алессандро; Навильи, Роберто (декабрь 2014 г.). «Связывание сущностей и устранение смысловой неоднозначности: единый подход» . Труды Ассоциации компьютерной лингвистики . 2 : 231–244. DOI : 10,1162 / tacl_a_00179 . ISSN 2307-387X . 
  11. ^ Чанг, Вуи Ли; Тай, Кай Мэн; Лим, Чи Пэн (2017-02-06). «Новая развивающаяся древовидная модель с локальным переобучением для кластеризации и визуализации документов» . Письма нейронной обработки . 46 (2): 379–409. DOI : 10.1007 / s11063-017-9597-3 . ISSN 1370-4621 . S2CID 9100902 .  
  12. ^ «Полный анализ настроения круга» . Прорывной анализ. 2010-06-14 . Проверено 23 февраля 2015 .
  13. ^ Мель, Matthias R. (2006). «Количественный анализ текста». Справочник по мультиметодам в психологии . п. 141. DOI : 10,1037 / 11383-011 . ISBN 978-1-59147-318-3.
  14. ^ Панг, Бо; Ли, Лилиан (2008). «Анализ мнений и настроений». Основы и тенденции в поиске информации . 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755 . DOI : 10.1561 / 1500000011 . ISSN 1554-0669 .  
  15. ^ Палтоглу, Георгиос; Телуолл, Майк (01.09.2012). «Twitter, MySpace, Digg: неконтролируемый анализ настроений в социальных сетях» . ACM-транзакции по интеллектуальным системам и технологиям . 3 (4): 66. DOI : 10,1145 / 2337542,2337551 . ISSN 2157-6904 . S2CID 16600444 .  
  16. ^ «Анализ настроений в Twitter <SemEval-2017 Task 4» . alt.qcri.org . Проверено 2 октября 2018 .
  17. ^ Zanasi, Алессандро (2009). «Виртуальное оружие для настоящих войн: поиск текста для национальной безопасности». Материалы международного семинара по вычислительному интеллекту в защите информационных систем CISIS'08 . Достижения в мягких вычислениях. 53 . п. 53. DOI : 10.1007 / 978-3-540-88181-0_7 . ISBN 978-3-540-88180-3.
  18. ^ Бадал, Varsha D .; Kundrotas, Petras J .; Ваксер, Илья А. (09.12.2015). «Анализ текста для стыковки белков» . PLOS Вычислительная биология . 11 (12): e1004630. Bibcode : 2015PLSCB..11E4630B . DOI : 10.1371 / journal.pcbi.1004630 . ISSN 1553-7358 . PMC 4674139 . PMID 26650466 .   
  19. ^ Коэн, К. Бретоннель; Хантер, Лоуренс (2008). «Начало работы с интеллектуальным анализом текста» . PLOS Вычислительная биология . 4 (1): e20. Bibcode : 2008PLSCB ... 4 ... 20С . DOI : 10.1371 / journal.pcbi.0040020 . PMC 2217579 . PMID 18225946 .  
  20. ^ Бадал, В. Д; Kundrotas, P.J; Ваксер, И. А (2015). «Текстовый майнинг для стыковки белков» . PLOS Вычислительная биология . 11 (12): e1004630. Bibcode : 2015PLSCB..11E4630B . DOI : 10.1371 / journal.pcbi.1004630 . PMC 4674139 . PMID 26650466 .  
  21. ^ Папаниколау, Николас; Павлопулос, Георгиос А .; Феодосий, Феодосий; Илиопулос, Иоаннис (2015). «Прогнозы белок-белкового взаимодействия с использованием методов интеллектуального анализа текста». Методы . 74 : 47–53. DOI : 10.1016 / j.ymeth.2014.10.026 . ISSN 1046-2023 . PMID 25448298 .  
  22. ^ Шкларчик, Дамиан; Моррис, Джон Х; Повар, Хелен; Кун, Майкл; Уайдер, Стефан; Симонович, Милан; Сантос, Альберто; Дончева, Надежда Т; Рот, Александр (18.10.2016). «База данных STRING в 2017 году: сети белок-белковых ассоциаций с контролируемым качеством, стали общедоступными» . Исследования нуклеиновых кислот . 45 (D1): D362 – D368. DOI : 10.1093 / NAR / gkw937 . ISSN 0305-1048 . PMC 5210637 . PMID 27924014 .   
  23. ^ Liem, Дэвид A .; Мурали, Санджана; Сигдел, Дибакар; Ши, Ю; Ван, Сюань; Шен, Цзяминь; Чой, Ховард; Caufield, John H .; Ван, Вэй; Пинг, Пейпей; Хан, Цзявэй (2018-10-01). «Анализ фраз текстовых данных для анализа паттернов белков внеклеточного матрикса при сердечно-сосудистых заболеваниях» . Американский журнал физиологии. Сердце и физиология кровообращения . 315 (4): H910 – H924. DOI : 10.1152 / ajpheart.00175.2018 . ISSN 1522-1539 . PMC 6230912 . PMID 29775406 .   
  24. ^ Ван Ле, D; Монтгомери, Дж; Киркби, KC; Сканлан, Дж. (10 августа 2018 г.). «Прогнозирование рисков с использованием обработки электронных записей психического здоровья на естественном языке в условиях стационарной судебной психиатрии» . Журнал биомедицинской информатики . 86 : 49–58. DOI : 10.1016 / j.jbi.2018.08.007 . PMID 30118855 . 
  25. ^ Йенссен, Тор-Кристиан; Лэгрейд, Астрид; Коморовский, Ян; Ховиг, Эйвинд (2001). «Литературная сеть человеческих генов для высокопроизводительного анализа экспрессии генов» . Генетика природы . 28 (1): 21–8. DOI : 10.1038 / ng0501-21 . PMID 11326270 . S2CID 8889284 .  
  26. ^ Masys, Daniel R. (2001). «Связывание данных микрочипа с литературой» . Генетика природы . 28 (1): 9–10. DOI : 10.1038 / ng0501-9 . PMID 11326264 . S2CID 52848745 .  
  27. ^ Renganathan, Vinaitheerthan (2017). «Анализ текста в биомедицинской области с упором на кластеризацию документов» . Исследования в области информатики здравоохранения . 23 (3): 141–146. DOI : 10.4258 / hir.2017.23.3.141 . ISSN 2093-3681 . PMC 5572517 . PMID 28875048 .   
  28. [3] Архивировано 4 октября 2013 года в Wayback Machine.
  29. ^ «Текстовая аналитика» . Медалья . Проверено 23 февраля 2015 .
  30. ^ a b Кусмент, Кристоф; Ван ден Поэль, Дирк (2008). «Интеграция голоса клиентов через электронную почту колл-центра в систему поддержки принятия решений для прогнозирования оттока» . Информация и менеджмент . 45 (3): 164–74. CiteSeerX 10.1.1.113.3238 . DOI : 10.1016 / j.im.2008.01.005 . 
  31. ^ Coussement, Кристоф; Ван ден Поэль, Дирк (2008). «Улучшение управления жалобами клиентов за счет автоматической классификации адресов электронной почты с использованием лингвистических стилей в качестве предикторов» . Системы поддержки принятия решений . 44 (4): 870–82. DOI : 10.1016 / j.dss.2007.10.010 .
  32. ^ Рамиро Х. Гальвес; Агустин Гравано (2017). «Оценка полезности майнинга онлайн-доски объявлений в автоматических системах прогнозирования запасов». Журнал вычислительной науки . 19 : 1877–7503. DOI : 10.1016 / j.jocs.2017.01.001 .
  33. ^ Панг, Бо; Ли, Лилиан; Вайтхьянатан, Шивакумар (2002). "Недурно?". Материалы конференции ACL-02 по эмпирическим методам обработки естественного языка . 10 . С. 79–86. DOI : 10.3115 / 1118693.1118704 . S2CID 7105713 . 
  34. ^ Алессандро Валитутти; Карло Страппарава; Оливьеро Сток (2005). «Разработка эффективных лексических ресурсов» (PDF) . Психнологический журнал . 2 (1): 61–83.
  35. Эрик Камбрия; Роберт Спир; Катрин Хаваси; Амир Хуссейн (2010). «SenticNet: общедоступный семантический ресурс для сбора мнений» (PDF) . Труды AAAI CSK . С. 14–18.
  36. ^ Кальво, Рафаэль А; д'Мелло, Сидней (2010). «Обнаружение аффекта: междисциплинарный обзор моделей, методов и их приложений» . IEEE Transactions on Affective Computing . 1 (1): 18–37. DOI : 10.1109 / T-AFFC.2010.1 . S2CID 753606 . 
  37. ^ "Манчестерский университет" . Manchester.ac.uk . Проверено 23 февраля 2015 .
  38. ^ "Лаборатория Цудзи" . Tsujii.is.su-tokyo.ac.jp . Проверено 23 февраля 2015 .
  39. ^ "Токийский университет" . UTokyo . Проверено 23 февраля 2015 .
  40. ^ Шен, Цзяминь; Сяо, Цзиньфэн; Он, Синьвэй; Шан, Дзинбо; Синха, Саурабх; Хан, Цзявэй (27.06.2018). Поиск по множеству сущностей в научной литературе: неконтролируемый подход к ранжированию . ACM. С. 565–574. DOI : 10.1145 / 3209978.3210055 . ISBN 9781450356572. S2CID  13748283 .
  41. ^ Уолтер, Лотар; Радауэр, Альфред; Мёрле, Мартин Г. (06.02.2017). «Красота серной бабочки: новизна патентов, выявленная анализом ближней окружающей среды на основе интеллектуального анализа текста» . Наукометрия . 111 (1): 103–115. DOI : 10.1007 / s11192-017-2267-4 . ISSN 0138-9130 . S2CID 11174676 .  
  42. ^ Ролл, Ури; Correia, Ricardo A .; Бергер-Тал, Одед (10.03.2018). «Использование машинного обучения для распознавания омонимов в больших текстовых корпусах» . Биология сохранения . 32 (3): 716–724. DOI : 10.1111 / cobi.13044 . ISSN 0888-8892 . PMID 29086438 . S2CID 3783779 .   
  43. ^ a b Автоматический анализ президентских выборов в США с использованием Big Data и сетевого анализа; С. Судхахар, Г. А. Велтри, Н. Кристианини; Большие данные и общество 2 (1), 1-28, 2015 г.
  44. ^ Сетевой анализ повествовательного содержания в больших корпусах; С. Судхахар, Дж. Де Фацио, Р. Франзози, Н. Кристианини; Инженерия естественного языка, 1-32, 2013
  45. ^ Количественный анализ повествования; Роберто Франзози; Университет Эмори © 2010
  46. ^ Lansdall-Welfare, Томас; Судхахар, Саатвига; Томпсон, Джеймс; Льюис, Джастин; Команда, газета FindMyPast; Кристианини, Нелло (9 января 2017 г.). «Контент-анализ 150-летия британской периодики» . Труды Национальной академии наук . 114 (4): E457 – E465. DOI : 10.1073 / pnas.1606380114 . ISSN 0027-8424 . PMC 5278459 . PMID 28069962 .   
  47. ^ И. Флаунас, М. Турчи, О. Али, Н. Файсон, Т. Де Би, Н. Мосделл, Дж. Льюис, Н. Кристианини, Структура медиасферы ЕС, PLoS ONE, Vol. 5 (12), стр. E14243, 2010.
  48. ^ События прогнозирования текущей погоды из социальной сети со статистическим обучением В. Лампос, Н. Кристианини; Транзакции ACM по интеллектуальным системам и технологиям (TIST) 3 (4), 72
  49. ^ NOAM: система анализа и мониторинга новостных агентств; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini Proc. международной конференции ACM SIGMOD 2011 года по управлению данными
  50. ^ Автоматическое обнаружение шаблонов в медиа-контенте, N Cristianini, Combinatorial Pattern Matching, 2-13, 2011.
  51. ^ И. Флаунас, О. Али, Т. Лэнсдалл-Велфар, Т. Де Би, Н. Мосделл, Дж. Льюис, Н. Кристианини, МЕТОДЫ ИССЛЕДОВАНИЯ В ЭПОХУ ЦИФРОВОЙ ЖУРНАЛИСТИКИ, Цифровая журналистика, Routledge, 2012
  52. ^ Вариации циркадного настроения в материалах Twitter; Фабон Дзоганг, Стаффорд Лайтман, Нелло Кристианини. Достижения мозга и нейробиологии, 1, 2398212817744501.
  53. ^ Влияние рецессии на общественное настроение в Великобритании; Т. Лансдалл-Велфэр, В. Лампос, Н. Кристианини; Сессия Mining Social Network Dynamics (MSND) в приложениях социальных сетей
  54. Исследователи получили право на интеллектуальный анализ данных в соответствии с новыми законами Великобритании об авторском праве. Архивировано 9 июня 2014 г. на Wayback Machine.
  55. ^ «Лицензии для Европы - Структурированный диалог с заинтересованными сторонами 2013» . Европейская комиссия . Проверено 14 ноября 2014 года .
  56. ^ «Текст и интеллектуальный анализ данных: его важность и необходимость изменений в Европе» . Ассоциация европейских исследовательских библиотек . 2013-04-25 . Проверено 14 ноября 2014 года .
  57. ^ "Судья выносит упрощенное судебное решение в пользу Google Книг - добросовестное использование" . Lexology.com . Антонелли Закон Ltd . Проверено 14 ноября 2014 года .
  58. ^ "Краткая история текстовой аналитики Сетом Граймсом" . Beyenetwork. 2007-10-30 . Проверено 23 февраля 2015 .
  59. ^ Херст, Марти А. (1999). «Распутывание текстовых данных» . Труды 37-го ежегодного собрания Ассоциации компьютерной лингвистики по компьютерной лингвистике . С. 3–10. DOI : 10.3115 / 1034678.1034679 . ISBN 978-1-55860-609-8. S2CID  2340683 .

Источники [ править ]

  • Ананиаду, С. и Макнот, Дж. (Редакторы) (2006). Text Mining для биологии и биомедицины . Книги Artech House. ISBN 978-1-58053-984-5 
  • Билисолы, Р. (2008). Практический анализ текста с помощью Perl . Нью-Йорк: Джон Вили и сыновья. ISBN 978-0-470-17643-6 
  • Фельдман Р. и Сэнгер Дж. (2006). Справочник по майнингу текстов . Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0-521-83657-9 
  • Хотхо, А., Нюрнбергер, А. и Паас, Г. (2005). «Краткий обзор интеллектуального анализа текста». В Ldv Forum, Vol. 20 (1), стр. 19–62
  • Индуркхья, Н., Дамерау, Ф. (2010). Справочник по обработке естественного языка , 2-е издание. Бока-Ратон, Флорида: CRC Press. ISBN 978-1-4200-8592-1 
  • Као, A., и Poteet, S. (редакторы). Обработка естественного языка и интеллектуальный анализ текста . Springer. ISBN 1-84628-175-X 
  • Кончады, М. Программирование приложений интеллектуального анализа текста (серия "Программирование") . Чарльз Ривер Медиа. ISBN 1-58450-460-9 
  • Мэннинг К. и Шутце Х. (1999). Основы статистической обработки естественного языка . Кембридж, Массачусетс: MIT Press. ISBN 978-0-262-13360-9 
  • Майнер Г., Старейшина Дж., Хилл. Т., Нисбет, Р., Делен, Д. и Фаст, А. (2012). Практический анализ текста и статистический анализ приложений с неструктурированными текстовыми данными . Elsevier Academic Press. ISBN 978-0-12-386979-1 
  • Макнайт, В. (2005). «Построение бизнес-аналитики: интеллектуальный анализ текстовых данных в бизнес-аналитике». DM Review , 21-22.
  • Шривастава А. и Сахами. М. (2009). Text Mining: классификация, кластеризация и приложения . Бока-Ратон, Флорида: CRC Press. ISBN 978-1-4200-5940-3 
  • Занаси, А. (редактор) (2007). Text Mining и его приложения к аналитике, CRM и управлению знаниями . WIT Нажмите. ISBN 978-1-84564-131-3 

Внешние ссылки [ править ]

  • Марти Херст: Что такое интеллектуальный анализ текста? (Октябрь 2003 г.)
  • Автоматическое извлечение контента, Консорциум лингвистических данных
  • Автоматическое извлечение контента, NIST