Из Википедии, бесплатной энциклопедии
  (Перенаправлено из раздела извлечения информации )
Перейти к навигации Перейти к поиску

Извлечение информации ( IE ) - это задача автоматического извлечения структурированной информации из неструктурированных и / или полуструктурированных машиночитаемых документов и других источников, представленных в электронном виде. В большинстве случаев эта деятельность касается обработки текстов на человеческом языке посредством обработки естественного языка (НЛП). Недавние действия по обработке мультимедийных документов, такие как автоматическое добавление аннотаций и извлечение контента из изображений / аудио / видео / документов, можно рассматривать как извлечение информации.

Из-за сложности проблемы современные подходы к IE сосредоточены на узко ограниченных областях. Примером может служить извлечение из новостной ленты отчетов о корпоративных слияниях, например, обозначенных формальным отношением:

,

из предложения онлайн-новостей, например:

«Вчера компания Foo Inc., базирующаяся в Нью-Йорке, объявила о приобретении Bar Corp.»

Основная цель IE - позволить выполнять вычисления на ранее неструктурированных данных. Более конкретная цель - позволить логическим рассуждениям делать выводы на основе логического содержания входных данных. Структурированные данные - это семантически четко определенные данные из выбранного целевого домена, интерпретированные с учетом категории и контекста .

Извлечение информации - это часть большой головоломки, которая связана с проблемой разработки автоматических методов управления текстом, помимо его передачи, хранения и отображения. Дисциплина информационного поиска (IR) [1] разработала автоматические методы, обычно статистического характера, для индексации больших коллекций документов и классификации документов. Другой дополнительный подход - это обработка естественного языка.(НЛП), которая решила проблему моделирования обработки человеческого языка со значительным успехом, если принять во внимание масштабность задачи. С точки зрения сложности и акцента IE решает задачи между IR и NLP. Что касается ввода, IE предполагает наличие набора документов, в котором каждый документ следует шаблону, т.е. описывает одну или несколько сущностей или событий способом, аналогичным таковым в других документах, но отличающимся деталями. В качестве примера рассмотрим группу новостных статей о терроризме в Латинской Америке, каждая из которых предположительно основана на одном или нескольких террористических актах. Мы также определяем для любой данной задачи IE шаблон, который представляет собой (или набор) фрейм (ы) для хранения информации, содержащейся в одном документе. Например, терроризм:в шаблоне должны быть слоты, соответствующие исполнителю, жертве и оружию террористического акта, а также дате, когда произошло событие. Система IE для решения этой проблемы требуется, чтобы «понять» статью об атаке настолько, чтобы найти данные, соответствующие слотам в этом шаблоне.

История [ править ]

Извлечение информации восходит к концу 1970-х годов, на заре НЛП. [2] Первой коммерческой системой середины 1980-х годов была JASPER, созданная для Reuters компанией Carnegie Group Inc. </ref> с целью предоставления финансовых новостей финансовым трейдерам в режиме реального времени . [3]

Начиная с 1987 года, IE был стимулирован серией конференций по пониманию сообщений . MUC - это конференция, основанная на соревнованиях [4], которая фокусировалась на следующих областях:

  • MUC-1 (1987), MUC-2 (1989): сообщения о морских операциях.
  • MUC-3 (1991), MUC-4 (1992): Терроризм в странах Латинской Америки.
  • MUC-5 (1993): Совместные предприятия и область микроэлектроники.
  • MUC-6 (1995): новостные статьи об изменениях в руководстве.
  • MUC-7 (1998): отчеты о запуске спутников.

Значительную поддержку оказало Агентство перспективных исследовательских проектов Министерства обороны США ( DARPA ), которое хотело автоматизировать рутинные задачи, выполняемые правительственными аналитиками, например сканирование газет на предмет возможных связей с терроризмом. [ необходима цитата ]

Настоящее значение [ править ]

Современное значение IE связано с растущим объемом информации, доступной в неструктурированной форме. Тим Бернерс-Ли , изобретатель всемирной паутины , называет существующий Интернет сетью документов [5] и выступает за то, чтобы большая часть контента была доступна в виде сети данных . [6] Пока это не выяснится, Интернет в основном состоит из неструктурированных документов без семантических метаданных . Знания, содержащиеся в этих документах, можно сделать более доступными для машинной обработки посредством преобразования в реляционную форму или разметки с помощью XML.теги. Интеллектуальный агент, отслеживающий поток данных новостей, требует, чтобы IE преобразовывал неструктурированные данные во что-то, с чем можно было бы согласиться. Типичное применение IE - сканирование набора документов, написанных на естественном языке, и заполнение базы данных извлеченной информацией. [7]

Задачи и подзадачи [ править ]

Применение извлечения информации к тексту связано с проблемой упрощения текста для создания структурированного представления информации, представленной в свободном тексте. Общая цель - создать более легко читаемый машинами текст для обработки предложений. Типичные задачи и подзадачи IE включают:

  • Заполнение шаблона: извлечение фиксированного набора полей из документа, например извлечение преступников, жертв, времени и т. Д. Из газетной статьи о террористической атаке.
    • Извлечение событий: для входящего документа выведите ноль или более шаблонов событий. Например, газетная статья может описывать несколько террористических атак.
  • Пополнение базы знаний : Заполните базу данных фактами с помощью набора документов. Обычно база данных имеет форму троек (объект 1, отношение, объект 2), например ( Барак Обама , супруга, Мишель Обама )
    • Распознавание именованных сущностей : распознавание известных имен сущностей (для людей и организаций), географических названий, временных выражений и определенных типов числовых выражений путем использования существующих знаний о предметной области или информации, извлеченной из других предложений. [8] Обычно задача распознавания включает присвоение уникального идентификатора извлеченному объекту. Более простая задача называется обнаружением сущностей , которая направлена ​​на обнаружение сущностей без каких-либо существующих знаний об экземплярах сущностей. Например, при обработке предложения «М. Смит любит рыбалку» именованное обнаружение объекта будет означать обнаружениечто фраза «М. Смит» действительно относится к человеку, но без обязательного наличия (или использования) каких-либо знаний об определенном М. Смит, который является (или «может быть») конкретным лицом, о котором говорится в этом предложении.
    • Кореферентности разрешение: обнаружение кореферентности и анафорических связей между текстовыми структурами. В задачах IE это обычно ограничивается поиском связей между ранее извлеченными именованными объектами. Например, «International Business Machines» и «IBM» относятся к одному и тому же реальному объекту. Если мы возьмем два предложения «М. Смит любит рыбалку. Но он не любит ездить на велосипеде», было бы полезно определить, что «он» относится к ранее обнаруженному человеку «М. Смит».
    • Извлечение отношений : идентификация отношений между объектами [8], таких как:
      • ПЕРСОН работает на ОРГАНИЗАЦИЮ (извлечено из предложения «Билл работает на IBM»).
      • PERSON, расположенный в LOCATION (извлечено из предложения «Bill is in France.»)
  • Извлечение полуструктурированной информации, которое может относиться к любому IE, который пытается восстановить какую-либо информационную структуру, которая была потеряна в результате публикации, например:
    • Извлечение таблиц: поиск и извлечение таблиц из документов. [9] [10]
    • Извлечение информации из таблиц: извлечение информации из таблиц в структурированном виде. Это более сложная задача, чем извлечение таблицы, поскольку извлечение таблицы - это только первый шаг, в то время как понимание ролей ячеек, строк, столбцов, связывание информации внутри таблицы и понимание информации, представленной в таблице, являются дополнительными задачами, необходимыми для таблицы извлечение информации. [11] [12] [13]
    • Извлечение комментариев: извлечение комментариев из фактического содержания статьи для восстановления связи между авторами каждого предложения
  • Анализ языка и словарного запаса
    • Извлечение терминологии : поиск релевантных терминов для данного корпуса
  • Аудио извлечение
    • Извлечение музыки на основе шаблонов: поиск соответствующей характеристики в звуковом сигнале, взятом из заданного репертуара; например [14] временные индексы появления ударных звуков могут быть извлечены, чтобы представить существенный ритмический компонент музыкального произведения.

Обратите внимание, что этот список не является исчерпывающим и что точное значение действий IE не является общепринятым, и что многие подходы объединяют несколько подзадач IE для достижения более широкой цели. В IE часто используются машинное обучение, статистический анализ и / или обработка естественного языка.

IE на нетекстовых документах становится все более интересной темой [ когда? ] в исследованиях, а информация, извлеченная из мультимедийных документов, теперь может [ когда? ] быть выраженным в структуре высокого уровня, как это делается в тексте. Это, естественно, приводит к слиянию информации, извлеченной из различных документов и источников.

Приложения World Wide Web [ править ]

IE был в центре внимания конференций MUC. Однако распространение Интернета усилило потребность в разработке систем IE, которые помогают людям справляться с огромным объемом данных , доступных в Интернете. Системы, которые выполняют IE из онлайн-текста, должны отвечать требованиям низкой стоимости, гибкости в разработке и легкой адаптации к новым доменам. Системы MUC не соответствуют этим критериям. Более того, лингвистический анализ, выполняемый для неструктурированного текста, не использует теги HTML / XML и форматы разметки, доступные в онлайн-текстах. В результате для IE в Интернете были разработаны менее лингвистически интенсивные подходы с использованием оболочек., которые представляют собой наборы очень точных правил, которые извлекают содержимое определенной страницы. Ручная разработка оболочек оказалась трудоемкой задачей, требующей высокого уровня знаний. Методы машинного обучения , контролируемые или неконтролируемые , использовались для автоматического установления таких правил.

Оболочки обычно обрабатывают сильно структурированные коллекции веб-страниц, такие как каталоги продуктов и телефонные справочники. Однако они терпят неудачу, когда тип текста менее структурирован, что также часто встречается в Интернете. Недавние усилия по адаптивному извлечению информации мотивируют разработку систем IE, которые могут обрабатывать различные типы текста, от хорошо структурированного до почти свободного текста, где обычные оболочки терпят неудачу, включая смешанные типы. Такие системы могут использовать поверхностное знание естественного языка и, таким образом, также могут применяться к менее структурированным текстам.

Недавнее [ когда? ] - это визуальное извлечение информации [15] [16], которое основывается на отображении веб-страницы в браузере и создании правил, основанных на близости регионов на отображаемой веб-странице. Это помогает извлекать из сложных веб-страниц объекты, которые могут демонстрировать визуальный узор, но не имеют заметного шаблона в исходном коде HTML.

Подходы [ править ]

В настоящее время широко распространены следующие стандартные подходы:

  • Рукописные регулярные выражения (или вложенная группа регулярных выражений)
  • Использование классификаторов
    • Генеративный: наивный байесовский классификатор
    • Дискриминационный: модели максимальной энтропии, такие как полиномиальная логистическая регрессия.
  • Последовательные модели
    • Рекуррентная нейронная сеть
    • Скрытая марковская модель
    • Условная марковская модель (CMM) / Марковская модель с максимальной энтропией (MEMM)
    • Условные случайные поля (CRF) обычно используются вместе с IE для различных задач, от извлечения информации из исследовательских работ [17] до извлечения инструкций по навигации. [18]

Для IE существует множество других подходов, включая гибридные подходы, которые объединяют некоторые из стандартных подходов, перечисленных ранее.

Бесплатное или открытое программное обеспечение и услуги [ править ]

  • Общая архитектура для текстовой инженерии (GATE) поставляется в комплекте с бесплатной системой извлечения информации.
  • Apache OpenNLP - это набор инструментов машинного обучения Java для обработки естественного языка.
  • OpenCalais - это веб-сервис автоматического извлечения информации от Thomson Reuters (бесплатная ограниченная версия)
  • Machine Learning for Language Toolkit (Mallet) - это пакет на основе Java для множества задач обработки естественного языка, включая извлечение информации.
  • DBpedia Spotlight - это инструмент с открытым исходным кодом на Java / Scala (и бесплатный веб-сервис), который можно использовать для распознавания именованных сущностей и разрешения имен .
  • Natural Language Toolkit - это набор библиотек и программ для символьной и статистической обработки естественного языка (NLP) для языка программирования Python.
  • См. Также реализации CRF

См. Также [ править ]

  • Извлечение онтологий
  • Приложения искусственного интеллекта
  • Концепция майнинга
  • Программа DARPA TIPSTER
  • Корпоративный поиск
  • Фасетный поиск
  • Извлечение знаний
  • Признание именной организации
  • Nutch
  • Семантический перевод
  • Textmining
  • Парсинг веб-страниц
  • Открытое извлечение информации
  • Извлечение данных
Списки
  • Список новых технологий
  • Схема искусственного интеллекта

Ссылки [ править ]

  1. ^ FREITAG, ДЭЙН. «Машинное обучение для извлечения информации в неформальных областях» (PDF) . 2000 Kluwer Academic Publishers. Отпечатано в Нидерландах .
  2. ^ Андерсен, Пегги М .; Hayes, Филип Дж .; Huettner, Alison K .; Schmandt, Linda M .; Ниренбург, Ирэн Б.; Вайнштейн, Стивен П. (1992). «Автоматическое извлечение фактов из пресс-релизов для создания новостей» . Труды третьей конференции по прикладной обработке естественного языка - . С. 170–177. CiteSeerX 10.1.1.14.7943 . DOI : 10.3115 / 974499.974531 . S2CID 14746386 .  
  3. ^ Коуи, Джим; Уилкс, Йорик (1996). Извлечение информации (PDF) . п. 3. CiteSeerX 10.1.1.61.6480 . S2CID 10237124 .   
  4. ^ Марко Костантино, Паоло Колетти, Извлечение информации в финансах, Wit Press, 2008. ISBN 978-1-84564-146-7 
  5. ^ «Связанные данные - история до сих пор» (PDF) .
  6. ^ «Тим Бернерс-Ли в следующей сети» .
  7. ^ RK Srihari , W. Li, C. Niu и T. Cornell, «InfoXtract: настраиваемый механизм извлечения информации промежуточного уровня», Journal of Natural Language Engineering , [ мертвая ссылка ] Cambridge U. Press, 14 (1), 2008, С. 33-69.
  8. ^ a b Дат Куок Нгуен и Карин Верспур (2019). «Сквозное извлечение нейронных отношений с использованием глубокого биаффинного внимания». Труды 41-й Европейской конференции по поиску информации (ECIR) . arXiv : 1812.11275 . DOI : 10.1007 / 978-3-030-15712-8_47 .
  9. Перейти ↑ Milosevic N, Gregson C, Hernandez R, Nenadic G (февраль 2019). «Структура для извлечения информации из таблиц в биомедицинской литературе». Международный журнал анализа и распознавания документов (IJDAR) . 22 (1): 55–78. arXiv : 1902.10031 . Bibcode : 2019arXiv190210031M . DOI : 10.1007 / s10032-019-00317-0 . S2CID 62880746 . 
  10. ^ Милошевич, Никола (2018). Многоуровневый подход к извлечению информации из таблиц в биомедицинских документах (PDF) (PhD). Манчестерский университет.
  11. Перейти ↑ Milosevic N, Gregson C, Hernandez R, Nenadic G (февраль 2019). «Структура для извлечения информации из таблиц в биомедицинской литературе». Международный журнал анализа и распознавания документов (IJDAR) . 22 (1): 55–78. arXiv : 1902.10031 . Bibcode : 2019arXiv190210031M . DOI : 10.1007 / s10032-019-00317-0 . S2CID 62880746 . 
  12. Перейти ↑ Milosevic N, Gregson C, Hernandez R, Nenadic G (июнь 2016). «Распутывание структуры таблиц в научной литературе» . 21-я Международная конференция по приложениям естественного языка к информационным системам . Конспект лекций по информатике. 21 : 162–174. DOI : 10.1007 / 978-3-319-41754-7_14 . ISBN 978-3-319-41753-0.
  13. ^ Милошевич, Никола (2018). Многоуровневый подход к извлечению информации из таблиц в биомедицинских документах (PDF) (PhD). Манчестерский университет.
  14. ^ A.Zils, F.Pachet, O.Delerue и Ф. Gouyon, Автоматическое извлечение барабанных треков с полифонической музыки сигналов , Труды WedelMusic, Дармштадт, Германия, 2002.
  15. ^ Chenthamarakshan, Vijil; Desphande, Prasad M; Кришнапурам, Рагху; Варадараджан, Рамакришнан; Штольце, Кнут (2015). «WYSIWYE: алгебра для выражения пространственных и текстовых правил для извлечения информации». arXiv : 1506.08454 [ cs.CL ].
  16. ^ Баумгартнер, Роберт; Флеска, Серджио; Готтлоб, Георг (2001). «Извлечение визуальной информации из Интернета с помощью Lixto»: 119–128. CiteSeerX 10.1.1.21.8236 .  Цитировать журнал требует |journal=( помощь )
  17. ^ Пэн, Ф .; МакКаллум, А. (2006). «Извлечение информации из исследовательских работ с использованием условных случайных полей ☆». Обработка информации и управление . 42 (4): 963. DOI : 10.1016 / j.ipm.2005.09.002 .
  18. Симидзу, Нобуюки; Хасс, Эндрю (2006). «Извлечение представления знаний на основе фреймов из инструкций по маршруту» (PDF) . Архивировано из оригинального (PDF) 01.09.2006 . Проверено 27 марта 2010 .

Внешние ссылки [ править ]

  • Страница "Конкурс" Alias-I Список академических и промышленных инструментальных средств для извлечения информации на естественном языке.
  • Страница Габора Мелли в IE Подробное описание задачи извлечения информации.