Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Извлечение знаний - это создание знаний из структурированных ( реляционные базы данных , XML ) и неструктурированных ( текст , документы, изображения ) источников. Полученные в результате знания должны быть в машиночитаемом и машинно-интерпретируемом формате и должны представлять знания таким образом, чтобы облегчить вывод. Хотя методически это похоже на извлечение информации ( NLP ) и ETL (хранилище данных), основным критерием является то, что результат извлечения выходит за рамки создания структурированной информации или преобразования в реляционную схему.. Это требует либо повторного использования существующих формальных знаний (повторное использование идентификаторов или онтологий ), либо генерации схемы на основе исходных данных.

RDB2RDF Группа W3C [1] в настоящее время стандартизирует язык для извлечения структур описания ресурсов (RDF) из реляционных баз данных . Другой популярный пример извлечения знаний - это преобразование Википедии в структурированные данные, а также сопоставление с существующими знаниями (см. DBpedia и Freebase ).

Обзор [ править ]

После стандартизации языков представления знаний, таких как RDF и OWL , в этой области было проведено много исследований, особенно в отношении преобразования реляционных баз данных в RDF, разрешения идентичности , открытия знаний и изучения онтологий. В общем процессе используются традиционные методы извлечения и извлечения, преобразования и загрузки информации (ETL), которые преобразуют данные из источников в структурированные форматы.

Следующие критерии могут использоваться для категоризации подходов в этой теме (некоторые из них учитывают только извлечение из реляционных баз данных): [2]

Примеры [ править ]

Ссылка на объект [ править ]

  1. DBpedia Spotlight , OpenCalais , Dandelion dataTXT , Zemanta API, Extractiv и PoolParty Extractor анализируют произвольный текст через распознавание именованных сущностей, а затем устраняют неоднозначность кандидатов с помощью разрешения имен и связывают найденные сущности с репозиторием знаний DBpedia [3] ( Dandelion dataTXT demo или DBpedia Веб-демонстрация Spotlight или Демо- версия PoolParty Extractor ).

В среду президент Обама призвал Конгресс продлить налоговые льготы для студентов, включенных в прошлогодний пакет экономических стимулов, утверждая, что эта политика предусматривает более щедрую помощь.

Поскольку президент Обама связан с ресурсом DBpedia LinkedData , дополнительная информация может быть получена автоматически, и Semantic Reasoner может, например, сделать вывод, что упомянутая сущность относится к типу Person (используя FOAF (программное обеспечение) ) и типу Presidents of the United States ( с помощью YAGO ). Примеры счетчиков: методы, которые распознают только сущности или ссылаются на статьи Википедии и другие цели, не обеспечивающие дальнейшего извлечения структурированных данных и формальных знаний.

Реляционные базы данных в RDF [ править ]

  1. Triplify , D2R Server, Ultrawrap и Virtuoso RDF Views - это инструменты, которые преобразуют реляционные базы данных в RDF. Во время этого процесса они позволяют повторно использовать существующие словари и онтологии в процессе преобразования. При преобразовании типичной реляционной таблицы с именем users один столбец (например, имя ) или совокупность столбцов (например, first_name и last_name ) должны предоставлять URI созданного объекта. Обычно используется первичный ключ. Любой другой столбец может быть извлечен как отношение к этому объекту. [4]Затем свойства с формально определенной семантикой используются (и повторно используются) для интерпретации информации. Например, столбец в пользовательской таблице с именем wifeTo может быть определен как симметричное отношение, а домашняя страница столбца может быть преобразована в свойство из словаря FOAF под названием foaf: homepage , таким образом квалифицируя его как обратное функциональное свойство . Затем каждую запись пользовательской таблицы можно сделать экземпляром класса foaf: Person (Ontology Population). Кроме того, знания предметной области (в форме онтологии) могут быть созданы из status_id либо с помощью правил, созданных вручную (если status_idравно 2, запись принадлежит классу Teacher) или (полу) -автоматизированными методами ( изучение онтологии ). Вот пример преобразования:
 : Питер  : женатКому  : Мэри  .  : wifeTo  a  owl : SymmetricProperty  .  : Питер  Фоаф : домашняя страница  <http://example.org/Peters_page>  .  : Питер  FOAF : Person . : Петр а : Студент . : Клаус a : Учитель .          

Извлечение из структурированных источников в RDF [ править ]

Отображение 1: 1 таблиц / представлений RDB в сущности / атрибуты / значения RDF [ править ]

При построении RDB-представления проблемной области отправной точкой часто является диаграмма сущность-связь (ERD). Обычно каждая сущность представлена ​​в виде таблицы базы данных, каждый атрибут сущности становится столбцом в этой таблице, а отношения между сущностями указываются внешними ключами. Каждая таблица обычно определяет конкретный класс сущности, каждый столбец - один из своих атрибутов. Каждая строка в таблице описывает экземпляр объекта, однозначно идентифицируемый первичным ключом. Строки таблицы в совокупности описывают набор сущностей. В эквивалентном RDF-представлении того же набора сущностей:

  • Каждый столбец в таблице является атрибутом (т. Е. Предикатом).
  • Каждое значение столбца является значением атрибута (т. Е. Объекта)
  • Каждый ключ строки представляет идентификатор объекта (т. Е. Тему)
  • Каждая строка представляет экземпляр объекта
  • Каждая строка (экземпляр объекта) представлена ​​в RDF набором троек с общим субъектом (идентификатором объекта).

Итак, чтобы отобразить эквивалентное представление на основе семантики RDF, основной алгоритм сопоставления будет следующим:

  1. создать класс RDFS для каждой таблицы
  2. преобразовать все первичные ключи и внешние ключи в IRI
  3. назначить предикат IRI каждому столбцу
  4. назначить предикат rdf: type для каждой строки, связав его с IRI класса RDFS, соответствующим таблице
  5. для каждого столбца, который не является частью первичного или внешнего ключа, создайте тройку, содержащую IRI первичного ключа в качестве субъекта, IRI столбца в качестве предиката и значение столбца в качестве объекта.

Раннее упоминание об этом базовом или прямом отображении можно найти в сравнении Тима Бернерса-Ли модели ER с моделью RDF. [4]

Сложные отображения реляционных баз данных в RDF [ править ]

Упомянутое выше сопоставление 1: 1 предоставляет унаследованные данные в виде RDF простым способом, дополнительные уточнения могут быть использованы для повышения полезности вывода RDF в соответствии с заданными вариантами использования. Обычно информация теряется во время преобразования диаграммы сущности-отношения (ERD) в реляционные таблицы (подробности можно найти в объектно-реляционном несоответствии импеданса ), и ее необходимо реконструировать . С концептуальной точки зрения подходы к извлечению могут исходить из двух направлений. Первое направление пытается извлечь или изучить схему OWL из данной схемы базы данных. Ранние подходы использовали фиксированное количество созданных вручную правил сопоставления для уточнения сопоставления 1: 1. [5] [6] [7]Более сложные методы используют эвристику или алгоритмы обучения для получения схематической информации (методы пересекаются с изучением онтологии ). В то время как некоторые подходы пытаются извлечь информацию из структуры, присущей схеме SQL [8] (анализируя, например, внешние ключи), другие анализируют содержимое и значения в таблицах для создания концептуальных иерархий [9] (например, столбцы с несколькими значениями являются кандидатами в категории). Второе направление пытается сопоставить схему и ее содержимое с уже существующей онтологией домена (см. Также: согласование онтологий ). Однако часто подходящая онтология предметной области не существует, и ее необходимо сначала создать.

XML [ править ]

Поскольку XML имеет древовидную структуру, любые данные могут быть легко представлены в RDF, который имеет структуру графа. XML2RDF - это один из примеров подхода, который использует пустые узлы RDF и преобразует элементы и атрибуты XML в свойства RDF. Однако тема более сложная, как в случае с реляционными базами данных. В реляционной таблице первичный ключ - идеальный кандидат на роль объекта извлеченных троек. Однако элемент XML может быть преобразован - в зависимости от контекста - как субъект, предикат или объект тройки. XSLT может использоваться как стандартный язык преобразования для ручного преобразования XML в RDF.

Обзор методов / инструментов [ править ]

Извлечение из источников на естественном языке [ править ]

Большая часть информации, содержащейся в деловых документах (около 80% [10] ), закодирована на естественном языке и, следовательно, неструктурирована. Поскольку неструктурированные данныеЭто скорее проблема для извлечения знаний, требуются более сложные методы, которые, как правило, дают худшие результаты по сравнению со структурированными данными. Однако возможность массового приобретения извлеченных знаний должна компенсировать возросшую сложность и снижение качества извлечения. В дальнейшем источники на естественном языке понимаются как источники информации, где данные представлены в неструктурированном виде в виде простого текста. Если данный текст дополнительно встроен в документ разметки (например, документ HTML), упомянутые системы обычно автоматически удаляют элементы разметки.

Лингвистическая аннотация / обработка естественного языка (NLP) [ править ]

В качестве этапа предварительной обработки при извлечении знаний может потребоваться выполнение лингвистической аннотации с помощью одного или нескольких инструментов НЛП . Отдельные модули в рабочем процессе НЛП обычно основываются на специфичных для инструмента форматах ввода и вывода, но в контексте извлечения знаний были применены структурированные форматы для представления лингвистических аннотаций.

Типичные задачи НЛП, относящиеся к извлечению знаний, включают:

  • теги части речи (POS)
  • лемматизация (LEMMA) или стемминг (STEM)
  • устранение неоднозначности смысла слов (WSD, относящаяся к семантической аннотации ниже)
  • распознавание именованных объектов (NER, также см. IE ниже)
  • синтаксический анализ, часто использующий синтаксические зависимости (DEP)
  • неглубокий синтаксический анализ (CHUNK): если производительность является проблемой, разбиение на фрагменты дает быстрое извлечение номинальных и других фраз
  • разрешение анафоры (см. разрешение кореферентности в IE ниже, но здесь рассматривается как задача создания связей между текстовыми упоминаниями, а не между упоминанием объекта и абстрактным представлением объекта)
  • маркировка семантических ролей (SRL, связанная с извлечением отношения; не путать с семантической аннотацией, как описано ниже)
  • синтаксический анализ дискурса (отношения между различными предложениями, редко используемые в реальных приложениях)

В NLP такие данные обычно представлены в форматах TSV (форматы CSV с TAB в качестве разделителей), часто называемые форматами CoNLL. Для рабочих процессов извлечения знаний RDF-представления таких данных были созданы в соответствии со следующими стандартами сообщества:

  • Формат обмена NLP (NIF, для многих часто используемых типов аннотаций) [11] [12]
  • Веб-аннотация (WA, часто используется для связывания сущностей) [13]
  • CoNLL-RDF (для аннотаций, изначально представленных в форматах TSV) [14] [15]

Другие форматы, зависящие от платформы, включают

  • Формат обмена LAPPS (LIF, используемый в LAPPS Grid) [16] [17]
  • Формат аннотаций НЛП (NAF, используемый в системе управления рабочим процессом NewsReader) [18] [19]

Традиционное извлечение информации (IE) [ править ]

Традиционное извлечение информации [20] - это технология обработки естественного языка, которая извлекает информацию из текстов на естественном языке и структурирует их подходящим образом. Виды идентифицируемой информации должны быть указаны в модели до начала процесса, поэтому весь процесс традиционного извлечения информации зависит от предметной области. IE разделен на следующие пять подзадач.

  • Признание именной организации (NER)
  • Разрешение Coreference (CO)
  • Построение элемента шаблона (TE)
  • Построение отношения шаблона (TR)
  • Изготовление шаблонного сценария (ST)

Задача распознавания именованных сущностей состоит в том, чтобы распознать и классифицировать все именованные сущности, содержащиеся в тексте (присвоение именованной сущности предопределенной категории). Это работает с применением методов, основанных на грамматике или статистических моделей.

Разрешение Coreference идентифицирует эквивалентные сущности, которые были распознаны NER, в тексте. Есть два важных типа отношений эквивалентности. Первый относится к отношениям между двумя различными представленными объектами (например, IBM Europe и IBM), а второй - к отношениям между объектом и их анафорическими ссылками (например, он и IBM). Оба вида можно распознать по разрешающей способности кореференции.

Во время создания элемента шаблона система IE определяет описательные свойства сущностей, распознаваемые NER и CO. Эти свойства соответствуют обычным качествам, таким как красный или большой.

Построение отношения шаблона определяет отношения, которые существуют между элементами шаблона. Эти отношения могут быть нескольких видов, например, для работы или нахождения, с ограничением, что и домен, и диапазон соответствуют объектам.

В шаблоне сценария производственные события, которые описаны в тексте, будут идентифицированы и структурированы относительно сущностей, распознаваемых NER и CO, и отношений, идентифицированных TR.

Извлечение информации на основе онтологий (OBIE) [ править ]

Извлечение информации на основе онтологий [10] - это подполе извлечения информации, в котором используется по крайней мере одна онтология для управления процессом извлечения информации из текста на естественном языке. Система OBIE использует методы традиционного извлечения информации для идентификации концепций , экземпляров и отношений используемых онтологий в тексте, который после процесса будет структурирован в онтологию. Таким образом, входные онтологии составляют модель извлекаемой информации.

Обучение онтологии (OL) [ править ]

Изучение онтологий - это автоматическое или полуавтоматическое создание онтологий, включая извлечение терминов соответствующей области из текста на естественном языке. Поскольку создание онтологий вручную чрезвычайно трудоемко и требует много времени, есть большая мотивация для автоматизации процесса.

Семантическая аннотация (SA) [ править ]

Во время семантической аннотации [21] текст на естественном языке дополняется метаданными (часто представленными в RDFa ), которые должны сделать семантику содержащихся терминов машинно понятной. В этом процессе, который обычно является полуавтоматическим, извлекаются знания в том смысле, что устанавливается связь между лексическими терминами и, например, понятиями из онтологий. Таким образом, получается знание, какое значение термина в обрабатываемом контексте было предназначено, и, следовательно, значение текста основывается на машиночитаемых данных с возможностью делать выводы. Семантическая аннотация обычно разделяется на следующие две подзадачи.

  1. Извлечение терминологии
  2. Связывание сущностей

На уровне извлечения терминологии из текста извлекаются лексические термины. Для этого токенизатор сначала определяет границы слов и решает сокращения. Затем термины из текста, которые соответствуют концепции, извлекаются с помощью предметно-ориентированного лексикона, чтобы связать их при связывании сущностей.

При связывании сущностей [22] устанавливается связь между извлеченными лексическими терминами из исходного текста и концепциями из онтологии или базы знаний, такой как DBpedia . Для этого с помощью лексики выявляются подходящие концепты к нескольким значениям термина. Наконец, контекст терминов анализируется, чтобы определить наиболее подходящее устранение неоднозначности и присвоить термин правильному понятию.

Обратите внимание, что «семантическую аннотацию» в контексте извлечения знаний не следует путать с семантическим синтаксическим анализом, как понимается при обработке естественного языка (также называемой «семантической аннотацией»): семантический синтаксический анализ направлен на полное машиночитаемое представление естественного языка. , в то время как семантическая аннотация в смысле извлечения знаний затрагивает только очень элементарный аспект этого.

Инструменты [ править ]

Следующие критерии могут использоваться для категоризации инструментов, извлекающих знания из текста на естественном языке.

В следующей таблице описаны некоторые инструменты для извлечения знаний из источников на естественном языке.

Открытие знаний [ править ]

Обнаружение знаний описывает процесс автоматического поиска в больших объемах данных шаблонов, которые можно рассматривать как знания о данных. [43] Это часто описывается как получение знаний из входных данных. Открытие знаний возникло из области интеллектуального анализа данных и тесно связано с ней как с точки зрения методологии, так и с точки зрения терминологии. [44]

Наиболее известной отраслью интеллектуального анализа данных является обнаружение знаний, также известное как обнаружение знаний в базах данных (KDD). Как и многие другие формы открытия знаний, он создает абстракции входных данных. Знания , полученные посредством процесса могут стать дополнительными данными , которые могут быть использованы для дальнейшего использования и открытия. Часто результаты от обнаружения знаний не действенные, открытие действенного знаний , также известный как домен привода интеллектуального анализа данных , [45] цели , чтобы обнаружить и доставить действенные знания и понимание.

Еще одно многообещающее применение обнаружения знаний - это модернизация программного обеспечения , обнаружение слабых мест и соответствие требованиям, что предполагает понимание существующих программных артефактов. Этот процесс связан с концепцией реверс-инжиниринга . Обычно знания, полученные с помощью существующего программного обеспечения, представлены в форме моделей, к которым при необходимости могут быть сделаны конкретные запросы. Отношения субъекта является частым форматом представления знаний , полученных из существующего программного обеспечения. Object Management Group (OMG) разработала спецификацию Knowledge Discovery Metamodel.(KDM), который определяет онтологию для программных активов и их взаимосвязей с целью выполнения обнаружения знаний в существующем коде. Обнаружение знаний из существующих программных систем, также известное как интеллектуальный анализ программного обеспечения, тесно связано с интеллектуальным анализом данных , поскольку существующие программные артефакты имеют огромное значение для управления рисками и бизнеса , что является ключом к оценке и развитию программных систем. Вместо добычи отдельных наборов данных , добыча программного обеспечения фокусируется на метаданных , такие как потоки процесса (например , данные потоки, потоки управления, и карты вызовов), архитектура, схемы баз данных и бизнес - правила / условие / процесс.

Входные данные [ редактировать ]

  • Базы данных
    • Реляционные данные
    • База данных
    • Склад документов
    • Хранилище данных
  • Программного обеспечения
    • Исходный код
    • Файлы конфигурации
    • Скрипты сборки
  • Текст
    • Концепция майнинга
  • Графики
    • Молекулярная добыча
  • Последовательности
    • Интеллектуальный анализ потока данных
    • Изучение изменяющихся во времени потоков данных в условиях дрейфа концепций
  • Интернет

Форматы вывода [ править ]

  • Модель данных
  • Метаданные
  • Метамодели
  • Онтология
  • Представление знаний
  • Теги знаний
  • Бизнес-правило
  • Метамодель обнаружения знаний (KDM)
  • Нотация моделирования бизнес-процессов (BPMN)
  • Промежуточное представительство
  • Структура описания ресурсов (RDF)
  • Показатели программного обеспечения

См. Также [ править ]

  • Кластерный анализ
  • Археология данных

Ссылки [ править ]

  1. ^ Рабочая группа RDB2RDF, Веб-сайт: http://www.w3.org/2001/sw/rdb2rdf/ , устав: http://www.w3.org/2009/08/rdb2rdf-charter , R2RML: Отображение RDB в RDF Язык: http://www.w3.org/TR/r2rml/
  2. ^ LOD2 EU Результат 3.1.1 Извлечение знаний из структурированных источников http://static.lod2.eu/Deliverables/deliverable-3.1.1.pdf Архивировано 27 августа 2011 г. на Wayback Machine
  3. ^ «Жизнь в облаке связанных данных» . www.opencalais.com. Архивировано из оригинала на 2009-11-24 . Проверено 10 ноября 2009 . В Википедии есть двойник связанных данных под названием DBpedia. DBpedia имеет ту же структурированную информацию, что и Википедия, но переведена в машиночитаемый формат.
  4. ^ a b Тим Бернерс-Ли (1998), «Реляционные базы данных в семантической сети» . Дата обращения: 20 февраля 2011.
  5. ^ Ху и др. (2007), «Обнаружение простых соответствий между схемами реляционных баз данных и онтологиями», In Proc. 6-й Международной конференции по семантической паутине (ISWC 2007), 2-й Азиатской конференции по семантической паутине (ASWC 2007), LNCS 4825, страницы 225-238, Пусан, Корея, 11-15 ноября 2007 г. http://citeseerx.ist.psu.edu /viewdoc/download?doi=10.1.1.97.6934&rep=rep1&type=pdf
  6. ^ Р. Гави и Н. Каллот (2007), «Генерация отображения базы данных в онтологию для семантической совместимости». На Третьем международном семинаре по взаимодействию баз данных (InterDB 2007). http://le2i.cnrs.fr/IMG/publications/InterDB07-Ghawi.pdf
  7. ^ Ли и др. (2005) «Полуавтоматический метод получения онтологий для семантической паутины», WAIM, том 3739 конспектов лекций по информатике, стр. 209-220. Springer. DOI : 10.1007 / 11563952_19
  8. ^ Tirmizi et al. (2008), «Перевод приложений SQL в семантическую сеть», конспект лекций по информатике, том 5181/2008 (Приложения баз данных и экспертных систем). http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=15E8AB2A37BD06DAE59255A1AC3095F0?doi=10.1.1.140.3169&rep=rep1&type=pdf
  9. ^ Фарид Cerbah (2008). «Изучение высоко структурированных семантических репозиториев из реляционных баз данных», Семантическая сеть: исследования и приложения, том 5021 конспектов лекций по информатике, Springer, Берлин / Гейдельберг http://www.tao-project.eu/resources/publications/cerbah -learning-high-structured-semantic-repositories-from-relational-databases.pdf Архивировано 20 июля 2011 г. на Wayback Machine.
  10. ^ a b Wimalasuriya, Daya C .; Доу, Дэцзин (2010). «Извлечение информации на основе онтологий: введение и обзор текущих подходов», Журнал информатики , 36 (3), стр. 306 - 323, http://ix.cs.uoregon.edu/~dou/research/papers/jis09.pdf (дата обращения: 18.06.2012).
  11. ^ «Формат обмена NLP (NIF) 2.0 - Обзор и документация» . persistence.uni-leipzig.org . Проверено 5 июня 2020 .
  12. ^ Хеллманн, Себастьян; Леманн, Йенс; Ауэр, Сорен; Брюммер, Мартин (2013). Алани, Харит; Кагал, Лалана; Фокуэ, Ахилл; Грот, Пауль; Биманн, Крис; Паррейра, Жозиан Ксавьер; Аройо, Лора; Ной, Наташа; Велти, Крис (ред.). «Интеграция НЛП с использованием связанных данных» . Семантическая сеть - ISWC 2013 . Конспект лекций по информатике. Берлин, Гейдельберг: Springer. 7908 : 98–113. DOI : 10.1007 / 978-3-642-41338-4_7 . ISBN 978-3-642-41338-4.
  13. ^ Верспур, Карин; Ливингстон, Кевин (июль 2012 г.). «На пути к адаптации лингвистических аннотаций к формализмам научных аннотаций в семантической сети» . Труды Шестого семинара по лингвистической аннотации . Чеджу, Республика Корея: Ассоциация компьютерной лингвистики: 75–84.
  14. ^ acoli-repo / conll-rdf , ACoLi, 27 мая 2020 г. , получено 5 июня 2020 г.
  15. ^ Чиаркос, Кристиан; Фет, Кристиан (2017). Грация, Хорхе; Бонд, Фрэнсис; McCrae, John P .; Буйтелаар, Пол; Чиаркос, Кристиан; Хеллманн, Себастьян (ред.). «CoNLL-RDF: связанные корпуса, созданные в соответствии с требованиями НЛП» . Язык, данные и знания . Конспект лекций по информатике. Чам: Издательство Springer International. 10318 : 74–88. DOI : 10.1007 / 978-3-319-59888-8_6 . ISBN 978-3-319-59888-8.
  16. ^ Верхаген, Марк; Судерман, Кейт; Ван, Ди; Иде, Нэнси; Ши, Чуньци; Райт, Джонатан; Пустеевский, Джеймс (2016). Мураками, Йохей; Линь, Дунхуэй (ред.). «Формат обмена LAPPS» . Инфраструктура языковых услуг по всему миру . Конспект лекций по информатике. Чам: Издательство Springer International. 9442 : 33–47. DOI : 10.1007 / 978-3-319-31468-6_3 . ISBN 978-3-319-31468-6.
  17. ^ "The Language Application Grid | Платформа веб-сервисов для разработки и исследования обработки естественного языка" . Проверено 5 июня 2020 .
  18. ^ newsreader / NAF , NewsReader, 25 мая 2020 г. , получено 5 июня 2020 г.
  19. ^ Фоссен, Пик; Аджерри, Родриго; Альдабе, Итциар; Цибульская, Агата; ван Эрп, Мариеке; Фоккенс, Антске; Лапарра, Эгоитц; Минар, Анн-Лиз; Палмеро Апросио, Алессио; Ригау, немецкий; Роспочер, Марко (15.10.2016). «NewsReader: использование ресурсов знаний в многоязычной читающей машине для получения дополнительных знаний из огромных потоков новостей» . Системы, основанные на знаниях . 110 : 60–85. DOI : 10.1016 / j.knosys.2016.07.013 . ISSN 0950-7051 . 
  20. ^ Каннингем, Хэмиш (2005). «Автоматическое извлечение информации», Энциклопедия языка и лингвистики , 2, с. 665 - 677, http://gate.ac.uk/sale/ell2/ie/main.pdf (дата обращения: 18.06.2012).
  21. ^ Erdmann, M .; Маэдче, Александр; Schnurr, H.-P .; Стааб, Штеффен (2000). «От руководства к полуавтоматической семантической аннотации: об инструментах аннотации текста на основе онтологий», Материалы COLING , http://www.ida.liu.se/ext/epa/cis/2001/002/paper.pdf ( получено: 18.06.2012).
  22. ^ Рао, Делип; Макнейми, Пол; Дредзе, Марк (2011). «Связывание сущностей: поиск извлеченных сущностей в базе знаний», извлечение и обобщение информации на нескольких языках , несколько источников , http://www.cs.jhu.edu/~delip/entity-linking.pdf [ постоянная мертвая ссылка ] (дата обращения: 18.06.2012).
  23. ^ Rocket Software, Inc. (2012). «Технология извлечения информации из текста», http://www.rocketsoftware.com/products/aerotext. Архивировано 21июня2013 г. на Wayback Machine (получено: 18.06.2012).
  24. ^ Orchestr8 (2012): «Обзор AlchemyAPI», http://www.alchemyapi.com/api Архивировано 13 мая2016 г. на Wayback Machine (получено: 18.06.2012).
  25. ^ Университет Шеффилда (2011). «ЭННИ: почти новая система извлечения информации», http://gate.ac.uk/sale/tao/splitch6.html#chap:annie (получено: 18.06.2012).
  26. ^ Сеть передового опыта ПДОДИ. "ASIUM (LRI)", http://www-ai.ijs.si/~ilpnet2/systems/asium.html (дата обращения: 18.06.2012).
  27. ^ Attensity (2012). «Исчерпывающая экстракция», http://www.attensity.com/products/technology/semantic-server/exhaustive-extraction/ Архивировано 11 июля2012 г. на Wayback Machine (получено: 18.06.2012).
  28. ^ Мендес, Пабло Н .; Якоб, Макс; Гарсия-Сильва, Андрес; Бизер; Кристиан (2011). «В центре внимания DBpedia: проливаем свет на сеть документов», Труды 7-й Международной конференции по семантическим системам , стр. 1-8, http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/research/publications/Mendes-Jakob-GarciaSilva-Bizer-DBpediaSpotlight-ISEM2011.pdf Архивировано 5 апреля2012 г. на The Wayback Machine (дата обращения: 18.06.2012).
  29. ^ Гангеми, Альдо; Пресутти, Валентина; Рефорджато Рекуперо, Диего; Нуццолезе, Андреа Джованни; Драиккио, Франческо; Mongiovì, Misael (2016). «Машинное чтение семантической паутины с FRED», журнал семантической паутины , doi : 10.3233 / SW-160240 , http://www.semantic-web-journal.net/system/files/swj1379.pdf
  30. ^ Адриан, Бенджамин; Маус, Хейко; Денгел, Андреас (2009). «iDocument: Использование онтологий для извлечения информации из текста», http://www.dfki.uni-kl.de/~maus/dok/AdrianMausDengel09.pdf (дата обращения: 18.06.2012).
  31. ^ SRA International, Inc. (2012). "NetOwl Extractor", http://www.sra.com/netowl/entity-extraction/ Архивировано 24 сентября2012 г. на Wayback Machine (получено: 18.06.2012).
  32. ^ Фортуна, Блаз; Гробельник, Марко; Младенич, Дунья (2007). «OntoGen: полуавтоматический редактор онтологий», Труды конференции 2007 года по человеческому интерфейсу, часть 2 , с. 309 - 318, http://analytics.ijs.si/~blazf/papers/OntoGen2_HCII2007.pdf (дата обращения: 18.06.2012).
  33. ^ Миссикофф, Мишель; Навильи, Роберто; Веларди, Паола (2002). «Интегрированный подход к изучению и разработке веб-онтологий», Компьютер , 35 (11), с. 60 - 63, http://wwwusers.di.uniroma1.it/~velardi/IEEE_C.pdf (дата обращения: 18.06.2012).
  34. ^ Макдауэлл, Люк К .; Кафарелла, Майкл (2006). «Извлечение информации на основе онтологий с помощью OntoSyphon», Труды 5-й международной конференции по Семантической паутине , с. 428–444, http://turing.cs.washington.edu/papers/iswc2006McDowell-final.pdf (дата обращения: 18.06.2012).
  35. ^ Йылдыз, Бурку; Микш, Сильвия (2007). «onX - метод извлечения информации на основе онтологий», Труды международной конференции 2007 г. по вычислительной науке и ее приложениям , 3, с. 660 - 673, http://publik.tuwien.ac.at/files/pub-inf_4769.pdf (дата обращения: 18.06.2012).
  36. ^ semanticweb.org (2011). "PoolParty Extractor", http://semanticweb.org/wiki/PoolParty_Extractor. Архивировано 4 марта 2016 г. на Wayback Machine (получено: 18.06.2012).
  37. ^ Дилл, Стивен; Эйрон, Надав; Гибсон, Дэвид; Груль, Даниэль; Guha, R .; Джингран, Анант; Канунго, тапас; Раджагопалан, Шридхар; Томкинс, Эндрю; Томлин, Джон А .; Зиен, Джейсон Ю. (2003). «SemTag и Seeker: загрузка семантической сети с помощью автоматизированной семантической аннотации», Труды 12-й международной конференции по всемирной паутине , с. 178 - 186, http://www2003.org/cdrom/papers/refereed/p831/p831-dill.html (дата обращения: 18.06.2012).
  38. ^ Урен, Виктория; Чимиано, Филипп; Ирия, Хосе; Хандшу, Зигфрид; Варгас-Вера, Мария; Мотта, Энрико; Чиравенья, Фабио (2006). «Семантическая аннотация для управления знаниями: требования и обзор современного состояния», Веб-семантика: наука, услуги и агенты во всемирной паутине , 4 (1), с. 14–28, http://staffwww.dcs.shef.ac.uk/people/J.Iria/iria_jws06.pdf [ постоянная мертвая ссылка ] , (получено: 18.06.2012).
  39. ^ Чимиано, Филипп; Фёлькер, Йоханна (2005). «Text2Onto - структура для изучения онтологии и обнаружения изменений на основе данных», Труды 10-й Международной конференции по приложениям естественного языка к информационным системам , 3513, стр. 227 - 238, http://www.cimiano.de/Publications/2005/nldb05/nldb05.pdf (дата обращения: 18.06.2012).
  40. ^ Маэдче, Александр; Волц, Рафаэль (2001). «Структура извлечения и сопровождения онтологий Text-To-Onto», Материалы Международной конференции IEEE по интеллектуальному анализу данных , http://users.csc.calpoly.edu/~fkurfess/Events/DM-KM-01/Volz.pdf (дата обращения: 18.06.2012).
  41. ^ Машинное связывание. «Мы подключаемся к облаку связанных открытых данных», http://thewikimachine.fbk.eu/html/index.html. Архивировано 19июля2012 г. на Wayback Machine (получено: 18.06.2012).
  42. ^ Inxight Federal Systems (2008). «Inxight ThingFinder и ThingFinder Professional», http://inxightfedsys.com/products/sdks/tf/ Архивировано 29 июня 2012 г.на Wayback Machine (получено: 18.06.2012).
  43. ^ Фроули Уильям. F. et al. (1992), «Открытие знаний в базах данных: обзор», AI Magazine (Том 13, № 3), 57-70 (полная онлайн-версия: http://www.aaai.org/ojs/index.php/aimagazine/ article / viewArticle / 1011 Архивировано 4 марта 2016 г. в Wayback Machine )
  44. ^ Fayyad U. et al. (1996), «От интеллектуального анализа данных к открытию знаний в базах данных», журнал AI (том 17, № 3), 37-54 (полная онлайн-версия: http://www.aaai.org/ojs/index.php/aimagazine / article / viewArticle / 1230 Архивировано 4 мая 2016 года в Wayback Machine.
  45. Перейти ↑ Cao, L. (2010). «Интеллектуальный анализ данных на основе предметной области: проблемы и перспективы». IEEE Transactions по разработке знаний и данных . 22 (6): 755–769. CiteSeerX 10.1.1.190.8427 . DOI : 10,1109 / tkde.2010.32 . S2CID 17904603 .