Извлечение знаний - это создание знаний из структурированных ( реляционные базы данных , XML ) и неструктурированных ( текст , документы, изображения ) источников. Полученные в результате знания должны быть в машиночитаемом и машинно-интерпретируемом формате и должны представлять знания таким образом, чтобы облегчить вывод. Хотя методически это похоже на извлечение информации ( NLP ) и ETL (хранилище данных), основным критерием является то, что результат извлечения выходит за рамки создания структурированной информации или преобразования в реляционную схему.. Это требует либо повторного использования существующих формальных знаний (повторное использование идентификаторов или онтологий ), либо генерации схемы на основе исходных данных.
RDB2RDF Группа W3C [1] в настоящее время стандартизирует язык для извлечения структур описания ресурсов (RDF) из реляционных баз данных . Другой популярный пример извлечения знаний - это преобразование Википедии в структурированные данные, а также сопоставление с существующими знаниями (см. DBpedia и Freebase ).
Обзор [ править ]
После стандартизации языков представления знаний, таких как RDF и OWL , в этой области было проведено много исследований, особенно в отношении преобразования реляционных баз данных в RDF, разрешения идентичности , открытия знаний и изучения онтологий. В общем процессе используются традиционные методы извлечения и извлечения, преобразования и загрузки информации (ETL), которые преобразуют данные из источников в структурированные форматы.
Следующие критерии могут использоваться для категоризации подходов в этой теме (некоторые из них учитывают только извлечение из реляционных баз данных): [2]
Источник | Какие источники данных охвачены: текст, реляционные базы данных, XML, CSV |
---|---|
Экспозиция | Как извлеченные знания становятся явными (файл онтологии, семантическая база данных)? Как вы можете запросить это? |
Синхронизация | Выполняется ли процесс извлечения знаний один раз для создания дампа или результат синхронизируется с источником? Статический или динамический. Записываются ли изменения результата (двунаправленные) |
Повторное использование словарей | Инструмент может повторно использовать существующие словари при извлечении. Например, столбец таблицы "firstName" можно сопоставить с foaf: firstName. Некоторые автоматические подходы не могут отображать словарь. |
Автоматизация | Степень поддержки / автоматизации экстракции. Ручной, графический, полуавтоматический, автоматический. |
Требуется онтология предметной области | Для сопоставления с ней необходима уже существующая онтология. Таким образом, либо создается отображение, либо схема изучается из источника ( изучение онтологии ). |
Примеры [ править ]
Ссылка на объект [ править ]
- DBpedia Spotlight , OpenCalais , Dandelion dataTXT , Zemanta API, Extractiv и PoolParty Extractor анализируют произвольный текст через распознавание именованных сущностей, а затем устраняют неоднозначность кандидатов с помощью разрешения имен и связывают найденные сущности с репозиторием знаний DBpedia [3] ( Dandelion dataTXT demo или DBpedia Веб-демонстрация Spotlight или Демо- версия PoolParty Extractor ).
В среду президент Обама призвал Конгресс продлить налоговые льготы для студентов, включенных в прошлогодний пакет экономических стимулов, утверждая, что эта политика предусматривает более щедрую помощь.
- Поскольку президент Обама связан с ресурсом DBpedia LinkedData , дополнительная информация может быть получена автоматически, и Semantic Reasoner может, например, сделать вывод, что упомянутая сущность относится к типу Person (используя FOAF (программное обеспечение) ) и типу Presidents of the United States ( с помощью YAGO ). Примеры счетчиков: методы, которые распознают только сущности или ссылаются на статьи Википедии и другие цели, не обеспечивающие дальнейшего извлечения структурированных данных и формальных знаний.
Реляционные базы данных в RDF [ править ]
- Triplify , D2R Server, Ultrawrap и Virtuoso RDF Views - это инструменты, которые преобразуют реляционные базы данных в RDF. Во время этого процесса они позволяют повторно использовать существующие словари и онтологии в процессе преобразования. При преобразовании типичной реляционной таблицы с именем users один столбец (например, имя ) или совокупность столбцов (например, first_name и last_name ) должны предоставлять URI созданного объекта. Обычно используется первичный ключ. Любой другой столбец может быть извлечен как отношение к этому объекту. [4]Затем свойства с формально определенной семантикой используются (и повторно используются) для интерпретации информации. Например, столбец в пользовательской таблице с именем wifeTo может быть определен как симметричное отношение, а домашняя страница столбца может быть преобразована в свойство из словаря FOAF под названием foaf: homepage , таким образом квалифицируя его как обратное функциональное свойство . Затем каждую запись пользовательской таблицы можно сделать экземпляром класса foaf: Person (Ontology Population). Кроме того, знания предметной области (в форме онтологии) могут быть созданы из status_id либо с помощью правил, созданных вручную (если status_idравно 2, запись принадлежит классу Teacher) или (полу) -автоматизированными методами ( изучение онтологии ). Вот пример преобразования:
Имя | замужем за | домашняя страница | status_id |
---|---|---|---|
Питер | Мэри | http://example.org/Peters_page [ постоянная мертвая ссылка ] | 1 |
Клаус | Ева | http://example.org/Claus_page [ постоянная мертвая ссылка ] | 2 |
: Питер : женатКому : Мэри . : wifeTo a owl : SymmetricProperty . : Питер Фоаф : домашняя страница <http://example.org/Peters_page> . : Питер FOAF : Person . : Петр а : Студент . : Клаус a : Учитель .
Извлечение из структурированных источников в RDF [ править ]
Отображение 1: 1 таблиц / представлений RDB в сущности / атрибуты / значения RDF [ править ]
При построении RDB-представления проблемной области отправной точкой часто является диаграмма сущность-связь (ERD). Обычно каждая сущность представлена в виде таблицы базы данных, каждый атрибут сущности становится столбцом в этой таблице, а отношения между сущностями указываются внешними ключами. Каждая таблица обычно определяет конкретный класс сущности, каждый столбец - один из своих атрибутов. Каждая строка в таблице описывает экземпляр объекта, однозначно идентифицируемый первичным ключом. Строки таблицы в совокупности описывают набор сущностей. В эквивалентном RDF-представлении того же набора сущностей:
- Каждый столбец в таблице является атрибутом (т. Е. Предикатом).
- Каждое значение столбца является значением атрибута (т. Е. Объекта)
- Каждый ключ строки представляет идентификатор объекта (т. Е. Тему)
- Каждая строка представляет экземпляр объекта
- Каждая строка (экземпляр объекта) представлена в RDF набором троек с общим субъектом (идентификатором объекта).
Итак, чтобы отобразить эквивалентное представление на основе семантики RDF, основной алгоритм сопоставления будет следующим:
- создать класс RDFS для каждой таблицы
- преобразовать все первичные ключи и внешние ключи в IRI
- назначить предикат IRI каждому столбцу
- назначить предикат rdf: type для каждой строки, связав его с IRI класса RDFS, соответствующим таблице
- для каждого столбца, который не является частью первичного или внешнего ключа, создайте тройку, содержащую IRI первичного ключа в качестве субъекта, IRI столбца в качестве предиката и значение столбца в качестве объекта.
Раннее упоминание об этом базовом или прямом отображении можно найти в сравнении Тима Бернерса-Ли модели ER с моделью RDF. [4]
Сложные отображения реляционных баз данных в RDF [ править ]
Упомянутое выше сопоставление 1: 1 предоставляет унаследованные данные в виде RDF простым способом, дополнительные уточнения могут быть использованы для повышения полезности вывода RDF в соответствии с заданными вариантами использования. Обычно информация теряется во время преобразования диаграммы сущности-отношения (ERD) в реляционные таблицы (подробности можно найти в объектно-реляционном несоответствии импеданса ), и ее необходимо реконструировать . С концептуальной точки зрения подходы к извлечению могут исходить из двух направлений. Первое направление пытается извлечь или изучить схему OWL из данной схемы базы данных. Ранние подходы использовали фиксированное количество созданных вручную правил сопоставления для уточнения сопоставления 1: 1. [5] [6] [7]Более сложные методы используют эвристику или алгоритмы обучения для получения схематической информации (методы пересекаются с изучением онтологии ). В то время как некоторые подходы пытаются извлечь информацию из структуры, присущей схеме SQL [8] (анализируя, например, внешние ключи), другие анализируют содержимое и значения в таблицах для создания концептуальных иерархий [9] (например, столбцы с несколькими значениями являются кандидатами в категории). Второе направление пытается сопоставить схему и ее содержимое с уже существующей онтологией домена (см. Также: согласование онтологий ). Однако часто подходящая онтология предметной области не существует, и ее необходимо сначала создать.
XML [ править ]
Поскольку XML имеет древовидную структуру, любые данные могут быть легко представлены в RDF, который имеет структуру графа. XML2RDF - это один из примеров подхода, который использует пустые узлы RDF и преобразует элементы и атрибуты XML в свойства RDF. Однако тема более сложная, как в случае с реляционными базами данных. В реляционной таблице первичный ключ - идеальный кандидат на роль объекта извлеченных троек. Однако элемент XML может быть преобразован - в зависимости от контекста - как субъект, предикат или объект тройки. XSLT может использоваться как стандартный язык преобразования для ручного преобразования XML в RDF.
Обзор методов / инструментов [ править ]
Имя | Источник данных | Экспозиция данных | Синхронизация данных | Язык отображения | Повторное использование словарного запаса | Картографический автомат. | Треб. Онтология домена | Использует графический интерфейс |
---|---|---|---|---|---|---|---|---|
Прямое отображение реляционных данных в RDF | Реляционные данные | SPARQL / ETL | динамичный | N / A | ложный | автоматический | ложный | ложный |
CSV2RDF4LOD | CSV | ETL | статический | RDF | истинный | руководство | ложный | ложный |
CoNLL-RDF | TSV, CoNLL | Поток SPARQL / RDF | статический | никто | истинный | автоматический (зависящий от предметной области, для случаев использования в языковых технологиях, сохраняет отношения между строками) | ложный | ложный |
Конвертировать2RDF | Текстовый файл с разделителями | ETL | статический | RDF / DAML | истинный | руководство | ложный | истинный |
Сервер D2R | RDB | SPARQL | двунаправленный | Карта D2R | истинный | руководство | ложный | ложный |
DartGrid | RDB | собственный язык запросов | динамичный | Визуальный инструмент | истинный | руководство | ложный | истинный |
DataMaster | RDB | ETL | статический | проприетарный | истинный | руководство | истинный | истинный |
Расширение RDF от Google Refine | CSV, XML | ETL | статический | никто | полуавтоматический | ложный | истинный | |
Krextor | XML | ETL | статический | xslt | истинный | руководство | истинный | ложный |
МАПОНТО | RDB | ETL | статический | проприетарный | истинный | руководство | истинный | ложный |
МЕТАморфозы | RDB | ETL | статический | проприетарный язык сопоставления на основе xml | истинный | руководство | ложный | истинный |
MappingMaster | CSV | ETL | статический | MappingMaster | истинный | Графический интерфейс | ложный | истинный |
ODEMapster | RDB | ETL | статический | проприетарный | истинный | руководство | истинный | истинный |
Плагин OntoWiki CSV Importer - DataCube и Tabular | CSV | ETL | статический | Словарь RDF Data Cube Vocaublary | истинный | полуавтоматический | ложный | истинный |
Poolparty Extraktor (PPX) | XML, текст | LinkedData | динамичный | RDF (SKOS) | истинный | полуавтоматический | истинный | ложный |
RDBToOnto | RDB | ETL | статический | никто | ложный | автоматический, пользователь, кроме того, имеет возможность точно настроить результаты | ложный | истинный |
RDF 123 | CSV | ETL | статический | ложный | ложный | руководство | ложный | истинный |
RDOTE | RDB | ETL | статический | SQL | истинный | руководство | истинный | истинный |
Relational.OWL | RDB | ETL | статический | никто | ложный | автоматический | ложный | ложный |
T2LD | CSV | ETL | статический | ложный | ложный | автоматический | ложный | ложный |
Словарь куба данных RDF | Многомерные статистические данные в электронных таблицах | Словарь куба данных | истинный | руководство | ложный | |||
Композитор TopBraid | CSV | ETL | статический | SKOS | ложный | полуавтоматический | ложный | истинный |
Утроить | RDB | LinkedData | динамичный | SQL | истинный | руководство | ложный | ложный |
Ультраобёртка | RDB | SPARQL / ETL | динамичный | R2RML | истинный | полуавтоматический | ложный | истинный |
Виртуозные представления RDF | RDB | SPARQL | динамичный | Язык мета-схемы | истинный | полуавтоматический | ложный | истинный |
Виртуозный спонджер | структурированные и полуструктурированные источники данных | SPARQL | динамичный | Виртуоз PL и XSLT | истинный | полуавтоматический | ложный | ложный |
VisAVis | RDB | RDQL | динамичный | SQL | истинный | руководство | истинный | истинный |
XLWrap: электронная таблица в RDF | CSV | ETL | статический | Синтаксис TriG | истинный | руководство | ложный | ложный |
XML в RDF | XML | ETL | статический | ложный | ложный | автоматический | ложный | ложный |
Извлечение из источников на естественном языке [ править ]
Большая часть информации, содержащейся в деловых документах (около 80% [10] ), закодирована на естественном языке и, следовательно, неструктурирована. Поскольку неструктурированные данныеЭто скорее проблема для извлечения знаний, требуются более сложные методы, которые, как правило, дают худшие результаты по сравнению со структурированными данными. Однако возможность массового приобретения извлеченных знаний должна компенсировать возросшую сложность и снижение качества извлечения. В дальнейшем источники на естественном языке понимаются как источники информации, где данные представлены в неструктурированном виде в виде простого текста. Если данный текст дополнительно встроен в документ разметки (например, документ HTML), упомянутые системы обычно автоматически удаляют элементы разметки.
Лингвистическая аннотация / обработка естественного языка (NLP) [ править ]
В качестве этапа предварительной обработки при извлечении знаний может потребоваться выполнение лингвистической аннотации с помощью одного или нескольких инструментов НЛП . Отдельные модули в рабочем процессе НЛП обычно основываются на специфичных для инструмента форматах ввода и вывода, но в контексте извлечения знаний были применены структурированные форматы для представления лингвистических аннотаций.
Типичные задачи НЛП, относящиеся к извлечению знаний, включают:
- теги части речи (POS)
- лемматизация (LEMMA) или стемминг (STEM)
- устранение неоднозначности смысла слов (WSD, относящаяся к семантической аннотации ниже)
- распознавание именованных объектов (NER, также см. IE ниже)
- синтаксический анализ, часто использующий синтаксические зависимости (DEP)
- неглубокий синтаксический анализ (CHUNK): если производительность является проблемой, разбиение на фрагменты дает быстрое извлечение номинальных и других фраз
- разрешение анафоры (см. разрешение кореферентности в IE ниже, но здесь рассматривается как задача создания связей между текстовыми упоминаниями, а не между упоминанием объекта и абстрактным представлением объекта)
- маркировка семантических ролей (SRL, связанная с извлечением отношения; не путать с семантической аннотацией, как описано ниже)
- синтаксический анализ дискурса (отношения между различными предложениями, редко используемые в реальных приложениях)
В NLP такие данные обычно представлены в форматах TSV (форматы CSV с TAB в качестве разделителей), часто называемые форматами CoNLL. Для рабочих процессов извлечения знаний RDF-представления таких данных были созданы в соответствии со следующими стандартами сообщества:
- Формат обмена NLP (NIF, для многих часто используемых типов аннотаций) [11] [12]
- Веб-аннотация (WA, часто используется для связывания сущностей) [13]
- CoNLL-RDF (для аннотаций, изначально представленных в форматах TSV) [14] [15]
Другие форматы, зависящие от платформы, включают
- Формат обмена LAPPS (LIF, используемый в LAPPS Grid) [16] [17]
- Формат аннотаций НЛП (NAF, используемый в системе управления рабочим процессом NewsReader) [18] [19]
Традиционное извлечение информации (IE) [ править ]
Традиционное извлечение информации [20] - это технология обработки естественного языка, которая извлекает информацию из текстов на естественном языке и структурирует их подходящим образом. Виды идентифицируемой информации должны быть указаны в модели до начала процесса, поэтому весь процесс традиционного извлечения информации зависит от предметной области. IE разделен на следующие пять подзадач.
- Признание именной организации (NER)
- Разрешение Coreference (CO)
- Построение элемента шаблона (TE)
- Построение отношения шаблона (TR)
- Изготовление шаблонного сценария (ST)
Задача распознавания именованных сущностей состоит в том, чтобы распознать и классифицировать все именованные сущности, содержащиеся в тексте (присвоение именованной сущности предопределенной категории). Это работает с применением методов, основанных на грамматике или статистических моделей.
Разрешение Coreference идентифицирует эквивалентные сущности, которые были распознаны NER, в тексте. Есть два важных типа отношений эквивалентности. Первый относится к отношениям между двумя различными представленными объектами (например, IBM Europe и IBM), а второй - к отношениям между объектом и их анафорическими ссылками (например, он и IBM). Оба вида можно распознать по разрешающей способности кореференции.
Во время создания элемента шаблона система IE определяет описательные свойства сущностей, распознаваемые NER и CO. Эти свойства соответствуют обычным качествам, таким как красный или большой.
Построение отношения шаблона определяет отношения, которые существуют между элементами шаблона. Эти отношения могут быть нескольких видов, например, для работы или нахождения, с ограничением, что и домен, и диапазон соответствуют объектам.
В шаблоне сценария производственные события, которые описаны в тексте, будут идентифицированы и структурированы относительно сущностей, распознаваемых NER и CO, и отношений, идентифицированных TR.
Извлечение информации на основе онтологий (OBIE) [ править ]
Извлечение информации на основе онтологий [10] - это подполе извлечения информации, в котором используется по крайней мере одна онтология для управления процессом извлечения информации из текста на естественном языке. Система OBIE использует методы традиционного извлечения информации для идентификации концепций , экземпляров и отношений используемых онтологий в тексте, который после процесса будет структурирован в онтологию. Таким образом, входные онтологии составляют модель извлекаемой информации.
Обучение онтологии (OL) [ править ]
Изучение онтологий - это автоматическое или полуавтоматическое создание онтологий, включая извлечение терминов соответствующей области из текста на естественном языке. Поскольку создание онтологий вручную чрезвычайно трудоемко и требует много времени, есть большая мотивация для автоматизации процесса.
Семантическая аннотация (SA) [ править ]
Во время семантической аннотации [21] текст на естественном языке дополняется метаданными (часто представленными в RDFa ), которые должны сделать семантику содержащихся терминов машинно понятной. В этом процессе, который обычно является полуавтоматическим, извлекаются знания в том смысле, что устанавливается связь между лексическими терминами и, например, понятиями из онтологий. Таким образом, получается знание, какое значение термина в обрабатываемом контексте было предназначено, и, следовательно, значение текста основывается на машиночитаемых данных с возможностью делать выводы. Семантическая аннотация обычно разделяется на следующие две подзадачи.
- Извлечение терминологии
- Связывание сущностей
На уровне извлечения терминологии из текста извлекаются лексические термины. Для этого токенизатор сначала определяет границы слов и решает сокращения. Затем термины из текста, которые соответствуют концепции, извлекаются с помощью предметно-ориентированного лексикона, чтобы связать их при связывании сущностей.
При связывании сущностей [22] устанавливается связь между извлеченными лексическими терминами из исходного текста и концепциями из онтологии или базы знаний, такой как DBpedia . Для этого с помощью лексики выявляются подходящие концепты к нескольким значениям термина. Наконец, контекст терминов анализируется, чтобы определить наиболее подходящее устранение неоднозначности и присвоить термин правильному понятию.
Обратите внимание, что «семантическую аннотацию» в контексте извлечения знаний не следует путать с семантическим синтаксическим анализом, как понимается при обработке естественного языка (также называемой «семантической аннотацией»): семантический синтаксический анализ направлен на полное машиночитаемое представление естественного языка. , в то время как семантическая аннотация в смысле извлечения знаний затрагивает только очень элементарный аспект этого.
Инструменты [ править ]
Следующие критерии могут использоваться для категоризации инструментов, извлекающих знания из текста на естественном языке.
Источник | Какие входные форматы могут обрабатываться инструментом (например, простой текст, HTML или PDF)? |
Доступ к парадигме | Может ли инструмент запрашивать источник данных или для процесса извлечения требуется полный дамп? |
Синхронизация данных | Синхронизирован ли результат процесса извлечения с источником? |
Использует онтологию вывода | Связывает ли инструмент результат с онтологией? |
Картографическая автоматизация | Насколько автоматизирован процесс извлечения (ручной, полуавтоматический или автоматический)? |
Требуется онтология | Нужна ли инструменту онтология для извлечения? |
Использует графический интерфейс | Предлагает ли инструмент графический пользовательский интерфейс? |
Подход | Какой подход (IE, OBIE, OL или SA) используется инструментом? |
Извлеченные сущности | Какие типы сущностей (например, именованные сущности, концепции или отношения) могут быть извлечены инструментом? |
Прикладные методы | Какие методы применяются (например, НЛП, статистические методы, кластеризация или машинное обучение )? |
Модель вывода | Какая модель используется для представления результата работы инструмента (например, RDF или OWL)? |
Поддерживаемые домены | Какие области поддерживаются (например, экономика или биология)? |
Поддерживаемые языки | Какие языки можно обрабатывать (например, английский или немецкий)? |
В следующей таблице описаны некоторые инструменты для извлечения знаний из источников на естественном языке.
Имя | Источник | Доступ к парадигме | Синхронизация данных | Использует онтологию вывода | Картографическая автоматизация | Требуется онтология | Использует графический интерфейс | Подход | Извлеченные сущности | Прикладные методы | Модель вывода | Поддерживаемые домены | Поддерживаемые языки |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
[1] [23] | простой текст, HTML, XML, SGML | свалка | нет | да | автоматический | да | да | IE | именованные сущности, отношения, события | языковые правила | проприетарный | независимый от домена | Английский, испанский, арабский, китайский, индонезийский |
AlchemyAPI [24] | простой текст, HTML | автоматический | да | SA | многоязычный | ||||||||
ЭННИ [25] | простой текст | свалка | да | да | IE | алгоритмы конечного состояния | многоязычный | ||||||
ASIUM [26] | простой текст | свалка | полуавтоматический | да | ПР | концепции, иерархия понятий | НЛП, кластеризация | ||||||
Исчерпывающее извлечение внимания [27] | автоматический | IE | именованные сущности, отношения, события | НЛП | |||||||||
Одуванчик API | простой текст, HTML, URL | ОТДЫХ | нет | нет | автоматический | нет | да | SA | именованные сущности, концепции | Статистические методы | JSON | независимый от домена | многоязычный |
Обзор DBpedia [28] | простой текст, HTML | дамп, SPARQL | да | да | автоматический | нет | да | SA | аннотация к каждому слову, аннотация к непрерывным словам | НЛП, статистические методы, машинное обучение | RDFa | независимый от домена | английский |
EntityClassifier.eu | простой текст, HTML | свалка | да | да | автоматический | нет | да | IE, OL, SA | аннотация к каждому слову, аннотация к непрерывным словам | основанная на правилах грамматика | XML | независимый от домена | Английский, немецкий, голландский |
ФРЕД [29] | простой текст | дамп, REST API | да | да | автоматический | нет | да | IE, OL, SA, шаблоны проектирования онтологий, семантика фреймов | (много) словесная аннотация NIF или EarMark, предикаты, экземпляры, композиционная семантика, таксономия понятий, фреймы, семантические роли, перифрастические отношения, события, модальность, время, связь сущностей, связь событий, тональность | НЛП, машинное обучение, эвристические правила | RDF / OWL | независимый от домена | Английский, другие языки через перевод |
iDocument [30] | HTML, PDF, DOC | SPARQL | да | да | OBIE | экземпляры, значения свойств | НЛП | личное дело | |||||
NetOwl Extractor [31] | простой текст, HTML, XML, SGML, PDF, MS Office | свалка | Нет | да | Автоматический | да | да | IE | именованные сущности, отношения, события | НЛП | XML, JSON, RDF-OWL и другие | несколько доменов | Английский, арабский, китайский (упрощенный и традиционный), французский, корейский, персидский (фарси и дари), русский, испанский |
OntoGen [32] | полуавтоматический | да | ПР | понятия, иерархия понятий, нетаксономические отношения, экземпляры | НЛП, машинное обучение, кластеризация | ||||||||
OntoLearn [33] | простой текст, HTML | свалка | нет | да | автоматический | да | нет | ПР | концепции, иерархия понятий, экземпляры | НЛП, статистические методы | проприетарный | независимый от домена | английский |
OntoLearn Reloaded | простой текст, HTML | свалка | нет | да | автоматический | да | нет | ПР | концепции, иерархия понятий, экземпляры | НЛП, статистические методы | проприетарный | независимый от домена | английский |
ОнтоСифон [34] | HTML, PDF, DOC | дамп, поисковые запросы | нет | да | автоматический | да | нет | OBIE | концепции, отношения, примеры | НЛП, статистические методы | RDF | независимый от домена | английский |
onX [35] | простой текст | свалка | нет | да | полуавтоматический | да | нет | OBIE | экземпляры, значения свойств типа данных | эвристические методы | проприетарный | независимый от домена | независимый от языка |
OpenCalais | простой текст, HTML, XML | свалка | нет | да | автоматический | да | нет | SA | аннотации к сущностям, аннотации к событиям, аннотации к фактам | НЛП, машинное обучение | RDF | независимый от домена | Английский, французский, испанский |
PoolParty Extractor [36] | простой текст, HTML, DOC, ODT | свалка | нет | да | автоматический | да | да | OBIE | именованные сущности, концепции, отношения, концепции, которые классифицируют текст, обогащения | НЛП, машинное обучение, статистические методы | RDF, OWL | независимый от домена | Английский, немецкий, испанский, французский |
Росока | простой текст, HTML, XML, SGML, PDF, MS Office | свалка | да | да | Автоматический | нет | да | IE | извлечение именованных сущностей, разрешение сущностей, извлечение взаимосвязей, атрибуты, концепции, многовекторный анализ тональности , геотеги, идентификация языка | НЛП, машинное обучение | XML, JSON, POJO, RDF | несколько доменов | Многоязычный 200+ языков |
СКОБИ | простой текст, HTML | свалка | нет | да | автоматический | нет | нет | OBIE | экземпляры, значения свойств, типы RDFS | НЛП, машинное обучение | RDF, RDFa | независимый от домена | Английский, немецкий |
SemTag [37] [38] | HTML | свалка | нет | да | автоматический | да | нет | SA | машинное обучение | запись в базе данных | независимый от домена | независимый от языка | |
умный FIX | простой текст, HTML, PDF, DOC, электронная почта | свалка | да | нет | автоматический | нет | да | OBIE | названные объекты | НЛП, машинное обучение | проприетарный | независимый от домена | Английский, немецкий, французский, голландский, польский |
Text2Onto [39] | простой текст, HTML, PDF | свалка | да | нет | полуавтоматический | да | да | ПР | понятия, иерархия понятий, нетаксономические отношения, экземпляры, аксиомы | НЛП, статистические методы, машинное обучение, методы на основе правил | СОВА | дедомен-независимый | Английский, немецкий, испанский |
Text-To-Onto [40] | простой текст, HTML, PDF, PostScript | свалка | полуавтоматический | да | да | ПР | концепции, иерархия понятий, нетаксономические отношения, лексические объекты, относящиеся к концепциям, лексические объекты, относящиеся к отношениям | НЛП, машинное обучение, кластеризация, статистические методы | Немецкий | ||||
ThatNeedle | Простой текст | свалка | автоматический | нет | концепции, отношения, иерархия | НЛП, проприетарный | JSON | несколько доменов | английский | ||||
Вики-машина [41] | простой текст, HTML, PDF, DOC | свалка | нет | да | автоматический | да | да | SA | аннотации к существительным собственным, аннотации к существительным нарицательным | машинное обучение | RDFa | независимый от домена | Английский, немецкий, испанский, французский, португальский, итальянский, русский |
ThingFinder [42] | IE | именованные сущности, отношения, события | многоязычный |
Открытие знаний [ править ]
Обнаружение знаний описывает процесс автоматического поиска в больших объемах данных шаблонов, которые можно рассматривать как знания о данных. [43] Это часто описывается как получение знаний из входных данных. Открытие знаний возникло из области интеллектуального анализа данных и тесно связано с ней как с точки зрения методологии, так и с точки зрения терминологии. [44]
Наиболее известной отраслью интеллектуального анализа данных является обнаружение знаний, также известное как обнаружение знаний в базах данных (KDD). Как и многие другие формы открытия знаний, он создает абстракции входных данных. Знания , полученные посредством процесса могут стать дополнительными данными , которые могут быть использованы для дальнейшего использования и открытия. Часто результаты от обнаружения знаний не действенные, открытие действенного знаний , также известный как домен привода интеллектуального анализа данных , [45] цели , чтобы обнаружить и доставить действенные знания и понимание.
Еще одно многообещающее применение обнаружения знаний - это модернизация программного обеспечения , обнаружение слабых мест и соответствие требованиям, что предполагает понимание существующих программных артефактов. Этот процесс связан с концепцией реверс-инжиниринга . Обычно знания, полученные с помощью существующего программного обеспечения, представлены в форме моделей, к которым при необходимости могут быть сделаны конкретные запросы. Отношения субъекта является частым форматом представления знаний , полученных из существующего программного обеспечения. Object Management Group (OMG) разработала спецификацию Knowledge Discovery Metamodel.(KDM), который определяет онтологию для программных активов и их взаимосвязей с целью выполнения обнаружения знаний в существующем коде. Обнаружение знаний из существующих программных систем, также известное как интеллектуальный анализ программного обеспечения, тесно связано с интеллектуальным анализом данных , поскольку существующие программные артефакты имеют огромное значение для управления рисками и бизнеса , что является ключом к оценке и развитию программных систем. Вместо добычи отдельных наборов данных , добыча программного обеспечения фокусируется на метаданных , такие как потоки процесса (например , данные потоки, потоки управления, и карты вызовов), архитектура, схемы баз данных и бизнес - правила / условие / процесс.
Входные данные [ редактировать ]
- Базы данных
- Реляционные данные
- База данных
- Склад документов
- Хранилище данных
- Программного обеспечения
- Исходный код
- Файлы конфигурации
- Скрипты сборки
- Текст
- Концепция майнинга
- Графики
- Молекулярная добыча
- Последовательности
- Интеллектуальный анализ потока данных
- Изучение изменяющихся во времени потоков данных в условиях дрейфа концепций
- Интернет
Форматы вывода [ править ]
- Модель данных
- Метаданные
- Метамодели
- Онтология
- Представление знаний
- Теги знаний
- Бизнес-правило
- Метамодель обнаружения знаний (KDM)
- Нотация моделирования бизнес-процессов (BPMN)
- Промежуточное представительство
- Структура описания ресурсов (RDF)
- Показатели программного обеспечения
См. Также [ править ]
- Кластерный анализ
- Археология данных
Ссылки [ править ]
- ^ Рабочая группа RDB2RDF, Веб-сайт: http://www.w3.org/2001/sw/rdb2rdf/ , устав: http://www.w3.org/2009/08/rdb2rdf-charter , R2RML: Отображение RDB в RDF Язык: http://www.w3.org/TR/r2rml/
- ^ LOD2 EU Результат 3.1.1 Извлечение знаний из структурированных источников http://static.lod2.eu/Deliverables/deliverable-3.1.1.pdf Архивировано 27 августа 2011 г. на Wayback Machine
- ^ «Жизнь в облаке связанных данных» . www.opencalais.com. Архивировано из оригинала на 2009-11-24 . Проверено 10 ноября 2009 .
В Википедии есть двойник связанных данных под названием DBpedia. DBpedia имеет ту же структурированную информацию, что и Википедия, но переведена в машиночитаемый формат.
- ^ a b Тим Бернерс-Ли (1998), «Реляционные базы данных в семантической сети» . Дата обращения: 20 февраля 2011.
- ^ Ху и др. (2007), «Обнаружение простых соответствий между схемами реляционных баз данных и онтологиями», In Proc. 6-й Международной конференции по семантической паутине (ISWC 2007), 2-й Азиатской конференции по семантической паутине (ASWC 2007), LNCS 4825, страницы 225-238, Пусан, Корея, 11-15 ноября 2007 г. http://citeseerx.ist.psu.edu /viewdoc/download?doi=10.1.1.97.6934&rep=rep1&type=pdf
- ^ Р. Гави и Н. Каллот (2007), «Генерация отображения базы данных в онтологию для семантической совместимости». На Третьем международном семинаре по взаимодействию баз данных (InterDB 2007). http://le2i.cnrs.fr/IMG/publications/InterDB07-Ghawi.pdf
- ^ Ли и др. (2005) «Полуавтоматический метод получения онтологий для семантической паутины», WAIM, том 3739 конспектов лекций по информатике, стр. 209-220. Springer. DOI : 10.1007 / 11563952_19
- ^ Tirmizi et al. (2008), «Перевод приложений SQL в семантическую сеть», конспект лекций по информатике, том 5181/2008 (Приложения баз данных и экспертных систем). http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=15E8AB2A37BD06DAE59255A1AC3095F0?doi=10.1.1.140.3169&rep=rep1&type=pdf
- ^ Фарид Cerbah (2008). «Изучение высоко структурированных семантических репозиториев из реляционных баз данных», Семантическая сеть: исследования и приложения, том 5021 конспектов лекций по информатике, Springer, Берлин / Гейдельберг http://www.tao-project.eu/resources/publications/cerbah -learning-high-structured-semantic-repositories-from-relational-databases.pdf Архивировано 20 июля 2011 г. на Wayback Machine.
- ^ a b Wimalasuriya, Daya C .; Доу, Дэцзин (2010). «Извлечение информации на основе онтологий: введение и обзор текущих подходов», Журнал информатики , 36 (3), стр. 306 - 323, http://ix.cs.uoregon.edu/~dou/research/papers/jis09.pdf (дата обращения: 18.06.2012).
- ^ «Формат обмена NLP (NIF) 2.0 - Обзор и документация» . persistence.uni-leipzig.org . Проверено 5 июня 2020 .
- ^ Хеллманн, Себастьян; Леманн, Йенс; Ауэр, Сорен; Брюммер, Мартин (2013). Алани, Харит; Кагал, Лалана; Фокуэ, Ахилл; Грот, Пауль; Биманн, Крис; Паррейра, Жозиан Ксавьер; Аройо, Лора; Ной, Наташа; Велти, Крис (ред.). «Интеграция НЛП с использованием связанных данных» . Семантическая сеть - ISWC 2013 . Конспект лекций по информатике. Берлин, Гейдельберг: Springer. 7908 : 98–113. DOI : 10.1007 / 978-3-642-41338-4_7 . ISBN 978-3-642-41338-4.
- ^ Верспур, Карин; Ливингстон, Кевин (июль 2012 г.). «На пути к адаптации лингвистических аннотаций к формализмам научных аннотаций в семантической сети» . Труды Шестого семинара по лингвистической аннотации . Чеджу, Республика Корея: Ассоциация компьютерной лингвистики: 75–84.
- ^ acoli-repo / conll-rdf , ACoLi, 27 мая 2020 г. , получено 5 июня 2020 г.
- ^ Чиаркос, Кристиан; Фет, Кристиан (2017). Грация, Хорхе; Бонд, Фрэнсис; McCrae, John P .; Буйтелаар, Пол; Чиаркос, Кристиан; Хеллманн, Себастьян (ред.). «CoNLL-RDF: связанные корпуса, созданные в соответствии с требованиями НЛП» . Язык, данные и знания . Конспект лекций по информатике. Чам: Издательство Springer International. 10318 : 74–88. DOI : 10.1007 / 978-3-319-59888-8_6 . ISBN 978-3-319-59888-8.
- ^ Верхаген, Марк; Судерман, Кейт; Ван, Ди; Иде, Нэнси; Ши, Чуньци; Райт, Джонатан; Пустеевский, Джеймс (2016). Мураками, Йохей; Линь, Дунхуэй (ред.). «Формат обмена LAPPS» . Инфраструктура языковых услуг по всему миру . Конспект лекций по информатике. Чам: Издательство Springer International. 9442 : 33–47. DOI : 10.1007 / 978-3-319-31468-6_3 . ISBN 978-3-319-31468-6.
- ^ "The Language Application Grid | Платформа веб-сервисов для разработки и исследования обработки естественного языка" . Проверено 5 июня 2020 .
- ^ newsreader / NAF , NewsReader, 25 мая 2020 г. , получено 5 июня 2020 г.
- ^ Фоссен, Пик; Аджерри, Родриго; Альдабе, Итциар; Цибульская, Агата; ван Эрп, Мариеке; Фоккенс, Антске; Лапарра, Эгоитц; Минар, Анн-Лиз; Палмеро Апросио, Алессио; Ригау, немецкий; Роспочер, Марко (15.10.2016). «NewsReader: использование ресурсов знаний в многоязычной читающей машине для получения дополнительных знаний из огромных потоков новостей» . Системы, основанные на знаниях . 110 : 60–85. DOI : 10.1016 / j.knosys.2016.07.013 . ISSN 0950-7051 .
- ^ Каннингем, Хэмиш (2005). «Автоматическое извлечение информации», Энциклопедия языка и лингвистики , 2, с. 665 - 677, http://gate.ac.uk/sale/ell2/ie/main.pdf (дата обращения: 18.06.2012).
- ^ Erdmann, M .; Маэдче, Александр; Schnurr, H.-P .; Стааб, Штеффен (2000). «От руководства к полуавтоматической семантической аннотации: об инструментах аннотации текста на основе онтологий», Материалы COLING , http://www.ida.liu.se/ext/epa/cis/2001/002/paper.pdf ( получено: 18.06.2012).
- ^ Рао, Делип; Макнейми, Пол; Дредзе, Марк (2011). «Связывание сущностей: поиск извлеченных сущностей в базе знаний», извлечение и обобщение информации на нескольких языках , несколько источников , http://www.cs.jhu.edu/~delip/entity-linking.pdf [ постоянная мертвая ссылка ] (дата обращения: 18.06.2012).
- ^ Rocket Software, Inc. (2012). «Технология извлечения информации из текста», http://www.rocketsoftware.com/products/aerotext. Архивировано 21июня2013 г. на Wayback Machine (получено: 18.06.2012).
- ^ Orchestr8 (2012): «Обзор AlchemyAPI», http://www.alchemyapi.com/api Архивировано 13 мая2016 г. на Wayback Machine (получено: 18.06.2012).
- ^ Университет Шеффилда (2011). «ЭННИ: почти новая система извлечения информации», http://gate.ac.uk/sale/tao/splitch6.html#chap:annie (получено: 18.06.2012).
- ^ Сеть передового опыта ПДОДИ. "ASIUM (LRI)", http://www-ai.ijs.si/~ilpnet2/systems/asium.html (дата обращения: 18.06.2012).
- ^ Attensity (2012). «Исчерпывающая экстракция», http://www.attensity.com/products/technology/semantic-server/exhaustive-extraction/ Архивировано 11 июля2012 г. на Wayback Machine (получено: 18.06.2012).
- ^ Мендес, Пабло Н .; Якоб, Макс; Гарсия-Сильва, Андрес; Бизер; Кристиан (2011). «В центре внимания DBpedia: проливаем свет на сеть документов», Труды 7-й Международной конференции по семантическим системам , стр. 1-8, http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/research/publications/Mendes-Jakob-GarciaSilva-Bizer-DBpediaSpotlight-ISEM2011.pdf Архивировано 5 апреля2012 г. на The Wayback Machine (дата обращения: 18.06.2012).
- ^ Гангеми, Альдо; Пресутти, Валентина; Рефорджато Рекуперо, Диего; Нуццолезе, Андреа Джованни; Драиккио, Франческо; Mongiovì, Misael (2016). «Машинное чтение семантической паутины с FRED», журнал семантической паутины , doi : 10.3233 / SW-160240 , http://www.semantic-web-journal.net/system/files/swj1379.pdf
- ^ Адриан, Бенджамин; Маус, Хейко; Денгел, Андреас (2009). «iDocument: Использование онтологий для извлечения информации из текста», http://www.dfki.uni-kl.de/~maus/dok/AdrianMausDengel09.pdf (дата обращения: 18.06.2012).
- ^ SRA International, Inc. (2012). "NetOwl Extractor", http://www.sra.com/netowl/entity-extraction/ Архивировано 24 сентября2012 г. на Wayback Machine (получено: 18.06.2012).
- ^ Фортуна, Блаз; Гробельник, Марко; Младенич, Дунья (2007). «OntoGen: полуавтоматический редактор онтологий», Труды конференции 2007 года по человеческому интерфейсу, часть 2 , с. 309 - 318, http://analytics.ijs.si/~blazf/papers/OntoGen2_HCII2007.pdf (дата обращения: 18.06.2012).
- ^ Миссикофф, Мишель; Навильи, Роберто; Веларди, Паола (2002). «Интегрированный подход к изучению и разработке веб-онтологий», Компьютер , 35 (11), с. 60 - 63, http://wwwusers.di.uniroma1.it/~velardi/IEEE_C.pdf (дата обращения: 18.06.2012).
- ^ Макдауэлл, Люк К .; Кафарелла, Майкл (2006). «Извлечение информации на основе онтологий с помощью OntoSyphon», Труды 5-й международной конференции по Семантической паутине , с. 428–444, http://turing.cs.washington.edu/papers/iswc2006McDowell-final.pdf (дата обращения: 18.06.2012).
- ^ Йылдыз, Бурку; Микш, Сильвия (2007). «onX - метод извлечения информации на основе онтологий», Труды международной конференции 2007 г. по вычислительной науке и ее приложениям , 3, с. 660 - 673, http://publik.tuwien.ac.at/files/pub-inf_4769.pdf (дата обращения: 18.06.2012).
- ^ semanticweb.org (2011). "PoolParty Extractor", http://semanticweb.org/wiki/PoolParty_Extractor. Архивировано 4 марта 2016 г. на Wayback Machine (получено: 18.06.2012).
- ^ Дилл, Стивен; Эйрон, Надав; Гибсон, Дэвид; Груль, Даниэль; Guha, R .; Джингран, Анант; Канунго, тапас; Раджагопалан, Шридхар; Томкинс, Эндрю; Томлин, Джон А .; Зиен, Джейсон Ю. (2003). «SemTag и Seeker: загрузка семантической сети с помощью автоматизированной семантической аннотации», Труды 12-й международной конференции по всемирной паутине , с. 178 - 186, http://www2003.org/cdrom/papers/refereed/p831/p831-dill.html (дата обращения: 18.06.2012).
- ^ Урен, Виктория; Чимиано, Филипп; Ирия, Хосе; Хандшу, Зигфрид; Варгас-Вера, Мария; Мотта, Энрико; Чиравенья, Фабио (2006). «Семантическая аннотация для управления знаниями: требования и обзор современного состояния», Веб-семантика: наука, услуги и агенты во всемирной паутине , 4 (1), с. 14–28, http://staffwww.dcs.shef.ac.uk/people/J.Iria/iria_jws06.pdf [ постоянная мертвая ссылка ] , (получено: 18.06.2012).
- ^ Чимиано, Филипп; Фёлькер, Йоханна (2005). «Text2Onto - структура для изучения онтологии и обнаружения изменений на основе данных», Труды 10-й Международной конференции по приложениям естественного языка к информационным системам , 3513, стр. 227 - 238, http://www.cimiano.de/Publications/2005/nldb05/nldb05.pdf (дата обращения: 18.06.2012).
- ^ Маэдче, Александр; Волц, Рафаэль (2001). «Структура извлечения и сопровождения онтологий Text-To-Onto», Материалы Международной конференции IEEE по интеллектуальному анализу данных , http://users.csc.calpoly.edu/~fkurfess/Events/DM-KM-01/Volz.pdf (дата обращения: 18.06.2012).
- ^ Машинное связывание. «Мы подключаемся к облаку связанных открытых данных», http://thewikimachine.fbk.eu/html/index.html. Архивировано 19июля2012 г. на Wayback Machine (получено: 18.06.2012).
- ^ Inxight Federal Systems (2008). «Inxight ThingFinder и ThingFinder Professional», http://inxightfedsys.com/products/sdks/tf/ Архивировано 29 июня 2012 г.на Wayback Machine (получено: 18.06.2012).
- ^ Фроули Уильям. F. et al. (1992), «Открытие знаний в базах данных: обзор», AI Magazine (Том 13, № 3), 57-70 (полная онлайн-версия: http://www.aaai.org/ojs/index.php/aimagazine/ article / viewArticle / 1011 Архивировано 4 марта 2016 г. в Wayback Machine )
- ^ Fayyad U. et al. (1996), «От интеллектуального анализа данных к открытию знаний в базах данных», журнал AI (том 17, № 3), 37-54 (полная онлайн-версия: http://www.aaai.org/ojs/index.php/aimagazine / article / viewArticle / 1230 Архивировано 4 мая 2016 года в Wayback Machine.
- Перейти ↑ Cao, L. (2010). «Интеллектуальный анализ данных на основе предметной области: проблемы и перспективы». IEEE Transactions по разработке знаний и данных . 22 (6): 755–769. CiteSeerX 10.1.1.190.8427 . DOI : 10,1109 / tkde.2010.32 . S2CID 17904603 .