Онтология обучения ( онтология добычи , онтология поколения , или приобретения онтологии ) является автоматическим или полуавтоматическим созданием онтологий , включая извлечение соответствуя домен терминов и отношений между понятиями , что эти термины представляют из корпуса естественного текста языка и кодировок их с помощью языка онтологий для облегчения поиска. Поскольку создание онтологий вручную чрезвычайно трудоемко и требует много времени, есть большая мотивация для автоматизации процесса.
Обычно процесс начинается с извлечения терминов и понятий или словосочетаний из простого текста с помощью лингвистических процессоров, таких как теги частей речи и фрагменты фраз . Затем для извлечения сигнатур отношений используются статистические [1] или символьные [2] [3] методы , часто основанные на методах извлечения гиперонимов на основе шаблонов [4] или определений [5] .
Процедура
Обучение онтологий (OL) используется для (полу) автоматического извлечения целых онтологий из текста на естественном языке. [6] [7] Процесс обычно разбивается на следующие восемь задач, которые не обязательно применяются в каждой системе обучения онтологии.
Извлечение терминологии домена
На этапе извлечения терминологии предметной области извлекаются специфические для предметной области термины, которые используются на следующем шаге (обнаружение концепций) для получения концепций. Соответствующие термины могут быть определены, например, вычислением значений TF / IDF или применением метода C-value / NC-value. Полученный список терминов должен быть отфильтрован экспертом в предметной области. На следующем этапе, аналогично разрешению кореферентности при извлечении информации , OL-система определяет синонимы, поскольку они имеют одно и то же значение и, следовательно, соответствуют одному и тому же понятию. Поэтому наиболее распространенными методами являются кластеризация и применение показателей статистического сходства.
Открытие концепции
На этапе открытия концепции термины сгруппированы по смысловым единицам, которые соответствуют абстракции мира и, следовательно, концепциям . Сгруппированные термины - это термины, относящиеся к предметной области, и их синонимы, которые были идентифицированы на этапе извлечения терминологии домена.
Вывод иерархии понятий
На этапе создания иерархии концептов система OL пытается упорядочить извлеченные концепции в таксономическую структуру. В основном это достигается методами неконтролируемой иерархической кластеризации . Поскольку результат таких методов часто бывает шумным, интегрирован контроль, например, путем оценки пользователем. Еще один метод получения иерархии понятий заключается в использовании нескольких шаблонов, которые должны указывать на отношения суб- или суперпредположения . Такие шаблоны, как «X, то есть Y» или «X is a Y», указывают на то, что X является подклассом Y. Такой шаблон можно эффективно анализировать, но они встречаются слишком редко, чтобы выделить достаточно взаимосвязей под- или надпредприятий. Вместо этого разрабатываются методы начальной загрузки, которые автоматически изучают эти шаблоны и, следовательно, обеспечивают более высокий охват.
Изучение не таксономических отношений
На этапе изучения не-таксономических отношений извлекаются отношения, которые не выражают каких-либо под- или надпредприятий. Такие отношения, например, связаны с местом работы или местонахождением. Есть два общих подхода к решению этой подзадачи. Первый основан на извлечении анонимных ассоциаций, которым на втором этапе присваиваются соответствующие имена. Второй подход извлекает глаголы, которые указывают на отношения между сущностями, представленными окружающими словами. Но результат обоих подходов должен оценивать онтолог.
Открытие правил
Во время открытия правила , [8] аксиомы (формальное описание концепций) генерируются для выделенных понятий. Это может быть достигнуто, например, путем анализа синтаксической структуры определения естественного языка и применения правил преобразования к результирующему дереву зависимостей. Результатом этого процесса является список аксиом, который впоследствии сводится к описанию концепта. Он должен быть оценен онтологом.
Население онтологий
На этом этапе онтология дополняется экземплярами концепций и свойств. Для пополнения экземплярами концептов используются методы, основанные на сопоставлении лексико-синтаксических шаблонов. Экземпляры свойств добавляются путем применения методов начальной загрузки , которые собирают кортежи отношений.
Расширение иерархии понятий
На этом этапе система OL пытается расширить таксономическую структуру существующей онтологии дополнительными концепциями. Это может быть реализовано под наблюдением обученного классификатора или без контроля за счет применения мер подобия .
Обнаружение кадров и событий
Во время обнаружения кадра / события OL-система пытается извлечь из текста сложные взаимосвязи, например, кто отправился, откуда, в какое место и когда. Подходы варьируются от применения SVM с методами ядра до семантической разметки ролей (SRL) [9] до методов глубокого семантического анализа . [10]
Инструменты
Dog4Dag (Дрезденский генератор онтологий для направленных ациклических графов) - это плагин для создания онтологий для Protégé 4.1 и OBOEdit 2.1. Это позволяет генерировать термины, братья и сестры, генерировать определения и индукцию отношений. DOG4DAG, интегрированный в Protégé 4.1 и OBO-Edit 2.1, позволяет расширять онтологию для всех распространенных форматов онтологий (например, OWL и OBO). Ограничено в основном расширениями службы поиска EBI и Bio Portal. [11]
Смотрите также
Библиография
- П. Буйтелаар, П. Чимиано (ред.). Онтологическое обучение и популяция: Преодоление разрыва между текстом и знаниями , Серийная информация для границ в области искусственного интеллекта и приложений , IOS Press, 2008.
- П. Буйтелаар, П. Чимиано и Б. Маньини (ред.). Онтология, изучающая текст: методы, оценка и приложения , серийная информация для границ в искусственном интеллекте и приложениях , IOS Press, 2005.
- Вонг, В. (2009), « Изучение облегченных онтологий из текста в различных доменах с использованием Интернета в качестве базовых знаний ». Докторская диссертация, Университет Западной Австралии.
- Вонг, В., Лю, В. и Беннамун, М. (2012), « Онтология, извлекающая из текста: взгляд назад и в будущее ». ACM Computing Surveys, том 44, выпуск 4, страницы 20: 1-20: 36.
- Томас Вехтер, Гётц Фабиан, Майкл Шредер: DOG4DAG: полуавтоматическая генерация онтологий в OBO-Edit и Protégé. SWAT4LS Лондон, 2011. doi: 10.1145 / 2166896.2166926
Рекомендации
- ^ А. Maedche и S.Staab. Изучение онтологий для семантической сети. В Semantic Web Worskhop 2001.
- ^ Роберто Навильи и Паола Веларди . Изучение онтологий предметной области из хранилищ документов и специализированных веб-сайтов , Вычислительная лингвистика, 30 (2), MIT Press, 2004, стр. 151-179.
- ^ П. Веларди, С. Фаралли, Р. Навильи. OntoLearn Reloaded: основанный на графах алгоритм для индукции таксономии . Компьютерная лингвистика, 39 (3), MIT Press, 2013, стр. 665-707.
- ^ Марти А. Херст. Автоматическое получение гипонимов из больших корпусов текстов . В Трудах четырнадцатой Международной конференции по компьютерной лингвистике, страницы 539-545, Нант, Франция, июль 1992 г.
- ^ Р.Навили, П. Веларди. Изучение решеток классов слов для определения и извлечения гиперонимов. Протокол 48-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL 2010), Упсала, Швеция, 11–16 июля 2010 г., стр. 1318-1327.
- ^ Чимиано, Филипп; Фёлькер, Йоханна; Студер, Руди (2006). «Онтологии по запросу? - Описание современного состояния, приложений, проблем и тенденций в изучении онтологий из текста», Информация, Wissenschaft und Praxis , 57, p. 315 - 320, http://people.aifb.kit.edu/pci/Publications/iwp06.pdf (дата обращения: 18.06.2012).
- ^ Вонг, W., Liu, W. & Bennamoun, M. (2012), " Онтология Учится Текст: Взгляд назад и в будущее ". ACM Computing Surveys, том 44, выпуск 4, страницы 20: 1-20: 36.
- ↑ Йоханна Фёлькер; Паскаль Хитцлер ; Чимиано, Филипп (2007). «Получение аксиом OWL DL из лексических ресурсов», Труды 4-й Европейской конференции по семантической сети , с. 670 - 685, http://smartweb.dfki.de/Vortraege/lexo_2007.pdf (дата обращения: 18.06.2012).
- ^ Коппола Б .; Gangemi A .; Gliozzo A .; Picca D .; Пресутти В. (2009). « Обнаружение кадров в семантической паутине », Труды Европейской конференции по семантической паутине (ESWC2009), Springer, 2009.
- ^ Presutti V .; Draicchio F .; Гангеми А. (2009). « Извлечение знаний на основе теории представления дискурса и лингвистических рамок », Труды конференции по инженерии знаний и управлению знаниями (EKAW2012), LNCS, Springer, 2012.
- ^ Thomas Wächter, Götz Fabian, Michael Schroeder: DOG4DAG: полуавтоматическая генерация онтологий в OBO-Edit и Protégé. SWAT4LS London, 2011. doi : 10.1145 / 2166896.2166926 http://www.biotec.tu-dresden.de/research/schroeder/dog4dag/