Экстракция отношения задача требует обнаружений и классификации семантического отношения упоминания в рамках набора артефактов , как правило , из текстовых или XML - документов. Задача очень похожа на задачу извлечения информации (IE), но IE дополнительно требует удаления повторяющихся отношений ( устранения неоднозначности ) и обычно относится к извлечению множества различных взаимосвязей.
Приложения
Области приложений, в которых полезно извлечение взаимосвязей, включают взаимосвязь ген-болезнь, [1] взаимодействие белок-белок [2] и т. Д.
Бесконечное изучение языка - это система семантического машинного обучения , разработанная исследовательской группой из Университета Карнеги-Меллона, которая извлекает отношения из открытой сети.
Подходы
Один из подходов к этой проблеме включает использование онтологий предметной области . [3] [4] Другой подход включает визуальное обнаружение значимых отношений в параметрических значениях объектов, перечисленных в таблице данных, которые меняют позиции, когда таблица переставляется автоматически, как это контролируется пользователем программного обеспечения. Плохой охват, редкость и стоимость разработки, связанных со структурированными ресурсами, такими как семантические лексиконы (например, WordNet , UMLS ) и онтологии предметной области (например, онтология генов ), привели к появлению новых подходов, основанных на обширных, динамических фоновых знаниях в Интернете. Например, метод ARCHILES [5] использует только количество страниц в Википедии и поисковой системе для получения общих отношений для построения облегченных онтологий.
Отношения могут быть представлены с использованием различных формализмов / языков. Одним из таких языков представления данных в Интернете является RDF .
Совсем недавно были предложены сквозные системы, которые совместно учатся извлекать упоминания сущностей и их семантические отношения с большим потенциалом для получения высокой производительности. [6]
Большинство представленных систем продемонстрировали свой подход на английском языке данных. Однако данные и системы были описаны для других языков, например для русского [7] и вьетнамского . [8]
Наборы данных
Исследователи создали несколько наборов данных для сравнительного анализа методов извлечения взаимосвязей. [9] Одним из таких наборов данных был набор данных для извлечения отношений на уровне документа под названием DocRED, выпущенный в 2019 году. Он использует отношения из Викиданных и текст из английской Википедии . [9] Набор данных использовался другими исследователями, и в CodaLab был организован конкурс прогнозирования . [10] [11]
Смотрите также
Рекомендации
- ^ Хон-Ву Чун; Йошимаса Цуруока; Джин-Донг Ким; Рие Шиба; Наоки Нагата; Теруёси Хишики; Джун-ичи Цудзи (2006). «Извлечение связи ген-болезнь из Medline с использованием словарей предметной области и машинного обучения». Тихоокеанский симпозиум по биокомпьютингу . CiteSeerX 10.1.1.105.9656 .
- ^ Минли Хуан, Сяоянь Чжу, Ю Хао, Дональд Г. Паян, Кунбинь Цюй и Мин Ли (2004). «Обнаружение паттернов для извлечения белок-белковых взаимодействий из полных текстов» . Биоинформатика . 20 (18): 3604–3612. DOI : 10.1093 / биоинформатики / bth451 . PMID 15284092 . Неизвестный параметр
|book-title=
игнорируется ( справка ) - ^ TCRindflesch, L.Tanabe и JNWeinstein и L.Hunter (2000). «Эдгар: Извлечение лекарств, генов и отношений из биомедицинской литературы». Proc. Тихоокеанский симпозиум по биокомпьютингу . С. 514–525. PMC 2709525 .
- ^ К. Рамакришнан, К. Дж. Кочут и А. П. Шет (2006). «Платформа для обнаружения взаимосвязей на основе схемы из неструктурированного текста» . Proc. Международная конференция по семантической паутине . С. 583–596.
- ^ В. Вонг, В. Лю и М. Беннамун (2009). «Получение семантических отношений с помощью Интернета для создания облегченных онтологий». Proc. 13-я Тихоокеанская конференция по открытию знаний и интеллектуальному анализу данных (PAKDD) . DOI : 10.1007 / 978-3-642-01307-2_26 .
- ^ Дат Куок Нгуен и Карин Верспур (2019). «Сквозное извлечение нейронных отношений с использованием глубокого биаффинного внимания». Труды 41-й Европейской конференции по поиску информации (ECIR) . arXiv : 1812.11275 . DOI : 10.1007 / 978-3-030-15712-8_47 .
- ^ Елена Брухес; Алексей Паулс; Татьяна Батура; Владимир Исаченко (14 декабря 2020 г.), Распознавание сущностей и извлечение взаимосвязей из научно-технических текстов на русском языке (PDF) , arXiv : 2011.09817 , Wikidata Q104419957
- ^ Фам Куанг Нхат Минь (18 декабря 2020 г.), Эмпирическое исследование использования предварительно обученных моделей BERT для задачи извлечения отношений во Вьетнаме на VLSP 2020 (PDF) , arXiv : 2012.10275 , Wikidata Q104418048
- ^ а б Юань Яо; Деминг Йе; Пэн Ли; и другие. (2019). «DocRED: крупномасштабный набор данных для извлечения связей на уровне документа» (PDF) . Материалы 57-го ежегодного собрания Ассоциации компьютерной лингвистики : 764–777. arXiv : 1906.06127 . DOI : 10.18653 / V1 / P19-1074 . Викиданные Q104419388 .
- ^ Ван Сюй; Кехай Чен; Тиецзюнь Чжао (21 декабря 2020 г.), Извлечение отношений на уровне документа с реконструкцией (PDF) , arXiv : 2012.11384 , Wikidata Q104417795
- ^ «DocRED. Конкурс. CodaLab» .