Извлечение отношений

Экстракция отношения задача требует обнаружений и классификации семантического отношения упоминания в рамках набора артефактов , как правило , из текстовых или XML - документов. Задача очень похожа на задачу извлечения информации (IE), но IE дополнительно требует удаления повторяющихся отношений ( устранения неоднозначности ) и обычно относится к извлечению множества различных взаимосвязей.

Приложения

Области приложений, в которых полезно извлечение взаимосвязей, включают взаимосвязь ген-болезнь, ^[1] взаимодействие белок-белок ^[2] и т. Д.

Бесконечное изучение языка - это система семантического машинного обучения , разработанная исследовательской группой из Университета Карнеги-Меллона, которая извлекает отношения из открытой сети.

Подходы

Один из подходов к этой проблеме включает использование онтологий предметной области . ^[3]^[4] Другой подход включает визуальное обнаружение значимых отношений в параметрических значениях объектов, перечисленных в таблице данных, которые меняют позиции, когда таблица переставляется автоматически, как это контролируется пользователем программного обеспечения. Плохой охват, редкость и стоимость разработки, связанных со структурированными ресурсами, такими как семантические лексиконы (например, WordNet , UMLS ) и онтологии предметной области (например, онтология генов ), привели к появлению новых подходов, основанных на обширных, динамических фоновых знаниях в Интернете. Например, метод ARCHILES ^[5] использует только количество страниц в Википедии и поисковой системе для получения общих отношений для построения облегченных онтологий.

Отношения могут быть представлены с использованием различных формализмов / языков. Одним из таких языков представления данных в Интернете является RDF .

Совсем недавно были предложены сквозные системы, которые совместно учатся извлекать упоминания сущностей и их семантические отношения с большим потенциалом для получения высокой производительности. ^[6]

Большинство представленных систем продемонстрировали свой подход на английском языке данных. Однако данные и системы были описаны для других языков, например для русского ^[7] и вьетнамского . ^[8]

Наборы данных

Исследователи создали несколько наборов данных для сравнительного анализа методов извлечения взаимосвязей. ^[9] Одним из таких наборов данных был набор данных для извлечения отношений на уровне документа под названием DocRED, выпущенный в 2019 году. Он использует отношения из Викиданных и текст из английской Википедии . ^[9] Набор данных использовался другими исследователями, и в CodaLab был организован конкурс прогнозирования . ^[10]^[11]

Смотрите также

Рекомендации

^ Хон-Ву Чун; Йошимаса Цуруока; Джин-Донг Ким; Рие Шиба; Наоки Нагата; Теруёси Хишики; Джун-ичи Цудзи (2006). «Извлечение связи ген-болезнь из Medline с использованием словарей предметной области и машинного обучения». Тихоокеанский симпозиум по биокомпьютингу . CiteSeerX 10.1.1.105.9656 .
^ Минли Хуан, Сяоянь Чжу, Ю Хао, Дональд Г. Паян, Кунбинь Цюй и Мин Ли (2004). «Обнаружение паттернов для извлечения белок-белковых взаимодействий из полных текстов» . Биоинформатика . 20 (18): 3604–3612. DOI : 10.1093 / биоинформатики / bth451 . PMID 15284092 . Неизвестный параметр |book-title=игнорируется ( справка )
^ TCRindflesch, L.Tanabe и JNWeinstein и L.Hunter (2000). «Эдгар: Извлечение лекарств, генов и отношений из биомедицинской литературы». Proc. Тихоокеанский симпозиум по биокомпьютингу . С. 514–525. PMC 2709525 .
^ К. Рамакришнан, К. Дж. Кочут и А. П. Шет (2006). «Платформа для обнаружения взаимосвязей на основе схемы из неструктурированного текста» . Proc. Международная конференция по семантической паутине . С. 583–596.
^ В. Вонг, В. Лю и М. Беннамун (2009). «Получение семантических отношений с помощью Интернета для создания облегченных онтологий». Proc. 13-я Тихоокеанская конференция по открытию знаний и интеллектуальному анализу данных (PAKDD) . DOI : 10.1007 / 978-3-642-01307-2_26 .
^ Дат Куок Нгуен и Карин Верспур (2019). «Сквозное извлечение нейронных отношений с использованием глубокого биаффинного внимания». Труды 41-й Европейской конференции по поиску информации (ECIR) . arXiv : 1812.11275 . DOI : 10.1007 / 978-3-030-15712-8_47 .
^ Елена Брухес; Алексей Паулс; Татьяна Батура; Владимир Исаченко (14 декабря 2020 г.), Распознавание сущностей и извлечение взаимосвязей из научно-технических текстов на русском языке (PDF) , arXiv : 2011.09817 , Wikidata Q104419957
^ Фам Куанг Нхат Минь (18 декабря 2020 г.), Эмпирическое исследование использования предварительно обученных моделей BERT для задачи извлечения отношений во Вьетнаме на VLSP 2020 (PDF) , arXiv : 2012.10275 , Wikidata Q104418048
^ а б Юань Яо; Деминг Йе; Пэн Ли; и другие. (2019). «DocRED: крупномасштабный набор данных для извлечения связей на уровне документа» (PDF) . Материалы 57-го ежегодного собрания Ассоциации компьютерной лингвистики : 764–777. arXiv : 1906.06127 . DOI : 10.18653 / V1 / P19-1074 . Викиданные Q104419388 .
^ Ван Сюй; Кехай Чен; Тиецзюнь Чжао (21 декабря 2020 г.), Извлечение отношений на уровне документа с реконструкцией (PDF) , arXiv : 2012.11384 , Wikidata Q104417795
^ «DocRED. Конкурс. CodaLab» .

Эта статья по информатике незавершена . Вы можете помочь Википедии, расширив ее .

[Chun06-1] Хон-Ву Чун; Йошимаса Цуруока; Джин-Донг Ким; Рие Шиба; Наоки Нагата; Теруёси Хишики; Джун-ичи Цудзи (2006). «Извлечение связи ген-болезнь из Medline с использованием словарей предметной области и машинного обучения». Тихоокеанский симпозиум по биокомпьютингу . CiteSeerX 10.1.1.105.9656 .

[huang04-2] Минли Хуан, Сяоянь Чжу, Ю Хао, Дональд Г. Паян, Кунбинь Цюй и Мин Ли (2004). «Обнаружение паттернов для извлечения белок-белковых взаимодействий из полных текстов» . Биоинформатика . 20 (18): 3604–3612. DOI : 10.1093 / биоинформатики / bth451 . PMID 15284092 . Неизвестный параметр |book-title=игнорируется ( справка )

[rindflesch00-3] TCRindflesch, L.Tanabe и JNWeinstein и L.Hunter (2000). «Эдгар: Извлечение лекарств, генов и отношений из биомедицинской литературы». Proc. Тихоокеанский симпозиум по биокомпьютингу . С. 514–525. PMC 2709525 .

[ramakrishnan06-4] К. Рамакришнан, К. Дж. Кочут и А. П. Шет (2006). «Платформа для обнаружения взаимосвязей на основе схемы из неструктурированного текста» . Proc. Международная конференция по семантической паутине . С. 583–596.

[wongetal09-5] В. Вонг, В. Лю и М. Беннамун (2009). «Получение семантических отношений с помощью Интернета для создания облегченных онтологий». Proc. 13-я Тихоокеанская конференция по открытию знаний и интеллектуальному анализу данных (PAKDD) . DOI : 10.1007 / 978-3-642-01307-2_26 .

[ecir2019-6] Дат Куок Нгуен и Карин Верспур (2019). «Сквозное извлечение нейронных отношений с использованием глубокого биаффинного внимания». Труды 41-й Европейской конференции по поиску информации (ECIR) . arXiv : 1812.11275 . DOI : 10.1007 / 978-3-030-15712-8_47 .

[7] Елена Брухес; Алексей Паулс; Татьяна Батура; Владимир Исаченко (14 декабря 2020 г.), Распознавание сущностей и извлечение взаимосвязей из научно-технических текстов на русском языке (PDF) , arXiv : 2011.09817 , Wikidata Q104419957

[8] Фам Куанг Нхат Минь (18 декабря 2020 г.), Эмпирическое исследование использования предварительно обученных моделей BERT для задачи извлечения отношений во Вьетнаме на VLSP 2020 (PDF) , arXiv : 2012.10275 , Wikidata Q104418048

[DocRED:_A_Large-Scale_Document-Level_Relation_Extraction_Dataset-9] а б Юань Яо; Деминг Йе; Пэн Ли; и другие. (2019). «DocRED: крупномасштабный набор данных для извлечения связей на уровне документа» (PDF) . Материалы 57-го ежегодного собрания Ассоциации компьютерной лингвистики : 764–777. arXiv : 1906.06127 . DOI : 10.18653 / V1 / P19-1074 . Викиданные Q104419388 .

[10] Ван Сюй; Кехай Чен; Тиецзюнь Чжао (21 декабря 2020 г.), Извлечение отношений на уровне документа с реконструкцией (PDF) , arXiv : 2012.11384 , Wikidata Q104417795

[11] «DocRED. Конкурс. CodaLab» .

[1]