Терминология экстракция (также известная как термин экстракция, глоссарий добыча, срок признание или терминология добыча ) представляет собой подзадачу извлечения информации . Целью извлечения терминологии является автоматическое извлечение релевантных терминов из заданного корпуса . [1]
В эпоху семантической паутины все большее число сообществ и сетевых предприятий начали получать доступ и взаимодействовать через Интернет . Моделирование этих сообществ и их информационных потребностей важно для нескольких веб-приложений , таких как тематические поисковые роботы , [2] веб-сервисы , [3] рекомендательные системы , [4] и т. Д. Развитие извлечения терминологии также важно для языковой индустрии. .
Одним из первых шагов к моделированию предметной области является сбор словаря релевантных для предметной области терминов, составляющих лингвистическое поверхностное проявление понятий предметной области . В литературе описано несколько методов автоматического извлечения технических терминов из хранилищ документов для конкретной предметной области. [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] »
Как правило, подходы к автоматическому извлечению терминов используют лингвистические процессоры ( часть речевых тегов , разбиение на части ) для извлечения терминологических кандидатов, то есть синтаксически правдоподобных терминологических словосочетаний с существительными . К именным фразам относятся составные (например, «кредитная карта»), прилагательные к существительным (например, «местный туристический информационный офис») и предложные существительные (например, «совет директоров»). В английском языке наиболее часто встречаются первые два (составные и словосочетания с прилагательными). [18] Терминологические записи затем фильтруются из списка кандидатов с использованием статистических методов и методов машинного обучения . После фильтрации из-за их низкой двусмысленности и высокой специфичности эти термины особенно полезны для концептуализации предметной области или для поддержки создания онтологии предметной области или терминологической базы. Кроме того, извлечение терминологии является очень полезной отправной точкой для семантического сходства , управления знаниями , человеческого и машинного перевода и т. Д.
Двуязычное извлечение терминологии
Методы извлечения терминологии могут быть применены к параллельным корпусам . В сочетании, например, со статистикой совместной встречаемости , можно получить кандидатов на перевод терминов. [19] Двуязычная терминология также может быть извлечена из сопоставимых корпусов [20] (корпусов, содержащих тексты одного типа текста, домена, но не переводы документов между собой).
Смотрите также
Рекомендации
- ^ Alrehamy, Хасан H; Уокер, Корал (2018). «SemCluster: неконтролируемое автоматическое извлечение ключевой фразы с использованием распространения сродства». Достижения в системах вычислительного интеллекта . Достижения в интеллектуальных системах и вычислениях. 650 . С. 222–235. DOI : 10.1007 / 978-3-319-66939-7_19 . ISBN 978-3-319-66938-0.
- ^ Menczer F., Pant G. и Srinivasan P. Тематические сканеры: проблемы машинного обучения .
- ↑ Fan J. и Kambhampati S. Снимок общедоступных веб-служб , в архиве записей ACM SIGMOD, том 34, выпуск 1 (март 2005 г.).
- ^ Ян Чжэн Вэй, Люк Моро, Николас Р. Дженнингс. Рыночный подход к рекомендательным системам , ACM Transactions on Information Systems (TOIS), 23 (3), 2005.
- ^ Bourigault Д. и Jacquemin С. Term Extraction + Term Кластеризация: интегрированная платформа для автоматизированной терминологии архивации 2006-06-19 в Wayback Machine , в Proc. EACL, 1999.
- ^ Collier, N .; Nobata, C .; Цуджи Дж. (2002). «Автоматическое получение и классификация терминологии с использованием помеченного корпуса в области молекулярной биологии». Терминология . 7 (2): 239–257. DOI : 10.1075 / term.7.2.07col .
- ^ К. Франци, С. Ананиаду и Х. Мима. (2000). Автоматическое распознавание многословных терминов: метод C-value / NC-value. В: C. Nikolau и C. Stephanidis (Eds.) International Journal on Digital Libraries, Vol. 3, No. 2., pp. 115-130.
- ^ К. Франци, С. Ананиаду и Дж. Цуджи. (1998) Метод автоматического распознавания многословных терминов C-value / NC-value , In: ECDL '98 Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries, pp. 585-604. ISBN 3-540-65101-2
- ^ Л. Козаков; Ю. Парк; Т. Фин; Ю. Дрисси; Ю. Доганата и Т. Кофино. (2004). «Извлечение и использование глоссария в системе поиска и доставки информации для службы технической поддержки IBM» (PDF) . IBM Systems Journal . 43 (3): 546–563. DOI : 10.1147 / sj.433.0546 .
- ^ Навильи Р. и Веларди, П. Изучение онтологий предметной области из хранилищ документов и специализированных веб-сайтов . Компьютерная лингвистика. 30 (2), MIT Press, 2004, стр. 151-179.
- ^ Оливер А. и Васкес М. TBXTools: бесплатный, быстрый и гибкий инструмент для автоматического извлечения терминологии . Труды последних достижений в обработке естественного языка (РАНЛП 2015), 2015, стр. 473–479.
- ^ Y. Парк, RJ Byrd, Б. Boguraev. «Автоматическое извлечение глоссария: за пределами определения терминологии» , Международная конференция по компьютерной лингвистике, Труды 19-й международной конференции по компьютерной лингвистике - Тайбэй, Тайвань, 2002.
- ^ Sclano, Ф. и Velardi П. . TermExtractor : веб-приложение для изучения общей терминологии возникающих веб-сообществ. Появиться в Proc. 3-й Международной конференции по взаимодействию корпоративного программного обеспечения и приложений (I-ESA 2007). Фуншал (остров Мадейра), Португалия, 28–30 марта 2007 г.
- ^ П. Веларди, Р. Навильи, П. Д'Амадио. Mining the Web to Create Specialized Glossaries , IEEE Intelligent Systems, 23 (5), IEEE Press, 2008, стр. 18-25.
- ^ Wermter J. и Hahn У. нашедших новая терминология в очень больших корпусах , в Proc. of K-CAP'05, 2–5 октября 2005 г., Банф, Альберта, Канада
- ^ Вонг, W., Liu, W. & Bennamoun, M. (2007) Определение Termhood для обучения домена онтологий с использованием домена Распространенность и Склонность . В: 6-я Австралазийская конференция по интеллектуальному анализу данных (AusDM); Золотое побережье. ISBN 978-1-920682-51-4
- ^ Вонг, В., Лю, В. и Беннамун, М. (2007) Определение срока для онтологий предметной области в вероятностной структуре . В: 6-я Австралазийская конференция по интеллектуальному анализу данных (AusDM); Золотое побережье. ISBN 978-1-920682-51-4
- ^ Alrehamy, Hassan H; Уокер, Корал (2018). «SemCluster: неконтролируемое автоматическое извлечение ключевой фразы с использованием распространения сродства». Достижения в системах вычислительного интеллекта . Достижения в интеллектуальных системах и вычислениях. 650 . С. 222–235. DOI : 10.1007 / 978-3-319-66939-7_19 . ISBN 978-3-319-66938-0.
- ^ Маккен, Лив; Лефевер, Элс; Хост, Вероник (2013). «TExSIS: извлечение двуязычной терминологии из параллельных корпусов с использованием выравнивания по фрагментам» . Терминология . 19 (1): 1–30. DOI : 10.1075 / term.19.1.01mac . hdl : 1854 / LU-2128573 .
- ^ Шарофф, Серж; Рапп, Рейнхард; Цвайгенбаум, Пьер; Фунг, Паскаль (2013), Построение и использование сопоставимых корпусов (PDF) , Берлин: Springer-Verlag