Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Перед извлечением ключевых слов стоит задача автоматического определения терминов, которые лучше всего описывают тему документа. [1] [2]

Ключевые фразы , ключевые термины , ключевые сегменты или просто ключевые слова - это терминология, которая используется для определения терминов, которые представляют наиболее актуальную информацию, содержащуюся в документе. Хотя терминология иная, функция та же: описание темы, обсуждаемой в документе. Задача извлечения ключевых слов - важная проблема в интеллектуальном анализе текста , поиске информации и обработке естественного языка . [3]

Назначение ключевого слова или извлечение [ править ]

Методы присвоения ключевых слов можно условно разделить на:

  • присвоение ключевых слов (ключевые слова выбираются из контролируемого словаря или таксономии) и
  • извлечение ключевых слов (ключевые слова выбираются из слов, явно упомянутых в исходном тексте).

Методы автоматического извлечения ключевых слов могут быть контролируемыми, частично контролируемыми или неконтролируемыми. [4] [5] Неконтролируемые методы могут быть далее разделены на простые статистические, лингвистические или основанные на графах или ансамблевые методы, которые объединяют некоторые или большинство из этих методов. [6]

Ссылки [ править ]

  1. ^ Белига, Слободан; Ана, Мештрович; Мартинчич-Ипшич, Санда. (2015). «Обзор методов и подходов извлечения ключевых слов на основе графиков» . Журнал информационных и организационных наук . 39 (1): 1–20.CS1 maint: использует параметр авторов ( ссылка )
  2. ^ Рада Михалча и Пол Tarau (июль 2004). TextRank: Наведение порядка в текстах (PDF) . Труды конференции по эмпирическим методам обработки естественного языка (EMNLP 2004). Барселона, Испания. CS1 maint: использует параметр авторов ( ссылка )
  3. ^ Белига, Слободан; Мештрович, Ана; Мартинчич-Ипшич, Санда. (2014). На пути к извлечению ключевых слов на основе избирательности для хорватских новостей (PDF) . Surfacing the Deep and the Social Web (SDSW 2014). 1310 . Италия: CEUR Proc. С. 1–14. CS1 maint: использует параметр авторов ( ссылка )
  4. ^ Alrehamy, H .; Уокер, К. (2017). SemCluster: неконтролируемое автоматическое извлечение ключевой фразы с использованием распространения сродства . 17-й британский семинар по вычислительному интеллекту.CS1 maint: использует параметр авторов ( ссылка )
  5. ^ «Извлечение ключевых слов: от TF-IDF к BERT» .
  6. ^ Tayfun Pay; Стивен Луччи (2017). Автоматическое извлечение ключевых слов: метод ансамбля . Международная конференция IEEE 2017 по большим данным (Big Data). DOI : 10.1109 / BigData.2017.8258552 .CS1 maint: использует параметр авторов ( ссылка )


Дальнейшее чтение [ править ]

Статья в журнале: Н. Фирозех, А. Назаренко, Ф. Ализон, Б. Дайль. 2019. Извлечение ключевых слов: проблемы и методы . Инженерия естественного языка, 1-33, DOI: 10.1017 / S1351324919000457, Cambridge University Press