tf–idf



В информационном поиске tf - idf (также TF*IDF , TFIDF , TF-IDF или Tf-idf ), сокращенно от термина «частота-обратная частота документа », представляет собой числовую статистику, предназначенную для отражения того, насколько важно слово для пользователя. документ в коллекции или корпусе . [1] Он часто используется в качестве весового коэффициента при поиске информации, анализе текста и моделировании пользователей . Значение tf–idf увеличивается пропорциональнок количеству раз, которое слово появляется в документе, и компенсируется количеством документов в корпусе, содержащих это слово, что помогает скорректировать тот факт, что некоторые слова появляются в целом чаще. tf–idf — одна из самых популярных сегодня схем взвешивания терминов. Опрос, проведенный в 2015 году, показал, что 83% текстовых рекомендательных систем в электронных библиотеках используют tf-idf. [2]

Варианты схемы взвешивания tf-idf часто используются поисковыми системами в качестве центрального инструмента для оценки и ранжирования релевантности документа с учетом пользовательского запроса . tf–idf может быть успешно использован для фильтрации стоп-слов в различных предметных областях, включая реферирование и классификацию текстов.

Одна из простейших функций ранжирования вычисляется путем суммирования tf-idf для каждого термина запроса; многие более сложные функции ранжирования являются вариантами этой простой модели.

Предположим, у нас есть набор текстовых документов на английском языке, и мы хотим ранжировать их по тому, какой документ более соответствует запросу «коричневая корова». Простой способ начать — удалить документы, которые не содержат всех трех слов «the», «brown» и «cow», но при этом останется много документов. Чтобы еще больше различать их, мы могли бы подсчитать, сколько раз каждый термин встречается в каждом документе; количество раз, когда термин встречается в документе, называется частотой его термина . Однако в случае, когда объем документов сильно различается, часто вносятся поправки (см. определение ниже). Первая форма взвешивания терминов принадлежит Гансу Петеру Луну (1957), которую можно резюмировать следующим образом: [3]

Поскольку термин «the» настолько распространен, частота термина будет иметь тенденцию неправильно подчеркивать документы, в которых слово «the» используется чаще, не придавая достаточного значения более значимым терминам «коричневый» и «корова». Термин «the» не является хорошим ключевым словом для различения релевантных и нерелевантных документов и терминов, в отличие от менее распространенных слов «коричневый» и «корова». Следовательно, вводится обратный фактор частоты документа , который уменьшает вес терминов, которые очень часто встречаются в наборе документов, и увеличивает вес терминов, которые встречаются редко.

Карен Спэрк Джонс (1972) разработала статистическую интерпретацию специфичности терминов, названную обратной частотой документа (idf), которая стала краеугольным камнем взвешивания терминов: [4]


График различных обратных частотных функций документа: стандартной, гладкой, вероятностной.