Из Википедии, бесплатной энциклопедии
  (Перенаправлено с частоты термина )
Перейти к навигации Перейти к поиску

В поиске информации , TF-IDF , TF * IDF , или TFIDF , короткий для термина частотного обратной частоты документа , является числовой статистикой , которая призвана отразить , насколько важно слово к документу в коллекции или корпусе . [1] Он часто используется в качестве весового коэффициента при поиске информации, интеллектуальном анализе текста и пользовательском моделировании . Значение tf – idf увеличивается пропорциональнок количеству раз, когда слово встречается в документе, и компенсируется количеством документов в корпусе, которые содержат это слово, что помогает учесть тот факт, что некоторые слова в целом встречаются чаще. tf – idf - одна из самых популярных сегодня схем взвешивания терминов. Опрос, проведенный в 2015 году, показал, что 83% текстовых рекомендательных систем в электронных библиотеках используют tf – idf. [2]

Варианты схемы взвешивания tf – idf часто используются поисковыми системами в качестве центрального инструмента для оценки и ранжирования релевантности документа с учетом пользовательского запроса . tf – idf может успешно использоваться для фильтрации стоп-слов в различных предметных полях, включая текстовое обобщение и классификацию.

Одна из простейших функций ранжирования вычисляется путем суммирования tf – idf для каждого термина запроса; многие более сложные функции ранжирования являются вариантами этой простой модели.

Мотивации [ править ]

Частота использования [ править ]

Предположим, у нас есть набор текстовых документов на английском языке, и мы хотим ранжировать их по тому, какой документ более соответствует запросу «коричневая корова». Простой способ начать - удалить документы, которые не содержат всех трех слов «the», «brown» и «cow», но при этом остается много документов. Чтобы различать их, мы можем подсчитать, сколько раз каждый термин встречается в каждом документе; количество раз, когда термин встречается в документе, называется частотой его употребления . Однако в случае, когда объем документов сильно различается, часто вносятся корректировки (см. Определение ниже). Первая форма взвешивания терминов была предложена Гансом Петером Луном ( Hans Peter Luhn, 1957), и ее можно резюмировать как: [3]

Вес термина, который встречается в документе, просто пропорционален частоте использования термина.

Частота обратного документа [ править ]

Поскольку термин «the» настолько распространен, частота использования термина будет иметь тенденцию неправильно выделять документы, в которых слово «the» используется чаще, без придания достаточного веса более значимым терминам «коричневый» и «корова». Термин «the» не является подходящим ключевым словом для различения релевантных и нерелевантных документов и терминов, в отличие от менее распространенных слов «коричневый» и «корова». Следовательно, включен обратный коэффициент частоты документа, который уменьшает вес терминов, которые очень часто встречаются в наборе документов, и увеличивает вес терминов, которые встречаются редко.

Карен Спарк Джонс (1972) разработала статистическую интерпретацию специфичности термина, названную «Обратной частотой документа» (IDF), которая стала краеугольным камнем взвешивания терминов: [4]

Специфичность термина может быть определена как функция, обратная количеству документов, в которых он встречается.

Определение [ править ]

  1. Tf – idf - это произведение двух статистических данных, частоты термина и обратной частоты документа . Существуют различные способы определения точных значений обеих статистических данных.
  2. Формула, предназначенная для определения важности ключевого слова или фразы в документе или на веб-странице.

Частота использования [ править ]

Частота термина tf ( t , d ) - частота термина t ,

,

где f t , d - это исходное количество термина в документе, т. е. количество раз, когда термин t встречается в документе d . Есть несколько других способов определить частоту термина: [5] : 128

  • сам исходный счет: tf ( t , d ) = f t , d
  • Логические «частоты»: tf ( t , d ) = 1, если t встречается в d, и 0 в противном случае;
  • Частота термина с поправкой на длину документа: tf ( t , d ) = f t , d ÷ (количество слов в d)
  • логарифмически масштабируемая частота: tf ( t , d ) = log (1 + f t , d ) ; [6]
  • увеличенная частота, чтобы предотвратить предвзятость в сторону более длинных документов, например, необработанная частота, деленная на исходную частоту наиболее часто встречающегося термина в документе:

Частота обратного документа [ править ]

Частота обратного документа - это мера того, сколько информации предоставляет слово, т. Е. Является ли оно общим или редким во всех документах. Это логарифмически масштабированная обратная доля документов, содержащих слово (полученная путем деления общего количества документов на количество документов, содержащих термин, и последующего логарифмирования этого частного):

с участием

  • : общее количество документов в корпусе
  •  : количество документов, в которых встречается термин (т. е. ). Если термин отсутствует в корпусе, это приведет к делению на ноль. Поэтому обычно знаменатель корректируется на .
График различных обратных частотных функций документа: стандартный, гладкий, вероятностный.

Частота термина - обратная частота документа [ править ]

Тогда tf – idf рассчитывается как

Высокий вес в tf – idf достигается за счет высокой частоты термина (в данном документе) и низкой частоты использования термина во всем наборе документов; поэтому веса имеют тенденцию отфильтровывать общие термины. Поскольку соотношение внутри функции журнала idf всегда больше или равно 1, значение idf (и tf – idf) больше или равно 0. Поскольку термин появляется в большем количестве документов, отношение внутри логарифма приближается к 1 , приближая idf и tf – idf к 0.

Обоснование idf [ править ]

Idf был представлен как «специфичность термина» Карен Шперк Джонс в статье 1972 года. Хотя он хорошо зарекомендовал себя в качестве эвристики , его теоретические основы были проблемными в течение по крайней мере трех десятилетий после этого, и многие исследователи пытались найти для него теоретическое обоснование информации . [7]

Собственное объяснение Спэрка Джонса не предлагало много теории, за исключением связи с законом Ципфа . [7] Были предприняты попытки поставить idf на вероятностную основу [8] путем оценки вероятности того, что данный документ d содержит термин t как относительную частоту документов,

так что мы можем определить idf как

А именно, обратная частота документа является логарифмом «обратной» относительной частоты документа.

Эта вероятностная интерпретация, в свою очередь, принимает ту же форму, что и самоинформация . Однако применение таких теоретико-информационных понятий к проблемам при поиске информации приводит к проблемам при попытке определить соответствующие пространства событий для требуемых распределений вероятностей : необходимо учитывать не только документы, но также запросы и термины. [7]

Связь с теорией информации [ править ]

Частота термина и обратная частота документа могут быть сформулированы с использованием теории информации ; это помогает понять, почему их продукт имеет значение с точки зрения общего информационного содержания документа. Характерное предположение о распределении состоит в том, что:

Это предположение и его последствия, по словам Айзавы: «представляют собой эвристику, которую использует tf-idf». [9]

Вспомните выражение условной энтропии «случайно выбранного» документа в корпусе, обусловленное тем фактом, что он содержит конкретный термин (и предположим, что все документы имеют равную вероятность быть выбранными, и малость r = вероятности)):

В терминах обозначений и являются «случайными величинами», соответствующими соответственно отрисовке документа или термина. Теперь вспомните определение взаимной информации и обратите внимание, что ее можно выразить как

Последний шаг - расширить безусловную вероятность нарисовать термин относительно (случайного) выбора документа, чтобы получить:

Это выражение показывает, что суммирование Tf – idf всех возможных терминов и документов восстанавливает взаимную информацию между документами и термином с учетом всех особенностей их совместного распределения. [9] Таким образом, каждый Tf – idf несет «бит информации», прикрепленный к паре документов термин x.

Пример tf – idf [ править ]

Предположим, что у нас есть таблицы количества терминов в корпусе, состоящем только из двух документов, как указано справа.

Расчет tf – idf для термина «это» выполняется следующим образом:

В необработанной форме частоты tf - это просто частота «this» для каждого документа. В каждом документе слово «это» встречается один раз; но поскольку в документе 2 больше слов, его относительная частота меньше.

Идентификатор idf является постоянным для корпуса и учитывает соотношение документов, содержащих слово «это». В данном случае у нас есть корпус из двух документов, и все они включают слово «это».

Таким образом, tf – idf равно нулю для слова «это», что означает, что это слово не очень информативно, поскольку оно встречается во всех документах.

Слово «пример» более интересно - оно встречается трижды, но только во втором документе:

Ну наконец то,

(с использованием логарифма по основанию 10 ).

Помимо условий [ править ]

Идея tf – idf также применима к объектам, отличным от терминов. В 1998 году понятие idf было применено к цитированию. [10] Авторы утверждали, что «если очень необычная цитата встречается в двух документах, это должно иметь больший вес, чем цитата, сделанная большим количеством документов». Кроме того, tf – idf применялся к «визуальным словам» с целью сопоставления объектов в видео [11] и целых предложениях. [12] Однако концепция tf – idf не во всех случаях оказалась более эффективной, чем простая схема tf (без idf). Когда к цитированию применялся tf – idf, исследователи не могли найти никаких улучшений по сравнению с простым весом цитирования, в котором не было компонента idf. [13]

Производные [ править ]

Ряд схем взвешивания членов произошел от tf – idf. Один из них - TF – PDF (Term Frequency * Proportional Document Frequency). [14] TF – PDF был введен в 2001 году в контексте выявления новых тем в СМИ. Компонент PDF измеряет разницу в том, как часто термин встречается в разных доменах. Еще одно производное - TF – IDuF. В TF – IDuF [15] idf не рассчитывается на основе корпуса документов, в котором необходимо выполнить поиск или который будет рекомендован. Вместо этого idf рассчитывается для личных коллекций документов пользователей. Авторы сообщают, что TF-IDuF был столь же эффективен, как и tf-idf, но также мог применяться в ситуациях, когда, например, система пользовательского моделирования не имеет доступа к глобальному корпусу документов.

См. Также [ править ]

  • Встраивание слов
  • Дивергенция Кульбака – Лейблера.
  • Скрытое размещение Дирихле
  • Скрытый семантический анализ
  • Взаимная информация
  • Словосочетание
  • Окапи BM25
  • PageRank
  • Векторная модель пространства
  • Количество слов
  • Система поиска информации SMART

Ссылки [ править ]

  1. ^ Раджараман, А .; Ульман, JD (2011). «Интеллектуальный анализ данных» (PDF) . Майнинг массивных наборов данных . С. 1–17. DOI : 10.1017 / CBO9781139058452.002 . ISBN 978-1-139-05845-2.
  2. ^ Брайтингер, Коринна; Гипп, Бела; Лангер, Стефан (26 июля 2015 г.). «Научно-исследовательские рекомендательные системы: обзор литературы» . Международный журнал электронных библиотек . 17 (4): 305–338. DOI : 10.1007 / s00799-015-0156-0 . ISSN 1432-5012 . S2CID 207035184 .  
  3. ^ Лун, Ганс Петер (1957). «Статистический подход к механизированному кодированию и поиску литературной информации» (PDF) . Журнал исследований и разработок IBM . 1 (4): 309–317. DOI : 10.1147 / rd.14.0309 . Дата обращения 2 марта 2015 . Также существует вероятность того, что чем чаще встречается понятие и сочетание понятий, тем большее значение автор придает им как отражению сути его общей идеи.
  4. ^ Spärck Джонс, К. (1972). «Статистическая интерпретация специфики термина и его применение при поиске». Журнал документации . 28 : 11–21. CiteSeerX 10.1.1.115.8343 . DOI : 10,1108 / eb026526 . 
  5. ^ Мэннинг, CD; Raghavan, P .; Шутце, Х. (2008). «Оценка, взвешивание терминов и модель векторного пространства» (PDF) . Введение в поиск информации . п. 100. DOI : 10.1017 / CBO9780511809071.007 . ISBN  978-0-511-80907-1.
  6. ^ "Статистика TFIDF | SAX-VSM" .
  7. ^ a b c Робертсон, С. (2004). «Понимание обратной частоты документов: теоретические аргументы в пользу IDF». Журнал документации . 60 (5): 503–520. DOI : 10.1108 / 00220410410560582 .
  8. ^ См. Также Оценки вероятности на практике во введении в поиск информации .
  9. ^ а б Аидзава, Акико (2003). "Теоретико-информационная перспектива мер tf – idf". Обработка информации и управление . 39 (1): 45–65. DOI : 10.1016 / S0306-4573 (02) 00021-3 .
  10. ^ Bollacker, Курт Д .; Лоуренс, Стив; Джайлз, К. Ли (1998-01-01). CiteSeer: автономный веб-агент для автоматического поиска и идентификации интересных публикаций . Труды Второй Международной конференции по автономным агентам . АГЕНТЫ '98. С. 116–123. DOI : 10.1145 / 280765.280786 . ISBN 978-0-89791-983-8. S2CID  3526393 .
  11. ^ Сивич, Йозеф; Зиссерман, Андрей (01.01.2003). Видео Google: метод поиска текста для сопоставления объектов в видео . Труды Девятой Международной конференции IEEE по компьютерному зрению - Том 2 . ICCV '03. С. 1470–. DOI : 10.1109 / ICCV.2003.1238663 . ISBN 978-0-7695-1950-0. S2CID  14457153 .
  12. Секи, Йохей. «Извлечение предложений с помощью tf / idf и взвешивание позиций из газетных статей» (PDF) . Национальный институт информатики.
  13. ^ Бил, Джоран; Брайтингер, Коринна (2017). «Оценка схемы взвешивания цитирования CC-IDF - Насколько эффективно« обратная частота документов »(IDF) может быть применена к ссылкам?» (PDF) . Материалы 12-й ICконференции .
  14. ^ Khoo Khyou Bun; Бун, Ху Хё; Ишизука, М. (2001). Система отслеживания новых тем . Труды Третьего международного семинара по передовым вопросам электронной коммерции и информационных систем на базе Интернета. WECWIS 2001 . п. 2. CiteSeerX 10.1.1.16.7986 . DOI : 10,1109 / wecwis.2001.933900 . ISBN  978-0-7695-1224-2. S2CID  1049263 .
  15. ^ Лангер, Стефан; Гипп, Бела (2017). «TF-IDuF: новая схема взвешивания терминов для моделирования пользователей на основе коллекций личных документов пользователей» (PDF) . IConference .
  • Salton, G ; Макгилл, MJ (1986). Введение в современный информационный поиск . Макгроу-Хилл . ISBN 978-0-07-054484-0.
  • Salton, G .; Fox, EA; Ву, Х. (1983). «Расширенный логический поиск информации». Коммуникации ACM . 26 (11): 1022–1036. DOI : 10.1145 / 182.358466 . hdl : 1813/6351 . S2CID  207180535 .
  • Salton, G .; Бакли, К. (1988). «Термино-взвешивающие подходы в автоматическом поиске текста» (PDF) . Обработка информации и управление . 24 (5): 513–523. DOI : 10.1016 / 0306-4573 (88) 90021-0 . hdl : 1813/6721 .
  • Wu, HC; Лук, РВП; Вонг, KF; Квок, KL (2008). «Интерпретация весов терминов TF-IDF как принятие решений по релевантности» . ACM-транзакции в информационных системах . 26 (3): 1. DOI : 10,1145 / 1361684,1361686 . hdl : 10397/10130 . S2CID  18303048 .

Внешние ссылки и рекомендуемое чтение [ править ]

  • Gensim - это библиотека Python для моделирования векторного пространства, которая включает взвешивание tf – idf.
  • Надежная гиперссылка : приложение tf – idf для стабильной адресации документов.
  • Анатомия поисковой системы
  • tf – idf и связанные определения, используемые в Lucene
  • TfidfTransformer в scikit-learn
  • Генератор текста в матрицу (TMG) Набор инструментов MATLAB, который может использоваться для различных задач интеллектуального анализа текста (TM), в частности: i) индексирование, ii) поиск, iii) уменьшение размерности, iv) кластеризация, v) классификация. Шаг индексации предлагает пользователю возможность применять локальные и глобальные методы взвешивания, включая tf – idf.