Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Модель вероятностной релевантности [1] [2] была разработана Стивеном Э. Робертсоном и Карен Спэрк Джонс в качестве основы для будущих вероятностных моделей . Это формализм поиска информации, полезный для получения функций ранжирования, используемых поисковыми системами и системами веб-поиска , чтобы ранжировать совпадающие документы в соответствии с их релевантностью заданному поисковому запросу.

Это теоретическая модель, оценивающая вероятность того, что документ d j соответствует запросу q . Модель предполагает, что эта вероятность релевантности зависит от представлений запроса и документа. Кроме того, предполагается, что существует часть всех документов, которую пользователь предпочитает в качестве набора ответов для запроса q . Такой идеальный набор ответов называется R и должен максимизировать общую вероятность релевантности для этого пользователя. Предполагается, что документы в этом наборе R релевантны запросу, в то время как документы, отсутствующие в наборе, не релевантны.

Связанные модели [ править ]

У этой структуры есть некоторые ограничения, которые необходимо устранить при дальнейшей разработке:

  • Нет точной оценки вероятностей первого запуска.
  • Условия индекса не взвешены
  • Термины считаются взаимно независимыми.

Для решения этих и других проблем на основе вероятностной структуры релевантности были разработаны другие модели, в том числе модель двоичной независимости того же автора. Самая известная производная этого каркаса - схема взвешивания Okapi (BM25) , наряду с BM25F, ее модификацией.

Ссылки [ править ]

  1. ^ Робертсон, SE; Джонс, К. Спарк (май 1976 г.). «Взвешивание релевантности поисковых запросов». Журнал Американского общества информационных наук . 27 (3): 129–146. DOI : 10.1002 / asi.4630270302 .
  2. ^ Робертсон, Стивен; Сарагоса, Хьюго (2009). «Структура вероятностной релевантности: BM25 и выше». Основы и тенденции в поиске информации . 3 (4): 333–389. CiteSeerX 10.1.1.156.5282 . DOI : 10.1561 / 1500000019 .