Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В поиске информации , окапи BM25 ( BM это аббревиатура от лучшего соответствия ) является функция ранжирования используется поисковыми машинами для оценки релевантности документов к данному поисковому запросу. Он основан на системе вероятностного поиска, разработанной в 1970-х и 1980-х годах Стивеном Э. Робертсоном , Карен Спарк Джонс и другими.

Имя фактической функции ранжирования - BM25 . Дол имя, окапи BM25 , включает в себя имя первой системы , чтобы использовать его, которая была окапи информационно - поисковой системы, реализованной в Лондоне «s City University в 1980 - х и 1990 - х годах. BM25 и его новые варианты, например BM25F (версия BM25, которая может учитывать структуру документа и текст привязки), представляют собой современные функции поиска, подобные TF-IDF, используемые при поиске документов. [ необходима цитата ]

Функция ранжирования [ править ]

BM25 - это функция поиска набора слов, которая ранжирует набор документов на основе терминов запроса, содержащихся в каждом документе, независимо от их близости в документе. Это семейство скоринговых функций с немного разными компонентами и параметрами. Один из наиболее ярких экземпляров функции выглядит следующим образом.

Для запроса Q , содержащего ключевые слова , оценка документа D по BM25 составляет:

где это «ы термин частоты в документе D , длина документа D в словах, а avgdl средняя длина документа в коллекции текста , из которого нарисованы документы. и b - свободные параметры, обычно выбираемые при отсутствии расширенной оптимизации, как и . [1] - это вес IDF ( обратная частота документа ) термина запроса . Обычно это вычисляется как:

где N - общее количество документов в коллекции, а - количество содержащихся документов .

Существует несколько интерпретаций IDF и небольшие вариации его формулы. В исходной версии BM25 компонент IDF является производным от модели двоичной независимости .

Теоретическая интерпретация информации IDF [ править ]

Вот интерпретация теории информации. Предположим, что термин запроса появляется в документах. Тогда случайно выбранный документ будет содержать термин с вероятностью (где снова количество элементов набора документов в коллекции). Таким образом, информационное содержание сообщения « содержит »:

Теперь предположим, что у нас есть два условия запроса и . Если два термина встречаются в документах совершенно независимо друг от друга, то вероятность увидеть оба и в случайно выбранном документе составляет:

а информационное содержание такого мероприятия:

С небольшими вариациями это именно то, что выражается компонентом IDF BM25.

Модификации [ править ]

  • При крайних значениях коэффициента b BM25 превращается в функции ранжирования, известные как BM11 (для ) и BM15 (для ). [2]
  • BM25F [3] [4] - это модификация BM25, в которой документ считается составленным из нескольких полей (таких как заголовки, основной текст, якорный текст) с возможно разной степенью важности, насыщенностью релевантности терминов и нормализацией длины.
  • BM25 + [5] является расширением BM25. BM25 + был разработан для устранения одного недостатка стандарта BM25, в котором компонент нормализации частоты терминов по длине документа не имеет должного нижнего ограничения; В результате этого недостатка длинные документы, которые действительно соответствуют термину запроса, часто могут быть несправедливо оценены BM25 как имеющие такую ​​же релевантность, что и более короткие документы, которые вообще не содержат термин запроса. Формула подсчета очков BM25 + имеет только один дополнительный свободный параметр (значение по умолчанию 1.0 при отсутствии данных обучения) по сравнению с BM25:

Ссылки [ править ]

  1. ^ Кристофер Д. Мэннинг, Прабхакар Рагхаван, Хинрих Шютце. Введение в поиск информации , Cambridge University Press, 2009, стр. 233.
  2. ^ "Схема взвешивания BM25" .
  3. Хьюго Сарагоса, Ник Крэсуэлл, Майкл Тейлор, Сучи Сария и Стивен Робертсон. Microsoft Cambridge на TREC-13: Web и HARD треки. В материалах TREC-2004.
  4. ^ Стивен Робертсон и Хьюго Сарагоса (2009). «Структура вероятностной релевантности: BM25 и выше» . Основы и тенденции в поиске информации . 3 (4): 333–389. CiteSeerX 10.1.1.156.5282 . DOI : 10.1561 / 1500000019 . 
  5. ^ Юаньхуа Львов и Чэн Сян Чжай. Нормализация частоты нижнего члена. В материалах ЦИКМ'2011, стр. 7–16.

Общие ссылки [ править ]

  • Стивен Э. Робертсон; Стив Уокер; Сьюзан Джонс; Мишлин Хэнкок-Болье и Майк Гэтфорд (ноябрь 1994 г.). Окапи на ТРЭК-3 . Труды Третьей конференции по поиску текста (TREC 1994) . Гейтерсбург, США.
  • Стивен Э. Робертсон; Стив Уокер и Мишлин Хэнкок-Больё (ноябрь 1998 г.). Окапи на ТРЭК-7 . Труды Седьмой конференции по поиску текста . Гейтерсбург, США.
  • Spärck Jones, K .; Уокер, S .; Робертсон, С.Е. (2000). «Вероятностная модель информационного поиска: Разработка и сравнительные эксперименты: Часть 1». Обработка информации и управление . 36 (6): 779–808. CiteSeerX  10.1.1.134.6108 . DOI : 10.1016 / S0306-4573 (00) 00015-7 . CS1 maint: discouraged parameter (link)
  • Spärck Jones, K .; Уокер, S .; Робертсон, С.Е. (2000). «Вероятностная модель информационного поиска: Разработка и сравнительные эксперименты: Часть 2». Обработка информации и управление . 36 (6): 809–840. DOI : 10.1016 / S0306-4573 (00) 00016-9 . CS1 maint: discouraged parameter (link)
  • Стивен Робертсон и Хьюго Сарагоса (2009). «Структура вероятностной релевантности: BM25 и выше» . Основы и тенденции в поиске информации . 3 (4): 333–389. CiteSeerX  10.1.1.156.5282 . DOI : 10.1561 / 1500000019 .

Внешние ссылки [ править ]

  • Робертсон, Стивен ; Сарагоса, Хьюго (2009). Структура вероятностной релевантности: BM25 и не только (PDF) . ISBN NOW Publishers, Inc. 978-1-60198-308-4.