Учимся ранжировать

Обучение ранжированию ^[1] или ранжирование с помощью машинного обучения ( MLR ) — это применение машинного обучения , обычно контролируемого , полуконтролируемого или обучения с подкреплением , при построении моделей ранжирования для информационно-поисковых систем. ^[2] Обучающие данные состоят из списков элементов с некоторым частичным порядком .указывается между элементами в каждом списке. Этот порядок обычно определяется числовым или порядковым значением или бинарным суждением (например, «релевантный» или «нерелевантный») для каждого элемента. Целью построения модели ранжирования является ранжирование новых невидимых списков аналогично ранжированию в обучающих данных.

Ранжирование является центральной частью многих задач поиска информации , таких как поиск документов , совместная фильтрация , анализ настроений и интернет-реклама .

Обучающие данные состоят из запросов и документов, соответствующих им, а также степени релевантности каждого совпадения. Он может быть подготовлен вручную оценщиками (или оценщиками , как их называет Google ), которые проверяют результаты для некоторых запросов и определяют релевантность каждого результата. Невозможно проверить релевантность всех документов, поэтому обычно используется метод, называемый объединением — проверяются только несколько первых документов, извлеченных с помощью некоторых существующих моделей ранжирования. Этот метод может привести к предвзятости выбора. В качестве альтернативы обучающие данные могут быть получены автоматически путем анализа журналов кликов (то есть результатов поиска, которые получили клики от пользователей), ^[3] цепочек запросов , ^[4]или функции таких поисковых систем, как Google SearchWiki (позднее замененная) . Журналы кликов могут быть искажены тенденцией пользователей нажимать на верхние результаты поиска, предполагая, что они уже хорошо ранжируются.

Обучающие данные используются алгоритмом обучения для создания модели ранжирования, которая вычисляет релевантность документов для реальных запросов.

Как правило, пользователи ожидают, что поисковый запрос будет выполнен за короткое время (например, несколько сотен миллисекунд для веб-поиска), что делает невозможным оценку сложной модели ранжирования для каждого документа в корпусе, поэтому двухэтапная схема использовал. ^[5] Во-первых, небольшое количество потенциально релевантных документов идентифицируется с использованием более простых моделей поиска, которые позволяют быстро оценивать запросы, таких как модель векторного пространства , логическая модель , взвешенное И, ^[6] или BM25 . Этот этап называется поиском верхнего документа , ${\ Displaystyle к}$ и в литературе было предложено множество эвристик для его ускорения, таких как использование статической оценки качества документа и многоуровневых индексов. ^[7]На втором этапе для повторного ранжирования этих документов используется более точная, но дорогостоящая в вычислительном отношении модель с машинным обучением.

Для удобства алгоритмов MLR пары запрос-документ обычно представляют числовыми векторами, которые называются векторами признаков . Такой подход иногда называют мешком признаков , и он аналогичен модели мешка слов и модели векторного пространства, используемой в информационном поиске для представления документов.

Возможная архитектура поисковой системы с машинным обучением.