Модель двоичной независимости (BIM) [1] [2] - это метод вероятностного поиска информации , который делает некоторые простые предположения, чтобы сделать оценку вероятности подобия документа / запроса выполнимой.
Определения
Предположение о двоичной независимости состоит в том, что документы являются двоичными векторами . То есть фиксируется только наличие или отсутствие терминов в документах. Термины независимо распространяются в наборе релевантных документов, а также независимо распространяются в наборе неактуальных документов. Представление - это упорядоченный набор логических переменных. То есть представление документа или запроса - это вектор с одним логическим элементом для каждого рассматриваемого термина. Более конкретно, документ представлен вектором d = ( x 1 , ..., x m ), где x t = 1, если термин t присутствует в документе d, и x t = 0, если это не так. С таким упрощением многие документы могут иметь одно и то же векторное представление. Аналогичным образом представлены запросы. «Независимость» означает, что термины в документе рассматриваются независимо друг от друга, и никакая связь между терминами не моделируется. Это предположение является очень ограничивающим, но было показано, что оно дает достаточно хорошие результаты для многих ситуаций. Эта независимость является «наивным» допущением наивного байесовского классификатора , в котором свойства, которые подразумевают друг друга, тем не менее, рассматриваются как независимые для простоты. Это предположение позволяет рассматривать представление как экземпляр модели векторного пространства , рассматривая каждый член как значение 0 или 1 вдоль измерения, ортогонального размерам, используемым для других терминов.
Вероятность релевантность документа зависит от вероятности релевантности вектора терминов этого документа. . Используя правило Байеса, мы получаем:
где а также - вероятности извлечения релевантного или нерелевантного документа соответственно. Если это так, то этот документ представлен x . Точные вероятности не могут быть известны заранее, поэтому необходимо использовать оценки из статистики о сборе документов.
а также указывают предыдущую вероятность получения релевантного или нерелевантного документа соответственно для запроса q . Если, например, мы знали процент соответствующих документов в коллекции, то мы могли бы использовать его для оценки этих вероятностей. Поскольку документ либо релевантен, либо не имеет отношения к запросу, мы имеем следующее:
Взвешивание условий запроса
Учитывая двоичный запрос и скалярное произведение как функцию подобия между документом и запросом, проблема состоит в том, чтобы присвоить веса терминам в запросе, чтобы эффективность поиска была высокой. Позволять а также быть вероятностью того, что релевантный документ и нерелевантный документ имеют i- й термин соответственно. Ю. и Salton , [1] , который первым ввести BIM, предполагают , что вес я го члена является возрастающей функцией. Таким образом, если выше чем , вес члена i будет больше, чем вес члена j . Yu и Salton [1] показали, что такое присвоение веса терминам запроса дает лучшую эффективность извлечения, чем если бы термины запроса имели равный вес. Робертсон и Спэрк Джонс [2] позже показали, что если i- му члену присвоить вес, то оптимальная эффективность поиска достигается в соответствии с предположением о двоичной независимости.
Модель двоичной независимости была представлена Ю и Солтоном. [1] Название «Модель двоичной независимости» было придумано Робертсоном и Спэрком Джонсом. [2]
Смотрите также
дальнейшее чтение
- Кристофер Д. Мэннинг; Прабхакар Рагхаван; Хинрих Шютце (2008), Введение в поиск информации , Cambridge University Press
- Стефан Бюттчер; Чарльз Л.А. Кларк; Гордон В. Кормак (2010), Информационный поиск: внедрение и оценка поисковых систем , MIT Press
Рекомендации
- ^ а б в г Yu, CT; Солтон, Г. (1976). «Прецизионное взвешивание - эффективный метод автоматического индексирования» (PDF) . Журнал ACM . 23 : 76. DOI : 10,1145 / 321921,321930 . hdl : 1813/7313 . CS1 maint: обескураженный параметр ( ссылка )
- ^ а б в Робертсон, ЮВ ; Спэрк Джонс, К. (1976). «Взвешивание релевантности поисковых запросов». Журнал Американского общества информационных наук . 27 (3): 129. DOI : 10.1002 / asi.4630270302 . CS1 maint: обескураженный параметр ( ссылка )