Эта статья может быть слишком технической, чтобы ее могло понять большинство читателей . Июнь 2018 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) ( |
(Стандартная) булева модель поиска информации (BIR) [1] является классической моделью поиска информации (IR) и, в то же время, первой и наиболее распространенной. Он используется многими ИК-системами по сей день. [ необходима цитата ] ЗБИ основывается на булевой логике и классической теории множеств в том смысле, что как документы, в которых будет выполняться поиск, так и запрос пользователя задуманы как наборы терминов ( модель набора слов ). Получение зависит от того, содержат ли документы условия запроса.
Определения [ править ]
Термин индекса представляет собой слово или выражение , которое может быть обусловлено , описывающим или характеризуя документ, например, ключевым слова для данного журнальной статьи. Позволять
Документ является любое подмножество . Позволять
Запроса является логическим выражением в нормальной форме:
Мы стремимся найти комплект документов, который удовлетворяет . Эта операция называется извлечением и состоит из следующих двух шагов:
- 1. Для каждого in найдите набор документов, которые удовлетворяют :2. Тогда набор документов, удовлетворяющих Q, определяется как:
Пример [ править ]
Пусть набор оригинальных (реальных) документов будет, например
где
= «Принцип Байеса: принцип, согласно которому при оценке параметра следует исходно предполагать, что каждое возможное значение имеет равную вероятность (однородное априорное распределение)».
= " Байесовская теория принятия решений : математическая теория принятия решений, которая предполагает функции полезности и вероятности и в соответствии с которой должен быть выбран акт Байеса, то есть тот, который имеет наивысшую субъективную ожидаемую полезность. Если бы у человека было неограниченное время и расчет власть, с которой можно принимать каждое решение, эта процедура была бы лучшим способом принять любое решение ".
= "Байесовская эпистемология : философская теория, которая утверждает, что эпистемический статус предложения (то есть, насколько хорошо оно доказано или хорошо установлено) лучше всего измеряется вероятностью и что правильный способ пересмотра этой вероятности дается байесовским условием или подобным Байесовский эпистемолог использовал бы вероятность для определения и изучения взаимосвязи между такими понятиями, как эпистемический статус, поддержка или объяснительная сила ».
Пусть набор терминов будет:
Тогда комплект документов следующий:
где
Пусть запрос будет:
- Во - первых, следующие наборы и документов получены (извлечены):
- Наконец, следующие документы извлекаются в ответ на
Это означает, что исходный документ (соответствующий ) является ответом на .
Очевидно, что если существует более одного документа с одним и тем же представлением, извлекается каждый такой документ. Такие документы неотличимы в ЗБИ (другими словами, эквивалентны).
Преимущества [ править ]
- Чистый формализм
- Легко реализовать
- Интуитивная концепция
Недостатки [ править ]
- При точном сопоставлении может быть получено слишком мало или слишком много документов.
- Трудно перевести запрос в логическое выражение
- Все термины одинаково взвешены
- Больше похоже на поиск данных, чем на поиск информации
- Получение на основе критериев двоичного решения без понятия частичного совпадения
- Отсутствует ранжирование документов (отсутствие оценочной шкалы).
- Информационная потребность должна быть переведена в логическое выражение, которое большинство пользователей находит неудобным.
- Логические запросы, формулируемые пользователями, чаще всего слишком упрощены.
- Модель часто возвращает слишком мало или слишком много документов в ответ на запрос пользователя.
Структуры данных и алгоритмы [ править ]
С чисто формальной математической точки зрения ЗБИ проста. Однако с практической точки зрения необходимо решить несколько дополнительных проблем, связанных с алгоритмами и структурами данных, таких как, например, выбор терминов (ручной или автоматический выбор или оба), выделение исходных текстов , хеш-таблицы , инвертированная файловая структура. , и так далее. [2]
Наборы хешей [ править ]
Другая возможность - использовать хеш-наборы . Каждый документ представлен хэш-таблицей, которая содержит каждый термин этого документа. Поскольку размер хеш-таблицы увеличивается и уменьшается в реальном времени с добавлением и удалением терминов, каждый документ будет занимать гораздо меньше места в памяти. Однако производительность будет снижена, поскольку операции сложнее, чем с битовыми векторами . В худшем случае производительность может снизиться с O ( n ) до O ( n 2 ). В среднем замедление производительности будет не намного хуже, чем у битовых векторов, а использование пространства будет намного эффективнее.
Файл подписи [ править ]
Каждый документ может быть резюмирован фильтром Блума, представляющим набор слов в этом документе, хранящихся в цепочке битов фиксированной длины, называемой подписью. Файл подписи содержит одну такую наложенную битовую строку кода для каждого документа в коллекции. Каждый запрос также может быть резюмирован фильтром Блума, представляющим набор слов в запросе, хранящихся в цепочке битов той же фиксированной длины. Битовая строка запроса проверяется по каждой сигнатуре. [3] [4] [5]
Подходящий файл подписи используется в BitFunnel .
Инвертированный файл [ править ]
Файл инвертированного индекса содержит две части: словарь, содержащий все термины, используемые в коллекции, и инвертированный индекс для каждого отдельного термина, в котором перечислены все документы, в которых упоминается этот термин. [3] [4]
Ссылки [ править ]
- ^ Ланкастер, FW; Файен, EG (1973), Информационный поиск в Интернете , Melville Publishing Co., Лос-Анджелес, Калифорния
- ^ Wartik, Стивен (1992). «Логические операции». Структуры и алгоритмы поиска данных . ISBN компании Prentice-Hall, Inc. 0-13-463837-9. Архивировано из оригинала на 2013-09-28.
- ^ a b Джастин Зобель; Алистер Моффат; и Котагири Рамамоханарао. «Инвертированные файлы и файлы подписи для индексирования текста» .
- ^ а б Боб Гудвин; et. al. «BitFunnel: пересмотр подписей для поиска» . 2017 г.
- ^ Ричард Стартин. «Битовые подписи и фильтры Блума» .
- Лашкари, AH; Махдави, Ф .; Ghomi, В. (2009), Булева модель по информационному поиску в поисковых системах , DOI : 10,1109 / ICIME.2009.101