Из Википедии, бесплатной энциклопедии
  (Перенаправлено из системы поиска документов )
Перейти к навигации Перейти к поиску

Поиск документа определяется как сопоставление некоторого заявленного пользовательского запроса с набором записей с произвольным текстом . Эти записи могут быть любого типа в основном неструктурированным текстом , например газетными статьями , записями о недвижимости или параграфами в руководстве. Пользовательские запросы могут варьироваться от полных описаний информации, состоящих из нескольких предложений, до нескольких слов.

Поиск документов иногда называют поиском текста или его ветвью . Поиск текста - это ветвь поиска информации, в которой информация хранится в основном в форме текста . Текстовые базы данных стали децентрализованными благодаря персональному компьютеру и компакт-диску . Поиск текста является важной областью исследования сегодня, поскольку он является фундаментальной основой всех поисковых систем в Интернете .

Описание [ править ]

Системы поиска документов находят информацию по заданным критериям, сопоставляя текстовые записи ( документы ) с пользовательскими запросами, в отличие от экспертных систем, которые отвечают на вопросы путем вывода из логической базы данных знаний . Система поиска документов состоит из базы данных документов, алгоритма классификации для создания полнотекстового индекса и пользовательского интерфейса для доступа к базе данных.

Система поиска документов имеет две основные задачи:

  1. Найдите документы, соответствующие запросам пользователей
  2. Оцените результаты соответствия и отсортируйте их по релевантности, используя такие алгоритмы, как PageRank .

Поисковые системы в Интернете - это классические приложения для поиска документов. Подавляющее большинство используемых в настоящее время поисковых систем варьируются от простых логических систем до систем, использующих статистические методы или методы обработки естественного языка .

Варианты [ править ]

Существует два основных класса схем индексирования для систем поиска документов: основанная на форме (или основанная на словах ) и основанная на содержании индексация. Используемая схема классификации документов (или алгоритм индексации ) определяет характер системы поиска документов.

На основе формы [ править ]

Поиск документа на основе формы обращается к точным синтаксическим свойствам текста, сравнимым с сопоставлением подстрок при поиске строк. Текст, как правило, неструктурирован и не обязательно на естественном языке, система может, например, использоваться для обработки больших наборов химических представлений в молекулярной биологии. Дерево суффиксов алгоритм является примером для индексации на основе формы.

На основе содержания [ править ]

Подход, основанный на содержании, использует семантические связи между документами и их частями, а также семантические связи между запросами и документами. Большинство систем поиска документов, основанных на содержании, используют алгоритм инвертированного индекса .

Файл подписи является метод , который создает быстрый и грязный фильтр, например, фильтра Блума , который будет держать все документы , которые матч с запросом и мы надеемся , несколько из них , которые не делают. Это делается путем создания для каждого файла подписи, обычно версии с хеш-кодом. Один из методов - это кодирование с наложением. Выполняется этап постобработки для исключения ложных срабатываний. Поскольку в большинстве случаев эта структура уступает инвертированным файлам по скорости, размеру и функциональности, она не получила широкого распространения. Однако при правильных параметрах он может превзойти инвертированные файлы в определенных средах.

Пример: PubMed [ править ]

Интерфейс формы PubMed [1] имеет функцию поиска по «связанным статьям», которая работает путем сравнения слов из названия документов, аннотации и терминов MeSH с использованием взвешенного по словам алгоритма. [2] [3]

См. Также [ править ]

Ссылки [ править ]

  1. Перейти ↑ Kim W, Aronson AR, Wilbur WJ (2001). «Автоматическое присвоение сроков и оценка качества MeSH» . Proc AMIA Symp: 319–23. PMC  2243528 . PMID  11825203 .
  2. ^ Вычисление родственных ссылок . Национальный центр биотехнологической информации (США). 2019-02-06.
  3. Lin J1, Wilbur WJ (30 октября 2007 г.). «Статьи по теме PubMed: вероятностная тематическая модель схожести контента» . BMC Bioinformatics . 8 : 423. DOI : 10,1186 / 1471-2105-8-423 . PMC 2212667 . PMID 17971238 .  

Дальнейшее чтение [ править ]

  • Фалаутсос, Христос; Христодулакис, Ставрос (1984). «Файлы подписи: метод доступа к документам и его аналитическая оценка эффективности». ACM-транзакции в информационных системах . 2 (4): 267–288. DOI : 10.1145 / 2275.357411 .
  • Джастин Зобель; Алистер Моффат; Котагири Рамамоханарао (1998). «Инвертированные файлы по сравнению с файлами подписи для индексирования текста» (PDF) . ACM-транзакции в системах баз данных . 23 (4): 453–490. CiteSeerX  10.1.1.54.8753 . DOI : 10.1145 / 296854.277632 .
  • Бен Картеретт; Фазли Джан (2005). «Сравнение инвертированных файлов и файлов сигнатур для поиска в большом лексиконе» (PDF) . Обработка информации и управление . 41 (3): 613–633. DOI : 10.1016 / j.ipm.2003.12.003 .

Внешние ссылки [ править ]

  • Официальный фонд поиска информации , Бакингемширский университетский колледж Чилтернса