Поиск документов

Поиск документа определяется как сопоставление некоторого заявленного пользовательского запроса с набором записей с произвольным текстом . Эти записи могут быть любого типа в основном неструктурированным текстом , например газетными статьями , записями о недвижимости или параграфами в руководстве. Пользовательские запросы могут варьироваться от полных описаний информации, состоящих из нескольких предложений, до нескольких слов.

Поиск документов иногда называют поиском текста или его ветвью . Поиск текста - это ветвь поиска информации, в которой информация хранится в основном в форме текста . Текстовые базы данных стали децентрализованными благодаря персональному компьютеру и компакт-диску . Поиск текста является важной областью исследования сегодня, поскольку он является фундаментальной основой всех поисковых систем в Интернете .

Описание [ править ]

Системы поиска документов находят информацию по заданным критериям, сопоставляя текстовые записи ( документы ) с пользовательскими запросами, в отличие от экспертных систем, которые отвечают на вопросы путем вывода из логической базы данных знаний . Система поиска документов состоит из базы данных документов, алгоритма классификации для создания полнотекстового индекса и пользовательского интерфейса для доступа к базе данных.

Система поиска документов имеет две основные задачи:

Найдите документы, соответствующие запросам пользователей
Оцените результаты соответствия и отсортируйте их по релевантности, используя такие алгоритмы, как PageRank .

Поисковые системы в Интернете - это классические приложения для поиска документов. Подавляющее большинство используемых в настоящее время поисковых систем варьируются от простых логических систем до систем, использующих статистические методы или методы обработки естественного языка .

Варианты [ править ]

Существует два основных класса схем индексирования для систем поиска документов: основанная на форме (или основанная на словах ) и основанная на содержании индексация. Используемая схема классификации документов (или алгоритм индексации ) определяет характер системы поиска документов.

На основе формы [ править ]

Поиск документа на основе формы обращается к точным синтаксическим свойствам текста, сравнимым с сопоставлением подстрок при поиске строк. Текст, как правило, неструктурирован и не обязательно на естественном языке, система может, например, использоваться для обработки больших наборов химических представлений в молекулярной биологии. Дерево суффиксов алгоритм является примером для индексации на основе формы.

На основе содержания [ править ]

Подход, основанный на содержании, использует семантические связи между документами и их частями, а также семантические связи между запросами и документами. Большинство систем поиска документов, основанных на содержании, используют алгоритм инвертированного индекса .

Файл подписи является метод , который создает быстрый и грязный фильтр, например, фильтра Блума , который будет держать все документы , которые матч с запросом и мы надеемся , несколько из них , которые не делают. Это делается путем создания для каждого файла подписи, обычно версии с хеш-кодом. Один из методов - это кодирование с наложением. Выполняется этап постобработки для исключения ложных срабатываний. Поскольку в большинстве случаев эта структура уступает инвертированным файлам по скорости, размеру и функциональности, она не получила широкого распространения. Однако при правильных параметрах он может превзойти инвертированные файлы в определенных средах.

Пример: PubMed [ править ]

Интерфейс формы PubMed ^[1] имеет функцию поиска по «связанным статьям», которая работает путем сравнения слов из названия документов, аннотации и терминов MeSH с использованием взвешенного по словам алгоритма. ^[2]^[3]

См. Также [ править ]

Обработка сложных терминов
Классификация документов
Корпоративный поиск
Меры оценки (поиск информации)
Полнотекстовый поиск
Поиск информации
Скрытое семантическое индексирование
Поисковый движок

Ссылки [ править ]

Перейти ↑ Kim W, Aronson AR, Wilbur WJ (2001). «Автоматическое присвоение сроков и оценка качества MeSH» . Proc AMIA Symp: 319–23. PMC 2243528 . PMID 11825203 .
^ Вычисление родственных ссылок . Национальный центр биотехнологической информации (США). 2019-02-06.
↑ Lin J1, Wilbur WJ (30 октября 2007 г.). «Статьи по теме PubMed: вероятностная тематическая модель схожести контента» . BMC Bioinformatics . 8 : 423. DOI : 10,1186 / 1471-2105-8-423 . PMC 2212667 . PMID 17971238 .

Дальнейшее чтение [ править ]

Фалаутсос, Христос; Христодулакис, Ставрос (1984). «Файлы подписи: метод доступа к документам и его аналитическая оценка эффективности». ACM-транзакции в информационных системах . 2 (4): 267–288. DOI : 10.1145 / 2275.357411 .
Джастин Зобель; Алистер Моффат; Котагири Рамамоханарао (1998). «Инвертированные файлы по сравнению с файлами подписи для индексирования текста» (PDF) . ACM-транзакции в системах баз данных . 23 (4): 453–490. CiteSeerX 10.1.1.54.8753 . DOI : 10.1145 / 296854.277632 .
Бен Картеретт; Фазли Джан (2005). «Сравнение инвертированных файлов и файлов сигнатур для поиска в большом лексиконе» (PDF) . Обработка информации и управление . 41 (3): 613–633. DOI : 10.1016 / j.ipm.2003.12.003 .

Внешние ссылки [ править ]

Викискладе есть медиафайлы, связанные с поиском документов .

Официальный фонд поиска информации , Бакингемширский университетский колледж Чилтернса

[1] Перейти ↑ Kim W, Aronson AR, Wilbur WJ (2001). «Автоматическое присвоение сроков и оценка качества MeSH» . Proc AMIA Symp: 319–23. PMC 2243528 . PMID 11825203 .

[2] Вычисление родственных ссылок . Национальный центр биотехнологической информации (США). 2019-02-06.

[3] Lin J1, Wilbur WJ (30 октября 2007 г.). «Статьи по теме PubMed: вероятностная тематическая модель схожести контента» . BMC Bioinformatics . 8 : 423. DOI : 10,1186 / 1471-2105-8-423 . PMC 2212667 . PMID 17971238 .

[1]