Полнотекстовый поиск


В текстовом поиске полнотекстовый поиск , иногда называемый свободным текстовым поиском , относится к методам поиска отдельного документа , хранящегося на компьютере , или коллекции в полнотекстовой базе данных . Полнотекстовый поиск отличается от поиска на основе метаданных или частей оригинальных текстов, представленных в базах данных (таких как заголовки, рефераты, выбранные разделы или библиографические ссылки).

При полнотекстовом поиске поисковая система проверяет все слова в каждом сохраненном документе, пытаясь найти соответствие критериям поиска (например, тексту, указанному пользователем). Методы полнотекстового поиска стали обычным явлением в библиографических онлайн-базах данных в 1990-х годах. [ требуется проверка ] Многие веб-сайты и прикладные программы (например, программы для обработки текстов ) предоставляют возможности полнотекстового поиска. Некоторые системы веб-поиска, такие как AltaVista , используют методы полнотекстового поиска, в то время как другие индексируют только часть веб-страниц, проверенных их системами индексации. [1]

При работе с небольшим количеством документов система полнотекстового поиска может напрямую сканировать содержимое документов с каждым запросом , эта стратегия называется « последовательным сканированием ». Это то, что некоторые инструменты, такие как grep , делают при поиске.

Однако, когда количество документов для поиска потенциально велико или количество поисковых запросов для выполнения существенно, проблема полнотекстового поиска часто делится на две задачи: индексирование и поиск. На этапе индексации будет просканирован текст всех документов и создан список поисковых терминов (часто называемый индексом , но правильнее называть соответствием ). На этапе поиска при выполнении конкретного запроса ссылаются только на индекс, а не на текст исходных документов. [2]

Индексатор сделает запись в указателе для каждого термина или слова, найденного в документе, и, возможно, отметит его относительное положение в документе. Обычно индексатор игнорирует стоп-слова (такие как «the» и «and»), которые являются общими и недостаточно значимыми, чтобы их можно было использовать при поиске. Некоторые индексаторы также используют языковую основу для индексируемых слов. Например, слова «приводы», «привод» и «привод» будут записаны в указателе под одним концептуальным словом «привод».

Отзыв измеряет количество релевантных результатов, возвращаемых поиском, а точность — это мера качества возвращаемых результатов. Отзыв — это отношение возвращаемых релевантных результатов ко всем релевантным результатам. Точность — это количество возвращенных релевантных результатов к общему количеству возвращенных результатов.


Схема низкоточного поиска с низким отзывом