Поиск информации


Информационный поиск ( IR ) в вычислительной технике и информатике - это процесс получения ресурсов информационной системы , которые имеют отношение к информационной потребности, из набора этих ресурсов. Поиск может быть основан на полнотекстовой или другой индексации на основе содержимого. Поиск информации — это наука о поиске информации в документе, поиске самих документов, а также поиске метаданных , описывающих данные, и баз данных текстов, изображений или звуков.

Автоматизированные системы поиска информации используются для уменьшения того, что было названо информационной перегрузкой . IR-система — это программная система, обеспечивающая доступ к книгам, журналам и другим документам; хранит и управляет этими документами. Поисковые системы в Интернете являются наиболее заметными IR-приложениями.

Процесс поиска информации начинается, когда пользователь вводит запрос в систему. Запросы — это формальные заявления о потребностях в информации, например строки поиска в поисковых системах. При поиске информации запрос не идентифицирует однозначно один объект в коллекции. Вместо этого запросу могут соответствовать несколько объектов, возможно, с разной степенью релевантности .

Объект — это сущность, представленная информацией в коллекции контента или базе данных . Запросы пользователей сопоставляются с информацией базы данных. Однако, в отличие от классических SQL-запросов к базе данных, при поиске информации возвращаемые результаты могут соответствовать или не соответствовать запросу, поэтому результаты обычно ранжируются. Это ранжирование результатов является ключевым отличием информационного поиска от поиска в базе данных. [1]

В зависимости от приложения объектами данных могут быть, например, текстовые документы, изображения, [2] аудио, [3] интеллект-карты [4] или видео. Часто сами документы не хранятся и не хранятся непосредственно в системе IR, а вместо этого представлены в системе суррогатами документов или метаданными .

Большинство систем IR вычисляют числовую оценку того, насколько хорошо каждый объект в базе данных соответствует запросу, и ранжируют объекты в соответствии с этим значением. Затем пользователю показываются объекты с самым высоким рейтингом. Затем процесс может быть повторен, если пользователь желает уточнить запрос. [5]


Категоризация IR-моделей (перевод с немецкой статьи , первоисточник Доминик Куропка ).