Релевантность (поиск информации)

В информатике и информационном поиске релевантность означает, насколько хорошо извлеченный документ или набор документов удовлетворяет информационные потребности пользователя. Релевантность может включать такие вопросы, как своевременность, авторитетность или новизна результата.

Озабоченность проблемой поиска релевантной информации восходит как минимум к первым публикациям научных журналов в 17 веке. ^{[ нужна ссылка ]}

Формальное изучение релевантности началось в 20 веке с изучения того, что позже будет названо библиометрией . В 1930-х и 1940-х годах С. К. Брэдфорд использовал термин «релевантный» для характеристики статей, имеющих отношение к предмету (ср. Закон Брэдфорда ). В 1950-х годах появились первые системы поиска информации, и исследователи отметили поиск нерелевантных статей как серьезную проблему. В 1958 г. Б. К. Викери четко сформулировал концепцию релевантности в своем выступлении на Международной конференции по научной информации. ^[1]

С 1958 года ученые-информатики исследовали и обсуждали определения релевантности. Особое внимание в ходе дискуссии было уделено различию между «релевантностью к теме» или «актуальной актуальностью» и «актуальностью для пользователя». ^[1]

Информационно-поисковое сообщество делало упор на использование тестовых коллекций и эталонных задач для измерения актуальности, начиная с экспериментов Крэнфилда в начале 1960-х годов и заканчивая оценками TREC , которые и по сей день остаются основной оценочной структурой для исследования поиска информации. ^[2]

Чтобы оценить, насколько хорошо информационно-поисковая система извлекает тематически релевантные результаты, релевантность извлеченных результатов должна быть определена количественно. В оценках в стиле Крэнфилда это обычно включает присвоение уровня релевантности каждому извлеченному результату, процесс, известный как оценка релевантности . Уровни релевантности могут быть бинарными (указывающими, что результат является релевантным или нерелевантным), или градуированными (указывающими, что результаты имеют различную степень соответствия между темой результата и потребностью в информации). После присвоения извлеченным результатам уровней релевантности можно использовать показатели производительности информационного поиска для оценки качества выходных данных поисковой системы.