Релевантность (информационный поиск)


Релева́нтность (англ. relevance — актуальность, уместность) в информационном поиске — соответствие интента (поискового намерения), заложенного в запросе, и выдачи в поисковой системе, полученной в результате этого запроса. Пользователь, который вводит запрос в поисковую систему ожидает, что результаты будут соответствовать намерению, которое он заложил в запросе, иными словами, он получит релевантную выдачу.

Существует несколько подходов к оценке релевантности. Содержательная релевантность — соответствие ответов информационному запросу, определяемое неформальным путём[1]. Формальная релевантность — соответствие, определяемое путём сравнения образа поискового запроса с поисковым образом ответа по определённому алгоритму[1].

Одним из распространённых методов для оценки релевантности является TF-IDF-метод. Его смысл сводится к тому, что чем больше локальная частота термина (запроса) в документе (TF) и больше «редкость» (то есть, чем реже он встречается в других документах) термина в коллекции (IDF), тем выше вес данного ответа по отношению к термину — то есть ответ будет выдаваться раньше в результатах поиска по данному термину. Автор метода — Джерард Солтон (англ. Gerard Salton), в дальнейшем доработан Карен Спарк Джонс[2].

Пертине́нтность (лат. pertineoкасаться, относиться) — соответствие найденных информационно-поисковой системой результатов информационным потребностям пользователя, независимо от того, как полно и как точно эта информационная потребность выражена в тексте информационного запроса. Иначе говоря, это соотношение объёма полезной информации к общему объёму полученной информации[1].

Факторы, которые оказывают влияние на релевантность, принято делить на внешние и внутренние. К внешним относят ссылочную массу, к внутренним — технические составляющие и содержимое.

Ссылочная масса. Чем больше тематических и качественных ссылок ведёт на страницы ресурса, тем больше вероятность ценности ресурса для пользователя.