Векторная космическая модель


Модель векторного пространства или модель вектора терминов — это алгебраическая модель для представления текстовых документов (и вообще любых объектов) в виде векторов идентификаторов (таких как индексные термины). Он используется в фильтрации информации , поиске информации , индексации и ранжировании релевантности. Его первое использование было в информационно-поисковой системе SMART .

Каждому измерению соответствует отдельный термин. Если термин встречается в документе, его значение в векторе не равно нулю. Было разработано несколько различных способов вычисления этих значений, также известных как (срочные) веса. Одной из самых известных схем является взвешивание tf-idf (см. пример ниже).

Определение термина зависит от приложения. Обычно термины представляют собой отдельные слова, ключевые слова или более длинные фразы. Если в качестве терминов выбраны слова, размерность вектора равна количеству слов в словаре (количество различных слов, встречающихся в корпусе ).

Ранжирование релевантности документов при поиске по ключевым словам может быть рассчитано с использованием предположений теории подобия документов путем сравнения отклонения углов между каждым вектором документа и исходным вектором запроса, где запрос представлен в виде вектора той же размерности, что и векторы, которые представлять другие документы.

На практике проще вычислить косинус угла между векторами, чем сам угол:

Где — пересечение (то есть скалярное произведение ) векторов документа (d 2 на рисунке справа) и вектора запроса (q на рисунке), — норма вектора d 2 , а — норма вектора q. Норма вектора вычисляется как таковая: