Эта статья может сбивать с толку или непонятна читателям . ( Январь 2010 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) |
Обобщенная модель векторного пространства является обобщением пространства модели вектора , используемой в поиске информации . Wong et al. [1] представил анализ проблем, которые создает допущение попарной ортогональности модели векторного пространства (VSM). Отсюда они расширили VSM до модели обобщенного векторного пространства (GVSM).
Определения [ править ]
GVSM вводит межчленные корреляции, которые осуждают допущение попарной ортогональности. Более конкретно, фактор рассматривал новое пространство, где каждый вектор термов t i был выражен как линейная комбинация 2 n векторов m r, где r = 1 ... 2 n .
Для документа d k и запроса q функция подобия теперь принимает вид:
где т я и т J теперь векторы 2 п - мерного пространства.
Корреляция сроков может быть реализована несколькими способами. Например, Wong et al. использует матрицу частот встречаемости терминов, полученную в результате автоматической индексации, в качестве входных данных для своего алгоритма. Термин «появление» и «выход» - это термин «корреляция» между любой парой терминов индекса.
Семантическая информация о GVSM [ править ]
Существует как минимум два основных направления внедрения термина в соответствие термину, помимо точного соответствия ключевых слов, в модель поиска:
- вычислять семантические корреляции между терминами
- вычислить статистику совпадения частот из больших корпусов
Недавно Цацаронис [2] сосредоточился на первом подходе.
Они измеряют семантическую взаимосвязь ( SR ) с помощью тезауруса ( O ), например WordNet . Он учитывает длину пути, зафиксированную с помощью компактности ( SCM ), и глубину пути, захваченную с помощью семантической разработки пути ( SPE ). Они оценивают внутренний продукт по:
где s i и s j - значения терминов t i и t j соответственно, максимизируя .
Опираясь также на первый подход, Вайтелонис и др. al. [3] вычислили семантическую взаимосвязь из ресурсов связанных открытых данных, включая DBpedia, а также таксономию YAGO . Таким образом, они используют таксономические отношения между семантическими сущностями в документах и запросах после связывания именованных сущностей .
Ссылки [ править ]
- ^ Вонг, SKM; Зярко, Войцех; Вонг, Патрик CN (1985-06-05), "Обобщенная модель векторных пространств в информационном поиске", Труды 8-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в информационном поиске - SIGIR '85 , SIGIR ACM , стр. 18– 25, DOI : 10,1145 / 253495,253506 , ISBN 0897911598
- ^ Tsatsaronis, Джордж; Панагиотопулу, Вики (2009-04-02), Обобщенная модель векторного пространства для поиска текста на основе семантического родства (PDF) , EACL ACM
- ^ Вайтелонис, Йорг; Экселер, Клаудиа; Сак, Харальд (11.09.2015), Связанные данные позволили использовать обобщенную модель векторного пространства для улучшения поиска документов (PDF) , ISWC 2015, CEUR-WS 1581