Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Обобщенная модель векторного пространства является обобщением пространства модели вектора , используемой в поиске информации . Wong et al. [1] представил анализ проблем, которые создает допущение попарной ортогональности модели векторного пространства (VSM). Отсюда они расширили VSM до модели обобщенного векторного пространства (GVSM).

Определения [ править ]

GVSM вводит межчленные корреляции, которые осуждают допущение попарной ортогональности. Более конкретно, фактор рассматривал новое пространство, где каждый вектор термов t i был выражен как линейная комбинация 2 n векторов m r, где r = 1 ... 2 n .

Для документа d k и запроса q функция подобия теперь принимает вид:

где т я и т J теперь векторы 2 п - мерного пространства.

Корреляция сроков может быть реализована несколькими способами. Например, Wong et al. использует матрицу частот встречаемости терминов, полученную в результате автоматической индексации, в качестве входных данных для своего алгоритма. Термин «появление» и «выход» - это термин «корреляция» между любой парой терминов индекса.

Семантическая информация о GVSM [ править ]

Существует как минимум два основных направления внедрения термина в соответствие термину, помимо точного соответствия ключевых слов, в модель поиска:

  1. вычислять семантические корреляции между терминами
  2. вычислить статистику совпадения частот из больших корпусов

Недавно Цацаронис [2] сосредоточился на первом подходе.

Они измеряют семантическую взаимосвязь ( SR ) с помощью тезауруса ( O ), например WordNet . Он учитывает длину пути, зафиксированную с помощью компактности ( SCM ), и глубину пути, захваченную с помощью семантической разработки пути ( SPE ). Они оценивают внутренний продукт по:

где s i и s j - значения терминов t i и t j соответственно, максимизируя .

Опираясь также на первый подход, Вайтелонис и др. al. [3] вычислили семантическую взаимосвязь из ресурсов связанных открытых данных, включая DBpedia, а также таксономию YAGO . Таким образом, они используют таксономические отношения между семантическими сущностями в документах и ​​запросах после связывания именованных сущностей .



Ссылки [ править ]

  1. ^ Вонг, SKM; Зярко, Войцех; Вонг, Патрик CN (1985-06-05), "Обобщенная модель векторных пространств в информационном поиске", Труды 8-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в информационном поиске - SIGIR '85 , SIGIR ACM , стр. 18– 25, DOI : 10,1145 / 253495,253506 , ISBN 0897911598
  2. ^ Tsatsaronis, Джордж; Панагиотопулу, Вики (2009-04-02), Обобщенная модель векторного пространства для поиска текста на основе семантического родства (PDF) , EACL ACM
  3. ^ Вайтелонис, Йорг; Экселер, Клаудиа; Сак, Харальд (11.09.2015), Связанные данные позволили использовать обобщенную модель векторного пространства для улучшения поиска документов (PDF) , ISWC 2015, CEUR-WS 1581