Сочетание поточечной взаимной информации второго порядка

В компьютерной лингвистике , второй порядок смежности точечно взаимная информация является семантическим сходством меры. Чтобы оценить степень связи между двумя заданными словами, он использует точечную взаимную информацию (PMI) для сортировки списков важных соседних слов двух целевых слов из большого корпуса .

История

Метод PMI-IR ^{[ разъяснение необходимости ]} используется AltaVista «s Расширенный поиск запрос синтаксис для расчета вероятности . Обратите внимание, что оператор поиска «NEAR» в AltaVista является важным оператором в методе PMI-IR. ^{[ необходима цитата ]} Однако он больше не используется в AltaVista; это означает, что с точки зрения реализации невозможно использовать метод PMI-IR в той же форме в новых системах. В любом случае, с алгоритмической точки зрения, преимущество использования SOC-PMI состоит в том, что он может вычислять сходство между двумя словами, которые не часто встречаются одновременно , потому что они встречаются с одними и теми же соседними словами. Например, Британский национальный корпус (BNC) использовался в качестве источника частот и контекстов.

Методология

Метод рассматривает слова, общие в обоих списках, и объединяет их значения PMI (из противоположного списка) для вычисления относительного семантического сходства. Мы определяем поточечную функцию взаимной информации только для тех слов, которые имеют ${\ displaystyle f ^ {b} (t_ {i}, w)> 0}$ ,

{\ displaystyle f ^ {\ text {pmi}} (t_ {i}, w) = \ log _ {2} {\ frac {f ^ {b} (t_ {i}, w) \ times m} {f ^ {t} (t_ {i}) f ^ {t} (w)}},}

где ${\ Displaystyle е ^ {т} (т_ {я})}$ говорит нам, сколько раз тип ${\ displaystyle t_ {i}}$ появился во всем корпусе, ${\ displaystyle f ^ {b} (t_ {i}, w)}$ говорит нам, сколько раз слово ${\ displaystyle t_ {i}}$ появился со словом ${\ displaystyle w}$ в контекстном окне и ${\ displaystyle m}$ - общее количество токенов в корпусе. Теперь на слово ${\ displaystyle w}$ , мы определяем набор слов, ${\ displaystyle X ^ {w}}$ , отсортированные в порядке убывания значений PMI с ${\ displaystyle w}$ и взял самый верхний ${\ displaystyle \ beta}$ слова, имеющие ${\ displaystyle f ^ {\ text {pmi}} (t_ {i}, w)> 0}$ .

Набор ${\ displaystyle X ^ {w}}$ , содержит слова ${\ displaystyle X_ {i} ^ {w}}$ ,

{\ displaystyle X ^ {w} = \ {X_ {i} ^ {w} \}}

, где

{\ Displaystyle я = 1,2, \ ldots, \ бета}

а также

{\ displaystyle f ^ {\ text {pmi}} (X_ {1} ^ {w}, w) \ geq f ^ {\ text {pmi}} (X_ {2} ^ {w}, w) \ geq \ cdots f ^ {\ text {pmi}} (X _ {\ beta -1} ^ {w}, w) \ geq f ^ {\ text {pmi}} (X _ {\ beta} ^ {w}, w)}

Правило используется для выбора значения ${\ displaystyle \ beta}$ . В ${\ displaystyle \ beta}$ -PMI функция суммирования слова определяется по отношению к другому слову. На слово ${\ displaystyle w_ {1}}$ относительно слова ${\ displaystyle w_ {2}}$ это:

{\ displaystyle f (w_ {1}, w_ {2}, \ beta) = \ sum _ {i = 1} ^ {\ beta} (f ^ {\ text {pmi}} (X_ {i} ^ {w_ {1}}, w_ {2})) ^ {\ gamma}}

где ${\ displaystyle f ^ {\ text {pmi}} (X_ {i} ^ {w_ {1}}, w_ {2})> 0}$ который суммирует все положительные значения PMI слов в наборе ${\ displaystyle X ^ {w_ {2}}}$ также общий для слов в наборе ${\ displaystyle X ^ {w_ {1}}}$ . Другими словами, эта функция фактически агрегирует положительные значения PMI всех семантически близких слов ${\ displaystyle w_ {2}}$ которые также распространены в ${\ displaystyle w_ {1}}$ список. ${\ displaystyle \ gamma}$ должен иметь значение больше 1. Итак, ${\ displaystyle \ beta}$ -Функция суммирования PMI для слова ${\ displaystyle w_ {1}}$ относительно слова ${\ displaystyle w_ {2}}$ имея ${\ displaystyle \ beta = \ beta _ {1}}$ и ${\ displaystyle \ beta}$ -Функция суммирования PMI для слова ${\ displaystyle w_ {2}}$ относительно слова ${\ displaystyle w_ {1}}$ имея ${\ displaystyle \ beta = \ beta _ {2}}$ находятся

{\ displaystyle f (w_ {1}, w_ {2}, \ beta _ {1}) = \ sum _ {i = 1} ^ {\ beta _ {1}} (f ^ {\ text {pmi}} (X_ {i} ^ {w_ {1}}, w_ {2})) ^ {\ gamma}}

а также

{\ displaystyle f (w_ {2}, w_ {1}, \ beta _ {2}) = \ sum _ {i = 1} ^ {\ beta _ {2}} (f ^ {\ text {pmi}} (X_ {i} ^ {w_ {2}}, w_ {1})) ^ {\ gamma}}

соответственно.

Наконец, функция семантического сходства PMI между двумя словами, ${\ displaystyle w_ {1}}$ а также ${\ displaystyle w_ {2}}$ , определяется как

{\ displaystyle \ mathrm {Sim} (w_ {1}, w_ {2}) = {\ frac {f (w_ {1}, w_ {2}, \ beta _ {1})} {\ beta _ {1 }}} + {\ frac {f (w_ {2}, w_ {1}, \ beta _ {2})} {\ beta _ {2}}}.}

Семантическое сходство слов нормализовано, так что оно обеспечивает оценку сходства между ${\ displaystyle 0}$ а также ${\ displaystyle 1}$ включительно. Алгоритм нормализации семантического сходства возвращает нормализованную оценку сходства между двумя словами. Он принимает в качестве аргументов два слова: ${\ displaystyle r_ {i}}$ а также ${\ displaystyle s_ {j}}$ , и максимальное значение, ${\ displaystyle \ lambda}$ , который возвращается функцией семантического сходства Sim (). Он возвращает оценку сходства от 0 до 1 включительно. Например, алгоритм возвращает 0,986 для слов кладбище и кладбище с ${\ displaystyle \ lambda = 20}$ (для метода SOC-PMI).

Сочетание поточечной взаимной информации второго порядка

История

Методология

Рекомендации