В компьютерной лингвистике , второй порядок смежности точечно взаимная информация является семантическим сходством меры. Чтобы оценить степень связи между двумя заданными словами, он использует точечную взаимную информацию (PMI) для сортировки списков важных соседних слов двух целевых слов из большого корпуса .
История
Метод PMI-IR [ разъяснение необходимости ] используется AltaVista «s Расширенный поиск запрос синтаксис для расчета вероятности . Обратите внимание, что оператор поиска «NEAR» в AltaVista является важным оператором в методе PMI-IR. [ необходима цитата ] Однако он больше не используется в AltaVista; это означает, что с точки зрения реализации невозможно использовать метод PMI-IR в той же форме в новых системах. В любом случае, с алгоритмической точки зрения, преимущество использования SOC-PMI состоит в том, что он может вычислять сходство между двумя словами, которые не часто встречаются одновременно , потому что они встречаются с одними и теми же соседними словами. Например, Британский национальный корпус (BNC) использовался в качестве источника частот и контекстов.
Методология
Метод рассматривает слова, общие в обоих списках, и объединяет их значения PMI (из противоположного списка) для вычисления относительного семантического сходства. Мы определяем поточечную функцию взаимной информации только для тех слов, которые имеют,
где говорит нам, сколько раз тип появился во всем корпусе, говорит нам, сколько раз слово появился со словом в контекстном окне и - общее количество токенов в корпусе. Теперь на слово, мы определяем набор слов, , отсортированные в порядке убывания значений PMI с и взял самый верхний слова, имеющие .
Набор , содержит слова ,
- , где а также
Правило используется для выбора значения. В-PMI функция суммирования слова определяется по отношению к другому слову. На слово относительно слова это:
где который суммирует все положительные значения PMI слов в наборе также общий для слов в наборе . Другими словами, эта функция фактически агрегирует положительные значения PMI всех семантически близких слов которые также распространены в список. должен иметь значение больше 1. Итак, -Функция суммирования PMI для слова относительно слова имея и -Функция суммирования PMI для слова относительно слова имея находятся
а также
соответственно.
Наконец, функция семантического сходства PMI между двумя словами, а также , определяется как
Семантическое сходство слов нормализовано, так что оно обеспечивает оценку сходства между а также включительно. Алгоритм нормализации семантического сходства возвращает нормализованную оценку сходства между двумя словами. Он принимает в качестве аргументов два слова: а также , и максимальное значение, , который возвращается функцией семантического сходства Sim (). Он возвращает оценку сходства от 0 до 1 включительно. Например, алгоритм возвращает 0,986 для слов кладбище и кладбище с (для метода SOC-PMI).
Рекомендации
- Ислам, А. и Инкпен, Д. (2008). Сходство семантического текста с использованием сходства слов на основе корпуса и схожести строк . ACM Trans. Знай. Discov. Данные 2, 2 (июл 2008 г.), 1–25.
- Ислам, А. и Инкпен, Д. (2006). PMI второго порядка для определения семантического сходства слов , в материалах Международной конференции по языковым ресурсам и оценке (LREC 2006), Генуя, Италия, стр. 1033–1038.