Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Точечная взаимная информация ( PMI ) [1] или точечная взаимная информация - это мера связи, используемая в теории информации и статистике . В отличие от взаимной информации (MI), которая строится на PMI, она относится к отдельным событиям, тогда как MI относится к среднему значению всех возможных событий.

Определение [ править ]

PMI пары исходов x и y, принадлежащих дискретным случайным величинам X и Y, количественно оценивает несоответствие между вероятностью их совпадения с учетом их совместного распределения и их индивидуальных распределений при условии независимости . Математически:

Взаимная информация (МИ) от случайных величин X и Y является ожидаемым значением PMI (по всем возможным результатам).

Мера симметричная ( ). Он может принимать положительные или отрицательные значения, но равно нулю , если X и Y являются независимыми . Обратите внимание, что даже если PMI может быть отрицательным или положительным, его ожидаемый результат по всем совместным мероприятиям (MI) положительный. PMI максимизируется, когда X и Y полностью связаны (то есть или ), что дает следующие границы:

Наконец, будет увеличиваться, если зафиксировано, но уменьшается.

Вот пример для иллюстрации:

Используя эту таблицу, мы можем маргинализировать, чтобы получить следующую дополнительную таблицу для отдельных распределений:

В этом примере мы можем вычислить четыре значения для . Используя логарифмы с основанием 2:

(Для справки, тогда взаимная информация будет 0,2141709)

Сходство с взаимной информацией [ править ]

Точечная взаимная информация имеет многие из тех же отношений, что и взаимная информация. Особенно,

Где это собственная информация , или .

Нормализованная точечная взаимная информация (npmi) [ править ]

Точечная взаимная информация может быть нормализована между [-1, + 1], что приводит к -1 (в пределе), если они никогда не встречаются вместе, 0 для независимости и +1 для полного совпадения . [2]

Где совместная самоинформация , которая оценивается как .

Варианты PMI [ править ]

Помимо упомянутого выше npmi, у PMI есть много других интересных вариантов. Сравнительное исследование этих вариантов можно найти в [3]

Цепное правило для pmi [ править ]

Как и взаимная информация , [4] точечная взаимная информация подчиняется правилу цепочки , то есть

Это легко доказывается:

Приложения [ править ]

В компьютерной лингвистике PMI используется для поиска словосочетаний и ассоциаций между словами. Например, подсчет появления и одновременного появления слов в текстовом корпусе можно использовать для аппроксимации вероятностей и соответственно. В следующей таблице показано количество пар слов, получивших наибольшее и наименьшее количество баллов PMI в первых 50 миллионах слов в Википедии (дамп за октябрь 2015 г.) с фильтрацией по 1000 или более совпадений. Частоту каждого подсчета можно получить, разделив его значение на 50 000 952. (Примечание: в этом примере для расчета значений PMI используется натуральный логарифм вместо логарифмической базы 2)

Хорошие пары словосочетаний имеют высокий PMI, потому что вероятность совпадения лишь немного ниже, чем вероятность появления каждого слова. И наоборот, пара слов, вероятность появления которых значительно выше, чем вероятность их совместного появления, получает небольшую оценку PMI.

Ссылки [ править ]

  1. ^ Церковь Кеннета Уорда и Патрика Хэнкса (март 1990 г.). «Нормы словесных ассоциаций, взаимная информация и лексикография» . Comput. Лингвист . 16 (1): 22–29.
  2. ^ Баума, Gerlof (2009). «Нормализованная (точечная) взаимная информация при извлечении словосочетаний» (PDF) . Материалы двухгодичной конференции GSCL.
  3. ^ Роль Франсуа, Моахмед Надиф. Обработка влияния низкочастотных событий на показатели сходства слов, основанные на совпадении: пример точечной взаимной информации. Материалы KDIR 2011: Международная конференция KDIR по открытию знаний и информационному поиску, Париж, 26-29 октября 2011 г.
  4. ^ Пол Л. Уильямс. ИНФОРМАЦИОННАЯ ДИНАМИКА: ЕЕ ТЕОРИЯ И ПРИМЕНЕНИЕ К ВОПЛОЩЕННЫМ КОГНИТИВНЫМ СИСТЕМАМ .
  • Фано, RM (1961). "Глава 2". Передача информации: статистическая теория связи . MIT Press, Кембридж, Массачусетс. ISBN 978-0262561693.

Внешние ссылки [ править ]

  • Демонстрация на Rensselaer MSR Server (значения PMI нормализованы между 0 и 1)