Эта статья предоставляет недостаточный контекст для тех, кто не знаком с предметом . Февраль 2012 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) ( |
Точечная взаимная информация ( PMI ) [1] или точечная взаимная информация - это мера связи, используемая в теории информации и статистике . В отличие от взаимной информации (MI), которая строится на PMI, она относится к отдельным событиям, тогда как MI относится к среднему значению всех возможных событий.
Определение [ править ]
PMI пары исходов x и y, принадлежащих дискретным случайным величинам X и Y, количественно оценивает несоответствие между вероятностью их совпадения с учетом их совместного распределения и их индивидуальных распределений при условии независимости . Математически:
Взаимная информация (МИ) от случайных величин X и Y является ожидаемым значением PMI (по всем возможным результатам).
Мера симметричная ( ). Он может принимать положительные или отрицательные значения, но равно нулю , если X и Y являются независимыми . Обратите внимание, что даже если PMI может быть отрицательным или положительным, его ожидаемый результат по всем совместным мероприятиям (MI) положительный. PMI максимизируется, когда X и Y полностью связаны (то есть или ), что дает следующие границы:
Наконец, будет увеличиваться, если зафиксировано, но уменьшается.
Вот пример для иллюстрации:
Икс | у | р ( х , у ) |
---|---|---|
0 | 0 | 0,1 |
0 | 1 | 0,7 |
1 | 0 | 0,15 |
1 | 1 | 0,05 |
Используя эту таблицу, мы можем маргинализировать, чтобы получить следующую дополнительную таблицу для отдельных распределений:
р ( х ) | р ( у ) | |
---|---|---|
0 | 0,8 | 0,25 |
1 | 0,2 | 0,75 |
В этом примере мы можем вычислить четыре значения для . Используя логарифмы с основанием 2:
pmi (х = 0; у = 0) | знак равно | −1 |
pmi (х = 0; у = 1) | знак равно | 0,222392 |
pmi (х = 1; у = 0) | знак равно | 1,584963 |
pmi (х = 1; у = 1) | знак равно | -1,584963 |
(Для справки, тогда взаимная информация будет 0,2141709)
Сходство с взаимной информацией [ править ]
Точечная взаимная информация имеет многие из тех же отношений, что и взаимная информация. Особенно,
Где это собственная информация , или .
Нормализованная точечная взаимная информация (npmi) [ править ]
Точечная взаимная информация может быть нормализована между [-1, + 1], что приводит к -1 (в пределе), если они никогда не встречаются вместе, 0 для независимости и +1 для полного совпадения . [2]
Где совместная самоинформация , которая оценивается как .
Варианты PMI [ править ]
Помимо упомянутого выше npmi, у PMI есть много других интересных вариантов. Сравнительное исследование этих вариантов можно найти в [3]
Цепное правило для pmi [ править ]
Как и взаимная информация , [4] точечная взаимная информация подчиняется правилу цепочки , то есть
Это легко доказывается:
Приложения [ править ]
В компьютерной лингвистике PMI используется для поиска словосочетаний и ассоциаций между словами. Например, подсчет появления и одновременного появления слов в текстовом корпусе можно использовать для аппроксимации вероятностей и соответственно. В следующей таблице показано количество пар слов, получивших наибольшее и наименьшее количество баллов PMI в первых 50 миллионах слов в Википедии (дамп за октябрь 2015 г.) с фильтрацией по 1000 или более совпадений. Частоту каждого подсчета можно получить, разделив его значение на 50 000 952. (Примечание: в этом примере для расчета значений PMI используется натуральный логарифм вместо логарифмической базы 2)
слово 1 | слово 2 | считать слово 1 | считать слово 2 | количество совпадений | PMI |
---|---|---|---|---|---|
Пуэрто | Рико | 1938 г. | 1311 | 1159 | 10.0349081703 |
гонг | Конг | 2438 | 2694 | 2205 | 9.72831972408 |
лос | Ангелес | 3501 | 2808 | 2791 | 9,56067615065 |
углерод | диоксид | 4265 | 1353 | 1032 | 9.09852946116 |
приз | лауреат | 5131 | 1676 | 1210 | 8,85870710982 |
сан | Франциско | 5237 | 2477 | 1779 | 8.83305176711 |
благородный | приз | 4098 | 5131 | 2498 | 8,68948811416 |
лед | хоккей | 5607 | 3002 | 1933 г. | 8.6555759741 |
звезда | поход | 8264 | 1594 | 1489 | 8,63974676575 |
машина | Водитель | 5578 | 2749 | 1384 | 8,41470768304 |
Это | то | 283891 | 3293296 | 3347 | -1,72037278119 |
находятся | из | 234458 | 1761436 | 1019 | -2,09254205335 |
это | то | 199882 | 3293296 | 1211 | -2,38612756961 |
является | из | 565679 | 1761436 | 1562 | -2,54614706831 |
и | из | 1375396 | 1761436 | 2949 | -2,79911817902 |
а | и | 984442 | 1375396 | 1457 | -2,92239510038 |
в | и | 1187652 | 1375396 | 1537 | -3,05660070757 |
к | и | 1025659 | 1375396 | 1286 | -3.08825363041 |
к | в | 1025659 | 1187652 | 1066 | -3,12911348956 |
из | и | 1761436 | 1375396 | 1190 | -3,70663100173 |
Хорошие пары словосочетаний имеют высокий PMI, потому что вероятность совпадения лишь немного ниже, чем вероятность появления каждого слова. И наоборот, пара слов, вероятность появления которых значительно выше, чем вероятность их совместного появления, получает небольшую оценку PMI.
Ссылки [ править ]
- ^ Церковь Кеннета Уорда и Патрика Хэнкса (март 1990 г.). «Нормы словесных ассоциаций, взаимная информация и лексикография» . Comput. Лингвист . 16 (1): 22–29.
- ^ Баума, Gerlof (2009). «Нормализованная (точечная) взаимная информация при извлечении словосочетаний» (PDF) . Материалы двухгодичной конференции GSCL.
- ^ Роль Франсуа, Моахмед Надиф. Обработка влияния низкочастотных событий на показатели сходства слов, основанные на совпадении: пример точечной взаимной информации. Материалы KDIR 2011: Международная конференция KDIR по открытию знаний и информационному поиску, Париж, 26-29 октября 2011 г.
- ^ Пол Л. Уильямс. ИНФОРМАЦИОННАЯ ДИНАМИКА: ЕЕ ТЕОРИЯ И ПРИМЕНЕНИЕ К ВОПЛОЩЕННЫМ КОГНИТИВНЫМ СИСТЕМАМ .
- Фано, RM (1961). "Глава 2". Передача информации: статистическая теория связи . MIT Press, Кембридж, Массачусетс. ISBN 978-0262561693.
Внешние ссылки [ править ]
- Демонстрация на Rensselaer MSR Server (значения PMI нормализованы между 0 и 1)