Точечная взаимная информация

Эта статья предоставляет недостаточный контекст для тех, кто не знаком с предметом . Пожалуйста, помогите улучшить статью , предоставив читателю больше контекста . ( Февраль 2012 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Точечная взаимная информация ( PMI ) ^[1] или точечная взаимная информация - это мера связи, используемая в теории информации и статистике . В отличие от взаимной информации (MI), которая строится на PMI, она относится к отдельным событиям, тогда как MI относится к среднему значению всех возможных событий.

Определение [ править ]

PMI пары исходов x и y, принадлежащих дискретным случайным величинам X и Y, количественно оценивает несоответствие между вероятностью их совпадения с учетом их совместного распределения и их индивидуальных распределений при условии независимости . Математически:

\operatorname {pmi} (x;y)\equiv \log {\frac {p(x,y)}{p(x)p(y)}}=\log {\frac {p(x|y)}{p(x)}}=\log {\frac {p(y|x)}{p(y)}}.

Взаимная информация (МИ) от случайных величин X и Y является ожидаемым значением PMI (по всем возможным результатам).

Мера симметричная ( ). Он может принимать положительные или отрицательные значения, но равно нулю , если X и Y являются независимыми . Обратите внимание, что даже если PMI может быть отрицательным или положительным, его ожидаемый результат по всем совместным мероприятиям (MI) положительный. PMI максимизируется, когда X и Y полностью связаны (то есть или ), что дает следующие границы: $\operatorname {pmi} (x;y)=\operatorname {pmi} (y;x)$ $p(x|y)$ $p(y|x)=1$

-\infty \leq \operatorname {pmi} (x;y)\leq \min \left[-\log p(x),-\log p(y)\right].

Наконец, будет увеличиваться, если зафиксировано, но уменьшается. $\operatorname {pmi} (x;y)$ $p(x|y)$ $p(x)$

Вот пример для иллюстрации:

Икс	у	р ( х , у )
0	0	0,1
0	1	0,7
1	0	0,15
1	1	0,05

Используя эту таблицу, мы можем маргинализировать, чтобы получить следующую дополнительную таблицу для отдельных распределений:

	р ( х )	р ( у )
0	0,8	0,25
1	0,2	0,75

В этом примере мы можем вычислить четыре значения для . Используя логарифмы с основанием 2: $pmi(x;y)$

pmi (х = 0; у = 0)	знак равно	−1
pmi (х = 0; у = 1)	знак равно	0,222392
pmi (х = 1; у = 0)	знак равно	1,584963
pmi (х = 1; у = 1)	знак равно	-1,584963

(Для справки, тогда взаимная информация будет 0,2141709) $\operatorname {I} (X;Y)$

Сходство с взаимной информацией [ править ]

Точечная взаимная информация имеет многие из тех же отношений, что и взаимная информация. Особенно,

${\begin{aligned}\operatorname {pmi} (x;y)&=&h(x)+h(y)-h(x,y)\\&=&h(x)-h(x|y)\\&=&h(y)-h(y|x)\end{aligned}}$

Где это собственная информация , или . $h(x)$ $-\log _{2}p(X=x)$

Нормализованная точечная взаимная информация (npmi) [ править ]

Точечная взаимная информация может быть нормализована между [-1, + 1], что приводит к -1 (в пределе), если они никогда не встречаются вместе, 0 для независимости и +1 для полного совпадения . ^[2]

$\operatorname {npmi} (x;y)={\frac {\operatorname {pmi} (x;y)}{h(x,y)}}$

Где совместная самоинформация , которая оценивается как . $h(x,y)$ $-\log _{2}p(X=x,Y=y)$

Варианты PMI [ править ]

Помимо упомянутого выше npmi, у PMI есть много других интересных вариантов. Сравнительное исследование этих вариантов можно найти в ^[3]

Цепное правило для pmi [ править ]

Как и взаимная информация , ^[4] точечная взаимная информация подчиняется правилу цепочки , то есть

\operatorname {pmi} (x;yz)=\operatorname {pmi} (x;y)+\operatorname {pmi} (x;z|y)

Это легко доказывается:

{\begin{aligned}\operatorname {pmi} (x;y)+\operatorname {pmi} (x;z|y)&{}=\log {\frac {p(x,y)}{p(x)p(y)}}+\log {\frac {p(x,z|y)}{p(x|y)p(z|y)}}\\&{}=\log \left[{\frac {p(x,y)}{p(x)p(y)}}{\frac {p(x,z|y)}{p(x|y)p(z|y)}}\right]\\&{}=\log {\frac {p(x|y)p(y)p(x,z|y)}{p(x)p(y)p(x|y)p(z|y)}}\\&{}=\log {\frac {p(x,yz)}{p(x)p(yz)}}\\&{}=\operatorname {pmi} (x;yz)\end{aligned}}

Приложения [ править ]

В компьютерной лингвистике PMI используется для поиска словосочетаний и ассоциаций между словами. Например, подсчет появления и одновременного появления слов в текстовом корпусе можно использовать для аппроксимации вероятностей и соответственно. В следующей таблице показано количество пар слов, получивших наибольшее и наименьшее количество баллов PMI в первых 50 миллионах слов в Википедии (дамп за октябрь 2015 г.) с фильтрацией по 1000 или более совпадений. Частоту каждого подсчета можно получить, разделив его значение на 50 000 952. (Примечание: в этом примере для расчета значений PMI используется натуральный логарифм вместо логарифмической базы 2) $p(x)$ $p(x,y)$

слово 1	слово 2	считать слово 1	считать слово 2	количество совпадений	PMI
Пуэрто	Рико	1938 г.	1311	1159	10.0349081703
гонг	Конг	2438	2694	2205	9.72831972408
лос	Ангелес	3501	2808	2791	9,56067615065
углерод	диоксид	4265	1353	1032	9.09852946116
приз	лауреат	5131	1676	1210	8,85870710982
сан	Франциско	5237	2477	1779	8.83305176711
благородный	приз	4098	5131	2498	8,68948811416
лед	хоккей	5607	3002	1933 г.	8.6555759741
звезда	поход	8264	1594	1489	8,63974676575
машина	Водитель	5578	2749	1384	8,41470768304
Это	то	283891	3293296	3347	-1,72037278119
находятся	из	234458	1761436	1019	-2,09254205335
это	то	199882	3293296	1211	-2,38612756961
является	из	565679	1761436	1562	-2,54614706831
и	из	1375396	1761436	2949	-2,79911817902
а	и	984442	1375396	1457	-2,92239510038
в	и	1187652	1375396	1537	-3,05660070757
к	и	1025659	1375396	1286	-3.08825363041
к	в	1025659	1187652	1066	-3,12911348956
из	и	1761436	1375396	1190	-3,70663100173

Хорошие пары словосочетаний имеют высокий PMI, потому что вероятность совпадения лишь немного ниже, чем вероятность появления каждого слова. И наоборот, пара слов, вероятность появления которых значительно выше, чем вероятность их совместного появления, получает небольшую оценку PMI.

Ссылки [ править ]

^ Церковь Кеннета Уорда и Патрика Хэнкса (март 1990 г.). «Нормы словесных ассоциаций, взаимная информация и лексикография» . Comput. Лингвист . 16 (1): 22–29.
^ Баума, Gerlof (2009). «Нормализованная (точечная) взаимная информация при извлечении словосочетаний» (PDF) . Материалы двухгодичной конференции GSCL.
^ Роль Франсуа, Моахмед Надиф. Обработка влияния низкочастотных событий на показатели сходства слов, основанные на совпадении: пример точечной взаимной информации. Материалы KDIR 2011: Международная конференция KDIR по открытию знаний и информационному поиску, Париж, 26-29 октября 2011 г.
^ Пол Л. Уильямс. ИНФОРМАЦИОННАЯ ДИНАМИКА: ЕЕ ТЕОРИЯ И ПРИМЕНЕНИЕ К ВОПЛОЩЕННЫМ КОГНИТИВНЫМ СИСТЕМАМ .

Фано, RM (1961). "Глава 2". Передача информации: статистическая теория связи . MIT Press, Кембридж, Массачусетс. ISBN 978-0262561693.

Внешние ссылки [ править ]

Демонстрация на Rensselaer MSR Server (значения PMI нормализованы между 0 и 1)

[Church1990-1] Церковь Кеннета Уорда и Патрика Хэнкса (март 1990 г.). «Нормы словесных ассоциаций, взаимная информация и лексикография» . Comput. Лингвист . 16 (1): 22–29.

[2] Баума, Gerlof (2009). «Нормализованная (точечная) взаимная информация при извлечении словосочетаний» (PDF) . Материалы двухгодичной конференции GSCL.

[3] Роль Франсуа, Моахмед Надиф. Обработка влияния низкочастотных событий на показатели сходства слов, основанные на совпадении: пример точечной взаимной информации. Материалы KDIR 2011: Международная конференция KDIR по открытию знаний и информационному поиску, Париж, 26-29 октября 2011 г.

[4] Пол Л. Уильямс. ИНФОРМАЦИОННАЯ ДИНАМИКА: ЕЕ ТЕОРИЯ И ПРИМЕНЕНИЕ К ВОПЛОЩЕННЫМ КОГНИТИВНЫМ СИСТЕМАМ .

[1]