Дивергенция Кульбака – Лейблера.

В математической статистике , то Кульбак-Лейблер дивергенция, ${\ displaystyle D _ {\ text {KL}}}$ (также называемая относительной энтропией ) - это мера того, чем одно распределение вероятностей отличается от второго, эталонного распределения вероятностей. ^[1]^[2] Приложения включают определение относительной энтропии (Шеннона) в информационных системах, случайности в непрерывных временных рядах и получения информации при сравнении статистических моделей вывода . В отличие от вариации информации , это асимметричная мера распределения и, следовательно, не квалифицируется как статистическая метрика разброса - она также не удовлетворяет неравенству треугольника.. В простом случае относительная энтропия, равная 0, указывает на то, что два рассматриваемых распределения имеют идентичные количества информации. Говоря упрощенно, это мера неожиданности с разнообразными приложениями, такими как прикладная статистика, механика жидкости , нейробиология и биоинформатика .

Введение и контекст

Рассмотрим два распределения вероятностей ${\ displaystyle P}$ а также ${\ displaystyle Q}$ . Обычно, ${\ displaystyle P}$ представляет данные, наблюдения или точно измеренное распределение вероятностей. Распределение ${\ displaystyle Q}$ представляет собой теорию, модель, описание или приближение ${\ displaystyle P}$ . Расхождение Кульбака-Лейблера затем интерпретируется как средняя разность количества битов, необходимых для кодирования выборок ${\ displaystyle P}$ используя код, оптимизированный для ${\ displaystyle Q}$ а не оптимизированный для ${\ displaystyle P}$ .

Этимология

Относительная энтропия была введена Соломоном Кульбаком и Ричардом Лейблером в 1951 году как направленное расхождение между двумя распределениями; Кульбак предпочел термин « дискриминационная информация» . ^[3] Расхождение обсуждается в книге Кульбака 1959 года « Теория информации и статистика» . ^[2]

Определение

Для дискретных распределений вероятностей ${\ displaystyle P}$ а также ${\ displaystyle Q}$ определены на том же вероятностном пространстве , ${\ Displaystyle {\ mathcal {X}}}$ , относительная энтропия из ${\ displaystyle Q}$ к ${\ displaystyle P}$ определяется ^[4] как

{\ displaystyle D _ {\ text {KL}} (P \ parallel Q) = \ sum _ {x \ in {\ mathcal {X}}} P (x) \ log \ left ({\ frac {P (x) } {Q (x)}} \ right).}

что эквивалентно

{\ displaystyle D _ {\ text {KL}} (P \ parallel Q) = - \ sum _ {x \ in {\ mathcal {X}}} P (x) \ log \ left ({\ frac {Q (x )} {P (x)}} \ right)}

Другими словами, это математическое ожидание логарифмической разности вероятностей ${\ displaystyle P}$ а также ${\ displaystyle Q}$ , где математическое ожидание берется с использованием вероятностей ${\ displaystyle P}$ . Относительная энтропия определяется, только если для всех ${\ displaystyle x}$ , ${\ Displaystyle Q (х) = 0}$ подразумевает ${\ Displaystyle P (x) = 0}$ ( абсолютная преемственность ). В любое время ${\ Displaystyle P (x)}$ равен нулю, вклад соответствующего члена интерпретируется как ноль, потому что

{\ displaystyle \ lim _ {x \ to 0 ^ {+}} x \ log (x) = 0.}

Для дистрибутивов ${\ displaystyle P}$ а также ${\ displaystyle Q}$ из непрерывной случайной величины , относительная энтропия определяется как интеграл: ^[5]^{: р. 55}

{\ displaystyle D _ {\ text {KL}} (P \ parallel Q) = \ int _ {- \ infty} ^ {\ infty} p (x) \ log \ left ({\ frac {p (x)} { q (x)}} \ right) \, dx}

где ${\ displaystyle p}$ а также ${\ displaystyle q}$ Обозначим плотность вероятности из ${\ displaystyle P}$ а также ${\ displaystyle Q}$ .

В более общем смысле, если ${\ displaystyle P}$ а также ${\ displaystyle Q}$ являются вероятностными мерами над множеством ${\ Displaystyle {\ mathcal {X}}}$ , а также ${\ displaystyle P}$ является абсолютно непрерывна относительно ${\ displaystyle Q}$ , то относительная энтропия из ${\ displaystyle Q}$ к ${\ displaystyle P}$ определяется как

{\ displaystyle D _ {\ text {KL}} (P \ parallel Q) = \ int _ {\ mathcal {X}} \ log \ left ({\ frac {dP} {dQ}} \ right) \, dP, }

где ${\ displaystyle {\ frac {dP} {dQ}}}$ является производной Радона – Никодима от ${\ displaystyle P}$ относительно ${\ displaystyle Q}$ , и при условии, что выражение в правой части существует. Эквивалентно (по цепному правилу ) это можно записать как

{\ displaystyle D _ {\ text {KL}} (P \ parallel Q) = \ int _ {\ mathcal {X}} \ log \ left ({\ frac {dP} {dQ}} \ right) {\ frac { dP} {dQ}} \, dQ,}

который является энтропией из ${\ displaystyle Q}$ относительно ${\ displaystyle P}$ . Продолжая в этом случае, если ${\ displaystyle \ mu}$ есть ли какая-либо мера на ${\ Displaystyle {\ mathcal {X}}}$ для которого ${\ displaystyle p = {\ frac {dP} {d \ mu}}}$ а также ${\ displaystyle q = {\ frac {dQ} {d \ mu}}}$ существуют (это означает, что ${\ displaystyle p}$ а также ${\ displaystyle q}$ абсолютно непрерывны относительно ${\ displaystyle \ mu}$ ), то относительная энтропия из ${\ displaystyle Q}$ к ${\ displaystyle P}$ дается как

{\ displaystyle D _ {\ text {KL}} (P \ parallel Q) = \ int _ {\ mathcal {X}} p \ log \ left ({\ frac {p} {q}} \ right) \, d \ mu.}

Логарифмы в этих формулах берутся с основанием 2, если информация измеряется в битах , или с основанием ${\ displaystyle e}$ если информация измеряется в нац . Большинство формул относительной энтропии верны независимо от основания логарифма.

Существуют различные соглашения для обозначения ${\ Displaystyle D _ {\ текст {KL}} (P \ параллельно Q)}$ в словах. Часто это называют расхождением между ${\ displaystyle P}$ а также ${\ displaystyle Q}$ , но это не передает фундаментальной асимметрии отношения. Иногда, как в этой статье, это может быть описано как расхождение ${\ displaystyle P}$ из ${\ displaystyle Q}$ или как отклонение от ${\ displaystyle Q}$ к ${\ displaystyle P}$ . Это отражает асимметрию в умозаключениях байесовских , которая начинается от до ${\ displaystyle Q}$ и обновления к в задней ${\ displaystyle P}$ . Другой распространенный способ обозначить ${\ Displaystyle D _ {\ текст {KL}} (P \ параллельно Q)}$ как относительная энтропия ${\ displaystyle P}$ относительно ${\ displaystyle Q}$ .

Базовый пример

Кульбак ^[2] приводит следующий пример (таблица 2.1, пример 2.1). Позволять ${\ displaystyle P}$ а также ${\ displaystyle Q}$ - распределения, показанные в таблице и на рисунке. ${\ displaystyle P}$ - распределение в левой части рисунка, биномиальное распределение с ${\ Displaystyle N = 2}$ а также ${\ displaystyle p = 0,4}$ . ${\ displaystyle Q}$ - это распределение в правой части рисунка, дискретное равномерное распределение с тремя возможными исходами ${\ displaystyle x = 0}$ , ${\ displaystyle 1}$ , или же ${\ displaystyle 2}$ (т.е. ${\ Displaystyle {\ mathcal {X}} = \ {0,1,2 \}}$ ), каждая с вероятностью ${\ displaystyle p = 1/3}$ .

Two distributions to illustrate relative entropy

Икс	0	1	2
Распределение P (x)	${\ displaystyle 9/25}$	${\ displaystyle 12/25}$	${\ displaystyle 4/25}$
Распределение Q (x)	${\ displaystyle 1/3}$	${\ displaystyle 1/3}$	${\ displaystyle 1/3}$

Относительные энтропии ${\ Displaystyle D _ {\ текст {KL}} (P \ параллельно Q)}$ а также ${\ Displaystyle D _ {\ текст {KL}} (Q \ параллельно P)}$ рассчитываются следующим образом. В этом примере используется натуральный логарифм с основанием e , обозначенный ${\ displaystyle \ operatorname {ln}}$ для получения результатов в нац (см. единицы информации ).

{\ displaystyle {\ begin {align} D _ {\ text {KL}} (P \ parallel Q) & = \ sum _ {x \ in {\ mathcal {X}}} P (x) \ ln \ left ({ \ frac {P (x)} {Q (x)}} \ right) \\ & = {\ frac {9} {25}} \ ln \ left ({\ frac {9/25} {1/3} } \ right) + {\ frac {12} {25}} \ ln \ left ({\ frac {12/25} {1/3}} \ right) + {\ frac {4} {25}} \ ln \ left ({\ frac {4/25} {1/3}} \ right) \\ & = {\ frac {1} {25}} \ left (32 \ ln (2) +55 \ ln (3) -50 \ ln (5) \ right) \ приблизительно 0,0852996 \ end {align}}}

{\ displaystyle {\ begin {align} D _ {\ text {KL}} (Q \ parallel P) & = \ sum _ {x \ in {\ mathcal {X}}} Q (x) \ ln \ left ({ \ frac {Q (x)} {P (x)}} \ right) \\ & = {\ frac {1} {3}} \ ln \ left ({\ frac {1/3} {9/25} } \ right) + {\ frac {1} {3}} \ ln \ left ({\ frac {1/3} {12/25}} \ right) + {\ frac {1} {3}} \ ln \ left ({\ frac {1/3} {4/25}} \ right) \\ & = {\ frac {1} {3}} \ left (-4 \ ln (2) -6 \ ln (3 ) +6 \ ln (5) \ right) \ приблизительно 0,097455 \ end {align}}}

Интерпретации

Относительная энтропия от ${\ displaystyle Q}$ к ${\ displaystyle P}$ часто обозначается ${\ Displaystyle D _ {\ текст {KL}} (P \ параллельно Q)}$ .

В контексте машинного обучения , ${\ Displaystyle D _ {\ текст {KL}} (P \ параллельно Q)}$ часто называют получением информации, если ${\ displaystyle P}$ будет использоваться вместо ${\ displaystyle Q}$ который в настоящее время используется. По аналогии с теорией информации, она называется относительной энтропии из ${\ displaystyle P}$ относительно ${\ displaystyle Q}$ . В контексте теории кодирования , ${\ Displaystyle D _ {\ текст {KL}} (P \ параллельно Q)}$ могут быть построены путем измерения ожидаемого количества дополнительных битов, необходимых для кодирования образцов из ${\ displaystyle P}$ используя код, оптимизированный для ${\ displaystyle Q}$ а не код, оптимизированный для ${\ displaystyle P}$ .

Выражаясь языком байесовского вывода , ${\ Displaystyle D _ {\ текст {KL}} (P \ параллельно Q)}$ является мерой информации, полученной путем пересмотра своих убеждений на основе априорного распределения вероятностей. ${\ displaystyle Q}$ к апостериорному распределению вероятностей ${\ displaystyle P}$ . Другими словами, это количество информации, потерянной при ${\ displaystyle Q}$ используется для приближения ${\ displaystyle P}$ . ^[6] В приложениях, ${\ displaystyle P}$ обычно представляет собой «истинное» распределение данных, наблюдений или точно рассчитанное теоретическое распределение, в то время как ${\ displaystyle Q}$ как правило , представляет собой теорию, модель, описание, или приближение из ${\ displaystyle P}$ . Чтобы найти распространение ${\ displaystyle Q}$ что ближе всего к ${\ displaystyle P}$ , мы можем минимизировать расхождение KL и вычислить информационную проекцию .

Относительная энтропия - это частный случай более широкого класса статистических расхождений, называемых f- расходимостями, а также класса расхождений Брегмана . Это единственное такое расхождение по вероятностям, которое принадлежит обоим классам. Хотя это часто интуитивно воспринимается как способ измерения расстояния между распределениями вероятностей , расхождение Кульбака – Лейблера не является истинной метрикой . Он не подчиняется неравенству треугольника , и в целом ${\ Displaystyle D _ {\ текст {KL}} (P \ параллельно Q)}$ не равно ${\ Displaystyle D _ {\ текст {KL}} (Q \ параллельно P)}$ . Однако его бесконечно малая форма, в частности его гессиан , дает метрический тензор, известный как информационная метрика Фишера .

Артур Хобсон доказал, что относительная энтропия - это единственная мера разницы между распределениями вероятностей, которая удовлетворяет некоторым желаемым свойствам, которые являются каноническим расширением тех, которые появляются в обычно используемой характеристике энтропии . ^[7] Следовательно, взаимная информация является единственной мерой взаимной зависимости, которая подчиняется определенным связанным условиям, поскольку ее можно определить в терминах расхождения Кульбака – Лейблера .

Мотивация

Иллюстрация относительной энтропии для двух нормальных распределений . Хорошо видна типичная асимметрия.

В теории информации теорема Крафт-Макмиллана устанавливает, что любая непосредственно декодируемая схема кодирования для кодирования сообщения для идентификации одного значения ${\ displaystyle x_ {i}}$ из множества возможностей ${\ displaystyle X}$ можно рассматривать как представление неявного распределения вероятностей ${\ displaystyle q (x_ {i}) = 2 ^ {- \ ell _ {i}}}$ над ${\ displaystyle X}$ , где ${\ displaystyle \ ell _ {i}}$ длина кода для ${\ displaystyle x_ {i}}$ в битах. Следовательно, относительную энтропию можно интерпретировать как ожидаемую дополнительную длину сообщения на данные, которые должны быть переданы, если код оптимален для данного (неправильного) распределения. ${\ displaystyle Q}$ используется, по сравнению с использованием кода, основанного на истинном распределении ${\ displaystyle P}$ .

{\ displaystyle {\ begin {align} D _ {\ text {KL}} (P \ parallel Q) & = - \ sum _ {x \ in {\ mathcal {X}}} p (x) \ log q (x ) + \ sum _ {x \ in {\ mathcal {X}}} p (x) \ log p (x) \\ & = \ mathrm {H} (P, Q) - \ mathrm {H} (P) \ конец {выровнено}}}

где ${\ Displaystyle \ mathrm {H} (P, Q)}$ является кросс энтропии из ${\ displaystyle P}$ а также ${\ displaystyle Q}$ , а также ${\ Displaystyle \ mathrm {H} (P)}$ является энтропия в ${\ displaystyle P}$ (что то же самое, что кросс-энтропия P с самим собой).

Относительная энтропия ${\ Displaystyle D _ {\ текст {KL}} (P \ параллельно Q)}$ можно рассматривать как что-то вроде измерения того, насколько далеко распределение Q от распределения P. Кросс-энтропия ${\ displaystyle H (P, Q)}$ сам по себе является таким измерением, но имеет тот недостаток, что ${\ Displaystyle H (P, P) =: H (P)}$ не ноль, поэтому мы вычитаем ${\ Displaystyle H (P)}$ делать ${\ Displaystyle D _ {\ текст {KL}} (P \ параллельно Q)}$ более точно согласны с нашим понятием расстояния. (К сожалению, это все еще несимметрично.) Относительная энтропия относится к « функции скорости » в теории больших отклонений . ^[8]^[9]

Характеристики

Относительная энтропия всегда неотрицательна ,

{\ Displaystyle D _ {\ текст {KL}} (P \ параллельно Q) \ geq 0,}

результат, известный как неравенство Гиббса , с

{\ Displaystyle D _ {\ текст {KL}} (P \ параллельно Q)}

равно нулю тогда и только тогда, когда

{\ displaystyle P = Q}

почти везде . Энтропия

{\ Displaystyle \ mathrm {H} (P)}

таким образом устанавливает минимальное значение для кросс-энтропии

{\ Displaystyle \ mathrm {H} (P, Q)}

, ожидаемое количество битов, необходимых при использовании кода, основанного на

{\ displaystyle Q}

скорее, чем

{\ displaystyle P}

; поэтому расхождение Кульбака-Лейблера представляет собой ожидаемое количество дополнительных битов, которые необходимо передать, чтобы идентифицировать значение.

{\ displaystyle x}

взяты из

{\ displaystyle X}

, если используется код, соответствующий распределению вероятностей

{\ displaystyle Q}

, а не "истинное" распределение

{\ displaystyle P}

.

Относительная энтропия остается четко определенной для непрерывных распределений и, кроме того, инвариантна относительно преобразований параметров . Например, если преобразование выполняется из переменной ${\ displaystyle x}$ изменять ${\ Displaystyle у (х)}$ , то, поскольку ${\ Displaystyle P (x) dx = P (y) dy}$ а также ${\ Displaystyle Q (x) dx = Q (y) dy}$ относительную энтропию можно переписать:

{\ displaystyle {\ begin {align} D _ {\ text {KL}} (P \ parallel Q) & = \ int _ {x_ {a}} ^ {x_ {b}} P (x) \ log \ left ( {\ frac {P (x)} {Q (x)}} \ right) \, dx \\ [6pt] & = \ int _ {y_ {a}} ^ {y_ {b}} P (y) \ log \ left ({\ frac {P (y) \, {\ frac {dy} {dx}}} {Q (y) \, {\ frac {dy} {dx}}}} \ right) \, dy = \ int _ {y_ {a}} ^ {y_ {b}} P (y) \ log \ left ({\ frac {P (y)} {Q (y)}} \ right) \, dy \ end {выровнено}}}

где

{\ Displaystyle у_ {а} = у (х_ {а})}

а также

{\ displaystyle y_ {b} = y (x_ {b})}

. Хотя предполагалось, что преобразование было непрерывным, это не обязательно. Это также показывает, что относительная энтропия дает размерно согласованную величину, так как если

{\ displaystyle x}

переменная с размерами,

{\ Displaystyle P (x)}

а также

{\ Displaystyle Q (х)}

также имеют размеры, так как, например,

{\ Displaystyle P (x) dx}

безразмерен. Аргумент логарифмического члена был и остается безразмерным, как и должен. Поэтому его можно рассматривать как в некотором смысле более фундаментальную величину, чем некоторые другие свойства в теории информации ^[10] (такие как самоинформация или энтропия Шеннона ), которая может стать неопределенной или отрицательной для недискретных вероятностей.

Относительная энтропия аддитивна для независимых распределений во многом так же, как энтропия Шеннона. Если ${\ displaystyle P_ {1}, P_ {2}}$ независимые распределения, с совместным распределением ${\ Displaystyle P (x, y) = P_ {1} (x) P_ {2} (y)}$ , а также ${\ displaystyle Q, Q_ {1}, Q_ {2}}$ аналогично, тогда

{\ displaystyle D _ {\ text {KL}} (P \ parallel Q) = D _ {\ text {KL}} (P_ {1} \ parallel Q_ {1}) + D _ {\ text {KL}} (P_ { 2} \ parallel Q_ {2}).}

Относительная энтропия ${\ Displaystyle D _ {\ текст {KL}} (P \ параллельно Q)}$ является выпуклым в паре массовых функций вероятности ${\ displaystyle (p, q)}$ , т.е. если ${\ displaystyle (p_ {1}, q_ {1})}$ а также ${\ displaystyle (p_ {2}, q_ {2})}$ - две пары вероятностных массовых функций, то
${\ displaystyle D _ {\ text {KL}} (\ lambda p_ {1} + (1- \ lambda) p_ {2} \ parallel \ lambda q_ {1} + (1- \ lambda) q_ {2}) \ leq \ lambda D _ {\ text {KL}} (p_ {1} \ parallel q_ {1}) + (1- \ lambda) D _ {\ text {KL}} (p_ {2} \ parallel q_ {2}) {\ text {for}} 0 \ leq \ lambda \ leq 1.}$

Следующая теорема называется формулой двойственности для вариационного вывода. Это объясняет некоторые важные свойства вариационных распределений, используемых в вариационных байесовских методах . ^[11]

Теорема. Рассмотрим два вероятностных пространства. ${\ Displaystyle (\ Theta, {\ mathcal {F}}, P)}$ а также ${\ Displaystyle (\ Theta, {\ mathcal {F}}, Q)}$ с участием ${\ Displaystyle Q \ ll P}$ . Предположим, что существует общая доминирующая вероятностная мера ${\ displaystyle \ lambda}$ такой, что ${\ displaystyle P \ ll \ lambda}$ а также ${\ displaystyle Q \ ll \ lambda}$ . Позволять ${\ displaystyle h}$ обозначать любую действительную случайную величину на ${\ Displaystyle (\ Theta, {\ mathcal {F}}, P)}$ это удовлетворяет ${\ Displaystyle ч \ в L_ {1} (P)}$ . Тогда имеет место равенство

{\ displaystyle \ log E_ {P} [\ exp h] = {\ text {sup}} _ {Q \ ll P} \ {E_ {Q} [h] -D _ {\ text {KL}} (Q \ параллельно P) \}.}

Далее, супремум в правой части достигается тогда и только тогда, когда он выполняется

{\ displaystyle {\ frac {q (\ theta)} {p (\ theta)}} = {\ frac {\ exp h (\ theta)} {E_ {P} [\ exp h]}},}

почти наверняка относительно вероятностной меры ${\ displaystyle Q}$ , где ${\ Displaystyle р (\ тета) = дП / д \ лямбда}$ а также ${\ Displaystyle д (\ тета) = dQ / d \ лямбда}$ обозначим производные Радона-Никодима от вероятностных мер ${\ displaystyle P}$ а также ${\ displaystyle Q}$ относительно ${\ displaystyle \ lambda}$ , соответственно.

Примеры

Многомерные нормальные распределения

Предположим, что у нас есть два многомерных нормальных распределения со средними ${\ displaystyle \ mu _ {0}, \ mu _ {1}}$ и с (невырожденными) ковариационными матрицами ${\ displaystyle \ Sigma _ {0}, \ Sigma _ {1}.}$ Если два распределения имеют одинаковую размерность, ${\ displaystyle k}$ , то относительная энтропия между распределениями будет следующей: ^[12]^{: с. 13}

{\ displaystyle D _ {\ text {KL}} \ left ({\ mathcal {N}} _ {0} \ parallel {\ mathcal {N}} _ {1} \ right) = {\ frac {1} {2 }} \ left (\ operatorname {tr} \ left (\ Sigma _ {1} ^ {- 1} \ Sigma _ {0} \ right) + \ left (\ mu _ {1} - \ mu _ {0} \ right) ^ {\ mathsf {T}} \ Sigma _ {1} ^ {- 1} \ left (\ mu _ {1} - \ mu _ {0} \ right) -k + \ ln \ left ({\ frac {\ det \ Sigma _ {1}} {\ det \ Sigma _ {0}}} \ right) \ right).}

Логарифм в последнем члене должен быть принят к базовым е , так как все члены кроме последнего являются BASE - е логарифмами выражений , которые являются либо факторами функции плотности или иначе возникают естественным образом . Таким образом, уравнение дает результат, измеренный в нац . Разделив все выражение выше на ${\ Displaystyle \ ln (2)}$ дает расхождение в битах .

Частным случаем и общей величиной в вариационном выводе является относительная энтропия между диагональным многомерным нормальным и стандартным нормальным распределением (с нулевым средним и единичной дисперсией):

{\ Displaystyle D _ {\ текст {KL}} \ left ({\ mathcal {N}} \ left (\ left (\ mu _ {1}, \ ldots, \ mu _ {k} \ right) ^ {\ mathsf {T}}, \ operatorname {diag} \ left (\ sigma _ {1} ^ {2}, \ ldots, \ sigma _ {k} ^ {2} \ right) \ right) \ parallel {\ mathcal {N }} \ left (\ mathbf {0}, \ mathbf {I} \ right) \ right) = {1 \ over 2} \ sum _ {i = 1} ^ {k} \ left (\ sigma _ {i} ^ {2} + \ mu _ {i} ^ {2} -1- \ ln \ left (\ sigma _ {i} ^ {2} \ right) \ right).}

Отношение к метрикам

У кого-то может возникнуть соблазн назвать относительную энтропию « метрикой расстояния » в пространстве вероятностных распределений, но это будет неверно, поскольку она не симметрична, то есть ${\ displaystyle D _ {\ text {KL}} (P \ parallel Q) \ neq D _ {\ text {KL}} (Q \ parallel P)}$ - и не удовлетворяет неравенству треугольника . Он генерирует топологию на пространстве вероятностных распределений . Более конкретно, если ${\ Displaystyle \ {P_ {1}, P_ {2}, \ ldots \}}$ последовательность распределений такая, что

{\ displaystyle \ lim _ {n \ to \ infty} D _ {\ text {KL}} (P_ {n} \ parallel Q) = 0}

тогда говорят, что

{\ displaystyle P_ {n} {\ xrightarrow {D}} Q.}

Неравенство Пинскера влечет за собой, что

{\ displaystyle P_ {n} {\ xrightarrow {D}} P \ Rightarrow P_ {n} {\ xrightarrow {TV}} P,}

где последний означает обычную сходимость в полной вариации .

Информационная метрика Fisher

Относительная энтропия напрямую связана с информационной метрикой Фишера . Это можно пояснить следующим образом. Предположим, что вероятностные распределения ${\ displaystyle P}$ а также ${\ displaystyle Q}$ оба параметризованы некоторым (возможно, многомерным) параметром ${\ displaystyle \ theta}$ . Рассмотрим тогда два близких по величине значения ${\ Displaystyle P = P (\ theta)}$ а также ${\ Displaystyle Q = P (\ theta _ {0})}$ так что параметр ${\ displaystyle \ theta}$ незначительно отличается от значения параметра ${\ displaystyle \ theta _ {0}}$ . В частности, до первого порядка (с использованием соглашения о суммировании Эйнштейна )

{\ Displaystyle P (\ theta) = P (\ theta _ {0}) + \ Delta \ theta _ {j} P_ {j} (\ theta _ {0}) + \ cdots}

с участием ${\ displaystyle \ Delta \ theta _ {j} = (\ theta - \ theta _ {0}) _ {j}}$ небольшое изменение ${\ displaystyle \ theta}$ в ${\ displaystyle j}$ направление, и ${\ displaystyle P_ {j} \ left (\ theta _ {0} \ right) = {\ frac {\ partial P} {\ partial \ theta _ {j}}} (\ theta _ {0})}$ соответствующая скорость изменения распределения вероятностей. Поскольку относительная энтропия имеет абсолютный минимум 0 при ${\ displaystyle P = Q}$ , т.е. ${\ displaystyle \ theta = \ theta _ {0}}$ , он меняется только на второй порядок по малым параметрам ${\ displaystyle \ Delta \ theta _ {j}}$ . Более формально, как и для любого минимума, первые производные расходимости обращаются в нуль

{\ displaystyle \ left. {\ frac {\ partial} {\ partial \ theta _ {j}}} \ right | _ {\ theta = \ theta _ {0}} D _ {\ text {KL}} (P ( \ theta) \ parallel P (\ theta _ {0})) = 0,}

а по разложению Тейлора до второго порядка

{\ Displaystyle D _ {\ текст {KL}} (P (\ theta) \ parallel P (\ theta _ {0})) = {\ frac {1} {2}} \ Delta \ theta _ {j} \ Delta \ theta _ {k} g_ {jk} (\ theta _ {0}) + \ cdots}

где матрица Гессе дивергенции

{\ displaystyle g_ {jk} (\ theta _ {0}) = \ left. {\ frac {\ partial ^ {2}} {\ partial \ theta _ {j} \, \ partial \ theta _ {k}} } \ right | _ {\ theta = \ theta _ {0}} D _ {\ text {KL}} (P (\ theta) \ parallel P (\ theta _ {0}))}

должно быть положительно полуопределенным . Сдача ${\ displaystyle \ theta _ {0}}$ варьировать (и отбрасывать субиндекс 0) гессианский ${\ displaystyle g_ {jk} (\ theta)}$ определяет (возможно, вырожденную) риманову метрику на пространстве параметров $θ$ , называемую информационной метрикой Фишера.

Информационная метрическая теорема Фишера

Когда ${\ Displaystyle р _ {(х, \ rho)}}$ удовлетворяет следующим условиям регулярности:

{\ displaystyle {\ frac {\ partial \ log (p)} {\ partial \ rho}}, {\ frac {\ partial ^ {2} \ log (p)} {\ partial \ rho ^ {2}}} , {\ frac {\ partial ^ {3} \ log (p)} {\ partial \ rho ^ {3}}}}

существовать,

{\ Displaystyle {\ begin {align} \ left | {\ frac {\ partial p} {\ partial \ rho}} \ right | &

где $ξ$ не зависит от $ρ$

{\ displaystyle \ left. \ int _ {x = 0} ^ {\ infty} {\ frac {\ partial p (x, \ rho)} {\ partial \ rho}} \ right | _ {\ rho = 0} \, dx = \ left. \ int _ {x = 0} ^ {\ infty} {\ frac {\ partial ^ {2} p (x, \ rho)} {\ partial \ rho ^ {2}}} \ справа | _ {\ rho = 0} \, dx = 0}

тогда:

{\ displaystyle {\ mathcal {D}} (p (x, 0) \ parallel p (x, \ rho)) = {\ frac {c \ rho ^ {2}} {2}} + {\ mathcal {O }} \ left (\ rho ^ {3} \ right) {\ text {as}} \ rho \ to 0.}

Вариация информации

Другой теоретико-информационной метрикой является вариация информации , которая представляет собой примерно симметризацию условной энтропии . Это метрика на множестве разбиений дискретного вероятностного пространства .

Отношение к другим количествам теории информации

Многие другие величины теории информации можно интерпретировать как приложения относительной энтропии к конкретным случаям.

Самоинформация

Себя информацию , также известная как информационное содержание сигнала, случайной величины, или события определяются как отрицательный логарифм вероятности данного результата происходящего.

Применительно к дискретной случайной величине самоинформация может быть представлена как ^{[ цитата необходима ]}

{\ displaystyle \ operatorname {\ operatorname {I}} (m) = D _ {\ text {KL}} \ left (\ delta _ {\ text {im}} \ parallel \ {p_ {i} \} \ right) ,}

относительная энтропия распределения вероятностей ${\ Displaystyle P (я)}$ из дельты Кронекера, представляющей уверенность в том, что ${\ Displaystyle я = м}$ - т.е. количество дополнительных битов, которые необходимо передать для идентификации ${\ displaystyle i}$ если бы только распределение вероятностей ${\ Displaystyle P (я)}$ доступен приемнику, не факт, что ${\ Displaystyle я = м}$ .

Взаимная информация

Взаимный обмен информацией ,

{\ Displaystyle {\ begin {align} \ OperatorName {I} (X; Y) & = D _ {\ text {KL}} (P (X, Y) \ parallel P (X) P (Y)) \\ & = \ operatorname {E} _ {X} \ {D _ {\ text {KL}} (P (Y \ mid X) \ parallel P (Y)) \} \\ & = \ operatorname {E} _ {Y} \ {D _ {\ text {KL}} (P (X \ mid Y) \ parallel P (X)) \} \ end {align}}}

относительная энтропия продукта ${\ Displaystyle P (X) P (Y)}$ двух маргинальных распределений вероятностей из совместного распределения вероятностей ${\ Displaystyle P (X, Y)}$ - т.е. ожидаемое количество дополнительных битов, которые должны быть переданы для идентификации ${\ displaystyle X}$ а также ${\ displaystyle Y}$ если они кодируются с использованием только их маргинальных распределений вместо совместного распределения. Эквивалентно, если совместная вероятность ${\ Displaystyle P (X, Y)}$ как известно, это ожидаемое количество дополнительных битов , которые должны быть в среднем послан , чтобы определить ${\ displaystyle Y}$ если стоимость ${\ displaystyle X}$ еще не известно получателю.

Энтропия Шеннона

Энтропия Шеннона ,

{\ displaystyle {\ begin {align} \ mathrm {H} (X) & = \ operatorname {E} \ left [\ operatorname {I} _ {X} (x) \ right] \\ & = \ log (N ) -D _ {\ text {KL}} \ left (p_ {X} (x) \ parallel P_ {U} (X) \ right) \ end {align}}}

это количество бит, которое необходимо передать, чтобы идентифицировать ${\ displaystyle X}$ из ${\ displaystyle N}$ в равной мере вероятные возможности, меньше относительная энтропия равномерного распределения на случайных случайных величин из ${\ displaystyle X}$ , ${\ Displaystyle P_ {U} (X)}$ , из истинного распределения ${\ Displaystyle P (X)}$ - то есть меньше ожидаемого количества сохраненных битов, которое пришлось бы отправить, если бы значение ${\ displaystyle X}$ были закодированы по равномерному распределению ${\ Displaystyle P_ {U} (X)}$ а не истинное распределение ${\ Displaystyle P (X)}$ .

Условная энтропия

Условная энтропия ^[13] ,

{\ displaystyle {\ begin {align} \ mathrm {H} (X \ mid Y) & = \ log (N) -D _ {\ text {KL}} (P (X, Y) \ parallel P_ {U} ( X) P (Y)) \\ & = \ log (N) -D _ {\ text {KL}} (P (X, Y) \ parallel P (X) P (Y)) - D _ {\ text {KL }} (P (X) \ parallel P_ {U} (X)) \\ & = \ mathrm {H} (X) - \ operatorname {I} (X; Y) \\ & = \ log (N) - \ operatorname {E} _ {Y} \ left [D _ {\ text {KL}} \ left (P \ left (X \ mid Y \ right) \ parallel P_ {U} (X) \ right) \ right] \ конец {выровнен}}}

это количество бит, которое необходимо передать, чтобы идентифицировать ${\ displaystyle X}$ из ${\ displaystyle N}$ равновероятные возможности, за вычетом относительной энтропии распределения продукта ${\ Displaystyle P_ {U} (X) P (Y)}$ от истинного совместного распределения ${\ Displaystyle P (X, Y)}$ - то есть меньше ожидаемого количества сохраненных битов, которые пришлось бы отправить, если бы значение ${\ displaystyle X}$ были закодированы по равномерному распределению ${\ Displaystyle P_ {U} (X)}$ а не условное распределение ${\ Displaystyle P (X | Y)}$ из ${\ displaystyle X}$ дано ${\ displaystyle Y}$ .

Перекрестная энтропия

Когда у нас есть набор возможных событий, поступающих из распределения $p$ , мы можем кодировать их (со сжатием данных без потерь ), используя энтропийное кодирование . Это сжимает данные, заменяя каждый входной символ фиксированной длины соответствующим уникальным кодом переменной длины и без префиксов (например: события (A, B, C) с вероятностями p = (1/2, 1/4, 1/4) можно закодировать как биты (0, 10, 11)). Если мы заранее знаем распределение $p$ , мы можем разработать оптимальное кодирование (например, с использованием кодирования Хаффмана ). Это означает, что сообщения, которые мы кодируем, будут иметь в среднем самую короткую длину (при условии, что закодированные события выбираются из $p$ ), которая будет равна энтропии Шеннона для $p$ (обозначается как ${\ displaystyle \ mathrm {H} (p)}$ ). Однако, если мы используем другое распределение вероятностей ( $q$ ) при создании схемы энтропийного кодирования, то большее количество битов будет использоваться (в среднем) для идентификации события из набора возможностей. Это новое (большее) число измеряется перекрестной энтропией между $p$ и $q$ .

Кросс энтропия между двумя вероятностными распределениями ( $р$ и $д$ ) измеряет среднее число бит , необходимых для идентификации события из набора возможностей, если схема кодирования используется на основе заданного распределения вероятностей $ц$ , а не «истинные» распределений $стр$ . Крест энтропия для двух распределений $р$ и $ц$ над одной и тем же вероятностным пространством , таким образом , определяется следующим образом : ^{[ править ]}

{\ displaystyle \ mathrm {H} (p, q) = \ operatorname {E} _ {p} [- \ log (q)] = \ mathrm {H} (p) + D _ {\ text {KL}} ( p \ parallel q).}

В этом сценарии относительные энтропии можно интерпретировать как дополнительное количество битов, которое в среднем необходимо (сверх ${\ displaystyle \ mathrm {H} (p)}$ ) для кодирования событий из-за использования $q$ для построения схемы кодирования вместо $p$ .

Байесовское обновление

В байесовской статистике относительная энтропия может использоваться как мера получения информации при переходе от априорного распределения к апостериорному : ${\ Displaystyle р (х) \ к р (х \ середина I)}$ . Если какой-то новый факт ${\ displaystyle Y = y}$ обнаружен, его можно использовать для обновления апостериорного распределения для ${\ displaystyle X}$ из ${\ Displaystyle р (х \ середина I)}$ к новому апостериорному распределению ${\ Displaystyle р (х \ середина у, я)}$ используя теорему Байеса :

{\ Displaystyle п (х \ середина у, I) = {\ гидроразрыва {п (у \ середина х, I) п (х \ середина I)} {р (у \ середина I)}}}

Это распределение имеет новую энтропию :

{\ displaystyle \ mathrm {H} {\ big (} p (x \ mid y, I) {\ big)} = - \ sum _ {x} p (x \ mid y, I) \ log p (x \ середина y, I),}

которая может быть меньше или больше исходной энтропии ${\ Displaystyle \ mathrm {H} (п (х \ середина I))}$ . Однако с точки зрения нового распределения вероятностей можно оценить, что использовался исходный код на основе ${\ Displaystyle р (х \ середина I)}$ вместо нового кода на основе ${\ Displaystyle р (х \ середина у, я)}$ добавил бы ожидаемое количество бит:

{\ displaystyle D _ {\ text {KL}} {\ big (} p (x \ mid y, I) \ parallel p (x \ mid I) {\ big)} = \ sum _ {x} p (x \ mid y, I) \ log \ left ({\ frac {p (x \ mid y, I)} {p (x \ mid I)}} \ right)}

к длине сообщения. Таким образом, это представляет собой количество полезной информации или получение информации о ${\ displaystyle X}$ , который был изучен путем открытия ${\ displaystyle Y = y}$ .

Если дополнительный фрагмент данных, ${\ displaystyle Y_ {2} = y_ {2}}$ , впоследствии входит, распределение вероятностей для ${\ displaystyle x}$ может быть обновлен, чтобы дать новое лучшее предположение ${\ Displaystyle p (х \ середина y_ {1}, y_ {2}, I)}$ . Если заново исследовать получение информации для использования ${\ displaystyle p (x \ mid y_ {1}, I)}$ скорее, чем ${\ Displaystyle р (х \ середина I)}$ , оказывается, что она может быть как больше, так и меньше, чем предполагалось ранее:

{\ displaystyle \ sum _ {x} p (x \ mid y_ {1}, y_ {2}, I) \ log \ left ({\ frac {p (x \ mid y_ {1}, y_ {2}), I)} {p (x \ mid I)}} \ right)}

может быть ≤ или> чем

{\ displaystyle \ displaystyle \ sum _ {x} p (x \ mid y_ {1}, I) \ log \ left ({\ frac {p (x \ mid y_ {1}, I)} {p (x \ середина I)}} \ right)}

Таким образом, совокупный информационный выигрыш не подчиняется неравенству треугольника:

{\ displaystyle D _ {\ text {KL}} {\ big (} p (x \ mid y_ {1}, y_ {2}, I) \ parallel p (x \ mid I) {\ big)}}

может быть <, = или>, чем

{\ displaystyle D _ {\ text {KL}} {\ big (} p (x \ mid y_ {1}, y_ {2}, I) \ parallel p (x \ mid y_ {1}, I) {\ big )} + D _ {\ text {KL}} {\ big (} p (x \ mid y_ {1}, I) \ parallel p (x \ mid I) {\ big)}}

Все, что можно сказать, это то, что в среднем усреднение с использованием ${\ displaystyle p (y_ {2} \ mid y_ {1}, x, I)}$ , две стороны будут усреднены.

Байесовский экспериментальный дизайн

Общая цель байесовского дизайна экспериментов - максимизировать ожидаемую относительную энтропию между априорной и апостериорной. ^[14] Когда апостериорные распределения аппроксимируются как гауссовские распределения, план, максимизирующий ожидаемую относительную энтропию, называется d-оптимальным Байесом .

Информация о дискриминации

Относительная энтропия ${\ textstyle D _ {\ текст {KL}} {\ bigl (} p (x \ mid H_ {1}) \ parallel p (x \ mid H_ {0}) {\ bigr)}}$ также может интерпретироваться как ожидаемая дискриминационная информация для ${\ displaystyle H_ {1}}$ над ${\ displaystyle H_ {0}}$ : средняя информация на выборку для различения в пользу гипотезы. ${\ displaystyle H_ {1}}$ против гипотезы ${\ displaystyle H_ {0}}$ , когда гипотеза ${\ displaystyle H_ {1}}$ правда. ^[15] Другое название этой величины, данное ей И. Дж. Гудом , - это ожидаемый вес доказательств для ${\ displaystyle H_ {1}}$ над ${\ displaystyle H_ {0}}$ следует ожидать от каждого образца.

Ожидаемый вес доказательств для ${\ displaystyle H_ {1}}$ над ${\ displaystyle H_ {0}}$ это не то же самое , как получить информацию ожидаемых на выборку о распределении вероятностей ${\ displaystyle p (H)}$ гипотез,

{\ displaystyle D _ {\ text {KL}} (p (x \ mid H_ {1}) \ parallel p (x \ mid H_ {0})) \ neq IG = D _ {\ text {KL}} (p ( H \ mid x) \ parallel p (H \ mid I)).}

Любую из этих двух величин можно использовать в качестве функции полезности в байесовском дизайне экспериментов, чтобы выбрать оптимальный следующий вопрос для исследования: но в целом они приводят к довольно разным экспериментальным стратегиям.

На шкале энтропии прироста информации разница между почти достоверностью и абсолютной достоверностью очень мала - кодирование в соответствии с почти достоверностью едва ли требует больше битов, чем кодирование в соответствии с абсолютной достоверностью. С другой стороны, в логит- шкале, подразумеваемой весом доказательств, разница между ними огромна - возможно, бесконечна; это может отражать разницу между почти уверенностью (на вероятностном уровне) в том, что, скажем, гипотеза Римана верна, и уверенностью в ее правильности, поскольку имеется математическое доказательство. Эти две различные шкалы функции потерь для неопределенности являются и полезными, в соответствии с тем, как хорошо каждый отражает конкретные обстоятельства рассматриваемой задачи.

Принцип минимума дискриминационной информации

Идея относительной энтропии как дискриминирующей информации привела Кульбака к предложению принципа Информация о минимальной дискриминации (MDI): с учетом новых фактов, новое распространение ${\ displaystyle f}$ следует выбрать такой, который трудно отличить от исходного распределения. ${\ displaystyle f_ {0}}$ по возможности; так что новые данные дают небольшой выигрыш в информации ${\ displaystyle D _ {\ text {KL}} (е \ параллельно f_ {0})}$ насколько возможно.

Например, если у вас было предыдущее распределение ${\ Displaystyle р (х, а)}$ над ${\ displaystyle x}$ а также ${\ displaystyle a}$ , и впоследствии узнал истинное распределение ${\ displaystyle a}$ было ${\ Displaystyle и (а)}$ , то относительная энтропия между новым совместным распределением для ${\ displaystyle x}$ а также ${\ displaystyle a}$ , ${\ Displaystyle д (х \ середина а) и (а)}$ , а более раннее предварительное распределение будет:

{\ displaystyle D _ {\ text {KL}} (q (x \ mid a) u (a) \ parallel p (x, a)) = \ operatorname {E} _ {u (a)} \ left \ {D_ {\ text {KL}} (q (x \ mid a) \ parallel p (x \ mid a)) \ right \} + D _ {\ text {KL}} (u (a) \ parallel p (a)) ,}

т.е. сумма относительной энтропии ${\ Displaystyle р (а)}$ предварительное распределение для ${\ displaystyle a}$ из обновленного дистрибутива ${\ Displaystyle и (а)}$ , плюс ожидаемое значение (с использованием распределения вероятностей ${\ Displaystyle и (а)}$ ) относительной энтропии априорного условного распределения ${\ Displaystyle р (х \ середина а)}$ из нового условного распределения ${\ Displaystyle д (х \ середина а)}$ . (Обратите внимание, что часто более позднее ожидаемое значение называется условной относительной энтропией (или условной дивергенцией Кульбака-Лейблера ) и обозначается как ${\ Displaystyle D _ {\ текст {KL}} (д (х \ середина а) \ параллель р (х \ середина а))}$ ^[2]^[13]^{: с. 22} ) Это минимизируется, если ${\ Displaystyle д (х \ середина а) = п (х \ середина а)}$ за всю поддержку ${\ Displaystyle и (а)}$ ; и отметим, что этот результат включает теорему Байеса, если новое распределение ${\ Displaystyle и (а)}$ на самом деле является δ-функцией, представляющей уверенность в том, что ${\ displaystyle a}$ имеет одно особое значение.

MDI можно рассматривать как продолжение Лапласа «s принцип недостаточной причины , и принцип максимума энтропии от ET Джейнесом . В частности, это естественное расширение принципа максимальной энтропии от дискретного к непрерывному распределению, для которого энтропия Шеннона перестает быть столь полезной (см. Дифференциальную энтропию ), но относительная энтропия остается столь же актуальной.

В технической литературе MDI иногда называют принципом минимальной кросс-энтропии (MCE) или для краткости Minxent . Минимизация относительной энтропии от ${\ displaystyle m}$ к ${\ displaystyle p}$ относительно ${\ displaystyle m}$ эквивалентно минимизации кросс-энтропии ${\ displaystyle p}$ а также ${\ displaystyle m}$ , поскольку

{\ displaystyle \ mathrm {H} (p, m) = \ mathrm {H} (p) + D _ {\ text {KL}} (p \ parallel m),}

что уместно, если кто-то пытается выбрать адекватное приближение к ${\ displaystyle p}$ . Однако зачастую это не та задача, которую пытаются решить. Вместо этого так же часто ${\ displaystyle m}$ это некоторая фиксированная априорная контрольная мера, и ${\ displaystyle p}$ что пытается оптимизировать, минимизируя ${\ Displaystyle D _ {\ текст {KL}} (п \ параллельно м)}$ при условии некоторого ограничения. Это привело к некоторой двусмысленности в литературе, и некоторые авторы пытались разрешить несогласованность, переопределив кросс-энтропию как ${\ Displaystyle D _ {\ текст {KL}} (п \ параллельно м)}$ , скорее, чем ${\ Displaystyle \ mathrm {H} (п, м)}$ .

Отношение к доступной работе

График зависимости давления от объема доступной работы на моль газообразного аргона относительно окружающей среды, рассчитанный как

{\ displaystyle T_ {o}}

умноженное на расхождение Кульбака – Лейблера.

Сюрприз ^[16] добавляет, где вероятности умножаются. Сюрприз для вероятностного события ${\ displaystyle p}$ определяется как ${\ Displaystyle s = к \ пер (1 / р)}$ . Если ${\ displaystyle k}$ является ${\ displaystyle \ left \ {1,1 / \ ln 2,1.38 \ times 10 ^ {- 23} \ right \}}$ тогда сюрприз в ${\ displaystyle \ {}$ натс, биты или ${\ Displaystyle J / K \}}$ так что, например, есть ${\ displaystyle N}$ кусочки сюрприза за то, что все "головы" на бросок ${\ displaystyle N}$ монеты.

Наиболее вероятные состояния (например, для атомов в газе) выводятся путем максимизации среднего значения неожиданности. ${\ displaystyle S}$ ( энтропия ) для заданного набора параметров управления (например, давления ${\ displaystyle P}$ или объем ${\ displaystyle V}$ ). Эта ограниченная максимизация энтропии , как классически ^{[17], так} и квантово-механически, ^[18] минимизирует доступность Гиббса в единицах энтропии ^[19] ${\ Displaystyle А \ экв -к \ пер (Z)}$ где ${\ displaystyle Z}$ - кратность с ограничениями или статистическая сумма .

Когда температура ${\ displaystyle T}$ фиксирована, свободная энергия ( ${\ displaystyle T \ times A}$ ) также минимизируется. Таким образом, если ${\ displaystyle T, V}$ и количество молекул ${\ displaystyle N}$ постоянны, свободная энергия Гельмгольца ${\ Displaystyle F \ Equiv U-TS}$ (где ${\ displaystyle U}$ это энергия) минимизируется по мере «уравновешивания» системы. Если ${\ displaystyle T}$ а также ${\ displaystyle P}$ поддерживаются постоянными (скажем, во время процессов в вашем теле), свободная энергия Гиббса ${\ Displaystyle G = U + PV-TS}$ вместо этого минимизируется. Изменение свободной энергии в этих условиях является мерой доступной работы, которая может быть проделана в процессе. Таким образом доступна работа для идеального газа при постоянной температуре. ${\ displaystyle T_ {o}}$ и давление ${\ displaystyle P_ {o}}$ является ${\ Displaystyle W = \ Delta G = NkT_ {o} \ Theta (V / V_ {o})}$ где ${\ displaystyle V_ {o} = NkT_ {o} / P_ {o}}$ а также ${\ Displaystyle \ Theta (х) = х-1- \ пер х \ geq 0}$ (см. также неравенство Гиббса ).

В более общем смысле ^[20] работу доступной относительно некоторой температуры окружающей среды получают путем умножения температуры окружающей среды ${\ displaystyle T_ {o}}$ по относительной энтропии или чистой неожиданности ${\ displaystyle \ Delta I \ geq 0,}$ определяется как среднее значение ${\ Displaystyle к \ пер (п / п_ {о})}$ где ${\ displaystyle p_ {o}}$ это вероятность данного состояния при окружающих условиях. Например, работа, доступная для уравновешивания одноатомного идеального газа с окружающими значениями ${\ displaystyle V_ {o}}$ а также ${\ displaystyle T_ {o}}$ таким образом ${\ displaystyle W = T_ {o} \ Delta I}$ , где относительная энтропия

{\ displaystyle \ Delta I = Nk \ left [\ Theta \ left ({\ frac {V} {V_ {o}}} \ right) + {\ frac {3} {2}} \ Theta \ left ({\ frac {T} {T_ {o}}} \ right) \ right].}

Результирующие контуры постоянной относительной энтропии, показанные справа для моля аргона при стандартной температуре и давлении, например, накладывают ограничения на преобразование горячего в холодное, как в пламенном кондиционировании воздуха или в устройстве без источника питания для преобразования кипящего - вода в ледяную воду обсуждается здесь. ^[21] Таким образом, относительная энтропия измеряет термодинамическую доступность в битах.

Квантовая теория информации

Для матриц плотности ${\ displaystyle P}$ а также ${\ displaystyle Q}$ в гильбертовом пространстве , тем квант относительной энтропии от ${\ displaystyle Q}$ к ${\ displaystyle P}$ определяется как

{\ displaystyle D _ {\ text {KL}} (P \ parallel Q) = \ operatorname {Tr} (P (\ log (P) - \ log (Q))).}

В квантовой информатике минимум ${\ Displaystyle D _ {\ текст {KL}} (P \ параллельно Q)}$ по всем разделимым состояниям ${\ displaystyle Q}$ также может использоваться как мера запутанности в состоянии ${\ displaystyle P}$ .

Связь между моделями и реальностью

Точно так же, как относительная энтропия «реального из окружающей среды» измеряет термодинамическую доступность, относительная энтропия «реальности из модели» также полезна, даже если единственные подсказки, которые у нас есть о реальности, - это некоторые экспериментальные измерения. В первом случае относительная энтропия описывает расстояние до равновесия или (при умножении на температуру окружающей среды) объем доступной работы , а во втором случае она сообщает вам о сюрпризах, которые реальность готовит, или, другими словами, насколько модель еще предстоит узнать .

Хотя этот инструмент для сравнения моделей с системами, доступными экспериментально, может применяться в любой области, его применение для выбора статистической модели с помощью информационного критерия Акаике особенно хорошо описано в статьях ^[22] и книге ^[23] Бернхэма и Андерсона. Короче говоря, относительная энтропия реальности модели может быть оценена с точностью до постоянного аддитивного члена как функция отклонений, наблюдаемых между данными и предсказаниями модели (например, среднеквадратичное отклонение ). Оценки такого расхождения для моделей, которые используют один и тот же аддитивный член, в свою очередь, могут использоваться для выбора моделей.

При попытке подогнать параметризованные модели к данным существуют различные оценщики, которые пытаются минимизировать относительную энтропию, такие как оценщики максимального правдоподобия и максимального интервала . ^{[ необходима цитата ]}

Симметричное расхождение

Сами Кульбак и Лейблер фактически определили расхождение как:

{\ displaystyle D _ {\ text {KL}} (P \ parallel Q) + D _ {\ text {KL}} (Q \ parallel P)}

которая симметрична и неотрицательна. Это количество иногда использовалось для выбора признаков в задачах классификации , где ${\ displaystyle P}$ а также ${\ displaystyle Q}$ являются условными PDF-файлами функции в двух разных классах. В банковской и финансовой отраслях эта величина называется индексом стабильности населения (PSI) и используется для оценки распределительных сдвигов в характеристиках модели во времени.

Альтернатива дается через ${\ displaystyle \ lambda}$ расхождение

{\ displaystyle D _ {\ lambda} (P \ parallel Q) = \ lambda D _ {\ text {KL}} (P \ parallel \ lambda P + (1- \ lambda) Q) + (1- \ lambda) D _ {\ текст {KL}} (Q \ parallel \ lambda P + (1- \ lambda) Q),}

что можно интерпретировать как ожидаемое получение информации о ${\ displaystyle X}$ от обнаружения того, какое распределение вероятностей ${\ displaystyle X}$ взят из, ${\ displaystyle P}$ или же ${\ displaystyle Q}$ , если у них в настоящее время есть вероятности ${\ displaystyle \ lambda}$ а также ${\ displaystyle 1- \ lambda}$ соответственно. ^{[ требуется уточнение ]}^{[ необходима цитата ]}

Значение ${\ displaystyle \ lambda = 0,5}$ дает расхождение Дженсена – Шеннона , определяемое формулой

{\ displaystyle D _ {\ text {JS}} = {\ frac {1} {2}} D _ {\ text {KL}} (P \ parallel M) + {\ frac {1} {2}} D _ {\ текст {KL}} (Q \ parallel M)}

где ${\ displaystyle M}$ среднее из двух распределений,

{\ displaystyle M = {\ frac {1} {2}} (P + Q).}

${\ displaystyle D_ {JS}}$ может также интерпретироваться как пропускная способность зашумленного информационного канала с двумя входами, дающими выходные распределения ${\ displaystyle P}$ а также ${\ displaystyle Q}$ . Дивергенция Дженсена – Шеннона, как и все f- расхождения, локально пропорциональна метрике информации Фишера . Она похожа на метрику Хеллингера (в том смысле, что индуцирует ту же аффинную связность на статистическом многообразии ).

Кроме того, дивергенция Дженсена-Шеннона может быть обобщена с использованием абстрактных статистических M-смесей, основанных на абстрактном среднем M. ^[24]^[25]

Связь с другими вероятностно-дистанционными мерами

Есть много других важных мер вероятностного расстояния . Некоторые из них особенно связаны с относительной энтропией. Например:

Общее расстояние вариации , ${\ displaystyle \ delta (p, q)}$ . Это связано с расхождением через неравенство Пинскера : ${\ displaystyle \ delta (P, Q) \ leq {\ sqrt {{\ frac {1} {2}} D _ {\ text {KL}} (P \ parallel Q)}}}$
Семейство расходимостей Реньи обобщает относительную энтропию. В зависимости от значения определенного параметра, ${\ displaystyle \ alpha}$ , можно вывести различные неравенства.

Другие известные меры расстояния включают Хеллингера расстояние , гистограммы пересечения , хи-квадрат статистики , квадратичную форму расстояние , расстояние соответствия , Колмогорова-Смирнова расстояние и расстояние от Земли движителя в . ^[26]

Различие данных

Точно так же, как абсолютная энтропия служит теоретическим фоном для сжатия данных , относительная энтропия служит теоретическим фоном для различения данных - абсолютная энтропия набора данных в этом смысле является данными, необходимыми для его восстановления (минимальный сжатый размер), в то время как относительная энтропия целевого набора данных, заданного источником набор данных, это данные , необходимые для восстановления целевого заданного источника (минимальный размер пластыря ).

Смотрите также

Информационный критерий Акаике
Байесовский информационный критерий
Дивергенция Брегмана
Кросс-энтропия
Информационный критерий отклонения
Энтропийная ценность под угрозой
Неравенство энтропийной мощности
Расстояние Хеллингера
Сбор информации в деревьях решений
Коэффициент получения информации
Теория информации и теория меры
Расхождение Дженсена – Шеннона
Квантовая относительная энтропия
Соломон Кульбак и Ричард Лейблер

Внешние ссылки

Набор инструментов для теоретических оценщиков информации
Ruby gem для вычисления расхождения Кульбака – Лейблера
Учебник Джона Шленса по дивергенции Кульбака – Лейблера и теории правдоподобия
Программа Matlab для вычисления расходимости Кульбака – Лейблера для дискретных распределений
Серхио Верду , Относительная энтропия , NIPS 2009. Часовая видеолекция.
Современное резюме теоретико-информационных мер дивергенции

[KullbackLeibler1951-1] Кульбак, С .; Лейблер, Р.А. (1951). «Об информации и достаточности» . Анналы математической статистики . 22 (1): 79–86. DOI : 10.1214 / АОМ / 1177729694 . JSTOR 2236703 . Руководство по ремонту 0039968 .

[Kullback1959-2] а б в г Кульбак, С. (1959), Теория информации и статистика , John Wiley & Sons. Переиздано Dover Publications в 1968 году; перепечатано в 1978 г .: ISBN 0-8446-5625-9 .

[Kullback1987-3] Кульбак, С. (1987). «Письмо в редакцию. Расстояние Кульбака – Лейблера». Американский статистик . 41 (4): 340–341. DOI : 10.1080 / 00031305.1987.10475510 . JSTOR 2684769 .

[MacKey2003-4] Маккей, Дэвид JC (2003). Теория информации, вывод и алгоритмы обучения (первое издание). Издательство Кембриджского университета. п. 34. ISBN 9780521642989.

[5] Перейти ↑ Bishop C. (2006). Распознавание образов и машинное обучение

[6] Бернем, КП; Андерсон, Д.Р. (2002). Выбор модели и многомодельный вывод (2-е изд.). Springer. п. 51 . ISBN 9780387953649.

[7] Хобсон, Артур (1971). Понятия статистической механики . Нью-Йорк: Гордон и Брич. ISBN 978-0677032405.

[Sanov-8] Санов И.Н. (1957). «О вероятности больших отклонений случайных величин». Мат. Сборник . 42 (84): 11–44.

[Novak-9] Новак SY (2011), Экстремальные методы Значение с приложениями к финансам гл. 14,5 ( Чепмен и Холл ). ISBN 978-1-4398-3574-6 .

[VerduLecture-10] См. Раздел «дифференциальная энтропия - 4» ввидеолекции по относительной энтропии Серджио Верду NIPS 2009

[11] Ли, Се Юн (2021). "Сэмплер Гиббса и вариационный вывод координатного восхождения: теоретико-множественный обзор". Коммуникации в статистике - теория и методы . arXiv : 2008.01006 . DOI : 10.1080 / 03610926.2021.1921214 .

[12] Дучи Дж., " Выводы для линейной алгебры и оптимизации ".

[CoverThomas-13] а б Обложка, Томас М .; Томас, Джой А. (1991), Элементы теории информации , John Wiley & Sons

[14] Chaloner, K .; Вердинелли, И. (1995). «Байесовский экспериментальный дизайн: обзор» . Статистическая наука . 10 (3): 273–304. DOI : 10,1214 / сс / 1177009939 .

[15] Нажмите, WH; Теукольский, С.А. Феттерлинг, Вашингтон; Фланнери, ВР (2007). «Раздел 14.7.2. Расстояние Кульбака – Лейблера» . Числовые рецепты: искусство научных вычислений (3-е изд.). Издательство Кембриджского университета. ISBN 978-0-521-88068-8.

[16] Майрон Трибус (1961), Термодинамика и термостатика (Д. Ван Ностранд, Нью-Йорк)

[17] Джейнс, ET (1957). «Теория информации и статистическая механика» (PDF) . Физический обзор . 106 (4): 620–630. Bibcode : 1957PhRv..106..620J . DOI : 10.1103 / Physrev.106.620 .

[18] Джейнс, ET (1957). «Теория информации и статистическая механика II» (PDF) . Физический обзор . 108 (2): 171–190. Bibcode : 1957PhRv..108..171J . DOI : 10.1103 / Physrev.108.171 .

[19] Дж. У. Гиббс (1873), «Метод геометрического представления термодинамических свойств веществ с помощью поверхностей», перепечатанный в Сборнике работ Дж. У. Гиббса, Том I Термодинамика , изд. WR Longley и RG Van Name (New York: Longmans, Green, 1931) сноска на стр. 52.

[20] Tribus, M .; Макирвайн, EC (1971). «Энергия и информация». Scientific American . 224 (3): 179–186. Bibcode : 1971SciAm.225c.179T . DOI : 10.1038 / Scientificamerican0971-179 .

[21] Фраундорф, П. (2007). «Термические корни корреляционной сложности» . Сложность . 13 (3): 18–26. arXiv : 1103.2481 . Bibcode : 2008Cmplx..13c..18F . DOI : 10.1002 / cplx.20195 . S2CID 20794688 . Архивировано из оригинала на 2011-08-13.

[22] Бернем, КП; Андерсон, Д.Р. (2001). «Информация Кульбака – Лейблера как основа для убедительных выводов в экологических исследованиях» . Исследования дикой природы . 28 (2): 111–119. DOI : 10,1071 / WR99107 .

[23] Бернхэм, КП и Андерсон Д.Р. (2002), Выбор модели и многомодельный вывод: практический теоретико-информационный подход, второе издание (Springer Science) ISBN 978-0-387-95364-9 .

[Nielsen2019-24] Нильсен, Франк (2019). "О симметризации расстояний Йенсена – Шеннона с помощью абстрактных средств" . Энтропия . 21 (5): 485. DOI : 10,3390 / e21050485 .

[Nielsen2020-25] Нильсен, Франк (2020). «Об одном обобщении дивергенции Дженсена – Шеннона и центроида Дженсена – Шеннона» . Энтропия . 22 (2): 221. DOI : 10,3390 / e22020221 .

[earth-26] Rubner, Y .; Tomasi, C .; Гибас, LJ (2000). «Расстояние землекопа как метрика для поиска изображения». Международный журнал компьютерного зрения . 40 (2): 99–121. DOI : 10,1023 / A: 1026543900054 . S2CID 14106275 .

[1]