Условная энтропия

Теория информации

Энтропия Дифференциальная энтропия Условная энтропия Совместная энтропия Взаимная информация Условная взаимная информация Относительная энтропия Скорость энтропии Предельная плотность дискретных точек
Асимптотическое свойство равнораспределения Теория скорости – искажения
Теорема Шеннона о кодировании источника Емкость канала Теорема кодирования с шумом Теорема Шеннона – Хартли.
v т е

Диаграмма Венна, показывающая аддитивные и вычитающие отношения различных информационных мер, связанных с коррелированными переменными и . Площадь, содержащаяся в обоих кругах, является совместной энтропией . Круг слева (красный и фиолетовый) - это индивидуальная энтропия , а красный - условная энтропия . Круг справа (синий и фиолетовый) - это синее существо . Фиолетовый - взаимная информация .

{\ displaystyle X}

{\ displaystyle Y}

{\ Displaystyle \ mathrm {H} (X, Y)}

{\ Displaystyle \ mathrm {H} (X)}

{\ Displaystyle \ mathrm {H} (X | Y)}

{\ Displaystyle \ mathrm {H} (Y)}

{\ Displaystyle \ mathrm {H} (Y | X)}

\operatorname {I} (X;Y)

В теории информации , то условная энтропия количественно объем информации , необходимый для описания исхода случайной величины , учитывая , что значение другой случайной величины известно. Здесь информация измеряется в шеннонах , натах или хартли . Энтропия обусловлена записывается . $Y$ $X$ $Y$ $X$ $\mathrm {H} (Y|X)$

Определение [ править ]

Условная энтропия заданного определяется как $Y$ $X$

\mathrm {H} (Y|X)\ =-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x,y)}{p(x)}}

( Уравнение 1 )

где и обозначают наборы поддержки из и . ${\mathcal {X}}$ ${\mathcal {Y}}$ $X$ $Y$

Примечание. Принято считать, что выражения и для фиксированного значения равны нулю. Это потому, что и ^[1] $0\log 0$ $0\log c/0$ $c>0$ $\lim _{\theta \to 0^{+}}\theta \,\log \,c/\theta =0$ $\lim _{\theta \to 0^{+}}\theta \,\log \theta =0$

Интуитивное объяснение определения: Согласно определению, где сопоставляет информационное содержание с учетом , что объем информации , необходимой для описания события заданного . Согласно закону больших чисел, является средним арифметическим большого числа независимых реализаций . $\displaystyle H(Y|X)=\mathbb {E} (\ f(X,Y)\ )$ $\displaystyle f:(x,y)\ \rightarrow -\log(\ p(y|x)\ ).$ $\displaystyle f$ $\displaystyle (x,y)$ $\displaystyle (Y=y)$ $\displaystyle (X=x)$ $\displaystyle (Y=y)$ $(X=x)$ $\displaystyle H(Y|X)$ $\displaystyle f(X,Y)$

Мотивация [ править ]

Позвольте быть энтропией дискретной случайной величины, обусловленной дискретной случайной величиной, принимающей определенное значение . Обозначим опорные множества и через и . Пусть есть функция массы вероятности . Безусловная энтропия вычисляется как , т.е. $\mathrm {H} (Y|X=x)$ $Y$ $X$ $x$ $X$ $Y$ ${\mathcal {X}}$ ${\mathcal {Y}}$ $Y$ $p_{Y}{(y)}$ $Y$ $\mathrm {H} (Y):=\mathbb {E} [\operatorname {I} (Y)]$

\mathrm {H} (Y)=\sum _{y\in {\mathcal {Y}}}{\mathrm {Pr} (Y=y)\,\mathrm {I} (y)}=-\sum _{y\in {\mathcal {Y}}}{p_{Y}(y)\log _{2}{p_{Y}(y)}},

где это информационное содержание от результата в принимающем значение . Энтропия условного принятия значения определяется аналогично условным математическим ожиданием : $\operatorname {I} (y_{i})$ $Y$ $y_{i}$ $Y$ $X$ $x$

\mathrm {H} (Y|X=x)=-\sum _{y\in {\mathcal {Y}}}{\Pr(Y=y|X=x)\log _{2}{\Pr(Y=y|X=x)}}.

Обратите внимание , что является результатом усреднения по всем возможным значениям , которые могут принимать. Кроме того, если указанная выше сумма берется за образец , ожидаемое значение в некоторых областях известно как двусмысленность . ^[2] $\mathrm {H} (Y|X)$ $\mathrm {H} (Y|X=x)$ $x$ $X$ $y_{1},\dots ,y_{n}$ $E_{X}[\mathrm {H} (y_{1},\dots ,y_{n}\mid X=x)]$

Для заданных дискретных случайных величин с изображением и с изображением условная энтропия данных определяется как взвешенная сумма для каждого возможного значения с использованием в качестве весов: ^[3]^:¹⁵ $X$ ${\mathcal {X}}$ $Y$ ${\mathcal {Y}}$ $Y$ $X$ $\mathrm {H} (Y|X=x)$ $x$ $p(x)$

{\begin{aligned}\mathrm {H} (Y|X)\ &\equiv \sum _{x\in {\mathcal {X}}}\,p(x)\,\mathrm {H} (Y|X=x)\\&=-\sum _{x\in {\mathcal {X}}}p(x)\sum _{y\in {\mathcal {Y}}}\,p(y|x)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}\,p(x,y)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x,y)}{p(x)}}.\\&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x)}{p(x,y)}}.\\\end{aligned}}

Свойства [ править ]

Условная энтропия равна нулю [ править ]

$\mathrm {H} (Y|X)=0$ тогда и только тогда, когда значение полностью определяется значением . $Y$ $X$

Условная энтропия независимых случайных величин [ править ]

Наоборот, тогда и только тогда, когда и являются независимыми случайными величинами . $\mathrm {H} (Y|X)=\mathrm {H} (Y)$ $Y$ $X$

Цепное правило [ править ]

Предположим, что комбинированная система определяется двумя случайными величинами и имеет совместную энтропию , то есть нам нужны биты информации в среднем для описания ее точного состояния. Теперь, если мы сначала узнаем значение , мы получили бит информации. Как только он известен, нам нужны только биты для описания состояния всей системы. Это точно , что дает цепное правило условной энтропии: $X$ $Y$ $\mathrm {H} (X,Y)$ $\mathrm {H} (X,Y)$ $X$ $\mathrm {H} (X)$ $X$ $\mathrm {H} (X,Y)-\mathrm {H} (X)$ $\mathrm {H} (Y|X)$

\mathrm {H} (Y|X)\,=\,\mathrm {H} (X,Y)-\mathrm {H} (X).

^[3]^{: 17}

Цепное правило следует из приведенного выше определения условной энтропии:

{\begin{aligned}\mathrm {H} (Y|X)&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \left({\frac {p(x)}{p(x,y)}}\right)\\[4pt]&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)(\log(p(x))-\log(p(x,y)))\\[4pt]&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log(p(x,y))+\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}{p(x,y)\log(p(x))}\\[4pt]&=\mathrm {H} (X,Y)+\sum _{x\in {\mathcal {X}}}p(x)\log(p(x))\\[4pt]&=\mathrm {H} (X,Y)-\mathrm {H} (X).\end{aligned}}

В общем, выполняется цепное правило для нескольких случайных величин:

\mathrm {H} (X_{1},X_{2},\ldots ,X_{n})=\sum _{i=1}^{n}\mathrm {H} (X_{i}|X_{1},\ldots ,X_{i-1})

^[3]^{: 22}

Он имеет форму, аналогичную цепному правилу в теории вероятностей, за исключением того, что вместо умножения используется сложение.

Правило Байеса [ править ]

Правило Байеса для состояний условной энтропии

\mathrm {H} (Y|X)\,=\,\mathrm {H} (X|Y)-\mathrm {H} (X)+\mathrm {H} (Y).

Доказательство. и . Симметрия влечет за собой . Вычитание двух уравнений подразумевает правило Байеса. $\mathrm {H} (Y|X)=\mathrm {H} (X,Y)-\mathrm {H} (X)$ $\mathrm {H} (X|Y)=\mathrm {H} (Y,X)-\mathrm {H} (Y)$ $\mathrm {H} (X,Y)=\mathrm {H} (Y,X)$

Если это условно независимы от дано мы имеем: $Y$ $Z$ $X$

\mathrm {H} (Y|X,Z)\,=\,\mathrm {H} (Y|X).

Другие свойства [ править ]

Для любых и : $X$ $Y$

{\begin{aligned}\mathrm {H} (Y|X)&\leq \mathrm {H} (Y)\,\\\mathrm {H} (X,Y)&=\mathrm {H} (X|Y)+\mathrm {H} (Y|X)+\operatorname {I} (X;Y),\qquad \\\mathrm {H} (X,Y)&=\mathrm {H} (X)+\mathrm {H} (Y)-\operatorname {I} (X;Y),\,\\\operatorname {I} (X;Y)&\leq \mathrm {H} (X),\,\end{aligned}}

где есть взаимный обмен информацией между и . $\operatorname {I} (X;Y)$ $X$ $Y$

Для независимых и : $X$ $Y$

\mathrm {H} (Y|X)=\mathrm {H} (Y)

и

\mathrm {H} (X|Y)=\mathrm {H} (X)\,

Хотя конкретная-условная энтропия может быть меньше или больше , чем для данного случайных варьировать от , никогда не может превышать . $\mathrm {H} (X|Y=y)$ $\mathrm {H} (X)$ $y$ $Y$ $\mathrm {H} (X|Y)$ $\mathrm {H} (X)$

Условная дифференциальная энтропия [ править ]

Определение [ править ]

Приведенное выше определение предназначено для дискретных случайных величин. Непрерывная версия дискретной условной энтропии называется условной дифференциальной (или непрерывной) энтропией . Позвольте и быть непрерывными случайными величинами с совместной функцией плотности вероятности . Дифференциальная условная энтропия определяется как ^[3]^:²⁴⁹ $X$ $Y$ $f(x,y)$ $h(X|Y)$

h(X|Y)=-\int _{{\mathcal {X}},{\mathcal {Y}}}f(x,y)\log f(x|y)\,dxdy

( Уравнение 2 )

Свойства [ править ]

В отличие от условной энтропии для дискретных случайных величин, условная дифференциальная энтропия может быть отрицательной.

Как и в дискретном случае, для дифференциальной энтропии существует цепное правило:

h(Y|X)\,=\,h(X,Y)-h(X)

^[3]^{: 253}

Обратите внимание, однако, что это правило может быть неверным, если задействованные дифференциальные энтропии не существуют или бесконечны.

Совместная дифференциальная энтропия также используется в определении взаимной информации между непрерывными случайными величинами:

\operatorname {I} (X,Y)=h(X)-h(X|Y)=h(Y)-h(Y|X)

$h(X|Y)\leq h(X)$ с равенством тогда и только тогда, когда и независимы. ^[3]^:²⁵³ $X$ $Y$

Связь с ошибкой оценщика [ править ]

Условная дифференциальная энтропия дает нижнюю границу ожидаемой квадратичной ошибки оценки . Для любой случайной величины , наблюдения и оценки выполняется следующее: ^[3]^:²⁵⁵ $X$ $Y$ ${\widehat {X}}$

\mathbb {E} \left[{\bigl (}X-{\widehat {X}}{(Y)}{\bigr )}^{2}\right]\geq {\frac {1}{2\pi e}}e^{2h(X|Y)}

Это связано с принципом неопределенности из квантовой механики .

Обобщение квантовой теории [ править ]

В квантовой теории информации условная энтропия обобщается на условную квантовую энтропию . Последний может принимать отрицательные значения, в отличие от своего классического аналога.

См. Также [ править ]

Энтропия (теория информации)
Взаимная информация
Условная квантовая энтропия
Вариация информации
Неравенство энтропийной мощности
Функция правдоподобия

Ссылки [ править ]

^ «Дэвид Маккей: теория информации, распознавание образов и нейронные сети: книга» . www.inference.org.uk . Проверено 25 октября 2019 .
^ Хеллман, М .; Равив, Дж. (1970). «Вероятность ошибки, двусмысленность и оценка Чернова». IEEE Transactions по теории информации . 16 (4): 368–372.
^ a b c d e f g T. Обложка ; Дж. Томас (1991). Элементы теории информации . ISBN 0-471-06259-6.

[1] «Дэвид Маккей: теория информации, распознавание образов и нейронные сети: книга» . www.inference.org.uk . Проверено 25 октября 2019 .

[2] Хеллман, М .; Равив, Дж. (1970). «Вероятность ошибки, двусмысленность и оценка Чернова». IEEE Transactions по теории информации . 16 (4): 368–372.

[cover1991-3] T. Обложка ; Дж. Томас (1991). Элементы теории информации . ISBN 0-471-06259-6.