Информационное содержание

В теории информации , на информационном содержании , самостоятельной информации , surprisal или информации Шеннона является основным количеством производного от вероятности конкретного события , происходящего от случайной величины . Его можно рассматривать как альтернативный способ выражения вероятности, очень похожий на шансы или логарифмические шансы , но который имеет определенные математические преимущества в контексте теории информации.

Информацию Шеннона можно интерпретировать как количественную оценку уровня «неожиданности» конкретного результата. Поскольку это такая базовая величина, она также появляется в нескольких других параметрах, таких как длина сообщения, необходимого для передачи события, при оптимальном исходном коде случайной величины.

Информация Шеннона тесно связана с теоретической энтропией информации , которая представляет собой ожидаемое значение самоинформации случайной величины, количественно определяющее, насколько удивительной является случайная величина «в среднем». Это средний объем самоинформации, которую наблюдатель ожидал бы получить о случайной величине при ее измерении. ^[1]

Информационное содержание может быть выражено в различных единицах информации , наиболее распространенной из которых является «бит» (иногда также называемый «шенноном»), как поясняется ниже.

Определение

Определение самоинформации Клода Шеннона было выбрано так, чтобы соответствовать нескольким аксиомам:

Событие с вероятностью 100% совершенно неудивительно и не дает никакой информации.
Чем менее вероятно событие, тем оно удивительнее и тем больше информации оно дает.
Если два независимых события измеряются отдельно, общий объем информации является суммой самоинформации отдельных событий.

Подробный вывод приведен ниже, но можно показать, что существует уникальная функция вероятности, которая соответствует этим трем аксиомам, с точностью до мультипликативного масштабного коэффициента. В широком смысле событие ${\ displaystyle x}$ с вероятностью ${\ displaystyle P}$ , информационное содержание определяется следующим образом:

${\ displaystyle \ operatorname {I} (x): = - \ log _ {b} {\ left [\ Pr {\ left (x \ right)} \ right]} = - \ log _ {b} {\ left (P \ right)}.}$

База журнала остается неопределенной, что соответствует приведенному выше коэффициенту масштабирования. Различный выбор основания соответствует разным единицам информации: если логарифмическое основание равно 2, единица называется « бит » или «шеннон» ; если логарифм является натуральным логарифмом (соответствует основному числу Эйлера e ≈ 2,7182818284), единица измерения называется «нат» , сокращенно от «натуральный»; а если основание равно 10, единицы называются «хартли» , десятичные «цифры» или иногда «точками».

Формально, учитывая случайную величину ${\ displaystyle X}$ с функцией массы вероятности ${\ displaystyle p_ {X} {\ left (x \ right)}}$ , самоинформация измерения ${\ displaystyle X}$ как результат ${\ displaystyle x}$ определяется как

${\ displaystyle \ operatorname {I} _ {X} (x): = - \ log {\ left [p_ {X} {\ left (x \ right)} \ right]} = \ log {\ left ({\ frac {1} {p_ {X} {\ left (x \ right)}}} \ right)}.}$ ^[2]

Энтропия Шеннона случайной величины ${\ displaystyle X}$ выше определяется как

{\ displaystyle {\ begin {alignat} {2} \ mathrm {H} (X) & = \ sum _ {x} {- p_ {X} {\ left (x \ right)} \ log {p_ {X} {\ left (x \ right)}}} \\ & = \ sum _ {x} {p_ {X} {\ left (x \ right)} \ operatorname {I} _ {X} (x)} \\ & {\ overset {\ underset {\ mathrm {def}} {}} {=}} \ \ operatorname {E} {\ left [\ operatorname {I} _ {X} (X) \ right]}, \ end {alignat}}}

по определению равно ожидаемому информационному содержанию измерения ${\ displaystyle X}$ . ^[3]^{: 11}^[4]^{: 19–20}

Использование обозначений ${\ Displaystyle I_ {X} (х)}$ для самооценки приведенная выше информация не универсальна. Поскольку обозначение ${\ Displaystyle I (X; Y)}$ также часто используется для обозначения связанного количества взаимной информации , многие авторы используют строчные буквы ${\ displaystyle h_ {X} (x)}$ вместо самоэнтропии, отражая использование капитала ${\ Displaystyle H (X)}$ для энтропии.

Характеристики

Монотонно убывающая функция вероятности

Для данного вероятностного пространства измерения более редких событий интуитивно более «удивительны» и дают больше информации, чем более общие значения. Таким образом, самоинформация - это строго убывающая монотонная функция вероятности или иногда называемая «антитонической» функцией.

Стандартные вероятности представлены действительными числами в интервале ${\ displaystyle [0,1]}$ , самоинформация представлена расширенными действительными числами в интервале ${\ displaystyle [0, \ infty]}$ . В частности, для любого выбора логарифмического основания у нас есть следующее:

Если конкретное событие имеет 100% вероятность наступления, то его самоинформация ${\ displaystyle - \ log (1) = 0}$ : его появление «совершенно не удивительно» и не дает никакой информации.
Если конкретное событие имеет вероятность наступления 0%, то его самоинформация ${\ Displaystyle - \ журнал (0) = \ infty}$ : его появление «бесконечно удивительно».

Отсюда мы можем получить несколько общих свойств:

Интуитивно больше информации можно получить, наблюдая за неожиданным событием - это «удивительно».
- Например, если есть шанс один на миллион, что Алиса выиграет в лотерею , ее друг Боб получит значительно больше информации, узнав, что она выиграла, чем то, что она проиграла в данный день. (См. Также: Математика лотереи .)
Это устанавливает неявную связь между самоинформацией случайной величины и ее дисперсией .

Связь с логарифмическими шансами

Информация Шеннона тесно связана с логарифмическими шансами . В частности, учитывая какое-то событие ${\ displaystyle x}$ , Предположим, что ${\ displaystyle p (x)}$ это вероятность ${\ displaystyle x}$ происходит, и что ${\ Displaystyle р (\ lnot х) = 1-р (х)}$ это вероятность ${\ displaystyle x}$ не происходит. Тогда у нас есть следующее определение логарифма шансов:

${\ displaystyle {\ text {log-odds}} (x) = \ log \ left ({\ frac {p (x)} {p (\ lnot x)}} \ right)}$

Это можно выразить как разность двух данных Шеннона:

${\ displaystyle {\ text {log-odds}} (х) = I (\ lnot x) -I (x)}$

Другими словами, логарифмические шансы можно интерпретировать как уровень неожиданности, если событие «не произойдет», минус уровень неожиданности, если событие «произойдет».

Аддитивность независимых событий

Информационное содержание двух независимых событий - это сумма информационного содержания каждого события. Это свойство известно как аддитивность в математике и сигма-аддитивность, в частности, в теории меры и вероятности. Рассмотрим две независимые случайные величины ${\ textstyle X, \, Y}$ с вероятностными массовыми функциями ${\ displaystyle p_ {X} (x)}$ а также ${\ displaystyle p_ {Y} (y)}$ соответственно. Функция масс совместных вероятностей является

{\ Displaystyle p_ {X, Y} \! \ left (x, y \ right) = \ Pr (X = x, \, Y = y) = p_ {X} \! (x) \, p_ {Y} \! (y)}

так как ${\ textstyle X}$ а также ${\ textstyle Y}$ являются независимыми . Информационное содержание результата ${\ Displaystyle (X, Y) = (x, y)}$ является

{\ displaystyle {\ begin {align} \ operatorname {I} _ {X, Y} (x, y) & = - \ log _ {2} \ left [p_ {X, Y} (x, y) \ right ] = - \ log _ {2} \ left [p_ {X} \! (x) p_ {Y} \! (y) \ right] \\ & = - \ log _ {2} \ left [p_ {X } {(x)} \ right] - \ log _ {2} \ left [p_ {Y} {(y)} \ right] \\ & = \ operatorname {I} _ {X} (x) + \ operatorname {I} _ {Y} (y) \ end {align}}}

См. Пример ниже в § Две независимые, одинаково распределенные кости .

Соответствующее свойство правдоподобия состоит в том, что логарифмическая вероятность независимых событий является суммой логарифмических правдоподобий каждого события. Интерпретируя логарифмическую вероятность как «поддержку» или отрицательную неожиданность (степень, в которой событие поддерживает данную модель: модель поддерживается событием в той степени, в которой событие неудивительно для данной модели), это означает, что независимые события добавляют поддержка: информация, которую два события вместе предоставляют для статистического вывода, является суммой их независимой информации.

Заметки

Этот показатель также называют неожиданным , поскольку он представляет собой « сюрприз » от увиденного результата (крайне маловероятный результат очень удивителен). Этот термин (как мера логарифмической вероятности) был введен Майроном Трибусом в его книге « Термостатика и термодинамика» 1961 года . ^[5]^[6]

Когда событие является случайной реализацией (переменной), самоинформация переменной определяется как ожидаемое значение самоинформации реализации.

Самоинформация - это пример правильного правила подсчета очков . ^{[ требуется разъяснение ]}

Примеры

Честный подбрасывание монеты

Рассмотрим процесс Бернулли по подбрасыванию справедливой монеты ${\ displaystyle X}$ . В Вероятности этих событий в высадке монеты в качестве руководителей ${\ displaystyle H}$ и хвосты ${\ displaystyle T}$ (см справедливой монеты и лицевой и оборотной ) являются одна половина каждого, ${\ textstyle p_ {X} {(H)} = p_ {X} {(T)} = {\ tfrac {1} {2}} = 0,5}$ . При измерении переменной в виде голов, соответствующий выигрыш в информации составляет

{\ displaystyle \ operatorname {I} _ {X} (H) = - \ log _ {2} {p_ {X} {(H)}} = - \ log _ {2} \! {\ tfrac {1} {2}} = 1,}

Таким образом, выигрыш в информации при честном приземлении монеты в виде орла составляет 1 шеннон . ^[2] Аналогичным образом, получение информации при измерении

{\ displaystyle T}

хвосты

{\ displaystyle \ operatorname {I} _ {X} (T) = - \ log _ {2} {p_ {X} {(T)}} = - \ log _ {2} \! {\ tfrac {1} {2}} = 1 {\ text {shannon}}.}

Справедливый бросок кубика

Предположим, у нас есть хороший шестигранный кубик . Значение броска костей - это дискретная однородная случайная величина. ${\ Displaystyle X \ sim \ mathrm {DU} [1,6]}$ с функцией массы вероятности

{\ displaystyle p_ {X} (k) = {\ begin {cases} {\ frac {1} {6}}, & k \ in \ {1,2,3,4,5,6 \} \\ 0, & {\ text {иначе}} \ end {case}}}

Вероятность выпадения 4 равна

{\ textstyle p_ {X} (4) = {\ frac {1} {6}}}

, как и для любого другого действительного рулона. Таким образом, информационное содержание прокатки 4 составляет

{\ displaystyle \ operatorname {I} _ {X} (4) = - \ log _ {2} {p_ {X} {(4)}} = - \ log _ {2} {\ tfrac {1} {6 }} \ приблизительно 2,585 \; {\ text {shannons}}}

информации.

Два независимых, одинаково распределенных кубика

Предположим, у нас есть две независимые, одинаково распределенные случайные величины ${\ textstyle X, \, Y \ sim \ mathrm {DU} [1,6]}$ каждая соответствует независимому справедливому броску 6-гранных игральных костей. Совместное распределение по ${\ displaystyle X}$ а также ${\ displaystyle Y}$ является

{\ Displaystyle {\ begin {align} p_ {X, Y} \! \ left (x, y \ right) & {} = \ Pr (X = x, \, Y = y) = p_ {X} \! (х) \, p_ {Y} \! (y) \\ & {} = {\ begin {case} \ displaystyle {1 \ over 36}, \ & x, y \ in [1,6] \ cap \ mathbb {N} \\ 0 & {\ text {в противном случае.}} \ End {case}} \ end {align}}}

Информационное наполнение случайной величины ${\ Displaystyle (Х, Y) = (2, \, 4)}$ является

{\ displaystyle {\ begin {align} \ operatorname {I} _ {X, Y} {(2,4)} & = - \ log _ {2} \! {\ left [p_ {X, Y} {( 2,4)} \ right]} = \ log _ {2} \! {36} = 2 \ log _ {2} \! {6} \\ & \ приблизительно 5.169925 {\ text {shannons}}, \ end {выровнено}}}

а также может быть вычислен с помощью § Аддитивности независимых событий

{\ displaystyle {\ begin {align} \ operatorname {I} _ {X, Y} {(2,4)} & = - \ log _ {2} \! {\ left [p_ {X, Y} {( 2,4)} \ right]} = - \ log _ {2} \! {\ Left [p_ {X} (2) \ right]} - \ log _ {2} \! {\ Left [p_ {Y } (4) \ right]} \\ & = 2 \ log _ {2} \! {6} \\ & \ приблизительно 5,169925 {\ text {shannons}}. \ End {align}}}

Информация из частоты бросков

Если мы получаем информацию о стоимости кубика, не зная, какой кубик какое значение имеет, мы можем формализовать подход с помощью так называемых подсчетных переменных.

{\ displaystyle C_ {k}: = \ delta _ {k} (X) + \ delta _ {k} (Y) = {\ begin {cases} 0, & \ neg \, (X = k \ vee Y = k) \\ 1, & \ quad X = k \, \ veebar \, Y = k \\ 2, & \ quad X = k \, \ wedge \, Y = k \ end {case}}}

для ${\ Displaystyle к \ в \ {1,2,3,4,5,6 \}}$ , тогда ${\ textstyle \ сумма _ {к = 1} ^ {6} {C_ {k}} = 2}$ и счета имеют полиномиальное распределение

{\ displaystyle {\ begin {align} f (c_ {1}, \ ldots, c_ {6}) & {} = \ Pr (C_ {1} = c_ {1} {\ text {and}} \ dots { \ text {и}} C_ {6} = c_ {6}) \\ & {} = {\ begin {cases} {\ displaystyle {1 \ over {18}} {1 \ over c_ {1}! \ cdots c_ {k}!}}, \ & {\ text {when}} \ sum _ {i = 1} ^ {6} c_ {i} = 2 \\ 0 & {\ text {в противном случае}} \ end {case }} \\ & {} = {\ begin {cases} {1 \ over 18}, \ & {\ text {when 2}} c_ {k} {\ text {are}} 1 \\ {1 \ over 36 }, \ & {\ text {, когда ровно один}} c_ {k} = 2 \\ 0, \ & {\ text {в противном случае.}} \ end {case}} \ end {align}}}

Чтобы проверить это, 6 результатов ${\ textstyle (X, Y) \ in \ left \ {(k, k) \ right \} _ {k = 1} ^ {6} = \ left \ {(1,1), (2,2), (3,3), (4,4), (5,5), (6,6) \ right \}}$ соответствуют событию ${\ displaystyle C_ {k} = 2}$ и полная вероятность из1/6. Это единственные события, которые точно сохраняются с указанием того, какие кости выпали, какой результат, потому что результаты одинаковы. Не зная, как отличить кости, бросающие другие числа, другие ${\ textstyle {\ binom {6} {2}} = 15}$ комбинации соответствуют тому, что один кубик выбрасывает одно число, а другой - другое число, каждая из которых имеет вероятность 1/18. Действительно, ${\ textstyle 6 \ cdot {\ tfrac {1} {36}} + 15 \ cdot {\ tfrac {1} {18}} = 1}$ , как требуется.

Неудивительно, что информационное содержание обучения тому, что обе кости были брошены как одно и то же конкретное число, больше, чем информационное содержание изучения того, что одна игральная кость была одним числом, а другая - другим числом. Возьмем для примера события ${\ Displaystyle А_ {к} = \ {(Х, Y) = (к, к) \}}$ а также ${\ Displaystyle B_ {j, k} = \ {c_ {j} = 1 \} \ cap \ {c_ {k} = 1 \}}$ для ${\ Displaystyle J \ NEQ К, 1 \ Leq J, К \ Leq 6}$ . Например, ${\ Displaystyle A_ {2} = \ {X = 2 {\ text {и}} Y = 2 \}}$ а также ${\ Displaystyle B_ {3,4} = \ {(3,4), (4,3) \}}$ .

Информационное содержание

{\ displaystyle \ operatorname {I} (A_ {2}) = - \ log _ {2} \! {\ tfrac {1} {36}} = 5.169925 {\ text {shannons}}}

{\ displaystyle \ operatorname {I} \ left (B_ {3,4} \ right) = - \ log _ {2} \! {\ tfrac {1} {18}} = 4.169925 {\ text {shannons}}}

Позволять

{\ textstyle Same = \ bigcup _ {i = 1} ^ {6} {A_ {i}}}

быть случаем, когда на обоих кубиках выпало одно и то же значение и

{\ displaystyle Diff = {\ overline {Same}}}

быть случаем, когда игральные кости различались. потом

{\ textstyle \ Pr (То же) = {\ tfrac {1} {6}}}

а также

{\ textstyle \ Pr (Diff) = {\ tfrac {5} {6}}}

. Информационное содержание событий

{\ displaystyle \ operatorname {I} (То же) = - \ log _ {2} \! {\ tfrac {1} {6}} = 2,5849625 {\ text {shannons}}}

{\ displaystyle \ operatorname {I} (Diff) = - \ log _ {2} \! {\ tfrac {5} {6}} = 0,2630344 {\ text {shannons}}.}

Информация из суммы костей

Вероятностная масса или функция плотности (вместе вероятностная мера ) суммы двух независимых случайных величин - это свертка каждой вероятностной меры . В случае независимых справедливых 6-сторонних бросков костей случайная величина ${\ Displaystyle Z = X + Y}$ имеет функцию массы вероятности ${\ textstyle p_ {Z} (z) = p_ {X} (x) * p_ {Y} (y) = {6- | z-7 | \ более 36}}$ , где ${\ displaystyle *}$ представляет собой дискретную свертку . исход ${\ displaystyle Z = 5}$ имеет вероятность ${\ textstyle p_ {Z} (5) = {\ frac {4} {36}} = {1 \ более 9}}$ . Следовательно, заявленная информация

{\ displaystyle \ operatorname {I} _ {Z} (5) = - \ log _ {2} {\ tfrac {1} {9}} = \ log _ {2} {9} \ приблизительно 3,169925 {\ text { Шеннонс.}}}

Общее дискретное равномерное распределение

Обобщая приведенный выше пример § Справедливого броска костей , рассмотрим общую дискретную равномерную случайную величину (DURV) ${\ displaystyle X \ sim \ mathrm {DU} [a, b]; \ quad a, b \ in \ mathbb {Z}, \ b \ geq a.}$ Для удобства определим ${\ textstyle N: = b-a + 1}$ . PMF является

{\ displaystyle p_ {X} (k) = {\ begin {case} {\ frac {1} {N}}, & k \ in [a, b] \ cap \ mathbb {Z} \\ 0, & {\ текст {иначе}} \ end {case}}.}

В общем, значения DURV не обязательно должны быть целыми числами или, для целей теории информации, даже равномерно разнесенными; они должны быть только равновероятными . ^[2] Информационная ценность любого наблюдения

{\ displaystyle X = k}

является

{\ displaystyle \ operatorname {I} _ {X} (k) = - \ log _ {2} {\ frac {1} {N}} = \ log _ {2} {N} {\ text {shannons}} .}

Особый случай: постоянная случайная величина

Если ${\ displaystyle b = a}$ выше, ${\ displaystyle X}$ вырождается в постоянную случайную величину с распределением вероятностей, детерминированным следующим образом: ${\ displaystyle X = b}$ и вероятностная мера - мера Дирака ${\ textstyle p_ {X} (k) = \ delta _ {b} (k)}$ . Единственная ценность ${\ displaystyle X}$ может принимать детерминированно ${\ displaystyle b}$ , поэтому информативность любого измерения ${\ displaystyle X}$ является

{\ displaystyle \ operatorname {I} _ {X} (b) = - \ log _ {2} {1} = 0.}

Как правило, измерение известного значения не дает никакой информации. ^[2]

Категориальное распределение

Обобщая все вышеперечисленные случаи, рассмотрим категориальную дискретную случайную величину с поддержкой ${\ textstyle {\ mathcal {S}} = {\ bigl \ {} s_ {i} {\ bigr \}} _ {я = 1} ^ {N}}$ и pmf, предоставленный

{\ displaystyle p_ {X} (k) = {\ begin {cases} p_ {i}, & k = s_ {i} \ in {\ mathcal {S}} \\ 0, & {\ text {else}} \ конец {случаи}}.}

Для целей теории информации значения ${\ displaystyle s \ in {\ mathcal {S}}}$ не обязательно должны быть числа ; они могут быть любыми взаимоисключающими событиями на пространстве с мерой в конечной мере , которая была нормированной на вероятностные меры ${\ displaystyle p}$ . Без ограничения общности можно предположить, что категориальное распределение поддерживается на множестве ${\ textstyle [N] = \ влево \ {1,2, ..., N \ вправо \}}$ ; математическая структура изоморфна с точки зрения теории вероятностей и, следовательно, теории информации .

Информация об исходе ${\ displaystyle X = x}$ дано

{\ displaystyle \ operatorname {I} _ {X} (x) = - \ log _ {2} {p_ {X} (x)}.}

Из этих примеров можно вычислить информацию о любом наборе независимых DRV с известными распределениями по аддитивности .

Связь с энтропией

Энтропии являются ожидаемым значением информационного содержания дискретной случайной величины , с ожиданием берется по дискретным значениям она принимает . Иногда саму энтропию называют «самоинформацией» случайной величины, возможно потому, что энтропия удовлетворяет ${\ Displaystyle \ mathrm {H} (X) = \ OperatorName {I} (X; X)}$ , где ${\ displaystyle \ operatorname {I} (X; X)}$ является взаимной информацией о ${\ displaystyle X}$ с собой. ^[7]

Для непрерывных случайных величин соответствующее понятие - дифференциальная энтропия .

Вывод

По определению, информация передается от отправляющего объекта, владеющего информацией, к принимающему объекту только в том случае, если получатель не знал информацию априори . Если получающий объект заранее знал содержимое сообщения с уверенностью до получения сообщения, объем информации полученного сообщения равен нулю. Только когда получатель знает содержание сообщения менее чем на 100%, сообщение действительно передает информацию.

Например, процитировав персонажа (хиппи Диппи метеоролог) комика Джорджа Карлина , «Прогноз погоды на сегодня: темно. Ночью продолжала тьма, а к утру - широко рассеянный свет ». ^[8] Если предположить, что человек не проживает вблизи полюсов Земли или полярных кругов , количество информации, передаваемой в этом прогнозе, равно нулю, потому что до получения прогноза известно, что темнота всегда приходит с ночью.

Соответственно, количество самоинформации, содержащейся в сообщении, передающем контент, информирующий о наступлении события , ${\ displaystyle \ omega _ {n}}$ , зависит только от вероятности этого события.

{\ displaystyle \ operatorname {I} (\ omega _ {n}) = f (\ operatorname {P} (\ omega _ {n}))}

для какой-то функции ${\ Displaystyle е (\ cdot)}$ будет определено ниже. Если ${\ Displaystyle \ OperatorName {P} (\ omega _ {n}) = 1}$ , тогда ${\ displaystyle \ operatorname {I} (\ omega _ {n}) = 0}$ . Если ${\ Displaystyle \ OperatorName {P} (\ omega _ {n}) <1}$ , тогда ${\ displaystyle \ operatorname {I} (\ omega _ {n})> 0}$ .

Далее, по определению, мера самоинформации неотрицательна и аддитивна. Если сообщение, информирующее о событии ${\ displaystyle C}$ является пересечением двух независимых событий ${\ displaystyle A}$ а также ${\ displaystyle B}$ , то информация о событии ${\ displaystyle C}$ происходит это составное сообщение обоих независимых событий ${\ displaystyle A}$ а также ${\ displaystyle B}$ происходит. Количество информации составного сообщения ${\ displaystyle C}$ как ожидается, будет равняться сумме объемов информации отдельных компонентных сообщений. ${\ displaystyle A}$ а также ${\ displaystyle B}$ соответственно:

{\ displaystyle \ operatorname {I} (C) = \ operatorname {I} (A \ cap B) = \ operatorname {I} (A) + \ operatorname {I} (B)}

.

Из-за независимости событий ${\ displaystyle A}$ а также ${\ displaystyle B}$ , вероятность события ${\ displaystyle C}$ является

{\ Displaystyle \ OperatorName {P} (C) = \ OperatorName {P} (A \ cap B) = \ OperatorName {P} (A) \ cdot \ OperatorName {P} (B)}

.

Однако, применяя функцию ${\ Displaystyle е (\ cdot)}$ приводит к

{\ displaystyle {\ begin {align} \ operatorname {I} (C) & = \ operatorname {I} (A) + \ operatorname {I} (B) \\ f (\ operatorname {P} (C)) & = f (\ operatorname {P} (A)) + f (\ operatorname {P} (B)) \\ & = f {\ big (} \ operatorname {P} (A) \ cdot \ operatorname {P} ( Б) {\ big)} \\\ конец {выровнен}}}

Класс функции ${\ Displaystyle е (\ cdot)}$ обладающий такой собственностью, что

{\ Displaystyle е (х \ cdot y) = f (x) + f (y)}

является функцией логарифма любого основания. Единственная операционная разница между логарифмами разных оснований - это разные константы масштабирования.

{\ Displaystyle е (х) = К \ журнал (х)}

Поскольку вероятности событий всегда находятся в диапазоне от 0 до 1, а информация, связанная с этими событиями, должна быть неотрицательной, для этого требуется, чтобы ${\ displaystyle K <0}$ .

С учетом этих свойств самоинформация ${\ displaystyle \ operatorname {I} (\ omega _ {n})}$ связанный с исходом ${\ displaystyle \ omega _ {n}}$ с вероятностью ${\ displaystyle \ operatorname {P} (\ omega _ {n})}$ определяется как:

{\ displaystyle \ operatorname {I} (\ omega _ {n}) = - \ log (\ operatorname {P} (\ omega _ {n})) = \ log \ left ({\ frac {1} {\ operatorname {P} (\ omega _ {n})}} \ right)}

Чем меньше вероятность события ${\ displaystyle \ omega _ {n}}$ , тем больше информации о себе связано с сообщением о том, что событие действительно произошло. Если логарифм выше по основанию 2, единица измерения ${\ displaystyle \ displaystyle I (\ omega _ {n})}$ это биты . Это самая распространенная практика. При использовании натурального логарифма основания ${\ displaystyle \ displaystyle e}$ , единицей будет нац . Для десятичного логарифма единицей информации является хартли .

В качестве быстрой иллюстрации, информационное содержание, связанное с исходом в 4 решки (или любым конкретным исходом) в 4 последовательных подбрасываниях монеты, будет 4 бита (вероятность 1/16), а информационное содержание, связанное с получением результата, отличного от один указанный будет ~ 0,09 бит (вероятность 15/16). См. Подробные примеры выше.

Смотрите также

Энтропия
Неожиданный анализ

дальнейшее чтение

CE Shannon , Математическая теория коммуникации , Bell Systems Technical Journal , Vol. 27, стр 379–423, (Часть I), 1948.

Внешние ссылки

Примеры неожиданных мер
«Неожиданная» запись в глоссарии молекулярной теории информации
Байесовская теория неожиданности

[1] Перейти ↑ Jones, DS, Elementary Information Theory , Vol., Clarendon Press, Oxford, pp 11-15 1979

[:0-2] МакМахон, Дэвид М. (2008). Объяснение квантовых вычислений . Хобокен, Нью-Джерси: Wiley-Interscience. ISBN 9780470181386. OCLC 608622533 .

[3] Борда, Моника (2011). Основы теории информации и кодирования . Springer. ISBN 978-3-642-20346-6.

[4] Хан, Те Сун и Кобаяши, Кинго (2002). Математика информации и кодирования . Американское математическое общество. ISBN 978-0-8218-4256-0.CS1 maint: использует параметр авторов ( ссылка )

[Bernstein1972-5] RB Bernstein и RD Levine (1972) "Энтропия и химические изменения. I. Характеристика энергетических распределений продукта (и реагента) в реактивных молекулярных столкновениях: информация и энтропийный дефицит", Журнал химической физики 57 , 434-449 ссылка .

[Tribus1961-6] Майрон Трибус (1961) Термодинамика и термостатика: Введение в энергию, информацию и состояния материи, с инженерными приложениями (Д. Ван Ностранд, 24 West 40 Street, New York 18, New York, USA) Tribus, Myron (1961) , стр. 64-66 заимствовать .

[7] Томас М. Обложка, Джой А. Томас; Элементы теории информации; п. 20; 1991 г.

[8] «Цитата Джорджа Карлина» . www.goodreads.com . Проверено 1 апреля 2021 .

[1]

Информационное содержание

Определение

Характеристики

Монотонно убывающая функция вероятности

Связь с логарифмическими шансами

Аддитивность независимых событий

Заметки

Примеры

Честный подбрасывание монеты

Справедливый бросок кубика

Два независимых, одинаково распределенных кубика

Информация из частоты бросков

Информация из суммы костей

Общее дискретное равномерное распределение

Особый случай: постоянная случайная величина

Категориальное распределение

Связь с энтропией

Вывод

Смотрите также

Рекомендации

дальнейшее чтение

Внешние ссылки