Энтропия (теория информации)

В теории информации , то энтропия из случайной величины является средним уровнем «информации», «сюрприза», или «неопределенности» , присущей возможными результатов переменных. Концепция информационной энтропии была введена Клодом Шенноном в его статье 1948 года « Математическая теория коммуникации » ^[1]^[2] и иногда в его честь называют энтропией Шеннона . В качестве примера рассмотрим смещенную монету с вероятностью $p$ выпадения орла и вероятностью $1 - p$ выпадения решки. Максимальный сюрприз - при $p = 1/2$ , когда нет причин ожидать, что один результат важнее другого, и в этом случае подбрасывание монеты имеет энтропию в один бит . Минимальный сюрприз - это когда $p = 0$ или $p = 1$ , когда событие известно и энтропия равна нулю битов. Другие значения p дают разные энтропии между нулем и единицей битов.

Два бита энтропии: в случае двух справедливых подбрасываний монеты информационная энтропия в битах представляет собой логарифм по основанию 2 числа возможных результатов; с двумя монетами есть четыре возможных результата и два бита энтропии. Как правило, информационная энтропия - это средний объем информации, передаваемой событием, с учетом всех возможных результатов.

Учитывая дискретную случайную величину ${\ displaystyle X}$ , с возможными исходами ${\ displaystyle x_ {1}, ..., x_ {n}}$ , которые происходят с вероятностью ${\ Displaystyle \ mathrm {P} (x_ {1}), ..., \ mathrm {P} (x_ {n}),}$ энтропия ${\ displaystyle X}$ формально определяется как:

${\ displaystyle \ mathrm {H} (X) = - \ sum _ {i = 1} ^ {n} {\ mathrm {P} (x_ {i}) \ log \ mathrm {P} (x_ {i}) }}$

где ${\ displaystyle \ Sigma}$ обозначает сумму возможных значений переменной, а ${\ displaystyle \ log}$ - логарифм , выбор основания различается в зависимости от приложения. База 2 дает единицу битов (или « шеннонов »), в то время как основание e дает «естественные единицы» nat , а основание 10 дает единицу, называемую «точками», «банами» или « хартли ». Эквивалентное определение энтропии является ожидаемым значением из собственной информации переменного. ^[3]

Энтропия была первоначально создана Шенноном как часть его теории коммуникации, в которой система передачи данных состоит из трех элементов: источника данных, канала связи и приемника. В теории Шеннона «фундаментальная проблема коммуникации», как выразился Шеннон, заключается в том, чтобы приемник мог определить, какие данные были сгенерированы источником, на основе сигнала, который он получает через канал. ^[1]^[2] Шеннон рассмотрел различные способы кодирования, сжатия и передачи сообщений из источника данных и доказал в своей знаменитой теореме кодирования источника, что энтропия представляет собой абсолютный математический предел того, насколько хорошо данные из источника могут быть сжаты без потерь. на совершенно бесшумный канал. Шеннон значительно усилил этот результат для зашумленных каналов в своей теореме кодирования зашумленных каналов .

Энтропия в теории информации прямо аналогична энтропии в статистической термодинамике . Аналогия возникает, когда значения случайной величины обозначают энергии микросостояний, поэтому формула Гиббса для энтропии формально идентична формуле Шеннона. Энтропия имеет отношение к другим областям математики, таким как комбинаторика . Определение может быть получено из набора аксиом, устанавливающих, что энтропия должна быть мерой того, насколько «удивительным» является средний результат переменной. Для непрерывной случайной величины дифференциальная энтропия аналогична энтропии.

Вступление

Основная идея теории информации состоит в том, что «информационная ценность» передаваемого сообщения зависит от того, насколько удивительно его содержание. Если событие очень вероятно, неудивительно (и, как правило, неинтересно), когда это событие происходит так, как ожидалось; следовательно, передача такого сообщения несет очень мало новой информации. Однако, если событие маловероятно, гораздо информативнее узнать, что событие произошло или произойдет. Например, знание того, что какое-то конкретное число не будет выигрышным в лотерее, дает очень мало информации, потому что любое конкретное выбранное число почти наверняка не выиграет. Тем не менее, известно , что конкретное число будет выиграть в лотерею имеет большое значение , поскольку он передает результат очень низкой вероятности события.

Информационное содержание (также называется surprisal ) о событии ${\ displaystyle E}$ - функция, убывающая как вероятность ${\ displaystyle p (E)}$ события увеличивается, определяемое ${\ Displaystyle I (E) = - \ log _ {2} (p (E))}$ или эквивалентно ${\ Displaystyle I (E) = \ журнал _ {2} (1 / p (E))}$ , где ${\ displaystyle \ log}$ это логарифм . Энтропия измеряет ожидаемый (т.е. средний) объем информации, передаваемой путем определения результата случайного испытания. ^[4]^{: 67} Это означает, что бросок кубика имеет более высокую энтропию, чем бросание монеты, потому что каждый результат броска кубика имеет меньшую вероятность (примерно ${\ displaystyle p = 1/6}$ ), чем каждый результат подбрасывания монеты ( ${\ displaystyle p = 1/2}$ ).

Рассмотрим пример подбрасывания монеты. Если вероятность выпадения орла такая же, как и вероятность выпадения решки, то энтропия подбрасывания монеты настолько высока, насколько это могло бы быть для испытания с двумя исходами. Невозможно предсказать результат подбрасывания монеты заранее: если нужно выбирать, нет никакого среднего преимущества, которое можно получить, предсказав, что при подбрасывании будет решка или орел, поскольку любой прогноз с вероятностью будет верным. ${\ displaystyle 1/2}$ . Такой бросок монеты имеет энтропию ${\ Displaystyle \ mathrm {H} (E) = 1}$ (в битах), поскольку есть два возможных результата, которые происходят с равной вероятностью, и изучение фактического результата содержит один бит информации. Напротив, подбрасывание монеты с использованием монеты с двумя орлами и без решки имеет энтропию. ${\ displaystyle \ mathrm {H} (E) = 0}$ так как монета всегда выпадет орлом, и исход можно предсказать идеально. Точно так же одна трость с равновероятными значениями содержит ${\ displaystyle \ log _ {2} 3}$ (около 1,58496) бит информации, потому что он может иметь одно из трех значений.

Английский текст, рассматриваемый как строка символов, имеет довольно низкую энтропию, т. Е. Достаточно предсказуем. Если мы не знаем точно, что будет дальше, мы можем быть вполне уверены, что, например, «e» будет гораздо более распространенным, чем «z», что комбинация «qu» будет гораздо более распространенной, чем любая другая. комбинация с «q» в нем, и что комбинация «th» будет более распространенной, чем «z», «q» или «qu». Часто после первых букв можно угадать остаток слова. Английский текст имеет от 0,6 до 1,3 бита энтропии на символ сообщения. ^[5]^{: 234}

Если компрессия схема без потерь - один , в котором вы всегда можете восстановить все исходное сообщение декомпрессии - то сжатое сообщение имеет такое же количество информации , как в оригинале , но сообщается в меньшем количестве символов. Он содержит больше информации (более высокая энтропия) для каждого символа. Сжатое сообщение имеет меньшую избыточность . Теорема кодирования источника Шеннона утверждает, что схема сжатия без потерь не может сжимать сообщения в среднем так, чтобы иметь более одного бита информации на бит сообщения, но что любое значение меньше одного бита информации на бит сообщения может быть достигнуто с помощью подходящего схема кодирования. Энтропия сообщения на бит, умноженная на длину этого сообщения, является мерой того, сколько общей информации содержит сообщение.

Если передать последовательности, состоящие из 4 символов «A», «B», «C» и «D», передаваемое сообщение могло бы быть «ABADDCAB». Теория информации дает способ вычислить минимально возможное количество информации, которая это передаст. Если все 4 буквы равновероятны (25%), нельзя сделать лучше (по двоичному каналу), чем иметь 2 бита, кодирующие (в двоичном) каждую букву: 'A' может кодироваться как '00', 'B' как «01», «C» как «10» и «D» как «11». Если «A» встречается с вероятностью 70%, «B» - с 26%, а «C» и «D» - с 2% каждый, можно назначить коды переменной длины, так что получение «1» говорит о необходимости взглянуть на другой бит. если еще не было получено 2 бита последовательных единиц. В этом случае «A» будет закодирован как «0» (один бит), «B» - как «10», «C» - как «110», а D - как «111». Легко видеть, что в 70% случаев необходимо отправить только один бит, в 26% случаев - два бита и только в 4% случаев - 3 бита. В среднем требуется менее 2 бит, поскольку энтропия ниже (из-за высокой распространенности буквы «А», за которой следует «В» - вместе 96% символов). Расчет суммы логарифмических вероятностей, взвешенных по вероятности, измеряет и фиксирует этот эффект.

Теорема Шеннона также подразумевает, что никакая схема сжатия без потерь не может сократить все сообщения. Если некоторые сообщения выходят короче, по крайней мере одно должно выходить дольше из-за принципа ячейки . На практике это, как правило, не проблема, потому что обычно требуется сжатие только определенных типов сообщений, таких как документ на английском языке, в отличие от бессмысленного текста или цифровых фотографий, а не шума, и неважно, если алгоритм сжатия увеличивает размер некоторых маловероятных или неинтересных последовательностей.

Определение

Названный в честь -теоремы Больцмана , Шеннон определил энтропию $Η$ (греческая заглавная буква эта ) дискретной случайной величины. ${\ textstyle X}$ с возможными значениями ${\ textstyle \ left \ {x_ {1}, \ ldots, x_ {n} \ right \}}$ и вероятностная функция масс ${\ textstyle \ mathrm {P} (X)}$ в виде:

{\ displaystyle \ mathrm {H} (X) = \ operatorname {E} [\ operatorname {I} (X)] = \ operatorname {E} [- \ log (\ mathrm {P} (X))].}

Здесь ${\ displaystyle \ operatorname {E}}$ является оператором ожидаемого значения , и $я$ это содержание информации из $X$ . ^[6]^{: 11}^[7]^{: 19–20} ${\ displaystyle \ operatorname {I} (X)}$ сам по себе является случайной величиной.

Энтропию можно явно записать как:

${\ displaystyle \ mathrm {H} (X) = - \ sum _ {i = 1} ^ {n} {\ mathrm {P} (x_ {i}) \ log _ {b} \ mathrm {P} (x_ {я})}}$

где $b$ - основание используемого логарифма . Общие значения $b$ - 2, число Эйлера $e$ и 10, а соответствующие единицы энтропии - биты для $b = 2$ , nats для $b = e$ и запреты для $b = 10$ . ^[8]

В случае $P (x i) = 0$ для некоторого $i$ значение соответствующего слагаемого $0 log b (0)$ принимается равным $0$ , что согласуется с пределом : ^[9]^{: 13}

{\ displaystyle \ lim _ {p \ to 0 ^ {+}} p \ log (p) = 0.}

Можно также определить условную энтропию двух переменных ${\ displaystyle X}$ а также ${\ displaystyle Y}$ принимая ценности ${\ displaystyle x_ {i}}$ а также ${\ displaystyle y_ {j}}$ соответственно, как: ^[9]^{: 16}

{\ displaystyle \ mathrm {H} (X | Y) = - \ sum _ {i, j} p (x_ {i}, y_ {j}) \ log {\ frac {p (x_ {i}, y_ { j})} {p (y_ {j})}}}

где ${\ displaystyle p (x_ {i}, y_ {j})}$ вероятность того, что ${\ displaystyle X = x_ {i}}$ а также ${\ displaystyle Y = y_ {j}}$ . Под этой величиной следует понимать количество случайности в случайной величине. ${\ displaystyle X}$ учитывая случайную величину ${\ displaystyle Y}$ .

Пример

Энтропия

(X)

(т.е. ожидаемая неожиданность ) подбрасывания монеты, измеренная в битах, изображена на графике в зависимости от смещения монеты

Pr (X = 1)

, где

X = 1

представляет результат орла. ^[9]^{: 14–15}

Здесь энтропия составляет не более 1 бита, и для сообщения результата подбрасывания монеты (2 возможных значения) потребуется в среднем не более 1 бита (ровно 1 бит для честной монеты). Результат правильного кубика (6 возможных значений) будет иметь логарифм энтропии ₂ 6 бит.

Рассмотрите возможность подбрасывания монеты с известной, не обязательно справедливой, вероятностью выпадения орла или решки; это можно смоделировать как процесс Бернулли .

Энтропия неизвестного результата следующего подбрасывания монеты максимизируется, если монета справедливая (то есть, если орел и решка имеют равную вероятность 1/2). Это ситуация максимальной неопределенности, так как исход следующей жеребьевки предсказать сложнее всего; результат каждого подбрасывания монеты предоставляет один полный бит информации. Это потому что

{\ displaystyle {\ begin {align} \ mathrm {H} (X) & = - \ sum _ {i = 1} ^ {n} {\ mathrm {P} (x_ {i}) \ log _ {b} \ mathrm {P} (x_ {i})} \\ & = - \ sum _ {i = 1} ^ {2} {{\ frac {1} {2}} \ log _ {2} {\ frac { 1} {2}}} \\ & = - \ sum _ {i = 1} ^ {2} {{\ frac {1} {2}} \ cdot (-1)} = 1 \ end {выровнено}} }

Однако, если мы знаем, что монета несправедлива, но выпадает орел или решка с вероятностями $p$ и $q$ , где $p \neq q$ , то неопределенности меньше. Каждый раз, когда его бросают, одна сторона с большей вероятностью поднимется, чем другая. Сниженная неопределенность количественно выражается более низкой энтропией: в среднем каждый бросок монеты дает менее одного полного бита информации. Например, если $p$ = 0,7, то

{\ displaystyle {\ begin {align} \ mathrm {H} (X) & = - p \ log _ {2} (p) -q \ log _ {2} (q) \\ & = - 0,7 \ log _ {2} (0,7) -0,3 \ log _ {2} (0,3) \\ & \ приблизительно -0,7 \ cdot (-0,515) -0,3 \ cdot (-1,737) \\ & = 0,8816 <1 \ end {выровнено} }}

Равномерная вероятность дает максимальную неопределенность и, следовательно, максимальную энтропию. Таким образом, энтропия может уменьшаться только от значения, связанного с равномерной вероятностью. Крайний случай - это двуглавая монета, у которой никогда не выпадает решка, или двусторонняя монета, у которой никогда не выпадает решка. Тогда нет никакой неопределенности. Энтропия равна нулю: каждое подбрасывание монеты не дает новой информации, поскольку результат каждого подбрасывания монеты всегда определен. ^[9]^{: 14–15}

Энтропию можно нормализовать, разделив ее на длину информации. Это соотношение называется метрической энтропией и является мерой случайности информации.

Характеристика

Чтобы понять значение $-\sum p i log (p i)$ , сначала определите информационную функцию $I$ в терминах события $i$ с вероятностью $p i$ . Количество информации , полученной в результате наблюдения события $я$ следует из решения Шеннона из фундаментальных свойств в информации : ^[10]

$Я (р)$ является монотонно убывающей в $р$ : увеличение вероятности события уменьшает информацию от наблюдаемого события, и наоборот.
$I (p) \geq 0$ : информация - неотрицательная величина.
$I (1) = 0$ : всегда происходящие события не передают информацию.
$I (p 1, p 2) = I (p 1) + I (p 2)$ : информация, полученная из независимых событий, является суммой информации, полученной из каждого события.

Учитывая два независимых события, если первое событие может дать один из $n$ равновероятных исходов, а другое имеет один из $m$ равновероятных исходов, то существует $mn$ равновероятных исходов совместного события. Это означает, что если $log 2 (n)$ битов необходимы для кодирования первого значения и $log 2 (m)$ для кодирования второго, нужно $log 2 (mn) = log 2 (m) + log 2 (n)$ для кодирования обоих .

Шеннон обнаружил, что подходящий выбор ${\ displaystyle \ operatorname {I}}$ дан кем-то:

{\ Displaystyle \ OperatorName {I} (p) = \ log \ left ({\ tfrac {1} {p}} \ right) = - \ log (p)}

Фактически, единственно возможные значения ${\ displaystyle \ operatorname {I}}$ находятся ${\ displaystyle \ operatorname {I} (u) = k \ log u}$ для ${\ displaystyle k <0}$ . Кроме того, выбор значения $k$ эквивалентен выбору значения ${\ displaystyle x> 1}$ для ${\ Displaystyle к = -1 / \ журнал х}$ , так что $x$ соответствует основанию логарифма . Таким образом, энтропия характеризуется четырьмя указанными выше свойствами.

Доказательство

Позволять

{\ textstyle \ operatorname {I}}

- информационная функция, которую предполагается дважды непрерывно дифференцируемой, мы имеем:

{\ displaystyle {\ begin {align} & \ operatorname {I} (p_ {1} p_ {2}) & = \ & \ operatorname {I} (p_ {1}) + \ operatorname {I} (p_ {2 }) && \ quad {\ text {Начиная со свойства 4}} \\ & p_ {2} \ operatorname {I} '(p_ {1} p_ {2}) & = \ & \ operatorname {I}' (p_ { 1}) && \ quad {\ text {с производной по}} \ p_ {1} \\ & \ operatorname {I} '(p_ {1} p_ {2}) + p_ {1} p_ {2} \ operatorname {I} '' (p_ {1} p_ {2}) & = \ & 0 && \ quad {\ text {с производной от}} \ p_ {2} \\ & \ operatorname {I} '(u) + u \ operatorname {I} '' (u) & = \ & 0 && \ quad {\ text {введение}} \, u = p_ {1} p_ {2} \\ & (u \ mapsto u \ operatorname {I} ' (u)) '& = \ & 0 \ end {выровнено}}}

Это дифференциальное уравнение приводит к решению ${\ displaystyle \ operatorname {I} (u) = k \ log u}$ для любой ${\ Displaystyle к \ в \ mathbb {R}}$ . Свойство 2 приводит к ${\ displaystyle k <0}$ . Тогда также сохраняются свойства 1 и 3.

Различные единицы информации ( биты для двоичного логарифма $log 2$ , nats для натурального логарифма $ln$ , запреты для десятичного логарифма $log 10$ и так далее) являются постоянными кратными друг другу. Например, в случае правильного подбрасывания монеты орел предоставляет $log 2 (2) = 1$ бит информации, что составляет примерно 0,693 ната или 0,301 десятичной цифры. Из-за аддитивности $n$ бросков предоставляют $n$ битов информации, что составляет примерно $0,693 n$ нат или $0,301 n$ десятичных цифр.

Смысл событий , наблюдаемых (смысл сообщений ) не имеет значения в определении энтропии. Энтропия учитывает только вероятность наблюдения конкретного события, поэтому информация, которую она инкапсулирует, представляет собой информацию о лежащем в основе распределении вероятностей, а не о значении самих событий.

Альтернативная характеристика

Другая характеристика энтропии использует следующие свойства. Обозначим $p i = Pr (X = x i)$ и $Η n (p 1,\dots, p n) = Η (X)$ .

Непрерывность: $H$ должно быть непрерывным , так что изменение значений вероятностей на очень небольшое количество должно изменять энтропию только на небольшую величину.
Симметрия: $H$ должно быть неизменным, если результаты $x i$ переупорядочиваются. Это, ${\ displaystyle \ mathrm {H} _ {n} \ left (p_ {1}, p_ {2}, \ ldots p_ {n} \ right) = \ mathrm {H} _ {n} \ left (p_ {i_ {1}}, p_ {i_ {2}}, \ ldots, p_ {i_ {n}} \ right)}$ для любой перестановки ${\ Displaystyle \ {я_ {1}, ..., я_ {п} \}}$ из ${\ Displaystyle \ {1, ..., п \}}$ .
Максимум: ${\ displaystyle \ mathrm {H} _ {n}}$ должен быть максимальным, если все исходы одинаково вероятны, т.е. ${\ displaystyle \ mathrm {H} _ {n} (p_ {1}, \ ldots, p_ {n}) \ leq \ mathrm {H} _ {n} \ left ({\ frac {1} {n}} , \ ldots, {\ frac {1} {n}} \ right)}$ .
Увеличение количества исходов: для равновероятных событий энтропия должна увеличиваться с увеличением количества исходов, т.е. ${\ displaystyle \ mathrm {H} _ {n} {\ bigg (} \ underbrace {{\ frac {1} {n}}, \ ldots, {\ frac {1} {n}}} _ {n} { \ bigg)} <\ mathrm {H} _ {n + 1} {\ bigg (} \ underbrace {{\ frac {1} {n + 1}}, \ ldots, {\ frac {1} {n + 1 }}} _ {n + 1} {\ bigg)}.}$
Аддитивность: учитывая ансамбль из $n$ равномерно распределенных элементов, которые разделены на $k$ блоков (подсистем) с $b 1, ..., b k$ элементами в каждом, энтропия всего ансамбля должна быть равна сумме энтропии система ящиков и индивидуальные энтропии ящиков, каждая из которых взвешена с вероятностью попадания в эту конкретную ячейку.

Правило аддитивности имеет следующие последствия: для натуральных чисел $b i,$ где $b 1 +\dots + b k = n$ ,

{\ displaystyle \ mathrm {H} _ {n} \ left ({\ frac {1} {n}}, \ ldots, {\ frac {1} {n}} \ right) = \ mathrm {H} _ { k} \ left ({\ frac {b_ {1}} {n}}, \ ldots, {\ frac {b_ {k}} {n}} \ right) + \ sum _ {i = 1} ^ {k } {\ frac {b_ {i}} {n}} \, \ mathrm {H} _ {b_ {i}} \ left ({\ frac {1} {b_ {i}}}, \ ldots, {\ гидроразрыв {1} {b_ {i}}} \ right).}

Выбор $k = n$ , $b 1 =\dots = b n = 1$ означает, что энтропия определенного результата равна нулю: $Η 1 (1) = 0$ . Это означает, что эффективность исходного алфавита с $n$ символами может быть определена просто как равная его $n$ -арной энтропии. См. Также Резервирование (теория информации) .

Другие свойства

Энтропия Шеннона удовлетворяет следующим свойствам, для некоторых из которых полезно интерпретировать энтропию как количество полученной информации (или устраненной неопределенности) путем выявления значения случайной величины $X$ :

Добавление или удаление события с нулевой вероятностью не влияет на энтропию:

{\ displaystyle \ mathrm {H} _ {n + 1} (p_ {1}, \ ldots, p_ {n}, 0) = \ mathrm {H} _ {n} (p_ {1}, \ ldots, p_ {n})}

.

Используя неравенство Дженсена, можно подтвердить, что

{\ displaystyle \ mathrm {H} (X) = \ operatorname {E} \ left [\ log _ {b} \ left ({\ frac {1} {p (X)}} \ right) \ right] \ leq \ log _ {b} \ left (\ operatorname {E} \ left [{\ frac {1} {p (X)}} \ right] \ right) = \ log _ {b} (n)}

. ^[9]^{: 29}

Эта максимальная энтропия

log b (n)

эффективно достигается исходным алфавитом, имеющим равномерное распределение вероятностей: неопределенность максимальна, когда все возможные события равновероятны.

Энтропия или количество информации, полученной при оценке $(X, Y)$ (то есть при одновременном оценивании $X$ и $Y$ ), равно информации, полученной при проведении двух последовательных экспериментов: сначала оценивается значение $Y$ , а затем раскрывается значение $X$ при условии , что вы знаете , значение $Y$ . Это можно записать так: ^[9]^{: 16}

{\ Displaystyle \ mathrm {H} (X, Y) = \ mathrm {H} (X | Y) + \ mathrm {H} (Y) = \ mathrm {H} (Y | X) + \ mathrm {H} (ИКС).}

Если ${\ Displaystyle Y = F (X)}$ где ${\ displaystyle f}$ функция, то ${\ Displaystyle Н (е (Х) | Х) = 0}$ . Применяя предыдущую формулу к ${\ Displaystyle Н (Х, е (Х))}$ дает

{\ Displaystyle \ mathrm {H} (X) + \ mathrm {H} (е (X) | X) = \ mathrm {H} (f (X)) + \ mathrm {H} (X | f (X) ),}

так

{\ Displaystyle Н (е (Х)) \ Leq Н (Х)}

, энтропия переменной может уменьшаться только тогда, когда последняя передается через функцию.

Если $X$ и $Y$ - две независимые случайные величины, то знание значения $Y$ не влияет на наши знания о значении $X$ (поскольку они не влияют друг на друга по своей независимости):

{\ Displaystyle \ mathrm {H} (X | Y) = \ mathrm {H} (X).}

Энтропия двух одновременных событий - это не более чем сумма энтропий каждого отдельного события, т.е. ${\ Displaystyle \ mathrm {H} (X, Y) \ leq \ mathrm {H} (X) + \ mathrm {H} (Y)}$ , с равенством тогда и только тогда, когда два события независимы. ^[9]^{: 28}
Энтропия ${\ displaystyle \ mathrm {H} (p)}$ является вогнутой в функции вероятности массового ${\ displaystyle p}$ , т.е. ^[9]^{: 30}

{\ displaystyle \ mathrm {H} (\ lambda p_ {1} + (1- \ lambda) p_ {2}) \ geq \ lambda \ mathrm {H} (p_ {1}) + (1- \ lambda) \ mathrm {H} (p_ {2})}

для всех вероятностных массовых функций

{\ displaystyle p_ {1}, p_ {2}}

а также

{\ displaystyle 0 \ leq \ lambda \ leq 1}

. ^[9]^{: 32}

Соответственно, функция отрицательной энтропии (негэнтропии) является выпуклой, а ее выпуклым сопряженным элементом является LogSumExp .

Аспекты

Связь с термодинамической энтропией

Вдохновение для принятия слова энтропия в теории информации произошло из-за близкого сходства между формулой Шеннона и очень похожими известными формулами из статистической механики .

В статистической термодинамике наиболее общая формула для термодинамической энтропии $S$ в виде термодинамической системы является энтропией Гиббса ,

{\ displaystyle S = -k _ {\ text {B}} \ sum p_ {i} \ ln p_ {i} \,}

где $k B$ - постоянная Больцмана , а $p i$ - вероятность микросостояния . Энтропия Гиббса была определена Гиббс в 1878 г. после ранней работы Больцмана (1872 г.). ^[11]

Энтропия Гиббса практически без изменений переводится в мир квантовой физики, чтобы дать энтропию фон Неймана , введенную Джоном фон Нейманом в 1927 году,

{\ Displaystyle S = -k _ {\ текст {B}} \, {\ rm {Tr}} (\ rho \ ln \ rho) \,}

где ρ - матрица плотности квантово-механической системы, а Tr - след .

На повседневном практическом уровне связь между информационной энтропией и термодинамической энтропией не очевидна. Физики и химики склонны больше интересоваться изменениями энтропии по мере того, как система спонтанно эволюционирует от своих начальных условий в соответствии со вторым законом термодинамики , а не неизменным распределением вероятностей. Как показывает малая величина постоянной Больцмана $k B$ , изменения $S / k B$ даже для крошечных количеств веществ в химических и физических процессах представляют собой количества энтропии, которые чрезвычайно велики по сравнению с чем-либо в сжатии данных или обработке сигналов . В классической термодинамике энтропия определяется в терминах макроскопических измерений и не ссылается на какое-либо распределение вероятностей, которое является центральным для определения информационной энтропии.

Связь между термодинамикой и тем, что сейчас известно как теория информации, впервые была установлена Людвигом Больцманом и выражена его знаменитым уравнением :

{\ Displaystyle S = к _ {\ текст {B}} \ ln (W)}

где ${\ displaystyle S}$ - термодинамическая энтропия определенного макросостояния (определяемая термодинамическими параметрами, такими как температура, объем, энергия и т. д.), W - количество микросостояний (различные комбинации частиц в различных энергетических состояниях), которые могут дать данное макросостояние, а k _B - постоянная Больцмана . Предполагаются , что каждое микросостояние с равной вероятностью, так что вероятность данного микросостояния является р _я = 1 / W . Когда эти вероятности подставляются в приведенное выше выражение для энтропии Гиббса (или эквивалентно k _B, умноженное на энтропию Шеннона), получается уравнение Больцмана. В терминах теории информации информационная энтропия системы - это количество «недостающей» информации, необходимой для определения микросостояния при данном макросостоянии.

По мнению Джейнса (1957), термодинамическая энтропия, как объясняется статистической механикой , должна рассматриваться как приложение теории информации Шеннона: термодинамическая энтропия интерпретируется как пропорциональная количеству дополнительной информации Шеннона, необходимой для определения подробных микроскопических данных. состояние системы, которое не передается описанием исключительно в терминах макроскопических переменных классической термодинамики, при этом константа пропорциональности является просто постоянной Больцмана . Добавление тепла к системе увеличивает ее термодинамическую энтропию, потому что это увеличивает количество возможных микроскопических состояний системы, которые согласуются с измеряемыми значениями ее макроскопических переменных, что делает любое полное описание состояния более длинным. (См. Статью: термодинамика максимальной энтропии ). Демон Максвелла может (гипотетически) уменьшить термодинамическую энтропию системы, используя информацию о состояниях отдельных молекул; но, как показали Ландауэр (с 1961 г.) и его коллеги, для функционирования демон сам должен увеличивать термодинамическую энтропию в процессе, по крайней мере, на количество информации Шеннона, которую он предлагает сначала получить и сохранить; и поэтому полная термодинамическая энтропия не уменьшается (что разрешает парадокс). Принцип Ландауэра накладывает нижнюю границу на количество тепла, которое компьютер должен генерировать для обработки заданного количества информации, хотя современные компьютеры намного менее эффективны.

Сжатие данных

Энтропия определяется в контексте вероятностной модели. Независимые честные подбрасывания монеты имеют энтропию 1 бит на подбрасывание. Источник, который всегда генерирует длинную строку B, имеет энтропию 0, так как следующим символом всегда будет «B».

Скорость энтропии источника данных означает среднее количество бит на символ, необходимое для его кодирования. Эксперименты Шеннона с человеческими предсказателями показывают скорость передачи информации от 0,6 до 1,3 бита на символ в английском языке; ^[12] алгоритм сжатия PPM может достичь коэффициента сжатия 1,5 бит на символ в английском тексте.

Определение энтропии Шеннона в применении к источнику информации может определить минимальную пропускную способность канала, необходимую для надежной передачи источника в виде закодированных двоичных цифр. Энтропия Шеннона измеряет информацию, содержащуюся в сообщении, в отличие от той части сообщения, которая определена (или предсказуема). Примеры последнего включают избыточность в структуре языка или статистические свойства, относящиеся к частотам появления пар букв или слов, троек и т. Д.

Минимальная пропускная способность канала может быть реализована теоретически с использованием типичного набора или на практике с использованием кодирования Хаффмана , Лемпеля – Зива или арифметического кодирования . (См. Также сложность Колмогорова .) На практике алгоритмы сжатия намеренно включают некоторую разумную избыточность в виде контрольных сумм для защиты от ошибок.

В исследовании 2011 года, проведенном в Science, оценивается мировая технологическая способность хранить и передавать оптимально сжатую информацию, нормализованную по наиболее эффективным алгоритмам сжатия, доступным в 2007 году, таким образом оценивая энтропию технологически доступных источников. ^[13] ^{: 60–65}

Все цифры в энтропийно сжатых эксабайтах.
Тип информации	1986 г.	2007 г.
Место хранения	2,6	295
Транслировать	432	1900 г.
Телекоммуникации	0,281	65

Авторы оценивают технологические возможности человечества хранить информацию (полностью энтропийно сжатую) в 1986 году и снова в 2007 году. Они разбивают информацию на три категории: хранить информацию на носителе, получать информацию через сети одностороннего вещания или обмениваться информацией. через двусторонние телекоммуникационные сети. ^[13]

Энтропия как мера разнообразия

Энтропия - один из нескольких способов измерения разнообразия. В частности, энтропия Шеннона - это логарифм $1 D$ , истинный индекс разнообразия с параметром, равным 1.

Ограничения энтропии

Существует ряд связанных с энтропией концепций, которые каким-то образом математически определяют количество информации:

себя информацию отдельного сообщения или символа берется из заданного распределения вероятностей,
энтропия заданного распределения вероятностей сообщений или символов, а также
энтропия скорость из стохастического процесса .

(«Скорость самоинформации» также может быть определена для конкретной последовательности сообщений или символов, генерируемых данным случайным процессом: она всегда будет равна скорости энтропии в случае стационарного процесса .) Другие количества информации также используются для сравнения или связи различных источников информации.

Важно не путать приведенные выше понятия. Часто только из контекста ясно, о чем идет речь. Например, когда кто-то говорит, что «энтропия» английского языка составляет около 1 бита на символ, они фактически моделируют английский язык как стохастический процесс и говорят о его скорости энтропии . Сам Шеннон использовал этот термин таким образом.

Если используются очень большие блоки, оценка скорости энтропии для каждого символа может стать искусственно заниженной, поскольку распределение вероятностей последовательности точно не известно; это только оценка. Если рассматривать текст каждой книги, когда-либо опубликованной, как последовательность, где каждый символ является текстом всей книги, и если опубликовано $N$ книг, и каждая книга публикуется только один раз, оценка вероятности каждой книги будет $1 / N$ , а энтропия (в битах) равна $-log 2 (1 / N) = log 2 (N)$ . На практике это соответствует присвоению каждой книге уникального идентификатора и использованию его вместо текста книги всякий раз, когда кто-то хочет сослаться на книгу. Это чрезвычайно полезно для разговоров о книгах, но не столь полезно для характеристики информационного содержания отдельной книги или языка в целом: невозможно восстановить книгу по ее идентификатору, не зная распределения вероятностей, т. Е. , полный текст всех книг. Ключевая идея состоит в том, что необходимо учитывать сложность вероятностной модели. Колмогоровская сложность - это теоретическое обобщение этой идеи, которое позволяет рассматривать информационное содержание последовательности независимо от какой-либо конкретной вероятностной модели; он рассматривает самую короткую программу для универсального компьютера , выводящего последовательность. Код, который достигает скорости энтропии последовательности для данной модели, плюс кодовая книга (то есть вероятностная модель), является одной из таких программ, но может быть не самой короткой.

Последовательность Фибоначчи - это 1, 1, 2, 3, 5, 8, 13, .... рассматривая последовательность как сообщение, а каждое число как символ, символов почти столько же, сколько символов в сообщении, что дает энтропия примерно $log 2 (n)$ . Первые 128 символов последовательности Фибоначчи имеют энтропию примерно 7 бит / символ, но последовательность может быть выражена с помощью формулы [ $F (n) = F (n -1) + F (n -2)$ для $n = 3. , 4, 5,\dots$ , $F (1) = 1$ , $F (2) = 1$ ], и эта формула имеет гораздо более низкую энтропию и применима к любой длине последовательности Фибоначчи.

Ограничения энтропии в криптографии

В криптоанализе энтропия часто грубо используется как мера непредсказуемости криптографического ключа, хотя ее реальная неопределенность неизмерима. Например, 128-битный ключ, который генерируется равномерно и случайным образом, имеет 128 бит энтропии. Также требуется (в среднем) ${\ displaystyle 2 ^ {127}}$ догадывается взломать грубой силой. Энтропия не может уловить необходимое количество предположений, если возможные ключи не выбраны единообразно. ^[14]^[15] Вместо этого, мера называется догадками может быть использована для измерения усилия , необходимое для грубой силы атаки. ^[16]

Другие проблемы могут возникнуть из-за неоднородных распределений, используемых в криптографии. Например, одноразовый двоичный блокнот из 1 000 000 цифр с использованием исключающего или. Если блокнот имеет 1000000 бит энтропии, он идеален. Если блокнот имеет 999999 бит энтропии, равномерно распределенный (каждый отдельный бит блока имеет 0,999999 бит энтропии), это может обеспечить хорошую безопасность. Но если блокнот имеет 999 999 бит энтропии, где первый бит фиксирован, а остальные 999 999 бит совершенно случайны, первый бит зашифрованного текста не будет зашифрован вообще.

Данные как марковский процесс

Обычный способ определения энтропии для текста основан на марковской модели текста. Для источника порядка 0 (каждый символ выбирается независимо от последних символов) двоичная энтропия равна:

{\ displaystyle \ mathrm {H} ({\ mathcal {S}}) = - \ sum p_ {i} \ log p_ {i},}

где $p i$ - вероятность $i$ . Для марковского источника первого порядка (в котором вероятность выбора символа зависит только от непосредственно предшествующего символа) коэффициент энтропии равен:

{\ displaystyle \ mathrm {H} ({\ mathcal {S}}) = - \ sum _ {i} p_ {i} \ sum _ {j} \ p_ {i} (j) \ log p_ {i} ( j),}

^{[ необходима цитата ]}

где $i$ - состояние (некоторые предыдущие символы) и ${\ displaystyle p_ {i} (j)}$ - вероятность того, что $j$ задан предыдущим символом $i$ .

Для марковского источника второго порядка скорость энтропии равна

{\ displaystyle \ mathrm {H} ({\ mathcal {S}}) = - \ sum _ {i} p_ {i} \ sum _ {j} p_ {i} (j) \ sum _ {k} p_ { i, j} (k) \ \ log \ p_ {i, j} (k).}

Эффективность (нормализованная энтропия)

Исходный алфавит с неравномерным распределением будет иметь меньшую энтропию, чем если бы эти символы имели равномерное распределение (т.е. «оптимизированный алфавит»). Этот дефицит энтропии можно выразить как коэффициент, называемый эффективностью ^{[ Эта цитата требует цитирования ]} :

{\ displaystyle \ eta (X) = {\ frac {H} {H_ {max}}} = - \ sum _ {i = 1} ^ {n} {\ frac {p (x_ {i}) \ log _ {b} (p (x_ {i}))} {\ log _ {b} (n)}}}

Применяя основные свойства логарифма, эту величину также можно выразить как:

{\ displaystyle \ eta (X) = - \ sum _ {i = 1} ^ {n} {\ frac {p (x_ {i}) \ log _ {b} (p (x_ {i}))} { \ log _ {b} (n)}} = \ sum _ {i = 1} ^ {n} {\ frac {\ log _ {b} (p (x_ {i}) ^ {- p (x_ {i })})} {\ log _ {b} (n)}} = \ sum _ {i = 1} ^ {n} \ log _ {n} (p (x_ {i}) ^ {- p (x_ {i})}) = \ log _ {n} (\ prod _ {i = 1} ^ {n} p (x_ {i}) ^ {- p (x_ {i})})}

Эффективность полезна для количественной оценки эффективного использования канала связи . Эта формулировка также называется нормализованной энтропией, поскольку энтропия делится на максимальную энтропию. ${\ displaystyle {\ log _ {b} (n)}}$ . Кроме того, эффективность безразлична к выбору (положительного) основания $b$ , на что указывает нечувствительность в пределах последнего логарифма, приведенного выше.

Энтропия для непрерывных случайных величин

Дифференциальная энтропия

Энтропия Шеннона ограничена случайными величинами, принимающими дискретные значения. Соответствующая формула для непрерывной случайной величины с функцией плотности вероятности $f (x)$ с конечным или бесконечным носителем ${\ Displaystyle \ mathbb {X}}$ на действительной прямой определяется по аналогии, используя приведенную выше форму энтропии в качестве математического ожидания: ^[9]^{: 224}

{\ displaystyle h [f] = \ operatorname {E} [- \ ln (f (x))] = - \ int _ {\ mathbb {X}} f (x) \ ln (f (x)) \, dx.}

Это дифференциальная энтропия (или непрерывная энтропия). Предшественник непрерывной энтропии $ч [ф]$ является выражение для функционала $Н$ в Н-теореме о Больцмана .

Хотя аналогия между обеими функциями наводит на размышления, необходимо задать следующий вопрос: является ли дифференциальная энтропия допустимым расширением дискретной энтропии Шеннона? Дифференциальная энтропия лишена ряда свойств, которыми обладает дискретная энтропия Шеннона - она может быть даже отрицательной - и были предложены поправки, в частности, ограничение плотности дискретных точек .

Чтобы ответить на этот вопрос, необходимо установить связь между двумя функциями:

Чтобы получить обычно конечную меру, когда размер ячейки стремится к нулю. В дискретном случае размер бина - это (неявная) ширина каждого из $n$ (конечных или бесконечных) бинов, вероятности которых обозначены как $p n$ . Поскольку непрерывная область является обобщенной, ширина должна быть указана явно.

Для этого начнем с непрерывной функции $f,$ дискретизированной на ячейки размером ${\ displaystyle \ Delta}$ . По теореме о среднем значении в каждой ячейке существует такое значение $x i$ , что

{\ displaystyle f (x_ {i}) \ Delta = \ int _ {i \ Delta} ^ {(i + 1) \ Delta} f (x) \, dx}

интеграл от функции $f$ может быть аппроксимирован (в римановом смысле) выражением

{\ displaystyle \ int _ {- \ infty} ^ {\ infty} f (x) \, dx = \ lim _ {\ Delta \ to 0} \ sum _ {i = - \ infty} ^ {\ infty} f (x_ {i}) \ Delta}

где этот предел и «размер ячейки стремится к нулю» эквивалентны.

Обозначим

{\ displaystyle \ mathrm {H} ^ {\ Delta}: = - \ sum _ {i = - \ infty} ^ {\ infty} f (x_ {i}) \ Delta \ log \ left (f (x_ {i }) \ Delta \ right)}

и раскладывая логарифм, имеем

{\ Displaystyle \ mathrm {H} ^ {\ Delta} = - \ sum _ {я = - \ infty} ^ {\ infty} f (x_ {i}) \ Delta \ log (f (x_ {i})) - \ sum _ {i = - \ infty} ^ {\ infty} f (x_ {i}) \ Delta \ log (\ Delta).}

При ∆ → 0 имеем

{\ displaystyle {\ begin {align} \ sum _ {i = - \ infty} ^ {\ infty} f (x_ {i}) \ Delta & \ to \ int _ {- \ infty} ^ {\ infty} f (x) \, dx = 1 \\\ сумма _ {i = - \ infty} ^ {\ infty} f (x_ {i}) \ Delta \ log (f (x_ {i})) & \ to \ int _ {- \ infty} ^ {\ infty} f (x) \ log f (x) \, dx. \ end {align}}}

Примечание; $log (Δ) \to -\infty$ при $Δ \to 0$ требует специального определения дифференциальной или непрерывной энтропии:

{\ displaystyle h [f] = \ lim _ {\ Delta \ to 0} \ left (\ mathrm {H} ^ {\ Delta} + \ log \ Delta \ right) = - \ int _ {- \ infty} ^ {\ infty} f (x) \ журнал f (x) \, dx,}

которая, как было сказано ранее, называется дифференциальной энтропией. Это означает, что дифференциальная энтропия не является пределом энтропии Шеннона при $n \to \infty$ . Скорее, он отличается от предела энтропии Шеннона бесконечным смещением (см. Также статью об измерении информации ).

Предельная плотность дискретных точек

Оказывается, в результате чего, в отличие от энтропии Шеннона, дифференциальная энтропия не в целом хорошей мерой неопределенности или информации. Например, дифференциальная энтропия может быть отрицательной; также он не инвариантен относительно непрерывных преобразований координат. Эта проблема может быть проиллюстрирована изменением единиц измерения, когда x - размерная переменная. Тогда f (x) будет иметь единицы 1 / x . Аргумент логарифма должен быть безразмерным, в противном случае он неправильный, так что приведенная выше дифференциальная энтропия будет неправильной. Если Δ является некоторым «стандартным» значением x (т. Е. «Размером ячейки») и, следовательно, имеет те же единицы измерения, то модифицированная дифференциальная энтропия может быть записана в надлежащей форме как:

{\ displaystyle H = \ int _ {- \ infty} ^ {\ infty} f (x) \ log (f (x) \, \ Delta) \, dx}

и результат будет таким же при любом выборе единиц для x . Фактически, предел дискретной энтропии при ${\ Displaystyle N \ rightarrow \ infty}$ также будет включать срок ${\ Displaystyle \ журнал (N)}$ , что в общем случае было бы бесконечным. Это ожидается: непрерывные переменные обычно имеют бесконечную энтропию при дискретизации. Предельная плотность дискретных точек действительно является мерой того , насколько проще распределение является описать , чем распределение, однороден по схеме квантования.

Относительная энтропия

Еще одна полезная мера энтропии, которая одинаково хорошо работает как в дискретном, так и в непрерывном случае, - это относительная энтропия распределения. Он определяется как расхождение Кульбака – Лейблера от распределения к эталонной мере $m$ следующим образом. Предположим , что распределение вероятностей $р$ является абсолютно непрерывна относительно меры $т$ , т.е. имеет вид $р (дх) = е (х) м (ах)$ для некоторого неотрицательного $м$ -интегрируемой функции $F$ с $м$ -интеграла 1, тогда относительную энтропию можно определить как

{\ Displaystyle D _ {\ mathrm {KL}} (p \ | m) = \ int \ log (f (x)) p (dx) = \ int f (x) \ log (f (x)) m (dx ).}

В этой форме относительная энтропия обобщает (с точностью до смены знака) как дискретную энтропию, где мера $m$ является считающей мерой , так и дифференциальную энтропию, где мера $m$ является мерой Лебега . Если мера $m$ сама является распределением вероятностей, относительная энтропия неотрицательна и равна нулю, если $p = m в$ качестве меры. Он определен для любого пространства меры, следовательно, не зависит от координат и инвариантен относительно повторных параметризаций координат, если правильно учесть преобразование меры $m$ . Относительная энтропия и (неявно) энтропия и дифференциальная энтропия зависят от «эталонной» меры $m$ .

Использование в комбинаторике

Энтропия стала полезной величиной в комбинаторике .

Неравенство Лумиса – Уитни

Простым примером этого является альтернативное доказательство неравенства Лумиса – Уитни : для любого подмножества $A \subseteq Z d$ мы имеем

{\ Displaystyle | A | ^ {d-1} \ leq \ prod _ {i = 1} ^ {d} | P_ {i} (A) |}

где $P i$ - ортогональная проекция по $i-$ й координате:

{\ Displaystyle P_ {я} (A) = \ {(x_ {1}, \ ldots, x_ {i-1}, x_ {i + 1}, \ ldots, x_ {d}) :( x_ {1} , \ ldots, x_ {d}) \ in A \}.}

Доказательство следует как простое следствие неравенства Ширера : если $X 1,\dots, X d$ - случайные величины и $S 1,\dots, S n$ - подмножества ${1,\dots, d$ } такие, что каждое целое число от 1 до $d$ лежит в ровно $r$ этих подмножеств, то

{\ Displaystyle \ mathrm {H} [(X_ {1}, \ ldots, X_ {d})] \ leq {\ frac {1} {r}} \ sum _ {i = 1} ^ {n} \ mathrm {H} [(X_ {j}) _ {j \ in S_ {i}}]}

где ${\ displaystyle (X_ {j}) _ {j \ in S_ {i}}}$ - декартово произведение случайных величин $X j$ с индексами $j$ в $S i$ (так что размерность этого вектора равна размеру $S i$ ).

Мы набросаем, как Лумис – Уитни следует из этого: в самом деле, пусть $X$ - равномерно распределенная случайная величина со значениями в $A,$ так что каждая точка в $A$ встречается с равной вероятностью. Тогда (в силу других свойств энтропии, упомянутых выше) $Η (X) = log | А |$ , где $| А |$ обозначает мощность $A$ . Пусть $S i = {1, 2,\dots, i -1, i +1,\dots, d$ }. Диапазон ${\ displaystyle (X_ {j}) _ {j \ in S_ {i}}}$ содержится в $P i (A)$ и, следовательно, ${\ displaystyle \ mathrm {H} [(X_ {j}) _ {j \ in S_ {i}}] \ leq \ log | P_ {i} (A) |}$ . Теперь используйте это, чтобы ограничить правую часть неравенства Ширера и возвести в степень противоположные стороны полученного неравенства.

Приближение к биномиальному коэффициенту

Для целых чисел $0 < k < n$ положим $q = k / n$ . потом

{\ displaystyle {\ frac {2 ^ {n \ mathrm {H} (q)}} {n + 1}} \ leq {\ tbinom {n} {k}} \ leq 2 ^ {n \ mathrm {H} (q)},}

где

{\ displaystyle \ mathrm {H} (q) = - q \ log _ {2} (q) - (1-q) \ log _ {2} (1-q).}

^[17]^{: 43}

Доказательство (эскиз)

Обратите внимание, что

{\ displaystyle {\ tbinom {n} {k}} q ^ {qn} (1-q) ^ {n-nq}}

это один член выражения

{\ displaystyle \ sum _ {я = 0} ^ {n} {\ tbinom {n} {i}} q ^ {i} (1-q) ^ {ni} = (q + (1-q)) ^ { n} = 1.}

Перестановка дает верхнюю границу. Что касается нижней границы, сначала с помощью некоторой алгебры показывают, что это наибольший член в суммировании. Но потом,

{\ displaystyle {\ binom {n} {k}} q ^ {qn} (1-q) ^ {n-nq} \ geq {\ frac {1} {n + 1}}}

поскольку в суммировании содержится $n + 1$ слагаемых. Перестановка дает нижнюю границу.

Хорошая интерпретация этого состоит в том, что количество двоичных строк длины $n,$ содержащих ровно $k$ единиц, приблизительно равно ${\ Displaystyle 2 ^ {п \ mathrm {H} (к / п)}}$ . ^[18]

Смотрите также

Перекрестная энтропия - это мера среднего количества битов, необходимых для идентификации события из набора возможностей между двумя распределениями вероятностей.
Энтропия (стрела времени)
Энтропийное кодирование - схема кодирования, которая назначает коды символам, чтобы длина кода соответствовала вероятностям символов.
Оценка энтропии
Неравенство энтропийной мощности
Информация Fisher
Энтропия графа
Расстояние Хэмминга
История энтропии
История теории информации
Сложность флуктуации информации
Информационная геометрия
Энтропия Колмогорова – Синая в динамических системах.
Расстояние Левенштейна
Взаимная информация
Недоумение
Качественная вариация - другие меры статистической дисперсии для номинальных распределений
Квантовая относительная энтропия - мера различимости двух квантовых состояний.
Энтропия Реньи - обобщение энтропии Шеннона; это один из семейства функционалов для количественной оценки разнообразия, неопределенности или случайности системы.
Случайность
Индекс Шеннона
Индекс Тейла
Типогликемия

дальнейшее чтение

Учебники по теории информации

Cover, TM , Thomas, JA (2006), Элементы теории информации - 2-е изд. , Wiley-Interscience, ISBN 978-0-471-24195-9
Маккей, DJC (2003), Теория информации, алгоритмы вывода и обучения , Cambridge University Press, ISBN 978-0-521-64298-9
Арндт, К. (2004), Информационные меры: информация и ее описание в науке и технике , Springer, ISBN 978-3-540-40855-0
Грей Р.М. (2011), Теория энтропии и информации , Springer.
Мартин, Натаниэль Ф. Г. и Англия, Джеймс У. (2011). Математическая теория энтропии . Издательство Кембриджского университета. ISBN 978-0-521-17738-2.CS1 maint: использует параметр авторов ( ссылка )
Шеннон, CE , Уивер, W. (1949) Математическая теория коммуникации , Univ of Illinois Press. ISBN 0-252-72548-4
Стоун, СП (2014), Глава 1 теории информации: Введение в учебное пособие , Университет Шеффилда, Англия. ISBN 978-0956372857 .

Внешние ссылки

"Энтропия" , Математическая энциклопедия , EMS Press , 2001 [1994]
«Энтропия» в Rosetta Code - хранилище реализаций энтропии Шеннона на различных языках программирования.
Энтропия междисциплинарный журнал по всем аспектам концепции энтропии. Открытый доступ.

[shannonPaper1-1] Шеннон, Клод Э. (июль 1948 г.). «Математическая теория коммуникации» . Технический журнал Bell System . 27 (3): 379–423. DOI : 10.1002 / j.1538-7305.1948.tb01338.x . hdl : 10338.dmlcz / 101429 .( PDF , заархивирован отсюда )

[shannonPaper2-2] а б Шеннон, Клод Э. (октябрь 1948 г.). «Математическая теория коммуникации» . Технический журнал Bell System . 27 (4): 623–656. DOI : 10.1002 / j.1538-7305.1948.tb00917.x . hdl : 11858 / 00-001M-0000-002C-4317-B .( PDF , заархивирован отсюда )

[pathriaBook-3] Патрия, РК; Бил, Пол (2011). Статистическая механика (Третье изд.). Академическая пресса. п. 51. ISBN 978-0123821881.

[mackay2003-4] Маккей, Дэвид JC (2003). Теория информации, выводы и алгоритмы обучения . Издательство Кембриджского университета. ISBN 0-521-64298-1.

[Schneier,_B_page_234-5] Шнайер, B: Прикладная криптография , второе издание, John Wiley and Sons.

[6] Борда, Моника (2011). Основы теории информации и кодирования . Springer. ISBN 978-3-642-20346-6.

[7] Хан, Те Сун и Кобаяши, Кинго (2002). Математика информации и кодирования . Американское математическое общество. ISBN 978-0-8218-4256-0.CS1 maint: использует параметр авторов ( ссылка )

[8] Шнайдер, Т. Д., Учебник по теории информации с приложением о логарифмах , Национальный институт рака, 14 апреля 2007 г.

[cover1991-9] Б с д е е г ч я J Томас М. Кавер; Джой А. Томас (1991). Элементы теории информации . Хобокен, Нью-Джерси: Wiley. ISBN 978-0-471-24195-9.

[10] Картер, Том (март 2014). Введение в теорию информации и энтропию (PDF) . Санта-Фе . Проверено 4 августа 2017 года .

[11] Сравните: Больцман, Людвиг (1896, 1898). Vorlesungen über Gastheorie: 2 тома - Лейпциг 1895/98 UB: O 5262-6. Английская версия: Лекции по теории газа. Перевод Стивена Дж. Браш (1964) Беркли: Калифорнийский университет Press; (1995) Нью-Йорк: Дувр ISBN 0-486-68455-5

[12] Марк Нельсон (24 августа 2006 г.). «Приз Хаттера» . Проверено 27 ноября 2008 года .

[HilbertLopez2011-13] «Мировой технологический потенциал для хранения, передачи и вычисления информации» , Мартин Гильберт и Присцила Лопес (2011), Science , 332 (6025); бесплатный доступ к статье здесь: martinhilbert.net/WorldInfoCapacity.html

[14] Мэсси, Джеймс (1994). «Гадание и энтропия» (PDF) . Proc. Международный симпозиум IEEE по теории информации . Источник +31 Декабря 2 013 .

[15] Мэлоун, Дэвид; Салливан, Уэйн (2005). «Предположения не заменяют энтропию» (PDF) . Материалы конференции «Информационные технологии и телекоммуникации» . Источник +31 Декабря 2 013 .

[16] Плиам, Джон (1999). «Дальность догадок и вариаций как меры защиты шифров». Международный семинар по избранным направлениям криптографии . DOI : 10.1007 / 3-540-46513-8_5 .

[17] Аоки, Новые подходы к макроэкономическому моделированию.

[18] Вероятность и вычисления, М. Митценмахер и Э. Упфаль, Cambridge University Press

[1]