Информационная энтропия


Информацио́нная энтропи́я — мера неопределённости некоторой системы (в статистической физике или теории информации), в частности, непредсказуемость появления какого-либо символа первичного алфавита. В последнем случае при отсутствии информационных потерь энтропия численно равна количеству информации на символ передаваемого сообщения.

Например, в последовательности букв, составляющих какое-либо предложение на русском языке, разные буквы появляются с разной частотностью, поэтому неопределённость появления для некоторых букв меньше, чем для других. Если же учесть, что некоторые сочетания букв (в этом случае говорят об энтропии -го порядка, см. ниже) встречаются очень редко, то неопределённость уменьшается еще сильнее.

Информационная двоичная энтропия, при отсутствии информационных потерь, рассчитывается по формуле Хартли:

где  — мощность алфавита,  — количество информации в каждом символе сообщения. Для случайной величины , принимающей независимых случайных значений с вероятностями (), формула Хартли переходит в формулу Шеннона:

Эта величина также называется средней энтропией сообщения и означает измеряемое в битах среднее количество информации на символ передаваемого сообщения. Величина называется частной энтропией, характеризующей только -e состояние.

Таким образом, энтропия системы является суммой с противоположным знаком всех относительных частотностей появления состояния (события) с номером , умноженных на их же двоичные логарифмы[1]. Это определение для дискретных случайных событий можно формально расширить для непрерывных распределений, заданных плотностью распределения вероятностей, однако полученный функционал будет обладать несколько иными свойствами (см. дифференциальная энтропия).