Дифференциальная энтропия (также называется непрерывной энтропией ) является понятием в теории информации , которая началась как попытка Шеннона , чтобы расширить идею (Shannon) энтропии , мера средней surprisal в виде случайной величины , для непрерывных вероятностных распределений . К сожалению, Шеннон не вывел эту формулу, а просто предположил, что это правильный непрерывный аналог дискретной энтропии, но это не так. [1] : 181–218 Фактическая непрерывная версия дискретной энтропии - это предельная плотность дискретных точек.(LDDP). Дифференциальная энтропия (описанная здесь) часто встречается в литературе, но это предельный случай LDDP, который теряет свою фундаментальную связь с дискретной энтропией .
Для вероятностных распределений, которые не имеют явного выражения функции плотности, но имеют явное выражение функции квантили , то может быть определено в терминах производной, то есть функции плотности квантиля, как [3] : 54–59
.
Как и в случае с его дискретным аналогом, единицы дифференциальной энтропии зависят от основания логарифма , которое обычно равно 2 (т. Е. Единицы измерения - биты ). См. Логарифмические единицы для логарифмов, взятых по разным основаниям. Связанные понятия, такие как совместная , условная дифференциальная энтропия и относительная энтропия , определяются аналогичным образом. В отличие от дискретного аналога, дифференциальная энтропия имеет смещение, которое зависит от единиц измерения . [4] : 183–184Например, дифференциальная энтропия величины, измеренной в миллиметрах, будет на log (1000) больше, чем такая же величина, измеренная в метрах; безразмерная величина будет иметь дифференциальную энтропию на log (1000) больше, чем такая же величина, деленная на 1000.
Следует проявлять осторожность, пытаясь применить свойства дискретной энтропии к дифференциальной энтропии, поскольку функции плотности вероятности могут быть больше 1. Например, равномерное распределение имеет отрицательную дифференциальную энтропию
.
Таким образом, дифференциальная энтропия не обладает всеми свойствами дискретной энтропии.
Следует отметить , что непрерывная взаимная информация имеет различие сохраняет свою фундаментальную значимость в качестве меры дискретной информации , так как это фактически предел дискретной взаимной информации разделов на и как эти перегородки становятся тоньше и тоньше. Таким образом, он инвариантен относительно нелинейных гомеоморфизмов (непрерывных и однозначно обратимых отображений), [5] включая линейные [6] преобразования и , и по-прежнему представляет количество дискретной информации, которая может быть передана по каналу, допускающему непрерывное пространство значения.
Для прямого аналога дискретной энтропии, распространенной на непрерывное пространство, см. Предельную плотность дискретных точек .
Свойства дифференциальной энтропии [ править ]
Для плотностей вероятности и , то дивергенция Кульбака-Лейблер больше или равен 0 , с равенством только тогда , когда почти везде . Аналогично для двух случайных величин и , и с равенством тогда и только тогда , когда и являются независимыми .
Цепное правило для дифференциальной энтропии выполняется, как и в дискретном случае [2] : 253
.
Дифференциальная энтропия инвариантна относительно трансляции, т. Е. Для постоянной . [2] : 253
Дифференциальная энтропия, вообще говоря, не инвариантна относительно произвольных обратимых отображений.
В частности, для постоянного
Для векторной случайной величины и обратимой (квадратной) матрицы
[2] : 253
В общем, для преобразования случайного вектора в другой случайный вектор той же размерности соответствующие энтропии связаны соотношением
где - якобиан преобразования . [7] Вышеупомянутое неравенство становится равенством, если преобразование является биекцией. Кроме того, когда это жесткое вращение, перенос или их комбинация, определитель Якоби всегда равен 1, и .
Если случайный вектор имеет нулевое среднее значение и матрицу ковариации , с равенством тогда и только тогда, когда он совместно гауссовский (см. Ниже ). [2] : 254
Однако у дифференциальной энтропии нет других желаемых свойств:
Он не инвариантен при замене переменных и поэтому наиболее полезен с безразмерными переменными.
Может быть отрицательным.
Модификация дифференциальной энтропии, которая устраняет эти недостатки, представляет собой относительную информационную энтропию , также известную как дивергенция Кульбака – Лейблера, которая включает инвариантный фактор меры (см. Ограничение плотности дискретных точек ).
Максимизация в нормальном распределении [ править ]
Теорема [ править ]
При нормальном распределении дифференциальная энтропия максимизируется для данной дисперсии. Гауссовская случайная величина имеет наибольшую энтропию среди всех случайных величин с равной дисперсией, или, альтернативно, максимальное распределение энтропии при ограничениях среднего и дисперсии является гауссовым. [2] : 255
Доказательство [ править ]
Пусть будет гауссовской PDF со средним μ и дисперсией и произвольной PDF с той же дисперсией. Поскольку дифференциальная энтропия инвариантна относительно сдвига, мы можем предположить, что она имеет то же среднее значение, что и .
Рассмотрим расхождение Кульбака – Лейблера между двумя распределениями.
Теперь обратите внимание, что
потому что результат зависит только от дисперсии. Объединение двух результатов дает
с равенством при следовании из свойств расходимости Кульбака – Лейблера.
Альтернативное доказательство [ править ]
Этот результат можно также продемонстрировать с помощью вариационного исчисления . Функция Лагранжа с двумя множителями Лагранжа может быть определена как:
где g (x) - некоторая функция со средним μ. Когда энтропия g (x) максимальна и уравнения связи, которые состоят из условия нормализации и требования фиксированной дисперсии , удовлетворены, тогда небольшое изменение δ g ( x ) относительно g (x) приведет к вариация δ L относительно L, равная нулю:
Поскольку это должно выполняться для любого малого δ g ( x ), член в скобках должен быть равен нулю, и решение относительно g (x) дает:
Использование уравнений связи для решения относительно λ 0 и λ дает нормальное распределение:
Пусть - экспоненциально распределенная случайная величина с параметром , то есть с функцией плотности вероятности
Тогда его дифференциальная энтропия равна
Здесь использовалось, а не для того, чтобы явно указать, что логарифм взят по основанию e , чтобы упростить вычисление.
Связь с ошибкой оценщика [ править ]
Дифференциальная энтропия дает нижнюю границу ожидаемой квадратичной ошибки оценки . Для любой случайной величины и оценки выполняется следующее: [2]
с равенством тогда и только тогда, когда является гауссовой случайной величиной и является средним значением .
Дифференциальные энтропии для различных распределений [ править ]
В приведенной ниже таблице является гамма - функция , является функцией дигамма , является бета - функция , и γ E является постоянная Эйлера . [8] : 219–230
Таблица дифференциальных энтропий
Название дистрибутива
Функция плотности вероятности (pdf)
Энтропия в нац
Поддерживать
Униформа
Нормальный
Экспоненциальный
Рэлей
Бета
за
Коши
Чи
Хи-квадрат
Erlang
F
Гамма
Лаплас
Логистика
Логнормальный
Максвелл – Больцманн
Обобщенный нормальный
Парето
Студенческий т
Треугольный
Weibull
Многомерный нормальный
Многие из дифференциальных энтропий происходят от. [9] : 120–122
Варианты [ править ]
Как описано выше, дифференциальная энтропия не обладает всеми свойствами дискретной энтропии. Например, дифференциальная энтропия может быть отрицательной; также он не инвариантен относительно непрерывных преобразований координат. Эдвин Томпсон Джейнс фактически показал, что приведенное выше выражение не является правильным пределом выражения для конечного набора вероятностей. [10] : 181–218
Модификация дифференциальной энтропии добавляет инвариантный фактор меры, чтобы исправить это (см. Ограничение плотности дискретных точек ). Если дополнительно ограничивается плотностью вероятности, результирующее понятие в теории информации называется относительной энтропией :
Приведенное выше определение дифференциальной энтропии может быть получено путем разделения диапазона на ячейки длины с соответствующими точками выборки в ячейках для интегрируемости по Риману. Это дает квантованную версию , определяемую if . Тогда энтропия равна [2]
Первый член справа аппроксимирует дифференциальную энтропию, а второй член - приблизительно . Обратите внимание, что эта процедура предполагает, что энтропия в дискретном смысле непрерывной случайной величины должна быть .
См. Также [ править ]
Информационная энтропия
Самоинформация
Оценка энтропии
Ссылки [ править ]
Перейти ↑ Jaynes, ET (1963). "Теория информации и статистическая механика" (PDF) . Летний институт Университета Брандейса читает лекции по теоретической физике . 3 (раздел 4b).
^ a b c d e f g h Обложка, Томас М .; Томас, Джой А. (1991). Элементы теории информации . Нью-Йорк: Вили. ISBN 0-471-06259-6.
^ Васичек, Олдрих (1976), «Тест на нормальность, основанный на выборочной энтропии», Журнал Королевского статистического общества, серия B , 38 (1), JSTOR 2984828 .
^ Гиббс, Джозайя Уиллард (1902). Элементарные принципы статистической механики, разработанные с особым упором на рациональные основы термодинамики . Нью-Йорк: Сыновья Чарльза Скрибнера.
^ Fazlollah М. Реза (1994) [тысяча девятьсот шестьдесят один]. Введение в теорию информации . Dover Publications, Inc., Нью-Йорк. ISBN 0-486-68210-2.
^ "доказательство верхней границы дифференциальной энтропии f (X)" . Обмен стеками . 16 апреля 2016 г.
^ Park, Sung Y .; Бера, Анил К. (2009). "Модель условной гетероскедастичности авторегрессии максимальной энтропии" (PDF) . Журнал эконометрики . Эльзевир. Архивировано из оригинального (PDF) 07 марта 2016 года . Проверено 2 июня 2011 .
^ Лазо, А. П. Rathie (1978). «Об энтропии непрерывных распределений вероятностей». IEEE Transactions по теории информации . 24 (1): 120–122. DOI : 10.1109 / TIT.1978.1055832 .
Перейти ↑ Jaynes, ET (1963). "Теория информации и статистическая механика" (PDF) . Летний институт Университета Брандейса читает лекции по теоретической физике . 3 (раздел 4b).