В математической статистике , то Кульбак-Лейблер дивергенция, (также называемая относительной энтропией ) - это мера того, чем одно распределение вероятностей отличается от второго, эталонного распределения вероятностей. [1] [2] Приложения включают определение относительной энтропии (Шеннона) в информационных системах, случайности в непрерывных временных рядах и получения информации при сравнении статистических моделей вывода . В отличие от вариации информации , это асимметричная мера распределения и, следовательно, не квалифицируется как статистическая метрика разброса - она также не удовлетворяет неравенству треугольника.. В простом случае относительная энтропия, равная 0, указывает на то, что два рассматриваемых распределения имеют идентичные количества информации. Говоря упрощенно, это мера неожиданности с разнообразными приложениями, такими как прикладная статистика, механика жидкости , нейробиология и биоинформатика .
Введение и контекст
Рассмотрим два распределения вероятностей а также . Обычно,представляет данные, наблюдения или точно измеренное распределение вероятностей. Распределение представляет собой теорию, модель, описание или приближение . Расхождение Кульбака-Лейблера затем интерпретируется как средняя разность количества битов, необходимых для кодирования выборок используя код, оптимизированный для а не оптимизированный для .
Этимология
Относительная энтропия была введена Соломоном Кульбаком и Ричардом Лейблером в 1951 году как направленное расхождение между двумя распределениями; Кульбак предпочел термин « дискриминационная информация» . [3] Расхождение обсуждается в книге Кульбака 1959 года « Теория информации и статистика» . [2]
Определение
Для дискретных распределений вероятностей а также определены на том же вероятностном пространстве ,, относительная энтропия из к определяется [4] как
что эквивалентно
Другими словами, это математическое ожидание логарифмической разности вероятностей а также , где математическое ожидание берется с использованием вероятностей . Относительная энтропия определяется, только если для всех, подразумевает ( абсолютная преемственность ). В любое время равен нулю, вклад соответствующего члена интерпретируется как ноль, потому что
Для дистрибутивов а также из непрерывной случайной величины , относительная энтропия определяется как интеграл: [5] : р. 55
где а также Обозначим плотность вероятности из а также .
В более общем смысле, если а также являются вероятностными мерами над множеством, а также является абсолютно непрерывна относительно, то относительная энтропия из к определяется как
где является производной Радона – Никодима от относительно , и при условии, что выражение в правой части существует. Эквивалентно (по цепному правилу ) это можно записать как
который является энтропией из относительно . Продолжая в этом случае, если есть ли какая-либо мера на для которого а также существуют (это означает, что а также абсолютно непрерывны относительно ), то относительная энтропия из к дается как
Логарифмы в этих формулах берутся с основанием 2, если информация измеряется в битах , или с основаниемесли информация измеряется в нац . Большинство формул относительной энтропии верны независимо от основания логарифма.
Существуют различные соглашения для обозначения в словах. Часто это называют расхождением между а также , но это не передает фундаментальной асимметрии отношения. Иногда, как в этой статье, это может быть описано как расхождение из или как отклонение от к . Это отражает асимметрию в умозаключениях байесовских , которая начинается от до и обновления к в задней . Другой распространенный способ обозначить как относительная энтропия относительно .
Базовый пример
Кульбак [2] приводит следующий пример (таблица 2.1, пример 2.1). Позволять а также - распределения, показанные в таблице и на рисунке. - распределение в левой части рисунка, биномиальное распределение с а также . - это распределение в правой части рисунка, дискретное равномерное распределение с тремя возможными исходами , , или же (т.е. ), каждая с вероятностью .
Икс | 0 | 1 | 2 |
---|---|---|---|
Распределение P (x) | |||
Распределение Q (x) |
Относительные энтропии а также рассчитываются следующим образом. В этом примере используется натуральный логарифм с основанием e , обозначенныйдля получения результатов в нац (см. единицы информации ).
Интерпретации
Относительная энтропия от к часто обозначается .
В контексте машинного обучения ,часто называют получением информации, если будет использоваться вместо который в настоящее время используется. По аналогии с теорией информации, она называется относительной энтропии из относительно . В контексте теории кодирования ,могут быть построены путем измерения ожидаемого количества дополнительных битов, необходимых для кодирования образцов из используя код, оптимизированный для а не код, оптимизированный для .
Выражаясь языком байесовского вывода ,является мерой информации, полученной путем пересмотра своих убеждений на основе априорного распределения вероятностей. к апостериорному распределению вероятностей . Другими словами, это количество информации, потерянной при используется для приближения . [6] В приложениях, обычно представляет собой «истинное» распределение данных, наблюдений или точно рассчитанное теоретическое распределение, в то время как как правило , представляет собой теорию, модель, описание, или приближение из. Чтобы найти распространение что ближе всего к , мы можем минимизировать расхождение KL и вычислить информационную проекцию .
Относительная энтропия - это частный случай более широкого класса статистических расхождений, называемых f- расходимостями, а также класса расхождений Брегмана . Это единственное такое расхождение по вероятностям, которое принадлежит обоим классам. Хотя это часто интуитивно воспринимается как способ измерения расстояния между распределениями вероятностей , расхождение Кульбака – Лейблера не является истинной метрикой . Он не подчиняется неравенству треугольника , и в целом не равно . Однако его бесконечно малая форма, в частности его гессиан , дает метрический тензор, известный как информационная метрика Фишера .
Артур Хобсон доказал, что относительная энтропия - это единственная мера разницы между распределениями вероятностей, которая удовлетворяет некоторым желаемым свойствам, которые являются каноническим расширением тех, которые появляются в обычно используемой характеристике энтропии . [7] Следовательно, взаимная информация является единственной мерой взаимной зависимости, которая подчиняется определенным связанным условиям, поскольку ее можно определить в терминах расхождения Кульбака – Лейблера .
Мотивация
В теории информации теорема Крафт-Макмиллана устанавливает, что любая непосредственно декодируемая схема кодирования для кодирования сообщения для идентификации одного значения из множества возможностей можно рассматривать как представление неявного распределения вероятностей над , где длина кода для в битах. Следовательно, относительную энтропию можно интерпретировать как ожидаемую дополнительную длину сообщения на данные, которые должны быть переданы, если код оптимален для данного (неправильного) распределения. используется, по сравнению с использованием кода, основанного на истинном распределении .
где является кросс энтропии из а также , а также является энтропия в (что то же самое, что кросс-энтропия P с самим собой).
Относительная энтропия можно рассматривать как что-то вроде измерения того, насколько далеко распределение Q от распределения P. Кросс-энтропия сам по себе является таким измерением, но имеет тот недостаток, что не ноль, поэтому мы вычитаем делать более точно согласны с нашим понятием расстояния. (К сожалению, это все еще несимметрично.) Относительная энтропия относится к « функции скорости » в теории больших отклонений . [8] [9]
Характеристики
- Относительная энтропия всегда неотрицательна ,
- результат, известный как неравенство Гиббса , с равно нулю тогда и только тогда, когдапочти везде . Энтропия таким образом устанавливает минимальное значение для кросс-энтропии , ожидаемое количество битов, необходимых при использовании кода, основанного на скорее, чем ; поэтому расхождение Кульбака-Лейблера представляет собой ожидаемое количество дополнительных битов, которые необходимо передать, чтобы идентифицировать значение. взяты из , если используется код, соответствующий распределению вероятностей , а не "истинное" распределение .
- Относительная энтропия остается четко определенной для непрерывных распределений и, кроме того, инвариантна относительно преобразований параметров . Например, если преобразование выполняется из переменной изменять , то, поскольку а также относительную энтропию можно переписать:
- где а также . Хотя предполагалось, что преобразование было непрерывным, это не обязательно. Это также показывает, что относительная энтропия дает размерно согласованную величину, так как если переменная с размерами, а также также имеют размеры, так как, например, безразмерен. Аргумент логарифмического члена был и остается безразмерным, как и должен. Поэтому его можно рассматривать как в некотором смысле более фундаментальную величину, чем некоторые другие свойства в теории информации [10] (такие как самоинформация или энтропия Шеннона ), которая может стать неопределенной или отрицательной для недискретных вероятностей.
- Относительная энтропия аддитивна для независимых распределений во многом так же, как энтропия Шеннона. Если независимые распределения, с совместным распределением , а также аналогично, тогда
- Относительная энтропия является выпуклым в паре массовых функций вероятности , т.е. если а также - две пары вероятностных массовых функций, то
- Следующая теорема называется формулой двойственности для вариационного вывода. Это объясняет некоторые важные свойства вариационных распределений, используемых в вариационных байесовских методах . [11]
Теорема. Рассмотрим два вероятностных пространства. а также с участием . Предположим, что существует общая доминирующая вероятностная мера такой, что а также . Позволятьобозначать любую действительную случайную величину на это удовлетворяет . Тогда имеет место равенство
Далее, супремум в правой части достигается тогда и только тогда, когда он выполняется
почти наверняка относительно вероятностной меры , где а также обозначим производные Радона-Никодима от вероятностных мер а также относительно , соответственно.
Примеры
Многомерные нормальные распределения
Предположим, что у нас есть два многомерных нормальных распределения со среднимии с (невырожденными) ковариационными матрицами Если два распределения имеют одинаковую размерность, , то относительная энтропия между распределениями будет следующей: [12] : с. 13
Логарифм в последнем члене должен быть принят к базовым е , так как все члены кроме последнего являются BASE - е логарифмами выражений , которые являются либо факторами функции плотности или иначе возникают естественным образом . Таким образом, уравнение дает результат, измеренный в нац . Разделив все выражение выше надает расхождение в битах .
Частным случаем и общей величиной в вариационном выводе является относительная энтропия между диагональным многомерным нормальным и стандартным нормальным распределением (с нулевым средним и единичной дисперсией):
Отношение к метрикам
У кого-то может возникнуть соблазн назвать относительную энтропию « метрикой расстояния » в пространстве вероятностных распределений, но это будет неверно, поскольку она не симметрична, то есть- и не удовлетворяет неравенству треугольника . Он генерирует топологию на пространстве вероятностных распределений . Более конкретно, если последовательность распределений такая, что
тогда говорят, что
Неравенство Пинскера влечет за собой, что
где последний означает обычную сходимость в полной вариации .
Информационная метрика Fisher
Относительная энтропия напрямую связана с информационной метрикой Фишера . Это можно пояснить следующим образом. Предположим, что вероятностные распределения а также оба параметризованы некоторым (возможно, многомерным) параметром . Рассмотрим тогда два близких по величине значения а также так что параметр незначительно отличается от значения параметра . В частности, до первого порядка (с использованием соглашения о суммировании Эйнштейна )
с участием небольшое изменение в направление, и соответствующая скорость изменения распределения вероятностей. Поскольку относительная энтропия имеет абсолютный минимум 0 при, т.е. , он меняется только на второй порядок по малым параметрам. Более формально, как и для любого минимума, первые производные расходимости обращаются в нуль
а по разложению Тейлора до второго порядка
где матрица Гессе дивергенции
должно быть положительно полуопределенным . Сдача варьировать (и отбрасывать субиндекс 0) гессианский определяет (возможно, вырожденную) риманову метрику на пространстве параметров θ , называемую информационной метрикой Фишера.
Информационная метрическая теорема Фишера
Когда удовлетворяет следующим условиям регулярности:
- существовать,
где ξ не зависит от ρ
тогда:
Вариация информации
Другой теоретико-информационной метрикой является вариация информации , которая представляет собой примерно симметризацию условной энтропии . Это метрика на множестве разбиений дискретного вероятностного пространства .
Отношение к другим количествам теории информации
Многие другие величины теории информации можно интерпретировать как приложения относительной энтропии к конкретным случаям.
Самоинформация
Себя информацию , также известная как информационное содержание сигнала, случайной величины, или события определяются как отрицательный логарифм вероятности данного результата происходящего.
Применительно к дискретной случайной величине самоинформация может быть представлена как [ цитата необходима ]
относительная энтропия распределения вероятностей из дельты Кронекера, представляющей уверенность в том, что - т.е. количество дополнительных битов, которые необходимо передать для идентификации если бы только распределение вероятностей доступен приемнику, не факт, что .
Взаимная информация
Взаимный обмен информацией ,
относительная энтропия продукта двух маргинальных распределений вероятностей из совместного распределения вероятностей - т.е. ожидаемое количество дополнительных битов, которые должны быть переданы для идентификации а также если они кодируются с использованием только их маргинальных распределений вместо совместного распределения. Эквивалентно, если совместная вероятность как известно, это ожидаемое количество дополнительных битов , которые должны быть в среднем послан , чтобы определить если стоимость еще не известно получателю.
Энтропия Шеннона
Энтропия Шеннона ,
это количество бит, которое необходимо передать, чтобы идентифицировать из в равной мере вероятные возможности, меньше относительная энтропия равномерного распределения на случайных случайных величин из, , из истинного распределения - то есть меньше ожидаемого количества сохраненных битов, которое пришлось бы отправить, если бы значение были закодированы по равномерному распределению а не истинное распределение .
Условная энтропия
Условная энтропия [13] ,
это количество бит, которое необходимо передать, чтобы идентифицировать из равновероятные возможности, за вычетом относительной энтропии распределения продукта от истинного совместного распределения - то есть меньше ожидаемого количества сохраненных битов, которые пришлось бы отправить, если бы значение были закодированы по равномерному распределению а не условное распределение из дано .
Перекрестная энтропия
Когда у нас есть набор возможных событий, поступающих из распределения p , мы можем кодировать их (со сжатием данных без потерь ), используя энтропийное кодирование . Это сжимает данные, заменяя каждый входной символ фиксированной длины соответствующим уникальным кодом переменной длины и без префиксов (например: события (A, B, C) с вероятностями p = (1/2, 1/4, 1/4) можно закодировать как биты (0, 10, 11)). Если мы заранее знаем распределение p , мы можем разработать оптимальное кодирование (например, с использованием кодирования Хаффмана ). Это означает, что сообщения, которые мы кодируем, будут иметь в среднем самую короткую длину (при условии, что закодированные события выбираются из p ), которая будет равна энтропии Шеннона для p (обозначается как). Однако, если мы используем другое распределение вероятностей ( q ) при создании схемы энтропийного кодирования, то большее количество битов будет использоваться (в среднем) для идентификации события из набора возможностей. Это новое (большее) число измеряется перекрестной энтропией между p и q .
Кросс энтропия между двумя вероятностными распределениями ( р и д ) измеряет среднее число бит , необходимых для идентификации события из набора возможностей, если схема кодирования используется на основе заданного распределения вероятностей ц , а не «истинные» распределений стр . Крест энтропия для двух распределений р и ц над одной и тем же вероятностным пространством , таким образом , определяется следующим образом : [ править ]
В этом сценарии относительные энтропии можно интерпретировать как дополнительное количество битов, которое в среднем необходимо (сверх ) для кодирования событий из-за использования q для построения схемы кодирования вместо p .
Байесовское обновление
В байесовской статистике относительная энтропия может использоваться как мера получения информации при переходе от априорного распределения к апостериорному :. Если какой-то новый факт обнаружен, его можно использовать для обновления апостериорного распределения для из к новому апостериорному распределению используя теорему Байеса :
Это распределение имеет новую энтропию :
которая может быть меньше или больше исходной энтропии . Однако с точки зрения нового распределения вероятностей можно оценить, что использовался исходный код на основе вместо нового кода на основе добавил бы ожидаемое количество бит:
к длине сообщения. Таким образом, это представляет собой количество полезной информации или получение информации о, который был изучен путем открытия .
Если дополнительный фрагмент данных, , впоследствии входит, распределение вероятностей для может быть обновлен, чтобы дать новое лучшее предположение . Если заново исследовать получение информации для использования скорее, чем , оказывается, что она может быть как больше, так и меньше, чем предполагалось ранее:
- может быть ≤ или> чем
Таким образом, совокупный информационный выигрыш не подчиняется неравенству треугольника:
- может быть <, = или>, чем
Все, что можно сказать, это то, что в среднем усреднение с использованием, две стороны будут усреднены.
Байесовский экспериментальный дизайн
Общая цель байесовского дизайна экспериментов - максимизировать ожидаемую относительную энтропию между априорной и апостериорной. [14] Когда апостериорные распределения аппроксимируются как гауссовские распределения, план, максимизирующий ожидаемую относительную энтропию, называется d-оптимальным Байесом .
Информация о дискриминации
Относительная энтропия также может интерпретироваться как ожидаемая дискриминационная информация для над : средняя информация на выборку для различения в пользу гипотезы. против гипотезы , когда гипотеза правда. [15] Другое название этой величины, данное ей И. Дж. Гудом , - это ожидаемый вес доказательств для над следует ожидать от каждого образца.
Ожидаемый вес доказательств для над это не то же самое , как получить информацию ожидаемых на выборку о распределении вероятностей гипотез,
Любую из этих двух величин можно использовать в качестве функции полезности в байесовском дизайне экспериментов, чтобы выбрать оптимальный следующий вопрос для исследования: но в целом они приводят к довольно разным экспериментальным стратегиям.
На шкале энтропии прироста информации разница между почти достоверностью и абсолютной достоверностью очень мала - кодирование в соответствии с почти достоверностью едва ли требует больше битов, чем кодирование в соответствии с абсолютной достоверностью. С другой стороны, в логит- шкале, подразумеваемой весом доказательств, разница между ними огромна - возможно, бесконечна; это может отражать разницу между почти уверенностью (на вероятностном уровне) в том, что, скажем, гипотеза Римана верна, и уверенностью в ее правильности, поскольку имеется математическое доказательство. Эти две различные шкалы функции потерь для неопределенности являются и полезными, в соответствии с тем, как хорошо каждый отражает конкретные обстоятельства рассматриваемой задачи.
Принцип минимума дискриминационной информации
Идея относительной энтропии как дискриминирующей информации привела Кульбака к предложению принципа Информация о минимальной дискриминации (MDI): с учетом новых фактов, новое распространение следует выбрать такой, который трудно отличить от исходного распределения. по возможности; так что новые данные дают небольшой выигрыш в информации насколько возможно.
Например, если у вас было предыдущее распределение над а также , и впоследствии узнал истинное распределение было , то относительная энтропия между новым совместным распределением для а также , , а более раннее предварительное распределение будет:
т.е. сумма относительной энтропии предварительное распределение для из обновленного дистрибутива , плюс ожидаемое значение (с использованием распределения вероятностей ) относительной энтропии априорного условного распределения из нового условного распределения . (Обратите внимание, что часто более позднее ожидаемое значение называется условной относительной энтропией (или условной дивергенцией Кульбака-Лейблера ) и обозначается как [2] [13] : с. 22 ) Это минимизируется, если за всю поддержку ; и отметим, что этот результат включает теорему Байеса, если новое распределение на самом деле является δ-функцией, представляющей уверенность в том, что имеет одно особое значение.
MDI можно рассматривать как продолжение Лапласа «s принцип недостаточной причины , и принцип максимума энтропии от ET Джейнесом . В частности, это естественное расширение принципа максимальной энтропии от дискретного к непрерывному распределению, для которого энтропия Шеннона перестает быть столь полезной (см. Дифференциальную энтропию ), но относительная энтропия остается столь же актуальной.
В технической литературе MDI иногда называют принципом минимальной кросс-энтропии (MCE) или для краткости Minxent . Минимизация относительной энтропии от к относительно эквивалентно минимизации кросс-энтропии а также , поскольку
что уместно, если кто-то пытается выбрать адекватное приближение к . Однако зачастую это не та задача, которую пытаются решить. Вместо этого так же часто это некоторая фиксированная априорная контрольная мера, и что пытается оптимизировать, минимизируя при условии некоторого ограничения. Это привело к некоторой двусмысленности в литературе, и некоторые авторы пытались разрешить несогласованность, переопределив кросс-энтропию как, скорее, чем .
Отношение к доступной работе
Сюрприз [16] добавляет, где вероятности умножаются. Сюрприз для вероятностного события определяется как . Если является тогда сюрприз в натс, биты или так что, например, есть кусочки сюрприза за то, что все "головы" на бросок монеты.
Наиболее вероятные состояния (например, для атомов в газе) выводятся путем максимизации среднего значения неожиданности. ( энтропия ) для заданного набора параметров управления (например, давления или объем ). Эта ограниченная максимизация энтропии , как классически [17], так и квантово-механически, [18] минимизирует доступность Гиббса в единицах энтропии [19] где - кратность с ограничениями или статистическая сумма .
Когда температура фиксирована, свободная энергия () также минимизируется. Таким образом, если и количество молекул постоянны, свободная энергия Гельмгольца (где это энергия) минимизируется по мере «уравновешивания» системы. Если а также поддерживаются постоянными (скажем, во время процессов в вашем теле), свободная энергия Гиббса вместо этого минимизируется. Изменение свободной энергии в этих условиях является мерой доступной работы, которая может быть проделана в процессе. Таким образом доступна работа для идеального газа при постоянной температуре. и давление является где а также (см. также неравенство Гиббса ).
В более общем смысле [20] работу доступной относительно некоторой температуры окружающей среды получают путем умножения температуры окружающей средыпо относительной энтропии или чистой неожиданности определяется как среднее значение где это вероятность данного состояния при окружающих условиях. Например, работа, доступная для уравновешивания одноатомного идеального газа с окружающими значениями а также таким образом , где относительная энтропия
Результирующие контуры постоянной относительной энтропии, показанные справа для моля аргона при стандартной температуре и давлении, например, накладывают ограничения на преобразование горячего в холодное, как в пламенном кондиционировании воздуха или в устройстве без источника питания для преобразования кипящего - вода в ледяную воду обсуждается здесь. [21] Таким образом, относительная энтропия измеряет термодинамическую доступность в битах.
Квантовая теория информации
Для матриц плотности а также в гильбертовом пространстве , тем квант относительной энтропии от к определяется как
В квантовой информатике минимум по всем разделимым состояниям также может использоваться как мера запутанности в состоянии.
Связь между моделями и реальностью
Точно так же, как относительная энтропия «реального из окружающей среды» измеряет термодинамическую доступность, относительная энтропия «реальности из модели» также полезна, даже если единственные подсказки, которые у нас есть о реальности, - это некоторые экспериментальные измерения. В первом случае относительная энтропия описывает расстояние до равновесия или (при умножении на температуру окружающей среды) объем доступной работы , а во втором случае она сообщает вам о сюрпризах, которые реальность готовит, или, другими словами, насколько модель еще предстоит узнать .
Хотя этот инструмент для сравнения моделей с системами, доступными экспериментально, может применяться в любой области, его применение для выбора статистической модели с помощью информационного критерия Акаике особенно хорошо описано в статьях [22] и книге [23] Бернхэма и Андерсона. Короче говоря, относительная энтропия реальности модели может быть оценена с точностью до постоянного аддитивного члена как функция отклонений, наблюдаемых между данными и предсказаниями модели (например, среднеквадратичное отклонение ). Оценки такого расхождения для моделей, которые используют один и тот же аддитивный член, в свою очередь, могут использоваться для выбора моделей.
При попытке подогнать параметризованные модели к данным существуют различные оценщики, которые пытаются минимизировать относительную энтропию, такие как оценщики максимального правдоподобия и максимального интервала . [ необходима цитата ]
Симметричное расхождение
Сами Кульбак и Лейблер фактически определили расхождение как:
которая симметрична и неотрицательна. Это количество иногда использовалось для выбора признаков в задачах классификации , где а также являются условными PDF-файлами функции в двух разных классах. В банковской и финансовой отраслях эта величина называется индексом стабильности населения (PSI) и используется для оценки распределительных сдвигов в характеристиках модели во времени.
Альтернатива дается через расхождение
что можно интерпретировать как ожидаемое получение информации о от обнаружения того, какое распределение вероятностей взят из, или же , если у них в настоящее время есть вероятности а также соответственно. [ требуется уточнение ] [ необходима цитата ]
Значение дает расхождение Дженсена – Шеннона , определяемое формулой
где среднее из двух распределений,
может также интерпретироваться как пропускная способность зашумленного информационного канала с двумя входами, дающими выходные распределения а также . Дивергенция Дженсена – Шеннона, как и все f- расхождения, локально пропорциональна метрике информации Фишера . Она похожа на метрику Хеллингера (в том смысле, что индуцирует ту же аффинную связность на статистическом многообразии ).
Кроме того, дивергенция Дженсена-Шеннона может быть обобщена с использованием абстрактных статистических M-смесей, основанных на абстрактном среднем M. [24] [25]
Связь с другими вероятностно-дистанционными мерами
Есть много других важных мер вероятностного расстояния . Некоторые из них особенно связаны с относительной энтропией. Например:
- Общее расстояние вариации ,. Это связано с расхождением через неравенство Пинскера :
- Семейство расходимостей Реньи обобщает относительную энтропию. В зависимости от значения определенного параметра,, можно вывести различные неравенства.
Другие известные меры расстояния включают Хеллингера расстояние , гистограммы пересечения , хи-квадрат статистики , квадратичную форму расстояние , расстояние соответствия , Колмогорова-Смирнова расстояние и расстояние от Земли движителя в . [26]
Различие данных
Точно так же, как абсолютная энтропия служит теоретическим фоном для сжатия данных , относительная энтропия служит теоретическим фоном для различения данных - абсолютная энтропия набора данных в этом смысле является данными, необходимыми для его восстановления (минимальный сжатый размер), в то время как относительная энтропия целевого набора данных, заданного источником набор данных, это данные , необходимые для восстановления целевого заданного источника (минимальный размер пластыря ).
Смотрите также
- Информационный критерий Акаике
- Байесовский информационный критерий
- Дивергенция Брегмана
- Кросс-энтропия
- Информационный критерий отклонения
- Энтропийная ценность под угрозой
- Неравенство энтропийной мощности
- Расстояние Хеллингера
- Сбор информации в деревьях решений
- Коэффициент получения информации
- Теория информации и теория меры
- Расхождение Дженсена – Шеннона
- Квантовая относительная энтропия
- Соломон Кульбак и Ричард Лейблер
Рекомендации
- ^ Кульбак, С .; Лейблер, Р.А. (1951). «Об информации и достаточности» . Анналы математической статистики . 22 (1): 79–86. DOI : 10.1214 / АОМ / 1177729694 . JSTOR 2236703 . Руководство по ремонту 0039968 .
- ^ а б в г Кульбак, С. (1959), Теория информации и статистика , John Wiley & Sons. Переиздано Dover Publications в 1968 году; перепечатано в 1978 г .: ISBN 0-8446-5625-9 .
- ^ Кульбак, С. (1987). «Письмо в редакцию. Расстояние Кульбака – Лейблера». Американский статистик . 41 (4): 340–341. DOI : 10.1080 / 00031305.1987.10475510 . JSTOR 2684769 .
- ^ Маккей, Дэвид JC (2003). Теория информации, вывод и алгоритмы обучения (первое издание). Издательство Кембриджского университета. п. 34. ISBN 9780521642989.
- Перейти ↑ Bishop C. (2006). Распознавание образов и машинное обучение
- ^ Бернем, КП; Андерсон, Д.Р. (2002). Выбор модели и многомодельный вывод (2-е изд.). Springer. п. 51 . ISBN 9780387953649.
- ^ Хобсон, Артур (1971). Понятия статистической механики . Нью-Йорк: Гордон и Брич. ISBN 978-0677032405.
- ^ Санов И.Н. (1957). «О вероятности больших отклонений случайных величин». Мат. Сборник . 42 (84): 11–44.
- ^ Новак SY (2011), Экстремальные методы Значение с приложениями к финансам гл. 14,5 ( Чепмен и Холл ). ISBN 978-1-4398-3574-6 .
- ^ См. Раздел «дифференциальная энтропия - 4» ввидеолекции по относительной энтропии Серджио Верду NIPS 2009
- ^ Ли, Се Юн (2021). "Сэмплер Гиббса и вариационный вывод координатного восхождения: теоретико-множественный обзор". Коммуникации в статистике - теория и методы . arXiv : 2008.01006 . DOI : 10.1080 / 03610926.2021.1921214 .
- ^ Дучи Дж., " Выводы для линейной алгебры и оптимизации ".
- ^ а б Обложка, Томас М .; Томас, Джой А. (1991), Элементы теории информации , John Wiley & Sons
- ^ Chaloner, K .; Вердинелли, И. (1995). «Байесовский экспериментальный дизайн: обзор» . Статистическая наука . 10 (3): 273–304. DOI : 10,1214 / сс / 1177009939 .
- ^ Нажмите, WH; Теукольский, С.А. Феттерлинг, Вашингтон; Фланнери, ВР (2007). «Раздел 14.7.2. Расстояние Кульбака – Лейблера» . Числовые рецепты: искусство научных вычислений (3-е изд.). Издательство Кембриджского университета. ISBN 978-0-521-88068-8.
- ^ Майрон Трибус (1961), Термодинамика и термостатика (Д. Ван Ностранд, Нью-Йорк)
- ^ Джейнс, ET (1957). «Теория информации и статистическая механика» (PDF) . Физический обзор . 106 (4): 620–630. Bibcode : 1957PhRv..106..620J . DOI : 10.1103 / Physrev.106.620 .
- ^ Джейнс, ET (1957). «Теория информации и статистическая механика II» (PDF) . Физический обзор . 108 (2): 171–190. Bibcode : 1957PhRv..108..171J . DOI : 10.1103 / Physrev.108.171 .
- ^ Дж. У. Гиббс (1873), «Метод геометрического представления термодинамических свойств веществ с помощью поверхностей», перепечатанный в Сборнике работ Дж. У. Гиббса, Том I Термодинамика , изд. WR Longley и RG Van Name (New York: Longmans, Green, 1931) сноска на стр. 52.
- ^ Tribus, M .; Макирвайн, EC (1971). «Энергия и информация». Scientific American . 224 (3): 179–186. Bibcode : 1971SciAm.225c.179T . DOI : 10.1038 / Scientificamerican0971-179 .
- ^ Фраундорф, П. (2007). «Термические корни корреляционной сложности» . Сложность . 13 (3): 18–26. arXiv : 1103.2481 . Bibcode : 2008Cmplx..13c..18F . DOI : 10.1002 / cplx.20195 . S2CID 20794688 . Архивировано из оригинала на 2011-08-13.
- ^ Бернем, КП; Андерсон, Д.Р. (2001). «Информация Кульбака – Лейблера как основа для убедительных выводов в экологических исследованиях» . Исследования дикой природы . 28 (2): 111–119. DOI : 10,1071 / WR99107 .
- ^ Бернхэм, КП и Андерсон Д.Р. (2002), Выбор модели и многомодельный вывод: практический теоретико-информационный подход, второе издание (Springer Science) ISBN 978-0-387-95364-9 .
- ^ Нильсен, Франк (2019). "О симметризации расстояний Йенсена – Шеннона с помощью абстрактных средств" . Энтропия . 21 (5): 485. DOI : 10,3390 / e21050485 .
- ^ Нильсен, Франк (2020). «Об одном обобщении дивергенции Дженсена – Шеннона и центроида Дженсена – Шеннона» . Энтропия . 22 (2): 221. DOI : 10,3390 / e22020221 .
- ^ Rubner, Y .; Tomasi, C .; Гибас, LJ (2000). «Расстояние землекопа как метрика для поиска изображения». Международный журнал компьютерного зрения . 40 (2): 99–121. DOI : 10,1023 / A: 1026543900054 . S2CID 14106275 .
Внешние ссылки
- Набор инструментов для теоретических оценщиков информации
- Ruby gem для вычисления расхождения Кульбака – Лейблера
- Учебник Джона Шленса по дивергенции Кульбака – Лейблера и теории правдоподобия
- Программа Matlab для вычисления расходимости Кульбака – Лейблера для дискретных распределений
- Серхио Верду , Относительная энтропия , NIPS 2009. Часовая видеолекция.
- Современное резюме теоретико-информационных мер дивергенции