Из Википедии, бесплатной энциклопедии
  (Перенаправлено из расхождения Кульбака-Лейблера )
Перейти к навигации Перейти к поиску

В математической статистике , то дивергенция Кульбака-Либлер, (также называемая относительная энтропией ), является мерой того , как один распределение вероятностей отличаются от второго, распределения вероятностей ссылки. [1] [2] Приложения включают определение относительной энтропии (Шеннона) в информационных системах, случайности в непрерывных временных рядах и получения информации при сравнении статистических моделей вывода . В отличие от вариации информации , это асимметричная мера распределения и поэтому не может считаться статистической метрикой.спреда - он также не удовлетворяет неравенству треугольника . В простом случае относительная энтропия, равная 0, указывает на то, что два рассматриваемых распределения идентичны. Говоря упрощенно, это мера неожиданности с разнообразными приложениями, такими как прикладная статистика, механика жидкости , нейробиология и биоинформатика .

Введение и контекст [ править ]

Рассмотрим два распределения вероятностей и . Обычно представляет собой точно измеренные данные, наблюдения или распределение вероятностей. Распределение вместо этого представляет собой теорию, модель, описание или приближение . Расхождение Кульбака-Лейблера затем интерпретируется как средняя разность количества битов, необходимых для кодирования выборок с использованием кода, оптимизированного, а не оптимизированного для .

Этимология [ править ]

Относительная энтропия была введена Соломоном Кульбаком и Ричардом Лейблером в 1951 году как направленное расхождение между двумя распределениями; Кульбак предпочел термин « дискриминационная информация» . [3] Расхождение обсуждается в книге Кульбака 1959 года « Теория информации и статистика» . [2]

Определение [ править ]

Для дискретных вероятностных распределений, определенных в одном и том же вероятностном пространстве , относительная энтропия от до определяется [4] как

что эквивалентно

Другими словами, это математическое ожидание логарифмической разности между вероятностями и , где математическое ожидание берется с использованием вероятностей . Относительная энтропия определяется только тогда , когда для всех , подразумевает ( абсолютная непрерывность ). Всякий раз, когда равен нулю, вклад соответствующего члена интерпретируется как ноль, потому что

Для распределений и из непрерывной случайной величины , относительная энтропия определяется как интеграл: [5] : р. 55

где и обозначают плотность вероятности от и .

В более общем плане , если и вероятностные меры по набору , и является абсолютно непрерывна относительно , то относительная энтропия от до определяется как

где это производная Радона-Никодима по отношению к , и при условии , что выражение на правой стороне существует. Эквивалентно (по цепному правилу ) это можно записать как

который является энтропия по отношению к . Продолжая в этом случае, если есть какая-либо мера, для которой и существует (что означает, что и являются абсолютно непрерывными по отношению к ), то относительная энтропия от до задается как

Логарифмы в этих формулах берутся по основанию 2, если информация измеряется в битах , или по основанию, если информация измеряется в натсах . Большинство формул относительной энтропии верны независимо от основания логарифма.

Существуют различные соглашения для словесной ссылки . Часто это называют расхождением между и , но это не может передать фундаментальную асимметрию отношения. Иногда, как в этой статье, это может быть описано как расхождение от или как расхождение от до . Это отражает асимметрию в умозаключениях байесовских , которая начинается от до и обновлений к в заднем . Другой распространенный способ обозначения - это относительная энтропия по отношению к .

Базовый пример [ править ]

Кульбак [2] приводит следующий пример (таблица 2.1, пример 2.1). Позвольте и быть распределениями, показанными в таблице и на рисунке. - это распределение в левой части рисунка, биномиальное распределение с и . является распределение на правой стороне фигуры, дискретное равномерное распределение с тремя возможными исходами , или (е ), каждое с вероятностью .

Относительные энтропии и рассчитываются следующим образом. В этом примере используется натуральный логарифм с основанием e , предназначенный для получения результатов в nats (см. Единицы информации ).

Интерпретации [ править ]

Относительная энтропия от до часто обозначается .

В контексте машинного обучения , часто называют получить информацию , достигнутый , если будет использоваться вместо которых в настоящее время используется. По аналогии с теорией информации, она называется относительной энтропией по отношению к . В контексте теории кодирования , можно построить путем измерения ожидаемого количества дополнительных битов, необходимых для кодирования выборок, от использования кода, оптимизированного для, а не кода, оптимизированного для .

Выражаясь на языке байесовского вывода , это мера информации, полученной путем пересмотра убеждений от априорного распределения вероятностей к апостериорному распределению вероятностей . Другими словами, это количество потерянной информации, когда используется для приблизительной оценки . [6] В приложениях, как правило , представляет собой «истинное» распределение данных, наблюдений, или точно вычисленной теоретического распределения, в то время , как правило , представляет собой теорию, модель, описание, или приближение из . Чтобы найти наиболее близкое к распределению , мы можем минимизировать расхождение KL и вычислить информационная проекция .

Относительная энтропия - это частный случай более широкого класса статистических расхождений, называемых f- расходимостями, а также класса расходимостей Брегмана . Это единственное такое расхождение по вероятностям, которое принадлежит обоим классам. Хотя это часто интуитивно воспринимается как способ измерения расстояния между распределениями вероятностей , расхождение Кульбака – Лейблера не является истинным показателем . Он не подчиняется неравенству треугольника и вообще не равен . Однако его бесконечно малая форма, в частности его гессиан , дает метрический тензор, известный какИнформационная метрика Фишера .

Артур Хобсон доказал, что относительная энтропия - это единственная мера разницы между распределениями вероятностей, которая удовлетворяет некоторым желаемым свойствам, которые являются каноническим расширением тех, которые появляются в обычно используемой характеристике энтропии . [7] Следовательно, взаимная информация является единственной мерой взаимной зависимости, которая подчиняется определенным связанным условиям, поскольку ее можно определить в терминах расхождения Кульбака – Лейблера .

Мотивация [ править ]

Иллюстрация относительной энтропии для двух нормальных распределений . Хорошо видна типичная асимметрия.

В теории информации крафт-McMillan теорема устанавливает , что любые непосредственно декодируемые схемы кодирования для кодирования сообщения , чтобы определить одно значение из множества возможностей можно рассматривать как представляющие неявное распределение вероятностей над , где длиной коды для в биты. Следовательно, относительную энтропию можно интерпретировать как ожидаемую дополнительную длину сообщения на данные, которые должны быть переданы, если используется код, оптимальный для данного (неправильного) распределения , по сравнению с использованием кода, основанного на истинном распределении .

где это кросс энтропии из и , и это энтропии из (который является таким же , как кросс-энтропии P с самим собой).

Относительную энтропию можно рассматривать как что-то вроде измерения того, насколько далеко распределение Q от распределения P. Кросс-энтропия сама по себе является таким измерением, но у него есть дефект, который не равен нулю, поэтому мы вычитаем, чтобы согласовать точнее с нашим понятием расстояния. (К сожалению, это все еще несимметрично.) Относительная энтропия относится к « функции скорости » в теории больших отклонений . [8] [9]

Свойства [ править ]

  • Относительная энтропия всегда неотрицательна ,
результат, известный как неравенство Гиббса , с равным нулю тогда и только тогда, когда почти всюду . Таким образом, энтропия устанавливает минимальное значение перекрестной энтропии , ожидаемое количество битов, требуемых при использовании кода, основанного на, а не ; и дивергенция Кульбака – Лейблера, следовательно, представляет собой ожидаемое количество дополнительных битов, которые должны быть переданы для идентификации извлеченного значения , если используется код, соответствующий распределению вероятностей , а не «истинному» распределению .
  • Относительная энтропия остается четко определенной для непрерывных распределений и, кроме того, инвариантна относительно преобразований параметров . Например, если выполняется преобразование переменной в переменную , то, поскольку и относительная энтропия может быть переписана:
где и . Хотя предполагалось, что преобразование было непрерывным, это не обязательно. Это также показывает, что относительная энтропия дает размерно согласованную величину, поскольку if - это размерная переменная, а также размерность, поскольку, например , безразмерна. Аргумент логарифмического члена был и остается безразмерным, как и должно быть. Поэтому его можно рассматривать как в некотором смысле более фундаментальную величину, чем некоторые другие свойства в теории информации [10] (такие как самоинформация или энтропия Шеннона ), которая может стать неопределенной или отрицательной для недискретных вероятностей.
  • Относительная энтропия аддитивна для независимых распределений во многом так же, как энтропия Шеннона. Если - независимые распределения, с совместным распределением и аналогично, то
  • Относительная энтропия является выпуклой в паре массовых функций вероятности , то есть , если и две пары вероятности массовых функций, то

Примеры [ править ]

Многомерные нормальные распределения [ править ]

Предположим, что у нас есть два многомерных нормальных распределения со средними значениями и с (невырожденными) ковариационными матрицами. Если два распределения имеют одинаковую размерность , то относительная энтропия между распределениями будет следующей: [11] : p. 13

Логарифм в последнем члене должен быть принят к базовым е , так как все члены кроме последнего являются BASE - е логарифмами выражений , которые являются либо факторами функции плотности или иначе возникают естественным образом . Таким образом, уравнение дает результат, измеренный в нац . Разделение всего выражения выше на дает расхождение в битах .

Частным случаем и общей величиной в вариационном выводе является относительная энтропия между диагональным многомерным нормальным и стандартным нормальным распределением (с нулевым средним и единичной дисперсией):

Отношение к метрикам [ править ]

У кого-то может возникнуть соблазн назвать относительную энтропию « метрикой расстояния » в пространстве вероятностных распределений, но это было бы неверно, поскольку оно не симметрично, то есть, и не удовлетворяет неравенству треугольника . Он генерирует топологию на пространстве вероятностных распределений . Более конкретно, если - последовательность распределений такая, что

тогда говорят, что

Неравенство Пинскера влечет за собой, что

где последний означает обычную сходимость в полной вариации .

Информационная метрика Fisher [ править ]

Относительная энтропия напрямую связана с информационной метрикой Фишера . Это можно пояснить следующим образом. Предположим, что распределения вероятностей и оба параметризованы некоторым (возможно, многомерным) параметром . Рассмотрим тогда два близких по значению и так, чтобы параметр лишь незначительно отличался от значения параметра . В частности, до первого порядка (с использованием соглашения о суммировании Эйнштейна )

с небольшим изменением в направлении, и соответствующей скоростью изменения в распределении вероятностей. Поскольку относительная энтропия имеет абсолютный минимум 0 при , т. Е. Изменяется только до второго порядка по малым параметрам . Более формально, как и для любого минимума, первые производные расходимости обращаются в нуль

а по разложению Тейлора до второго порядка

где матрица Гессе дивергенции

должно быть положительно полуопределенным . Изменяя (и отбрасывая субиндекс 0), гессиан определяет (возможно, вырожденную) риманову метрику на пространстве параметров θ , называемую информационной метрикой Фишера.

Информационная метрическая теорема Фишера [ править ]

Когда удовлетворяет следующим условиям регулярности:

существовать,

где ξ не зависит от ρ

тогда:

Вариация информации [ править ]

Другой теоретико-информационной метрикой является вариация информации , которая представляет собой примерно симметризацию условной энтропии . Это метрика на множестве разбиений дискретного вероятностного пространства .

Отношение к другим количествам теории информации [ править ]

Многие другие величины теории информации можно интерпретировать как приложения относительной энтропии к конкретным случаям.

Самоинформация [ править ]

Себя информацию , также известная как информационное содержание сигнала, случайной величины, или события определяются как отрицательный логарифм вероятности данного результата происходящего.

Применительно к дискретной случайной величине самоинформация может быть представлена ​​как [ цитата необходима ]

- относительная энтропия распределения вероятностей из дельты Кронекера, представляющая уверенность в том, что - то есть количество дополнительных битов, которые должны быть переданы для идентификации, если получателю доступно только распределение вероятностей , а не факт, что .

Взаимная информация [ править ]

Взаимный обмен информацией ,

представляет собой относительную энтропию произведения двух маргинальных распределений вероятностей из совместного распределения вероятностей, т. е. ожидаемого числа дополнительных битов, которые должны быть переданы для идентификации, и если они кодируются с использованием только их предельных распределений вместо совместного распределения. Эквивалентно, если совместная вероятность будет известно, что ожидаемое количество дополнительных битов , которые должны быть в среднем послан , чтобы определить , если значение не известно уже к приемнику.

Энтропия Шеннона [ править ]

Энтропия Шеннона ,

это число битов , которые должны были бы быть переданы для идентификации из равновероятных возможностей, меньше относительная энтропия равномерного распределения на случайных случайных величин из , от истинного распределения - то есть меньше , ожидаемое число битов сохраненным, который будет иметь должен быть отправлен, если значение было закодировано в соответствии с равномерным распределением, а не истинным распределением .

Условная энтропия [ править ]

Условная энтропия [12] ,

- это количество битов, которое должно быть передано для идентификации из равновероятных возможностей, за вычетом относительной энтропии распределения продукта от истинного совместного распределения, то есть за вычетом ожидаемого количества сохраненных битов, которые должны были быть отправлены, если бы значение из кодировались в соответствии с равномерным распределением , а не условного распределения в дали .

Перекрестная энтропия [ править ]

Когда у нас есть набор возможных событий, поступающих из распределения p , мы можем кодировать их (со сжатием данных без потерь ), используя энтропийное кодирование . Это сжимает данные, заменяя каждый входной символ фиксированной длины соответствующим уникальным кодом переменной длины и без префиксов (например: события (A, B, C) с вероятностями p = (1/2, 1/4, 1/4) можно закодировать как биты (0, 10, 11)). Если мы заранее знаем распределение p , мы можем разработать оптимальное кодирование (например, с использованием кодирования Хаффмана ). Это означает, что сообщения, которые мы кодируем, будут иметь в среднем самую короткую длину (при условии, что закодированные события выбираются из p ), которая будет равнаШеннон Энтропия из р (обозначаются как ). Однако, если мы используем другое распределение вероятностей ( q ) при создании схемы энтропийного кодирования, то большее количество битов будет использоваться (в среднем) для идентификации события из набора возможностей. Это новое (большее) число измеряется перекрестной энтропией между p и q .

Кросс энтропия между двумя вероятностными распределениями ( р и д ) измеряет среднее число бит , необходимых для идентификации события из набора возможностей, если схема кодирования используется на основе заданного распределения вероятностей ц , а не «истинные» распределений стр . Крест энтропия для двух распределений р и ц над одной и тем же вероятностным пространством , таким образом , определяется следующим образом : [ править ]

В этом сценарии относительные энтропии можно интерпретировать как в среднем дополнительное количество битов, которые необходимы (сверх ) для кодирования событий из-за использования q для построения схемы кодирования вместо p .

Байесовское обновление [ править ]

В статистике Байесовской , относительная энтропия может быть использована в качестве меры усиления информации в переходе от априорного распределения к заднему распределению : . Если обнаружен какой-либо новый факт , его можно использовать для обновления апостериорного распределения для от до нового апостериорного распределения, используя теорему Байеса :

Это распределение имеет новую энтропию :

которая может быть меньше или больше исходной энтропии . Однако с точки зрения нового распределения вероятностей можно оценить, что для использования исходного кода на основе вместо нового кода на основе было бы добавлено ожидаемое количество битов:

к длине сообщения. Таким образом, это представляет собой количество полезной информации или получение информации о том , что было изучено путем открытия .

Если впоследствии поступает следующий фрагмент данных, распределение вероятностей для может быть обновлено дополнительно, чтобы дать новое наилучшее предположение . Если повторно исследовать получение информации для использования, а не , то окажется, что она может быть больше или меньше, чем предполагалось ранее:

может быть ≤ или> чем

Таким образом, совокупный информационный выигрыш не подчиняется неравенству треугольника:

может быть <, = или>, чем

Все, что можно сказать, это то, что в среднем , используя усреднение , две стороны будут усредняться.

Байесовский экспериментальный план [ править ]

Общая цель байесовского дизайна экспериментов - максимизировать ожидаемую относительную энтропию между априорной и апостериорной. [13] Когда апостериорные распределения аппроксимируются как гауссовские распределения, план, максимизирующий ожидаемую относительную энтропию, называется d-оптимальным Байесом .

Информация о дискриминации [ править ]

Относительную энтропию также можно интерпретировать как ожидаемую информацию различения для более : средней информации на выборку для различения в пользу гипотезы против гипотезы , когда гипотеза верна. [14] Другое название этого количества, предоставленного ему IJ Good , является ожидаемый вес доказательств для более следует ожидать от каждого образца.

Ожидаемый вес доказательств для более это не то же самое , как получить информацию ожидаемых на образец о распределении вероятностей гипотез,

Любую из этих двух величин можно использовать в качестве функции полезности в байесовском дизайне экспериментов, чтобы выбрать оптимальный следующий вопрос для исследования: но в целом они приводят к довольно разным экспериментальным стратегиям.

На шкале энтропии прироста информации разница между почти достоверностью и абсолютной достоверностью очень мала - кодирование в соответствии с почти достоверностью едва ли требует больше битов, чем кодирование в соответствии с абсолютной достоверностью. С другой стороны, в логит- шкале, подразумеваемой весом доказательств, разница между ними огромна - возможно, бесконечна; это может отражать разницу между почти уверенностью (на вероятностном уровне) в том, что, скажем, гипотеза Римана верна, и уверенностью в ее правильности, поскольку имеется математическое доказательство. Эти две различные шкалы функции потерь для неопределенности являются как полезны в зависимости от того, насколько хорошо каждый из них отражает конкретные обстоятельства рассматриваемой проблемы.

Принцип минимальной дискриминационной информации [ править ]

Идея относительной энтропии как информации о различении привела Кулбака к предложению принципа минимальной информации о различении (MDI): учитывая новые факты, следует выбрать новое распределение , которое как можно труднее отличить от исходного распределения ; так что новые данные дают как можно меньший выигрыш в информации .

Например, если один имел априорное распределение над и , и впоследствии узнал истинное распределение была , то относительная энтропия между новым совместным распределением для и , , и ранее априорным распределением будет:

то есть сумма относительной энтропии предшествующего распределения для обновленного распределения плюс ожидаемое значение (с использованием распределения вероятностей ) относительной энтропии предыдущего условного распределения из нового условного распределения . (Обратите внимание, что часто более позднее ожидаемое значение называется условной относительной энтропией (или условной дивергенцией Кульбака-Лейблера ) и обозначается [2] [12] : стр. 22 ) Это минимизируется, если на всей основе ; и отметим, что этот результат включает теорему Байеса, если новое распределение на самом деле является δ-функцией, представляющей уверенность в том, что имеет одно особое значение.

MDI можно рассматривать как продолжение Лапласа «s принцип недостаточной причины , и принцип максимума энтропии от ET Джейнесом . В частности, это естественное расширение принципа максимальной энтропии от дискретного к непрерывному распределению, для которого энтропия Шеннона перестает быть столь полезной (см. Дифференциальную энтропию ), но относительная энтропия продолжает оставаться столь же актуальной.

В технической литературе MDI иногда называют принципом минимальной кросс-энтропии (MCE) или для краткости Minxent . Минимизация относительной энтропии от до по отношению к эквивалентна минимизации перекрестной энтропии и , поскольку

что уместно, если кто-то пытается выбрать адекватное приближение к . Однако зачастую это не та задача, которую пытаются решить. Вместо этого так же часто бывает, что это некоторая фиксированная априорная эталонная мера, которую пытаются оптимизировать, минимизируя с учетом некоторого ограничения. Это привело к некоторой двусмысленности в литературе, причем некоторые авторы пытались разрешить несогласованность путем переопределения кросс-энтропии как «быть , а не» .

Связь с доступной работой [ править ]

График зависимости давления от объема доступной работы моля газообразного аргона по отношению к окружающей среде, рассчитанный как время расхождения Кульбака – Лейблера.

Сюрприз [15] добавляет, где вероятности умножаются. Неожиданность для вероятностного события определяется как . Если это, то сюрприз выражается в натсах, битах или около того, что, например, есть кусочки неожиданности, когда все «орлы» падают на подбрасывание монет.

Наиболее вероятные состояния (например, для атомов в газе) выводятся путем максимизации среднего сюрприза ( энтропии ) для данного набора управляющих параметров (например, давления или объема ). Эта ограниченная максимизация энтропии , как классически [16], так и квантово-механически, [17] минимизирует доступность Гиббса в единицах энтропии [18], где - ограниченная множественность или статистическая сумма .

При фиксированной температуре свободная энергия ( ) также минимизируется. Таким образом, если и число молекул постоянны, свободная энергия Гельмгольца (где - энергия) минимизируется по мере того, как система «уравновешивается». Если и поддерживаются постоянными (скажем, во время процессов в вашем теле), вместо этого минимизируется свободная энергия Гиббса . Изменение свободной энергии в этих условиях является мерой доступной работы, которая может быть проделана в процессе. Таким образом, доступная работа для идеального газа при постоянной температуре и давлении - это где и (см. Также неравенство Гиббса ).

В более общем смысле [19] работа доступные относительно некоторой температуры окружающей среды получает путь умножения температуры окружающей среды от относительной энтропии или чистой surprisal определяется как среднее значение , где есть вероятность данного состояния в условиях окружающей среды. Например, работа, доступная для уравновешивания одноатомного идеального газа с окружающими значениями и , таким образом , где относительная энтропия

Результирующие контуры постоянной относительной энтропии, показанные справа для моля аргона при стандартной температуре и давлении, например, накладывают ограничения на преобразование горячего в холодное, как в пламенном кондиционировании воздуха или в автономном устройстве для преобразования кипящего - вода в ледяную воду обсуждается здесь. [20] Таким образом, относительная энтропия измеряет термодинамическую доступность в битах.

Квантовая теория информации [ править ]

Для получения матриц плотности и на гильбертовом пространстве , то квантовая относительная энтропия от до определяется как

В квантовой информатике минимум из всех разделимых состояний также может использоваться как мера запутанности в состоянии .

Связь между моделями и реальностью [ править ]

Точно так же, как относительная энтропия «реального из окружающей среды» измеряет термодинамическую доступность, относительная энтропия «реальности из модели» также полезна, даже если единственные ключи, которые у нас есть о реальности, - это некоторые экспериментальные измерения. В первом случае относительная энтропия описывает расстояние до равновесия или (при умножении на температуру окружающей среды) объем доступной работы , а во втором случае она сообщает вам о сюрпризах, которые реальность готовит, или, другими словами, насколько модель еще предстоит узнать .

Хотя этот инструмент для сравнения моделей с системами, доступными экспериментально, может применяться в любой области, его применение для выбора статистической модели с помощью информационного критерия Акаике особенно хорошо описано в статьях [21] и книге [22] Бернхэма и Андерсона. Короче говоря, относительная энтропия реальности модели может быть оценена с точностью до постоянного аддитивного члена как функция отклонений, наблюдаемых между данными и предсказаниями модели (например, среднеквадратичное отклонение ). Оценки такого расхождения для моделей, которые используют один и тот же аддитивный член, в свою очередь, могут использоваться для выбора моделей.

При попытке подогнать параметризованные модели к данным существуют различные оценщики, которые пытаются минимизировать относительную энтропию, такие как оценщики максимального правдоподобия и максимального интервала . [ необходима цитата ]

Симметричное расхождение [ править ]

Сами Кульбак и Лейблер фактически определили расхождение как:

которая симметрична и неотрицательна. Это количество иногда использовалось для выбора признаков в задачах классификации , где и являются условными PDF-файлами объекта в двух разных классах. В банковской и финансовой отраслях эта величина называется индексом стабильности населения (PSI) и используется для оценки распределительных сдвигов в характеристиках модели во времени.

Альтернатива дается через дивергенцию,

что можно интерпретировать как ожидаемый выигрыш информации о том, из какого распределения берется вероятностное распределение , или , если они в настоящее время имеют вероятности и, соответственно. [ требуется уточнение ] [ необходима цитата ]

Значение дает расхождение Дженсена – Шеннона , определяемое формулой

где - среднее из двух распределений,

может также интерпретироваться как пропускная способность зашумленного информационного канала с двумя входами, дающими выходные распределения и . Дивергенция Дженсена – Шеннона, как и все f- расхождения, локально пропорциональна метрике информации Фишера . Она похожа на метрику Хеллингера (в том смысле, что индуцирует ту же аффинную связность на статистическом многообразии ).

Кроме того, дивергенция Дженсена-Шеннона может быть обобщена с использованием абстрактных статистических M-смесей, основанных на абстрактном среднем M. [23] [24]

Связь с другими вероятностно-дистанционными мерами [ править ]

Есть много других важных мер вероятностного расстояния . Некоторые из них особенно связаны с относительной энтропией. Например:

  • Общее расстояние вариации , . Это связано с расхождением через неравенство Пинскера :
  • Семейство расходимостей Реньи обобщает относительную энтропию. В зависимости от значения определенного параметра , могут быть выведены различные неравенства.

Другие известные меры расстояния включают Хеллингера расстояние , гистограммы пересечения , хи-квадрат статистики , квадратичную форму расстояние , расстояние соответствия , Колмогорова-Смирнова расстояние и расстояние от Земли движителя в . [25]

Различие данных [ править ]

Так же, как абсолютная энтропия служит теоретической основой для сжатия данных , относительная энтропия служит теоретической основой для различения данных - абсолютная энтропия набора данных в этом смысле является данными, необходимыми для их восстановления (минимальный сжатый размер), в то время как относительная энтропия целевого набора данных, заданного источником набор данных, это данные , необходимые для восстановления целевого заданного источника (минимальный размер пластыря ).

См. Также [ править ]

  • Информационный критерий Акаике
  • Байесовский информационный критерий
  • Дивергенция Брегмана
  • Кросс-энтропия
  • Информационный критерий отклонения
  • Энтропийная ценность под угрозой
  • Неравенство энтропийной мощности
  • Расстояние Хеллингера
  • Сбор информации в деревьях решений
  • Коэффициент получения информации
  • Теория информации и теория меры
  • Расхождение Дженсена – Шеннона
  • Квантовая относительная энтропия
  • Соломон Кульбак и Ричард Лейблер

Ссылки [ править ]

  1. ^ Кульбак, С .; Лейблер, Р.А. (1951). «Об информации и достаточности» . Анналы математической статистики . 22 (1): 79–86. DOI : 10.1214 / АОМ / 1177729694 . JSTOR  2236703 . Руководство по ремонту  0039968 .
  2. ^ a b c d Кульбак, С. (1959), Теория информации и статистика , John Wiley & Sons. Переиздано Dover Publications в 1968 году; перепечатано в 1978 году: ISBN 0-8446-5625-9 . 
  3. ^ Кульбак, С. (1987). «Письмо в редакцию. Расстояние Кульбака – Лейблера». Американский статистик . 41 (4): 340–341. DOI : 10.1080 / 00031305.1987.10475510 . JSTOR 2684769 . 
  4. ^ Маккей, Дэвид JC (2003). Теория информации, вывод и алгоритмы обучения (первое издание). Издательство Кембриджского университета. п. 34. ISBN 9780521642989.
  5. Перейти ↑ Bishop C. (2006). Распознавание образов и машинное обучение
  6. ^ Бернхэм, КП; Андерсон, Д.Р. (2002). Выбор модели и многомодельный вывод (2-е изд.). Springer. п. 51 . ISBN 9780387953649.
  7. ^ Хобсон, Артур (1971). Понятия статистической механики . Нью-Йорк: Гордон и Брич. ISBN 978-0677032405.
  8. ^ Саны, IN (1957). «О вероятности больших отклонений случайных величин». Мат. Сборник . 42 (84): 11–44.
  9. ^ Новак SY (2011), Экстремальные методы Значение с приложениями к финансам гл. 14,5 ( Чепмен и Холл ). ISBN 978-1-4398-3574-6 . 
  10. ^ См. Раздел «дифференциальная энтропия - 4» ввидеолекции по относительной энтропии Серджио Верду NIPS 2009
  11. ^ Дучи Дж., " Выводы для линейной алгебры и оптимизации ".
  12. ^ a b Обложка, Томас М .; Томас, Джой А. (1991), Элементы теории информации , John Wiley & Sons
  13. ^ Chaloner, K .; Вердинелли, И. (1995). «Байесовский экспериментальный дизайн: обзор» . Статистическая наука . 10 (3): 273–304. DOI : 10,1214 / сс / 1177009939 .
  14. ^ Нажмите, WH; Теукольский, С.А. Феттерлинг, Вашингтон; Фланнери, ВР (2007). «Раздел 14.7.2. Расстояние Кульбака – Лейблера» . Числовые рецепты: искусство научных вычислений (3-е изд.). Издательство Кембриджского университета. ISBN 978-0-521-88068-8.
  15. ^ Майрон Трибус (1961), Термодинамика и термостатика (Д. Ван Ностранд, Нью-Йорк)
  16. Перейти ↑ Jaynes, ET (1957). «Теория информации и статистическая механика» (PDF) . Физический обзор . 106 (4): 620–630. Bibcode : 1957PhRv..106..620J . DOI : 10.1103 / Physrev.106.620 .
  17. Перейти ↑ Jaynes, ET (1957). «Теория информации и статистическая механика II» (PDF) . Физический обзор . 108 (2): 171–190. Bibcode : 1957PhRv..108..171J . DOI : 10.1103 / Physrev.108.171 .
  18. ^ Дж. У. Гиббс (1873), «Метод геометрического представления термодинамических свойств веществ с помощью поверхностей», перепечатанный в Сборнике работ Дж. У. Гиббса, Том I Термодинамика , изд. WR Longley и RG Van Name (New York: Longmans, Green, 1931) сноска на стр. 52.
  19. ^ Tribus, M .; Макирвайн, EC (1971). «Энергия и информация». Scientific American . 224 (3): 179–186. Bibcode : 1971SciAm.225c.179T . DOI : 10.1038 / Scientificamerican0971-179 .
  20. ^ Фраундорф, П. (2007). «Термические корни корреляционной сложности» . Сложность . 13 (3): 18–26. arXiv : 1103.2481 . Bibcode : 2008Cmplx..13c..18F . DOI : 10.1002 / cplx.20195 . S2CID 20794688 . Архивировано из оригинала на 2011-08-13. 
  21. ^ Бернхэм, КП; Андерсон, Д.Р. (2001). «Информация Кульбака – Лейблера как основа для убедительных выводов в экологических исследованиях» . Исследования дикой природы . 28 (2): 111–119. DOI : 10,1071 / WR99107 .
  22. ^ Бернхэм, КП и Андерсон Д.Р. (2002), Выбор модели и многомодельный вывод: практический теоретико-информационный подход, второе издание (Springer Science) ISBN 978-0-387-95364-9 . 
  23. ^ Нильсен, Франк (2019). "О симметризации расстояний Йенсена – Шеннона с помощью абстрактных средств" . Энтропия . 21 (5): 485. DOI : 10,3390 / e21050485 .
  24. ^ Нильсен, Франк (2020). «Об одном обобщении дивергенции Дженсена – Шеннона и центроида Дженсена – Шеннона» . Энтропия . 22 (2): 221. DOI : 10,3390 / e22020221 .
  25. ^ Rubner, Y .; Tomasi, C .; Гибас, LJ (2000). «Расстояние землекопа как метрика для поиска изображений». Международный журнал компьютерного зрения . 40 (2): 99–121. DOI : 10,1023 / A: 1026543900054 . S2CID 14106275 . 

Внешние ссылки [ править ]

  • Набор инструментов для теоретических оценщиков информации
  • Ruby gem для вычисления расхождения Кульбака – Лейблера
  • Учебник Джона Шленса по дивергенции Кульбака – Лейблера и теории правдоподобия
  • Программа Matlab для вычисления расходимости Кульбака – Лейблера для дискретных распределений
  • Серхио Верду , Относительная энтропия , NIPS 2009. Часовая видеолекция.
  • Современное резюме теоретико-информационных мер дивергенции