Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике и теории информации максимальное распределение вероятностей энтропии имеет энтропию , по крайней мере , такую же большую, как у всех других членов определенного класса распределений вероятностей . Согласно принципу максимальной энтропии , если о распределении ничего не известно, кроме того, что оно принадлежит к определенному классу (обычно определяемому в терминах определенных свойств или мер), то распределение с наибольшей энтропией следует выбирать как наименее информативное. дефолт. Мотивация двоякая: во-первых, максимизация энтропии сводит к минимуму количество предшествующей информации.встроен в раздачу; во-вторых, многие физические системы со временем имеют тенденцию двигаться к конфигурациям с максимальной энтропией.

Определение энтропии и дифференциальной энтропии [ править ]

Если X - дискретная случайная величина с распределением, заданным

то энтропия X определяется как

Если Х является непрерывной случайной величиной с плотностью вероятности р ( х ), то дифференциальное энтропии из X определяется как [1] [2] [3]

Величина p ( x ) log p ( x ) считается равной нулю, если p ( x ) = 0 .

Это частный случай более общих форм, описанных в статьях Энтропия (теория информации) , Принцип максимальной энтропии и дифференциальная энтропия. В связи с максимальным распределением энтропии это единственное необходимое, потому что максимизация также максимизирует более общие формы.

Основание логарифма не имеет значения, если одно и то же используется последовательно: изменение основания просто приводит к изменению масштаба энтропии. Теоретики информации могут предпочесть использовать основание 2 для выражения энтропии в битах ; математики и физики часто предпочитают натуральный логарифм , в результате чего энтропия выражается в единицах нат .

Однако выбор меры имеет решающее значение для определения энтропии и результирующего максимального распределения энтропии, даже несмотря на то, что обычное обращение к мере Лебега часто защищается как «естественное».

Распределения с измеренными константами [ править ]

Многие статистические распределения, представляющие интерес, - это те, для которых моменты или другие измеримые величины ограничены как постоянные. Следующая теорема Людвига Больцмана дает вид плотности вероятности при этих ограничениях.

Непрерывный случай [ править ]

Пусть S является замкнутым подмножеством из действительных чисел R , и мы решили задать п измеримых функций F 1 , ..., х п и п чисел 1 , ..., н . Мы рассматриваем класс C всех действительных случайных величин, которые поддерживаются на S (то есть чья функция плотности равна нулю вне S ) и которые удовлетворяют условиям n моментов:

Если в C есть член , функция плотности которого положительна всюду в S , и если существует максимальное распределение энтропии для C , то его плотность вероятности p ( x ) имеет следующий вид:

где мы предполагаем, что . Константа и n множителей Лагранжа решают задачу оптимизации с ограничениями (это условие гарантирует, что интегрируется до единицы): [4]

Используя условия Каруша – Куна – Таккера , можно показать, что задача оптимизации имеет единственное решение, поскольку целевая функция в оптимизации является вогнутой .

Обратите внимание, что если моментными условиями являются равенства (а не неравенства), то есть

тогда условие ограничения отбрасывается, что делает оптимизацию по множителям Лагранжа неограниченной.

Дискретный случай [ править ]

Предположим, что S = { x 1 , x 2 , ...} является (конечным или бесконечным) дискретным подмножеством вещественных чисел, и мы решили указать n функций f 1 , ..., f n и n чисел a 1 , .. ., а н . Мы рассматриваем класс C всех дискретных случайных величин X, которые поддерживаются на S и которые удовлетворяют условиям n моментов

Если существует член C, который присваивает положительную вероятность всем членам S, и если существует максимальное распределение энтропии для C , то это распределение имеет следующую форму:

где мы предполагаем, что и константы решают задачу оптимизации с ограничениями с помощью : [5]

Опять же, если моментными условиями являются равенства (вместо неравенств), то условие ограничения не присутствует в оптимизации.

Доказательство в случае ограничений равенства [ править ]

В случае ограничений типа равенства эта теорема доказывается с помощью вариационного исчисления и множителей Лагранжа . Ограничения можно записать как

Рассмотрим функционал

где и - множители Лагранжа. Нулевое ограничение обеспечивает вторую аксиому вероятности . Другие ограничения заключаются в том, что измерениям функции задаются определенные константы . Энтропия достигает экстремума, когда функциональная производная равна нулю:

Это упражнение для читателя [ необходима цитата ], что этот экстремум действительно является максимумом. Следовательно, максимальное распределение вероятностей энтропии в этом случае должно иметь вид ( )

Доказательство дискретной версии по сути такое же.

Уникальность максимальная [ править ]

Предположим , есть распределения, удовлетворяющие ограничениям на ожидание. Допуская и учитывая распределение, становится ясно, что это распределение удовлетворяет ограничениям на ожидание и, кроме того, имеет поддержку . Исходя из основных фактов об энтропии, это так . Принимая пределы и соответственно урожайности .

Отсюда следует, что распределение, удовлетворяющее ограничениям на ожидание и максимизирующее энтропию, обязательно должно иметь полную поддержку, т. Е. Распределение почти везде положительно. Отсюда следует, что максимизирующее распределение должно быть внутренней точкой в ​​пространстве распределений, удовлетворяющих ограничениям на ожидание, то есть оно должно быть локальным экстремумом. Таким образом, достаточно показать, что локальный экстремум уникален, чтобы показать и то, и другое, что максимизирующее энтропию распределение уникально (и это также показывает, что локальный экстремум является глобальным максимумом).

Допустим, это локальные крайности. Переформулируя приведенные выше вычисления, они характеризуются параметрами via и аналогично для , где . Теперь отметим ряд тождеств: через удовлетворение ограничений на ожидание и использование градиентов / производных по направлениям, и аналогично для . Позволяя получить:

где для некоторых . Дальнейшие вычисления

где аналогично приведенному выше распределению, только параметризовано . Предполагая, что никакая нетривиальная линейная комбинация наблюдаемых почти всюду (п.в.) константа (что, например, имеет место, если наблюдаемые независимы, а не п.в. константами), верно, что имеет ненулевую дисперсию, если только . Таким образом, из приведенного выше уравнения ясно, что последнее должно иметь место. Следовательно , параметры, характеризующие локальные экстремумы , идентичны, а значит, идентичны сами распределения. Таким образом, локальный экстремум уникален, и, согласно приведенному выше обсуждению, максимум уникален - при условии, что локальный экстремум действительно существует.

Предостережения [ править ]

Обратите внимание, что не все классы распределений содержат максимальное распределение энтропии. Возможно, что класс содержит распределения произвольно большой энтропии (например, класс всех непрерывных распределений на R со средним значением 0, но произвольным стандартным отклонением), или что энтропии ограничены сверху, но нет распределения, которое достигает максимальной энтропии. [а] Также возможно , что ожидаемое значение ограничения для класса C заставить распределение вероятностей равным нулю в определенных подмножеств S . В этом случае наша теорема не применяется, но можно обойти эту проблему , сокращая набор S .

Примеры [ править ]

Каждое распределение вероятностей является тривиальным распределением вероятностей максимальной энтропии при условии, что это распределение имеет собственную энтропию. Чтобы увидеть это, перепишите плотность как и сравните с выражением теоремы выше. Выбрав в качестве измеримой функции и

константа, максимальное распределение вероятностей энтропии при ограничении

.

Нетривиальные примеры - это распределения, на которые накладываются несколько ограничений, отличных от назначения энтропии. Их часто можно найти, начав с одной процедуры и обнаружив, что их можно разделить на части.

Таблица примеров распределения максимальной энтропии приведена в работах Лисмана (1972) [6] и Park & ​​Bera (2009) [7].

Равномерные и кусочно-однородные распределения [ править ]

Равномерное распределение на отрезке [ , Ь ] является максимальное распределение энтропии среди всех непрерывных распределений , которые поддерживаются в интервале [ , Ь ], и , следовательно , плотность вероятности равна 0 вне интервала. Эта однородная плотность может быть связана с принципом безразличия Лапласа , который иногда называют принципом недостаточной причины. В более общем смысле, если нам дано подразделение a = a 0 < a 1 <... < a k = b интервала [ a , b ] и вероятностейp 1 , ..., p k, которые в сумме дают единицу, то мы можем рассмотреть класс всех непрерывных распределений, таких что

Плотность распределения максимальной энтропии для этого класса постоянна на каждом из интервалов [ a j -1 , a j ). Равномерное распределение на конечном множестве { x 1 , ..., x n } (которое присваивает вероятность 1 / n каждому из этих значений) является максимальным распределением энтропии среди всех дискретных распределений, поддерживаемых на этом множестве.

Положительное и указанное среднее: экспоненциальное распределение [ править ]

Экспоненциальное распределение , при котором функция плотности

максимальное распределение энтропии среди всех непрерывных распределений, поддерживаемых в [0, ∞), которые имеют заданное среднее значение 1 / λ.

Указанная дисперсия: нормальное распределение [ править ]

Нормальное распределение N (μ, σ 2 ), для которых функция плотности

имеет максимальную энтропию среди всех вещественнозначных распределений с носителем на (−∞, ∞) с заданной дисперсией σ 2 (конкретный момент ). Следовательно, предположение о нормальности налагает минимальные априорные структурные ограничения после этого момента. (См. Статью о дифференциальной энтропии для вывода.)

В случае распределений, поддерживаемых на [0, ∞), максимальное распределение энтропии зависит от соотношений между первым и вторым моментами. В определенных случаях это может быть экспоненциальное распределение, может быть другое распределение или может быть неопределимым. [8]

Дискретные распределения с указанным средним [ править ]

Среди всех дискретных распределений, поддерживаемых на множестве { x 1 , ..., x n } с заданным средним μ, максимальное распределение энтропии имеет следующую форму:

где положительные константы C и r могут быть определены из требований, согласно которым сумма всех вероятностей должна быть равна 1, а ожидаемое значение должно быть μ.

Например, если большое число N кости брошены, и вы сказали , что сумма всех показанных чисел S . Основываясь только на этой информации, какое будет разумное предположение для количества игральных костей, показывающих 1, 2, ..., 6? Это является примером ситуации , рассмотренной выше, с { х 1 , ..., х 6 } = {1, ..., 6} , и μ = S / N .

Наконец, среди всех дискретных распределений, поддерживаемых бесконечным множеством { x 1 , x 2 , ...} со средним значением μ, максимальное распределение энтропии имеет форму:

где снова константы C и r определялись требованиями, согласно которым сумма всех вероятностей должна быть 1, а ожидаемое значение должно быть μ. Например, в случае, когда x k = k , это дает

такое, что соответствующее максимальное распределение энтропии является геометрическим распределением .

Круговые случайные величины [ править ]

Для непрерывной случайной величины, распределенной вокруг единичной окружности, распределение фон Мизеса максимизирует энтропию, когда указаны действительная и мнимая части первого кругового момента [9] или, что то же самое, указаны круговое среднее и круговая дисперсия .

Если заданы среднее значение и дисперсия углов по модулю , обернутое нормальное распределение максимизирует энтропию. [9]

Максимизатор для указанного среднего, дисперсии и перекоса [ править ]

Существует верхняя граница энтропии непрерывных случайных величин с заданными средним значением, дисперсией и перекосом. Однако не существует распределения, которое достигает этой верхней границы , потому что оно неограничено, кроме случаев (см. Cover & Thomas (2006: глава 12)). [ требуется разъяснение (пояснение) ]

Однако максимальная энтропия ε- достижима: энтропия распределения может быть сколь угодно близкой к верхней границе. Начните с нормального распределения указанного среднего и дисперсии. Чтобы ввести положительный перекос, немного сместите нормальное распределение вверх со значением, на много σ большим, чем среднее. На асимметрию, пропорциональную третьему моменту, повлияет больше, чем на моменты более низкого порядка.

Максимизатор для указанной меры риска среднего и отклонения [ править ]

Каждое распределение с логарифмически вогнутой плотностью максимальное распределение энтропии с указанным средним ц и отклонение риска меры D . [10]

В частности, максимальное распределение энтропии с указанным средним значением и отклонением составляет:

  • Нормальное распределение , если это стандартное отклонение ;
  • Распределение Лапласа , если - среднее абсолютное отклонение ; [6]
  • Распределение с плотностью вида , если является стандартной нижней полу-отклонение, где и а, б, в константы. [10]

Другие примеры [ править ]

В таблице ниже каждое перечисленное распределение максимизирует энтропию для определенного набора функциональных ограничений, перечисленных в третьем столбце, и ограничения, в соответствии с которым x должен быть включен в поддержку плотности вероятности, которая указана в четвертом столбце. [6] [7] Некоторые перечисленные примеры (Бернулли, геометрический, экспоненциальный, Лаплас, Парето) тривиально верны, потому что связанные с ними ограничения эквивалентны назначению их энтропии. Они все равно включены, потому что их ограничение связано с общей или легко измеряемой величиной. Для справки: - это гамма-функция , - это дигамма-функция , - это бета-функция , а γ E- постоянная Эйлера-Маскерони .

См. Также [ править ]

  • Экспоненциальная семья
  • Мера Гиббса
  • Функция распределения (математика)
  • Максимальное блуждание с энтропией - максимальное увеличение энтропии для графа

Примечания [ править ]

  1. ^ Например, класс всех непрерывных распределений X на R с E ( X ) = 0 и E ( X 2 ) = E ( X 3 ) = 1 (см. Обложка, гл. 12).

Цитаты [ править ]

  1. ^ Уильямс, Д. (2001), Weighing the Odds , Cambridge University Press , ISBN  0-521-00618-X (страницы 197-199).
  2. Перейти ↑ Bernardo, JM, Smith, AFM (2000), Bayesian Theory , Wiley. ISBN 0-471-49464-X (страницы 209, 366) 
  3. ^ О'Хаган, A. (1994), Кендалл Современной теория статистики, Vol 2B, байесовское Умозаключение , Эдвард Арнольд . ISBN 0-340-52922-9 (Раздел 5.40) 
  4. ^ Ботев, ЗИ; Крезе, Д.П. (2011). «Обобщенный метод кросс-энтропии с приложениями к оценке плотности вероятности» (PDF) . Методология и вычисления в прикладной теории вероятностей . 13 (1): 1-27. DOI : 10.1007 / s11009-009-9133-7 . S2CID 18155189 .  
  5. ^ Ботев, ЗИ; Крезе, Д.П. (2008). «Неасимптотический выбор пропускной способности для оценки плотности дискретных данных». Методология и вычисления в прикладной теории вероятностей . 10 (3): 435. DOI : 10.1007 / s11009-007-9057-г . S2CID 122047337 . 
  6. ^ a b c Лисман, JHC; ван Зуйлен, MCA (1972). «Примечание о генерации наиболее вероятных частотных распределений». Statistica Neerlandica . 26 (1): 19–23. DOI : 10.1111 / j.1467-9574.1972.tb00152.x .
  7. ^ a b Park, Sung Y .; Бера, Анил К. (2009). "Модель условной гетероскедастичности авторегрессии максимальной энтропии" (PDF) . Журнал эконометрики . 150 (2): 219–230. CiteSeerX 10.1.1.511.9750 . DOI : 10.1016 / j.jeconom.2008.12.014 . Архивировано из оригинального (PDF) 07 марта 2016 года . Проверено 2 июня 2011 .  
  8. ^ Dowson, D .; Рэгг, А. (сентябрь 1973 г.). «Распределения максимальной энтропии с заданными первым и вторым моментами». IEEE Transactions по теории информации (соответствие). 19 (5): 689–693. DOI : 10,1109 / tit.1973.1055060 . ISSN 0018-9448 . 
  9. ^ а б Джаммаламадака, С. Рао; СенГупта, А. (2001). Темы в круговой статистике . Нью-Джерси: World Scientific. ISBN 978-981-02-3778-3. Проверено 15 мая 2011 .
  10. ^ a b Гречук Б., Молибоха А., Забаранкин М. (2009) Принцип максимума энтропии с мерами общего отклонения , Математика исследования операций 34 (2), 445--467, 2009.
  11. ^ Б Harremös, Питер (2001), "распределение биномиального и пуассоновского распределения как максимальная энтропия", IEEE Transactions по теории информации , 47 (5): 2039-2041, да : 10,1109 / 18,930936.

Ссылки [ править ]

  • Обложка, ТМ ; Томас, Дж. А. (2006). «Глава 12, Максимальная энтропия» (PDF) . Элементы теории информации (2-е изд.). Вайли. ISBN 978-0471241959.
  • Ф. Нильсен, Р. Нок (2017), Верхние границы MaxEnt для дифференциальной энтропии одномерных непрерывных распределений , IEEE Signal Processing Letters , 24 (4), 402-406
  • IJ Taneja (2001), Общие информационные меры и их приложения . Глава 1
  • Нэдер Ebrahimi, Эхсан С. Soofi, Рефик Сойер (2008), "идентификация максимального Многофакторный энтропии, преобразование, и зависимость", журнал многофакторного анализа 99: 1217-1231, DOI : 10.1016 / j.jmva.2007.08.004