Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Принцип максимума энтропии состояний , что распределение вероятностей , которое лучше всего отражает текущее состояние знаний является один с самой большой энтропии , в контексте точно указанных предварительных данных (таких , как предложение , которое выражает проверяемой информации ).

Другой способ сформулировать это: взять точно установленные априорные данные или проверяемую информацию о функции распределения вероятностей. Рассмотрим набор всех распределений вероятностей испытаний, которые будут кодировать предыдущие данные. Согласно этому принципу наилучшим выбором является распределение с максимальной информационной энтропией .

Поскольку распределение с максимальной энтропией является тем, которое делает наименьшее количество предположений об истинном распределении данных, принцип максимальной энтропии можно рассматривать как применение бритвы Оккама .

История [ править ]

Этот принцип был впервые изложен ET Jaynes в двух статьях 1957 года [1] [2], где он подчеркнул естественное соответствие между статистической механикой и теорией информации . В частности, Джейнс предложил новое и очень общее объяснение того, почему гиббсовский метод статистической механики работает. Он утверждал , что энтропия статистической механики и информационная энтропия в теории информации , в основном то же самое. Следовательно, статистическую механику следует рассматривать только как частное приложение общего инструмента логического вывода и теории информации.

Обзор [ править ]

В большинстве практических случаев указанные априорные данные или проверяемая информация задаются набором сохраняемых величин (средние значения некоторых функций моментов), связанных с рассматриваемым распределением вероятностей . Именно так принцип максимума энтропии чаще всего используется в статистической термодинамике . Другая возможность - предписать некоторую симметрию распределения вероятностей. Эквивалентность между сохраняющимися величинами и соответствующими группами симметрии подразумевает аналогичную эквивалентность для этих двух способов задания проверяемой информации в методе максимальной энтропии.

Принцип максимальной энтропии также необходим, чтобы гарантировать уникальность и непротиворечивость вероятностных присвоений, полученных с помощью различных методов, в частности статистической механики и логического вывода .

Принцип максимальной энтропии ясно показывает нашу свободу в использовании различных форм априорных данных . В качестве особого случая может быть принята однородная априорная плотность вероятности ( принцип безразличия Лапласа , иногда называемый принципом недостаточной причины). Таким образом, принцип максимальной энтропии - это не просто альтернативный способ взглянуть на обычные методы вывода классической статистики, но представляет собой существенное концептуальное обобщение этих методов.

Однако эти утверждения не подразумевают, что термодинамические системы не обязательно должны быть эргодичными, чтобы оправдать их рассмотрение как статистический ансамбль .

На обычном языке можно сказать, что принцип максимальной энтропии выражает претензию на эпистемологическую скромность или максимальное невежество. Выбранное распределение - это такое распределение, которое в наименьшей степени претендует на получение информации помимо заявленных предшествующих данных, то есть допускающее наибольшее невежество, помимо указанных ранее данных.

Проверяемая информация [ править ]

Принцип максимальной энтропии явно полезен только тогда, когда он применяется к проверяемой информации . Проверяемая информация - это утверждение о распределении вероятностей, истинность или ложность которого четко определена. Например, утверждения

ожидание переменной является 2,87

и

(где и - вероятности событий) - утверждения проверяемой информации.

При наличии проверяемой информации процедура максимальной энтропии состоит из поиска распределения вероятностей, которое максимизирует информационную энтропию с учетом ограничений информации. Эта задача ограниченной оптимизации обычно решается с использованием метода множителей Лагранжа .

Максимизация энтропии без проверяемой информации соблюдает универсальное «ограничение», заключающееся в том, что сумма вероятностей равна единице. При этом ограничении дискретное распределение вероятностей максимальной энтропии является равномерным распределением ,

Приложения [ править ]

Принцип максимальной энтропии обычно применяется двумя способами к задачам вывода:

Априорные вероятности [ править ]

Принцип максимальной энтропии часто используется для получения априорных распределений вероятностей для байесовского вывода . Джейнс был ярым сторонником этого подхода, утверждая, что максимальное распределение энтропии представляет собой наименее информативное распределение. [3] В настоящее время большое количество литературы посвящено выявлению априорных значений максимальной энтропии и связей с канальным кодированием . [4] [5] [6] [7]

Апостериорные вероятности [ править ]

Максимальная энтропия является достаточным обновляющим правилом для радикального вероятности . Ричард Джеффри «s вероятность кинематика является частным случаем максимального вывода энтропии. Однако максимальная энтропия не является обобщением всех таких достаточных правил обновления. [8]

Модели максимальной энтропии [ править ]

В качестве альтернативы, этот принцип часто используется для спецификации модели: в этом случае сами наблюдаемые данные считаются проверяемой информацией. Такие модели широко используются при обработке естественного языка . Примером такой модели является логистическая регрессия , которая соответствует классификатору максимальной энтропии для независимых наблюдений.

Оценка плотности вероятности [ править ]

Одно из основных применений принципа максимальной энтропии - дискретная и непрерывная оценка плотности . [9] [10] Подобно оценкам опорных векторных машин , принцип максимальной энтропии может потребовать решения задачи квадратичного программирования и, таким образом, обеспечить модель разреженной смеси в качестве оптимальной оценки плотности. Одним из важных преимуществ метода является его способность включать априорную информацию в оценку плотности. [11]

Общее решение для максимального распределения энтропии с линейными ограничениями [ править ]

Дискретный случай [ править ]

У нас есть некоторая проверяемая информация I о величине x, принимающей значения в { x 1 , x 2 , ..., x n }. Мы предполагаем, что эта информация имеет форму m ограничений на ожидания функций f k ; то есть мы требуем, чтобы наше распределение вероятностей удовлетворяло ограничениям неравенства / равенства моментов:

где наблюдаемые. Мы также требуем, чтобы плотность вероятности была суммирована до единицы, что можно рассматривать как примитивное ограничение на функцию идентичности, а наблюдаемую, равную 1, дающую ограничение

Распределение вероятностей с максимальной информационной энтропией с учетом этих ограничений неравенства / равенства имеет вид: [9]

для некоторых . Иногда его называют распределением Гиббса . Константа нормализации определяется:

и обычно называется статистической суммой . (Теорема Питмана – Купмана утверждает, что необходимое и достаточное условие для выборочного распределения, допускающего достаточную статистику ограниченной размерности, состоит в том, что оно имеет общий вид распределения максимальной энтропии.)

Параметры λ k являются множителями Лагранжа. В случае ограничений-равенств их значения определяются из решения нелинейных уравнений

В случае ограничений-неравенств множители Лагранжа определяются из решения выпуклой программы оптимизации с линейными ограничениями. [9] В обоих случаях не существует решения в замкнутой форме , и для вычисления множителей Лагранжа обычно требуются численные методы .

Непрерывный случай [ править ]

Для непрерывных распределений энтропию Шеннона использовать нельзя, поскольку она определена только для дискретных вероятностных пространств. Вместо этого Эдвин Джейнс (1963, 1968, 2003) дал следующую формулу, которая тесно связана с относительной энтропией (см. Также дифференциальную энтропию ).

где q ( x ), которую Джейнс назвал «инвариантной мерой», пропорциональна предельной плотности дискретных точек . Пока предположим, что q известно; мы обсудим это далее после того, как будут приведены решения уравнений.

Близкородственное количество, относительная энтропия, обычно определяются как Кульбака-Лейблер расходимость из р от д (хотя иногда, смешение, определяемый как негатив этого). Из-за Кульбака принцип минимизации этого вывода известен как принцип минимальной информации о дискриминации .

У нас есть некоторая проверяемая информация I о количестве , х , которая принимает значения в некотором интервале из действительных чисел (все интегралы , приведенные ниже, в течение этого интервала). Мы предполагаем, что эта информация имеет форму m ограничений на математические ожидания функций f k , т.е. мы требуем, чтобы наша функция плотности вероятности удовлетворяла ограничениям момента в виде неравенства (или чисто равенства):

где наблюдаемые. Мы также требуем, чтобы плотность вероятности интегрировалась в единицу, что можно рассматривать как примитивное ограничение на функцию идентичности и как наблюдаемую, равную 1, дающую ограничение

Функция плотности вероятности с максимумом H c с учетом этих ограничений: [10]

со статистической суммой, определяемой

Как и в дискретном случае, в случае, когда все моментные ограничения равны, значения параметров определяются системой нелинейных уравнений:

В случае с ограничениями на момент неравенства множители Лагранжа определяются из решения программы выпуклой оптимизации . [10]

Инвариантную функцию меры q ( x ) можно лучше всего понять, если предположить, что известно, что x принимает значения только в ограниченном интервале ( a , b ), и что никакой другой информации не дается. Тогда максимальная функция плотности вероятности энтропии равна

где A - нормировочная постоянная. Функция инвариантной меры на самом деле является априорной функцией плотности, кодирующей «недостаток релевантной информации». Он не может быть определен принципом максимальной энтропии и должен быть определен каким-либо другим логическим методом, таким как принцип групп трансформации или теория маргинализации .

Примеры [ править ]

Несколько примеров распределений максимальной энтропии см. В статье о распределениях вероятностей максимальной энтропии .

Обоснование принципа максимальной энтропии [ править ]

Сторонники принципа максимальной энтропии оправдывают его использование при назначении вероятностей несколькими способами, включая следующие два аргумента. Эти аргументы используют байесовскую вероятность как данность и, таким образом, подчиняются тем же постулатам.

Информационная энтропия как мера «неинформативности» [ править ]

Рассмотрим дискретное распределение вероятностей между взаимоисключающими предложениями . Наиболее информативное распределение произошло бы, когда было известно, что одно из утверждений истинно. В этом случае информационная энтропия была бы равна нулю. Наименее информативное распределение будет иметь место, когда нет причин отдавать предпочтение одному из предложений по сравнению с другими. В этом случае, единственное разумное распределение вероятностей будет равномерным, а затем информационная энтропия будет равна ее максимально возможного значения, . Таким образом, информационная энтропия может рассматриваться как числовая мера, которая описывает, насколько неинформативно конкретное распределение вероятностей, в диапазоне от нуля (полностью информативно) до (полностью неинформативно).

Мы утверждаем, что, выбирая использование распределения с максимальной энтропией, допускаемой нашей информацией, мы выбираем наиболее неинформативное возможное распределение. Выбор распределения с более низкой энтропией означал бы предположить, что информация, которой мы не обладаем. Таким образом, максимальное распределение энтропии - единственно разумное распределение. Зависимость решения от доминирующей меры , представленной однако источник критики подхода , поскольку это доминирующая мера фактически является произвольным. [12]

Происхождение Уоллиса [ править ]

Следующий аргумент является результатом предложения, сделанного Грэмом Уоллисом ET Jaynes в 1962 году. [13] По сути, это тот же математический аргумент, который используется для статистики Максвелла – Больцмана в статистической механике , хотя концептуальный акцент совершенно иной. Его преимущество состоит в том, что он носит строго комбинаторный характер, не ссылаясь на информационную энтропию как на меру «неопределенности», «неинформативности» или любого другого неточно определенного понятия. Функция информационной энтропии не предполагается априори , а скорее находится в ходе аргументации; и этот аргумент естественным образом ведет к процедуре максимизации информационной энтропии, а не к какому-либо другому подходу к ней.

Предположим, человек желает сопоставить вероятность взаимоисключающих предложений. У него есть некоторая проверяемая информация, но он не знает, как включить эту информацию в свою оценку вероятности. Поэтому он задумал следующий случайный эксперимент. Он будет случайным образом распределять кванты вероятности (каждое значение ) среди возможностей. (Можно представить, что он будет бросать мячи в ведра с завязанными глазами. Чтобы быть как можно более справедливым, каждый бросок должен быть независимым от любого другого, и каждое ведро должно быть одинакового размера.) После завершения эксперимента он проверит, соответствует ли полученное таким образом распределение вероятностей его информации. . (Чтобы этот шаг был успешным, информация должна быть ограничением, заданным открытым набором в пространстве вероятностных мер). Если это непоследовательно, он отклонит его и попытается снова. Если это согласуется, его оценка будет

где - вероятность th предложения, а n i - количество квантов, которые были приписаны к th предложению (т. е. количество шаров, которые оказались в корзине ).

Теперь, чтобы уменьшить "зернистость" приписывания вероятности, необходимо будет использовать довольно большое количество квантов вероятности. Вместо того, чтобы на самом деле проводить и, возможно, повторять довольно длинный случайный эксперимент, главный герой решает просто вычислить и использовать наиболее вероятный результат. Вероятность любого конкретного результата - это полиномиальное распределение ,

куда

иногда называют множественностью результата.

Наиболее вероятный результат - тот, который максимизирует множественность . Вместо того, чтобы максимизировать напрямую, главный герой мог бы эквивалентно максимизировать любую монотонную возрастающую функцию . Он решает максимизировать

На этом этапе, чтобы упростить выражение, главный герой принимает предел как , т.е. когда уровни вероятности переходят от зернистых дискретных значений к сглаженным непрерывным значениям. Используя приближение Стирлинга , он находит

Все, что остается сделать главному герою, - это максимизировать энтропию в условиях ограничений его проверяемой информации. Он обнаружил, что максимальное распределение энтропии является наиболее вероятным из всех «справедливых» случайных распределений в пределе, когда уровни вероятности переходят от дискретного к непрерывному.

Совместимость с теоремой Байеса [ править ]

Гиффин и Катича (2007) утверждают, что теорема Байеса и принцип максимальной энтропии полностью совместимы и могут рассматриваться как частные случаи «метода максимальной относительной энтропии». Они заявляют, что этот метод воспроизводит все аспекты ортодоксальных методов байесовского вывода. Вдобавок этот новый метод открывает дверь к решению проблем, которые нельзя решить ни с помощью принципа максимальной энтропии, ни с помощью ортодоксальных байесовских методов по отдельности. Более того, недавние работы (Lazar 2003 и Schennach 2005) показывают, что частотные подходы к выводу на основе относительной энтропии (такие как эмпирическое правдоподобие и экспоненциально наклонное эмпирическое правдоподобие) - см., Например, Owen 2001 и Kitamura 2006), можно объединить с априорной информацией для выполнения байесовского апостериорного анализа.

Джейнс заявил, что теорема Байеса - это способ вычислить вероятность, а максимальная энтропия - способ присвоить априорное распределение вероятностей. [14]

Однако теоретически возможно решить апостериорное распределение непосредственно из заявленного априорного распределения с использованием принципа минимальной перекрестной энтропии (или принципа максимальной энтропии, являющегося частным случаем использования равномерного распределения в качестве заданного априорного), независимо от любые байесовские соображения, формально рассматривая проблему как задачу оптимизации с ограничениями, при этом функционал энтропии является целевой функцией. Для случая заданных средних значений в качестве проверяемой информации (усредненной по искомому распределению вероятностей) искомым распределением формально является распределение Гиббса (или Больцмана) параметры которого должны быть решены для достижения минимальной перекрестной энтропии и удовлетворения данной проверяемой информации.

Соответствие физике [ править ]

Принцип максимальной энтропии связан с ключевым положением кинетической теории газов, известным как молекулярный хаос или Stosszahlansatz . Это утверждает, что функция распределения, характеризующая частицы, вступающие в столкновение, может быть факторизована. Хотя это утверждение можно понимать как строго физическую гипотезу, его также можно интерпретировать как эвристическую гипотезу относительно наиболее вероятной конфигурации частиц перед столкновением. [15]

См. Также [ править ]

  • Информационный критерий Акаике
  • Рассеивание
  • Максимизация энтропии
  • Инфо-метрики
  • Классификатор максимальной энтропии
  • Распределение вероятностей максимальной энтропии
  • Спектральная оценка максимальной энтропии
  • Термодинамика максимальной энтропии
  • Принцип максимального калибра
  • Термодинамическое равновесие
  • Молекулярный хаос

Примечания [ править ]

  1. Перейти ↑ Jaynes, ET (1957). «Теория информации и статистическая механика» (PDF) . Физический обзор . Серия II. 106 (4): 620–630. Bibcode : 1957PhRv..106..620J . DOI : 10.1103 / PhysRev.106.620 . Руководство по ремонту  0087305 .
  2. Перейти ↑ Jaynes, ET (1957). "Теория информации и статистическая механика II" (PDF) . Физический обзор . Серия II. 108 (2): 171–190. Bibcode : 1957PhRv..108..171J . DOI : 10.1103 / PhysRev.108.171 . Руководство по ремонту 0096414 .  
  3. Перейти ↑ Jaynes, ET (1968). «Априорные вероятности» (PDF или PostScript ) . IEEE Transactions по системной науке и кибернетике . 4 (3): 227–241. DOI : 10.1109 / TSSC.1968.300117 .
  4. ^ Кларк, Б. (2006). «Информационная оптимальность и байесовское моделирование». Журнал эконометрики . 138 (2): 405–429. DOI : 10.1016 / j.jeconom.2006.05.003 .
  5. ^ Soofi, Е. С. (2000). "Основные теоретико-информационные подходы". Журнал Американской статистической ассоциации . 95 (452): 1349–1353. DOI : 10.2307 / 2669786 . JSTOR 2669786 . Руководство по ремонту 1825292 .  
  6. ^ Буске, N. (2008). «Выявление нечетких, но правильных априорных значений максимальной энтропии в байесовских экспериментах». Статистические статьи . 51 (3): 613–628. DOI : 10.1007 / s00362-008-0149-9 .
  7. ^ Palmieri, Франческо А.Н.; Чуонцо, Доменико (1 апреля 2013 г.). «Объективные априорные значения максимальной энтропии в классификации данных». Информационный фьюжн . 14 (2): 186–198. CiteSeerX 10.1.1.387.4515 . DOI : 10.1016 / j.inffus.2012.01.012 . 
  8. ^ Skyrms, В (1987). «Обновление, предположение и МАКСЕНТ». Теория и решение . 22 (3): 225–46. DOI : 10.1007 / BF00134086 .
  9. ^ а б в Ботев З.И. Крезе, Д.П. (2008). «Неасимптотический выбор пропускной способности для оценки плотности дискретных данных». Методология и вычисления в прикладной теории вероятностей . 10 (3): 435. DOI : 10.1007 / s11009-007-9057-г .
  10. ^ а б в Ботев З.И. Крезе, Д.П. (2011). «Обобщенный метод кросс-энтропии с приложениями к оценке плотности вероятности» (PDF) . Методология и вычисления в прикладной теории вероятностей . 13 (1): 1-27. DOI : 10.1007 / s11009-009-9133-7 .
  11. ^ Кесаван, Гонконг; Капур, Дж. Н. (1990). «Принципы максимальной энтропии и минимальной кросс-энтропии». В Фужере, П. Ф. (ред.). Максимальная энтропия и байесовские методы . стр.  419 -432. DOI : 10.1007 / 978-94-009-0683-9_29 . ISBN 978-94-010-6792-8.
  12. ^ Дрюйет, Пьер; Марин, Жан-Мишель (2007). "Инвариантные {HPD} достоверные множества и {MAP} оценки" . Байесовский анал . 2 : 681–691. DOI : 10.1214 / 07-BA227 .
  13. ^ Джейнс, ET (2003) Теория вероятностей: логика науки , Cambridge University Press, стр. 351-355. ISBN 978-0521592710 
  14. ^ Джейнс, ET (1988) "Связь байесовских и максимальных методов энтропии" , в Максимальной энтропии и байесовских методах в науке и технике (том 1) , Kluwer Academic Publishers, стр. 25-29.
  15. ^ Chliamovitch, G .; Malaspinas, O .; Chopard, Б. (2017). «Кинетическая теория за пределами Stosszahlansatz» . Энтропия . 19 (8): 381. Bibcode : 2017Entrp..19..381C . DOI : 10.3390 / e19080381 .

Ссылки [ править ]

  • Байкова, АТ (1992). «Обобщение метода максимальной энтропии для восстановления сложных функций». Астрономические и астрофизические труды . 1 (4): 313–320. Bibcode : 1992A & AT .... 1..313B . DOI : 10.1080 / 10556799208230532 .
  • Форнальски, KW; Парзыч, Г .; Пилак, М .; Satuła, D .; Добжиньский, Л. (2010). «Применение байесовских рассуждений и метода максимальной энтропии к некоторым задачам реконструкции» (PDF) . Acta Physica Polonica . 117 (6): 892–899. DOI : 10.12693 / APhysPolA.117.892 .
  • Гиффин А. и Катича А., 2007 г., Обновление вероятностей с помощью данных и моментов
  • Guiasu, S .; Шеницер, А. (1985). «Принцип максимума энтропии». Математический интеллект . 7 (1): 42–48. DOI : 10.1007 / bf03023004 .
  • Harremoës, P .; Топсе (2001). «Основы максимальной энтропии» . Энтропия . 3 (3): 191–226. Bibcode : 2001Entrp ... 3..191H . DOI : 10.3390 / e3030191 .
  • Джейнс, ET (1963). «Теория информации и статистическая механика» . В Форде, К. (ред.). Статистическая физика . Нью-Йорк: Бенджамин. п. 181.
  • Джейнс, ET, 1986 (новая версия онлайн 1996), « Обезьяны, кенгуру и N », в « Методы максимальной энтропии и байесовские методы в прикладной статистике» , JH Justice (ed.), Cambridge University Press, Cambridge, p. 26.
  • Капур, Дж. и Кесаван, HK , 1992, Принципы энтропийной оптимизации с приложениями , Бостон: Academic Press. ISBN 0-12-397670-7 
  • Китамура, Ю., 2006, Методы эмпирического правдоподобия в эконометрике: теория и практика , Документы для обсуждения фонда Cowles 1569, Фонд Cowles, Йельский университет.
  • Лазарь, Н (2003). «Байесовская эмпирическая вероятность». Биометрика . 90 (2): 319–326. DOI : 10.1093 / Biomet / 90.2.319 .
  • Оуэн, А.Б., 2001, « Эмпирическое правдоподобие» , Чепмен и Холл / CRC. ISBN 1-58-488071-6 . 
  • Шеннах, С.М. (2005). «Байесовская экспоненциально наклоненная эмпирическая вероятность». Биометрика . 92 (1): 31–46. DOI : 10.1093 / Biomet / 92.1.31 .
  • Уффинк, Джос (1995). «Можно ли объяснить принцип максимальной энтропии как требование согласованности?» (PDF) . Исследования по истории и философии современной физики . 26B (3): 223–261. CiteSeerX  10.1.1.27.6392 . DOI : 10.1016 / 1355-2198 (95) 00015-1 . Архивировано из оригинального (PDF) 03.06.2006.

Дальнейшее чтение [ править ]

  • Бойд, Стивен; Ливен Ванденберге (2004). Выпуклая оптимизация (PDF) . Издательство Кембриджского университета . п. 362. ISBN. 0-521-83378-7. Проверено 24 августа 2008 .
  • Ратнапархи А. (1997) «Простое введение в модели максимальной энтропии для обработки естественного языка» Технический отчет 97-08, Институт исследований когнитивных наук, Университет Пенсильвании. Легкое для чтения введение в методы максимальной энтропии в контексте обработки естественного языка.
  • Tang, A .; Джексон, Д .; Hobbs, J .; Chen, W .; Смит, JL; Patel, H .; Прието, А .; Petrusca, D .; Гривич, М.И.; Шер, А .; Hottowy, P .; Dabrowski, W .; Литке AM; Беггс, JM (2008). «Модель максимальной энтропии, применяемая к пространственным и временным корреляциям из корковых сетей in vitro» . Журнал неврологии . 28 (2): 505–518. DOI : 10.1523 / JNEUROSCI.3359-07.2008 . PMID  18184793 . Статья в открытом доступе, содержащая указатели на различные статьи и программные реализации модели максимальной энтропии в сети.