Принцип максимум энтропии состояний , что распределение вероятностей , которое лучше всего отражает текущее состояние знаний о системе является один с самым большой энтропией , в контексте точно указанные ранее данных (например, предложение , которое выражает проверяемую информацию ).
Другой способ сформулировать это: взять точно сформулированные априорные данные или проверяемую информацию о функции распределения вероятностей. Рассмотрим набор всех распределений вероятностей испытаний, которые будут кодировать предыдущие данные. Согласно этому принципу наилучшим выбором является распределение с максимальной информационной энтропией .
Поскольку распределение с максимальной энтропией - это то, которое делает наименьшее количество предположений об истинном распределении данных, принцип максимальной энтропии можно рассматривать как применение бритвы Оккама .
История
Этот принцип был впервые изложен ET Jaynes в двух статьях 1957 года [1] [2], где он подчеркнул естественное соответствие между статистической механикой и теорией информации . В частности, Джейнс предложил новое и очень общее объяснение того, почему гиббсовский метод статистической механики работает. Он утверждал , что энтропия статистической механики и информационная энтропия в теории информации , в основном то же самое. Следовательно, статистическую механику следует рассматривать просто как частное приложение общего инструмента логического вывода и теории информации.
Обзор
В большинстве практических случаев указанные априорные данные или проверяемая информация задаются набором сохраняемых величин (средних значений некоторых функций моментов), связанных с рассматриваемым распределением вероятностей . Именно так принцип максимума энтропии чаще всего используется в статистической термодинамике . Другая возможность - предписать некоторую симметрию распределения вероятностей. Эквивалентность между сохраняющимися величинами и соответствующими группами симметрии подразумевает аналогичную эквивалентность для этих двух способов задания проверяемой информации в методе максимальной энтропии.
Принцип максимальной энтропии также необходим, чтобы гарантировать уникальность и непротиворечивость вероятностных присвоений, полученных с помощью различных методов, в частности с помощью статистической механики и логического вывода .
Принцип максимальной энтропии ясно показывает нашу свободу в использовании различных форм априорных данных . В качестве особого случая может быть принята единообразная априорная плотность вероятности ( принцип безразличия Лапласа , иногда называемый принципом недостаточной причины). Таким образом, принцип максимальной энтропии - это не просто альтернативный способ рассмотрения обычных методов вывода классической статистики, но представляет собой существенное концептуальное обобщение этих методов.
Однако эти утверждения не подразумевают, что термодинамические системы не обязательно должны быть эргодичными, чтобы оправдать их рассмотрение как статистический ансамбль .
На обычном языке можно сказать, что принцип максимальной энтропии выражает претензию на эпистемологическую скромность или максимальное невежество. Выбранное распределение - это такое распределение, которое в наименьшей степени претендует на информированность помимо заявленных предшествующих данных, то есть допускающее наибольшее невежество, помимо заявленных предварительных данных.
Проверяемая информация
Принцип максимальной энтропии явно полезен только тогда, когда он применяется к проверяемой информации . Проверяемая информация - это утверждение о распределении вероятностей, истинность или ложность которого четко определена. Например, утверждения
- ожидание переменной составляет 2,87
а также
(где а также - вероятности событий) - утверждения проверяемой информации.
При наличии проверяемой информации процедура максимальной энтропии состоит из поиска распределения вероятностей, которое максимизирует информационную энтропию с учетом ограничений информации. Эта задача ограниченной оптимизации обычно решается с использованием метода множителей Лагранжа .
Максимизация энтропии без проверяемой информации соблюдает универсальное «ограничение», заключающееся в том, что сумма вероятностей равна единице. При этом ограничении дискретное распределение вероятностей максимальной энтропии является равномерным распределением ,
Приложения
Принцип максимальной энтропии обычно применяется двумя способами к задачам вывода:
Априорные вероятности
Принцип максимальной энтропии часто используется для получения априорных распределений вероятностей для байесовского вывода . Джейнс был ярым сторонником этого подхода, утверждая, что максимальное распределение энтропии представляет собой наименее информативное распределение. [3] В настоящее время большое количество литературы посвящено выявлению априорных значений максимальной энтропии и связей с канальным кодированием . [4] [5] [6] [7]
Апостериорные вероятности
Максимальная энтропия является достаточным обновляющим правилом для радикального вероятности . Ричард Джеффри «s вероятность кинематика является частным случаем максимального вывода энтропии. Однако максимальная энтропия не является обобщением всех таких достаточных правил обновления. [8]
Модели максимальной энтропии
В качестве альтернативы этот принцип часто используется для спецификации модели: в этом случае сами наблюдаемые данные считаются проверяемой информацией. Такие модели широко используются при обработке естественного языка . Примером такой модели является логистическая регрессия , которая соответствует классификатору максимальной энтропии для независимых наблюдений.
Оценка плотности вероятности
Одно из основных применений принципа максимальной энтропии - дискретная и непрерывная оценка плотности . [9] [10] Подобно оценкам опорных векторных машин , принцип максимальной энтропии может потребовать решения задачи квадратичного программирования и, таким образом, обеспечить модель разреженной смеси в качестве оптимальной оценки плотности. Одним из важных преимуществ метода является его способность включать априорную информацию в оценку плотности. [11]
Общее решение для максимального распределения энтропии с линейными ограничениями
Дискретный корпус
У нас есть некоторая проверяемая информация I о величине x, принимающей значения в { x 1 , x 2 , ..., x n }. Мы предполагаем, что эта информация имеет форму m ограничений на ожидания функций f k ; то есть, мы требуем, чтобы наше распределение вероятностей удовлетворяло ограничениям неравенства / равенства моментов:
где наблюдаемы. Мы также требуем, чтобы плотность вероятности была суммирована до единицы, что можно рассматривать как примитивное ограничение на функцию идентичности, а наблюдаемую, равную 1, дающую ограничение
Распределение вероятностей с максимальной информационной энтропией с учетом этих ограничений неравенства / равенства имеет вид: [9]
для некоторых . Иногда его называют распределением Гиббса . Константа нормализации определяется:
и обычно называется статистической суммой . (Теорема Питмана – Купмана утверждает, что необходимое и достаточное условие для выборочного распределения, допускающего достаточную статистику ограниченной размерности, состоит в том, что оно имеет общий вид распределения максимальной энтропии.)
Параметры λ k являются множителями Лагранжа. В случае ограничений-равенств их значения определяются из решения нелинейных уравнений
В случае ограничений-неравенств множители Лагранжа определяются из решения выпуклой программы оптимизации с линейными ограничениями. [9] В обоих случаях нет решения в замкнутой форме , и для вычисления множителей Лагранжа обычно требуются численные методы .
Непрерывный случай
Для непрерывных распределений энтропия Шеннона не может использоваться, поскольку она определена только для дискретных вероятностных пространств. Вместо этого Эдвин Джейнс (1963, 1968, 2003) дал следующую формулу, которая тесно связана с относительной энтропией (см. Также дифференциальную энтропию ).
где q ( x ), которую Джейнс назвал «инвариантной мерой», пропорциональна предельной плотности дискретных точек . Пока предположим, что q известно; мы обсудим это далее после того, как будут приведены решения уравнений.
Близкородственное количество, относительная энтропия, обычно определяются как Кульбака-Лейблер расходимость из р от д (хотя иногда, смешение, определяемый как негатив этого). Принцип умозаключения минимизации этого, благодаря Кульбаку, известен как принцип минимальной информации о дискриминации .
У нас есть некоторая проверяемая информация I о количестве , х , которая принимает значения в некотором интервале из действительных чисел (все интегралы , приведенные ниже, в течение этого интервала). Мы предполагаем, что эта информация имеет форму m ограничений на ожидания функций f k , то есть мы требуем, чтобы наша функция плотности вероятности удовлетворяла ограничениям момента в виде неравенства (или чисто равенства):
где наблюдаемы. Мы также требуем, чтобы плотность вероятности интегрировалась в единицу, что можно рассматривать как примитивное ограничение на функцию идентичности и наблюдаемую, равную 1, дающую ограничение
Функция плотности вероятности с максимумом H c с учетом этих ограничений: [10]
с статистической суммой, определяемой
Как и в дискретном случае, в случае, когда все моментные ограничения равны, значения параметры определяются системой нелинейных уравнений:
В случае с ограничениями в виде неравенства моментов множители Лагранжа определяются из решения программы выпуклой оптимизации . [10]
Инвариантная функция меры q ( x ) может быть лучше всего понята, если предположить, что x, как известно, принимает значения только в ограниченном интервале ( a , b ), и что никакой другой информации не дается. Тогда максимальная функция плотности вероятности энтропии равна
где A - нормировочная постоянная. Функция инвариантной меры фактически представляет собой априорную функцию плотности, кодирующую «недостаток релевантной информации». Он не может быть определен с помощью принципа максимальной энтропии и должен быть определен каким-либо другим логическим методом, таким как принцип групп трансформации или теория маргинализации .
Примеры
Несколько примеров распределений максимальной энтропии см. В статье о распределениях вероятностей максимальной энтропии .
Обоснования принципа максимальной энтропии
Сторонники принципа максимальной энтропии оправдывают его использование при назначении вероятностей несколькими способами, включая следующие два аргумента. Эти аргументы используют байесовскую вероятность как данность и, таким образом, подчиняются тем же постулатам.
Информационная энтропия как мера «неинформативности»
Рассмотрим дискретное распределение вероятностей средивзаимоисключающие предложения . Наиболее информативное распределение произошло бы, когда было известно, что одно из утверждений истинно. В этом случае информационная энтропия была бы равна нулю. Наименее информативное распределение произошло бы, когда нет причин отдавать предпочтение одному из предложений по сравнению с другими. В этом случае единственное разумное распределение вероятностей было бы равномерным, и тогда информационная энтропия была бы равна своему максимально возможному значению,. Таким образом, информационная энтропия может рассматриваться как числовая мера, которая описывает, насколько неинформативно конкретное распределение вероятностей, в диапазоне от нуля (полностью информативно) до (совершенно неинформативно).
Мы утверждаем, что, выбирая использование распределения с максимальной энтропией, допускаемой нашей информацией, мы выбираем наиболее неинформативное возможное распределение. Выбор распределения с более низкой энтропией означал бы предположить, что информация, которой мы не обладаем. Таким образом, максимальное распределение энтропии - единственно разумное распределение. Зависимость решения от доминирующей степени представленаоднако является источником критики подхода, поскольку эта доминирующая мера на самом деле произвольна. [12]
Вывод Уоллиса
Следующий аргумент является результатом предложения, сделанного Грэмом Уоллисом ET Jaynes в 1962 году. [13] По сути, это тот же математический аргумент, который используется для статистики Максвелла – Больцмана в статистической механике , хотя концептуальный акцент совершенно иной. Его преимущество состоит в том, что он носит строго комбинаторный характер, не ссылаясь на информационную энтропию как на меру «неопределенности», «неинформативности» или любого другого неточно определенного понятия. Функция информационной энтропии не предполагается априори , а скорее находится в ходе аргументации; и этот аргумент естественным образом приводит к процедуре максимизации информационной энтропии, а не к трактовке ее каким-либо другим способом.
Предположим, человек желает распределить вероятности среди взаимоисключающие предложения. У него есть некоторая проверяемая информация, но он не знает, как включить эту информацию в свою оценку вероятности. Поэтому он задумал следующий случайный эксперимент. Он будет раздавать кванты вероятности (каждая ценность ) наугад среди возможности. (Можно представить, что он бросит шары в ведра с завязанными глазами. Чтобы быть как можно более справедливым, каждый бросок должен быть независимым от любого другого, и каждое ведро должно быть одинакового размера.) После завершения эксперимента он проверит, соответствует ли полученное таким образом распределение вероятностей его информации . (Чтобы этот шаг был успешным, информация должна быть ограничением, заданным открытым набором в пространстве вероятностных мер). Если это непоследовательно, он отклонит его и попытается снова. Если это согласуется, его оценка будет
где это вероятность -е предложение, а n i - количество квантов, отнесенных кое предложение (то есть количество шаров, которые оказались в ведре).
Теперь, чтобы уменьшить «зернистость» приписывания вероятностей, необходимо будет использовать довольно большое количество квантов вероятности. Вместо того, чтобы на самом деле проводить и, возможно, повторять довольно длинный случайный эксперимент, главный герой решает просто вычислить и использовать наиболее вероятный результат. Вероятность любого конкретного результата - это полиномиальное распределение ,
где
иногда называют множественностью результата.
Наиболее вероятный результат - тот, который максимизирует кратность . Вместо того, чтобы максимизировать напрямую, главный герой мог бы эквивалентно максимизировать любую монотонную возрастающую функцию . Он решает максимизировать
На этом этапе, чтобы упростить выражение, главный герой принимает предел как , т. е. когда уровни вероятности переходят от зернистых дискретных значений к гладким непрерывным значениям. Используя приближение Стирлинга , он находит
Все, что остается сделать главному герою, - это максимизировать энтропию в условиях ограничений его проверяемой информации. Он обнаружил, что максимальное распределение энтропии является наиболее вероятным из всех «справедливых» случайных распределений в пределе, когда уровни вероятности переходят от дискретного к непрерывному.
Совместимость с теоремой Байеса
Гиффин и Катича (2007) утверждают, что теорема Байеса и принцип максимальной энтропии полностью совместимы и могут рассматриваться как частные случаи «метода максимальной относительной энтропии». Они заявляют, что этот метод воспроизводит все аспекты ортодоксальных методов байесовского вывода. Вдобавок этот новый метод открывает дверь к решению проблем, которые нельзя решить ни с помощью принципа максимальной энтропии, ни с помощью ортодоксальных байесовских методов по отдельности. Более того, недавние работы (Lazar 2003 и Schennach 2005) показывают, что частотные подходы к выводу, основанные на относительной энтропии (такие как эмпирическое правдоподобие и экспоненциально наклонное эмпирическое правдоподобие - см., Например, Owen 2001 и Kitamura 2006), можно комбинировать с априорной информацией для выполнения байесовских вычислений. апостериорный анализ.
Джейнс заявил, что теорема Байеса - это способ вычислить вероятность, а максимальная энтропия - способ присвоить априорное распределение вероятностей. [14]
Однако теоретически возможно решить апостериорное распределение непосредственно из заявленного априорного распределения с использованием принципа минимальной перекрестной энтропии (или принципа максимальной энтропии, являющегося частным случаем использования равномерного распределения в качестве заданного априорного), независимо от любые байесовские соображения, формально рассматривая проблему как задачу оптимизации с ограничениями, при этом функционал энтропии является целевой функцией. Для случая заданных средних значений в качестве проверяемой информации (усредненной по искомому распределению вероятностей) искомое распределение формально является распределением Гиббса (или Больцмана), параметры которого должны быть решены для достижения минимальной кросс-энтропии и удовлетворения предоставленная проверяемая информация.
Актуальность в физике
Принцип максимальной энтропии связан с ключевым предположением кинетической теории газов, известным как молекулярный хаос или Stosszahlansatz . Это утверждает, что функция распределения, характеризующая частицы, вступающие в столкновение, может быть факторизована. Хотя это утверждение можно понимать как строго физическую гипотезу, его также можно интерпретировать как эвристическую гипотезу относительно наиболее вероятной конфигурации частиц перед столкновением. [15]
Смотрите также
- Информационный критерий Акаике
- Рассеивание
- Инфо-метрики
- Классификатор максимальной энтропии
- Распределение вероятностей максимальной энтропии
- Спектральная оценка максимальной энтропии
- Термодинамика максимальной энтропии
- Принцип максимального калибра
- Термодинамическое равновесие
- Молекулярный хаос
Заметки
- Перейти ↑ Jaynes, ET (1957). «Теория информации и статистическая механика» (PDF) . Физический обзор . Серия II. 106 (4): 620–630. Bibcode : 1957PhRv..106..620J . DOI : 10.1103 / PhysRev.106.620 . Руководство по ремонту 0087305 .
- ^ Джейнс, ET (1957). "Теория информации и статистическая механика II" (PDF) . Физический обзор . Серия II. 108 (2): 171–190. Bibcode : 1957PhRv..108..171J . DOI : 10.1103 / PhysRev.108.171 . Руководство по ремонту 0096414 .
- ^ Джейнс, ET (1968). «Априорные вероятности» (PDF или PostScript ) . IEEE Transactions по системной науке и кибернетике . 4 (3): 227–241. DOI : 10.1109 / TSSC.1968.300117 .
- ^ Кларк, Б. (2006). «Информационная оптимальность и байесовское моделирование». Журнал эконометрики . 138 (2): 405–429. DOI : 10.1016 / j.jeconom.2006.05.003 .
- ^ Софи, ES (2000). "Основные теоретические подходы к информации". Журнал Американской статистической ассоциации . 95 (452): 1349–1353. DOI : 10.2307 / 2669786 . JSTOR 2669786 . Руководство по ремонту 1825292 .
- ^ Буске, Н. (2008). «Выявление неясных, но правильных априорных значений максимальной энтропии в байесовских экспериментах». Статистические статьи . 51 (3): 613–628. DOI : 10.1007 / s00362-008-0149-9 .
- ^ Palmieri, Francesco AN; Чуонцо, Доменико (1 апреля 2013 г.). «Объективные априорные значения максимальной энтропии в классификации данных». Информационный фьюжн . 14 (2): 186–198. CiteSeerX 10.1.1.387.4515 . DOI : 10.1016 / j.inffus.2012.01.012 .
- ^ Скирмс, Б. (1987). «Обновление, предположение и МАКСЕНТ». Теория и решение . 22 (3): 225–46. DOI : 10.1007 / BF00134086 .
- ^ а б в Ботев З.И. Крезе, Д.П. (2008). «Неасимптотический выбор пропускной способности для оценки плотности дискретных данных». Методология и вычисления в прикладной теории вероятностей . 10 (3): 435. DOI : 10.1007 / s11009-007-9057-г .
- ^ а б в Ботев З.И. Крезе, Д.П. (2011). «Обобщенный метод кросс-энтропии с приложениями к оценке плотности вероятности» (PDF) . Методология и вычисления в прикладной теории вероятностей . 13 (1): 1-27. DOI : 10.1007 / s11009-009-9133-7 .
- ^ Кесаван, Гонконг; Капур, Дж. Н. (1990). «Принципы максимальной энтропии и минимума кросс-энтропии». В Фужере, PF (ред.). Максимальная энтропия и байесовские методы . стр. 419 -432. DOI : 10.1007 / 978-94-009-0683-9_29 . ISBN 978-94-010-6792-8.
- ^ Дрюйе, Пьер; Марин, Жан-Мишель (2007). «Инвариантные {HPD} достоверные множества и {MAP} оценки» . Байесовский анал . 2 : 681–691. DOI : 10.1214 / 07-BA227 .
- ^ Джейнс, ET (2003) Теория вероятностей: логика науки , Cambridge University Press, стр. 351-355. ISBN 978-0521592710
- ^ Джейнс, ET (1988) "Связь байесовских и максимальных методов энтропии" , в Максимальной энтропии и байесовских методах в науке и технике (том 1) , Kluwer Academic Publishers, стр. 25-29.
- ^ Хлямович, Г .; Malaspinas, O .; Chopard, Б. (2017). «Кинетическая теория за пределами Stosszahlansatz» . Энтропия . 19 (8): 381. Bibcode : 2017Entrp..19..381C . DOI : 10.3390 / e19080381 .
Рекомендации
- Байкова АТ (1992). «Обобщение метода максимальной энтропии для восстановления сложных функций». Астрономические и астрофизические труды . 1 (4): 313–320. Bibcode : 1992A & AT .... 1..313B . DOI : 10.1080 / 10556799208230532 .
- Форнальски, KW; Парзыч, Г .; Пилак, М .; Satuła, D .; Добжиньский, Л. (2010). «Применение байесовских рассуждений и метода максимальной энтропии к некоторым задачам реконструкции» (PDF) . Acta Physica Polonica . 117 (6): 892–899. DOI : 10.12693 / APhysPolA.117.892 .
- Гиффин А. и Катича А., 2007 г., Обновление вероятностей с помощью данных и моментов
- Guiasu, S .; Шеницер, А. (1985). «Принцип максимума энтропии». Математический интеллигент . 7 (1): 42–48. DOI : 10.1007 / bf03023004 .
- Harremoës, P .; Топсе (2001). «Основы максимальной энтропии» . Энтропия . 3 (3): 191–226. Bibcode : 2001Entrp ... 3..191H . DOI : 10.3390 / e3030191 .
- Джейнс, ET (1963). «Теория информации и статистическая механика» . В Форде, К. (ред.). Статистическая физика . Нью-Йорк: Бенджамин. п. 181.
- Джейнс, ET, 1986 (новая версия онлайн 1996), « Обезьяны, кенгуру и N », в « Методы максимальной энтропии и байесовские методы в прикладной статистике» , JH Justice (ed.), Cambridge University Press, Cambridge, p. 26.
- Капур, Дж. и Кесаван, HK , 1992, Принципы энтропийной оптимизации с приложениями , Бостон: Academic Press. ISBN 0-12-397670-7
- Китамура, Ю., 2006, Методы эмпирического правдоподобия в эконометрике: теория и практика , Документы для обсуждения фонда Cowles 1569, Фонд Cowles, Йельский университет.
- Лазарь, Н (2003). «Байесовская эмпирическая вероятность». Биометрика . 90 (2): 319–326. DOI : 10.1093 / Biomet / 90.2.319 .
- Оуэн, А.Б., 2001, эмпирическое правдоподобие , Чепмен и Холл / CRC. ISBN 1-58-488071-6 .
- Шеннах, С.М. (2005). «Байесовская экспоненциально наклоненная эмпирическая вероятность». Биометрика . 92 (1): 31–46. DOI : 10.1093 / Biomet / 92.1.31 .
- Уффинк, Джос (1995). «Можно ли объяснить принцип максимальной энтропии как требование согласованности?» (PDF) . Исследования по истории и философии современной физики . 26B (3): 223–261. CiteSeerX 10.1.1.27.6392 . DOI : 10.1016 / 1355-2198 (95) 00015-1 . Архивировано из оригинального (PDF) 03.06.2006.
дальнейшее чтение
- Бойд, Стивен; Ливен Ванденберге (2004). Выпуклая оптимизация (PDF) . Издательство Кембриджского университета . п. 362. ISBN. 0-521-83378-7. Проверено 24 августа 2008 .
- Ратнапархи А. (1997) «Простое введение в модели максимальной энтропии для обработки естественного языка» Технический отчет 97-08, Институт исследований когнитивных наук, Университет Пенсильвании. Легко читаемое введение в методы максимальной энтропии в контексте обработки естественного языка.
- Tang, A .; Джексон, Д .; Hobbs, J .; Chen, W .; Смит, JL; Patel, H .; Прието, А .; Petrusca, D .; Гривич, М.И.; Шер, А .; Hottowy, P .; Dabrowski, W .; Литке AM; Беггс, JM (2008). «Модель максимальной энтропии, применяемая к пространственным и временным корреляциям из корковых сетей in vitro» . Журнал неврологии . 28 (2): 505–518. DOI : 10.1523 / JNEUROSCI.3359-07.2008 . PMID 18184793 . Статья в открытом доступе, содержащая указатели на различные статьи и программные реализации модели максимальной энтропии в сети.