Функция распределения (математика)

Статсумма или конфигурация интеграл , как он используется в теории вероятностей , теории информации и динамических системах , является обобщением определения функции распределения в статистической механике . Это частный случай нормирующей постоянной в теории вероятностей для распределения Больцмана . Статистическая сумма встречается во многих задачах теории вероятностей, потому что в ситуациях, когда существует естественная симметрия, связанная с ней вероятностная мера , мера Гиббса , обладает марковским свойством. Это означает , что функция распределения происходит не только в физических системах с трансляционной симметрией, но и в таких разнообразных настройках как нейронные сети (в сети Хопфилда ), а также приложения , такие как геномика , корпусной лингвистика и искусственный интеллект , которые используют сети Маркова , и Марки логические сети . Мера Гиббса также является единственной мерой, которая имеет свойство максимизировать энтропию при фиксированном математическом ожидании энергии; это лежит в основе появления статистической суммы в методах максимальной энтропии и вытекающих из них алгоритмах.

Статистическая сумма связывает воедино множество различных концепций и, таким образом, предлагает общую структуру, в которой можно вычислить множество различных видов величин. В частности, он показывает, как вычислять математические ожидания и функции Грина , образуя мост к теории Фредгольма . Он также обеспечивает естественные условия для подхода информационной геометрии к теории информации, где информационная метрика Фишера может пониматься как корреляционная функция, полученная из статистической суммы; бывает, чтобы определить риманово многообразие .

Когда случайные величины заданы в комплексном проективном пространстве или проективном гильбертовом пространстве , геометризованном с помощью метрики Фубини – Штуди , возникает теория квантовой механики и в более общем плане квантовая теория поля . В этих теориях статистическая сумма интенсивно используется в формулировке интеграла по путям с большим успехом, что приводит ко многим формулам, почти идентичным рассмотренным здесь. Однако, поскольку основное пространство мер является комплексным, в отличие от действительного симплекса теории вероятностей, во многих формулах появляется дополнительный множитель i . Отслеживание этого фактора затруднительно, и здесь не делается. В этой статье основное внимание уделяется классической теории вероятностей, в которой сумма вероятностей равна единице.

Определение

Учитывая набор случайных величин ${\ displaystyle X_ {i}}$ обретение ценностей ${\ displaystyle x_ {i}}$ , и какую-то потенциальную функцию или гамильтониан ${\ Displaystyle Н (x_ {1}, x_ {2}, \ точки)}$ , статистическая сумма определяется как

{\ Displaystyle Z (\ бета) = \ сумма _ {x_ {i}} \ exp \ left (- \ beta H (x_ {1}, x_ {2}, \ dots) \ right)}

Под функцией H понимается вещественнозначная функция на пространстве состояний ${\ Displaystyle \ {X_ {1}, X_ {2}, \ cdots \}}$ , пока ${\ displaystyle \ beta}$ - вещественнозначный свободный параметр (обычно обратная температура ). Сумма сверх ${\ displaystyle x_ {i}}$ понимается как сумма по всем возможным значениям, которые каждая из случайных величин ${\ displaystyle X_ {i}}$ может занять. Таким образом, сумма должна быть заменена интегралом, когда ${\ displaystyle X_ {i}}$ являются непрерывными, а не дискретными. Таким образом, пишут

{\ Displaystyle Z (\ beta) = \ int \ exp \ left (- \ beta H (x_ {1}, x_ {2}, \ dots) \ right) \, dx_ {1} \, dx_ {2} \ cdots}

для случая непрерывно меняющегося ${\ displaystyle X_ {i}}$ .

Когда H является наблюдаемой , такой как конечномерная матрица или бесконечномерный оператор гильбертова пространства или элемент алгебры C-звезды , обычно выражают суммирование как след , так что

{\ Displaystyle Z (\ бета) = \ OperatorName {tr} \ left (\ exp \ left (- \ beta H \ right) \ right)}

Когда H является бесконечномерным, то для того, чтобы вышеуказанное обозначение было действительным, аргумент должен быть классом трассировки , то есть иметь такую форму, чтобы суммирование существовало и было ограниченным.

Количество переменных ${\ displaystyle X_ {i}}$ не обязательно быть счетным , и в этом случае суммы должны быть заменены функциональными интегралами . Хотя существует много обозначений для функциональных интегралов, наиболее распространенным будет

{\ Displaystyle Z = \ int {\ mathcal {D}} \ varphi \ exp \ left (- \ beta H [\ varphi] \ right)}

Так обстоит дело с статистической суммой в квантовой теории поля .

Распространенной полезной модификацией статистической суммы является введение вспомогательных функций. Это позволяет, например, использовать статистическую сумму в качестве производящей функции для корреляционных функций . Это обсуждается более подробно ниже.

Параметр β

Роль или значение параметра ${\ displaystyle \ beta}$ можно понимать по-разному. В классической термодинамике это обратная температура . В более общем плане можно было бы сказать, что это переменная, которая сопряжена с некоторой (произвольной) функцией ${\ displaystyle H}$ случайных величин ${\ displaystyle X}$ . Слово сопряженное здесь используется в смысле сопряженных обобщенных координат в лагранжевой механике , таким образом, собственно ${\ displaystyle \ beta}$ это множитель Лагранжа . Его нередко называют обобщенной силой . Все эти концепции объединяет идея о том, что одно значение должно оставаться фиксированным, в то время как другим, связанным между собой сложным образом, разрешено варьироваться. В данном случае, значение , которое должны быть всегда фиксированное это среднее значение из ${\ displaystyle H}$ , даже если множество различных распределений вероятностей могут дать одно и то же (фиксированное) значение.

В общем случае рассматривается набор функций ${\ Displaystyle \ {Н_ {к} (х_ {1}, \ cdots) \}}$ что каждый зависит от случайных величин ${\ displaystyle X_ {i}}$ . Эти функции выбраны потому, что кто-то хочет по той или иной причине сохранять свои ожидаемые значения постоянными. Чтобы таким образом ограничить ожидаемые значения, применяется метод множителей Лагранжа . В общем случае методы максимальной энтропии иллюстрируют, как это делается.

Приведем несколько конкретных примеров. В основных задачах термодинамики при использовании канонического ансамбля используется всего один параметр ${\ displaystyle \ beta}$ отражает тот факт, что есть только одно математическое ожидание, которое должно оставаться постоянным: свободная энергия (из-за сохранения энергии ). Для задач химии, связанных с химическими реакциями, большой канонический ансамбль обеспечивает подходящую основу, и есть два множителя Лагранжа. Один из них - поддерживать постоянную энергию, а другой, летучесть , - поддерживать постоянным количество частиц (поскольку химические реакции включают рекомбинацию фиксированного числа атомов).

В общем случае имеем

{\ displaystyle Z (\ beta) = \ sum _ {x_ {i}} \ exp \ left (- \ sum _ {k} \ beta _ {k} H_ {k} (x_ {i}) \ right)}

с участием ${\ Displaystyle \ бета = (\ бета _ {1}, \ бета _ {2}, \ cdots)}$ точка в пространстве.

Для коллекции наблюдаемых ${\ displaystyle H_ {k}}$ , можно было бы написать

{\ Displaystyle Z (\ бета) = \ OperatorName {tr} \ left [\, \ exp \ left (- \ sum _ {k} \ beta _ {k} H_ {k} \ right) \ right]}

Как и раньше, предполагается, что аргумент tr является классом трассировки .

Соответствующая мера Гиббса затем обеспечивает такое распределение вероятностей, что математическое ожидание каждого ${\ displaystyle H_ {k}}$ - фиксированное значение. Точнее, есть

{\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {k}}} \ left (- \ log Z \ right) = \ langle H_ {k} \ rangle = \ mathrm {E} \ left [H_ {k} \ right]}

с угловыми скобками ${\ displaystyle \ langle H_ {k} \ rangle}$ обозначающий ожидаемую стоимость ${\ displaystyle H_ {k}}$ , а также ${\ Displaystyle \ mathrm {E} [\;]}$ является общепринятым альтернативным обозначением. Точное определение этого математического ожидания приводится ниже.

Хотя ценность ${\ displaystyle \ beta}$ обычно считается реальным, но в целом это не обязательно; это обсуждается в разделе « Нормализация» ниже. Ценности ${\ displaystyle \ beta}$ можно понимать как координаты точек в пространстве; это пространство на самом деле является многообразием , как показано ниже. Изучение этих пространств как многообразий составляет область информационной геометрии .

Симметрия

Сама потенциальная функция обычно принимает форму суммы:

{\ Displaystyle H (x_ {1}, x_ {2}, \ dots) = \ sum _ {s} V (s) \,}

где сумма по s является суммой по некоторому подмножеству множества мощностей P ( X ) множества ${\ Displaystyle X = \ lbrace x_ {1}, x_ {2}, \ dots \ rbrace}$ . Например, в статистической механике , такой как модель Изинга , сумма вычисляется по парам ближайших соседей. В теории вероятностей, такой как сети Маркова , сумма может быть по кликам графа; Итак, для модели Изинга и других решетчатых моделей максимальные клики являются ребрами.

Тот факт , что потенциальная функция может быть записана в виде суммы , как правило , отражает тот факт , что инвариантная относительно действий в виде группы симметрии , такие как трансляционная инвариантность . Такие симметрии могут быть дискретными или непрерывными; они материализуются в корреляционных функциях для случайных величин (обсуждаемых ниже). Таким образом, симметрия гамильтониана становится симметрией корреляционной функции (и наоборот).

Эта симметрия имеет критически важную интерпретацию в теории вероятностей: она означает, что мера Гиббса обладает марковским свойством ; то есть, она определенным образом не зависит от случайных величин, или, что то же самое, мера идентична на классах эквивалентности симметрии. Это приводит к широкому распространению статистической суммы в задачах с марковским свойством, таких как сети Хопфилда .

Как мера

Значение выражения

{\ displaystyle \ exp \ left (- \ beta H (x_ {1}, x_ {2}, \ dots) \ right)}

можно интерпретировать как вероятность того, что конкретная конфигурация значений ${\ Displaystyle (x_ {1}, x_ {2}, \ точки)}$ происходит в системе. Таким образом, учитывая конкретную конфигурацию ${\ Displaystyle (x_ {1}, x_ {2}, \ точки)}$ ,

{\ Displaystyle P (x_ {1}, x_ {2}, \ dots) = {\ frac {1} {Z (\ beta)}} \ exp \ left (- \ beta H (x_ {1}, x_ { 2}, \ dots) \ right)}

есть вероятность конфигурации ${\ Displaystyle (x_ {1}, x_ {2}, \ точки)}$ происходящие в системе, которые теперь правильно нормализованы, так что ${\ Displaystyle 0 \ Leq P (x_ {1}, x_ {2}, \ точки) \ Leq 1}$ , и такая, что сумма по всем конфигурациям равна единице. Таким образом, статистическая сумма может быть понята как обеспечивающая меру ( вероятностную меру ) в вероятностном пространстве ; формально она называется мерой Гиббса . Он обобщает более узкие концепции большого канонического ансамбля и канонического ансамбля в статистической механике.

Существует хотя бы одна конфигурация ${\ Displaystyle (x_ {1}, x_ {2}, \ точки)}$ для которых вероятность максимальна; эту конфигурацию принято называть основным состоянием . Если конфигурация уникальна, основное состояние называется невырожденным , а система называется эргодической ; в противном случае основное состояние вырождено . Основное состояние может или не может коммутировать с генераторами симметрии; если коммутирует, то она называется инвариантной мерой . Когда он не коммутируется, считается, что симметрия спонтанно нарушена .

Условия, при которых основное состояние существует и единственно, задаются условиями Каруша – Куна – Таккера ; эти условия обычно используются для обоснования использования меры Гиббса в задачах максимальной энтропии. ^{[ необходима цитата ]}

Нормализация

Ценности, принятые ${\ displaystyle \ beta}$ зависят от математического пространства, в котором изменяется случайное поле. Таким образом, случайные поля с действительными значениями принимают значения на симплексе : это геометрический способ сказать, что сумма вероятностей должна составлять единицу. Для квантовой механики случайные величины располагаются в комплексном проективном пространстве (или комплексном проективном гильбертовом пространстве ), где случайные величины интерпретируются как амплитуды вероятности . Акцент здесь делается на слове проективный , поскольку амплитуды все еще нормированы к единице. Нормализация для потенциальной функции - это якобиан для соответствующего математического пространства: это 1 для обычных вероятностей и i для гильбертова пространства; таким образом, в квантовой теории поля мы видим ${\ displaystyle itH}$ в экспоненте, а не ${\ displaystyle \ beta H}$ . Статистическая сумма очень интенсивно используется в формулировке интеграла по путям квантовой теории поля, и это дает большой эффект. Теория там почти идентична той, что представлена здесь, за исключением этой разницы и того факта, что она обычно формулируется для четырехмерного пространства-времени, а не в общем виде.

Ожидание ценности

Статистическая сумма обычно используется как функция, генерирующая вероятность для ожидаемых значений различных функций случайных величин. Так, например, взяв ${\ displaystyle \ beta}$ как настраиваемый параметр, то производная от ${\ Displaystyle \ журнал (Z (\ бета))}$ относительно ${\ displaystyle \ beta}$

{\ Displaystyle \ mathbf {E} [H] = \ langle H \ rangle = - {\ frac {\ partial \ log (Z (\ beta))} {\ partial \ beta}}}

дает среднее значение (ожидания) H . В физике это можно было бы назвать средней энергией системы.

Учитывая приведенное выше определение вероятностной меры, математическое ожидание любой функции f случайных величин X теперь может быть записано так, как ожидалось: так, для дискретнозначного X записывается

{\ displaystyle {\ begin {align} \ langle f \ rangle & = \ sum _ {x_ {i}} f (x_ {1}, x_ {2}, \ dots) P ​​(x_ {1}, x_ {2 }, \ dots) \\ & = {\ frac {1} {Z (\ beta)}} \ sum _ {x_ {i}} f (x_ {1}, x_ {2}, \ dots) \ exp \ left (- \ beta H (x_ {1}, x_ {2}, \ dots) \ right) \ end {выравнивается}}}

Приведенные выше обозначения строго верны для конечного числа дискретных случайных величин, но должны рассматриваться как несколько «неформальные» для непрерывных переменных; правильно, суммирования выше должны быть заменены обозначениями базовой сигма-алгебры, используемой для определения вероятностного пространства . Тем не менее, тождества остаются в силе, если они правильно сформулированы в пространстве меры .

Так, например, энтропия определяется выражением

{\ displaystyle {\ begin {align} S & = - k_ {B} \ langle \ ln P \ rangle \\ & = - k_ {B} \ sum _ {x_ {i}} P (x_ {1}, x_ { 2}, \ точки) \ ln P (x_ {1}, x_ {2}, \ dots) \\ & = k_ {B} (\ beta \ langle H \ rangle + \ log Z (\ beta)) \ end {выровнено}}}

Мера Гиббса - это уникальное статистическое распределение, которое максимизирует энтропию для фиксированного математического ожидания энергии; это лежит в основе его использования в методах максимальной энтропии .

Информационная геометрия

Точки ${\ displaystyle \ beta}$ можно понимать как образование пространства и, в частности, многообразия . Таким образом, уместно спросить, как устроено это многообразие; это задача информационной геометрии .

Кратные производные по множителям Лагранжа приводят к положительной полуопределенной ковариационной матрице

{\ displaystyle g_ {ij} (\ beta) = {\ frac {\ partial ^ {2}} {\ partial \ beta ^ {i} \ partial \ beta ^ {j}}} \ left (- \ log Z ( \ beta) \ right) = \ langle \ left (H_ {i} - \ langle H_ {i} \ rangle \ right) \ left (H_ {j} - \ langle H_ {j} \ rangle \ right) \ rangle}

Эта матрица является положительно полуопределенной и может интерпретироваться как метрический тензор , в частности, риманова метрика . Таким образом, оснащение пространства множителей Лагранжа метрикой превращает его в риманово многообразие . ^[1] Изучение таких многообразий называется информационной геометрией ; приведенная выше метрика - это информационная метрика Фишера . Здесь, ${\ displaystyle \ beta}$ служит координатой на коллекторе. Интересно сравнить приведенное выше определение с более простой информацией Фишера , на которой оно основано.

То, что вышеизложенное определяет информационную метрику Фишера, можно легко увидеть, явно подставив математическое ожидание:

{\ displaystyle {\ begin {align} g_ {ij} (\ beta) & = \ langle \ left (H_ {i} - \ langle H_ {i} \ rangle \ right) \ left (H_ {j} - \ langle H_ {j} \ rangle \ right) \ rangle \\ & = \ sum _ {x} P (x) \ left (H_ {i} - \ langle H_ {i} \ rangle \ right) \ left (H_ {j } - \ langle H_ {j} \ rangle \ right) \\ & = \ sum _ {x} P (x) \ left (H_ {i} + {\ frac {\ partial \ log Z} {\ partial \ beta _ {i}}} \ right) \ left (H_ {j} + {\ frac {\ partial \ log Z} {\ partial \ beta _ {j}}} \ right) \\ & = \ sum _ {x } P (x) {\ frac {\ partial \ log P (x)} {\ partial \ beta ^ {i}}} {\ frac {\ partial \ log P (x)} {\ partial \ beta ^ {j }}} \\\ конец {выровнено}}}

где мы написали ${\ Displaystyle P (x)}$ для ${\ Displaystyle P (x_ {1}, x_ {2}, \ точки)}$ а суммирование понимается по всем значениям всех случайных величин ${\ displaystyle X_ {k}}$ . Конечно, для случайных величин с непрерывными значениями суммы заменяются интегралами.

Любопытно, что информационная метрика Фишера может также пониматься как евклидова метрика плоского пространства после соответствующей замены переменных, как описано в основной статье о ней. Когда ${\ displaystyle \ beta}$ комплекснозначны, результирующая метрика является метрикой Фубини – Штуди . Когда он записан в терминах смешанных состояний , а не чистых состояний , он известен как метрика Буреса .

Корреляционные функции

За счет введения искусственных вспомогательных функций ${\ displaystyle J_ {k}}$ в статистическую сумму, затем его можно использовать для получения математического ожидания случайных величин. Так, например, написав

{\ Displaystyle {\ begin {align} Z (\ beta, J) & = Z (\ beta, J_ {1}, J_ {2}, \ dots) \\ & = \ sum _ {x_ {i}} \ exp \ left (- \ beta H (x_ {1}, x_ {2}, \ dots) + \ sum _ {n} J_ {n} x_ {n} \ right) \ end {выровнено}}}

тогда есть

{\ displaystyle \ mathbf {E} [x_ {k}] = \ langle x_ {k} \ rangle = \ left. {\ frac {\ partial} {\ partial J_ {k}}} \ log Z (\ beta, J) \ right | _ {J = 0}}

как математическое ожидание ${\ displaystyle x_ {k}}$ . В пути интегральной формулировке в квантовой теории поля , эти вспомогательные функции , как правило , называют исходные полями .

Множественные дифференцирования приводят к связанным корреляционным функциям случайных величин. Таким образом, корреляционная функция ${\ Displaystyle C (x_ {j}, x_ {k})}$ между переменными ${\ displaystyle x_ {j}}$ а также ${\ displaystyle x_ {k}}$ дан кем-то:

{\ displaystyle C (x_ {j}, x_ {k}) = \ left. {\ frac {\ partial} {\ partial J_ {j}}} {\ frac {\ partial} {\ partial J_ {k}} } \ log Z (\ beta, J) \ right | _ {J = 0}}

Гауссовские интегралы

В случае, когда H можно записать в виде квадратичной формы, содержащей дифференциальный оператор , то есть как

{\ displaystyle H = {\ frac {1} {2}} \ sum _ {n} x_ {n} Dx_ {n}}

тогда статистическую сумму можно понимать как сумму или интеграл по гауссианам. Корреляционная функция ${\ Displaystyle C (x_ {j}, x_ {k})}$ можно понимать как функцию Грина для дифференциального оператора (и, как правило, порождает теорию Фредгольма ). В рамках квантовой теории поля такие функции называются пропагаторами ; корреляторы более высокого порядка называются n-точечными функциями; работа с ними определяет эффективное действие теории.

Когда случайные величины являются анти-коммутирующего число грассмановы , то функция распределения может быть выражена как определитель оператора D . Это делается путем записи его в виде интеграла Березина (также называемого интегралом Грассмана).

Общие свойства

Функции разделения используются для обсуждения критического масштабирования , универсальности и подчиняются ренормализационной группе .

Смотрите также

Экспоненциальная семья
Функция распределения (статистическая механика)
Марковское случайное поле