Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В вероятности и статистике , экспоненциальное семейство представляет собой параметрическое множество вероятностных распределений определенной формы, указанное ниже. Эта специальная форма выбрана для математического удобства, основанной на некоторых полезных алгебраических свойствах, а также для общности, поскольку экспоненциальные семейства в некотором смысле являются очень естественными наборами распределений для рассмотрения. Термин « экспоненциальный класс» иногда используется вместо «экспоненциального семейства» [1] или более старого термина « семейство Купмана – Дармуа» . Термины «распределение» и «семья» часто используются в широком смысле: правильно, экспоненциальное семейство представляет собой наборраспределений, где конкретное распределение зависит от параметра; [а] однако, параметрическое семейство распределений часто называют как « в распределение» (например , «нормальное распределение», что означает «семейство нормальных распределений»), а также множество всех экспоненциальных семейств иногда слабо называют "экспоненциальная" семья.

Понятие экспоненциальных семейств приписывают к [2] EJG Pitman , [3] Г. Дармуа , [4] и BO Купман [5] в 1935-1936 гг. Экспоненциальные семейства распределений обеспечивают общую основу для выбора возможной альтернативной параметризации параметрического семейства распределений в терминах естественных параметров и для определения полезной выборочной статистики , называемой естественной достаточной статистикой семейства.

Определение [ править ]

Большинство часто используемых распределений образуют экспоненциальное семейство или подмножество экспоненциального семейства, перечисленное в подразделе ниже. Следующие за ним подразделы представляют собой последовательность все более общих математических определений экспоненциального семейства. Случайный читатель может пожелать ограничить внимание первым и самым простым определением, которое соответствует однопараметрическому семейству дискретных или непрерывных распределений вероятностей.

Примеры экспоненциального распределения семейств [ править ]

Экспоненциальные семейства включают в себя многие из наиболее распространенных распределений. Среди многих других экспоненциальные семейства включают в себя следующие:

  • нормальный
  • экспоненциальный
  • гамма
  • хи-квадрат
  • бета
  • Дирихле
  • Бернулли
  • категоричный
  • Пуассон
  • Wishart
  • обратный Wishart
  • геометрический

Ряд общих распределений представляют собой экспоненциальные семейства, но только тогда, когда определенные параметры фиксированы и известны. Например:

  • биномиальный (с фиксированным количеством испытаний)
  • полиномиальный (с фиксированным количеством испытаний)
  • отрицательный бином (с фиксированным количеством отказов)

Обратите внимание, что в каждом случае параметры, которые необходимо зафиксировать, определяют предел размера значений наблюдения.

Примерами общих распределений, которые не являются экспоненциальными семействами, являются t Стьюдента , большинство смешанных распределений и даже семейство равномерных распределений, когда границы не фиксированы. См. Раздел ниже с примерами для более подробного обсуждения.

Скалярный параметр [ править ]

Однопараметрическое экспоненциальное семейство - это набор распределений вероятностей, функция плотности вероятности (или функция массы вероятности в случае дискретного распределения ) может быть выражена в виде

где T ( x ), h ( x ), η ( θ ) и A ( θ ) - известные функции. Конечно, функция h ( x ) должна быть неотрицательной.

Часто приводится альтернативная эквивалентная форма:

или эквивалентно

Величина θ называется параметром семейства.

Кроме того, поддержка из (т.е. множество всех , для которых больше 0) не зависит от . [6] Это можно использовать, чтобы исключить параметрическое семейное распределение из экспоненциального семейства. Например, в распределении Парето есть PDF-файл, который определен для ( являющегося параметром масштаба), и поэтому его поддержка имеет нижний предел . Поскольку поддержка зависит от значения параметра, семейство распределений Парето не образует экспоненциальное семейство распределений.

Часто x является вектором измерений, и в этом случае T ( x ) может быть функцией от пространства возможных значений x до действительных чисел. В более общем смысле, η ( θ ) и T ( x ) могут быть векторнозначными, так что каждая из них является действительной. Тем не менее, см. Ниже обсуждение векторных параметров относительно изогнутого экспоненциального семейства.

Если η ( θ ) =  θ , то говорят, что экспоненциальное семейство имеет каноническую форму . Определив преобразованный параметр η  =  η ( θ ), всегда можно преобразовать экспоненциальное семейство в каноническую форму. Каноническая форма не уникальна, поскольку η ( θ ) может быть умножено на любую ненулевую константу, при условии, что T ( x ) умножается на обратную величину этой константы, или константа c может быть добавлена ​​к η ( θ ) и h ( x ) умножается начтобы компенсировать это. В частном случае, когда η ( θ ) =  θ и T ( x ) =  x, семейство называется естественным экспоненциальным семейством .

Даже когда x является скаляром и имеется только один параметр, функции η ( θ ) и T ( x ) все еще могут быть векторами, как описано ниже.

Функция A ( θ ), или, что эквивалентно, g ( θ ), определяется автоматически после выбора других функций, поскольку она должна принимать форму, которая приводит к нормализации распределения (суммировать или интегрировать в единицу по всей области). Кроме того, обе эти функции всегда можно записать как функции от η , даже если η ( θ ) не является взаимно однозначной функцией, т.е. два или более разных значения θ отображаются в одно и то же значение η ( θ ), а значит, η ( θ) не может быть инвертирован. В таком случае все значения θ, отображающие одно и то же η ( θ ), также будут иметь одинаковое значение для A ( θ ) и g ( θ ).

Факторизация задействованных переменных [ править ]

Что важно отметить, и что характеризует все варианты экспоненциального семейства, так это то, что параметр (ы) и переменная (ы) наблюдения должны факторизоваться (могут быть разделены на продукты, каждый из которых включает только один тип переменной) либо напрямую, либо в любой части (основание или показатель степени) операции возведения в степень . Как правило, это означает, что все факторы, составляющие функцию плотности или массы, должны иметь одну из следующих форм:

где f и h - произвольные функции от x ; g и j - произвольные функции от θ ; и c - произвольное «постоянное» выражение (то есть выражение, не содержащее x или θ ).

Существуют дополнительные ограничения на количество таких факторов. Например, два выражения:

одинаковы, т.е. являются продуктом двух «разрешенных» факторов. Однако при переписывании в факторизованную форму

видно, что это не может быть выражено в требуемой форме. (Однако такая форма является членом изогнутого экспоненциального семейства , которое допускает множественные факторизованные члены в показателе степени. [ Необходима цитата ] )

Чтобы понять, почему выражение формы

квалифицируется,

и, следовательно, факторизуется внутри экспоненты. По аналогии,

и снова факторизуется внутри экспоненты.

Фактор, состоящий из суммы, в которой задействованы оба типа переменных (например, фактор формы ), не может быть факторизован таким образом (за исключением некоторых случаев, когда он встречается непосредственно в показателе степени); Вот почему, например, распределение Коши и Стьюдента т распределение не являются экспоненциальные семьи.

Векторный параметр [ править ]

Определение в терминах одного параметра действительного числа может быть расширено до одного параметра действительного вектора.

Говорят, что семейство распределений принадлежит семейству векторных экспонент, если функция плотности вероятности (или функция массы вероятности для дискретных распределений) может быть записана как

или в более компактном виде,

Эта форма записывает сумму как скалярное произведение векторных функций и .

Часто встречается альтернативная эквивалентная форма:

Как и в скалярнозначном случае, экспоненциальное семейство называется каноническим, если

Векторное экспоненциальное семейство называется искривленным, если размерность

меньше размерности вектора

То есть, если измерение , д , вектор параметра меньше числа функций , с , вектор параметров в приведенном выше представлении функции плотности вероятности. Наиболее распространенные распределения в экспоненциальном семействе не являются криволинейными, и многие алгоритмы, разработанные для работы с любым экспоненциальным семейством, неявно или явно предполагают, что распределение не искривлено.

Как и в вышеупомянутом случае скалярного параметра, функция или что- то подобное автоматически определяется после выбора других функций, так что все распределение нормализуется. Кроме того, как указано выше, обе эти функции всегда можно записать как функции от , независимо от формы преобразования, которое генерируется из . Следовательно, экспоненциальное семейство в его «естественной форме» (параметризованное его естественным параметром) выглядит как

или эквивалентно

Вышеупомянутые формы иногда можно увидеть с заменой . Это в точности эквивалентные формулировки, только с использованием других обозначений для скалярного произведения .

Векторный параметр, векторная переменная [ править ]

Форма векторных параметров для одной случайной величины со скалярными значениями может быть тривиально расширена, чтобы охватить совместное распределение по вектору случайных величин. Результирующее распределение просто такое же, как и вышеупомянутое распределение для случайной величины со скалярными значениями, где каждое вхождение скаляра x заменяется вектором

Размерность k случайной величины не обязательно должна соответствовать размерности d вектора параметров или (в случае изогнутой экспоненциальной функции) размерности s естественного параметра и достаточной статистики T ( x )  .

Распределение в этом случае записывается как

Или более компактно, как

Или, альтернативно, как

Теоретико-мерная формулировка [ править ]

Мы используем кумулятивные функции распределения (CDF), чтобы охватить как дискретные, так и непрерывные распределения.

Предположим, H - неубывающая функция действительной переменной. Тогда лебегово-Стилтьеса интегралы по отношению к интегралы по отношению к эталонной мере экспоненциального семейства , порожденной H  .

Любой член этого экспоненциального семейства имеет кумулятивную функцию распределения.


H ( x ) - интегратор Лебега – Стилтьеса для эталонной меры. Когда эталонная мера конечна, ее можно нормализовать, и H фактически является кумулятивной функцией распределения вероятностного распределения. Если F абсолютно непрерывен с плотностьюотносительно эталонной меры(обычно меры Лебега ), можно писать. В этом случае H также является абсолютно непрерывным и может быть записанотаким образом, чтобы формулы сводились к формулам из предыдущих абзацев. Если F дискретна, то H - ступенчатая функция(с шагом по поддержке из F ).

В качестве альтернативы мы можем записать вероятностную меру непосредственно как

для некоторой справочной меры .

Интерпретация [ править ]

В приведенных выше определениях функции T ( x ) , η ( θ ) и A ( η ), по- видимому, были определены произвольно. Однако эти функции играют важную роль в результирующем распределении вероятностей.

  • T ( x ) - достаточная статистика распределения. Для экспоненциальных семейств достаточная статистика является функцией данных, которые содержат всю информацию, предоставляемую данными x относительно неизвестных значений параметров. Это означает, что для любых наборов данныхиотношение правдоподобия будет таким же,если T ( x ) = T ( y . Это верно, даже если x и y совершенно различны, то есть даже если. Размерность T ( x ) равна количеству параметров θ и включает в себя всю информацию, касающуюся данных, относящихся к параметру θ . Достаточная статистика набора независимых одинаково распределенных наблюдений данных представляет собой просто сумму отдельных достаточных статистических данных и инкапсулирует всю информацию, необходимую для описания апостериорного распределения параметров с учетом данных (и, следовательно, для получения любой желаемой оценки параметров. ). (Это важное свойство обсуждается ниже .)
  • η называется естественным параметром . Множество значений η, для которых функция конечна, называется естественным пространством параметров . Можно показать, что естественное пространство параметров всегда выпукло .
  • A ( η ) называетсялог- функция распределения [Ь] , потому что это логарифм из коэффициента нормализации , без которого не было бы распределение вероятностей:

Функция A важна сама по себе, потому что среднее значение , дисперсия и другие моменты достаточной статистики T ( x ) могут быть получены простым дифференцированием A ( η ) . Например, поскольку log ( x ) является одним из компонентов достаточной статистики гамма-распределения , его можно легко определить с помощью A ( η ) . Технически это правда, потому что

- кумулянтная производящая функция достаточной статистики.

Свойства [ править ]

Экспоненциальные семейства обладают большим количеством свойств, которые делают их чрезвычайно полезными для статистического анализа. Во многих случаях можно показать, что этими свойствами обладают только экспоненциальные семейства. Примеры:

  • Экспоненциальные семейства имеют достаточную статистику, которая может суммировать произвольные объемы независимых одинаково распределенных данных с использованием фиксированного числа значений.
  • У экспоненциальных семейств есть сопряженные априорные значения , что является важным свойством в байесовской статистике .
  • Заднее предсказание распределения из случайной величины экспоненциального семейства с конъюгированным предварительными всегда может быть записаны в замкнутой форме ( при условии , что нормирующий множитель распределения экспоненциальной семьи сам по себе может быть записан в замкнутой форме). [c]
  • В приближении среднего поля в вариационном Байесе (используемом для аппроксимации апостериорного распределения в больших байесовских сетях ) наилучшее аппроксимирующее апостериорное распределение узла экспоненциального семейства (узел является случайной величиной в контексте байесовских сетей) с сопряженным Prior находится в том же семействе, что и узел. [7]

Примеры [ править ]

При рассмотрении примеров в этом разделе очень важно помнить приведенное выше обсуждение того, что значит сказать, что «распределение» является экспоненциальным семейством, и, в частности, иметь в виду, что набор параметров, которым разрешено изменять имеет решающее значение для определения того, является ли «распределение» экспоненциальным семейством.

Нормальные , экспоненциальные , Логнормальные , гамма , х-квадрат , бета , Дирихль , Бернулли , категорично , Пуассон , геометрический , обратный гауссовой , фон Мизеса и фон Мизес-Фишер распределения все экспоненциальные семьи.

Некоторые распределения являются экспоненциальными семействами только в том случае, если некоторые из их параметров остаются фиксированными. Семейство распределений Парето с фиксированной минимальной границей x m образует экспоненциальное семейство. Семейства биномиальных и полиномиальных распределений с фиксированным числом испытаний n, но неизвестным параметром (ами) вероятности являются экспоненциальными семействами. Семейство отрицательных биномиальных распределений с фиксированным числом отказов (также известным как параметр времени остановки) r является экспоненциальным семейством. Однако, когда разрешено изменять любой из вышеупомянутых фиксированных параметров, результирующее семейство не является экспоненциальным семейством.

Как упоминалось выше, как правило, поддержка экспоненциального семейства должна оставаться одинаковой для всех настроек параметров в семействе. Вот почему вышеупомянутые случаи (например, биномиальные с переменным количеством испытаний, Парето с меняющейся минимальной границей) не являются экспоненциальными семействами - во всех случаях рассматриваемый параметр влияет на поддержку (в частности, изменение минимального или максимального возможного значения) . По тем же причинам ни дискретное равномерное распределение, ни непрерывное равномерное распределение не являются экспоненциальными семействами, поскольку одна или обе границы меняются.

Распределение Вейбулла с фиксированным параметром формы k является экспоненциальным семейством. В отличие от предыдущих примеров, параметр формы не влияет на опору; Тот факт, что возможность его изменения делает показатель Вейбулла неэкспоненциальным, связан, скорее, с особой формой функции плотности вероятности Вейбулла ( k появляется в показателе экспоненты).

В общем, распределения, которые являются результатом конечной или бесконечной смеси других распределений, например плотностей моделей смеси и составных распределений вероятностей , не являются экспоненциальными семействами. Примеры являются типичными гауссовскими моделями смеси , а также множество распределений с тяжелыми хвостами , что результат от компаундирования (т.е. бесконечно смешивания) распределения с предварительным распределением по одному из параметров, например , в Стьюденте т -распределение (компаундировании нормального распределения над гамма- распределенная точность до), абета-биномиальное и полиномиальное распределение Дирихле . Другими примерами распределений, которые не являются экспоненциальными семействами, являются F-распределение , распределение Коши , гипергеометрическое распределение и логистическое распределение .

Ниже приведены некоторые подробные примеры представления некоторых полезных распределений в виде экспоненциальных семейств.

Нормальное распределение: неизвестное среднее, известная дисперсия [ править ]

В качестве первого примера рассмотрим случайную величину, распределенную нормально с неизвестным средним μ и известной дисперсией σ 2 . Тогда функция плотности вероятности имеет вид

Это экспоненциальное семейство с одним параметром, что можно увидеть, задав

Если σ = 1, это в канонической форме, так как тогда  η ( μ ) =  μ .

Нормальное распределение: неизвестное среднее и неизвестное отклонение [ править ]

Затем рассмотрим случай нормального распределения с неизвестным средним и неизвестной дисперсией. Тогда функция плотности вероятности имеет вид

Это экспоненциальное семейство, которое можно записать в канонической форме, определив

Биномиальное распределение [ править ]

В качестве примера дискретного экспоненциального семейства рассмотрим биномиальное распределение с известным числом испытаний n . Функция массы вероятности для этого распределения равна

Это может быть эквивалентно записано как

что показывает, что биномиальное распределение является экспоненциальным семейством, естественным параметром которого является

Эта функция p известна как logit .

Таблица распределений [ править ]

В следующей таблице показано, как переписать ряд общих распределений как распределения экспоненциального семейства с естественными параметрами. Обратитесь к карточкам [8] для получения информации об основных экспоненциальных семействах.

Для скалярной переменной и скалярного параметра форма выглядит следующим образом:

Для скалярной переменной и векторного параметра:

Для векторной переменной и векторного параметра:

Приведенные выше формулы выбирают функциональную форму экспоненциального семейства с логарифмической статистической суммой . Причина этого в том, что моменты достаточной статистики можно легко вычислить, просто дифференцируя эту функцию. Альтернативные формы включают параметризацию этой функции в терминах нормального параметра вместо естественного параметра и / или использование множителя вне экспоненты. Отношения между последним и первым:

Для преобразования между представлениями, включающими два типа параметров, используйте приведенные ниже формулы для записи одного типа параметра в терминах другого.

* Скобка Айверсона является обобщением дискретной дельта-функции: если выражение в квадратных скобках истинно, скобка имеет значение 1; если заключенное утверждение ложно, скобка Айверсона равна нулю. Есть много вариантов обозначений, например, волновые скобки: a = b ⧘эквивалентно обозначению [ a = b ], используемому выше.

Три варианта категориального распределения и полиномиального распределения обусловлены тем фактом, что параметры ограничены, так что

Таким образом, есть только независимые параметры.

  • Вариант 1 использует естественные параметры с простой связью между стандартными и естественными параметрами; однако независимы только естественные параметры, а набор естественных параметров не поддается идентификации . Ограничение на обычные параметры переводится в аналогичное ограничение на естественные параметры.
  • Вариант 2 демонстрирует тот факт, что весь набор естественных параметров не поддается идентификации: добавление любого постоянного значения к естественным параметрам не влияет на результирующее распределение. Однако, используя ограничение на естественные параметры, формула для нормальных параметров в терминах естественных параметров может быть записана способом, который не зависит от добавляемой константы.
  • Вариант 3 показывает, как сделать параметры идентифицируемыми удобным способом, установив This эффективно "вращается" вокруг и заставляет последний естественный параметр иметь постоянное значение 0. Все остальные формулы написаны способом, который не имеет доступа , поэтому что фактически модель имеет только параметры, как обычные, так и естественные.

Варианты 1 и 2 на самом деле вообще не являются стандартными экспоненциальными семействами. Скорее они представляют собой изогнутые экспоненциальные семейства , т. Е. Есть независимые параметры, вложенные в -мерное пространство параметров. [9] Многие стандартные результаты для экспоненциальных семейств не применимы к изогнутым экспоненциальным семействам. Примером является функция разбиения журнала , которая имеет значение 0 в изогнутых случаях. В стандартных экспоненциальных семействах производные этой функции соответствуют моментам (точнее, кумулянтам ) достаточной статистики, например среднему значению и дисперсии. Однако значение 0 предполагает, что среднее значение и дисперсия всех достаточных статистических данных равномерно равны 0, тогда как на самом деле среднее значение-я достаточная статистика должна быть . (Это проявляется правильно при использовании формы, показанной в варианте 3.)

Моменты и кумулянты достаточной статистики [ править ]

Нормализация распределения [ править ]

Начнем с нормализации распределения вероятностей. В общем, любая неотрицательная функция f ( x ), которая служит ядром распределения вероятностей (часть, кодирующая всю зависимость от x ), может быть преобразована в правильное распределение путем нормализации : т. Е.

куда

Фактор Z иногда называют нормализатором или статистической суммой по аналогии со статистической физикой .

В случае экспоненциального семейства, когда

ядро

а статистическая сумма равна

Поскольку распределение необходимо нормировать, имеем

Другими словами,

или эквивалентно

Это оправдывает вызов A функции нормализатора журнала или функции разделения журнала .

Моментогенерирующая функция достаточной статистики [ править ]

Теперь, момент-производящая функция от Т ( х ) является

где t означает транспонировать, доказывая предыдущее утверждение, что

является кумулянт производящей функцией для T .

Важным подклассом экспоненциальных семейств являются естественные экспоненциальные семейства , которые имеют аналогичную форму для порождающей функции момента для распределения x .

Дифференциальные тождества кумулянтов [ править ]

В частности, используя свойства производящей функции кумулянта,

и

Первые два сырых момента и все смешанные вторые моменты могут быть восстановлены из этих двух идентичностей. Моменты и кумулянты высших порядков получаются с помощью высших производных. Этот метод часто бывает полезен, когда T - сложная функция данных, моменты которой трудно вычислить путем интегрирования.

Другой способ увидеть это, не опирающийся на теорию кумулянтов, - это начать с того факта, что распределение экспоненциального семейства должно быть нормализовано и дифференцировано. Мы проиллюстрируем это на простом случае одномерного параметра, но аналогичный вывод справедлив и в более общем случае.

В одномерном случае имеем

Это должно быть нормализовано, поэтому

Возьмем производную от обеих частей по η :

Следовательно,

Пример 1 [ править ]

В качестве вводного примера рассмотрим гамма-распределение , распределение которого определяется формулой

Ссылаясь на приведенную выше таблицу, мы видим, что естественный параметр определяется выражением

обратные замены

достаточная статистика и функция разбиения журнала

Мы можем найти среднее значение достаточной статистики следующим образом. Во-первых, для η 1 :

Где - дигамма-функция (производная от логарифмической гаммы), и на последнем шаге мы использовали обратные замены.

Теперь для п 2 :

снова сделав обратную замену на последнем шаге.

Чтобы вычислить дисперсию x , мы просто снова дифференцируем:

Все эти расчеты можно выполнить с помощью интегрирования, используя различные свойства гамма-функции , но это требует значительно большей работы.

Пример 2 [ править ]

В качестве другого примера рассмотрим случайную величину X с действительным знаком с плотностью

индексируется параметром формы (это называется асимметричным логистическим распределением ). Плотность можно переписать как

Обратите внимание, что это экспоненциальное семейство с естественным параметром

достаточная статистика

и функция разбиения журнала

Итак, используя первую личность,

и используя второй идентификатор

Этот пример иллюстрирует случай, когда использовать этот метод очень просто, но прямой расчет практически невозможен.

Пример 3 [ править ]

Последний пример - это тот, где интеграция будет чрезвычайно сложной. Это случай распределения Уишарта , которое определено над матрицами. Даже получение производных немного сложно, так как оно включает в себя матричное исчисление , но соответствующие тождества перечислены в этой статье.

Из приведенной выше таблицы мы видим, что естественный параметр определяется выражением

обратные замены

и достаточная статистика

Функция лог-раздела записана в таблице в различных формах, чтобы облегчить дифференциацию и обратную подстановку. Мы используем следующие формы:

Ожидание X (связанное с η 1 )

Для дифференцирования по η 1 нам понадобится следующее тождество матричного исчисления :

Потом:

В последней строке используется тот факт, что V является симметричным, и поэтому он остается таким же при транспонировании.

Ожидание журнала | X | (связанный с η 2 )

Теперь для η 2 нам сначала нужно расширить часть логарифмической статистической суммы, которая включает многомерную гамма-функцию :

Также нам понадобится функция дигаммы :

Потом:

Эта последняя формула указана в статье о распределении Уишарта . Оба эти ожидания необходимы при выводе вариационных уравнений обновления Байеса в байесовской сети, включающей распределение Уишарта (которое является сопряженным априорным значением многомерного нормального распределения ).

Вычислить эти формулы с помощью интегрирования было бы намного сложнее. Первый, например, потребует матричного интегрирования.

Энтропия [ править ]

Относительная энтропия [ править ]

Относительная энтропия ( Кульбак-Либлер дивергенция , KL дивергенция) два распределений в экспоненциальном семействе имеет простое выражение как дивергенция Брегман между естественными параметрами по отношению к лог-нормализатору. [10] Относительная энтропия определяется в терминах интеграла, в то время как дивергенция Брегмана определяется в терминах производной и внутреннего произведения, и, таким образом, ее легче вычислить и имеет выражение в замкнутой форме (при условии, что производная имеет замкнутую форму) выражение формы). Кроме того, дивергенция Брегмана в терминах естественных параметров и лог-нормализатора равна дивергенции Брегмана двойственных параметров (параметров ожидания) в обратном порядке длявыпуклая сопряженная функция.

Фиксация экспоненциального семейства с лог-нормализатором (с выпуклым сопряженным ), запись для распределения в этом семействе, соответствующего фиксированному значению естественного параметра (запись для другого значения и с для соответствующих параметров двойного ожидания / момента), запись KL для дивергенция KL, а для дивергенции Брегмана расхождения связаны следующим образом:

Дивергенция KL обычно записывается по отношению к первому параметру, тогда как дивергенция Брегмана обычно записывается по отношению ко второму параметру, и, таким образом, это может быть прочитано как «относительная энтропия равна дивергенции Брегмана, определенной логнормализатором. на замененных натуральных параметрах », или, что то же самое,« равно дивергенции Брегмана, определяемой двойственным логарифмически нормализатором на параметрах ожидания ».

Вывод максимальной энтропии [ править ]

Экспоненциальные семейства возникают естественным образом как ответ на следующий вопрос: какое распределение максимальной энтропии согласуется с заданными ограничениями на ожидаемые значения?

Информационная энтропия распределения вероятностей йР ( х ) может быть вычислено только по отношению к некоторым другим распределением вероятностей (или, в более общем плане , положительная мера), и обе меры должны быть взаимно абсолютно непрерывны . Соответственно, нам нужно выбрать эталонную меру dH ( x ) с той же поддержкой, что и dF ( x ).

Энтропия dF ( x ) относительно dH ( x ) равна

или же

где dF / dH и dH / dF - производные Радона – Никодима . Обычное определение энтропии для дискретного распределения с носителем на множестве I , а именно

предполагает , хотя это редко указывали, что йН выбирается в мере подсчета на I .

Рассмотрим теперь набор наблюдаемых величин (случайных величин) T i . Распределение вероятностей dF , энтропия которого по отношению к dH является наибольшей, при условии, что ожидаемое значение T i равно t i , является экспоненциальным семейством с dH в качестве эталонной меры и ( T 1 , ..., T n ) как достаточная статистика.

Вывод представляет собой простое вариационное вычисление с использованием множителей Лагранжа . Нормализация вводится путем принятия T 0 = 1 в качестве одного из ограничений. Естественными параметрами распределения являются множители Лагранжа, а нормировочный коэффициент - множитель Лагранжа, связанный с T 0 .

Примеры таких выводов см. В разделе Распределение вероятности максимальной энтропии .

Роль в статистике [ править ]

Классическая оценка: достаточность [ править ]

Согласно теореме Питмана - Купмана - Дармуа , среди семейств вероятностных распределений, область определения которых не меняется в зависимости от оцениваемого параметра, только в экспоненциальных семействах имеется достаточная статистика , размерность которой остается ограниченной по мере увеличения размера выборки.

Менее кратко, предположим, что X k (где k = 1, 2, 3, ... n ) являются независимыми одинаково распределенными случайными величинами. Только если их распределение является одним из экспоненциального семейства распределений существует ли достаточная статистика Т ( Х 1 , ..., Х п ) , чье число из скалярных компонент не увеличивается , как размер выборки п возрастает; статистика T может быть вектором или одним скалярным числом , но в любом случае его размер не будет ни расти, ни сокращаться, когда будет получено больше данных.

В качестве контрпримера, если эти условия ослаблены, семейство однородных распределений ( дискретных или непрерывных , с одной или обеими неизвестными границами) имеет достаточную статистику, а именно максимум выборки, минимум выборки и размер выборки, но не формирует экспоненциальную family, поскольку домен зависит от параметров.

Байесовская оценка: сопряженные распределения [ править ]

Экспоненциальные семейства также важны в байесовской статистике . В байесовской статистике априорное распределение умножается на функцию правдоподобия, а затем нормализуется для получения апостериорного распределения . В случае вероятности, которая принадлежит экспоненциальному семейству, существует сопряженный априор , который часто также находится в экспоненциальном семействе. Сопряженный априор π для параметра экспоненциального семейства

дан кем-то

или эквивалентно

где s представляет размерность и и являются гиперпараметры (параметры управления параметрами). соответствует эффективному количеству наблюдений, вносимых предыдущим распределением, и соответствует общему количеству, которое эти псевдонаблюдения вносят в достаточную статистику по всем наблюдениям и псевдонаблюдениям. - нормировочная константа, которая автоматически определяется остальными функциями и служит для гарантии того, что данная функция является функцией плотности вероятности (т. е. нормирована ). и эквивалентно - те же функции, что и в определении распределения, над которым π является сопряженным априорным.

Сопряженное априорное распределение - это такое, которое в сочетании с вероятностью и нормализацией дает апостериорное распределение того же типа, что и апостериорное. Например, если кто-то оценивает вероятность успеха биномиального распределения, то, если он решает использовать бета-распределение в качестве априорного, апостериорное является другим бета-распределением. Это делает расчет апостериорного отдела особенно простым. Аналогично, если оценивается параметр распределения Пуассонаиспользование предшествующей гаммы приведет к другой задней гамме. Сопряженные приоры часто очень гибкие и могут быть очень удобными. Однако, если чье-либо мнение о вероятном значении тета-параметра бинома представлено (скажем) бимодальным (двугорбым) априорным распределением, то это не может быть представлено бета-распределением. Однако его можно представить, используя плотность смеси в качестве априорной, здесь комбинацию двух бета-распределений; это форма гиперприора .

Произвольная вероятность не будет принадлежать экспоненциальному семейству, и, таким образом, в общем случае не существует сопряженных априорных значений. Затем необходимо будет вычислить апостериорное значение численными методами.

Чтобы показать, что вышеупомянутое априорное распределение является сопряженным априорным, мы можем вывести апостериорное.

Во-первых, предположим, что вероятность одного наблюдения следует экспоненциальному семейству, параметризованному с помощью его естественного параметра:

Затем для данных вероятность вычисляется следующим образом:

Затем, для вышеуказанного конъюгата, предшествующего:

Затем мы можем вычислить апостериор следующим образом:

Последняя строка - это ядро апостериорного распределения, т.е.

Это показывает, что задняя часть имеет ту же форму, что и предыдущая.

Данные X входят в это уравнение только в выражении

что называется достаточной статистикой данных. То есть значения достаточной статистики достаточно, чтобы полностью определить апостериорное распределение. Сами фактические точки данных не нужны, и все наборы точек данных с одинаковой достаточной статистикой будут иметь одинаковое распределение. Это важно, потому что размер достаточной статистики не растет с размером данных - он имеет ровно столько же компонентов, сколько компонентов (то есть количество параметров распределения одной точки данных).

Уравнения обновления следующие:

Это показывает, что уравнения обновления могут быть записаны просто с точки зрения количества точек данных и достаточной статистики данных. Это можно ясно увидеть в различных примерах уравнений обновления, показанных на сопряженной предыдущей странице. Из-за того, как вычисляется достаточная статистика, она обязательно включает в себя суммы компонентов данных (в некоторых случаях замаскированные под продукты или другие формы - продукт может быть записан в виде суммы логарифмов ). Случаи, когда уравнения обновления для конкретных распределений не точно соответствуют приведенным выше формам, - это случаи, когда сопряженное априорное значение выражено с использованием другой параметризациичем тот, который производит сопряженный априор вышеупомянутой формы - часто специально потому, что вышеуказанная форма определяется по естественному параметру, в то время как сопряженные априорные элементы обычно определяются по фактическому параметру

Проверка гипотез: самые мощные тесты [ править ]

Однопараметрическое экспоненциальное семейство имеет монотонное неубывающее отношение правдоподобия в достаточной статистике T ( x ) при условии, что η ( θ ) не убывает. Как следствие, существует равномерно наиболее мощный критерий для проверки гипотезы H 0 : & thetas ; ≥ & thetas ; 0 против . H 1 : θ < θ 0 .

Обобщенные линейные модели [ править ]

Экспоненциальные семейства образуют основу для функций распределения, используемых в обобщенных линейных моделях , классе моделей, который охватывает многие из часто используемых регрессионных моделей в статистике.

См. Также [ править ]

  • Естественная экспоненциальная семья
  • Модель экспоненциальной дисперсии
  • Мера Гиббса

Сноски [ править ]

  1. ^ Например, семейство нормальных распределений включает стандартное нормальное распределение N (0, 1) со средним значением 0 и дисперсией 1, а также другие нормальные распределения с другим средним и дисперсией.
  2. ^ «Функция разделения» часто используется в статистике как синоним «коэффициента нормализации».
  3. ^ Эти распределения часто сами по себе не являются экспоненциальными семействами. Типичные примеры неэкспоненциальность семейвозникающих из экспонентаних являются Стьюдентом т -распределения , бета-биномиального распределением и Дирихле- полиномиального распределения .

Ссылки [ править ]

Цитаты [ править ]

  1. ^ Купперман, М. (1958). «Вероятности гипотез и информации-статистики в выборке из экспоненциального класса популяций» . Анналы математической статистики . 9 (2): 571–575. DOI : 10.1214 / АОМ / 1177706633 . JSTOR  2237349 .
  2. Андерсен, Эрлинг (сентябрь 1970 г.). "Достаточность и экспоненциальные семейства для дискретных пространств выборки". Журнал Американской статистической ассоциации . Журнал Американской статистической ассоциации. 65 (331): 1248–1255. DOI : 10.2307 / 2284291 . JSTOR 2284291 . Руководство по ремонту 0268992 .  
  3. ^ Питман, Э .; Уишарт, Дж. (1936). «Достаточная статистика и внутренняя точность». Математические труды Кембриджского философского общества . 32 (4): 567–579. Bibcode : 1936PCPS ... 32..567P . DOI : 10.1017 / S0305004100019307 .
  4. ^ Дармуа, Г. (1935). "Sur les lois de probabilites исчерпывающая оценка". CR Acad. Sci. Париж (на французском). 200 : 1265–1266.
  5. ^ Купман, Б. (1936). «О распределении, допускающем достаточную статистику» . Труды Американского математического общества . Американское математическое общество . 39 (3): 399–409. DOI : 10.2307 / 1989758 . JSTOR 1989758 . Руководство по ремонту 1501854 .  
  6. ^ Абрамович и Рытов (2013). Статистическая теория: краткое введение . Чепмен и Холл. ISBN 978-1439851845.
  7. ^ Blei, Дэвид. «Вариационный вывод» (PDF) . Princeton U.
  8. ^ Нильсен, Франк; Гарсия, Винсент (2009). «Статистические экспоненциальные семейства: дайджест с карточками». arXiv : 0911.4863 [ cs.LG ].
  9. ^ Ван Гардерен, Kees Jan (1997). «Криволинейные экспоненциальные модели в эконометрике». Эконометрическая теория . 13 (6): 771–790. DOI : 10.1017 / S0266466600006253 .
  10. ^ Nielsen & Nock 2010 , 4. Дивергенции Брегмана и относительная энтропия экспоненциальных семейств.

Источники [ править ]

  • Нильсен, Франк; Гарсия, Винсент (2009). «Статистические экспоненциальные семейства: дайджест с карточками». arXiv : 0911.4863 . Bibcode : 2009arXiv0911.4863N .CS1 maint: ref=harv (link)
  • Нильсен, Франк; Нок, Ричард (2010). Энтропии и кросс-энтропии экспоненциальных семейств (PDF) . Международная конференция IEEE по обработке изображений. DOI : 10,1109 / ICIP.2010.5652054 . Архивировано из оригинального (PDF) 31 марта 2019 года.

Дальнейшее чтение [ править ]

  • Фармейр, Людвиг; Тутц, Г. (1994). Многомерное статистическое моделирование на основе обобщенных линейных моделей . Springer. С. 18–22, 345–349. ISBN 0-387-94233-5.
  • Кинер, Роберт В. (2006). Теоретическая статистика: темы основного курса . Springer. С. 27–28, 32–33. ISBN 978-0-387-93838-7.
  • Lehmann, EL; Казелла, Г. (1998). Теория точечного оценивания (2-е изд.). сек. 1.5. ISBN 0-387-98502-6.

Внешние ссылки [ править ]

  • Букварь по экспоненциальному семейству распределений
  • Экспоненциальное семейство распределений на самых ранних известных употреблениях некоторых слов математики
  • jMEF: библиотека Java для экспоненциальных семейств