Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В вероятности и статистике , то распределение Дирихле (после того, как Петр Густав Лежен Дирихле ), часто обозначается , семейство непрерывных многомерных вероятностных распределений параметризованных вектором положительных чисел . Это многомерное обобщение беты - распределение , [1] , следовательно , его альтернативное название из многомерных бета распределения (MBD) . [2] Распределения Дирихле обычно используются в качестве априорных распределений в байесовской статистике. , А на самом деле распределение Дирихля является сопряженным перед от категориальной распределения и полиномиального распределения .

Бесконечномерным обобщением распределения Дирихле является процесс Дирихле .

Функция плотности вероятности [ править ]

Иллюстрируем, как изменяется логарифм функции плотности при K  = 3, когда мы меняем вектор α с α  = (0,3, 0,3, 0,3) на (2,0, 2,0, 2,0), сохраняя все индивидуумы равными друг другу.

Распределение Дирихле порядка K  ≥ 2 с параметрами α 1 , ..., α K > 0 имеет функцию плотности вероятности относительно меры Лебега на евклидовом пространстве R K-1, задаваемой формулой

где принадлежат стандартному симплексу , или другими словами:

Константа нормализующее является многомерный бета - функция , которая может быть выражена в терминах гамма - функции :

Поддержка [ править ]

Поддержка распределения Дирихля множество K - мерных векторы , элементы которых являются действительными числами в интервале (0,1) такое , что , то есть сумма координат равна 1. Это можно рассматривать как вероятности а K- ходовое категориальное событие. Другой способ выразить это состоит в том, что область распределения Дирихле сама по себе является набором вероятностных распределений , в частности, набором K -мерных дискретных распределений . Техническим термином для обозначения множества точек в носителе K -мерного распределения Дирихле является открытый стандарт ( K  - 1) -симплекс , [3] который является обобщением треугольника , вложенного в следующее более высокое измерение. Например, при K  = 3 опора представляет собой равносторонний треугольник, внедренный под углом вниз в трехмерное пространство с вершинами в точках (1,0,0), (0,1,0) и (0,0 , 1), т.е. касание каждой из осей координат в точке на 1 единицу от начала координат.

Особые случаи [ править ]

Частным частным случаем является симметричное распределение Дирихле , в котором все элементы, составляющие вектор параметров, имеют одинаковое значение. Симметричный случай может быть полезен, например, когда требуется приоритет Дирихле над компонентами, но нет никаких предварительных знаний о предпочтении одного компонента над другим. Поскольку все элементы вектора параметров имеют одинаковое значение, симметричное распределение Дирихле может быть параметризовано одним скалярным значением α , называемым параметром концентрации . [ необходима цитата ] В терминах α функция плотности имеет вид

Когда α = 1 [1] , симметричное распределение Дирихле эквивалентно равномерному распределению по открытому стандартному ( K  - 1) -симплексу , т. Е. Равномерно по всем точкам его носителя . Это конкретное распределение известно как плоское распределение Дирихле . Значения параметра концентрации выше 1 предпочитают вариации с плотным, равномерно распределенным распределением, т. Е. Все значения в одном образце похожи друг на друга. Значения параметра концентрации ниже 1 предпочитают разреженные распределения, т. Е. Большинство значений в пределах одного образца будут близки к 0, а подавляющая часть массы будет сосредоточена в нескольких значениях.

В более общем смысле , вектор параметров иногда записывается как произведение а ( скалярной ) параметра концентрации & alpha ; и ( вектор ) базовой мерой , где лежит внутри ( K  - 1) -симплекс (т.е. его координаты сумма к одному). Параметр концентрации в этом случае в K раз больше, чем параметр концентрации для описанного выше симметричного распределения Дирихле. Эта конструкция связана с концепцией базовой меры при обсуждении процессов Дирихле и часто используется в тематической литературе по моделированию.

^ Если мы определим параметр концентрации как сумму параметров Дирихле для каждого измерения, распределение Дирихле с параметром концентрацииK, размерностью распределения, будет равномерным распределением на (K - 1) -симплексе.

Свойства [ править ]

Моменты [ править ]

Пусть .

Позволять

Тогда [4] [5]

Кроме того, если

Определенная таким образом матрица сингулярна .

В более общем смысле моменты случайных величин с распределением Дирихле можно выразить как [6]

Режим [ править ]

Режим распределения является [7] вектор ( х 1 , ..., х K ) с

Маржинальные распределения [ править ]

Эти предельные распределения являются бета - распределения : [8]

Сопряжение с категориальным / полиномиальным [ править ]

Распределение Дирихле - это сопряженное априорное распределение категориального распределения (общее дискретное распределение вероятностей с заданным количеством возможных исходов) и полиномиального распределения (распределение по наблюдаемым количествам каждой возможной категории в наборе категориально распределенных наблюдений). Это означает, что если точка данных имеет категориальное или полиномиальное распределение, а предварительное распределение параметра распределения (вектор вероятностей, который генерирует точку данных) распределяется как Дирихле, то апостериорное распределениепараметра также является Дирихле. Интуитивно в таком случае, начиная с того, что мы знаем о параметре до наблюдения за точкой данных, мы можем обновить наши знания на основе точки данных и получить новое распределение той же формы, что и старое. Это означает, что мы можем последовательно обновлять наши знания о параметре, добавляя новые наблюдения по одному, не сталкиваясь с математическими трудностями.

Формально это можно выразить следующим образом. Учитывая модель

то имеет место следующее:

Это соотношение используется в байесовской статистике для оценки базового параметра р о в категориальном распределении данного сборника N выборок. Интуитивно мы можем рассматривать гиперприорный вектор α как псевдосчет , т.е. как представление количества наблюдений в каждой категории, которые мы уже видели. Затем мы просто добавляем счетчики для всех новых наблюдений (вектор c ), чтобы получить апостериорное распределение.

В байесовских моделях смеси и других иерархических байесовских моделях с компонентами смеси распределения Дирихле обычно используются в качестве априорных распределений для категориальных переменных, появляющихся в моделях. См. Раздел о приложениях ниже для получения дополнительной информации.

Связь с полиномиальным распределением Дирихле [ править ]

В модели, в которой априорное распределение Дирихле размещается над набором категориально-значных наблюдений, маргинальное совместное распределение наблюдений (то есть совместное распределение наблюдений с маргинализированным априорным параметром ) является полиномиальным распределением Дирихле . Это распределение играет важную роль в иерархических байесовских моделях , поскольку при выполнении вывода по таким моделям с использованием таких методов, как выборка Гиббса или вариационный байесовский метод , априорные распределения Дирихле часто не учитываются. Подробнее читайте в статье об этом дистрибутиве .

Энтропия [ править ]

Если Х представляет собой Dir ( α ) случайная величина, то дифференциальной энтропии из X (в физ единиц ) является [9]

где - дигамма-функция .

Приведенная ниже формула для может использоваться для вычисления приведенной выше дифференциальной энтропии . Поскольку функции являются достаточной статистикой распределения Дирихле, экспоненциальные семейные дифференциальные тождества могут использоваться для получения аналитического выражения для математического ожидания и связанной с ним ковариационной матрицы: [ необходима цитата ]

и

где - дигамма-функция , - тригамма-функция и - дельта Кронекера .

Спектр информации Реньи для значений, отличных от приведенных в [10]

а информационная энтропия - это предел, равный 1.

Еще одна интересная мера, связанная с этим, - это энтропия дискретного категориального (одного из K двоичных) вектора с распределением вероятностей-масс , т . Е .. Условная информационная энтропия из , учитывая это

Эта функция является скалярной случайной величиной. Если имеет симметричное распределение Дирихле со всеми , ожидаемое значение энтропии (в натуральных единицах ) равно [11]

Агрегация [ править ]

Если

тогда, если случайные величины с индексами i и j исключить из вектора и заменить их суммой,

Это свойство агрегирования можно использовать для получения предельного распределения, указанного выше.

Нейтралитет [ править ]

Если , то вектор  X называется нейтральным [12] в том смысле, что X K не зависит от [3], где

и аналогично для удаления любого из . Обратите внимание, что любая перестановка X также нейтральна (свойство, которым не обладают образцы, взятые из обобщенного распределения Дирихле ). [13]

Комбинируя это со свойством агрегации, следует, что X j + ... + X K не зависит от . Более того, для распределения Дирихле верно, что для , пара и два вектора и , рассматриваемые как тройка нормализованных случайных векторов, взаимно независимы . Аналогичный результат верен для разбиения индексов {1,2, ..., K } на любую другую пару неодноэлементных подмножеств.

Характеристическая функция [ править ]

Характеристическая функция распределения Дирихле представляет собой конфлюэнтную форму гипергеометрического ряда Лауричеллы . Это дано Филлипсом как [14]

где и

Сумма складывается из неотрицательных целых чисел и . Филлипс далее утверждает, что эта форма «неудобна для численных расчетов» и дает альтернативу в терминах комплексного интеграла по путям :

где L обозначает любой путь в комплексной плоскости , начинающийся в, огибающий в положительном направлении все особенности подынтегрального выражения и возвращающийся в .

Неравенство [ править ]

Функция плотности вероятности играет ключевую роль в многофункциональном неравенстве, которое предполагает различные оценки для распределения Дирихле. [15]

Связанные дистрибутивы [ править ]

Для K независимо распределенных гамма-распределений :

имеем: [16] : 402

Хотя X i не являются независимыми друг от друга, можно видеть, что они генерируются из набора K независимых гамма- случайных величин. [16] : 594 К сожалению, поскольку сумма V теряется при формировании X (на самом деле, можно показать, что V стохастически не зависит от X ), невозможно восстановить исходные гамма-случайные величины только по этим значениям. Тем не менее, поскольку с независимыми случайными величинами проще работать, эта репараметризация может быть полезна для доказательства свойств распределения Дирихле.

Сопряженный априор распределения Дирихле [ править ]

Поскольку распределение Дирихле является экспоненциальным семейным распределением, оно имеет сопряженный априор. Сопряженное предшествующее имеет форму: [17]

Здесь есть K - мерный вещественный вектор и является скалярным параметром. Область ограничена набором параметров, для которых указанная выше ненормализованная функция плотности может быть нормализована. (Необходимое и достаточное) условие: [18]

Свойство сопряжения можно выразить как

если [ предшествующий : ] и [ наблюдение : ], то [ последующий : ].

В опубликованной литературе нет практического алгоритма, из которого можно было бы эффективно генерировать образцы .

Приложения [ править ]

Дирихле распределение наиболее часто используется в качестве предварительного распределения по категориальным переменным или мультиномиальным переменным в байесовской модели смеси и другой иерархической байесовской модели . (Во многих областях, например, при обработке естественного языка , категориальные переменные часто неточно называют «полиномиальными переменными». Такое использование вряд ли вызовет путаницу, как и в случае, когда распределения Бернулли и биномиальные распределения обычно объединяются.)

Вывод по иерархическим байесовским моделям часто делается с использованием выборки Гиббса , и в таком случае экземпляры распределения Дирихле обычно исключаются из модели путем интегрирования случайной величины Дирихле . Это приводит к тому, что различные категориальные переменные, взятые из одной и той же случайной величины Дирихле, становятся коррелированными, а совместное распределение по ним предполагает полиномиальное распределение Дирихле , обусловленное гиперпараметрами распределения Дирихле ( параметры концентрации ). Одна из причин для этого заключается в том, что выборка Гиббса полиномиального распределения Дирихле чрезвычайно проста; см. эту статью для получения дополнительной информации.

Генерация случайных чисел [ править ]

Гамма-распределение [ править ]

Имея источник случайных величин с гамма-распределением, можно легко выбрать случайный вектор из K -мерного распределения Дирихле с параметрами . Сначала возьмите K независимых случайных выборок из гамма-распределений, каждая с плотностью

а затем установите

Доказательство [ править ]

Совместное распределение определяется по:

Затем используется замена переменных, параметризация в терминах и и выполняется замена переменных таким образом, что

Затем следует использовать формулу замены переменных, в которой находится якобиан преобразования.

Записывая y явно как функцию от x, получаем

Якобиан теперь выглядит как

Определитель можно оценить, отметив, что он остается неизменным, если несколько строк добавляются к другой строке, и добавив каждую из первых строк K-1 к нижней строке, чтобы получить

который можно развернуть в нижней строке, чтобы получить

Подставляя вместо x в совместном pdf-формате и включая якобиан, получаем:

Каждая из переменных и аналогично .

Наконец, интегрируя дополнительную степень свободы, мы получаем:

Что эквивалентно

при поддержке

Ниже приведен пример кода Python для рисования образца:

params  =  [ a1 ,  a2 ,  ... ,  ak ] sample  =  [ random . gammavariate ( a ,  1 )  for  a  in  params ] sample  =  [ v  /  sum ( sample )  for  v  in  sample ]

Эта формулировка верна независимо от того, как параметризовано гамма-распределение (форма / масштаб по сравнению с формой / скоростью), потому что они эквивалентны, когда масштаб и коэффициент равны 1,0.

Маржинальные бета-распределения [ править ]

Менее эффективный алгоритм [19] полагается на одномерное маргинальное и условное распределения, являющиеся бета-версией, и действует следующим образом. Моделировать из

Затем смоделируйте в следующем порядке. Для моделирования из

и разреши

Наконец, установите

Эта итерационная процедура близко соответствует интуиции «разрезания струны», описанной ниже.

Ниже приведен пример кода Python для рисования образца:

params  =  [ a1 ,  a2 ,  ... ,  ak ] xs  =  [ случайный . betavariate ( params [ 0 ],  sum ( params [ 1 :]))] для  j  в  диапазоне ( 1 ,  len ( params )  -  1 ):  phi  =  random . Betavariate ( params [ j ],  sum ( params[ j  +  1  :]))  хз . добавить (( 1  -  сумма ( xs ))  *  phi ) xs . добавить ( 1  -  сумма ( xs ))

Интуитивная интерпретация параметров [ править ]

Параметр концентрации [ править ]

Распределения Дирихле очень часто используются в качестве априорных распределений в байесовском выводе . Самым простым и, возможно, наиболее распространенным типом априорного распределения Дирихле является симметричное распределение Дирихле, в котором все параметры равны. Это соответствует случаю, когда у вас нет предварительной информации о предпочтении одного компонента перед любым другим. Как описано выше, единственное значение α, на которое устанавливаются все параметры, называется параметром концентрации . Если пространство выборки распределения Дирихле интерпретируется как дискретное распределение вероятностей, то интуитивно можно представить, что параметр концентрации определяет, насколько «концентрированной» вероятностная масса образца из распределения Дирихле. При значении намного меньше 1 масса будет сильно сконцентрирована в нескольких компонентах, а все остальные почти не будут иметь массы. При значении намного больше 1 масса будет почти одинаково распределена между всеми компонентами. См. Статью о параметре концентрации для дальнейшего обсуждения.

Обрезка струны [ править ]

Одним из примеров использования распределения Дирихле является случай, когда нужно разрезать струны (каждая с начальной длиной 1,0) на K частей с разной длиной, где каждая часть имеет заданную среднюю длину, но допускает некоторое изменение относительных размеров частей. Значения α / α 0 определяют средние длины отрезанных кусков струны, полученные в результате распределения. Дисперсия этого среднего значения обратно пропорциональна α 0 .

Урна Поли [ править ]

Рассмотрим урну с шарами K разных цветов. Первоначально урна содержит α 1 шаров цвета 1, α 2 шаров цвета 2 и т. Д. Теперь выполните N розыгрышей из урны, при этом после каждой розыгрыша мяч помещается обратно в урну с дополнительным мячом того же цвета. В пределе, когда N приближается к бесконечности, пропорции разноцветных шаров в урне будут распределены как Dir ( α 1 , ..., α K ). [20]

Для формального доказательства, обратите внимание , что пропорции различных цветных шаров образуют ограниченный [0,1] K - значного Мартингейл , следовательно , самой мартингальной сходимость теоремы , эти пропорции сходятся почти наверняка и в среднем до предельного случайного вектора. Чтобы увидеть, что этот предельный вектор имеет указанное выше распределение Дирихле, убедитесь, что все смешанные моменты согласуются.

Каждый розыгрыш из урны изменяет вероятность вытаскивания шара любого цвета из урны в будущем. Эта модификация уменьшается с количеством розыгрышей, так как относительный эффект добавления нового шара в урну уменьшается по мере того, как в урне накапливается все большее количество шаров.

См. Также [ править ]

  • Обобщенное распределение Дирихле
  • Сгруппированное распределение Дирихле
  • Обратное распределение Дирихле
  • Скрытое размещение Дирихле
  • Процесс Дирихле
  • Матричное вариационное распределение Дирихле

Ссылки [ править ]

  1. ^ С. Коц; Н. Балакришнан; Н.Л. Джонсон (2000). Непрерывные многомерные распределения. Том 1: Модели и приложения . Нью-Йорк: Вили. ISBN 978-0-471-18387-7. (Глава 49: Дирихле и обратное распределение Дирихле)
  2. ^ Олкин, Ингрэм; Рубин, Герман (1964). «Многомерные бета-распределения и свойства независимости распределения Уишарта» . Анналы математической статистики . 35 (1): 261–269. DOI : 10.1214 / АОМ / 1177703748 . JSTOR 2238036 . 
  3. ^ а б Бела А. Фригик; Амол Капила; Майя Р. Гупта (2010). «Введение в распределение Дирихле и связанные с ним процессы» (PDF) . Департамент электротехники Вашингтонского университета. Архивировано из оригинала (Технический отчет UWEETR-2010-006) 19 февраля 2015 года . Проверено май 2012 года . Проверить значения даты в: |access-date=( помощь )
  4. ^ Ур. (49.9) на странице 488 из Kotz, Balakrishnan & Johnson (2000). Непрерывные многомерные распределения. Том 1: Модели и приложения. Нью-Йорк: Вили.
  5. ^ БалакришВ. Б. (2005). « « Глава 27. Распределение Дирихле » ». Букварь по статистическим распределениям . Хобокен, Нью-Джерси: John Wiley & Sons, Inc., стр. 274 . ISBN 978-0-471-42798-8.
  6. ^ Хоффманн, Тилль. «Моменты распределения Дирихле» . Проверено 13 сентября 2014 года .
  7. Кристофер М. Бишоп (17 августа 2006 г.). Распознавание образов и машинное обучение . Springer. ISBN 978-0-387-31073-2.
  8. ^ Фэрроу, Малькольм. «Байесовская статистика MAS3301» (PDF) . Ньюкаслский университет . Ньюкаслский университет . Проверено 10 апреля 2013 года .
  9. ^ Лин, Цзяюй (2016). О распределении Дирихле (PDF) . Кингстон, Канада: Королевский университет. С. § 2.4.9.
  10. Перейти ↑ Song, Kai-Sheng (2001). «Информация Реньи, логарифмическое правдоподобие и внутренняя мера распределения». Журнал статистического планирования и вывода . Эльзевир. 93 (325): 51–69. DOI : 10.1016 / S0378-3758 (00) 00169-5 .
  11. ^ Неменман, Илья; Шафи, Фариэль; Биалек, Уильям (2002). Повторное посещение энтропии и вывода (PDF) . НИПС 14. , ур. 8
  12. ^ Коннор, Роберт Дж .; Мосиманн, Джеймс Э (1969). «Концепции независимости пропорций с обобщением распределения Дирихле». Журнал Американской статистической ассоциации . Американская статистическая ассоциация. 64 (325): 194–206. DOI : 10.2307 / 2283728 . JSTOR 2283728 . 
  13. См. Коц, Балакришнан и Джонсон (2000), раздел 8.5, «Обобщение Коннора и Мосиманна», стр. 519–521.
  14. Перейти ↑ Phillips, PCB (1988). «Характеристическая функция Дирихле и многомерное F-распределение» (PDF) . Дискуссионный документ Фонда Коулза 865 .
  15. ^ Гриншпан, AZ (2017). «Неравенство для множественных сверток относительно вероятностной меры Дирихле» . Успехи в прикладной математике . 82 (1): 102–119. DOI : 10.1016 / j.aam.2016.08.001 .
  16. ^ a b Деврой, Люк (1986). Генерация неоднородной случайной величины . Springer-Verlag. ISBN 0-387-96305-7.
  17. ^ Lefkimmiatis, Stamatios; Марагос, Петрос; Папандреу, Джордж (2009). "Байесовский вывод на многомасштабных моделях для оценки пуассоновской интенсивности: приложения к уменьшению шума изображения с ограничением фотонов". IEEE Transactions по обработке изображений . 18 (8): 1724–1741. DOI : 10.1109 / TIP.2009.2022008 .
  18. ^ Андреоли, Жан-Марк (2018). «Сопряженный априор для распределения Дирихле». arXiv : 1811.05266 .
  19. ^ А. Гельман; JB Carlin; HS Stern; ДБ Рубин (2003). Байесовский анализ данных (2-е изд.). С.  582 . ISBN 1-58488-388-X.
  20. ^ Блэквелл, Дэвид; Маккуин, Джеймс Б. (1973). "Распределения Фергюсона через урн-схемы Поля" . Анна. Стат . 1 (2): 353–355. DOI : 10.1214 / AOS / 1176342372 .

Внешние ссылки [ править ]

  • "Распределение Дирихле" , Математическая энциклопедия , EMS Press , 2001 [1994]
  • Распределение Дирихле
  • Как оценить параметры составного распределения Дирихле (распределение Полиа) с помощью максимизации ожидания (EM)
  • Люк Деврой. «Генерация неоднородной случайной величины» . Дата обращения 19 октября 2019 .
  • Случайные меры Дирихле, метод построения с помощью составных пуассоновских случайных величин и свойства обменяемости полученного гамма-распределения
  • Пакет SciencesPo : R, который содержит функции для моделирования параметров распределения Дирихле.