Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В теории вероятностей и статистике , то распределение Дирихля-полиномиального семейство дискретных многомерные вероятностных распределений на конечные поддержки неотрицательных целых чисел. Его также называют составным полиномиальным распределением Дирихле ( DCM ) или многомерным распределением Полиа (в честь Джорджа Полиа ). Это составное распределение вероятностей , где вектор вероятности p взят из распределения Дирихле с вектором параметров , а наблюдение получено из полиномиального распределения.с вектором вероятности p и числом испытаний n . Вектор параметров Дирихле отражает предшествующее мнение о ситуации и может рассматриваться как псевдосчет: наблюдения за каждым результатом, которые происходят до сбора фактических данных. Компаундирование соответствует схеме урны Pólya . Он часто встречается в байесовской статистике , машинном обучении , эмпирических байесовских методах и классической статистике как сверхдисперсное полиномиальное распределение .

Оно сводится к категориальному распределению как частному случаю, когда n  = 1. Оно также сколь угодно хорошо аппроксимирует полиномиальное распределение для больших α . Полиномиальное распределение Дирихле является многомерным расширением бета-биномиального распределения , так как полиномиальное распределение и распределение Дирихле являются многомерными версиями биномиального распределения и бета-распределений соответственно.

Спецификация [ править ]

Полиномиальное распределение Дирихле как составное распределение [ править ]

Распределение Дирихле сопряжено с полиномиальным распределением. Этот факт приводит к аналитически поддающемуся анализу распределению соединений . Для случайного вектора количества категорий , распределенного в соответствии с полиномиальным распределением , маргинальное распределение получается путем интегрирования распределения для p, которое можно рассматривать как случайный вектор, следующий за распределением Дирихле:

что приводит к следующей явной формуле:

где определяется как сумма . Другая форма того же составного распределения, более компактно записанная в терминах бета-функции , B , выглядит следующим образом:

Последняя форма подчеркивает тот факт , что нулевые категории счетов можно пренебречь при расчете - полезный факт , когда количество категорий очень большое и редкое (например , количество слов в документах).

Обратите внимание, что pdf - это бета-биномиальное распределение, когда . Также можно показать, что оно приближается к полиномиальному распределению по мере приближения к бесконечности. Параметр управляет степенью избыточной дисперсии или скачкообразности относительно полинома . Альтернативные варианты обозначения, найденные в литературе, - это S и A.

Дирихле-полином как модель урны [ править ]

Полиномиальное распределение Дирихле также может быть мотивировано моделью урны для положительных целочисленных значений вектора α, известной как модель урны Поля . В частности, представьте урну, содержащую шары K цветов, пронумерованных для i-го цвета, в которой выполняются случайные розыгрыши. Когда случайным образом вытягивается шар и наблюдается его, в урну возвращаются два шара одного цвета. Если это будет выполнено n раз, то вероятность наблюдения случайного вектораподсчетов цветов является многочленом Дирихле с параметрами n и α. Если случайные розыгрыши выполняются с простой заменой (в урну не добавляются шары, превышающие наблюдаемый шар), то распределение следует полиномиальному распределению, а если случайные розыгрыши выполняются без замены, распределение следует многомерному гипергеометрическому распределению .

Свойства [ править ]

Моменты [ править ]

Еще раз, let и let , тогда ожидаемое количество раз, когда результат i наблюдался за n испытаний, равно

Ковариационная матрица выглядит следующим образом . Каждая диагональная запись представляет собой дисперсию случайной величины с бета-биномиальным распределением и, следовательно,

Недиагональные записи - это ковариации :

для i , j различны.

Все ковариации отрицательны, потому что при фиксированном n увеличение одного компонента полиномиального вектора Дирихле требует уменьшения другого компонента.

Это положительно-полуопределенная матрица размера K × K ранга K  - 1.

Элементы соответствующей корреляционной матрицы :

Размер выборки выпадает из этого выражения.

Каждый из k компонентов в отдельности имеет бета-биномиальное распределение.

Поддержка Дирихль-полиномиального распределения является набором

Количество его элементов

Обозначение матрицы [ править ]

В матричных обозначениях

и

где p T = вектор-строка, транспонированная вектор-столбец p . Сдача

, мы можем написать альтернативно

Этот параметр известен как «внутриклассовая» или «внутрикластерная» корреляция. Именно эта положительная корреляция приводит к избыточной дисперсии по сравнению с полиномиальным распределением.

Агрегация [ править ]

Если

тогда, если случайные величины с индексами i и j исключить из вектора и заменить их суммой,

Это свойство агрегирования можно использовать для получения предельного распределения, указанного выше.

Функция правдоподобия [ править ]

Концептуально мы делаем N независимых розыгрышей из категориального распределения с K категориями. Представим независимые ничьи в виде случайных категориальных переменных для . Обозначим, сколько раз определенная категория была замечена (для ) среди всех категориальных переменных как , и . Тогда у нас есть два разных взгляда на эту проблему:

  1. Набор категориальных переменных .
  2. Одиночная векторная переменная , распределенная согласно полиномиальному распределению .

Первый случай - это набор случайных величин, определяющих каждый отдельный результат, а второй - это переменная, определяющая количество результатов каждой из K категорий. Это различие важно, так как два случая имеют соответственно разные распределения вероятностей.

Параметр категориального распределения: где - вероятность получить значение ; также является параметром полиномиального распределения . Вместо того, чтобы указывать напрямую, мы даем ему сопряженное априорное распределение , и, следовательно, оно взято из распределения Дирихле с вектором параметров .

Интегрируя , мы получаем составное распределение. Однако форма распределения различается в зависимости от того, какую точку зрения мы придерживаемся.

Для набора индивидуальных результатов [ править ]

Совместное распространение [ править ]

Для категориальных переменных , то маргинальный совместное распределение получается путем интегрирования по :

что приводит к следующей явной формуле:

где - гамма-функция , причем

Хотя переменные не отображаются явно в приведенной выше формуле, они входят через значения.

Условное распространение [ править ]

Другая полезная формула, особенно в контексте выборки Гиббса , спрашивает, какова условная плотность данной переменной , обусловленная всеми другими переменными (которые мы будем обозначать ). Оказывается, имеет очень простой вид:

где указывает количество отсчетов категории, наблюдаемых во всех переменных, кроме .

Может быть полезно показать, как получить эту формулу. В общем, условные распределения пропорциональны соответствующим совместным распределениям , поэтому мы просто начинаем с приведенной выше формулы для совместного распределения всех значений, а затем исключаем любые факторы, не зависящие от рассматриваемого конкретного значения . Для этого мы используем обозначения, определенные выше, и

Мы также используем тот факт, что

Потом:

В общем, нет необходимости беспокоиться о нормирующей константе во время вывода уравнений для условных распределений. Константа нормализации будет определена как часть алгоритма выборки из распределения (см. Категориальное распределение # Выборка ). Однако, когда условное распределение записано в простой форме, приведенной выше, оказывается, что нормализующая константа принимает простую форму:

Следовательно

Эта формула тесно связана с китайским ресторанным процессом , который является результатом принятия лимита как .

В байесовской сети [ править ]

В более крупной байесовской сети, в которой категориальные (или так называемые "полиномиальные") распределения встречаются с распределением Дирихлеприоры как часть более крупной сети, все приоры Дирихле могут быть свернуты при условии, что единственными узлами, зависящими от них, являются категориальные распределения. Свертывание происходит для каждого узла распределения Дирихле отдельно от других и происходит независимо от любых других узлов, которые могут зависеть от категориальных распределений. Это также происходит независимо от того, зависят ли категориальные распределения от узлов, дополнительных к априорным элементам Дирихле (хотя в таком случае эти другие узлы должны оставаться в качестве дополнительных обусловливающих факторов). По сути, все категориальные распределения, зависящие от данного узла распределения Дирихле, становятся связанными в единое мультиномиальное совместное распределение Дирихле, определяемое приведенной выше формулой.Совместное распределение, как определено таким образом, будет зависеть от родителя (ей) интегрированных предшествующих узлов Дирихле, а также любого родителя (ов) категориальных узлов, кроме самих предшествующих узлов Дирихле.

В следующих разделах мы обсудим различные конфигурации, обычно встречающиеся в байесовских сетях. Повторяем плотность вероятности сверху и определяем ее с помощью символа :

Несколько априоров Дирихле с одним и тем же гиперприором [ править ]

Представьте, что у нас есть следующая иерархическая модель:

В таких случаях у нас есть несколько априорных значений Дирише, каждый из которых генерирует некоторое количество категориальных наблюдений (возможно, разное количество для каждого априорного значения). Тот факт, что все они зависят от одного и того же гиперприора, даже если это случайная величина, как указано выше, не имеет значения. Эффект интегрирования априорного значения Дирихле связывает категориальные переменные, связанные с этим априорным значением, совместное распределение которого просто наследует любые обусловливающие факторы априорного значения Дирихле. Тот факт, что несколько приоритетов могут иметь один гиперприор, не имеет значения:

где это просто набор категориальных переменных, зависящих от априорного d .

Соответственно, условное распределение вероятностей можно записать следующим образом:

где конкретно означает количество переменных в наборе , за исключением самого себя, которые имеют значение .

Необходимо подсчитывать только те переменные, имеющие значение k , которые связаны вместе с рассматриваемой переменной за счет того же предшествующего значения. Мы не хотим подсчитывать другие переменные, также имеющие значение k .

Множественные приоры Дирихле с одним и тем же гиперприором с зависимыми дочерними элементами [ править ]

А теперь представьте себе несколько более сложную иерархическую модель:

Эта модель такая же, как и выше, но, кроме того, каждая из категориальных переменных имеет зависимую дочернюю переменную. Это типично для смешанной модели .

Опять же, в совместном распределении только категориальные переменные, зависящие от одного и того же априорного значения, связаны в один полином Дирихле:

Условное распределение категориальных переменных, зависящих только от их родителей и предков, будет иметь ту же форму, что и выше, в более простом случае. Однако при выборке Гиббса необходимо определить условное распределение данного узла, зависящее не только от таких предков, но и от всех других параметров.

Упрощенное выражение для условного распределения получается выше, просто переписывая выражение для совместной вероятности и удаляя постоянные множители. Следовательно, такое же упрощение применимо к большему выражению совместной вероятности, например, в этой модели, состоящему из полиномиальных плотностей Дирихле плюс коэффициенты для многих других случайных величин, зависящих от значений категориальных переменных.

Это дает следующее:

Здесь прямо фигурирует плотность вероятности . Для того, чтобы сделать случайную выборку более , мы бы вычислить ненормализованные вероятности для всех K возможностей для использования вышеуказанной формулы, а затем нормализовать их и продолжайте как обычно с помощью алгоритма , описанного в категорическом распределении статьи.

Правильно говоря, дополнительный фактор, который появляется в условном распределении, выводится не из спецификации модели, а непосредственно из совместного распределения. Это различие важно при рассмотрении моделей, в которых данный узел с предшествующим родительским элементом Дирихле имеет несколько зависимых дочерних элементов, особенно когда эти дочерние элементы зависят друг от друга (например, если у них общий родительский элемент, который свернут). Это обсуждается более подробно ниже.

Множественные приоритеты Дирихле со сменой предыдущего состава [ править ]

Теперь представьте, что у нас есть следующая иерархическая модель:

Здесь у нас есть сложная ситуация, когда у нас есть несколько априорных значений Дирихле, как и раньше, и набор зависимых категориальных переменных, но связь между априорными и зависимыми переменными не является фиксированной, в отличие от предыдущих. Вместо этого выбор того, какой из них перед использованием, зависит от другой случайной категориальной переменной. Это происходит, например, в тематических моделях, и действительно, имена переменных выше должны соответствовать именам в скрытом распределении Дирихле . В этом случае набор представляет собой набор слов, каждое из которых взято из одной из возможных тем, где каждая тема является предшествующей Дирихле над словарным запасомвозможные слова с указанием частоты встречаемости разных слов в теме. Однако тематическая принадлежность данного слова не фиксирована; скорее, он определяется набором скрытых переменных . Для каждого слова существует одна скрытая переменная - размерная категориальная переменная, определяющая тему, к которой принадлежит слово.

В этом случае все переменные, зависящие от данного априорного значения, связаны вместе (т. Е. Коррелированы ) в группе, как и раньше - в частности, связаны все слова, принадлежащие данной теме. В этом случае, однако, членство в группе меняется, поскольку слова не привязаны к данной теме, а тема зависит от значения скрытой переменной, связанной со словом. Однако определение полиномиальной плотности Дирихле на самом деле не зависит от количества категориальных переменных в группе (т. Е. Количества слов в документе, созданных на основе данной темы), а только от подсчета количества переменных в группа имеет заданное значение (т. е. среди всех словосочетаний, сгенерированных из данной темы, сколько из них является данным словом). Следовательно, мы все еще можем написать явную формулу для совместного распределения:

Здесь мы используем нотацию для обозначения количества токенов слов, значение которых является символом слова v и которые принадлежат теме k .

Условное распределение по-прежнему имеет тот же вид:

Здесь снова связаны только категориальные переменные для слов, принадлежащих данной теме (даже если это связывание будет зависеть от назначений скрытых переменных), и, следовательно, подсчет слов должен быть выше только слов, сгенерированных данной темой. Следовательно, символ , который представляет собой количество словосочетаний, имеющих символ слова v , но только среди тех, которые генерируются темой k , и исключая само слово, распределение которого описывается.

(Причина, по которой исключение самого слова необходимо и почему оно вообще имеет смысл, заключается в том, что в контексте выборки Гиббса мы неоднократно передискретизируем значения каждой случайной переменной после того, как прошли все предыдущие переменные. переменная уже будет иметь значение, и нам нужно исключить это существующее значение из различных подсчетов, которые мы используем.)

Комбинированный пример: тематические модели LDA [ править ]

Теперь мы покажем, как объединить некоторые из вышеперечисленных сценариев, чтобы продемонстрировать, как Гиббс делает выборку из реальной модели, в частности, тематической модели сглаженного скрытого распределения Дирихле (LDA) .

Модель выглядит следующим образом:

По сути, мы объединяем предыдущие три сценария: у нас есть категориальные переменные, зависящие от нескольких априорных факторов, разделяющих гиперприор; у нас есть категориальные переменные с зависимыми детьми ( скрытые переменные тематических идентичностей); и у нас есть категориальные переменные со сдвигающейся принадлежностью к множеству априорных значений, разделяющих гиперприор. В стандартной модели LDA слова полностью соблюдаются, и, следовательно, нам никогда не нужно их пересчитывать. (Однако выборка Гиббса была бы в равной степени возможна, если бы наблюдались только некоторые слова или ни одно из них. В таком случае мы хотели бы инициализировать распределение по словам каким-либо разумным образом - например, из выходных данных некоторого процесса, который генерирует предложения , например, машинный перевод модель - для того , чтобы в результате задней скрытые распределения переменных, чтобы иметь смысл.)

Используя приведенные выше формулы, мы можем записать условные вероятности напрямую:

Здесь мы более четко определили количество слов, чтобы четко разделить количество слов и количество тем:

Как и в приведенном выше сценарии с категориальными переменными с зависимыми дочерними элементами, условная вероятность этих зависимых детей появляется в определении условной вероятности родителя. В этом случае каждая скрытая переменная имеет только одно зависимое дочернее слово, поэтому появляется только один такой термин. (Если бы было несколько зависимых детей, все они должны были бы появиться в условной вероятности родителя, независимо от того, было ли перекрытие между разными родителями и одними и теми же детьми, т.е. независимо от того, есть ли у зависимых детей данного родителя и других родителей. случай, когда у ребенка несколько родителей, условная вероятность для этого ребенка появляется в определении условной вероятности каждого из его родителей.)

Приведенное выше определение определяет только ненормализованную условную вероятность слов, в то время как условная вероятность темы требует фактической (т.е. нормализованной) вероятности. Следовательно, мы должны нормализовать, суммируя все символы слов:

куда

Также стоит остановиться еще на одном моменте, который касается второго фактора, указанного выше в условной вероятности. Помните, что условное распределение в целом является производным от совместного распределения и упрощается за счет удаления членов, не зависящих от области условного распределения (часть слева от вертикальной черты). Когда у узла есть зависимые дочерние элементы, в совместном распределении будет один или несколько факторов, от которых зависят . Обычноесть один фактор для каждого зависимого узла, и он имеет ту же функцию плотности, что и распределение, фигурирующее в математическом определении. Однако, если у зависимого узла есть еще один родительский узел (со-родитель), и этот со-родитель свернут, тогда узел станет зависимым от всех других узлов, разделяющих этого со-родителя, и вместо нескольких терминов для каждый такой узел совместного распределения будет иметь только один совместный член. У нас здесь именно такая ситуация. Несмотря на то, что у него только один дочерний элемент, у этого дочернего элемента есть сопродитель Дирихле, который мы свернули, что индуцирует многочлен Дирихле по всему набору узлов .

В этом случае случается, что эта проблема не вызывает серьезных проблем именно из-за однозначной связи между и . Мы можем переписать совместное распределение следующим образом:

где в наборе (т. е. в наборе исключенных узлов ) ни один из узлов не является родительским. Следовательно, он может быть исключен как обусловливающий фактор (строка 2), что означает, что весь фактор может быть исключен из условного распределения (строка 3).

Второй пример: наивная байесовская кластеризация документов [ править ]

Вот еще одна модель, но с другим набором проблем. Это реализация неконтролируемой наивной байесовской модели для кластеризации документов. То есть мы хотели бы классифицировать документы по нескольким категориям (например, « спам » или «не спам», или «статья в научном журнале», «газетная статья о финансах», «газетная статья о политике», «любовное письмо») на основе текстового контента. Однако мы еще не знаем правильную категорию каких-либо документов; вместо этого мы хотим сгруппировать их по взаимному сходству. (Например, набор научных статей будет иметь тенденцию быть похожими друг на друга по использованию слов, но сильно отличаться от набора любовных писем.) Это тип обучения без учителя.. (Тот же метод можно использовать для полууправляемого обучения , то есть когда мы знаем правильную категорию некоторой части документов и хотели бы использовать эти знания, чтобы помочь в кластеризации остальных документов.)

Модель выглядит следующим образом:

Во многих отношениях эта модель очень похожа на модель тем LDA, описанную выше, но она предполагает одну тему на документ, а не одну тему на слово, с документом, состоящим из смеси тем. Это ясно видно в приведенной выше модели, которая идентична модели LDA, за исключением того, что существует только одна скрытая переменная на документ, а не одна на слово. И снова мы предполагаем, что мы сворачиваем все априоры Дирихле.

Условная вероятность для данного слова почти идентична случаю LDA. Еще раз, все слова, порожденные одним и тем же апором Дирихле, взаимозависимы. В данном случае это означает, что слова всех документов имеют данную метку - опять же, это может варьироваться в зависимости от назначения меток, но все, что нас волнует, - это общее количество. Следовательно:

куда

Однако существует критическое различие в условном распределении скрытых переменных для присвоений меток, которое заключается в том, что данная переменная метки имеет несколько дочерних узлов вместо одного - в частности, узлов для всех слов в документе метки. Это тесно связано с приведенным выше обсуждением фактора , проистекающего из совместного распределения. В этом случае необходимо совместное распределение по всем словам во всех документах, содержащих присвоение меток, равное значению, и имеет значение полиномиального распределения Дирихле. Более того, мы не можем свести это совместное распределение к условному распределению по одному слову. Скорее, мы можем уменьшить его только до меньшего совместного условного распределения по словам в документе для рассматриваемой метки, и, следовательно, мы не можем упростить его, используя описанный выше трюк, который дает простую сумму ожидаемого количества и предыдущего. Хотя на самом деле его можно переписать как произведение таких индивидуальных сумм, количество факторов очень велико и явно не более эффективно, чем прямое вычисление вероятности полиномиального распределения Дирихле.

Связанные дистрибутивы [ править ]

Одномерная версия полиномиального распределения Дирихле известна как бета-биномиальное распределение .

Полиномиальное распределение Дирихле может быть построено из независимых отрицательных биномиальных случайных величин способом, аналогичным построению полиномиального распределения из независимых пуассоновских случайных величин. [2]

Использует [ редактировать ]

Полиномиальное распределение Дирихле используется в автоматизированной классификации и кластеризации документов, генетике , экономике , боевом моделировании и количественном маркетинге.

См. Также [ править ]

  • Бета-биномиальное распределение
  • Китайский ресторанный процесс
  • Процесс Дирихле
  • Обобщенное распределение Дирихле
  • Оценка Кричевского – Трофимова
  • Отрицательное полиномиальное распределение Дирихле

Ссылки [ править ]

Цитаты [ править ]

  1. ^ a b c Glüsenkamp, ​​T. (2018). «Вероятностная обработка неопределенности от конечного размера взвешенных данных Монте-Карло». EPJ Plus . 133 (6): 218. arXiv : 1712.01293 . Bibcode : 2018EPJP..133..218G . DOI : 10.1140 / epjp / i2018-12042-х . S2CID  125665629 .
  2. ^ Чжоу, М. (2018). «Непараметрический байесовский отрицательный биномиальный факторный анализ» . Байесовский анализ . 13 (4): 1065–1093. DOI : 10.1214 / 17-BA1070 .

Источники [ править ]

  • Элкан, К. (2006) Кластеризация документов с аппроксимацией экспоненциальным семейством составного полиномиального распределения Дирихле . ICML, 289–296.
  • Джонсон, Н.Л., Коц, С. и Балакришнан, Н. (1997) Дискретные многомерные распределения (Том 165). Нью-Йорк: Вили.
  • Квам П. и Дей Д. (2001) Многомерное распределение Polya в боевом моделировании. Логистика военно-морских исследований, 48, 1–17.
  • Мэдсен, Р.Е., Каучак, Д. и Элкан, К. (2005) Моделирование пакетности слов с помощью распределения Дирихле . ICML, 545–552.
  • Минка, Т. (2003) Оценка распределения Дирихле . Технический отчет Microsoft Research. Включает код Matlab для подгонки распределений к данным.
  • Мосиманн, Дж. Э. (1962) О составном полиномиальном распределении, многомерном β-распределении и корреляциях между пропорциями . Биометрика, 49 (1–2), 65–82.
  • Вагнер У. и Таудес А. (1986) Многофакторная поли-модель выбора бренда и количества покупок. Маркетинговая наука, 5 (3), 219–244.