Из Википедии, бесплатной энциклопедии
  (Перенаправлено из бета-биномиальной модели )
Перейти к навигации Перейти к поиску

В теории вероятностей и статистике , то бета-биномиальное распределение представляет собой семейство дискретных вероятностных распределений на конечные поддержки неотрицательных целых чисел , возникающих , когда вероятность успеха в каждом из фиксированных или известного числа испытаний Бернулли либо неизвестна , либо случайным образом . Бета-биномиальное распределение - это биномиальное распределение, в котором вероятность успеха в каждом из n испытаний не фиксируется, а выбирается случайным образом из бета-распределения . Он часто используется в байесовской статистике , эмпирических байесовских методах иклассическая статистика для выявления избыточной дисперсии в распределенных данных биномиального типа.

Оно сводится к распределению Бернулли как частному случаю, когда n  = 1. При α  =  β  = 1 это дискретное равномерное распределение от 0 до  n . Он также произвольно хорошо аппроксимирует биномиальное распределение для больших значений α и  β . Точно так же оно содержит отрицательное биномиальное распределение в пределе больших β и n . Бета-биномиальное распределение является одномерной версией полиномиального распределения Дирихле, поскольку биномиальное и бета-распределения являются одномерными версиями полиномиального распределения.и Дирихле соответственно.

Мотивация и вывод [ править ]

Как составной дистрибутив [ править ]

Бета распределение является сопряженным распределение в биномиальное распределение . Этот факт приводит к аналитически поддающемуся анализу составному распределению, при котором можно думать о параметре в биномиальном распределении, как о случайно взятом из бета-распределения. А именно, если

тогда

где Bin ( n , p ) обозначает биномиальное распределение , а p - случайная величина с бета-распределением .

тогда составное распределение дается выражением

Используя свойства бета-функции , это можно альтернативно записать

Бета-бином как модель урны [ править ]

Бета-биномиальное распределение также может быть мотивировано моделью урны для положительных целочисленных значений α и β , известной как модель урны Полиа . В частности, представьте урну, содержащую α красных шаров и β черных шаров, в которой делаются случайные розыгрыши. Если наблюдается красный шар, то в урну возвращаются два красных шара. Аналогичным образом, если выпадает черный шар, в урну возвращаются два черных шара. Если это повторить n раз, то вероятность наблюдения k красных шаров следует бета-биномиальному распределению с параметрами n , α и  β .

Если случайные розыгрыши выполняются с простой заменой (в урну не добавляются шары, превышающие наблюдаемый шар), то распределение следует биномиальному распределению, а если случайные розыгрыши выполняются без замены, распределение следует гипергеометрическому распределению .

Моменты и свойства [ править ]

Первые три сырые моменты являются

и эксцесса является

Позволить мы отмечаем, намекая, что среднее можно записать в виде

и дисперсия как

где . Этот параметр известен как «внутриклассовая» или «внутрикластерная» корреляция. Именно эта положительная корреляция приводит к чрезмерной дисперсии.

Точечные оценки [ править ]

Метод моментов [ править ]

Метод моментов оценок можно получить, отметив , первый и второй моменты бета-биномиального , а именно

и установив эти исходные моменты равными первому и второму исходным моментам выборки соответственно

и решая относительно α и β, получаем

Эти оценки могут быть бессмысленными отрицательными, что свидетельствует о том, что данные либо не диспергированы, либо недостаточно диспергированы относительно биномиального распределения. В этом случае альтернативными кандидатами являются биномиальное и гипергеометрическое распределение соответственно.

Оценка максимального правдоподобия [ править ]

Хотя оценки максимального правдоподобия в закрытой форме непрактичны, учитывая, что PDF-файл состоит из общих функций (гамма-функция и / или бета-функции), их можно легко найти с помощью прямой численной оптимизации. Оценки максимального правдоподобия на основе эмпирических данных могут быть вычислены с использованием общих методов аппроксимации полиномиальных распределений Полиа, методы для которых описаны в (Minka 2003). Пакет R VGAM с помощью функции vglm с помощью функции максимального правдоподобия облегчает подгонку моделей типа glm с ответами, распределенными согласно бета-биномиальному распределению. Не требуется, чтобы n было фиксированным на протяжении всех наблюдений.

Пример [ править ]

Следующие данные показывают количество детей мужского пола среди первых 12 детей в семье размером 13 в 6115 семей, взятых из больничных записей в Саксонии XIX века (Sokal and Rohlf, стр. 59 из Lindsey). 13-й ребенок игнорируется, чтобы смягчить эффект неслучайной остановки семей при достижении желаемого пола.

Первые два примерных момента:

и поэтому метод оценок моментов

В максимальной вероятностные оценки могут быть найдены численно

а максимальное логарифмическое правдоподобие равно

из которого находим AIC

AIC для конкурирующей биномиальной модели составляет AIC = 25070,34, и, таким образом, мы видим, что бета-биномиальная модель обеспечивает лучшее соответствие данным, т.е. есть свидетельства чрезмерной дисперсии. Трайверс и Уиллард теоретически обосновывают неоднородность (также известную как « взрывоопасность ») гендерной предрасположенности потомства млекопитающих (то есть чрезмерной дисперсии).

Превосходная посадка особенно заметна среди хвостов.

Дальнейшие байесовские соображения [ править ]

Распределения удобно повторно параметризовать так, чтобы ожидаемое среднее априорное значение было единственным параметром: Пусть

где

чтобы

Апостериорное распределение ρ ( & thetas ;  |  к ) также бета - распределения:

А также

в то время как маргинальное распределение m ( k | μ , M ) задается формулой

Подставляя обратно M и μ, через и получается:

которое является ожидаемым бета-биномиальным распределением с параметрами и .

Мы также можем использовать метод повторных ожиданий, чтобы найти ожидаемое значение предельных моментов. Запишем нашу модель в виде двухэтапной модели составной выборки. Пусть k i будет количеством успешных попыток из n i для события i :

Мы можем найти повторные оценки моментов для среднего и дисперсии, используя моменты для распределений в двухступенчатой ​​модели:

(Здесь мы использовали закон полного ожидания и закон полной дисперсии .)

Нам нужны точечные оценки для и . Расчетное среднее значение рассчитывается по выборке.

Оценка гиперпараметра M получается с использованием моментных оценок дисперсии двухэтапной модели:

Решение:

где

Поскольку теперь у нас есть точечные оценки параметров, и для основного распределения мы хотели бы найти точечную оценку вероятности успеха для события i . Это средневзвешенное значение оценки события и . Учитывая наши точечные оценки для предыдущего, мы можем теперь подставить эти значения, чтобы найти точечную оценку для апостериорного

Коэффициенты усадки [ править ]

Мы можем записать апостериорную оценку как средневзвешенную:

где называется коэффициентом усадки .

Связанные дистрибутивы [ править ]

  • где - дискретное равномерное распределение .

См. Также [ править ]

  • Дирихле-полиномиальное распределение

Ссылки [ править ]

  • Минка, Томас П. (2003). Оценка распределения Дирихле . Технический отчет Microsoft.

Внешние ссылки [ править ]

  • Использование бета-биномиального распределения для оценки производительности устройства биометрической идентификации
  • Fastfit содержит код Matlab для подгонки бета-биномиальных распределений (в форме двумерных распределений Полиа) к данным.
  • Интерактивная графика: одномерные отношения распределения
  • Бета-биномиальные функции в пакете VGAM R
  • Бета-биномиальное распределение в Java-библиотеке Sandia National Labs Cognitive Foundry