Вероятностная функция масс |
Кумулятивная функция распределения |
Параметры | n ∈ N 0 - количество испытаний ( реальных ) ( реальных )
|
---|
Служба поддержки | k ∈ {0,…, n } |
---|
PMF | |
---|
CDF |
где 3 F 2 ( a , b , k) - обобщенная гипергеометрическая функция |
---|
Иметь в виду | |
---|
Дисперсия | |
---|
Асимметрия | |
---|
Бывший. эксцесс | См. Текст |
---|
MGF | |
---|
CF |
|
---|
PGF | |
---|
В теории вероятностей и статистике , то бета-биномиальное распределение представляет собой семейство дискретных вероятностных распределений на конечные поддержки неотрицательных целых чисел , возникающих , когда вероятность успеха в каждом из фиксированных или известного числа испытаний Бернулли либо неизвестна , либо случайным образом . Бета-биномиальное распределение - это биномиальное распределение, в котором вероятность успеха в каждом из n испытаний не фиксируется, а выбирается случайным образом из бета-распределения . Он часто используется в байесовской статистике , эмпирических байесовских методах иклассическая статистика для выявления избыточной дисперсии в распределенных данных биномиального типа.
Оно сводится к распределению Бернулли как частному случаю, когда n = 1. При α = β = 1 это дискретное равномерное распределение от 0 до n . Он также произвольно хорошо аппроксимирует биномиальное распределение для больших значений α и β . Точно так же оно содержит отрицательное биномиальное распределение в пределе больших β и n . Бета-биномиальное распределение является одномерной версией полиномиального распределения Дирихле, поскольку биномиальное и бета-распределения являются одномерными версиями полиномиального распределения.и Дирихле соответственно.
Мотивация и вывод [ править ]
Как составной дистрибутив [ править ]
Бета распределение является сопряженным распределение в биномиальное распределение . Этот факт приводит к аналитически поддающемуся анализу составному распределению, при котором можно думать о параметре в биномиальном распределении, как о случайно взятом из бета-распределения. А именно, если
тогда
где Bin ( n , p ) обозначает биномиальное распределение , а p - случайная величина с бета-распределением .
тогда составное распределение дается выражением
Используя свойства бета-функции , это можно альтернативно записать
Бета-бином как модель урны [ править ]
Бета-биномиальное распределение также может быть мотивировано моделью урны для положительных целочисленных значений α и β , известной как модель урны Полиа . В частности, представьте урну, содержащую α красных шаров и β черных шаров, в которой делаются случайные розыгрыши. Если наблюдается красный шар, то в урну возвращаются два красных шара. Аналогичным образом, если выпадает черный шар, в урну возвращаются два черных шара. Если это повторить n раз, то вероятность наблюдения k красных шаров следует бета-биномиальному распределению с параметрами n , α и β .
Если случайные розыгрыши выполняются с простой заменой (в урну не добавляются шары, превышающие наблюдаемый шар), то распределение следует биномиальному распределению, а если случайные розыгрыши выполняются без замены, распределение следует гипергеометрическому распределению .
Моменты и свойства [ править ]
Первые три сырые моменты являются
и эксцесса является
Позволить мы отмечаем, намекая, что среднее можно записать в виде
и дисперсия как
где . Этот параметр известен как «внутриклассовая» или «внутрикластерная» корреляция. Именно эта положительная корреляция приводит к чрезмерной дисперсии.
Точечные оценки [ править ]
Метод моментов [ править ]
Метод моментов оценок можно получить, отметив , первый и второй моменты бета-биномиального , а именно
и установив эти исходные моменты равными первому и второму исходным моментам выборки соответственно
и решая относительно α и β, получаем
Эти оценки могут быть бессмысленными отрицательными, что свидетельствует о том, что данные либо не диспергированы, либо недостаточно диспергированы относительно биномиального распределения. В этом случае альтернативными кандидатами являются биномиальное и гипергеометрическое распределение соответственно.
Оценка максимального правдоподобия [ править ]
Хотя оценки максимального правдоподобия в закрытой форме непрактичны, учитывая, что PDF-файл состоит из общих функций (гамма-функция и / или бета-функции), их можно легко найти с помощью прямой численной оптимизации. Оценки максимального правдоподобия на основе эмпирических данных могут быть вычислены с использованием общих методов аппроксимации полиномиальных распределений Полиа, методы для которых описаны в (Minka 2003).
Пакет R VGAM с помощью функции vglm с помощью функции максимального правдоподобия облегчает подгонку моделей типа glm с ответами, распределенными согласно бета-биномиальному распределению. Не требуется, чтобы n было фиксированным на протяжении всех наблюдений.
Пример [ править ]
Следующие данные показывают количество детей мужского пола среди первых 12 детей в семье размером 13 в 6115 семей, взятых из больничных записей в Саксонии XIX века (Sokal and Rohlf, стр. 59 из Lindsey). 13-й ребенок игнорируется, чтобы смягчить эффект неслучайной остановки семей при достижении желаемого пола.
Самцы | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
Семьи | 3 | 24 | 104 | 286 | 670 | 1033 | 1343 | 1112 | 829 | 478 | 181 | 45 | 7 |
Первые два примерных момента:
и поэтому метод оценок моментов
В максимальной вероятностные оценки могут быть найдены численно
а максимальное логарифмическое правдоподобие равно
из которого находим AIC
AIC для конкурирующей биномиальной модели составляет AIC = 25070,34, и, таким образом, мы видим, что бета-биномиальная модель обеспечивает лучшее соответствие данным, т.е. есть свидетельства чрезмерной дисперсии. Трайверс и Уиллард теоретически обосновывают неоднородность (также известную как « взрывоопасность ») гендерной предрасположенности потомства млекопитающих (то есть чрезмерной дисперсии).
Превосходная посадка особенно заметна среди хвостов.
Самцы | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
Наблюдаемые семьи | 3 | 24 | 104 | 286 | 670 | 1033 | 1343 | 1112 | 829 | 478 | 181 | 45 | 7 |
Соответствующее ожидаемое (бета-биномиальное) | 2.3 | 22,6 | 104,8 | 310,9 | 655,7 | 1036,2 | 1257,9 | 1182,1 | 853,6 | 461,9 | 177,9 | 43,8 | 5.2 |
Подгоняемое ожидаемое (биномиальное p = 0,519215) | 0,9 | 12.1 | 71,8 | 258,5 | 628,1 | 1085,2 | 1367,3 | 1265,6 | 854,2 | 410,0 | 132,8 | 26,1 | 2.3 |
Дальнейшие байесовские соображения [ править ]
Распределения удобно повторно параметризовать так, чтобы ожидаемое среднее априорное значение было единственным параметром: Пусть
где
чтобы
Апостериорное распределение ρ ( & thetas ; | к ) также бета - распределения:
А также
в то время как маргинальное распределение m ( k | μ , M ) задается формулой
Подставляя обратно M и μ, через и получается:
которое является ожидаемым бета-биномиальным распределением с параметрами и .
Мы также можем использовать метод повторных ожиданий, чтобы найти ожидаемое значение предельных моментов. Запишем нашу модель в виде двухэтапной модели составной выборки. Пусть k i будет количеством успешных попыток из n i для события i :
Мы можем найти повторные оценки моментов для среднего и дисперсии, используя моменты для распределений в двухступенчатой модели:
(Здесь мы использовали закон полного ожидания и закон полной дисперсии .)
Нам нужны точечные оценки для и . Расчетное среднее значение рассчитывается по выборке.
Оценка гиперпараметра M получается с использованием моментных оценок дисперсии двухэтапной модели:
Решение:
где
Поскольку теперь у нас есть точечные оценки параметров, и для основного распределения мы хотели бы найти точечную оценку вероятности успеха для события i . Это средневзвешенное значение оценки события и . Учитывая наши точечные оценки для предыдущего, мы можем теперь подставить эти значения, чтобы найти точечную оценку для апостериорного
Коэффициенты усадки [ править ]
Мы можем записать апостериорную оценку как средневзвешенную:
где называется коэффициентом усадки .
Связанные дистрибутивы [ править ]
- где - дискретное равномерное распределение .
См. Также [ править ]
- Дирихле-полиномиальное распределение
Ссылки [ править ]
- Минка, Томас П. (2003). Оценка распределения Дирихле . Технический отчет Microsoft.
Внешние ссылки [ править ]
- Использование бета-биномиального распределения для оценки производительности устройства биометрической идентификации
- Fastfit содержит код Matlab для подгонки бета-биномиальных распределений (в форме двумерных распределений Полиа) к данным.
- Интерактивная графика: одномерные отношения распределения
- Бета-биномиальные функции в пакете VGAM R
- Бета-биномиальное распределение в Java-библиотеке Sandia National Labs Cognitive Foundry