Распределение Конвея – Максвелла – Пуассона.

В теории вероятностей и статистике , то Конвей-Максвелл-Пуассон (CMP или COM-Пуассон) распределение является дискретным распределением вероятностей имени Ричарда У. Конвея , Уильям Л. Максвелла и Пуассона , обобщающее распределение Пуассона , добавив параметр для моделирования избыточной и недостаточной дисперсии . Он является членом экспоненциального семейства , ^[1] имеет распределение Пуассона и геометрическое распределение как частные случаи иРаспределение Бернулли как предельный случай . ^[2]

Конвей – Максвелл – Пуассон
Вероятностная функция масс
Кумулятивная функция распределения
Параметры	${\ displaystyle \ lambda> 0, \ nu \ geq 0}$
Служба поддержки	${\ Displaystyle х \ в \ {0,1,2, \ точки \}}$
PMF	${\ displaystyle {\ frac {\ lambda ^ {x}} {(x!) ^ {\ nu}}} {\ frac {1} {Z (\ lambda, \ nu)}}}$
CDF	${\ Displaystyle \ сумма _ {я = 0} ^ {х} \ Pr (X = я)}$
Иметь в виду	${\ displaystyle \ sum _ {j = 0} ^ {\ infty} {\ frac {j \ lambda ^ {j}} {(j!) ^ {\ nu} Z (\ lambda, \ nu)}}}$
Медиана	Нет закрытой формы
Режим	См. Текст
Дисперсия	${\ displaystyle \ sum _ {j = 0} ^ {\ infty} {\ frac {j ^ {2} \ lambda ^ {j}} {(j!) ^ {\ nu} Z (\ lambda, \ nu) }} - \ operatorname {mean} ^ {2}}$
Асимметрия	Нет в списке
Бывший. эксцесс	Нет в списке
Энтропия	Нет в списке
MGF	${\ Displaystyle {\ гидроразрыва {Z (е ^ {t} \ lambda, \ nu)} {Z (\ lambda, \ nu)}}}$
CF	${\ Displaystyle {\ гидроразрыва {Z (е ^ {it} \ lambda, \ nu)} {Z (\ lambda, \ nu)}}}$

Задний план

Распределение CMP было первоначально предложено Конвеем и Максвеллом в 1962 году ^[3] как решение для обработки систем массового обслуживания с зависящей от состояния скоростью обслуживания. Распределение CMP было введено в статистическую литературу Боутрайтом и др. 2003 ^[4] и Shmueli et al. (2005). ^[2] Первое подробное исследование вероятностных и статистических свойств распределения было опубликовано Shmueli et al. (2005). ^[2] Некоторые теоретические вероятностные результаты распределения COM-Пуассона изучены и рассмотрены Ли и др. (2019), ^[5] особенно характеристики распределения COM-Пуассона.

Вероятностная функция масс и основные свойства

Распределение CMP определяется как распределение с функцией массы вероятности

{\ Displaystyle P (X = x) = е (x; \ lambda, \ nu) = {\ frac {\ lambda ^ {x}} {(x!) ^ {\ nu}}} {\ frac {1} {Z (\ lambda, \ nu)}}.}

где :

{\ displaystyle Z (\ lambda, \ nu) = \ sum _ {j = 0} ^ {\ infty} {\ frac {\ lambda ^ {j}} {(j!) ^ {\ nu}}}.}.

Функция ${\ Displaystyle Z (\ лямбда, \ ню)}$ служит нормировочной константой, поэтому функция массы вероятности в сумме равна единице. Обратите внимание, что ${\ Displaystyle Z (\ лямбда, \ ню)}$ не имеет закрытой формы.

Область допустимых параметров ${\ displaystyle \ lambda, \ nu> 0}$ , а также ${\ Displaystyle 0 <\ лямбда <1}$ , ${\ displaystyle \ nu = 0}$ .

Дополнительный параметр ${\ displaystyle \ nu}$ который не появляется в распределении Пуассона, позволяет регулировать скорость затухания. Эта скорость убывания является нелинейным уменьшением отношения последовательных вероятностей, в частности

{\ displaystyle {\ frac {P (X = x-1)} {P (X = x)}} = {\ frac {x ^ {\ nu}} {\ lambda}}.}

Когда ${\ displaystyle \ nu = 1}$ , распределение CMP становится стандартным распределением Пуассона и как ${\ displaystyle \ nu \ to \ infty}$ , распределение приближается к распределению Бернулли с параметром ${\ displaystyle \ lambda / (1+ \ lambda)}$ . Когда ${\ displaystyle \ nu = 0}$ распределение CMP сводится к геометрическому распределению с вероятностью успеха ${\ displaystyle 1- \ lambda}$ при условии ${\ displaystyle \ lambda <1}$ . ^[2]

Для распределения CMP моменты могут быть найдены с помощью рекурсивной формулы ^[2]

{\ displaystyle \ operatorname {E} [X ^ {r + 1}] = {\ begin {cases} \ lambda \, \ operatorname {E} [X + 1] ^ {1- \ nu} & {\ text { if}} r = 0 \\\ lambda \, {\ frac {d} {d \ lambda}} \ operatorname {E} [X ^ {r}] + \ operatorname {E} [X] \ operatorname {E} [X ^ {r}] & {\ text {if}} r> 0. \\\ end {case}}}

Кумулятивная функция распределения

Для общего ${\ displaystyle \ nu}$ , Не существует замкнутая форма формулы для интегральной функции распределения по ${\ Displaystyle X \ sim \ mathrm {CMP} (\ lambda, \ nu)}$ . Если ${\ displaystyle \ nu \ geq 1}$ является целым числом, однако мы можем получить следующую формулу в терминах обобщенной гипергеометрической функции : ^[6]

{\ Displaystyle F (n) = P (X \ Leq n) = 1 - {\ frac {_ {1} F _ {\ nu -1} (; n + 2, \ ldots, n + 2; \ lambda)} {{\ {(n + 1)! \} ^ {\ nu -1}} _ {0} F _ {\ nu -1} (; 1, \ ldots, 1; \ lambda)}}.}.}

Нормирующая постоянная

Многие важные сводные статистические данные, такие как моменты и кумулянты, распределения CMP могут быть выражены в терминах нормирующей константы. ${\ Displaystyle Z (\ лямбда, \ ню)}$ . ^[2]^[7] Действительно, производящая функция вероятности имеет вид ${\ Displaystyle \ OperatorName {E} s ^ {X} = Z (s \ lambda, \ nu) / Z (\ lambda, \ nu)}$ , а среднее и дисперсия даются как

{\ displaystyle \ operatorname {E} X = \ lambda {\ frac {d} {d \ lambda}} {\ big \ {} \ ln (Z (\ lambda, \ nu)) {\ big \}},}

{\ displaystyle \ operatorname {var} (X) = \ lambda {\ frac {d} {d \ lambda}} \ operatorname {E} X.}

Функция генерирования кумулянта является

{\ Displaystyle г (T) = \ пер (\ OperatorName {E} [е ^ {tX}]) = \ пер (Z (\ лямбда е ^ {т}, \ ню)) - \ пер (Z (\ лямбда , \ nu)),}

и кумулянты даются

{\ displaystyle \ kappa _ {n} = g ^ {(n)} (0) = {\ frac {\ partial ^ {n}} {\ partial t ^ {n}}} \ ln (Z (\ lambda e ^ {t}, \ nu)) {\ bigg |} _ {t = 0}, \ quad n \ geq 1.}

В то время как нормализующая постоянная ${\ Displaystyle Z (\ lambda, \ nu) = \ sum _ {я = 0} ^ {\ infty} {\ frac {\ lambda ^ {i}} {(я!) ^ {\ nu}}}}$ вообще не имеет закрытой формы, есть некоторые заслуживающие внимания частные случаи:

${\ Displaystyle Z (\ lambda, 1) = \ mathrm {e} ^ {\ lambda}}$
${\ Displaystyle Z (\ лямбда, 0) = (1- \ лямбда) ^ {- 1}}$
${\ displaystyle \ lim _ {\ nu \ rightarrow \ infty} Z (\ lambda, \ nu) = 1 + \ lambda}$
${\ Displaystyle Z (\ lambda, 2) = I_ {0} (2 {\ sqrt {\ lambda}})}$ , где ${\ displaystyle I_ {0} (x) = \ sum _ {k = 0} ^ {\ infty} {\ frac {1} {(k!) ^ {2}}} {\ big (} {\ frac { x} {2}} {\ big)} ^ {2k}}$ является модифицированной функцией Бесселя первого рода. ^[7]
Для целого числа ${\ displaystyle \ nu}$ , нормирующая постоянная может быть выражена ^[6] в виде обобщенной гипергеометрической функции: ${\ Displaystyle Z (\ lambda, \ nu) = _ {0} F _ {\ nu -1} (; 1, \ ldots, 1; \ lambda)}$ .

Поскольку нормирующая постоянная, вообще говоря, не имеет замкнутого вида, представляет интерес следующее асимптотическое разложение . Исправить ${\ displaystyle \ nu> 0}$ . Тогда как ${\ displaystyle \ lambda \ rightarrow \ infty}$ , ^[8]

{\ Displaystyle Z (\ лямбда, \ ню) = {\ гидроразрыва {\ ехр \ влево \ {\ ню \ лямбда ^ {1 / \ ню} \ право \}} {\ лямбда ^ {(\ ню -1) / 2 \ nu} (2 \ pi) ^ {(\ nu -1) / 2} {\ sqrt {\ nu}}}} \ sum _ {k = 0} ^ {\ infty} c_ {k} {\ big (} \ nu \ lambda ^ {1 / \ nu} {\ big)} ^ {- k},}

где ${\ displaystyle c_ {j}}$ однозначно определяются разложением

{\ displaystyle \ left (\ Gamma (t + 1) \ right) ^ {- \ nu} = {\ frac {\ nu ^ {\ nu (t + 1/2)}} {\ left (2 \ pi \ справа) ^ {(\ nu -1) / 2}}} \ sum _ {j = 0} ^ {\ infty} {\ frac {c_ {j}} {\ Gamma (\ nu t + (1+ \ nu) / 2 + j)}}.}

В частности, ${\ displaystyle c_ {0} = 1}$ , ${\ displaystyle c_ {1} = {\ frac {\ nu ^ {2} -1} {24}}}$ , ${\ displaystyle c_ {2} = {\ frac {\ nu ^ {2} -1} {1152}} \ left (\ nu ^ {2} +23 \ right)}$ . Дополнительные коэффициенты приведены в ^[8]

Моменты, кумулянты и связанные результаты

Для общих значений ${\ displaystyle \ nu}$ , не существует закрытых формул для среднего, дисперсии и моментов распределения ОСМ. Однако у нас есть следующая изящная формула. ^[7] Пусть ${\ Displaystyle (J) _ {г} = J (J-1) \ CDOTS (J-R + 1)}$ обозначают падающий факториал . Позволять ${\ Displaystyle X \ sim \ mathrm {CMP} (\ lambda, \ nu)}$ , ${\ displaystyle \ lambda, \ nu> 0}$ . потом

{\ Displaystyle \ OperatorName {E} [((X) _ {r}) ^ {\ nu}] = \ lambda ^ {r},}

для ${\ Displaystyle г \ в \ mathbb {N}}$ .

Поскольку в общем случае формулы замкнутой формы недоступны для моментов и кумулянтов распределения CMP, представляют интерес следующие асимптотические формулы. Позволять ${\ Displaystyle X \ sim \ mathrm {CMP} (\ lambda, \ nu)}$ , где ${\ displaystyle \ nu> 0}$ . Обозначим асимметрию ${\ displaystyle \ gamma _ {1} = {\ frac {\ kappa _ {3}} {\ sigma ^ {3}}}}$ и избыточный эксцесс ${\ displaystyle \ gamma _ {2} = {\ frac {\ kappa _ {4}} {\ sigma ^ {4}}}}$ , где ${\ Displaystyle \ sigma ^ {2} = \ mathrm {Var} (X)}$ . Тогда как ${\ displaystyle \ lambda \ rightarrow \ infty}$ , ^[8]

{\ displaystyle \ operatorname {E} X = \ lambda ^ {1 / \ nu} \ left (1 - {\ frac {\ nu -1} {2 \ nu}} \ lambda ^ {- 1 / \ nu} - {\ frac {\ nu ^ {2} -1} {24 \ nu ^ {2}}} \ lambda ^ {- 2 / \ nu} - {\ frac {\ nu ^ {2} -1} {24 \ nu ^ {3}}} \ lambda ^ {- 3 / \ nu} + {\ mathcal {O}} (\ lambda ^ {- 4 / \ nu}) \ right),}

{\ displaystyle \ mathrm {Var} (X) = {\ frac {\ lambda ^ {1 / \ nu}} {\ nu}} {\ bigg (} 1 + {\ frac {\ nu ^ {2} -1 } {24 \ nu ^ {2}}} \ lambda ^ {- 2 / \ nu} + {\ frac {\ nu ^ {2} -1} {12 \ nu ^ {3}}} \ lambda ^ {- 3 / \ nu} + {\ mathcal {O}} (\ lambda ^ {- 4 / \ nu}) {\ bigg)},}

{\ displaystyle \ kappa _ {n} = {\ frac {\ lambda ^ {1 / \ nu}} {\ nu ^ {n-1}}} {\ bigg (} 1 + {\ frac {(-1) ^ {n} (\ nu ^ {2} -1)} {24 \ nu ^ {2}}} \ lambda ^ {- 2 / \ nu} + {\ frac {(-2) ^ {n} (\ nu ^ {2} -1)} {48 \ nu ^ {3}}} \ lambda ^ {- 3 / \ nu} + {\ mathcal {O}} (\ lambda ^ {- 4 / \ nu}) { \ bigg)},}

{\ displaystyle \ gamma _ {1} = {\ frac {\ lambda ^ {- 1/2 \ nu}} {\ sqrt {\ nu}}} {\ bigg (} 1 - {\ frac {5 (\ nu ^ {2} -1)} {48 \ nu ^ {2}}} \ lambda ^ {- 2 / \ nu} - {\ frac {7 (\ nu ^ {2} -1)} {24 \ nu ^ {3}}} \ lambda ^ {- 3 / \ nu} + {\ mathcal {O}} (\ lambda ^ {- 4 / \ nu}) {\ bigg)},}

{\ displaystyle \ gamma _ {2} = {\ frac {\ lambda ^ {- 1 / \ nu}} {\ nu}} {\ bigg (} 1 - {\ frac {(\ nu ^ {2} -1 )} {24 \ nu ^ {2}}} \ lambda ^ {- 2 / \ nu} + {\ frac {(\ nu ^ {2} -1)} {6 \ nu ^ {3}}} \ lambda ^ {- 3 / \ nu} + {\ mathcal {O}} (\ lambda ^ {- 4 / \ nu}) {\ bigg)},}

{\ displaystyle \ operatorname {E} [X ^ {n}] = \ lambda ^ {n / \ nu} {\ bigg (} 1 + {\ frac {n (n- \ nu)} {2 \ nu}} \ lambda ^ {- 1 / \ nu} + a_ {2} \ lambda ^ {- 2 / \ nu} + {\ mathcal {O}} (\ lambda ^ {- 3 / \ nu}) {\ bigg)} ,}

где

{\ displaystyle a_ {2} = - {\ frac {n (\ nu -1) (6n \ nu ^ {2} -3n \ nu -15n + 4 \ nu +10)} {24 \ nu ^ {2} }} + {\ frac {1} {\ nu ^ {2}}} {\ bigg \ {} {\ binom {n} {3}} + 3 {\ binom {n} {4}} {\ bigg \ }}.}

Асимптотический ряд для ${\ displaystyle \ kappa _ {n}}$ справедливо для всех ${\ Displaystyle п \ geq 2}$ , а также ${\ displaystyle \ kappa _ {1} = \ operatorname {E} X}$ .

Моменты для случая целого числа ${\ displaystyle \ nu}$

Когда ${\ displaystyle \ nu}$ - целое число, можно получить явные формулы для моментов . Дело ${\ displaystyle \ nu = 1}$ соответствует распределению Пуассона. Предположим теперь, что ${\ displaystyle \ nu = 2}$ . Для ${\ displaystyle m \ in \ mathbb {N}}$ , ^[7]

{\ displaystyle \ operatorname {E} [(X) _ {m}] = {\ frac {\ lambda ^ {m / 2} I_ {m} (2 {\ sqrt {\ lambda}})} {I_ {0 } (2 {\ sqrt {\ lambda}})}}.}

Использование соединительной формулы для моментов и факторных моментов дает

{\ displaystyle \ operatorname {E} X ^ {m} = \ sum _ {k = 1} ^ {m} \ left \ {{m \ atop k} \ right \} {\ frac {\ lambda ^ {k / 2} I_ {k} (2 {\ sqrt {\ lambda}})} {I_ {0} (2 {\ sqrt {\ lambda}})}}.}.

В частности, среднее значение ${\ displaystyle X}$ дан кем-то

{\ displaystyle \ operatorname {E} X = {\ frac {{\ sqrt {\ lambda}} I_ {1} (2 {\ sqrt {\ lambda}})} {I_ {0} (2 {\ sqrt {\ лямбда}})}}.}

Кроме того, поскольку ${\ displaystyle \ operatorname {E} X ^ {2} = \ lambda}$ , дисперсия определяется выражением

{\ displaystyle \ mathrm {Var} (X) = \ lambda \ left (1 - {\ frac {I_ {1} (2 {\ sqrt {\ lambda}})) ^ {2}} {I_ {0} (2 {\ sqrt {\ lambda}}) ^ {2}}} \ right).}

Предположим теперь, что ${\ displaystyle \ nu \ geq 1}$ целое число. Тогда ^[6]

{\ displaystyle \ operatorname {E} [(X) _ {m}] = {\ frac {\ lambda ^ {m}} {(m!) ^ {\ nu -1}}} {\ frac {_ {0 } F _ {\ nu -1} (; m + 1, \ ldots, m + 1; \ lambda)} {_ {0} F _ {\ nu -1} (; 1, \ ldots, 1; \ lambda)} }.}

В частности,

{\ displaystyle \ operatorname {E} [X] = \ lambda {\ frac {_ {0} F _ {\ nu -1} (; 2, \ ldots, 2; \ lambda)} {_ {0} F _ {\ nu -1} (; 1, \ ldots, 1; \ lambda)}},}

а также

${\ displaystyle \ mathrm {Var} (X) = {\ frac {\ lambda ^ {2}} {2 ^ {\ nu -1}}} {\ frac {_ {0} F _ {\ nu -1} ( ; 3, \ ldots, 3; \ lambda)} {_ {0} F _ {\ nu -1} (; 1, \ ldots, 1; \ lambda)}} + \ operatorname {E} [X] - (\ имя оператора {E} [X]) ^ {2}.}$

Медиана, мода и среднее отклонение

Позволять ${\ Displaystyle X \ sim \ mathrm {CMP} (\ lambda, \ nu)}$ . Тогда режим из ${\ displaystyle X}$ является ${\ Displaystyle \ lfloor \ lambda ^ {1 / \ nu} \ rfloor}$ если ${\ displaystyle \ lambda ^ {1 / \ nu} <м}$ не является целым числом. В противном случае режимы ${\ displaystyle X}$ находятся ${\ displaystyle \ lambda ^ {1 / \ nu}}$ а также ${\ displaystyle \ lambda ^ {1 / \ nu} -1}$ . ^[7]

Среднее отклонение ${\ displaystyle X ^ {\ nu}}$ о его значении ${\ displaystyle \ lambda}$ дается ^[7]

{\ displaystyle \ operatorname {E} | X ^ {\ nu} - \ lambda | = 2Z (\ lambda, \ nu) ^ {- 1} {\ frac {\ lambda ^ {\ lfloor \ lambda ^ {1 / \ nu} \ rfloor +1}} {\ lfloor \ lambda ^ {1 / \ nu} \ rfloor!}}.}.}

Нет Явная формула не известен медианы из ${\ displaystyle X}$ , но имеется следующий асимптотический результат. ^[7] Пусть ${\ displaystyle m}$ быть средним из ${\ Displaystyle X \ sim {\ mbox {CMP}} (\ lambda, \ nu)}$ . потом

{\ displaystyle m = \ lambda ^ {1 / \ nu} + {\ mathcal {O}} \ left (\ lambda ^ {1/2 \ nu} \ right),}

в виде ${\ displaystyle \ lambda \ rightarrow \ infty}$ .

Характеристика Штейна

Позволять ${\ Displaystyle X \ sim {\ mbox {CMP}} (\ lambda, \ nu)}$ , и предположим, что ${\ Displaystyle f: \ mathbb {Z} ^ {+} \ mapsto \ mathbb {R}}$ таково, что ${\ Displaystyle \ OperatorName {E} | е (X + 1) | <\ infty}$ а также ${\ Displaystyle \ OperatorName {E} | X ^ {\ nu} f (X) | <\ infty}$ . потом

{\ displaystyle \ operatorname {E} [\ lambda f (X + 1) -X ^ {\ nu} f (X)] = 0.}

Наоборот, предположим теперь, что ${\ displaystyle W}$ является случайной величиной с действительным знаком, поддерживаемой на ${\ Displaystyle \ mathbb {Z} ^ {+}}$ такой, что ${\ displaystyle \ operatorname {E} [\ lambda f (W + 1) -W ^ {\ nu} f (W)] = 0}$ для всех ограниченных ${\ Displaystyle f: \ mathbb {Z} ^ {+} \ mapsto \ mathbb {R}}$ . потом ${\ Displaystyle W \ sim {\ mbox {CMP}} (\ lambda, \ nu)}$ . ^[7]

Использовать как ограничивающее распространение

Позволять ${\ displaystyle Y_ {n}}$ имеют биномиальное распределение Конвея – Максвелла с параметрами ${\ displaystyle n}$ , ${\ Displaystyle р = \ лямбда / п ^ {\ ню}}$ а также ${\ displaystyle \ nu}$ . Исправить ${\ displaystyle \ lambda> 0}$ а также ${\ displaystyle \ nu> 0}$ . Потом, ${\ displaystyle Y_ {n}}$ сходится по распределению к ${\ Displaystyle \ mathrm {CMP} (\ lambda, \ nu)}$ распространение как ${\ Displaystyle п \ rightarrow \ infty}$ . ^[7] Этот результат обобщает классическое пуассоновское приближение биномиального распределения. В более общем смысле, распределение CMP возникает как предельное распределение биномиального распределения Конвея – Максвелла – Пуассона. ^[7] Помимо того факта, что COM-бином приближается к COM-Poisson, Zhang et al. (2018) ^[9] иллюстрирует, что COM-отрицательное биномиальное распределение с функцией массы вероятности

{\ displaystyle \ mathrm {P} (X = k) = {\ frac {{{({\ frac {\ Gamma (r + k)} {k! \ Gamma (r)}})} ^ {\ nu} } {p ^ {k}} {{(1-p)} ^ {r}}} {\ sum \ limits _ {i = 0} ^ {\ infty} {{({\ frac {\ Gamma (r + i)} {i! \ Gamma (r)}})} ^ {\ nu}} {p ^ {i}} {{(1-p)} ^ {r}}}} = {{\ left ({ \ frac {\ Gamma (r + k)} {k! \ Gamma (r)}} \ right)} ^ {\ nu}} {{p ^ {k}} {{(1-p)} ^ {r }}} {\ frac {1} {C (r, \ nu, p)}}, \ quad (k = 0,1,2, \ ldots),}

сходится к предельному распределению, которое является COM-Пуассоном, как ${\ displaystyle {r \ to + \ infty}}$ .

Связанные дистрибутивы

${\ Displaystyle X \ sim \ OperatorName {CMP} (\ lambda, 1)}$ , тогда ${\ displaystyle X}$ следует распределению Пуассона с параметром ${\ displaystyle \ lambda}$ .
Предполагать ${\ displaystyle \ lambda <1}$ . Тогда если ${\ Displaystyle X \ sim \ mathrm {CMP} (\ lambda, 0)}$ у нас есть это ${\ displaystyle X}$ следует геометрическому распределению с функцией массы вероятности ${\ Displaystyle Р (Икс = К) = \ лямбда ^ {к} (1- \ лямбда)}$ , ${\ Displaystyle к \ geq 0}$ .
Последовательность случайной величины ${\ Displaystyle X _ {\ nu} \ sim \ mathrm {CMP} (\ lambda, \ nu)}$ сходится по распределению как ${\ displaystyle \ nu \ rightarrow \ infty}$ распределению Бернулли со средним ${\ displaystyle \ lambda (1+ \ lambda) ^ {- 1}}$ .

Оценка параметров

Существует несколько методов оценки параметров распределения CMP по данным. Будут обсуждены два метода: взвешенный метод наименьших квадратов и метод максимального правдоподобия. Подход взвешенных наименьших квадратов прост и эффективен, но ему не хватает точности. С другой стороны, максимальная вероятность точна, но более сложна и требует больших вычислительных ресурсов.

Взвешенный метод наименьших квадратов

Метод взвешенных наименьших квадратов обеспечивает простой и эффективный метод получения приблизительных оценок параметров распределения CMP и определения того, будет ли это распределение подходящей моделью. После использования этого метода следует использовать альтернативный метод для вычисления более точных оценок параметров, если модель считается подходящей.

Этот метод использует отношения последовательных вероятностей, как обсуждалось выше. Логарифмируя обе части этого уравнения, возникает следующая линейная зависимость

{\ displaystyle \ log {\ frac {p_ {x-1}} {p_ {x}}} = - \ log \ lambda + \ nu \ log x}

где ${\ displaystyle p_ {x}}$ обозначает ${\ Displaystyle \ Pr (Х = х)}$ . При оценке параметров, вероятности могут быть заменены относительными частотами от ${\ displaystyle x}$ а также ${\ displaystyle x-1}$ . Чтобы определить, является ли распределение CMP подходящей моделью, эти значения должны быть сопоставлены с ${\ Displaystyle \ журнал х}$ для всех соотношений без нулевых отсчетов. Если данные кажутся линейными, то модель, скорее всего, подходит.

Как только соответствие модели определено, параметры могут быть оценены путем аппроксимации регрессии ${\ displaystyle \ log ({\ hat {p}} _ {x-1} / {\ hat {p}} _ {x})}$ на ${\ Displaystyle \ журнал х}$ . Однако основное предположение о гомоскедастичности нарушено, поэтому необходимо использовать взвешенную регрессию наименьших квадратов . Матрица обратных весов будет иметь дисперсии каждого отношения на диагонали с одношаговыми ковариациями на первой недиагонали, обе приведены ниже.

{\ displaystyle \ operatorname {var} \ left [\ log {\ frac {{\ hat {p}} _ {x-1}} {{\ hat {p}} _ {x}}} \ right] \ приблизительно {\ frac {1} {np_ {x}}} + {\ frac {1} {np_ {x-1}}}}

{\ displaystyle {\ text {cov}} \ left (\ log {\ frac {{\ hat {p}} _ {x-1}} {{\ hat {p}} _ {x}}}, \ log {\ frac {{\ hat {p}} _ {x}} {{\ hat {p}} _ {x + 1}}} \ right) \ приблизительно - {\ frac {1} {np_ {x}} }}

Максимальная вероятность

Функция правдоподобия CMP равна

{\ displaystyle {\ mathcal {L}} (\ lambda, \ nu \ mid x_ {1}, \ dots, x_ {n}) = \ lambda ^ {S_ {1}} \ exp (- \ nu S_ {2 }) Z ^ {- n} (\ lambda, \ nu)}

где ${\ Displaystyle S_ {1} = \ сумма _ {я = 1} ^ {п} x_ {я}}$ а также ${\ displaystyle S_ {2} = \ sum _ {i = 1} ^ {n} \ log x_ {i}!}$ . Максимизация правдоподобия дает следующие два уравнения

{\ displaystyle \ operatorname {E} [X] = {\ bar {X}}}

{\ displaystyle \ operatorname {E} [\ log X!] = {\ overline {\ log X!}}}

которые не имеют аналитического решения.

Вместо этого оценки максимального правдоподобия аппроксимируются численно методом Ньютона – Рафсона . На каждой итерации ожидания, дисперсии и ковариация ${\ displaystyle X}$ а также ${\ displaystyle \ log X!}$ аппроксимируются с использованием оценок для ${\ displaystyle \ lambda}$ а также ${\ displaystyle \ nu}$ из предыдущей итерации в выражении

{\ Displaystyle \ OperatorName {E} [е (х)] = \ сумма _ {j = 0} ^ {\ infty} f (j) {\ frac {\ lambda ^ {j}} {(j!) ^ { \ nu} Z (\ lambda, \ nu)}}.}

Это продолжается до схождения ${\ displaystyle {\ hat {\ lambda}}}$ а также ${\ displaystyle {\ hat {\ nu}}}$ .

Обобщенная линейная модель

Обсуждаемое выше базовое распределение CMP также использовалось в качестве основы для обобщенной линейной модели (GLM), использующей байесовскую формулировку. Был разработан двухканальный GLM, основанный на распределении CMP ^[10], и эта модель использовалась для оценки данных о дорожно-транспортных происшествиях. ^[11]^[12] CMP GLM, разработанный Guikema и Coffelt (2008), основан на переформулировке приведенного выше распределения CMP, заменяющей ${\ displaystyle \ lambda}$ с участием ${\ displaystyle \ mu = \ lambda ^ {1 / \ nu}}$ . Неотъемлемая часть ${\ displaystyle \ mu}$ это тогда режим распределения. Был использован подход полной байесовской оценки с выборкой MCMC, реализованной в WinBugs с неинформативными априорными значениями для параметров регрессии. ^[10]^[11] Этот подход требует больших вычислительных ресурсов, но он дает полные апостериорные распределения для параметров регрессии и позволяет использовать экспертные знания с помощью информативных априорных значений.

Была разработана классическая формулировка GLM для регрессии CMP, которая обобщает регрессию Пуассона и логистическую регрессию . ^{[13] При} этом используются преимущества экспоненциального семейства распределения CMP для получения элегантной оценки модели (посредством максимального правдоподобия ), вывода, диагностики и интерпретации. Этот подход требует значительно меньше вычислительного времени, чем байесовский подход, за счет того, что не позволяет включить экспертные знания в модель. ^[13] Кроме того, он дает стандартные ошибки для параметров регрессии (через информационную матрицу Фишера) по сравнению с полными апостериорными распределениями, полученными с помощью байесовской формулировки. Он также обеспечивает статистический тест уровня дисперсии по сравнению с моделью Пуассона. Доступен код для подгонки регрессии CMP, тестирования дисперсии и оценки соответствия. ^[14]

Две структуры GLM, разработанные для распределения CMP, значительно расширяют полезность этого распределения для задач анализа данных.

Внешние ссылки

Дистрибутив Конвея – Максвелла – Пуассона для R (compoisson) Джеффри Данна, часть Comprehensive R Archive Network (CRAN)
Дистрибутив Конвея – Максвелла – Пуассона для R (compoisson) Тома Минки, сторонний пакет

[SAS2015-1] «Регрессия Конвея – Максвелла – Пуассона» . Поддержка SAS . Институт САС, Инк . Проверено 2 марта 2015 года .

[S05-2] Шмуэли Г., Минка Т., Кадане Дж. Б., Борле С. и Боутрайт П. Б. «Полезное распределение для подгонки дискретных данных: возрождение распределения Конвея – Максвелла – Пуассона». Журнал Королевского статистического общества : Серия C (Прикладная статистика) 54.1 (2005): 127–142. [1]

[3] Конвей, RW; Максвелл, У.Л. (1962), "Модель организации очередей со скоростью обслуживания, зависящей от состояния", Journal of Industrial Engineering , 12 : 132–136

[Boatwright03-4] Боутрайт, П., Борле, С. и Кадан, Дж. Б. «Модель совместного распределения количества и сроков закупок». Журнал Американской статистической ассоциации 98 (2003): 564–572.

[L19-5] Ли Б., Чжан Х., Цзяо Х. «Некоторые характеристики и свойства COM-пуассоновских случайных величин». Коммуникации в статистике - теория и методы, (2019). [2]

[N09-6] Надараджа, С. «Полезный момент и формулировки CDF для распределения COM – Пуассона». Статистические документы 50 (2009): 617–622.

[DG16-7] ^ a b c d e f g h i j Дали Ф. и Гонт Р. Р. "Распределение Конвея – Максвелла – Пуассона: теория распределения и приближение». Латиноамериканский журнал вероятностей и математической статистики ALEA 13 (2016): 635–658.

[Gauntetal17-8] Гаунт, Р. Э., Айенгар, С., Олде Даалхуис, А. Б. и Симсек, Б. «Асимптотическое разложение для нормирующей константы распределения Конвея – Максвелла – Пуассона». Появиться в Анналах Института статистической математики (2017+) DOI 10.1007 / s10463-017-0629-6

[Zhang18-9] Чжан Х., Тан К., Ли Б. "COM-отрицательное биномиальное распределение: моделирование сверхдисперсии и сверхвысоких нулевых завышенных данных подсчета". Границы математики в Китае, 2018, 13 (4): 967–998. [3]

[GC-10] Гикема, С.Д. и Дж. П. Коффельт (2008) «Гибкая модель регрессии данных подсчета для анализа рисков», Анализ рисков , 28 (1), 213–223. DOI : 10.1111 / j.1539-6924.2008.01014.x

[Lord1-11] Лорд, Д., С. Д. Гикема и С. Р. Джедипали (2008) "Применение обобщенной линейной модели Конвея – Максвелла – Пуассона для анализа дорожно- транспортных происшествий", Анализ и предотвращение аварий , 40 (3), 1123–1134. DOI : 10.1016 / j.aap.2007.12.003

[Lord2-12] Лорд Д., SR Geedipally и SD Guikema (2010) "Расширение применения Conway-Максвелла-Пуассона модели: Анализ трафика данныхДТПпроявляющие Under-дисперсионная" Анализ риска , 30 (8), 1268-1276. DOI : 10.1111 / j.1539-6924.2010.01417.x

[SS-13] Селлерс, К.С. и Шмуэли, Г. (2010), «Гибкая модель регрессии для данных подсчета» , Annals of Applied Statistics , 4 (2), 943–961

[14] Код для моделирования COM_Poisson , Georgetown Univ.

[1]