распределение Пуассона

В теории вероятностей и статистике , то распределение Пуассона ( / р ж ɑ ы ɒ н / ; французское произношение: [pwasɔ] ), названное в честь французского математик Дениса Пуассона , является дискретным распределением вероятностей , выражающее вероятность заданного числа события, происходящие в фиксированном интервале времени или пространства, если эти события происходят с известной постоянной средней скоростью и независимо от времени, прошедшего с момента последнего события. ^[1] Распределение Пуассона также можно использовать для количества событий в других заданных интервалах, таких как расстояние, площадь или объем.

Распределение Пуассона
Вероятностная функция масс По горизонтальной оси отложен индекс k , количество вхождений. λ - ожидаемая частота появления. По вертикальной оси отложена вероятность k событий при λ . Функция определяется только при целочисленных значениях k ; соединительные линии служат лишь ориентирами для глаз.
Кумулятивная функция распределения По горизонтальной оси отложен индекс k , количество вхождений. Функция CDF не является непрерывной для целых чисел k и плоской везде, потому что переменная с распределением Пуассона принимает только целые значения.
Обозначение	${\ displaystyle \ operatorname {Pois} (\ lambda)}$
Параметры	${\ Displaystyle \ лямбда \ в (0, \ infty)}$ (показатель)
Служба поддержки	${\ Displaystyle к \ ин \ mathbb {N} _ {0}}$ ( Натуральные числа начиная с 0)
PMF	${\ displaystyle {\ frac {\ lambda ^ {k} e ^ {- \ lambda}} {k!}}}$
CDF	${\ displaystyle {\ frac {\ Gamma (\ lfloor k + 1 \ rfloor, \ lambda)} {\ lfloor k \ rfloor!}}}$ , или же ${\ displaystyle e ^ {- \ lambda} \ sum _ {i = 0} ^ {\ lfloor k \ rfloor} {\ frac {\ lambda ^ {i}} {i!}} \}$ , или же ${\ Displaystyle Q (\ lfloor k + 1 \ rfloor, \ lambda)}$ (для ${\ Displaystyle к \ geq 0}$ , где ${\ Displaystyle \ Гамма (х, у)}$ - верхняя неполная гамма-функция , ${\ displaystyle \ lfloor k \ rfloor}$ - минимальная функция , Q - регуляризованная гамма-функция )
Иметь в виду	${\ displaystyle \ lambda}$
Медиана	${\ displaystyle \ приблизительно \ lfloor \ lambda + 1 / 3-0.02 / \ lambda \ rfloor}$
Режим	${\ displaystyle \ lceil \ lambda \ rceil -1, \ lfloor \ lambda \ rfloor}$
Дисперсия	${\ displaystyle \ lambda}$
Асимметрия	${\ displaystyle \ lambda ^ {- 1/2}}$
Бывший. эксцесс	${\ displaystyle \ lambda ^ {- 1}}$
Энтропия	${\ displaystyle \ lambda [1- \ log (\ lambda)] + e ^ {- \ lambda} \ sum _ {k = 0} ^ {\ infty} {\ frac {\ lambda ^ {k} \ log (k !)} {k!}}}$ (для больших ${\ displaystyle \ lambda}$ ) ${\ displaystyle {\ frac {1} {2}} \ log (2 \ pi e \ lambda) - {\ frac {1} {12 \ lambda}} - {\ frac {1} {24 \ lambda ^ {2 }}} - {}}$ ${\ displaystyle \ qquad {\ frac {19} {360 \ lambda ^ {3}}} + O \ left ({\ frac {1} {\ lambda ^ {4}}} \ right)}$
MGF	${\ Displaystyle \ ехр [\ лямбда (е ^ {т} -1)]}$
CF	${\ Displaystyle \ ехр [\ лямбда (е ^ {это} -1)]}$
PGF	${\ Displaystyle \ ехр [\ лямбда (г-1)]}$
Информация Fisher	${\ displaystyle {\ frac {1} {\ lambda}}}$

Например, колл-центр принимает в среднем 180 звонков в час 24 часа в сутки. Звонки независимы; получение одного не меняет вероятность прибытия следующего. Количество звонков, полученных в течение любой минуты, имеет распределение вероятностей Пуассона: наиболее вероятные числа - 2 и 3, но также вероятны 1 и 4, и есть небольшая вероятность того, что оно будет равно нулю, и очень небольшая вероятность, что это может быть. 10. Другой пример - количество событий распада радиоактивного источника в течение определенного периода наблюдения.

Определения

Вероятностная функция масс

Говорят, что дискретная случайная величина $X$ имеет распределение Пуассона с параметром ${\ displaystyle \ lambda> 0}$ , если он имеет функцию массы вероятности, заданную как: ^[2]^{: 60}

{\ displaystyle \! е (к; \ lambda) = \ Pr (X {=} k) = {\ frac {\ lambda ^ {k} e ^ {- \ lambda}} {k!}},}

где

$k$ - количество вхождений ( ${\ Displaystyle к = 0,1,2 ...}$ )
$e$ - число Эйлера ( ${\ displaystyle e = 2,71828 ...}$ )
! - факториальная функция.

Положительное действительное число $λ$ равно ожидаемой величине из $X$ , а также к его дисперсии ^[3]

{\ displaystyle \ lambda = \ operatorname {E} (X) = \ operatorname {Var} (X).}

Распределение Пуассона можно применять к системам с большим количеством возможных событий, каждое из которых является редким . Количество таких событий, которые происходят в течение фиксированного интервала времени, при определенных обстоятельствах является случайным числом с распределением Пуассона.

Уравнение можно адаптировать, если вместо среднего количества событий ${\ displaystyle \ lambda}$ , нам дана временная ставка на количество событий ${\ displaystyle r}$ произойдет. потом ${\ displaystyle \ lambda = rt}$ (показывая ${\ displaystyle r}$ количество событий в единицу времени), и

{\ displaystyle P (k {\ text {события в интервале}} t) = {\ frac {(rt) ^ {k} e ^ {- rt}} {k!}}}

Пример

Распределение Пуассона может быть полезно для моделирования таких событий, как

Количество метеоритов диаметром более 1 метра, падающих на Землю за год.
Количество пациентов, поступивших в отделение неотложной помощи с 22 до 23 часов.
Количество лазерных фотонов, попавших в детектор за определенный промежуток времени.

Предположения и обоснованность

Распределение Пуассона является подходящей моделью, если верны следующие предположения: ^[4]

$k$ - количество раз, когда событие происходит в интервале, и $k$ может принимать значения 0, 1, 2, ....
Возникновение одного события не влияет на вероятность того, что произойдет второе событие. То есть события происходят независимо.
Средняя скорость, с которой происходят события, не зависит от каких-либо событий. Для простоты это обычно считается постоянным, но на практике может меняться со временем.
Два события не могут происходить в один и тот же момент; вместо этого на каждом очень маленьком подынтервале происходит ровно одно событие, либо не происходит.

Если эти условия верны, то $k$ - случайная величина Пуассона, а распределение $k$ - распределение Пуассона.

Распределение Пуассона также предел из биномиального распределения , для которых вероятность успеха для каждого испытания равна $λ$ , деленное на число испытаний, а число испытаний стремится к бесконечности (см Связанные распределения ).

Примеры вероятностей для распределений Пуассона

На конкретной реке паводки происходят в среднем раз в 100 лет. Рассчитайте вероятность $k$ = 0, 1, 2, 3, 4, 5 или 6 паводков в течение 100-летнего интервала, предполагая, что модель Пуассона подходит.

Поскольку средняя частота событий составляет одно наводнение за 100 лет, λ = 1

{\ displaystyle P (k {\ text {наводнение через 100 лет}}) = {\ frac {\ lambda ^ {k} e ^ {- \ lambda}} {k!}} = {\ frac {1 ^ { k} e ^ {- 1}} {k!}}}

{\ displaystyle P (k = 0 {\ text {наводнение через 100 лет}}) = {\ frac {1 ^ {0} e ^ {- 1}} {0!}} = {\ frac {e ^ { -1}} {1}} \ приблизительно 0,368}

{\ displaystyle P (k = 1 {\ text {наводнение через 100 лет}}) = {\ frac {1 ^ {1} e ^ {- 1}} {1!}} = {\ frac {e ^ { -1}} {1}} \ приблизительно 0,368}

{\ displaystyle P (k = 2 {\ text {наводнение через 100 лет}}) = {\ frac {1 ^ {2} e ^ {- 1}} {2!}} = {\ frac {e ^ { -1}} {2}} \ приблизительно 0,184}

$k$	P ( $k$ паводков за 100 лет)
0	0,368
1	0,368
2	0,184
3	0,061
4	0,015
5	0,003
6	0,0005

Вероятность от 0 до 6 наводнений за 100-летний период.

Угарте и его коллеги сообщают, что среднее количество голов в футбольном матче чемпионата мира составляет примерно 2,5, и модель Пуассона подходит. ^[5] Так как средняя частота событий составляет 2,5 гола за матч, λ = 2,5.

{\ displaystyle P (k {\ text {голов в матче}}) = {\ frac {2,5 ^ {k} e ^ {- 2,5}} {k!}}}

{\ displaystyle P (k = 0 {\ text {цели в матче}}) = {\ frac {2.5 ^ {0} e ^ {- 2.5}} {0!}} = {\ frac {e ^ {- 2,5}} {1}} \ приблизительно 0,082}

{\ displaystyle P (k = 1 {\ text {цель в матче}}) = {\ frac {2.5 ^ {1} e ^ {- 2.5}} {1!}} = {\ frac {2.5e ^ { -2,5}} {1}} \ приблизительно 0,205}

{\ displaystyle P (k = 2 {\ text {цели в матче}}) = {\ frac {2.5 ^ {2} e ^ {- 2.5}} {2!}} = {\ frac {6.25e ^ { -2,5}} {2}} \ приблизительно 0,257}

$k$	P ( $k$ голов в матче чемпионата мира по футболу)
0	0,082
1	0,205
2	0,257
3	0,213
4	0,133
5	0,067
6	0,028
7	0,010

Вероятность забить от 0 до 7 голов в матче.

Один раз в интервале событий: частный случай λ = 1 и k = 0

Предположим, что астрономы подсчитали, что большие метеориты (более определенного размера) падают на Землю в среднем один раз в 100 лет ( λ = 1 событие в 100 лет), и что количество попаданий метеоритов следует распределению Пуассона. Какова вероятность $падения$ метеорита $k$ = 0 в следующие 100 лет?

{\ displaystyle P (k = {\ text {0 попаданий метеоритов в следующие 100 лет}}) = {\ frac {1 ^ {0} e ^ {- 1}} {0!}} = {\ frac {1} {e}} \ приблизительно 0,37}

При этих предположениях вероятность того, что в ближайшие 100 лет не упадет на Землю ни один крупный метеорит, составляет примерно 0,37. Оставшееся 1 - 0,37 = 0,63 - это вероятность падения 1, 2, 3 или более крупных метеоритов в следующие 100 лет. В приведенном выше примере наводнение, вызванное переполнением, происходило каждые 100 лет ( λ = 1). По тому же расчету вероятность отсутствия наводнений через 100 лет составила примерно 0,37.

В общем, если событие происходит в среднем один раз за интервал ( λ = 1), и события следуют распределению Пуассона, то P (0 событий в следующем интервале) = 0,37 . Кроме того, P (ровно одно событие в следующем интервале) = 0,37, как показано в таблице для наводнений переполнения.

Примеры, нарушающие предположения Пуассона

Количество студентов, прибывающих в студенческий союз в минуту, скорее всего, не будет соответствовать распределению Пуассона, потому что этот показатель не является постоянным (низкий показатель во время занятий, высокий показатель между уроками), а отдельные студенты, прибывающие в студенческий союз , не являются независимыми (студенты обычно приходят группами).

Число землетрясений магнитудой 5 в год в стране может не соответствовать распределению Пуассона, если одно сильное землетрясение увеличивает вероятность афтершоков аналогичной магнитуды.

Примеры, в которых гарантировано хотя бы одно событие, не распространяются; но может быть смоделирован с использованием усеченного нулем распределения Пуассона .

Распределения подсчета, в которых количество интервалов с нулевыми событиями больше, чем предсказывается моделью Пуассона, можно смоделировать с использованием модели с нулевым раздутием .

Характеристики

Описательная статистика

Ожидаемое значение и дисперсия из Пуассона-распределенной случайной величины оба равны Л.
Коэффициент вариации является ${\ displaystyle \ textstyle \ lambda ^ {- 1/2}}$ , а индекс дисперсии равен 1. ^[6]^{: 163}
Среднее абсолютное отклонение около среднего значения ^[6]^{: 163}

{\ displaystyle \ operatorname {E} [| X- \ lambda |] = {\ frac {2 \ lambda ^ {\ lfloor \ lambda \ rfloor +1} e ^ {- \ lambda}} {\ lfloor \ lambda \ rfloor !}}.}

Режим из Пуассона-распределенной случайной переменной с нецелым Х равен ${\ Displaystyle \ scriptstyle \ lfloor \ lambda \ rfloor}$ , которое является наибольшим целым числом, меньшим или равным λ . Это также записывается как floor (λ). Когда λ - положительное целое число, режимы - λ и λ - 1.
Все кумулянты распределения Пуассона равны математическому ожиданию λ . П - я факторного момента распределения Пуассона λ ^п .
Ожидаемое значение из процесса Пуассона иногда разлагается в произведение интенсивности и экспозиции (или в более общем случае выражается в виде интеграла от «функции интенсивности» с течением времени или в пространстве, которое иногда называют как «воздействием»). ^[7]

Медиана

Границы медианы ( ${\ displaystyle \ nu}$ ) распределения известны и точны : ^[8]

{\ displaystyle \ lambda - \ ln 2 \ leq \ nu <\ lambda + {\ frac {1} {3}}.}

Высшие моменты

Чем выше не-центрируются моменты , т _к из распределения Пуассона, являются Тушаром многочлены в Л:

{\ displaystyle m_ {k} = \ sum _ {i = 0} ^ {k} \ lambda ^ {i} \ left \ {{\ begin {matrix} k \\ i \ end {matrix}} \ right \} ,}

где фигурные скобки обозначают числа Стирлинга второго рода . ^[9]^[1]^{: 6} Коэффициенты многочленов имеют комбинаторный смысл. Фактически, когда ожидаемое значение распределения Пуассона равно 1, тогда формула Добинского говорит, что n- й момент равен количеству разбиений набора размера n .

Простая оценка ^[10]

{\ displaystyle m_ {k} = E [X ^ {k}] \ leq \ left ({\ frac {k} {\ log (k / \ lambda +1)}} \ right) ^ {k} \ leq \ лямбда ^ {k} \ exp (k ^ {2} / (2 \ lambda)).}

Суммы случайных величин, распределенных по Пуассону

Если

{\ displaystyle X_ {i} \ sim \ operatorname {Pois} (\ lambda _ {i})}

для

{\ Displaystyle я = 1, \ dotsc, п}

являются независимыми , то

{\ displaystyle \ sum _ {i = 1} ^ {n} X_ {i} \ sim \ operatorname {Pois} \ left (\ sum _ {i = 1} ^ {n} \ lambda _ {i} \ right) }

. ^[11]^{: 65} Обратное утверждение - теорема Райкова , которая гласит, что если сумма двух независимых случайных величин распределена по Пуассону, то каждая из этих двух независимых случайных величин также. ^[12]^[13]

Прочие свойства

Распределения Пуассона - это безгранично делимые распределения вероятностей. ^[14]^{: 233}^[6]^{: 164}
Направлено Кульбак-Либлер расходимости из ${\ displaystyle \ operatorname {Pois} (\ lambda _ {0})}$ из ${\ displaystyle \ operatorname {Pois} (\ lambda)}$ дан кем-то

{\ displaystyle \ operatorname {D} _ {\ text {KL}} (\ lambda \ mid \ lambda _ {0}) = \ lambda _ {0} - \ lambda + \ lambda \ log {\ frac {\ lambda} {\ lambda _ {0}}}.}

Границы вероятностей хвоста пуассоновской случайной величины ${\ displaystyle X \ sim \ operatorname {Pois} (\ lambda)}$ может быть получен с использованием аргумента границы Чернова . ^[15]^{: 97-98}

{\ displaystyle P (X \ geq x) \ leq {\ frac {(e \ lambda) ^ {x} e ^ {- \ lambda}} {x ^ {x}}}, {\ text {for}} x > \ lambda}

,

{\ Displaystyle P (X \ Leq x) \ leq {\ frac {(e \ lambda) ^ {x} e ^ {- \ lambda}} {x ^ {x}}}, {\ text {for}} x <\ lambda.}

Вероятность верхнего хвоста может быть увеличена (как минимум в два раза) следующим образом: ^[16]

{\ displaystyle P (X \ geq x) \ leq {\ frac {e ^ {- \ operatorname {D} _ {\ text {KL}} (x \ mid \ lambda)}} {\ max {(2, { \ sqrt {4 \ pi \ operatorname {D} _ {\ text {KL}} (x \ mid \ lambda)}}})}}, {\ text {for}} x> \ lambda,}

где

{\ displaystyle \ operatorname {D} _ {\ text {KL}} (x \ mid \ lambda)}

- направленное расхождение Кульбака – Лейблера, как описано выше.

Неравенства, связывающие функцию распределения пуассоновской случайной величины ${\ displaystyle X \ sim \ operatorname {Pois} (\ lambda)}$ к стандартной функции нормального распределения ${\ Displaystyle \ Phi (х)}$ заключаются в следующем: ^[16]

{\ displaystyle \ Phi \ left (\ operatorname {sign} (k- \ lambda) {\ sqrt {2 \ operatorname {D} _ {\ text {KL}} (k \ mid \ lambda)}} \ right) < P (X \ leq k) <\ Phi \ left (\ operatorname {sign} (k- \ lambda +1) {\ sqrt {2 \ operatorname {D} _ {\ text {KL}} (k + 1 \ mid \ lambda)}} \ right), {\ text {for}} k> 0,}

где

{\ displaystyle \ operatorname {D} _ {\ text {KL}} (к \ mid \ lambda)}

снова является направленной дивергенцией Кульбака – Лейблера.

Гонки Пуассона

Позволять ${\ displaystyle X \ sim \ operatorname {Pois} (\ lambda)}$ а также ${\ Displaystyle Y \ sim \ OperatorName {Pois} (\ mu)}$ быть независимыми случайными величинами, с ${\ Displaystyle \ лямбда <\ му}$ , то имеем

{\ displaystyle {\ frac {е ^ {- ({\ sqrt {\ mu}} - {\ sqrt {\ lambda}}) ^ {2}}} {(\ lambda + \ mu) ^ {2}}} - {\ frac {e ^ {- (\ lambda + \ mu)}} {2 {\ sqrt {\ lambda \ mu}}}} - {\ frac {e ^ {- (\ lambda + \ mu)}} {4 \ lambda \ mu}} \ leq P (XY \ geq 0) \ leq e ^ {- ({\ sqrt {\ mu}} - {\ sqrt {\ lambda}}) ^ {2}}}

Верхняя оценка доказывается с помощью стандартной оценки Чернова.

Нижнюю оценку можно доказать, отметив, что ${\ Displaystyle P (XY \ geq 0 \ середина X + Y = я)}$ вероятность того, что ${\ displaystyle Z \ geq {\ frac {i} {2}}}$ , где ${\ displaystyle Z \ sim \ operatorname {Bin} \ left (я, {\ frac {\ lambda} {\ lambda + \ mu}} \ right)}$ , ограниченная снизу величиной ${\ displaystyle {\ frac {1} {(i + 1) ^ {2}}} e ^ {\ left (-iD \ left (0,5 \ | {\ frac {\ lambda} {\ lambda + \ mu}}) \верно-верно)}}$ , где ${\ displaystyle D}$ является относительной энтропией (см записи на границах на хвостах биномиальных распределений для деталей). Отмечая далее, что ${\ displaystyle X + Y \ sim \ operatorname {Pois} (\ lambda + \ mu)}$ , и вычисление нижней границы безусловной вероятности дает результат. Более подробную информацию можно найти в приложении Kamath et al. . ^[17]

Связанные дистрибутивы

Общий

Если ${\ Displaystyle X_ {1} \ sim \ mathrm {Pois} (\ lambda _ {1}) \,}$ а также ${\ Displaystyle X_ {2} \ sim \ mathrm {Pois} (\ lambda _ {2}) \,}$ независимы, то разница ${\ displaystyle Y = X_ {1} -X_ {2}}$ следует распределению Скеллама .
Если ${\ Displaystyle X_ {1} \ sim \ mathrm {Pois} (\ lambda _ {1}) \,}$ а также ${\ Displaystyle X_ {2} \ sim \ mathrm {Pois} (\ lambda _ {2}) \,}$ независимы, то распределение ${\ displaystyle X_ {1}}$ при условии ${\ displaystyle X_ {1} + X_ {2}}$ - биномиальное распределение .

В частности, если

{\ Displaystyle X_ {1} + X_ {2} = k}

, тогда

{\ displaystyle \! X_ {1} | X_ {1} + X_ {2} = k \ sim \ mathrm {Binom} (k, \ lambda _ {1} / (\ lambda _ {1} + \ lambda _ { 2}))}

.

В более общем смысле, если X ₁ , X ₂ , ..., X _n - независимые пуассоновские случайные величины с параметрами λ ₁ , λ ₂ , ..., λ _n, то

дано

{\ displaystyle \ sum _ {j = 1} ^ {n} X_ {j} = k,}

следует, что

{\ displaystyle X_ {i} {\ Big |} \ sum _ {j = 1} ^ {n} X_ {j} = k \ sim \ mathrm {Binom} \ left (k, {\ frac {\ lambda _ { i}} {\ sum _ {j = 1} ^ {n} \ lambda _ {j}}} \ right)}

. По факту,

{\ displaystyle \ {X_ {i} \} \ sim \ mathrm {Multinom} \ left (k, \ left \ {{\ frac {\ lambda _ {i}} {\ sum _ {j = 1} ^ {n) } \ lambda _ {j}}} \ right \} \ right)}

.

Если ${\ Displaystyle X \ sim \ mathrm {Pois} (\ lambda) \,}$ и распределение ${\ displaystyle Y}$ , при условии X = k , является биномиальным распределением , ${\ Displaystyle Y \ mid (X = k) \ sim \ mathrm {Binom} (k, p)}$ , то распределение Y следует распределению Пуассона ${\ Displaystyle Y \ sim \ mathrm {Pois} (\ lambda \ cdot p) \,}$ . Фактически, если ${\ displaystyle \ {Y_ {i} \}}$ , при условии X = k, подчиняется полиномиальному распределению, ${\ displaystyle \ {Y_ {i} \} \ mid (X = k) \ sim \ mathrm {Multinom} \ left (k, p_ {i} \ right)}$ , то каждый ${\ displaystyle Y_ {i}}$ следует независимому распределению Пуассона ${\ displaystyle Y_ {i} \ sim \ mathrm {Pois} (\ lambda \ cdot p_ {i}), \ rho (Y_ {i}, Y_ {j}) = 0}$ .
Распределение Пуассона может быть получено как предельный случай для биномиального распределения, поскольку количество попыток стремится к бесконечности, а ожидаемое количество успехов остается фиксированным - см. Закон редких событий ниже. Следовательно, его можно использовать в качестве аппроксимации биномиального распределения, если n достаточно велико, а p достаточно мало. Существует эмпирическое правило, согласно которому распределение Пуассона является хорошей аппроксимацией биномиального распределения, если n не меньше 20, а p меньше или равно 0,05, и отличным приближением, если n ≥ 100 и np ≤ 10. ^{[18 ]}

{\ displaystyle F _ {\ mathrm {биномиальное}} (k; n, p) \ приблизительно F _ {\ mathrm {Poisson}} (k; \ lambda = np) \,}

Распределение Пуассона - это частный случай дискретного составного распределения Пуассона (или распределения Пуассона с заиканием) с одним параметром. ^[19]^[20] Дискретное составное распределение Пуассона можно вывести из предельного распределения одномерного полиномиального распределения. Это также особый случай из сложного распределения Пуассона .
Для достаточно больших значений λ (скажем, λ> 1000) нормальное распределение со средним λ и дисперсией λ (стандартное отклонение ${\ displaystyle {\ sqrt {\ lambda}}}$ ) является отличным приближением к распределению Пуассона. Если λ больше примерно 10, то нормальное распределение является хорошим приближением, если выполняется соответствующая коррекция непрерывности , т. Е. Если P ( X ≤ x ), где x - неотрицательное целое число, заменяется на P ( X ≤ х + 0,5).

{\ displaystyle F _ {\ mathrm {Poisson}} (x; \ lambda) \ приблизительно F _ {\ mathrm {normal}} (x; \ mu = \ lambda, \ sigma ^ {2} = \ lambda) \,}

Преобразование, стабилизирующее дисперсию : Если ${\ Displaystyle X \ sim \ mathrm {Pois} (\ lambda) \,}$ , тогда

{\ displaystyle Y = 2 {\ sqrt {X}} \ приблизительно {\ mathcal {N}} (2 {\ sqrt {\ lambda}}; 1)}

, ^[6]^{: 168}

а также

{\ displaystyle Y = {\ sqrt {X}} \ приблизительно {\ mathcal {N}} ({\ sqrt {\ lambda}}; 1/4)}

. ^[21]^{: 196}

При таком преобразовании сходимость к нормальности (как

{\ displaystyle \ lambda}

увеличивается) намного быстрее, чем непреобразованная переменная. ^{[ необходима цитата ]} Доступны и другие, немного более сложные преобразования, стабилизирующие дисперсию, ^[6]^{: 168} одним из которых является преобразование Анскомба . ^[22] См. Преобразование данных (статистика) для более общего использования преобразований.

Если для каждого t > 0 количество вступлений во временном интервале [0, t ] следует распределению Пуассона со средним λt , то последовательность времен между приходами является независимыми и одинаково распределенными экспоненциальными случайными величинами, имеющими среднее значение 1 / λ . ^[23]^{: 317–319}
Эти кумулятивные функции распределения Пуассона и распределения хи-квадрат связаны следующими способами: ^[6]^{: 167}

{\ displaystyle F _ {\ text {Poisson}} (k; \ lambda) = 1-F _ {\ chi ^ {2}} (2 \ lambda; 2 (k + 1)) \ quad \ quad {\ text {целое число }} k,}

и ^[6]^{: 158}

{\ Displaystyle \ Pr (Икс = К) = F _ {\ чи ^ {2}} (2 \ лямбда; 2 (к + 1)) - F _ {\ чи ^ {2}} (2 \ лямбда; 2к). }

Приближение Пуассона

Предполагать ${\ displaystyle X_ {1} \ sim \ operatorname {Pois} (\ lambda _ {1}), X_ {2} \ sim \ operatorname {Pois} (\ lambda _ {2}), \ dots, X_ {n} \ sim \ operatorname {Pois} (\ lambda _ {n})}$ где ${\ displaystyle \ lambda _ {1} + \ lambda _ {2} + \ dots + \ lambda _ {n} = 1}$ , то ^[24] ${\ displaystyle (X_ {1}, X_ {2}, \ dots, X_ {n})}$ является полиномиально распределены ${\ displaystyle (X_ {1}, X_ {2}, \ dots, X_ {n}) \ sim \ operatorname {Mult} (N, \ lambda _ {1}, \ lambda _ {2}, \ dots, \ лямбда _ {п})}$ при условии ${\ Displaystyle N = X_ {1} + X_ {2} + \ точки X_ {n}}$ .

Это означает ^[15]^{: 101-102} , среди прочего, что для любой неотрицательной функции ${\ displaystyle f (x_ {1}, x_ {2}, \ dots, x_ {n})}$ , если ${\ displaystyle (Y_ {1}, Y_ {2}, \ dots, Y_ {n}) \ sim \ operatorname {Mult} (m, \ mathbf {p})}$ полиномиально распределен, то

{\ displaystyle \ operatorname {E} [f (Y_ {1}, Y_ {2}, \ dots, Y_ {n})] \ leq e {\ sqrt {m}} \ operatorname {E} [f (X_ { 1}, X_ {2}, \ точки, X_ {n})]}

где ${\ displaystyle (X_ {1}, X_ {2}, \ dots, X_ {n}) \ sim \ operatorname {Pois} (\ mathbf {p})}$ .

Фактор ${\ displaystyle e {\ sqrt {m}}}$ можно заменить на 2, если ${\ displaystyle f}$ далее предполагается, что она монотонно возрастает или убывает.

Двумерное распределение Пуассона

Это распределение было распространено на двумерный случай. ^[25] производящая функция для этого распределения

{\ Displaystyle г (и, v) = \ ехр [(\ тета _ {1} - \ тета _ {12}) (и-1) + (\ тета _ {2} - \ тета _ {12}) ( v-1) + \ theta _ {12} (uv-1)]}

с участием

{\ displaystyle \ theta _ {1}, \ theta _ {2}> \ theta _ {12}> 0 \,}

Маргинальные распределения - это пуассоновское ( θ ₁ ) и пуассоновское ( θ ₂ ), а коэффициент корреляции ограничен диапазоном

{\ displaystyle 0 \ leq \ rho \ leq \ min \ left \ {{\ sqrt {\ frac {\ theta _ {1}} {\ theta _ {2}}}}, {\ sqrt {\ frac {\ theta _ {2}} {\ theta _ {1}}}} \ right \}}

Простой способ сгенерировать двумерное распределение Пуассона ${\ Displaystyle X_ {1}, X_ {2}}$ состоит в том, чтобы взять три независимых распределения Пуассона ${\ displaystyle Y_ {1}, Y_ {2}, Y_ {3}}$ со средствами ${\ displaystyle \ lambda _ {1}, \ lambda _ {2}, \ lambda _ {3}}$ а затем установите ${\ displaystyle X_ {1} = Y_ {1} + Y_ {3}, X_ {2} = Y_ {2} + Y_ {3}}$ . Функция вероятности двумерного распределения Пуассона равна

{\ displaystyle {\ begin {align} & \ Pr (X_ {1} = k_ {1}, X_ {2} = k_ {2}) \\ = {} & \ exp \ left (- \ lambda _ {1 } - \ lambda _ {2} - \ lambda _ {3} \ right) {\ frac {\ lambda _ {1} ^ {k_ {1}}} {k_ {1}!}} {\ frac {\ lambda _ {2} ^ {k_ {2}}} {k_ {2}!}} \ Sum _ {k = 0} ^ {\ min (k_ {1}, k_ {2})} {\ binom {k_ { 1}} {k}} {\ binom {k_ {2}} {k}} k! \ Left ({\ frac {\ lambda _ {3}} {\ lambda _ {1} \ lambda _ {2}} } \ right) ^ {k} \ end {align}}}

Свободное распределение Пуассона

Свободное распределение Пуассона ^[26] с размером скачка ${\ displaystyle \ alpha}$ и оценить ${\ displaystyle \ lambda}$ возникает в свободной теории вероятностей как предел повторной свободной свертки

{\ displaystyle \ left (\ left (1 - {\ frac {\ lambda} {N}} \ right) \ delta _ {0} + {\ frac {\ lambda} {N}} \ delta _ {\ alpha} \ right) ^ {\ boxplus N}}

при N → ∞.

Другими словами, пусть ${\ displaystyle X_ {N}}$ быть случайными величинами, так что ${\ displaystyle X_ {N}}$ имеет ценность ${\ displaystyle \ alpha}$ с вероятностью ${\ displaystyle {\ frac {\ lambda} {N}}}$ и значение 0 с оставшейся вероятностью. Предположим также, что семья ${\ Displaystyle X_ {1}, X_ {2}, \ ldots}$ являются свободно независимыми . Тогда предел при ${\ displaystyle N \ to \ infty}$ закона ${\ Displaystyle X_ {1} + \ cdots + X_ {N}}$ дается законом Свободного Пуассона с параметрами ${\ displaystyle \ lambda, \ alpha}$ .

Это определение аналогично одному из способов, которыми классическое распределение Пуассона получается из (классического) пуассоновского процесса.

Мера, связанная со свободным законом Пуассона, дается формулой ^[27]

{\ displaystyle \ mu = {\ begin {case} (1- \ lambda) \ delta _ {0} + \ lambda \ nu, & {\ text {if}} 0 \ leq \ lambda \ leq 1 \\\ nu , & {\ text {if}} \ lambda> 1, \ end {case}}}

где

{\ displaystyle \ nu = {\ frac {1} {2 \ pi \ alpha t}} {\ sqrt {4 \ lambda \ alpha ^ {2} - (t- \ alpha (1+ \ lambda)) ^ {2 }}} \, dt}

и имеет поддержку ${\ displaystyle [\ альфа (1 - {\ sqrt {\ lambda}}) ^ {2}, \ alpha (1 + {\ sqrt {\ lambda}}) ^ {2}]}$ .

Этот закон также возникает в теории случайных матриц как закон Марченко – Пастура . Его свободные кумулянты равны ${\ Displaystyle \ каппа _ {п} = \ лямбда \ альфа ^ {п}}$ .

Некоторые трансформации этого закона

Приведены значения некоторых важных преобразований свободного закона Пуассона; это вычисление можно найти, например, в книге А. Ника и Р. Спайхера « Лекции по комбинаторике свободной вероятности » ^[28].

R-преобразование свободного закона Пуассона дается

{\ displaystyle R (z) = {\ frac {\ lambda \ alpha} {1- \ alpha z}}.}

Преобразование Коши (отрицательное по отношению к преобразованию Стилтьеса ) задается формулой

{\ Displaystyle G (z) = {\ гидроразрыва {z + \ альфа - \ лямбда \ альфа - {\ sqrt {(z- \ alpha (1+ \ lambda)) ^ {2} -4 \ лямбда \ альфа ^ {2 }}}} {2 \ alpha z}}}

S-преобразование задается

{\ Displaystyle S (z) = {\ гидроразрыва {1} {z + \ lambda}}}

в случае, если ${\ Displaystyle \ альфа = 1}$ .

Статистические выводы

Оценка параметров

Учитывая выборку из n измеренных значений ${\ Displaystyle к_ {я} \ в \ {0,1, ... \}}$ , для i = 1, ..., n мы хотим оценить значение параметра λ пуассоновской популяции, из которой была взята выборка. Максимального правдоподобия оценка ^[29]

{\ displaystyle {\ widehat {\ lambda}} _ {\ mathrm {MLE}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} k_ {i}. \!}

Поскольку каждое наблюдение имеет математическое ожидание λ, то же самое означает выборочное среднее. Следовательно, оценка максимального правдоподобия является несмещенной оценкой λ. Это также эффективная оценка, поскольку ее дисперсия достигает нижней границы Крамера – Рао (CRLB). ^{[ необходимая цитата ]} Следовательно, это объективная минимальная дисперсия . Также можно доказать, что сумма (и, следовательно, выборочное среднее, поскольку оно является взаимно однозначной функцией суммы) является полной и достаточной статистикой для λ.

Чтобы доказать достаточность, мы можем использовать теорему факторизации . Рассмотрим разделение функции масс вероятности совместного распределения Пуассона для выборки на две части: одна, которая зависит исключительно от выборки. ${\ displaystyle \ mathbf {x}}$ (называется ${\ Displaystyle ч (\ mathbf {х})}$ ) и зависящую от параметра ${\ displaystyle \ lambda}$ и образец ${\ displaystyle \ mathbf {x}}$ только через функцию ${\ Displaystyle Т (\ mathbf {х})}$ . потом ${\ Displaystyle Т (\ mathbf {х})}$ является достаточной статистикой для ${\ displaystyle \ lambda}$ .

{\ Displaystyle P (\ mathbf {x}) = \ prod _ {i = 1} ^ {n} {\ frac {\ lambda ^ {x_ {i}} e ^ {- \ lambda}} {x_ {i} !}} = {\ frac {1} {\ prod _ {i = 1} ^ {n} x_ {i}!}} \ times \ lambda ^ {\ sum _ {i = 1} ^ {n} x_ { i}} e ^ {- n \ lambda}}

Первый срок, ${\ Displaystyle ч (\ mathbf {х})}$ , зависит только от ${\ displaystyle \ mathbf {x}}$ . Второй срок, ${\ Displaystyle г (Т (\ mathbf {x}) | \ лямбда)}$ , зависит от образца только через ${\ Displaystyle Т (\ mathbf {х}) = \ сумма _ {я = 1} ^ {п} х_ {я}}$ . Таким образом, ${\ Displaystyle Т (\ mathbf {х})}$ достаточно.

Чтобы найти параметр λ, который максимизирует функцию вероятности для пуассоновской популяции, мы можем использовать логарифм функции правдоподобия:

{\ Displaystyle {\ begin {align} \ ell (\ lambda) & = \ ln \ prod _ {i = 1} ^ {n} f (k_ {i} \ mid \ lambda) \\ & = \ sum _ { i = 1} ^ {n} \ ln \! \ left ({\ frac {e ^ {- \ lambda} \ lambda ^ {k_ {i}}} {k_ {i}!}} \ right) \\ & = -n \ lambda + \ left (\ sum _ {i = 1} ^ {n} k_ {i} \ right) \ ln (\ lambda) - \ sum _ {i = 1} ^ {n} \ ln ( k_ {i}!). \ end {align}}}.

Возьмем производную от ${\ displaystyle \ ell}$ относительно λ и сравните его с нулем:

{\ displaystyle {\ frac {\ mathrm {d}} {\ mathrm {d} \ lambda}} \ ell (\ lambda) = 0 \ iff -n + \ left (\ sum _ {i = 1} ^ {n} k_ {i} \ right) {\ frac {1} {\ lambda}} = 0. \!}

Решение относительно λ дает стационарную точку.

{\ displaystyle \ lambda = {\ frac {\ sum _ {i = 1} ^ {n} k_ {i}} {n}}}

Итак, λ - это среднее значение k _i . Получение знака второй производной от L в стационарной точке определит, что это за экстремальное значение λ .

{\ displaystyle {\ frac {\ partial ^ {2} \ ell} {\ partial \ lambda ^ {2}}} = - \ lambda ^ {- 2} \ sum _ {i = 1} ^ {n} k_ { я}}

Оценка второй производной в стационарной точке дает:

{\ displaystyle {\ frac {\ partial ^ {2} \ ell} {\ partial \ lambda ^ {2}}} = - {\ frac {n ^ {2}} {\ sum _ {i = 1} ^ { n} k_ {i}}}}

что является отрицательным значением в n раз обратным среднему значению k _i . Это выражение отрицательно, когда среднее положительное. Если это выполнено, то стационарная точка максимизирует функцию вероятности.

Для полноты семейство распределений называется полным тогда и только тогда, когда ${\ Displaystyle Е (г (Т)) = 0}$ подразумевает, что ${\ Displaystyle P _ {\ lambda} (г (Т) = 0) = 1}$ для всех ${\ displaystyle \ lambda}$ . Если человек ${\ displaystyle X_ {i}}$ iid ${\ Displaystyle \ mathrm {Po} (\ lambda)}$ , тогда ${\ Displaystyle Т (\ mathbf {x}) = \ сумма _ {я = 1} ^ {n} X_ {я} \ sim \ mathrm {Po} (п \ лямбда)}$ . Зная распределение, которое мы хотим исследовать, легко увидеть, что статистика завершена.

{\ displaystyle E (g (T)) = \ sum _ {t = 0} ^ {\ infty} g (t) {\ frac {(n \ lambda) ^ {t} e ^ {- n \ lambda}} {t!}} = 0}

Для выполнения этого равенства ${\ displaystyle g (t)}$ должно быть 0. Это следует из того факта, что ни один из других членов не будет 0 для всех ${\ displaystyle t}$ в сумме и для всех возможных значений ${\ displaystyle \ lambda}$ . Следовательно, ${\ Displaystyle Е (г (Т)) = 0}$ для всех ${\ displaystyle \ lambda}$ подразумевает, что ${\ Displaystyle P _ {\ lambda} (г (Т) = 0) = 1}$ , и статистика оказалась полной.

Доверительный интервал

Доверительный интервал для среднего распределения Пуассона можно выразить с помощью соотношения между совокупными функциями распределения Пуассона и х-квадратом распределениями . Распределение хи-квадрат само по себе тесно связано с гамма-распределением , и это приводит к альтернативному выражению. Учитывая наблюдение k из распределения Пуассона со средним значением μ , доверительный интервал для μ с уровнем достоверности $1 - α$ равен

{\ displaystyle {\ tfrac {1} {2}} \ chi ^ {2} (\ alpha / 2; 2k) \ leq \ mu \ leq {\ tfrac {1} {2}} \ chi ^ {2} ( 1- \ alpha / 2; 2k + 2),}

или эквивалентно,

{\ Displaystyle F ^ {- 1} (\ альфа / 2; к, 1) \ leq \ му \ leq F ^ {- 1} (1- \ альфа / 2; к + 1,1),}

где ${\ Displaystyle \ чи ^ {2} (п; п)}$ - функция квантиля (соответствующая области нижнего хвоста p ) распределения хи-квадрат с n степенями свободы и ${\ Displaystyle F ^ {- 1} (п; п, 1)}$ является функцией ^{квантиля} гамма-распределения с параметром формы n и параметром масштаба 1. ^[6]^{: 176-178}^[30] Этот интервал является « точным » в том смысле, что его вероятность охвата никогда не меньше номинального значения $1 - α$ .

Когда квантили гамма-распределения недоступны, было предложено точное приближение к этому точному интервалу (на основе преобразования Уилсона – Хильферти ): ^[31]

{\ displaystyle k \ left (1 - {\ frac {1} {9k}} - {\ frac {z _ {\ alpha / 2}} {3 {\ sqrt {k}}}} \ right) ^ {3} \ leq \ mu \ leq (k + 1) \ left (1 - {\ frac {1} {9 (k + 1)}} + {\ frac {z _ {\ alpha / 2}} {3 {\ sqrt { k + 1}}}} \ right) ^ {3},}

где ${\ displaystyle z _ {\ alpha / 2}}$ обозначает стандартное нормальное отклонение с верхней хвостовой частью $α / 2$ .

Для применения этих формул в том же контексте, что и выше (учитывая выборку из n измеренных значений k _i, каждое из которых извлечено из распределения Пуассона со средним λ ), можно было бы установить

{\ Displaystyle к = \ сумма _ {я = 1} ^ {п} к_ {я}, \!}

вычислить интервал для μ = nλ , а затем вывести интервал для λ .

Байесовский вывод

В байесовском выводе , то сопряженные перед для параметра скорости Х распределений Пуассона является гамма - распределение . ^[32] Пусть

{\ Displaystyle \ лямбда \ сим \ mathrm {Гамма} (\ альфа, \ бета) \!}

обозначают, что λ распределяется согласно гамма- плотности g, параметризованной с помощью параметра формы α и параметра обратного масштаба β :

{\ displaystyle g (\ lambda \ mid \ alpha, \ beta) = {\ frac {\ beta ^ {\ alpha}} {\ Gamma (\ alpha)}} \; \ lambda ^ {\ alpha -1} \; e ^ {- \ beta \, \ lambda} \ qquad {\ text {for}} \ lambda> 0 \, \ !.}

Затем, учитывая ту же выборку из n измеренных значений k _i, что и раньше , и априорную гамму ( α , β ), апостериорное распределение имеет вид

{\ displaystyle \ lambda \ sim \ mathrm {Gamma} \ left (\ alpha + \ sum _ {i = 1} ^ {n} k_ {i}, \ beta + n \ right). \!}

Апостериорное среднее E [ λ ] приближается к оценке максимального правдоподобия ${\ displaystyle {\ widehat {\ lambda}} _ {\ mathrm {MLE}}}$ в пределе как ${\ Displaystyle \ альфа \ до 0, \ \ бета \ до 0}$ , что непосредственно следует из общего выражения среднего гамма-распределения .

Задней предсказанием распределения для одного дополнительного наблюдения является отрицательное биномиальное распределение , ^[33]^{: 53} иногда называют распределение гамма-Пуассона.

Одновременная оценка нескольких средних Пуассона

Предполагать ${\ displaystyle X_ {1}, X_ {2}, \ dots, X_ {p}}$ представляет собой набор независимых случайных величин из набора ${\ displaystyle p}$ Распределения Пуассона, каждое с параметром ${\ displaystyle \ lambda _ {i}}$ , ${\ Displaystyle я = 1, \ точки, р}$ , и мы хотели бы оценить эти параметры. Затем Клевенсон и Зидек показывают, что при нормированных квадратах потерь ошибок ${\ displaystyle L (\ lambda, {\ hat {\ lambda}}) = \ sum _ {i = 1} ^ {p} \ lambda _ {i} ^ {- 1} ({\ hat {\ lambda}} _ {i} - \ lambda _ {i}) ^ {2}}$ , когда ${\ displaystyle p> 1}$ , то, как и в примере Стейна для нормальных средних, оценка MLE ${\ displaystyle {\ hat {\ lambda}} _ {i} = X_ {i}}$ является недопустимым . ^[34]

В этом случае дается семейство минимаксных оценок для любых ${\ Displaystyle 0 <с \ Leq 2 (п-1)}$ а также ${\ Displaystyle б \ geq (п-2 + р ^ {- 1})}$ как ^[35]

{\ displaystyle {\ hat {\ lambda}} _ {i} = \ left (1 - {\ frac {c} {b + \ sum _ {i = 1} ^ {p} X_ {i}}} \ right) X_ {i}, \ qquad i = 1, \ dots, p.}

Возникновение и приложения

Приложения распределения Пуассона можно найти во многих областях, включая: ^[36]

Пример телекоммуникации : поступающие в систему телефонные звонки.
Пример из астрономии : фотоны прибывают в телескоп.
Химии пример: молекулярно - массовое распределение из живой полимеризации . ^[37]
Биологический пример: количество мутаций в цепи ДНК на единицу длины.
Пример управления : клиенты прибывают в прилавок или колл-центр.
Пример финансов и страхования : количество убытков или претензий, произошедших за определенный период времени.
Пример сейсмологии землетрясений : асимптотическая пуассоновская модель сейсмического риска для сильных землетрясений. ^[38]
Пример радиоактивности : количество распадов радиоактивного образца за определенный интервал времени.
Пример оптики : количество фотонов, испускаемых за один лазерный импульс. Это основная уязвимость большинства протоколов квантового распределения ключей , известная как разделение числа фотонов (PNS).

Распределение Пуассона возникает в связи с пуассоновскими процессами. Он применяется к различным явлениям с дискретными свойствами (то есть к тем, которые могут происходить 0, 1, 2, 3, ... раз в течение данного периода времени или в данной области) всякий раз, когда вероятность возникновения явления постоянна в время или пространство . Примеры событий, которые можно смоделировать как распределение Пуассона, включают:

Число солдат, убитых конными пинками каждый год в каждом корпусе прусской кавалерии. Этот пример был использован в книге Ладислава Борткевича (1868–1931). ^[39]^{: 23-25}
Количество дрожжевых клеток, используемых при варке пива Guinness . Этот пример был использован Уильямом Сили Госсетом (1876–1937). ^[40]^[41]
Количество телефонных звонков, поступивших в колл-центр за минуту. Этот пример описал А. К. Эрланг (1878–1929). ^[42]
Интернет-трафик.
Количество голов в спорте с участием двух соревнующихся команд. ^[43]
Количество смертей в год в данной возрастной группе.
Количество скачков цены акции за данный промежуток времени.
В предположении однородности количество обращений к веб-серверу в минуту.
Количество мутаций в данном участке ДНК после определенного количества радиации.
Доля клеток, которые будут инфицированы при данной множественности заражения .
Количество бактерий в определенном количестве жидкости. ^[44]
Прибытие фотонов на схему пикселя при заданном освещении и в течение заданного периода времени.
Нацеливание летающих бомб Фау-1 на Лондон во время Второй мировой войны исследовал Р. Д. Кларк в 1946 году. ^[45]

Галлахер показал в 1976 году, что подсчет простых чисел в коротких интервалах подчиняется распределению Пуассона ^[46], при условии, что верна определенная версия недоказанной гипотезы Харди-Литтлвуда о простых числах r-кортежей ^[47] .

Закон редких событий

Сравнение распределения Пуассона (черные линии) и биномиального распределения при n = 10 (красные кружки), n = 20 (синие кружки), n = 1000 (зеленые кружки). Все распределения имеют среднее значение 5. По горизонтальной оси отложено количество событий k . По мере увеличения n распределение Пуассона становится все более лучшим приближением биномиального распределения с тем же средним значением.

Скорость события связана с вероятностью того, что событие произойдет в некотором небольшом подынтервале (времени, пространства или иного). В случае распределения Пуассона предполагается, что существует достаточно малый подинтервал, для которого вероятность того, что событие произойдет дважды, «пренебрежимо мала». С этим предположением можно вывести распределение Пуассона из биномиального, учитывая только информацию об ожидаемом количестве общих событий во всем интервале. Пусть это общее количество будет ${\ displaystyle \ lambda}$ . Разделите весь интервал на ${\ displaystyle n}$ подынтервалы ${\ displaystyle I_ {1}, \ dots, I_ {n}}$ равного размера, так что ${\ displaystyle n}$ > ${\ displaystyle \ lambda}$ (поскольку нас интересуют только очень маленькие части интервала, это предположение имеет смысл). Это означает, что ожидаемое количество событий в интервале ${\ displaystyle I_ {i}}$ для каждого ${\ displaystyle i}$ равно ${\ displaystyle \ lambda / n}$ . Теперь мы предполагаем, что наступление события во всем интервале можно рассматривать как процесс Бернулли , где ${\ displaystyle i ^ {th}}$ испытание соответствует проверке того, происходит ли событие на подынтервале ${\ displaystyle I_ {i}}$ с вероятностью ${\ displaystyle \ lambda / n}$ . Ожидаемое количество общих событий в ${\ displaystyle n}$ такие испытания были бы ${\ displaystyle \ lambda}$ , ожидаемое количество общих событий во всем интервале. Следовательно, для каждого подразделения интервала мы аппроксимировали возникновение события как процесс Бернулли вида ${\ Displaystyle {\ textrm {B}} (п, \ лямбда / п)}$ . Как мы уже отмечали ранее, мы хотим рассматривать только очень маленькие подынтервалы. Поэтому мы берем предел как ${\ displaystyle n}$ уходит в бесконечность. В этом случае биномиальное распределение сходится к так называемому распределению Пуассона по предельной теореме Пуассона .

В некоторых из приведенных выше примеров - таких как количество мутаций в данной последовательности ДНК - подсчитываемые события на самом деле являются результатами дискретных испытаний и более точно моделируются с использованием биномиального распределения , т. Е.

{\ Displaystyle X \ sim {\ textrm {B}} (п, р). \,}

В таких случаях n очень велико, а p очень мало (и поэтому математическое ожидание np имеет промежуточную величину). Тогда распределение может быть аппроксимировано менее громоздким распределением Пуассона ^{[ править ]}

{\ displaystyle X \ sim {\ textrm {Pois}} (np). \,}

Это приближение иногда называют законом редких событий , ^[48]^{: 5} , так как каждая из п отдельных Бернулли событий редко происходит. Название может вводить в заблуждение, потому что общее количество успешных событий в процессе Пуассона не обязательно должно быть редким, если параметр np не мал. Например, количество телефонных звонков на загруженный коммутатор за один час следует распределению Пуассона, при этом события кажутся оператору частыми, но они редки с точки зрения среднего члена населения, который вряд ли совершит звонок на тот коммутатор в тот час. Дисперсия биномиального распределения в 1 - p раз больше, чем у распределения Пуассона, поэтому почти одинакова, когда p очень мало.

Слово закон иногда используется как синоним вероятностного распределения , а конвергенция закона означает конвергенцию в распределении . Соответственно, распределение Пуассона иногда называют «законом малых чисел», потому что это распределение вероятностей количества появлений события, которое случается редко, но имеет очень много возможностей произойти. Закон малых чисел - это книга Ладислава Борткевича о распределении Пуассона, опубликованная в 1898 году. ^[39]^[49]

Точечный процесс Пуассона

Распределение Пуассона возникает как количество точек точечного процесса Пуассона, расположенных в некоторой конечной области. Более конкретно, если D - некоторое пространство области, например евклидово пространство R ^d , для которого | D |, площадь, объем или, в более общем смысле, мера Лебега области конечна, и если N ( D ) обозначает количество точек в D , то

{\ Displaystyle P (N (D) = k) = {\ frac {(\ lambda | D |) ^ {k} e ^ {- \ lambda | D |}} {k!}}.}

Пуассоновская регрессия и отрицательная биномиальная регрессия

Пуассоновская регрессия и отрицательная биномиальная регрессия полезны для анализа, где зависимая (ответная) переменная - это количество (0, 1, 2, ...) количества событий или вхождений в интервале.

Другие приложения в науке

В процессе Пуассона количество наблюдаемых явлений колеблется около своего среднего значения λ со стандартным отклонением ${\ displaystyle \ sigma _ {k} = {\ sqrt {\ lambda}}}$ . Эти колебания обозначаются как пуассоновский шум или (особенно в электронике) как дробовой шум .

Корреляция среднего и стандартного отклонения при подсчете независимых дискретных событий полезна с научной точки зрения. Наблюдая за тем, как флуктуации меняются со средним сигналом, можно оценить вклад одного события, даже если этот вклад слишком мал для непосредственного обнаружения . Например, заряд e электрона можно оценить, сопоставив величину электрического тока с его дробовым шумом . Если N электронов в среднем проходят точку за заданное время t , средний ток равен ${\ displaystyle I = eN / t}$ ; поскольку текущие колебания должны быть порядка ${\ Displaystyle \ sigma _ {I} = е {\ sqrt {N}} / т}$ (т. е. стандартное отклонение пуассоновского процесса ), заряд ${\ displaystyle e}$ можно оценить из соотношения ${\ displaystyle t \ sigma _ {I} ^ {2} / I}$ . ^{[ необходима цитата ]}

Повседневный пример - зернистость, которая появляется при увеличении фотографий; зернистость обусловлена пуассоновскими колебаниями количества восстановленных зерен серебра , а не самими отдельными зернами. Путем сопоставления зернистость со степенью расширения, можно оценить вклад отдельного зерна (которое в противном случае слишком малы , чтобы быть видно невооруженным). ^{[ необходима цитата ]} Многие другие молекулярные применения пуассоновского шума были разработаны, например, для оценки числовой плотности рецепторных молекул в клеточной мембране .

{\ displaystyle \ Pr (N_ {t} = k) = е (k; \ lambda t) = {\ frac {(\ lambda t) ^ {k} e ^ {- \ lambda t}} {k!}} .}

В теории причинных множеств дискретные элементы пространства-времени следуют распределению Пуассона в объеме.

Вычислительные методы

Распределение Пуассона ставит перед выделенными программными библиотеками две разные задачи: Оценка распределения. ${\ Displaystyle Р (к; \ лямбда)}$ , и рисование случайных чисел в соответствии с этим распределением.

Оценка распределения Пуассона

Вычисление ${\ Displaystyle Р (к; \ лямбда)}$ для данного ${\ displaystyle k}$ а также ${\ displaystyle \ lambda}$ это тривиальная задача, которую можно решить, используя стандартное определение ${\ Displaystyle Р (к; \ лямбда)}$ в терминах экспоненциальной, степенной и факториальной функций. Однако обычное определение распределения Пуассона содержит два члена, которые могут легко переполниться на компьютерах: λ ^k и k !. От λ ^k до k ! также может привести к очень большой ошибке округления по сравнению с e ^−λ и, следовательно, к ошибочному результату. Поэтому для численной устойчивости функция массы вероятности Пуассона должна быть оценена как

{\ Displaystyle \! е (к; \ лямбда) = \ ехр \ влево [к \ пер \ лямбда - \ лямбда - \ пер \ гамма (к + 1) \ вправо],}

что математически эквивалентно, но численно стабильно. Натуральный логарифм гамма-функции может быть получен с помощью lgammaфункции в стандартной библиотеке C (версия C99) или R , gammalnфункции в MATLAB или SciPy или log_gammaфункции в Fortran 2008 и более поздних версиях.

Некоторые вычислительные языки предоставляют встроенные функции для оценки распределения Пуассона, а именно:

R : функция dpois(x, lambda);
Excel : функция POISSON( x, mean, cumulative)с флагом для указания кумулятивного распределения;
Mathematica : одномерное распределение Пуассона , как , ^[50] двумерный распределение Пуассона , как ,. ^[51]PoissonDistribution[ $\lambda$ ]MultivariatePoissonDistribution[ $\theta _{12}$ ,{ $\theta _{1}-\theta _{12}$ , $\theta _{2}-\theta _{12}$ }]

Случайная выборка из распределения Пуассона

Менее тривиальная задача - извлечь случайные целые числа из распределения Пуассона с заданными ${\ displaystyle \ lambda}$ .

Решения предоставлены:

R : функция rpois(n, lambda);
Научная библиотека GNU (GSL): функция gsl_ran_poisson

Генерация случайных величин с распределением по Пуассону

Простой алгоритм генерации случайных чисел с распределением Пуассона ( выборка псевдослучайных чисел ) был предоставлен Кнутом : ^[52]^{: 137-138}

алгоритм  случайных чисел Пуассона (Кнут) : init : Пусть L ← e ^−λ , k ← 0 и p ← 1. do : к ← к + 1. Сгенерируйте равномерное случайное число u в [0,1] и пусть p ← p × u. в то время как p> L. вернуть k - 1.

Сложность линейна по возвращаемому значению k , которое в среднем равно λ. Есть много других алгоритмов для улучшения этого. Некоторые из них приведены в Ahrens & Dieter, см. § Ссылки ниже.

Для больших значений λ значение L = e ^−λ может быть настолько малым, что его трудно представить. Это может быть решено путем изменения алгоритма, который использует дополнительный параметр STEP, так что e ^-STEP не ^{опустошается} : ^{[ необходима цитата ]}

алгоритм  случайных чисел Пуассона (Junhao, на основе Knuth) : init : Пусть λLeft ← λ, k ← 0 и p ← 1. do : к ← к + 1. Сгенерируйте равномерное случайное число u в (0,1) и пусть p ← p × u. в то время как p <1 и λLeft> 0: если λLeft> STEP: p ← p × e ^ШАГ λLeft ← λLeft - ШАГ еще : p ← p × e ^{λ влево} λвлево ← 0 пока p> 1. верните k - 1.

Выбор ШАГА зависит от порога переполнения. Для формата с плавающей запятой двойной точности порог близок к e ⁷⁰⁰ , поэтому 500 должно быть безопасным ШАГОМ .

Другие решения для больших значений λ включают выборку отбраковки и использование гауссовой аппроксимации.

Выборка с обратным преобразованием проста и эффективна для малых значений λ и требует только одного однородного случайного числа u на выборку. Кумулятивные вероятности исследуются по очереди, пока одна из них не превысит u .

алгоритм  генератора Пуассона, основанный на инверсии путем последовательного поиска : ^[53]^{: 505}  init : Пусть x ← 0, p ← e ^−λ , s ← p. Сгенерируйте равномерное случайное число u в [0,1]. пока u> s делать : х ← х + 1. p ← p × λ / x. s ← s + p. вернуть x.

История

Распределение было впервые представлено Симеоном Дени Пуассоном (1781–1840) и опубликовано вместе с его теорией вероятностей в его работе « Recherches sur la probabilité des jugements en matière criminelle et en matière civile» (1837). ^[54]^{: 205-207} В работе теоретизировалось количество неправомерных приговоров в данной стране, фокусируясь на определенных случайных величинах N, которые учитывают, среди прочего, количество дискретных происшествий (иногда называемых «событиями» или «прибытием»). которые происходят в течение определенного промежутка времени . Результат был уже дан в 1711 году Абрахамом де Муавром в De Mensura Sortis seu; de Probabilitate Eventuum в Ludis a Casu Fortuito Pendentibus . ^[55]^{: 219}^[56]^{: 14-15}^[57]^{: 193}^[6]^{: 157} Это делает его примером закона Стиглера и побуждает некоторых авторов утверждать, что распределение Пуассона должно носить имя де Муавра. ^[58]^[59]

В 1860 году Саймон Ньюкомб применил распределение Пуассона к количеству звезд в единице пространства. ^[60] Дальнейшее практическое применение этого распределения было сделано Ладиславом Борткевичем в 1898 году, когда ему было поручено исследовать количество солдат в прусской армии, случайно убитых ногами лошадей; ^[39]^{: 23-25} этот эксперимент ввел распределение Пуассона в область техники надежности .

Смотрите также

Составное распределение Пуассона
Распределение Конвея – Максвелла – Пуассона.
Распределение Erlang
Распределение Эрмита
Индекс рассеивания
Отрицательное биномиальное распределение
Слипание Пуассона
Точечный процесс Пуассона
Регрессия Пуассона
Пуассоновская выборка
Вейвлет Пуассона
Теория массового обслуживания
Теория обновления
Лемма Роббинса
Распределение Скеллама
Распределение твиди
Модель без наддува
Распределение Пуассона с нулевым усечением