Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В теории вероятностей и статистике , то геометрическое распределение либо один из двух дискретных вероятностных распределений :

  • Распределение вероятностей числа X из испытаний Бернулли необходимо , чтобы получить один успех, поддерживается на множестве {1, 2, 3, ...}
  • Распределение вероятности числа Y  =  X  - 1 отказов до первого успеха, поддерживаемое на множестве {0, 1, 2, 3, ...}

Что из этого называется «геометрическим распределением» - вопрос условности и удобства.

Эти два разных геометрических распределения не следует путать друг с другом. Часто за первое (распределение числа X ) принимается название " сдвинутое геометрическое распределение" ; однако, чтобы избежать двусмысленности, считается разумным указать, что предполагается, путем явного упоминания поддержки.

Геометрическое распределение дает вероятность того, что для первого успеха потребуется k независимых испытаний, каждое с вероятностью успеха p . Если вероятность успеха в каждом испытании равна p , то вероятность того, что k- е испытание (из k испытаний) будет первым успешным, равна

для k = 1, 2, 3, ....

Приведенная выше форма геометрического распределения используется для моделирования количества попыток до первого успеха включительно. Напротив, следующая форма геометрического распределения используется для моделирования количества отказов до первого успеха:

для  k  = 0, 1, 2, 3, ....

В любом случае последовательность вероятностей представляет собой геометрическую последовательность .

Например, предположим, что обычный кубик бросается несколько раз, пока в первый раз не появится цифра «1». Распределение вероятности количества бросков поддерживается на бесконечном множестве {1, 2, 3, ...} и является геометрическим распределением с p  = 1/6.

Геометрическое распределение обозначается Geo ( p ), где 0 < p ≤ 1. [1]

Определения [ править ]

Рассмотрим последовательность испытаний, в которой каждое испытание имеет только два возможных исхода (обозначенный провал и успех). Предполагается, что вероятность успеха одинакова для каждого испытания. В такой последовательности испытаний геометрическое распределение полезно для моделирования количества отказов до первого успеха. Распределение дает вероятность того, что будет ноль отказов перед первым успехом, одна неудача перед первым успехом, две неудачи перед первым успехом и так далее.

Предположения: когда геометрическое распределение является подходящей моделью? [ редактировать ]

Геометрическое распределение является подходящей моделью, если верны следующие предположения.

  • Моделируемое явление представляет собой последовательность независимых испытаний.
  • Для каждого испытания есть только два возможных исхода, часто обозначаемые как успех или неудача.
  • Вероятность успеха p одинакова для каждого испытания.

Если эти условия верны, то геометрическая случайная величина Y является подсчетом количества отказов до первого успеха. Возможное количество неудач до первого успеха - 0, 1, 2, 3 и так далее. На графиках выше эта формулировка показана справа.

Альтернативная формулировка состоит в том, что геометрическая случайная величина X представляет собой общее количество испытаний до первого успеха включительно, а количество неудач равно X  - 1. На графиках выше эта формулировка показана слева.

Примеры вероятных результатов [ править ]

Общая формула для расчета вероятности k отказов до первого успеха, где вероятность успеха равна p, а вероятность неудачи  q  = 1 -  p , имеет вид

для k = 0, 1, 2, 3, ....

E1) Врач ищет антидепрессант для недавно диагностированного пациента. Предположим, что из доступных антидепрессантов вероятность того, что какое-либо конкретное лекарство будет эффективным для конкретного пациента, равна p  = 0,6. Какова вероятность того, что первое лекарство, оказавшееся эффективным для этого пациента, было испытано первым, вторым и так далее? Какое ожидаемое количество лекарств будет предпринято, чтобы найти эффективное?

Вероятность того, что первый препарат подействует. До первого успеха нет ни одного провала. Y  = 0 отказов. Вероятность P (ноль неудач до первого успеха) - это просто вероятность того, что первое лекарство подействует.

Вероятность того, что первое лекарство подействует, а второе подействует. Перед первым успехом остается одна неудача. Y = 1 сбой. Вероятность для этой последовательности событий равна P (первое лекарство неэффективно) p (второе лекарство является успешным), что определяется выражением

Вероятность того, что первое лекарство не поможет, второе лекарство не поможет, но третье лекарство подействует. До первого успеха есть две неудачи. Y  = 2 отказа. Вероятность этой последовательности событий равна P (первое лекарство неэффективно) p (второе лекарство неэффективно) P (третье лекарство является успешным).

Д2) Молодожены планируют завести детей и будут продолжать до первой девочки. Какова вероятность того, что будет ноль мальчиков перед первой девочкой, один мальчик перед первой девочкой, два мальчика перед первой девочкой и так далее?

Вероятность иметь девочку (успех) равна p = 0,5, а вероятность иметь мальчика (неудача) равна q  = 1 -  p  = 0,5.

Вероятность отсутствия мальчиков до первой девочки равна

Вероятность того, что один мальчик окажется раньше первой девочки, равна

Вероятность появления двух мальчиков перед первой девочкой равна

и так далее.

Свойства [ править ]

Моменты и кумулянты [ править ]

Ожидаемое значение для числа независимых испытаний , чтобы получить первый успех, и дисперсия геометрически распределенных случайной величины X является:

Точно так же ожидаемое значение и дисперсия геометрически распределенной случайной величины Y = X  - 1 (см. Определение распределения ):

Пусть μ = (1 -  р ) / р будет ожидаемое значение Y . Тогда кумулянты распределения вероятностей Y удовлетворяют рекурсии

Схема доказательства: ожидаемое значение (1 -  p ) / p можно показать следующим образом. Пусть Y будет таким, как указано выше. потом

(Замена суммирования и дифференцирования оправдана тем фактом, что сходящиеся степенные ряды сходятся равномерно на компактных подмножествах множества точек, в которых они сходятся.)

Примеры ожидаемых значений [ править ]

E3) Пациент ожидает подходящего подходящего донора почки для трансплантации. Если вероятность того, что случайно выбранный донор является подходящим совпадением, равна p = 0,1, каково ожидаемое количество доноров, которые будут протестированы, прежде чем будет найден подходящий донор?

При p = 0,1 среднее количество неудач до первого успеха равно E ( Y ) = (1 - p ) / p = (1 - 0,1) /0,1 = 9.

Для альтернативной формулировки, где X - количество попыток до первого успеха включительно, ожидаемое значение будет E ( X ) = 1 / p = 1 / 0,1 = 10.

В примере 1 выше с p = 0,6 среднее количество неудач до первого успеха равно E ( Y ) = (1 - p ) / p = (1 - 0,6) /0,6 = 0,67.

Общие свойства [ править ]

  • В вероятности производящие функции из X и Y представляют собой, соответственно,
  • Как и его непрерывный аналог ( экспоненциальное распределение ), геометрическое распределение не имеет памяти . Это означает, что если вы намереваетесь повторять эксперимент до первого успеха, тогда, учитывая, что первый успех еще не произошел, условное распределение вероятностей количества дополнительных испытаний не зависит от того, сколько неудач было обнаружено. Кость, которую бросают, или подбрасываемая монета не имеют «памяти» об этих неудачах. Геометрическое распределение - единственное дискретное распределение без памяти.

[2]

  • Среди всех дискретных распределений вероятностей, поддерживаемых на {1, 2, 3, ...} с заданным ожидаемым значением  μ , геометрическое распределение X с параметром p  = 1 / μ имеет наибольшую энтропию . [3]
  • Геометрическое распределение числа Y отказов до первого успеха бесконечно делимым , то есть, для любого натурального числа п , существуют независимые одинаково распределенные случайные величины Y 1 , ...,  Y п , сумма которых имеет такое же распределение , что Y имеет . Они не будут геометрически распределены, если n  = 1; они подчиняются отрицательному биномиальному распределению .
  • Десятичные цифры геометрически распределенной случайной величины Y представляют собой последовательность независимых (а не одинаково распределенных) случайных величин. [ необходима цитата ] Например, у цифры сотен D есть следующее распределение вероятностей:
где q  = 1 -  p , и аналогично для других цифр, и, в более общем смысле, аналогично для систем счисления с основанием, отличным от 10. Когда основание равно 2, это показывает, что геометрически распределенная случайная величина может быть записана как сумма независимые случайные величины, распределения вероятностей которых неразложимы .
  • Кодирование Голомба - это оптимальный префиксный код [ требуется пояснение ] для геометрического дискретного распределения. [4]
  • Сумма двух независимых случайных величин, распределенных Geo (p), не является геометрическим распределением. [1]

Связанные дистрибутивы [ править ]

  • Геометрическое распределение Y является частным случаем отрицательного биномиального распределения с r  = 1. В более общем смысле, если Y 1 , ...,  Y r - независимые геометрически распределенные переменные с параметром  p , то сумма
следует отрицательному биномиальному распределению с параметрами r  и  p . [5]
  • Геометрическое распределение - это частный случай дискретного составного распределения Пуассона .
  • Если Y 1 , ...,  Y r - независимые геометрически распределенные переменные (с возможно разными параметрами успеха p m ), то их минимум
также геометрически распределен, с параметром [ необходима ссылка ]
  • Предположим, что 0 <  r  <1, и для k  = 1, 2, 3, ... случайная величина X k имеет распределение Пуассона с математическим ожиданием r k / k . потом 
имеет геометрическое распределение, принимающее значения в наборе {0, 1, 2, ...}, с ожидаемым значением r / (1 -  r ). [ необходима цитата ]
  • Экспоненциальное распределение является непрерывным аналогом геометрического распределения. Если X - экспоненциально распределенная случайная величина с параметром λ, то
где - нижняя (или наибольшая целая) функция, - геометрически распределенная случайная величина с параметром p  = 1 -  e - λ (таким образом, λ  = −ln (1 -  p ) [6] ) и принимающая значения в наборе {0, 1, 2, ...}. Это можно использовать для генерации геометрически распределенных псевдослучайных чисел, сначала генерируя экспоненциально распределенные псевдослучайные числа из генератора однородных псевдослучайных чисел : затем геометрически распределены с параметром , если они равномерно распределены в [0,1].
  • Если p = 1 / n и X имеет геометрическое распределение с параметром p , то распределение X / n приближается к экспоненциальному распределению с ожидаемым значением 1 при n  → ∞, поскольку
В более общем смысле, если p = λx / n, где λ - параметр, то при n → ∞ распределение приближается к экспоненциальному распределению с ожидаемым значением λ, которое дает общее определение экспоненциального распределения.
поэтому функция распределения x равна, и дифференцируя функцию плотности вероятности экспоненциальной функции, получаем
для x ≥ 0. [1]

Статистический вывод [ править ]

Оценка параметров [ править ]

Для обоих вариантов геометрического распределения параметр p можно оценить, приравняв ожидаемое значение к среднему по выборке . Это метод моментов , который в данном случае дает оценки максимального правдоподобия p . [7] [8]

В частности, для первого варианта пусть k  =  k 1 , ...,  k n будет выборкой, где k i  ≥ 1 для i  = 1, ...,  n . Тогда p можно оценить как

В умозаключениях байесовских , то бета распределение является сопряженным до распределения для параметра р . Если для этого параметра заранее задано значение Beta ( αβ ) , то апостериорное распределение будет

Апостериорное среднее E [ p ] приближается к оценке максимального правдоподобия, когда α и β приближаются к нулю.

В альтернативном случае пусть k 1 , ...,  k n будет выборкой, где k i  ≥ 0 для i  = 1, ...,  n . Тогда p можно оценить как

Апостериорное распределение p при априорном бета ( αβ ) равно [9] [10]

И снова апостериорное среднее E [ p ] приближается к оценке максимального правдоподобия, когда α и β приближаются к нулю.

Для любой оценки использования максимального правдоподобия смещение равно

что дает скорректированную смещением оценку максимального правдоподобия

Вычислительные методы [ править ]

Геометрическое распределение с использованием R [ править ]

R функция dgeom(k, prob)вычисляет вероятность того, что имеется к неудачам до первого успеха, когда аргумент «пробы» является вероятностью успеха в каждом испытании.

Например,

dgeom(0,0.6) = 0.6

dgeom(1,0.6) = 0.24

R использует соглашение, согласно которому k - это количество неудач, так что количество попыток до первого успеха включительно равно k + 1.

Следующий код R создает график геометрического распределения от Y = 0 до 10 с p = 0,6.

Y=0:10

plot(Y, dgeom(Y,0.6), type="h", ylim=c(0,1), main="Geometric distribution for p=0.6", ylab="P(Y=Y)", xlab="Y=Number of failures before first success")

Геометрическое распределение в Excel [ править ]

Геометрическое распределение количества неудач до первого успеха является частным случаем отрицательного биномиального распределения количества неудач до s успехов.

Функция Excel NEGBINOMDIST(number_f, number_s, probability_s)вычисляет вероятность k = number_f неудач до s = number_s успехов, где p = вероятность_s - это вероятность успеха в каждом испытании. Для геометрического распределения пусть number_s = 1 успех.

Например,

=NEGBINOMDIST(0, 1, 0.6) = 0,6

=NEGBINOMDIST(1, 1, 0.6) = 0,24

Как и R, в Excel используется соглашение, согласно которому k - это количество неудач, поэтому количество попыток до первого успеха включительно составляет k + 1.

См. Также [ править ]

  • Гипергеометрическое распределение
  • Проблема сборщика купонов
  • Составное распределение Пуассона
  • Отрицательное биномиальное распределение

Ссылки [ править ]

  1. ^ a b c Современное введение в вероятность и статистику: понимание, почему и как . Деккинг, Мишель, 1946-. Лондон: Спрингер. 2005. С. 48–50, 61–62, 152. ISBN. 9781852338961. OCLC  262680588 .CS1 maint: others (link)
  2. ^ Guntuboyina, Адитья. «Статистика за осень 2018 г. 201A (Введение в вероятность на продвинутом уровне) - Все лекции» (PDF) .
  3. ^ Park, Sung Y .; Бера, Анил К. (июнь 2009 г.). «Модель условной гетероскедастичности авторегрессии максимальной энтропии». Журнал эконометрики . 150 (2): 219–230. DOI : 10.1016 / j.jeconom.2008.12.014 .
  4. ^ Gallager, R .; ван Вурхис, Д. (март 1975 г.). «Оптимальные исходные коды для геометрически распределенных целочисленных алфавитов (Корр.)». IEEE Transactions по теории информации . 21 (2): 228–230. DOI : 10.1109 / TIT.1975.1055357 . ISSN 0018-9448 . 
  5. ^ Питман, Джим. Вероятность (издание 1993 г.). Издатели Springer. С. 372.
  6. ^ "Wolfram-Alpha: вычислительная машина знаний" . www.wolframalpha.com .
  7. ^ казелла, Джордж; Бергер, Роджер Л. (2002). статистический вывод (2-е изд.). С. 312–315. ISBN 0-534-24312-6.
  8. ^ «Примеры MLE: экспоненциальное и геометрическое распределение старого киви - Рея» . www.projectrhea.org . Проверено 17 ноября 2019 .
  9. ^ «3. Сопряженные семейства распределений» (PDF) .
  10. ^ "Conjugate Prior " , Википедия , 03.10.2019 , получено 17.11.2019.

Внешние ссылки [ править ]

  • Геометрическое распределение на MathWorld .