Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В теории вероятностей и статистике , то гипергеометрическое распределение является дискретным распределением вероятностей , которая описывает вероятность успеха (случайный втягивает , для которого объект обращается имеет определенную функцию) в розыгрышах, без замены, из конечного населения в размере , который содержит именно объекты с эта особенность, при которой каждый розыгрыш является либо успехом, либо неудачей. Напротив, биномиальное распределение описывает вероятность успеха при ничьих с заменой.

Определения [ править ]

Вероятностная функция масс [ править ]

Следующие условия характеризуют гипергеометрическое распределение:

  • Результат каждой жеребьевки (элементы выборки) можно разделить на одну из двух взаимоисключающих категорий (например, прошел / не прошел или занятый / безработный).
  • Вероятность успеха меняется при каждом розыгрыше, поскольку каждый розыгрыш уменьшает популяцию ( выборка без замены из конечной совокупности).

Случайная величина следует гипергеометрическому распределению , если его вероятность функция масс (PMF) дается формулой [1]

куда

  • это численность населения,
  • - количество успешных состояний в популяции,
  • количество розыгрышей (т. е. количество розыгрышей в каждом испытании),
  • количество наблюдаемых успехов,
  • - биномиальный коэффициент .

PMF является положительным , когда .

Случайная величина , распределенная hypergeometrically с параметрами , и записывается и имеет функцию массовой вероятности выше.

Комбинаторные тождества [ править ]

При необходимости у нас есть

который по существу следует из тождества Вандермонда в из комбинаторики .

Также обратите внимание, что

Это тождество можно показать, выразив биномиальные коэффициенты через факториалы и переставив последние, но это также следует из симметрии задачи. Действительно, рассмотрим два раунда розыгрыша без замены. В первом раунде из нейтральных мраморов взяты из урны без замены и окрашены в зеленый цвет. Затем снова кладут цветные шарики. Во втором туре шарики рисуются без замены и окрашиваются в красный цвет. Тогда количество шариков с обоими цветами на них (то есть количество шариков, нарисованных дважды) имеет гипергеометрическое распределение. Симметрия в и проистекает из того факта, что два раунда независимы, и можно было бы начать с рисования шариков и их окраски в красный цвет.

Свойства [ править ]

Рабочий пример [ править ]

Классическое применение гипергеометрического распределения - выборка без замены . Представьте себе урну с двумя цветами мрамора : красным и зеленым. Определите рисование зеленого шарика как успех, а рисование красного шарика как неудачу (аналогично биномиальному распределению). Если переменная N описывает количество всех шариков в урне (см. Таблицу непредвиденных обстоятельств ниже), а K описывает количество зеленых шариков , то N  -  K соответствует количеству красных шариков . В этом примере X - случайная величина , результат которой равенk - количество зеленых шариков, фактически нарисованных в эксперименте. Эта ситуация иллюстрируется следующей таблицей непредвиденных обстоятельств :

Теперь предположим (например), что в урне 5 зеленых и 45 красных шариков. Стоя рядом с урной, вы закрываете глаза и рисуете 10 шариков без замены. Какова вероятность того, что ровно 4 из 10 будут зелеными? Обратите внимание, что, хотя мы смотрим на успех / неудачу, данные не точно моделируются биномиальным распределением , потому что вероятность успеха в каждом испытании не одинакова, поскольку размер оставшейся популяции изменяется по мере удаления каждого шарика.

Эта проблема представлена ​​в следующей таблице непредвиденных обстоятельств:

Вероятность выпадения ровно k зеленых шариков можно рассчитать по формуле

Следовательно, в этом примере вычислить

Интуитивно мы могли бы ожидать, что еще более маловероятно, что все 5 зеленых шариков окажутся среди 10 нарисованных.

Как и ожидалось, вероятность вытащить 5 зеленых шариков примерно в 35 раз меньше, чем вероятность вытягивания 4.


Симметрии [ править ]

Меняем ролями зеленый и красный шарики:

Обмен ролями нарисованного и не нарисованного шарика:

Меняем ролями зеленый и нарисованный мрамор:

Эти симметрии порождают группу диэдра .

Порядок розыгрышей [ править ]

Вероятность рисования любого набора зеленых и красных шариков (гипергеометрическое распределение) зависит только от количества зеленых и красных шариков, а не от порядка, в котором они появляются; т.е. это обменный дистрибутив. В результате вероятность вытащить зеленый шарик при розыгрыше равна [2]

Это ожидаемая вероятность, то есть она основана на незнании результатов предыдущих розыгрышей.


Границы хвоста [ править ]

Пусть и . Тогда для мы можем получить следующие оценки: [3]

куда

это расхождение Кульбака-Лейблера, и оно используется . [4]

Если n больше, чем N / 2, может быть полезно применить симметрию для «инвертирования» границ, что даст вам следующее: [4] [5]

Статистический вывод [ править ]

Гипергеометрический тест [ править ]

Гипергеометрический тест использует гипергеометрическое распределение для измерения статистической значимости нарисовав образец , состоящий из определенного количества успехов (из общего числа дро) из популяции размера , содержащих успехов. В тесте на избыточное представление успехов в выборке гипергеометрическое значение p вычисляется как вероятность случайного получения или большего количества успехов из совокупности в общем количестве розыгрышей. В тесте на недопредставленность p-значение - это вероятность случайного рисования или меньшего количества успехов.


Биолог и статистик Рональд Фишер

Тест, основанный на гипергеометрическом распределении (гипергеометрический тест), идентичен соответствующей односторонней версии точного теста Фишера . [6] Соответственно, p-значение двустороннего точного критерия Фишера может быть вычислено как сумма двух соответствующих гипергеометрических тестов (для получения дополнительной информации см. [7] ).

Тест часто используется для определения того, какие подгруппы чрезмерно или недостаточно представлены в выборке. Этот тест имеет широкий спектр применения. Например, маркетинговая группа может использовать тест, чтобы понять свою клиентскую базу, протестировав набор известных клиентов на предмет чрезмерного представительства различных демографических подгрупп (например, женщин, людей до 30 лет).

Связанные дистрибутивы [ править ]

Пусть и .

  • Если то имеет распределение Бернулли с параметром .
  • Пусть имеет биномиальное распределение с параметрами и ; это моделирует количество успехов в аналогичной задаче выборки с заменой. Если и большие по сравнению с , и не близки к 0 или 1, то и имеют схожие распределения, т . Е ..
  • Если большой, и большой по сравнению с , и не близок к 0 или 1, то

где - стандартная функция нормального распределения

  • Если вероятности рисования зеленого или красного шарика не равны (например, потому что зеленые шарики больше / легче для понимания, чем красные шарики), то имеет нецентральное гипергеометрическое распределение.
  • Бета-биномиальное распределение является сопряженным перед для гипергеометрического распределения.

В следующей таблице описаны четыре распределения, связанных с количеством успехов в последовательности розыгрышей:

Многомерное гипергеометрическое распределение [ править ]

Модель урны с зелеными и красными шариками может быть расширена на случай, когда имеется более двух цветов шариков. Если в урне находится K i шариков цвета i, и вы берете n шариков наугад без замены, то количество шариков каждого цвета в выборке ( k 1 , k 2 , ..., k c ) имеет многомерный гипергеометрическое распределение. Это имеет такое же отношение к полиномиальному распределению что гипергеометрическое распределение имеет к биномиальному распределению - полиномиальное распределение является распределением "с заменой", а многомерное гипергеометрическое распределение является распределением "без замены".

Свойства этого распределения приведены в соседней таблице, где c - количество разных цветов, а - общее количество шариков.

Пример [ править ]

Предположим, в урне 5 черных, 10 белых и 15 красных шариков. Если шесть шариков выбраны без замены, вероятность того, что будут выбраны ровно два шарика каждого цвета, равна

Возникновение и применение [ править ]

Заявление о проверке выборов [ править ]

Образцы, использованные для проверки выборов, и, как следствие, вероятность пропуска проблемы

При аудите выборов обычно проверяется выборка участков с машинным подсчетом, чтобы увидеть, соответствует ли ручной или машинный пересчет первоначальному подсчету. Несоответствия приводят либо к отчету, либо к большему пересчету. Частота выборки обычно определяется законом, а не статистическим дизайном, поэтому для законодательно определенного размера выборки n , какова вероятность пропустить проблему, которая присутствует на K участках, например, взлом или ошибку? Это вероятность того, что k  = 0. Ошибки часто неясны, и хакер может свести к минимуму обнаружение, затронув только несколько участков, что все равно повлияет на закрытые выборы, поэтому вероятный сценарий состоит в том, что K будет порядка 5% от N . Аудитами обычно охвачено от 1% до 10% участков (часто 3%),[8] [9] [10], поэтому у них есть высокий шанс пропустить проблему. Например, если проблема присутствует в 5 из 100 участков, 3% выборка имеет 86% вероятность того, что k  = 0, поэтому проблема не будет замечена, и только 14% вероятность того, что проблема появится в выборке (положительный k ) :

Для выборки потребуется 45 участков, чтобы иметь вероятность менее 5%, что k  = 0 в выборке, и, таким образом, иметь вероятность обнаружения проблемы более 95%:

Приложение к покеру Техасский холдем [ править ]

В холдеме игроки в покер собирают лучшую руку, которую они могут, комбинируя две карты в руке с 5 картами (общими картами), которые в конечном итоге оказываются на столе. В колоде 52 по 13 штук каждой масти. В этом примере предположим, что у игрока в руке 2 трефы, а на столе показаны 3 карты, 2 из которых также трефы. Игрок хотел бы знать вероятность того, что одна из следующих двух карт, которые будут показаны, будет клубом для завершения флеша .
(Обратите внимание, что вероятность, рассчитанная в этом примере, предполагает, что информация о картах в руках других игроков неизвестна; тем не менее, опытные игроки в покер могут учитывать, как другие игроки делают свои ставки (чек, колл, рейз или фолд) при рассмотрении вероятность для каждого сценария. Строго говоря, описанный здесь подход к вычислению вероятностей успеха является точным в сценарии, когда за столом находится только один игрок; в многопользовательской игре эта вероятность может быть несколько скорректирована в зависимости от ставок оппонентов. .)

Показано 4 клуба, так что 9 клубов все еще не показаны. Показано 5 карт (2 в руке и 3 на столе), так что они все еще невидимы.

Вероятность того, что одна из следующих двух перевернутых карт - это клюшка, может быть рассчитана с использованием гипергеометрических данных с помощью и . (около 31,64%)

Вероятность того, что обе следующие две повернутые карты являются трефами, можно рассчитать с помощью гипергеометрических значений с помощью и . (около 3,33%)

Вероятность того, что ни одна из следующих двух повернутых карт не трефовая, может быть рассчитана с использованием гипергеометрических значений с помощью и . (около 65,03%)

См. Также [ править ]

  • Нецентральные гипергеометрические распределения
  • Отрицательное гипергеометрическое распределение
  • Полиномиальное распределение
  • Выборка (статистика)
  • Обобщенная гипергеометрическая функция
  • Проблема сборщика купонов
  • Геометрическое распределение
  • Кено
  • Леди дегустация чая

Ссылки [ править ]

Цитаты [ править ]

  1. ^ Райс, Джон А. (2007). Математическая статистика и анализ данных (Третье изд.). Duxbury Press. п. 42.
  2. ^ http://www.stat.yale.edu/~pollard/Courses/600.spring2010/Handouts/Symmetry%5BPolyaUrn%5D.pdf
  3. ^ Хёфдинг, Wassily (1963), "Вероятностные неравенства для сумм ограниченных случайных величин" (PDF) , журнал Американской ассоциации по статистике , 58 (301): 13-30, DOI : 10,2307 / 2282952 , JSTOR 2282952  .
  4. ^ а б «Другой хвост гипергеометрического распределения» . wordpress.com . 8 декабря 2015 . Проверено 19 марта 2018 .
  5. ^ Serfling, Роберт (1974), "Вероятностные неравенства для суммы в выборку без замены", Летопись статистики , 2 : 39-48, DOI : 10,1214 / AOS / 1176342611.
  6. ^ Соперники, I .; Personnaz, L .; Taing, L .; Потье, М.-К. (2007). «Обогащение или истощение категории GO в классе генов: какой тест?» . Биоинформатика . 23 (4): 401–407. DOI : 10.1093 / биоинформатики / btl633 . PMID 17182697 . 
  7. ^ К. Проповедник и Н. Бриггс. «Расчет для точного теста Фишера: интерактивный инструмент расчета для точного вероятностного теста Фишера для таблиц 2 x 2 (интерактивная страница)» .
  8. ^ Аманда Глейзер и Джейкоб Спертус (2020-02-10). «Начните распространять новости: у аудита после выборов в Нью-Йорке есть серьезные недостатки». SSRN 3536011 .  Cite journal requires |journal= (help)
  9. ^ "Законы о государственном аудите" . Подтвержденное голосование . 2017-02-10 . Проверено 2 апреля 2018 .
  10. ^ Национальная конференция законодательных собраний штатов. «Послевыборный аудит» . www.ncsl.org . Проверено 2 апреля 2018 .

Источники [ править ]

  • Беркопец, Алеш (2007). «Алгоритм HyperQuick для дискретного гипергеометрического распределения» . Журнал дискретных алгоритмов . 5 (2): 341–347. DOI : 10.1016 / j.jda.2006.01.001 .
  • Скала, М. (2011). «Гипергеометрические хвостовые неравенства: конец безумию». arXiv : 1311.5939 [ math.PR ]. неопубликованная заметка

Внешние ссылки [ править ]

  • Гипергеометрическое распределение и биномиальное приближение гипергеометрической случайной величины Криса Баучера, Wolfram Demonstrations Project .
  • Вайсштейн, Эрик В. "Гипергеометрическое распределение" . MathWorld .