В теории вероятностей и статистике , то гипергеометрическое распределение является дискретным распределением вероятностей , которая описывает вероятность успехов (случайные розыгрыши, для которых нарисованный объект имеет указанную особенность) в извлекает, без замены, из конечной популяции размера который содержит точно объекты с этой функцией, причем каждый розыгрыш является либо успехом, либо неудачей. Напротив, биномиальное распределение описывает вероятность успехи в ничья с заменой.
Вероятностная функция масс | |||
Кумулятивная функция распределения | |||
Параметры | |||
---|---|---|---|
Служба поддержки | |||
PMF | |||
CDF | где - обобщенная гипергеометрическая функция | ||
Иметь в виду | |||
Режим | |||
Дисперсия | |||
Асимметрия | |||
Бывший. эксцесс |
| ||
MGF | |||
CF |
Определения
Вероятностная функция масс
Следующие условия характеризуют гипергеометрическое распределение:
- Результат каждой жеребьевки (элементы выборки) можно разделить на одну из двух взаимоисключающих категорий (например, прошел / не прошел или занятый / безработный).
- Вероятность успеха меняется при каждом розыгрыше, поскольку каждый розыгрыш уменьшает популяцию ( выборка без замены из конечной совокупности).
Случайная величина следует гипергеометрическому распределению, если его функция массы вероятности (pmf) дается формулой [1]
где
- это численность населения,
- - количество успешных состояний в популяции,
- количество розыгрышей (т. е. количество розыгрышей в каждом испытании),
- количество наблюдаемых успехов,
- - биномиальный коэффициент .
PMF является положительным , когда.
Случайная величина, распределенная гипергеометрически с параметрами , а также написано и имеет функцию массы вероятности выше.
Комбинаторные тождества
При необходимости у нас есть
который по существу следует из тождества Вандермонда в из комбинаторики .
Также обратите внимание, что
Это тождество можно показать, выразив биномиальные коэффициенты через факториалы и переставив последние, но это также следует из симметрии задачи. Действительно, рассмотрим два раунда розыгрыша без замены. В первом раунде снаружи нейтральные шарики извлекаются из урны без замены и окрашиваются в зеленый цвет. Затем снова кладут цветные шарики. Во втором раундешарики нарисованы без замены и окрашены в красный цвет. Тогда количество шариков с обоими цветами на них (то есть количество шариков, нарисованных дважды) имеет гипергеометрическое распределение. Симметрия в а также проистекает из того факта, что два раунда независимы, и можно было начать с розыгрыша шарики и сначала раскрасив их в красный цвет.
Характеристики
Рабочий пример
Классическое применение гипергеометрического распределения - выборка без замены . Представьте себе урну с двумя цветами мрамора : красным и зеленым. Определите рисование зеленого шарика как успех, а рисование красного шарика как неудачу (аналогично биномиальному распределению). Если переменная N описывает количество всех шариков в урне (см. Таблицу непредвиденных обстоятельств ниже), а K описывает количество зеленых шариков , то N - K соответствует количеству красных шариков . В этом примере X - это случайная величина , результатом которой является k , количество зеленых шариков, фактически нарисованных в эксперименте. Эта ситуация иллюстрируется следующей таблицей непредвиденных обстоятельств :
нарисованный | не нарисовано | общее | |
---|---|---|---|
зеленые шарики | k | К - к | K |
красные шарики | п - к | Н + К - П - К | N - K |
общее | п | N - n | N |
Теперь предположим (например), что в урне 5 зеленых и 45 красных шариков. Стоя рядом с урной, вы закрываете глаза и рисуете 10 шариков без замены. Какова вероятность того, что ровно 4 из 10 будут зелеными? Обратите внимание, что, хотя мы смотрим на успех / неудачу, данные не точно моделируются биномиальным распределением , потому что вероятность успеха в каждом испытании не одинакова, поскольку размер оставшейся популяции изменяется по мере удаления каждого шарика.
Эта проблема представлена в следующей таблице непредвиденных обстоятельств:
нарисованный | не нарисовано | общее | |
---|---|---|---|
зеленые шарики | к = 4 | К - к = 1 | К = 5 |
красные шарики | п - к = 6 | N + K - N - K = 39 | N - K = 45 |
общее | n = 10 | N - п = 40 | N = 50 |
Вероятность выпадения ровно k зеленых шариков можно рассчитать по формуле
Следовательно, в этом примере вычислить
Интуитивно мы могли бы ожидать, что еще более маловероятно, что все 5 зеленых шариков окажутся среди 10 нарисованных.
Как и ожидалось, вероятность вытащить 5 зеленых шариков примерно в 35 раз меньше, чем вероятность вытягивания 4.
Симметрии
Меняем ролями зеленый и красный шарики:
Обмен ролями нарисованного и не нарисованного шарика:
Меняем ролями зеленый и нарисованный мрамор:
Эти симметрии порождают диэдральную группу .
Порядок розыгрышей
Вероятность рисования любого набора зеленых и красных шариков (гипергеометрическое распределение) зависит только от количества зеленых и красных шариков, а не от порядка, в котором они появляются; т.е. это обменный дистрибутив. В результате вероятность рисования зеленого шарика вничья [2]
Это ожидаемая вероятность, то есть она основана на незнании результатов предыдущих розыгрышей.
Границы хвоста
Позволять а также . Тогда длямы можем получить следующие оценки: [3]
где
- расхождение Кульбака-Лейблера, и используется, что. [4]
Если n больше, чем N / 2, может быть полезно применить симметрию для «инвертирования» границ, что даст вам следующее: [4] [5]
Статистические выводы
Гипергеометрический тест
Гипергеометрический тест использует гипергеометрическое распределение для измерения статистической значимости нарисовав образец , состоящий из определенного количества успехов (из общее количество розыгрышей) от населения размером содержащий успехов. В тесте на чрезмерное представление успехов в выборке гипергеометрическое значение p вычисляется как вероятность случайного рисования. или больше успехов от населения в тотал розыгрышей. В тесте на недопредставленность p-значение - это вероятность случайного рисования или меньше успехов.
Тест, основанный на гипергеометрическом распределении (гипергеометрический тест), идентичен соответствующей односторонней версии точного теста Фишера . [6] Соответственно, p-значение двустороннего точного критерия Фишера может быть вычислено как сумма двух соответствующих гипергеометрических тестов (для получения дополнительной информации см. [7] ).
Тест часто используется для определения того, какие подгруппы чрезмерно или недостаточно представлены в выборке. Этот тест имеет широкий спектр применения. Например, маркетинговая группа может использовать тест, чтобы понять свою клиентскую базу, протестировав набор известных клиентов на предмет чрезмерного представительства различных демографических подгрупп (например, женщин, людей до 30 лет).
Связанные дистрибутивы
Позволять а также .
- Если тогда имеет распределение Бернулли с параметром.
- Позволять имеют биномиальное распределение с параметрами а также ; это моделирует количество успехов в аналогичной задаче выборки с заменой. Если а также большие по сравнению с , а также не близко к 0 или 1, то а также имеют похожие распределения, т. е. .
- Если большой, а также большие по сравнению с , а также не близко к 0 или 1, то
где - стандартная функция нормального распределения
- Если вероятности рисования зеленого или красного шарика не равны (например, потому что зеленые шарики больше / легче для понимания, чем красные шарики), тогда имеет нецентральное гипергеометрическое распределение
- Бета-биномиальное распределение является сопряженным перед для гипергеометрического распределения.
В следующей таблице описаны четыре распределения, связанных с количеством успехов в последовательности розыгрышей:
С заменами | Никаких замен | |
---|---|---|
Учитывая количество розыгрышей | биномиальное распределение | гипергеометрическое распределение |
Заданное количество отказов | отрицательное биномиальное распределение | отрицательное гипергеометрическое распределение |
Многомерное гипергеометрическое распределение
Параметры | | ||
---|---|---|---|
Служба поддержки | |||
PMF | |||
Иметь в виду | |||
Дисперсия | |
Модель урны с зелеными и красными шариками может быть расширена на случай, когда имеется более двух цветов шариков. Если в урне находится K i шариков цвета i, и вы берете n шариков наугад без замены, то количество шариков каждого цвета в выборке ( k 1 , k 2 , ..., k c ) имеет многомерный гипергеометрическое распределение. Это имеет такое же отношение к полиномиальному распределению , как гипергеометрическое распределение к биномиальному распределению - полиномиальное распределение является распределением «с заменой», а многомерное гипергеометрическое распределение - распределением «без замены».
Свойства этого распределения приведены в соседней таблице, где c - количество разных цветов и общее количество шариков.
Пример
Предположим, в урне 5 черных, 10 белых и 15 красных шариков. Если шесть шариков выбраны без замены, вероятность того, что будут выбраны ровно два шарика каждого цвета, равна
Возникновение и приложения
Заявление о проверке выборов
При аудите выборов обычно проверяется выборка участков с машинным подсчетом, чтобы увидеть, соответствует ли ручной или машинный пересчет первоначальному подсчету. Несоответствия приводят либо к отчету, либо к большему пересчету. Частота выборки обычно определяется законом, а не статистическим дизайном, поэтому для законодательно определенного размера выборки n , какова вероятность пропустить проблему, которая присутствует на K участках, например, взлом или ошибку? Это вероятность того, что k = 0. Ошибки часто неясны, и хакер может свести к минимуму обнаружение, затронув только несколько участков, что все равно повлияет на закрытые выборы, поэтому вероятный сценарий состоит в том, что K будет порядка 5% от N . Аудиты обычно охватывают от 1% до 10% участков (часто 3%), [8] [9] [10], поэтому у них есть высокий шанс пропустить проблему. Например, если проблема присутствует в 5 из 100 участков, 3% выборка имеет 86% вероятность того, что k = 0, поэтому проблема не будет замечена, и только 14% вероятность того, что проблема появится в выборке (положительный k ) :
Для выборки потребуется 45 участков, чтобы иметь вероятность менее 5% того, что k = 0 в выборке, и, таким образом, вероятность обнаружения проблемы превышает 95%:
Приложение к покеру техасский холдем
В холдеме игроки в покер собирают лучшую руку, которую они могут, комбинируя две карты в руке с 5 картами (общими картами), которые в конечном итоге оказываются на столе. В колоде 52 по 13 штук каждой масти. В этом примере предположим, что у игрока в руке 2 трефы, а на столе лежат 3 карты, 2 из которых также трефы. Игрок хотел бы знать вероятность того, что одна из следующих двух карт, которые будут показаны, будет клубом для завершения флеша .
(Обратите внимание, что вероятность, рассчитанная в этом примере, предполагает, что информация о картах в руках других игроков неизвестна; однако опытные игроки в покер могут учитывать, как другие игроки делают свои ставки (чек, колл, рейз или фолд) вероятность для каждого сценария. Строго говоря, описанный здесь подход к вычислению вероятностей успеха является точным в сценарии, когда за столом находится только один игрок; в многопользовательской игре эта вероятность может быть несколько скорректирована в зависимости от ставок оппонентов. .)
Показано 4 клуба, так что 9 клубов все еще не показаны. Показано 5 карт (2 в руке и 3 на столе), так что есть все еще невидимый.
Вероятность того, что одна из следующих двух перевернутых карт - это булава, может быть рассчитана с использованием гипергеометрических данных с а также . (около 31,64%)
Вероятность того, что обе следующие две повернутые карты являются трефами, может быть рассчитана с использованием гипергеометрического метода с а также . (около 3,33%)
Вероятность того, что ни одна из следующих двух повернутых карт не трефовая, может быть рассчитана с помощью гипергеометрического метода с а также . (около 65,03%)
Смотрите также
- Нецентральные гипергеометрические распределения
- Отрицательное гипергеометрическое распределение
- Полиномиальное распределение
- Выборка (статистика)
- Обобщенная гипергеометрическая функция
- Проблема сборщика купонов
- Геометрическое распределение
- Кено
- Леди дегустация чая
Рекомендации
Цитаты
- ^ Райс, Джон А. (2007). Математическая статистика и анализ данных (Третье изд.). Duxbury Press. п. 42.
- ^ http://www.stat.yale.edu/~pollard/Courses/600.spring2010/Handouts/Symmetry%5BPolyaUrn%5D.pdf
- ^ Хёфдинга, Wassily (1963), "Вероятностные неравенства для сумм ограниченных случайных величин" (PDF) , журнал Американской ассоциации по статистике , 58 (301): 13-30, DOI : 10,2307 / 2282952 , JSTOR 2282952.
- ^ а б «Другой хвост гипергеометрического распределения» . wordpress.com . 8 декабря 2015 . Проверено 19 марта 2018 .
- ^ Serfling, Роберт (1974), "Вероятность неравенства на сумму в выборку без замены", Летопись статистики , 2 : 39-48, DOI : 10,1214 / AOS / 1176342611.
- ^ Соперники, I .; Personnaz, L .; Taing, L .; Потье, М.-К. (2007). «Обогащение или истощение категории GO в классе генов: какой тест?» . Биоинформатика . 23 (4): 401–407. DOI : 10.1093 / биоинформатики / btl633 . PMID 17182697 .
- ^ К. Проповедник и Н. Бриггс. «Расчет для точного теста Фишера: интерактивный инструмент расчета для точного вероятностного теста Фишера для таблиц 2 x 2 (интерактивная страница)» .
- ^ Аманда Глейзер и Джейкоб Спертус (10.02.2020). «Начните распространять новости: аудит после выборов в Нью-Йорке имеет серьезные недостатки». SSRN 3536011 . Цитировать журнал требует
|journal=
( помощь ) - ^ «Законы о государственном аудите» . Подтвержденное голосование . 2017-02-10 . Проверено 2 апреля 2018 .
- ^ Национальная конференция законодательных собраний штатов. «Послевыборный аудит» . www.ncsl.org . Проверено 2 апреля 2018 .
Источники
- Беркопец, Алеш (2007). «Алгоритм HyperQuick для дискретного гипергеометрического распределения» . Журнал дискретных алгоритмов . 5 (2): 341–347. DOI : 10.1016 / j.jda.2006.01.001 .
- Скала, М. (2011). «Гипергеометрические хвостовые неравенства: конец безумию». arXiv : 1311.5939 [ math.PR ]. неопубликованная заметка
Внешние ссылки
- Гипергеометрическое распределение и биномиальное приближение гипергеометрической случайной переменной Криса Бушера, Wolfram Demonstrations Project .
- Вайсштейн, Эрик В. "Гипергеометрическое распределение" . MathWorld .