Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике , бином интервал доли доверия является доверительным интервалом для вероятности успеха вычисленной из результатов серии экспериментов на успех отказа ( Бернулли ). Другими словами, интервал биномиальной пропорции доверительный интервал оценка вероятности успеха р , когда только число экспериментов п и число успехов п S известны.

Существует несколько формул для биномиального доверительного интервала, но все они основаны на предположении о биномиальном распределении . В общем, биномиальное распределение применяется, когда эксперимент повторяется фиксированное количество раз, каждое испытание эксперимента имеет два возможных результата (успех и неудача), вероятность успеха одинакова для каждого испытания, а испытания статистически независимы. . Поскольку биномиальное распределение является дискретным распределением вероятностей (т. Е. Не непрерывным) и его трудно вычислить для большого количества испытаний, для вычисления этого доверительного интервала используются различные аппроксимации, все со своими собственными компромиссами в точности и вычислительной интенсивности.

Простым примером биномиального распределения является набор различных возможных исходов и их вероятностей для количества орлов, наблюдаемых, когда монета подбрасывается десять раз. Наблюдаемая биномиальная пропорция - это доля флипов, оказавшихся орлом. Учитывая эту наблюдаемую пропорцию, доверительный интервал для истинной вероятности выпадения монеты орлом представляет собой диапазон возможных пропорций, которые могут содержать или не содержать истинную пропорцию. Например, 95% доверительный интервал для доли будет содержать истинную долю 95% случаев, когда используется процедура построения доверительного интервала. [1]

Нормальный интервал аппроксимации [ править ]

Построение нормального интервала аппроксимации на логистической кривой выявляет проблемы с интервалами перерегулирования и нулевой ширины . [2]

Обычно используемая формула для биномиального доверительного интервала основана на аппроксимации распределения ошибок для биномиально распределенного наблюдения с нормальным распределением . [3] Это приближение основано на центральной предельной теореме и ненадежно, когда размер выборки мал или вероятность успеха близка к 0 или 1. [4]

Используя нормальное приближение, вероятность успеха p оценивается как

или эквивалент

где это доля успехов в Бернулли пробного процесса, измеренная с испытаний приносит успехи и неудачи, и это квантиль из стандартного нормального распределения (т.е. пробит ) , соответствующей целевой частоты появления ошибок . Для уровня достоверности 95% ошибка , так и .

Важный теоретический вывод этого доверительного интервала включает обращение проверки гипотезы. В этой формулировке доверительный интервал представляет те значения параметра совокупности, которые имели бы большие p-значения, если бы они были проверены как гипотетическая пропорция совокупности . Набор значений, для которых справедливо нормальное приближение, можно представить в виде

где это квантиль из стандартного нормального распределения . Поскольку тест в середине неравенства является тестом Вальда , нормальный интервал аппроксимации иногда называют интервалом Вальда , но он был впервые описан Пьером-Симоном Лапласом в 1812 году [5].

Стандартная ошибка оценки доли при использовании взвешенных данных [ править ]

Пусть существует простая случайная выборка, каждый из которой является идентификатором из распределения Бернулли (p), а вес - это вес для каждого наблюдения. Стандартизировать (положительные) веса , чтобы их сумма 1. Взвешенный образец доля составляет: . Поскольку они независимы и каждый из них имеет дисперсию , дисперсия выборки пропорции составляет: [6]

.

Стандартная ошибка из квадратный корень из этой величины. Поскольку мы не знаем , мы должны это оценить. Несмотря на то, что существует множество возможных оценщиков, обычным является использование выборочного среднего и включение его в формулу. Это дает:

Для невзвешенных данных , давая . SE становится , приводя к знакомым формулам, показывающим, что вычисление взвешенных данных является их прямым обобщением.

Интервал счета Уилсона [ править ]

Интервалы оценки Уилсона, нанесенные на логистическую кривую, выявляют асимметрию и хорошую производительность для малых n и где p равно или близко к 0 или 1.

Интервал оценки Уилсона является улучшением по сравнению с нормальным интервалом аппроксимации во многих отношениях. Он был разработан Эдвином Бидвеллом Уилсоном (1927). [7] В отличие от симметричного интервала нормальной аппроксимации (см. Выше), интервал оценки Вильсона асимметричен . Он не страдает проблемами перерегулирования и интервалов нулевой ширины, которые влияют на нормальный интервал, и его можно безопасно использовать с небольшими выборками и искаженными наблюдениями. [3] Наблюдаемая вероятность охвата последовательно ближе к номинальной стоимости, . [2]

Как и обычный интервал, но в отличие от интервала Клоппера-Пирсона , интервал можно вычислить непосредственно по формуле.

Уилсон начал с нормального приближения бинома:

с аналитической формулой для стандартного отклонения выборки, заданной как

.

Объединение этих двух и возведение радикала в квадрат дает уравнение, квадратичное по p :

Преобразование отношения в квадратное уравнение стандартной формы для p , рассмотрение и n как известных значений из выборки (см. Предыдущий раздел) и использование значения z, которое соответствует желаемой достоверности для оценки p, дает следующее:

,

где все значения в скобках - известные величины. Решение для p оценивает верхний и нижний пределы доверительного интервала для p . Следовательно, вероятность успеха p оценивается как

или эквивалент

Практическое наблюдение при использовании этого интервала состоит в том, что он обладает хорошими свойствами даже для небольшого числа испытаний и / или с крайней вероятностью.

Интуитивно понятно, что центральное значение этого интервала - это средневзвешенное значение и , получающее больший вес по мере увеличения размера выборки. Формально значение центра соответствует с использованием pseudocount из1/2 z ² , количество стандартных отклонений доверительного интервала: добавьте это число как к количеству успехов, так и к количеству неудач, чтобы получить оценку отношения. Для общих двух стандартных отклонений в каждом интервале направлений (примерно 95% покрытия, что само по себе составляет примерно 1,96 стандартных отклонений) это дает оценку, известную как «правило плюс четыре».

Хотя квадратичная функция может быть решена явно, в большинстве случаев уравнения Вильсона также могут быть решены численно с использованием итерации с фиксированной точкой

с .

Интервал Вильсона также может быть получен с помощью z-критерия для одной выборки или критерия хи-квадрат Пирсона с двумя категориями. Результирующий интервал,

затем можно решить для получения интервала оценок Вильсона. Тест в середине неравенства - это тест на баллы .

Принцип равенства интервалов [ править ]

Функция плотности вероятности для интервала оценок Вильсона плюс PDF на границах интервала. Площади хвоста равны.

Поскольку интервал получается путем решения из нормального приближения к биномиальному, интервал оценки Вильсона имеет свойство гарантированно получить тот же результат, что и эквивалентный z-критерий или критерий хи-квадрат .

Это свойство можно визуализировать, построив график функции плотности вероятности для интервала оценок Уилсона (см. Wallis 2021: 297-313) [8], а затем построив нормальный PDF-файл для каждой границы. Области хвоста результирующего распределения Вильсона и нормального распределения, представляющие вероятность значительного результата в этом направлении, должны быть равны.

Интервал оценки Вильсона с поправкой на непрерывность и интервал Клоппера-Пирсона также соответствуют этому свойству. Практическое значение состоит в том, что эти интервалы могут использоваться в качестве критериев значимости с результатами, идентичными исходному тесту, а новые тесты могут быть получены по геометрии. [8]

Интервал счета Уилсона с поправкой на непрерывность [ править ]

Интервал Вильсона может быть модифицирован путем использования коррекции непрерывности , с тем чтобы выровнять минимальную вероятность покрытия , а не средняя вероятности покрытия, с номинальной стоимостью, .

Так же, как интервал Вильсона отражает критерий хи-квадрат Пирсона , интервал Вильсона с поправкой на непрерывность отражает эквивалентный критерий хи-квадрат Йейтса .

Следующие формулы для нижней и верхней границ интервала оценок Вильсона с поправкой на непрерывность получены из Newcombe (1998). [2]

Однако, если p  = 0, необходимо принять 0; если p  = 1, то равно 1.

Уоллис (2021) [8] определяет более простой метод вычисления интервалов Вильсона с поправкой на непрерывность, который использует функции. Для нижней границы пусть , где - выбранный уровень ошибки для . Тогда . Преимущество этого метода состоит в том, что его можно разложить дальше.

Джеффрис интервал [ править ]

Интервал Джеффриса имеет вывод байесовского, но он обладает хорошими свойствами частотных. В частности, он имеет свойства покрытия, аналогичные свойствам интервала Вильсона, но это один из немногих интервалов с преимуществом равных хвостов (например, для 95% доверительного интервала вероятности интервала, лежащего выше или ниже истинного значения оба близки к 2,5%). Напротив, интервал Вильсона имеет систематическое смещение, так что он центрирован слишком близко к p = 0,5. [9]

Интервал Джеффриса - это байесовский вероятный интервал, полученный при использовании неинформативного априорного значения Джеффри для биномиальной пропорции p . В Джеффреис перед этой проблемы является бета - распределение с параметрами (1/2, 1/2) , это конъюгат до . После наблюдения x успехов в n испытаниях апостериорное распределение для p является бета-распределением с параметрами ( x  + 1/2,  n  -  x  + 1/2) .

Когда x  ≠ 0 и x  ≠  n , интервал Джеффри берется равным 100 (1 -  α )% равновероятным интервалом апостериорной вероятности, то есть квантилями α  / 2 и 1 -  α  / 2 бета-распределения с параметрами ( х  + 1/2,  п  -  х  + 1/2) . Эти квантили необходимо рассчитывать численно, хотя это достаточно просто с помощью современного статистического программного обеспечения.

Во избежание стремления вероятности охвата к нулю при p  → 0 или 1 , когда x  = 0, верхний предел вычисляется, как и раньше, но нижний предел установлен на 0, а когда x  =  n, нижний предел вычисляется, как и раньше, но верхний предел установлен на 1. [4]

Интервал Клоппера – Пирсона [ править ]

Интервал Клоппера – Пирсона - ранний и очень распространенный метод расчета биномиальных доверительных интервалов. [10] Это часто называют «точным» методом, потому что он основан на кумулятивных вероятностях биномиального распределения (то есть на точном правильном распределении, а не на приближении). Однако в случаях, когда мы знаем размер популяции, интервалы могут быть не самыми маленькими. Например, для населения размером 20 с истинной долей 50% Клоппер-Пирсон дает [0,272, 0,728], ширина которого составляет 0,456 (и где границы находятся на 0,0280 от «следующих достижимых значений» 6/20 и 14. / 20); тогда как Уилсон дает [0,299, 0,701], что имеет ширину 0,401 (и находится на 0,0007 от следующих достижимых значений).

Интервал Клоппера – Пирсона можно записать как

или, что эквивалентно,

с участием

где 0 ≤ xn - количество успехов, наблюдаемых в выборке, а Bin ( nθ ) - биномиальная случайная величина с n попытками и вероятностью успеха  θ .

Точно так же мы можем сказать, что интервал Клоппера – Пирсона имеет уровень достоверности, если является точной нижней гранью из тех, что следующие проверки гипотезы успешны со значимостью :

  1. H 0 : с H A :
  2. Н 0 : с H A : .

Из-за связи между биномиальным распределением и бета-распределением интервал Клоппера – Пирсона иногда представляется в альтернативном формате, в котором используются квантили из бета-распределения.

где x - количество успехов, n - количество испытаний, а B ( p ; v , w ) - p- й квантиль из бета-распределения с параметрами формы v и w .

Таким образом , где:

Тогда доверительный интервал биномиальной пропорции равен , как следует из соотношения между кумулятивной функцией распределения биномиального распределения и регуляризованной неполной бета-функцией .

Когда равно или , доступны выражения в закрытой форме для границ интервала: когда интервал и когда он есть . [11]

Бета-распределение, в свою очередь, связано с F-распределением, поэтому третью формулировку интервала Клоппера – Пирсона можно записать с использованием F-квантилей:

где x - количество успехов, n - количество испытаний, а F ( c ; d 1 , d 2 ) - квантиль c из F-распределения с d 1 и d 2 степенями свободы. [12]

Интервал Клоппера – Пирсона является точным интервалом, поскольку он основан непосредственно на биномиальном распределении, а не на каком-либо приближении к биномиальному распределению. Этот интервал никогда не бывает меньше номинального охвата для любой доли населения, но это означает, что он обычно консервативен. Например, истинная степень охвата 95% интервала Клоппера – Пирсона может быть намного выше 95%, в зависимости от n и  θ . [4] Таким образом, интервал может быть шире, чем необходимо для достижения 95% достоверности. Напротив, стоит отметить, что другие доверительные границы могут быть уже, чем их номинальная доверительная ширина, т. Е. Интервал нормальной аппроксимации (или «стандартный») интервал Вильсона, [7] интервал Агрести – Кулла, [12]и т. д. с номинальным охватом 95% фактически может охватывать менее 95%. [4]

Определение интервала Клоппера – Пирсона также может быть изменено для получения точных доверительных интервалов для различных распределений. Например, это также может быть применено к случаю, когда выборки отбираются без замены из совокупности известного размера, вместо повторных выборок биномиального распределения. В этом случае основным распределением будет гипергеометрическое распределение .

Интервал Агрести – Кулля [ править ]

Интервал Агрести – Кулла также является еще одним приближенным биномиальным доверительным интервалом. [12]

Учитывая успехи в испытаниях, определите

а также

Тогда доверительный интервал для определяется выражением

где - квантиль стандартного нормального распределения, как и раньше (например, требуется 95% доверительный интервал для получения ). Согласно Брауну , Цаю и ДасГупте [4] взятие вместо 1,96 дает интервал «добавить 2 успеха и 2 неудачи», ранее описанный Агрести и Коуллом . [12]

Этот интервал можно резюмировать как использование регулировки центральной точки, интервала оценки Вильсона, а затем применение нормального приближения к этой точке. [3] [4]

Преобразование арксинуса [ править ]

Преобразование арксинуса приводит к вытягиванию концов распределения. [13] Хотя он может стабилизировать дисперсию (и, следовательно, доверительные интервалы) данных о долях, его использование подвергалось критике в нескольких контекстах. [14]

Пусть X - количество успехов в n испытаниях, и пусть p = X / n . Дисперсия p равна

Используя преобразование арксинуса, дисперсия арксинуса p 1/2 равна [15]

Итак, сам доверительный интервал имеет следующий вид:

где - квантиль стандартного нормального распределения.

Этот метод можно использовать для оценки дисперсии p, но его использование проблематично, когда p близко к 0 или 1.

T преобразование [ править ]

Пусть p будет долей успехов. Для 0 ≤ a ≤ 2,

Это семейство является обобщением логит-преобразования, которое является частным случаем с a = 1 и может использоваться для преобразования пропорционального распределения данных в приблизительно нормальное распределение . Для набора данных необходимо оценить параметр a .

Правило трех - когда не наблюдается никаких успехов [ править ]

Правило трех используется , чтобы обеспечить простой способ указав приблизительный 95% доверительный интервал для р , в частном случае, когда нет успехов ( ) не наблюдалось. [16] Интервал равен (0,3 / n ) .

По симметрии можно было ожидать только успехов ( ), интервал равен (1 - 3 / n , 1) .

Сравнение разных интервалов [ править ]

Есть несколько исследовательских работ, в которых сравниваются эти и другие доверительные интервалы для биномиальной пропорции. [3] [2] [17] [18] И Агрести и Коул (1998) [12], и Росс (2003) [19] указывают, что точные методы, такие как интервал Клоппера – Пирсона, могут не работать так же хорошо, как некоторые приближения. . Нормальный интервал аппроксимации и его представление в учебниках подвергалось резкой критике, и многие статистики выступали за то, чтобы его не использовать. [4] Основными проблемами являются перерегулирование (границы превышают [0, 1]), интервалы нулевой ширины при = 0 и 1 (ложно подразумевая достоверность), [2]и общее несоответствие с проверкой значимости. [3]

Из перечисленных выше приближений методы интервалов оценки Вильсона (с поправкой на непрерывность или без нее) оказались наиболее точными и надежными, [3] [4] [2], хотя некоторые предпочитают подход Агрести – Коулла для большей выборки. размеры. [4] Методы Уилсона и Клоппера-Пирсона дают согласованные результаты с тестами на значимость источника [8], и это свойство является решающим для многих исследователей.

Многие из этих интервалов могут быть рассчитаны в R с использованием таких пакетов, как «binom» , или в Python с использованием пакета «ebcic» (Калькулятор точного биномиального доверительного интервала).

См. Также [ править ]

  • Теория оценок
  • Псевдосчет

Ссылки [ править ]

  1. ^ Салливан, Лиза (2017-10-27). «Доверительные интервалы» . Школа общественного здравоохранения Бостонского университета .
  2. ^ Б с д е е Newcombe, RG (1998). «Двусторонние доверительные интервалы для одной пропорции: сравнение семи методов». Статистика в медицине . 17 (8): 857–872. DOI : 10.1002 / (SICI) 1097-0258 (19980430) 17: 8 <857 :: AID-SIM777> 3.0.CO; 2-E . PMID 9595616 . 
  3. ^ Б с д е е Wallis, Шон А. (2013). «Биномиальные доверительные интервалы и тесты на непредвиденные обстоятельства: математические основы и оценка альтернативных методов» (PDF) . Журнал количественной лингвистики . 20 (3): 178–208. DOI : 10.1080 / 09296174.2013.799918 . S2CID 16741749 .  
  4. ^ Б с д е е г ч я Браун, Лоуренс Д. ; Кай, Т. Тони ; ДасГупта, Анирбан (2001). «Интервальная оценка биномиальной пропорции». Статистическая наука . 16 (2): 101–133. CiteSeerX 10.1.1.50.3025 . DOI : 10,1214 / сс / 1009213286 . Руководство по ремонту 1861069 . Zbl 1059.62533 .   
  5. ^ Лаплас, Пьер Симон (1812). Аналитическая теория вероятностей (на французском языке). Ve. Курсье. п. 283.
  6. ^ Как рассчитать стандартную ошибку пропорции с использованием взвешенных данных?
  7. ^ a b Уилсон, Е.Б. (1927). «Вероятный вывод, закон последовательности и статистический вывод». Журнал Американской статистической ассоциации . 22 (158): 209–212. DOI : 10.1080 / 01621459.1927.10502953 . JSTOR 2276774 . 
  8. ^ а б в г Уоллис, Шон А. (2021). Статистика в корпусной лингвистике - новый подход . Нью-Йорк: Рутледж. ISBN 9781138589384.
  9. Перейти ↑ Cai, TT (2005). «Односторонние доверительные интервалы в дискретных распределениях». Журнал статистического планирования и вывода . 131 (1): 63–88. DOI : 10.1016 / j.jspi.2004.01.005 .
  10. ^ Clopper, C .; Пирсон, ES (1934). «Использование доверительных или реперных пределов, проиллюстрированных в случае бинома». Биометрика . 26 (4): 404–413. DOI : 10.1093 / Biomet / 26.4.404 .
  11. ^ Тулин, Монс (2014-01-01). «Стоимость использования точных доверительных интервалов для биномиальной пропорции». Электронный статистический журнал . 8 (1): 817–840. arXiv : 1303.1288 . DOI : 10.1214 / 14-EJS909 . ISSN 1935-7524 . S2CID 88519382 .  
  12. ^ a b c d e Агрести, Алан ; Коулл, Брент А. (1998). «Приблизительное лучше, чем« точное »для интервальной оценки биномиальных пропорций». Американский статистик . 52 (2): 119–126. DOI : 10.2307 / 2685469 . JSTOR 2685469 . Руководство по ремонту 1628435 .  
  13. ^ Голландия, Стивен. «Преобразования пропорций и процентов» . strata.uga.edu . Проверено 8 сентября 2020 .
  14. ^ Warton, Дэвид I .; Хуэй, Фрэнсис KC (январь 2011 г.). «Арксинус глуп: анализ пропорций в экологии» . Экология . 92 (1): 3–10. DOI : 10.1890 / 10-0340.1 . hdl : 1885/152287 . ISSN 0012-9658 . 
  15. ^ Шао Дж (1998) Математическая статистика. Springer. Нью-Йорк, Нью-Йорк, США
  16. ^ Стив Саймон (2010) «Доверительный интервал с нулевыми событиями» , Детская больница Милосердия, Канзас-Сити, Миссури (веб-сайт: «Спросите профессора Мина в темах статистики или медицинских исследованиях, заархивированных 15 октября 2011 года в Wayback Machine )
  17. ^ Reiczigel, J (2003). «Доверительные интервалы для биномиального параметра: некоторые новые соображения» (PDF) . Статистика в медицине . 22 (4): 611–621. DOI : 10.1002 / sim.1320 . PMID 12590417 .  
  18. ^ Сауро Дж., Льюис-младший (2005) «Сравнение калькулятора интервалов Вальда, Аддж-Вальда, точного и точного интервалов Вильсона». Архивировано 18 июня 2012 г. на Wayback Machine . Труды Общества по человеческому фактору и эргономике, 49-е ежегодное собрание (HFES 2005) , Орландо, Флорида, стр. 2100–2104
  19. Перейти ↑ Ross, TD (2003). «Точные доверительные интервалы для оценки биномиальной пропорции и коэффициента Пуассона» . Компьютеры в биологии и медицине . 33 (6): 509–531. DOI : 10.1016 / S0010-4825 (03) 00019-2 . PMID 12878234 .