В статистике , бином интервал доли доверия является доверительным интервалом для вероятности успеха вычисленной из результатов серии экспериментов на успех отказа ( Бернулли ). Другими словами, интервал биномиальной пропорции доверительный интервал оценка вероятности успеха р , когда только число экспериментов п и число успехов п S известны.
Существует несколько формул для биномиального доверительного интервала, но все они основаны на предположении о биномиальном распределении . В общем, биномиальное распределение применяется, когда эксперимент повторяется фиксированное количество раз, каждое испытание эксперимента имеет два возможных результата (успех и неудача), вероятность успеха одинакова для каждого испытания, а испытания статистически независимы. . Поскольку биномиальное распределение является дискретным распределением вероятностей (т. Е. Не непрерывным) и его трудно вычислить для большого количества испытаний, для вычисления этого доверительного интервала используются различные аппроксимации, все со своими собственными компромиссами в точности и вычислительной интенсивности.
Простым примером биномиального распределения является набор различных возможных исходов и их вероятностей для количества орлов, наблюдаемых, когда монета подбрасывается десять раз. Наблюдаемая биномиальная пропорция - это доля флипов, оказавшихся орлом. Учитывая эту наблюдаемую пропорцию, доверительный интервал для истинной вероятности выпадения монеты орлом представляет собой диапазон возможных пропорций, которые могут содержать или не содержать истинную пропорцию. Например, 95% доверительный интервал для доли будет содержать истинную долю 95% случаев, когда используется процедура построения доверительного интервала. [1]
Нормальный интервал аппроксимации
Обычно используемая формула для биномиального доверительного интервала основана на аппроксимации распределения ошибок для биномиально распределенного наблюдения, , с нормальным распределением . [3] Это приближение основано на центральной предельной теореме и ненадежно, когда размер выборки мал или вероятность успеха близка к 0 или 1. [4]
Используя нормальное приближение, вероятность успеха p оценивается как
или эквивалент
где - это доля успехов в судебном процессе Бернулли , измеренная с помощью испытания, приносящие успехов и неудачи и это квантиль из стандартного нормального распределения (т.е. пробит ) , соответствующей целевой частоты появления ошибок. Для уровня достоверности 95% ошибка, так а также .
Важный теоретический вывод этого доверительного интервала включает обращение проверки гипотезы. В этой формулировке доверительный интервал представляет те значения параметра совокупности, которые имели бы большие p-значения, если бы они были проверены как гипотетическая пропорция совокупности . Сборник ценностей,, для которого справедливо нормальное приближение, можно представить в виде
где это квантиль из стандартного нормального распределения . Поскольку тест в середине неравенства является тестом Вальда , нормальный интервал аппроксимации иногда называют интервалом Вальда , но он был впервые описан Пьером-Симоном Лапласом в 1812 году [5].
Стандартная ошибка оценки доли при использовании взвешенных данных
Пусть будет простая случайная выборка где каждый является iid из распределения Бернулли (p) и вес- вес для каждого наблюдения. Стандартизируйте (положительные) весапоэтому они в сумме равны 1. Взвешенная доля выборки :. Поскольку независимы, и у каждого есть дисперсия , выборочная дисперсия пропорции составляет: [6]
.
Стандартная ошибка из- квадратный корень из этой величины. Потому что мы не знаем, мы должны это оценить. Несмотря на то, что существует множество возможных оценок, обычным является использование, выборочное среднее и подставьте его в формулу. Это дает:
Для невзвешенных данных , давая . SE становится, что приводит к знакомым формулам, показывающим, что расчет для взвешенных данных является их прямым обобщением.
Интервал счета Уилсона
Интервал оценки Уилсона является улучшением по сравнению с нормальным интервалом аппроксимации во многих отношениях. Он был разработан Эдвином Бидвеллом Уилсоном (1927). [7] В отличие от симметричного интервала нормальной аппроксимации (см. Выше), интервал оценки Вильсона асимметричен . Он не страдает проблемами перерегулирования и интервалов нулевой ширины, которые влияют на нормальный интервал, и его можно безопасно использовать с небольшими выборками и искаженными наблюдениями. [3] Наблюдаемая вероятность охвата постоянно приближается к номинальному значению,. [2]
Как и обычный интервал, но в отличие от интервала Клоппера-Пирсона , интервал можно вычислить непосредственно по формуле.
Уилсон начал с нормального приближения бинома:
с аналитической формулой для стандартного отклонения выборки, заданной как
- .
Объединение этих двух и возведение радикала в квадрат дает уравнение, квадратичное по p :
Преобразование отношения в квадратное уравнение стандартной формы для p , рассматриваяи n как известные значения из выборки (см. предыдущий раздел), а использование значения z, которое соответствует желаемой достоверности для оценки p, дает следующее:
- ,
где все значения в скобках - известные величины. Решение для p оценивает верхний и нижний пределы доверительного интервала для p . Следовательно, вероятность успеха p оценивается как
или эквивалент
Практическое наблюдение при использовании этого интервала состоит в том, что он обладает хорошими свойствами даже для небольшого числа испытаний и / или с крайней вероятностью.
Интуитивно понятно, что центральное значение этого интервала - это средневзвешенное значение а также , с участием получая больший вес по мере увеличения размера выборки. Формально значение центра соответствует с использованием pseudocount из1/2 z ² , количество стандартных отклонений доверительного интервала: добавьте это число как к количеству успехов, так и к количеству неудач, чтобы получить оценку отношения. Для общих двух стандартных отклонений в каждом интервале направлений (охват примерно 95%, что само по себе составляет примерно 1,96 стандартного отклонения), это дает оценку, известное как «правило плюс четыре».
Хотя квадратичная функция может быть решена явно, в большинстве случаев уравнения Вильсона также могут быть решены численно с использованием итерации с фиксированной точкой
с участием .
Интервал Вильсона также может быть получен с помощью z-критерия для одной выборки или критерия хи-квадрат Пирсона с двумя категориями. Результирующий интервал,
затем можно решить для для получения интервала счета Вильсона. Тест в середине неравенства - это тест на баллы .
Принцип интервального равенства
Поскольку интервал получается путем решения из нормального приближения к биному, интервал оценки Уилсона имеет свойство гарантировать получение того же результата, что и эквивалентный z-критерий или критерий хи-квадрат .
Это свойство можно визуализировать, построив график функции плотности вероятности для интервала оценок Уилсона (см. Wallis 2021: 297-313) [8], а затем построив нормальный PDF-файл для каждой границы. Области хвоста результирующего распределения Вильсона и нормального распределения, представляющие вероятность значительного результата в этом направлении, должны быть равны.
Интервал оценки Вильсона с поправкой на непрерывность и интервал Клоппера-Пирсона также соответствуют этому свойству. Практическое значение состоит в том, что эти интервалы могут использоваться в качестве критериев значимости с результатами, идентичными исходному тесту, а новые тесты могут быть получены по геометрии. [8]
Интервал оценки Вильсона с поправкой на непрерывность
Интервал Вильсона может быть изменен путем использования поправки на непрерывность , чтобы согласовать минимальную вероятность охвата , а не среднюю вероятность охвата, с номинальным значением,.
Так же, как интервал Вильсона отражает критерий хи-квадрат Пирсона , интервал Вильсона с поправкой на непрерывность отражает эквивалентный критерий хи-квадрат Йейтса .
Следующие формулы для нижней и верхней границ интервала оценок Вильсона с поправкой на непрерывность взяты из Newcombe (1998). [2]
Однако если p = 0,следует принимать за 0; если p = 1, тогда 1.
Уоллис (2021) [8] определяет более простой метод вычисления интервалов Вильсона с поправкой на непрерывность, который использует функции. Для оценки снизу положим, где выбранный уровень ошибки для . потом. Преимущество этого метода состоит в том, что его можно разложить дальше.
Интервал Джеффри
Интервал Джеффриса имеет вывод байесовского, но он обладает хорошими свойствами частотных. В частности, он имеет свойства покрытия, аналогичные свойствам интервала Вильсона, но это один из немногих интервалов с преимуществом равных хвостов (например, для 95% доверительного интервала вероятности интервала, лежащего выше или ниже истинного значения оба близки к 2,5%). Напротив, интервал Вильсона имеет систематическое смещение, так что он центрирован слишком близко к p = 0,5. [9]
Интервал Джеффриса - это байесовский вероятный интервал, полученный при использовании неинформативного априорного значения Джеффри для биномиальной пропорции p . В Джеффреис перед этой проблемы является бета - распределение с параметрами (1/2, 1/2) , это конъюгат до . После наблюдения x успехов в n испытаниях апостериорное распределение для p является бета-распределением с параметрами ( x + 1/2, n - x + 1/2) .
Когда x ≠ 0 и x ≠ n , интервал Джеффри берется равным 100 (1 - α )% равновероятным интервалом апостериорной вероятности, то есть квантилями α / 2 и 1 - α / 2 бета-распределения с параметрами ( х + 1/2, п - х + 1/2) . Эти квантили необходимо рассчитывать численно, хотя это достаточно просто с помощью современного статистического программного обеспечения.
Во избежание стремления вероятности охвата к нулю при p → 0 или 1 , когда x = 0, верхний предел вычисляется, как и раньше, но нижний предел установлен на 0, а когда x = n, нижний предел вычисляется, как прежде, но верхний предел установлен на 1. [4]
Интервал Клоппера – Пирсона
Интервал Клоппера – Пирсона - ранний и очень распространенный метод расчета биномиальных доверительных интервалов. [10] Это часто называют «точным» методом, потому что он основан на кумулятивных вероятностях биномиального распределения (то есть на точном правильном распределении, а не на приближении). Однако в случаях, когда мы знаем размер популяции, интервалы могут быть не самыми маленькими. Например, для населения размером 20 с истинной долей 50% Клоппер-Пирсон дает [0,272, 0,728], ширина которого составляет 0,456 (и где границы находятся на 0,0280 от «следующих достижимых значений» 6/20 и 14. / 20); тогда как Уилсон дает [0,299, 0,701], что имеет ширину 0,401 (и находится на 0,0007 от следующих достижимых значений).
Интервал Клоппера – Пирсона можно записать как
или эквивалентно,
с участием
где 0 ≤ x ≤ n - количество успехов, наблюдаемых в выборке, а Bin ( n ; θ ) - биномиальная случайная величина с n попытками и вероятностью успеха θ .
Эквивалентно можно сказать, что интервал Клоппера – Пирсона равен с уровнем уверенности если это нижняя грань таких, что следующие проверки гипотезы со значимостью проходят успешно. :
- H 0 :с H A :
- H 0 :с H A :.
Из-за связи между биномиальным распределением и бета-распределением интервал Клоппера – Пирсона иногда представляется в альтернативном формате, в котором используются квантили из бета-распределения.
где x - количество успехов, n - количество испытаний, а B ( p ; v , w ) - p- й квантиль из бета-распределения с параметрами формы v и w .
Таким образом, , где:
Тогда доверительный интервал биномиальной пропорции равен , как следует из связи между кумулятивной функцией распределения биномиального распределения и регуляризованной неполной бета-функцией .
Когда либо или же , доступны выражения в закрытой форме для границ интервала: когда интервал и когда это . [11]
Бета-распределение, в свою очередь, связано с F-распределением, поэтому третью формулировку интервала Клоппера – Пирсона можно записать с использованием F-квантилей:
где x - количество успехов, n - количество испытаний, а F ( c ; d 1 , d 2 ) - квантиль c из F-распределения с d 1 и d 2 степенями свободы. [12]
Интервал Клоппера – Пирсона является точным интервалом, поскольку он основан непосредственно на биномиальном распределении, а не на каком-либо приближении к биномиальному распределению. Этот интервал никогда не бывает меньше номинального охвата для любой доли населения, но это означает, что он обычно консервативен. Например, истинная степень охвата 95% интервала Клоппера – Пирсона может быть намного выше 95%, в зависимости от n и θ . [4] Таким образом, интервал может быть шире, чем необходимо для достижения 95% достоверности. Напротив, стоит отметить, что другие доверительные границы могут быть уже, чем их номинальная доверительная ширина, т. Е. Интервал нормальной аппроксимации (или «стандартный») интервал, интервал Вильсона, [7] интервал Агрести – Кулла, [12] и т. Д., с номинальным охватом 95% фактически может охватывать менее 95%. [4]
Определение интервала Клоппера – Пирсона также может быть изменено для получения точных доверительных интервалов для различных распределений. Например, это также может быть применено к случаю, когда выборки отбираются без замены из совокупности известного размера, вместо повторных выборок биномиального распределения. В этом случае основным распределением будет гипергеометрическое распределение .
Интервал Агрести – Кулля
Интервал Агрести – Кулла также является еще одним приближенным биномиальным доверительным интервалом. [12]
Дано успехи в испытания, определить
а также
Тогда доверительный интервал для дан кем-то
где - квантиль стандартного нормального распределения, как и раньше (например, 95% доверительный интервал требует , тем самым производя ). По словам Брауна , Цая и ДасГупты [4], принимаявместо 1,96 дает интервал «добавить 2 успеха и 2 неудачи», ранее описанный Агрести и Коуллом . [12]
Этот интервал можно резюмировать как использование регулировки центральной точки, , интервала оценок Вильсона, а затем примените нормальное приближение к этой точке. [3] [4]
Преобразование арксинуса
Преобразование арксинуса приводит к вытягиванию концов распределения. [13] Хотя он может стабилизировать дисперсию (и, следовательно, доверительные интервалы) данных о долях, его использование подвергалось критике в нескольких контекстах. [14]
Пусть X - количество успехов в n испытаниях, и пусть p = X / n . Дисперсия p равна
Используя преобразование арксинуса, дисперсия арксинуса p 1/2 равна [15]
Итак, сам доверительный интервал имеет следующий вид:
где это квантиль стандартного нормального распределения.
Этот метод можно использовать для оценки дисперсии p, но его использование проблематично, когда p близко к 0 или 1.
т преобразования
Пусть p будет долей успехов. Для 0 ≤ a ≤ 2,
Это семейство является обобщением логит-преобразования, которое является частным случаем с a = 1 и может использоваться для преобразования пропорционального распределения данных в приблизительно нормальное распределение . Для набора данных необходимо оценить параметр a .
Правило трех - когда не наблюдается успехов
Правило трех используется , чтобы обеспечить простой способ указав приблизительный 95% доверительный интервал для р , в частном случае, когда нет успехов () наблюдались. [16] Интервал равен (0,3 / n ) .
По симметрии можно было ожидать только успехов () интервал равен (1 - 3 / n , 1) .
Сравнение разных интервалов
Есть несколько исследовательских работ, в которых сравниваются эти и другие доверительные интервалы для биномиальной пропорции. [3] [2] [17] [18] И Агрести и Коул (1998) [12], и Росс (2003) [19] указывают, что точные методы, такие как интервал Клоппера – Пирсона, могут не работать так же хорошо, как некоторые приближения. . Нормальный интервал аппроксимации и его представление в учебниках подвергалось резкой критике, и многие статистики выступали за то, чтобы его не использовать. [4] Основными проблемами являются перерегулирование (границы превышают [0, 1]), интервалы нулевой ширины на= 0 и 1 (ложное предположение о достоверности), [2] и общее несоответствие с проверкой значимости. [3]
Из перечисленных выше приближений методы интервалов оценки Вильсона (с поправкой на непрерывность или без нее) оказались наиболее точными и надежными, [3] [4] [2], хотя некоторые предпочитают подход Агрести – Коулла для большей выборки. размеры. [4] Методы Уилсона и Клоппера-Пирсона дают согласованные результаты с тестами на значимость источника [8], и это свойство является решающим для многих исследователей.
Многие из этих интервалов могут быть рассчитаны в R с использованием таких пакетов, как «binom» , или в Python с использованием пакета «ebcic» (Калькулятор точного биномиального доверительного интервала).
Смотрите также
- Теория оценок
- Псевдосчет
Рекомендации
- ^ Салливан, Лиза (2017-10-27). «Доверительные интервалы» . Школа общественного здравоохранения Бостонского университета .
- ^ а б в г д е Ньюкомб, Р.Г. (1998). «Двусторонние доверительные интервалы для одной пропорции: сравнение семи методов». Статистика в медицине . 17 (8): 857–872. DOI : 10.1002 / (SICI) 1097-0258 (19980430) 17: 8 <857 :: AID-SIM777> 3.0.CO; 2-E . PMID 9595616 .
- ^ а б в г д е Уоллис, Шон А. (2013). «Биномиальные доверительные интервалы и тесты на непредвиденные обстоятельства: математические основы и оценка альтернативных методов» (PDF) . Журнал количественной лингвистики . 20 (3): 178–208. DOI : 10.1080 / 09296174.2013.799918 . S2CID 16741749 .
- ^ Б с д е е г ч I Браун, Лоуренс Д .; Кай, Т. Тони ; ДасГупта, Анирбан (2001). «Интервальная оценка биномиальной пропорции». Статистическая наука . 16 (2): 101–133. CiteSeerX 10.1.1.50.3025 . DOI : 10,1214 / сс / 1009213286 . Руководство по ремонту 1861069 . Zbl 1059.62533 .
- ^ Лаплас, Пьер Симон (1812). Аналитическая теория вероятностей (на французском языке). Ve. Курсье. п. 283.
- ^ Как рассчитать стандартную ошибку пропорции с использованием взвешенных данных?
- ^ а б Уилсон, Е.Б. (1927). «Вероятный вывод, закон последовательности и статистический вывод». Журнал Американской статистической ассоциации . 22 (158): 209–212. DOI : 10.1080 / 01621459.1927.10502953 . JSTOR 2276774 .
- ^ а б в г Уоллис, Шон А. (2021). Статистика в корпусной лингвистике - новый подход . Нью-Йорк: Рутледж. ISBN 9781138589384.
- ^ Цай, TT (2005). «Односторонние доверительные интервалы в дискретных распределениях». Журнал статистического планирования и вывода . 131 (1): 63–88. DOI : 10.1016 / j.jspi.2004.01.005 .
- ^ Clopper, C .; Пирсон, ES (1934). «Использование доверительных или реперных пределов, проиллюстрированных в случае бинома». Биометрика . 26 (4): 404–413. DOI : 10.1093 / Biomet / 26.4.404 .
- ^ Тулин, Монс (01.01.2014). «Стоимость использования точных доверительных интервалов для биномиальной пропорции». Электронный статистический журнал . 8 (1): 817–840. arXiv : 1303.1288 . DOI : 10.1214 / 14-EJS909 . ISSN 1935-7524 . S2CID 88519382 .
- ^ а б в г д Агрести, Алан ; Коулл, Брент А. (1998). «Приблизительное лучше, чем« точное »для интервальной оценки биномиальных пропорций». Американский статистик . 52 (2): 119–126. DOI : 10.2307 / 2685469 . JSTOR 2685469 . Руководство по ремонту 1628435 .
- ^ Голландия, Стивен. «Преобразования пропорций и процентов» . strata.uga.edu . Проверено 8 сентября 2020 .
- ^ Warton, Дэвид I .; Хуэй, Фрэнсис KC (январь 2011 г.). «Арксинус глуп: анализ пропорций в экологии» . Экология . 92 (1): 3–10. DOI : 10.1890 / 10-0340.1 . hdl : 1885/152287 . ISSN 0012-9658 .
- ^ Шао Дж (1998) Математическая статистика. Springer. Нью-Йорк, Нью-Йорк, США
- ^ Стив Саймон (2010) «Доверительный интервал с нулевыми событиями» , Детская больница Милосердия, Канзас-Сити, Миссури (веб-сайт: «Спросите профессора Мина в темах статистики или медицинских исследованиях, заархивированных 15 октября 2011 года в Wayback Machine )
- ^ Райчигель, Дж (2003). «Доверительные интервалы для биномиального параметра: некоторые новые соображения» (PDF) . Статистика в медицине . 22 (4): 611–621. DOI : 10.1002 / sim.1320 . PMID 12590417 .
- ^ Сауро Дж., Льюис-младший (2005) «Сравнение калькулятора интервалов Вальда, Аддж-Вальда, точного и точного интервалов Вильсона». Архивировано 18 июня 2012 г. на Wayback Machine . Труды Общества по человеческому фактору и эргономике, 49-е ежегодное собрание (HFES 2005) , Орландо, Флорида, стр. 2100–2104
- ^ Росс, Т.Д. (2003). «Точные доверительные интервалы для оценки биномиальной пропорции и коэффициента Пуассона» . Компьютеры в биологии и медицине . 33 (6): 509–531. DOI : 10.1016 / S0010-4825 (03) 00019-2 . PMID 12878234 .