Из Википедии, бесплатной энциклопедии
  (Перенаправлено с Power (статистика) )
Перейти к навигации Перейти к поиску

Мощности бинарного проверки гипотезы есть вероятность того, что тест отвергает нулевую гипотезу ( ) , когда конкретная альтернативная гипотеза ( ) истинно - то есть, это указывает на вероятность избежать типа ошибки II . Статистическая мощность варьируется от 0 до 1, и по мере увеличения статистической мощности вероятность совершения ошибки типа II (ошибочного отказа от отклонения нулевой гипотезы) уменьшается.

Описание [ править ]

Для вероятности ошибки типа II β соответствующая статистическая мощность составляет 1 -  β . Например, если эксперимент E имеет статистическую мощность 0,7, а эксперимент F имеет статистическую мощность 0,95, тогда существует большая вероятность того, что эксперимент E имел ошибку типа II, чем эксперимент F. Это снижает чувствительность эксперимента E для обнаружения значительных эффектов. . Однако эксперимент E, следовательно, более надежен, чем эксперимент F, из-за меньшей вероятности ошибки типа I. Его можно эквивалентно рассматривать как вероятность принятия альтернативной гипотезы ( ), когда она верна, то есть способность теста обнаруживать конкретный эффект, если этот конкретный эффект действительно существует. Таким образом,

Если это не равенство, а просто отрицание (так, например, для некоторого ненаблюдаемого параметра совокупности у нас есть просто ), то мощность не может быть вычислена, если не известны вероятности для всех возможных значений параметра, которые нарушают нулевую гипотезу. Таким образом, обычно говорят о силе теста против конкретной альтернативной гипотезы .

По мере увеличения мощности уменьшается вероятность ошибки типа II, также называемая ложноотрицательной частотой ( β ), поскольку степень равна 1 -  β . Похожая концепция - это вероятность ошибки типа I , также называемая частотой ложных срабатываний или уровнем теста при нулевой гипотезе.

Анализ мощности может использоваться для расчета минимального необходимого размера выборки, чтобы можно было с достаточной вероятностью обнаружить эффект заданного размера . Например: «Сколько раз мне нужно подбросить монету, чтобы сделать вывод, что она сфальсифицирована на определенную сумму?» [1] Анализ мощности также можно использовать для расчета минимального размера эффекта, который может быть обнаружен в исследовании с использованием данного размера выборки. Кроме того, понятие мощности используется для сравнения между различными процедурами статистического тестирования: например, между параметрическим тестом и непараметрическим тестом одной и той же гипотезы.

В контексте бинарной классификации мощность теста называется его статистической чувствительностью , его истинно положительной частотой или вероятностью обнаружения .

Фон [ править ]

Статистические тесты используют данные из выборок, чтобы оценить статистическую совокупность или сделать выводы о ней . В конкретных условиях сравнения двух выборок цель состоит в том, чтобы оценить, различаются ли средние значения некоторых атрибутов, полученные для лиц в двух подгруппах. Например, чтобы проверить нулевую гипотезу о том, что средние баллы мужчин и женщин на тесте не различаются, составляются выборки мужчин и женщин, им проводится тест, и средний балл одной группы сравнивается со средним баллом одной группы. другая группа, использующая статистический тест, такой как z- тест с двумя выборками . Мощность теста - это вероятность того, что тест обнаружит статистически значимую разницу между мужчинами и женщинами, как функцию размера истинной разницы между этими двумя популяциями.

Факторы, влияющие на власть [ править ]

Статистическая мощность может зависеть от ряда факторов. Некоторые факторы могут быть специфичными для конкретной ситуации тестирования, но как минимум мощность почти всегда зависит от следующих трех факторов:

  • статистическая значимость критерий , используемый в тесте
  • величина эффекта интереса у населения
  • размер выборки используется для обнаружения эффекта

Критерий значимостиявляется заявлением о том, насколько маловероятным должен быть положительный результат, если нулевая гипотеза об отсутствии эффекта верна, чтобы нулевая гипотеза была отклонена. Наиболее часто используемые критерии - это вероятности 0,05 (5%, 1 из 20), 0,01 (1%, 1 из 100) и 0,001 (0,1%, 1 из 1000). Если критерий равен 0,05, вероятность того, что данные подразумевают эффект, по крайней мере, такой же большой, как наблюдаемый эффект, когда нулевая гипотеза верна, должна быть меньше 0,05, чтобы нулевая гипотеза отсутствия эффекта была отклонена. Один из простых способов повысить эффективность теста - это провести менее консервативный тест, используя более высокий критерий значимости, например 0,10 вместо 0,05. Это увеличивает вероятность отклонения нулевой гипотезы (т. Е. Получения статистически значимого результата), когда нулевая гипотеза ложна; то есть снижает рискошибка типа II (ложноотрицательный результат относительно наличия эффекта). Но это также увеличивает риск получения статистически значимого результата (т. Е. Отклонения нулевой гипотезы), когда нулевая гипотеза не является ложной; то есть увеличивает риск ошибки типа I (ложное срабатывание).

Величина эффекта интереса в популяции может быть определена количественно с точки зрения величины эффекта , где есть большую мощность , чтобы обнаружить больший эффект. Величина эффекта может быть прямым значением интересующей величины или стандартизированной мерой, которая также учитывает изменчивость в популяции. Например, в анализе, сравнивающем исходы в обработанной и контрольной популяции, разница средних значений результатов будет прямой оценкой размера эффекта, тогда как оценкой стандартизированного размера эффекта, где - общее стандартное отклонение результатов в обработанной и контрольной группах. При правильном построении стандартизированный размер эффекта вместе с размером выборки полностью определяет мощность. Нестандартизованная (прямая) величина эффекта редко бывает достаточной для определения мощности, поскольку она не содержит информации о вариабельности измерений.

Размер выборки определяет величину ошибки выборки, присущей результату теста. При прочих равных, эффекты труднее обнаружить в меньших выборках. Увеличение размера выборки часто является самым простым способом повысить статистическую мощность теста. То, как увеличенный размер выборки преобразуется в более высокую степень, является мерой эффективности теста - например, размер выборки, необходимый для данной мощности. [2]

Точность измерения данных также влияет на статистическую мощность. Следовательно, мощность часто можно улучшить за счет уменьшения ошибки измерения данных. Связанная с этим концепция заключается в повышении «надежности» оцениваемого показателя (например, психометрической надежности ).

Дизайн эксперимента или обсервационное исследование часто влияет на власть. Например, в ситуации тестирования с двумя выборками с заданным общим размером выборки n оптимально иметь равное количество наблюдений из двух сравниваемых популяций (при условии, что дисперсия в двух популяциях одинакова). В регрессионном анализе и дисперсионном анализе существуют обширные теории и практические стратегии для повышения мощности, основанные на оптимальной установке значений независимых переменных в модели.

Интерпретация [ править ]

Хотя формальных стандартов мощности (иногда называемых π [ необходима ссылка ] ) нет, большинство исследователей оценивают мощность своих тестов, используя π  = 0,80 в качестве стандарта адекватности. Это соглашение подразумевает соотношение четыре к одному между β- риском и α- риском. ( β - вероятность ошибки типа II, α - вероятность ошибки типа I; 0,2 и 0,05 - условные значения для β и α). Однако бывают случаи, когда это взвешивание 4: 1 неуместно. В медицине, например, тесты часто разрабатываются таким образом, чтобы не было ложноотрицательных результатов (ошибок типа II). Но это неизбежно повышает риск получения ложного срабатывания (ошибка типа I). Причина в том, что лучше сказать здоровому пациенту: «Возможно, мы что-то нашли - давайте проверим дальше», чем сказать больному «все в порядке». [3]

Анализ мощности уместен, когда проблема заключается в правильном отклонении ложной нулевой гипотезы. Во многих контекстах проблема заключается не столько в определении наличия или отсутствия разницы, сколько в получении более точной оценки размера эффекта популяции. Например, если мы ожидаем, что корреляция между интеллектом и производительностью труда среди населения составит около 0,50, размер выборки в 20 даст нам примерно 80% мощности ( α = 0,05, два хвоста), чтобы отклонить нулевую гипотезу о нулевой корреляции. Однако при проведении этого исследования мы, вероятно, больше заинтересованы в том, чтобы узнать, составляет ли корреляция 0,30, 0,60 или 0,50. В этом контексте нам потребуется гораздо больший размер выборки, чтобы уменьшить доверительный интервал нашей оценки до диапазона, приемлемого для наших целей. Методы, аналогичные используемым в традиционном анализе мощности, могут использоваться для определения размера выборки, необходимого для того, чтобы ширина доверительного интервала была меньше заданного значения.

Многие статистические анализы включают оценку нескольких неизвестных величин. В простых случаях все эти величины, кроме одного, являются мешающими параметрами . В этом случае единственная релевантная мощность относится к единственной величине, которая будет подвергаться формальному статистическому выводу. В некоторых условиях, особенно если цели более «исследовательские», в анализе может быть ряд интересных величин. Например, в множественном регрессионном анализемы можем включить несколько ковариат, представляющих потенциальный интерес. В подобных ситуациях, когда рассматривается несколько гипотез, обычно полномочия, связанные с различными гипотезами, различаются. Например, при множественном регрессионном анализе способность обнаружения эффекта заданного размера связана с дисперсией ковариаты. Поскольку разные ковариаты будут иметь разные дисперсии, их мощности также будут различаться.

Любой статистический анализ, включающий несколько гипотез, может привести к увеличению частоты ошибок типа I, если не будут приняты соответствующие меры. Такие меры обычно включают применение более высокого порога строгости для отклонения гипотезы, чтобы компенсировать множественные сравнения ( например, как в методе Бонферрони ). В этой ситуации анализ мощности должен отражать используемый подход множественного тестирования. Таким образом, например, данное исследование может иметь хорошую мощность для обнаружения определенного размера эффекта, когда должен быть проведен только один тест, но такой же размер эффекта может иметь гораздо меньшую мощность, если необходимо выполнить несколько тестов.

Также важно учитывать статистическую мощность проверки гипотез при интерпретации ее результатов. Мощность теста - это вероятность правильного отклонения нулевой гипотезы, если она ложна; Мощность теста зависит от выбора уровня значимости для теста, величины измеряемого эффекта и количества доступных данных. Проверка гипотезы может не отклонить нулевое значение, например, если существует истинное различие между двумя популяциями, сравниваемыми с помощью t-критерия, но эффект невелик, а размер выборки слишком мал, чтобы отличить эффект от случайного совпадения. [4] Многие клинические испытания , например, имеют низкую статистическую мощность для выявления различий в побочных эффектах.лечения, так как такие эффекты могут быть редкими, а количество пораженных пациентов невелико. [5]

Априорный и апостериорный анализ [ править ]

Анализ мощности может быть выполнен до ( априорный или перспективный анализ мощности) или после сбора данных ( апостериорный или ретроспективный анализ мощности). Априорный анализ мощности проводится до исследования и обычно используется для оценки достаточного размера выборки для достижения адекватной мощности. Post-hocАнализ «наблюдаемой мощности» проводится после завершения исследования и использует полученный размер выборки и размер эффекта, чтобы определить, какая мощность была в исследовании, предполагая, что размер эффекта в выборке равен размеру эффекта в популяции . В то время как полезность перспективного анализа мощности в экспериментальном дизайне общепризнана, апостериорный анализ мощности в корне ошибочен. [6] [7] Соблазн использовать статистический анализ собранных данных для оценки мощности приведет к неинформативным и вводящим в заблуждение значениям. В частности, было показано, что апостериорная «наблюдаемая мощность» является взаимно однозначной функцией достигнутого p- значения . [6]Это было расширено, чтобы показать, что все апостериорные анализы мощности страдают от так называемого «парадокса силового подхода» (PAP), когда считается, что исследование с нулевым результатом показывает больше доказательств того, что нулевая гипотеза действительно верна, когда значение p меньше, так как кажущаяся мощность для обнаружения фактического эффекта будет выше. [6] На самом деле, меньшее значение p правильно понимается, чтобы сделать нулевую гипотезу относительно менее вероятной. [ необходима цитата ]

Заявление [ править ]

Финансирующие агентства, советы по этике и комиссии по анализу исследований часто просят исследователя провести анализ мощности, например, чтобы определить минимальное количество подопытных животных, необходимое для того, чтобы эксперимент был информативным. В частотной статистике маловероятно, что исследование даст возможность выбирать между гипотезами на желаемом уровне значимости. В байесовской статистике, проверка гипотез типа, используемого в классическом анализе мощности, не выполняется. В рамках байесовской модели каждый обновляет свои предыдущие убеждения, используя данные, полученные в данном исследовании. В принципе, исследование, которое будет считаться недостаточным с точки зрения проверки гипотез, все же может быть использовано в таком процессе обновления. Тем не менее, мощность остается полезной мерой того, насколько данный размер эксперимента может привести к уточнению убеждений. Исследование с малой мощностью вряд ли приведет к значительному изменению убеждений.

Пример [ править ]

Ниже приведен пример, показывающий, как вычислить мощность для рандомизированного эксперимента: Предположим, цель эксперимента состоит в изучении влияния лечения на некоторое количество и сравнении субъектов исследования путем измерения количества до и после лечения, анализа данные с использованием парного t-критерия . Пусть и обозначают меры до и после лечения на предмете , соответственно. Возможный эффект лечения должен быть виден в различиях, которые, как предполагается, распределены независимо, все с одинаковыми ожидаемыми средними значениями и дисперсией.

Эффект от лечения можно проанализировать с помощью одностороннего t-критерия. Нулевая гипотеза об отсутствии эффекта будет то , что средняя разность будет равна нулю, то есть в этом случае альтернативная гипотеза утверждает , положительный эффект, соответствующий тестовой статистики является:

куда

n - размер выборки и стандартная ошибка. Статистика теста при нулевой гипотезе следует t-распределению Стьюдента с дополнительным предположением, что данные одинаково распределены . Кроме того, предположит , что нулевая гипотеза будет отклонена на уровне значимости из С п велико, можно аппроксимировать Т-распределение по нормальному распределению и вычислить критическое значение , используя функцию квантиля , обратные функции распределения из нормальное распределение. Оказывается, нулевая гипотеза будет отклонена, если

Теперь предположим, что альтернативная гипотеза верна и . Тогда мощность

При большом п , приблизительно соответствует стандартному нормальному распределению , когда альтернативная гипотеза верна, то приблизительная мощность может быть рассчитана как

Согласно этой формуле, мощность увеличивается со значениями параметра. Для конкретного значения более высокая степень может быть получена путем увеличения размера выборки n .

Невозможно гарантировать достаточно большую мощность для всех значений as, которые могут быть очень близкими к 0. Минимальное ( infimum ) значение мощности равно доверительному уровню теста, в этом примере 0,05. Однако не важно различать и небольшие положительные значения. Если желательно иметь достаточную мощность, скажем, не менее 0,90, для обнаружения значений требуемый размер выборки можно приблизительно рассчитать:

откуда следует, что

Следовательно, используя функцию квантиля

где - стандартный нормальный квантиль; обратитесь к статье Probit для объяснения взаимосвязи между и z-значениями.

Расширение [ править ]

Байесовская сила [ править ]

В частотной настройке предполагается, что параметры имеют определенное значение, которое вряд ли будет истинным. Эту проблему можно решить, если предположить, что параметр имеет распределение. Результирующую мощность иногда называют байесовской мощностью, которая обычно используется при планировании клинических испытаний .

Прогнозируемая вероятность успеха [ править ]

И частотная, и байесовская сила используют статистическую значимость в качестве критерия успеха. Однако статистической значимости часто недостаточно для определения успеха. Чтобы решить эту проблему, концепцию мощности можно расширить до концепции прогнозируемой вероятности успеха (PPOS). Критерий успеха для PPOS не ограничивается статистической значимостью и обычно используется в клинических исследованиях .

Программное обеспечение для расчета мощности и объема выборки [ править ]

Для выполнения расчетов мощности и размера выборки доступно множество бесплатных программ и / или программ с открытым исходным кодом. К ним относятся

  • G * Power ( http://www.gpower.hhu.de/ )
  • WebPower Бесплатный онлайн-статистический анализ мощности ( http://webpower.psychstat.org )
  • Бесплатные онлайн-калькуляторы с открытым исходным кодом ( http://powerandsamplesize.com )
  • PowerUp! предоставляет удобные функции на основе Excel для определения минимального размера обнаруживаемого эффекта и минимально необходимого размера выборки для различных экспериментальных и квазиэкспериментальных схем.
  • PowerUpR - это версия PowerUp в пакете R. и дополнительно включает функции для определения размера выборки для различных многоуровневых рандомизированных экспериментов с или без бюджетных ограничений.
  • R пакет pwr
  • R-пакет WebPower
  • Statsmodels пакета Python ( http://www.statsmodels.org/ )

См. Также [ править ]

  • Коэна h
  • Размер эффекта
  • Эффективность
  • Лемма Неймана – Пирсона.
  • Размер образца
  • Единообразно самый мощный тест

Ссылки [ править ]

  1. ^ «Статистическая мощность и недостаточная статистика - статистика сделана неправильно» . www.statisticsdonewrong.com . Проверено 30 сентября 2019 .
  2. ^ Everitt, Брайан С. (2002). Кембриджский статистический словарь . Издательство Кембриджского университета. п. 321. ISBN. 0-521-81099-X.
  3. ^ Эллис, Пол Д. (2010). Основное руководство по размерам эффекта: введение в статистическую мощь, метаанализ и интерпретацию результатов исследований . Соединенное Королевство: Издательство Кембриджского университета.
  4. ^ Эллис, Пол (2010). Основное руководство по размерам эффекта: статистическая мощность, метаанализ и интерпретация результатов исследований . Издательство Кембриджского университета. п. 52. ISBN 978-0521142465.
  5. ^ Цанг, Р .; Colley, L .; Линд, LD (2009). «Недостаточная статистическая мощность для обнаружения клинически значимых различий в частоте нежелательных явлений в рандомизированных контролируемых исследованиях». Журнал клинической эпидемиологии . 62 (6): 609–616. DOI : 10.1016 / j.jclinepi.2008.08.005 . PMID 19013761 . 
  6. ^ a b c Хёниг; Хейси (2001). «Злоупотребление властью». Американский статистик . 55 (1): 19–24. DOI : 10.1198 / 000313001300339897 .
  7. Перейти ↑ Thomas, L. (1997). «Ретроспективный анализ мощности» (PDF) . Биология сохранения . 11 (1): 276–280.

Источники [ править ]

  • Коэн, Дж. (1988). Статистический анализ мощности для поведенческих наук (2-е изд.). ISBN 0-8058-0283-5.
  • Аберсон, CL (2010). Прикладной анализ мощности для поведенческой науки . ISBN 1-84872-835-2.

Внешние ссылки [ править ]

  • StatQuest: подводные камни P-value и расчеты мощности на YouTube