Неправильное использование p- значений

Злоупотребление р -значения часто встречается в научных исследованиях и научного образования . p -значения часто используются или интерпретируются неправильно; Американская статистическая ассоциация утверждает , что р -значение может указывать , как несовместимые данные являются с определенной статистической моделью. ^[1] Из проверки гипотез подхода Неймана-Пирсон статистических выводов, данные , полученный путем сравнения р -значения на уровень значимости даст один из двух результатов: либо нулевая гипотезыотклоняется (что, однако, не доказывает, что нулевая гипотеза ложна ), или нулевая гипотеза не может быть отклонена на этом уровне значимости (что, однако, не доказывает, что нулевая гипотеза верна ). От подхода статистического тестирования Фишера к статистическим выводам, низкое значение p означает, что либо нулевая гипотеза верна и произошло крайне маловероятное событие, либо что нулевая гипотеза ложна.

Разъяснения по поводу p- значений

В следующем списке проясняются некоторые вопросы, которые обычно неправильно понимаются в отношении значений p : ^[1]^[2]^[3]

Значение p - это не вероятность того, что нулевая гипотеза верна, или вероятность того, что альтернативная гипотеза неверна. ^[1] Значение p может указывать на степень совместимости между набором данных и конкретным гипотетическим объяснением (например, нулевой гипотезой). В частности, p- значение можно принять как априорную вероятность получения эффекта, который по крайней мере столь же экстремален, как наблюдаемый эффект, при условии, что нулевая гипотеза верна. Это не следует путать с апостериорной вероятностью того, что нулевая гипотеза верна с учетом наблюдаемого эффекта (см . Ошибку прокурора ). Фактически, частотная статистика не связывает гипотезы с вероятностью.
Значение p - это не вероятность того, что наблюдаемые эффекты были вызваны одной лишь случайной случайностью. ^[1] Значение p вычисляется в предположении, что определенная модель, обычно нулевая гипотеза, верна. Это означает, что p -значение является утверждением об отношении данных к этой гипотезе. ^[1]
Уровень значимости 0,05 является условным. ^[2]^[4] Уровень значимости 0,05 (альфа-уровень) часто используется как граница между статистически значимым и статистически незначимым p- значением. Однако это не означает, что в целом есть научная причина рассматривать результаты по разные стороны любого порога как качественно разные. ^[2]^[5]
Значение p не указывает на размер или важность наблюдаемого эффекта. ^[1] Небольшое значение p можно наблюдать для эффекта, который не имеет смысла или важности. Фактически, чем больше размер выборки, тем меньше минимальный эффект, необходимый для получения статистически значимого p- значения (см. Размер эффекта ). Визуализация размеров эффекта - важный компонент метода анализа данных, называемого оценочной статистикой .

Представление вероятностей гипотез

Частотный подход отвергает достоверность представления вероятностей гипотез: гипотезы истинны или ложны, а не то, что может быть представлено с вероятностью. ^[6]

Байесовская статистика активно моделирует вероятность гипотез. Значение p само по себе не позволяет рассуждать о вероятностях гипотез, что требует наличия нескольких гипотез или ряда гипотез с предварительным распределением вероятностей между ними, и в этом случае можно использовать байесовскую статистику. Здесь используется функция правдоподобия для всех возможных значений априорной вместо p -значения для единственной нулевой гипотезы. Значение p описывает свойство данных по сравнению с конкретной нулевой гипотезой; это не свойство самой гипотезы. По той же причине p -значения не дают вероятности того, что данные были получены случайно. ^[1]

Проблема множественных сравнений

Проблема множественных сравнений возникает , если учесть набор статистических выводов одновременно ^[7] или выводит подмножество параметров , выбранных на основе наблюдаемых значений. ^[8] Это также известно как эффект поиска в другом месте . Ошибки в выводе, включая доверительные интервалы , не включающие соответствующие им параметры совокупности или тесты гипотез, которые неверно отвергают нулевую гипотезу , с большей вероятностью возникнут, если рассматривать набор в целом. Для предотвращения этого было разработано несколько статистических методов, позволяющих напрямую сравнивать уровни значимости для одиночных и множественных сравнений. Эти методы обычно требуют более высокого порога значимости для индивидуальных сравнений, чтобы компенсировать количество сделанных выводов. ^{[ необходима цитата ]}

Веб- комикс xkcd высмеивает недопонимание p- значений , изображая ученых, исследующих утверждение о том, что употребление мармеладов вызывает прыщи . ^[9]^[10]^[11]^[12] Не сумев найти значимой ( p <0,05) корреляции между употреблением мармеладов и прыщей, ученые исследовали 20 мармеладов разных цветов по отдельности, без поправки на множественные сравнения. Они находят один цвет (зеленый), номинально связанный с прыщами ( p <0,05). Затем газета сообщает о том, что зеленые мармеладки связаны с прыщами с доверительной вероятностью 95%, как если бы зеленый был единственным протестированным цветом. Фактически, если 20 независимых тестов проводятся с уровнем значимости 0,05 и все нулевые гипотезы верны, вероятность получения хотя бы одного ложноположительного результата составляет 64,2%, а ожидаемое количество ложных срабатываний равно 1 (т. Е. 0,05 × 20).

В общем, коэффициент ошибок в семье (FWER) - вероятность получения хотя бы одного ложного срабатывания - увеличивается с количеством выполненных тестов. FWER, когда все нулевые гипотезы верны для m независимых тестов, каждое из которых проводится на уровне значимости α, составляет: ^[11]

{\ displaystyle {\ text {FWER}} = 1- (1- \ альфа) ^ {m}}

Смотрите также

Статистика оценок
Кризис репликации
Метанаука
Неправильное использование статистики
Statcheck

дальнейшее чтение

Вассерштейн, Рональд Л .; Schirm, Allen L .; Лазар, Николь А. (20 марта 2019 г.). «Перемещение в мир за гранью» p <0,05 « » . Американский статистик . Informa UK Limited. 73 (sup1): 1–19. DOI : 10.1080 / 00031305.2019.1583913 . ISSN 0003-1305 .
Иоаннидис, Джон PA (29 марта 2019 г.). «Чему мы (не) научились из миллионов научных работ с P-значениями?» . Американский статистик . 73 (sup1): 20–25. DOI : 10.1080 / 00031305.2018.1447512 . ISSN 0003-1305 .
Моран Дж. Л., Соломон П. Дж. (Июнь 2004 г.). "Прощание с P-ценностями?" (PDF) . Реанимация и реанимация . 6 (2): 130–7. PMID 16566700 .
Лью MJ (июль 2012 г.). «Плохая статистическая практика в фармакологии (и других базовых биомедицинских дисциплинах): вы, вероятно, не знаете P» . Британский журнал фармакологии . 166 (5): 1559–67. DOI : 10.1111 / j.1476-5381.2012.01931.x . PMC 3419900 . PMID 22394284 .
Nuzzo R (февраль 2014 г.). «Научный метод: статистические ошибки» . Природа . 506 (7487): 150–2. Bibcode : 2014Natur.506..150N . DOI : 10.1038 / 506150a . PMID 24522584 .

[asa2016-1] Б с д е е г Wasserstein RL, Lazar Н.А. (2016). «Заявление ASA о p-значениях : контекст, процесс и цель» (PDF) . Американский статистик . 70 (2): 129–133. DOI : 10.1080 / 00031305.2016.1154108 . S2CID 124084622 .

[Sterne2001-2] а б в Стерн Дж. А., Дэйви Смит Дж. (Январь 2001 г.). «Просеивание доказательств - что не так с тестами на значимость?» . BMJ . 322 (7280): 226–31. DOI : 10.1136 / bmj.322.7280.226 . PMC 1119478 . PMID 11159626 .

[Schervish1996-3] Шервиш MJ (1996). « Ценности P : что они собой представляют и чем они не являются». Американский статистик . 50 (3): 203–206. DOI : 10.2307 / 2684655 . JSTOR 2684655 .

[4] Рафи З., Гренландия С. (сентябрь 2020 г.). «Семантические и когнитивные инструменты в помощь статистической науке: замените уверенность и значимость совместимостью и неожиданностью» . BMC Medical Research Methodology . 20 (1): 244. DOI : 10,1186 / s12874-020-01105-9 . PMC 7528258 . PMID 32998683 .

[Amrhein2017-5] Амрайн V, Корнер-Нивергельт Ф, Рот Т. (2017). «p> 0,05: пороги значимости и кризис неизученных исследований» . PeerJ . 5 : e3544. DOI : 10,7717 / peerj.3544 . PMC 5502092 . PMID 28698825 .

[6] Чапут, Бриджит; Жирар, Жан-Клод; Генри, Мишель (2011). «Частотный подход: моделирование и моделирование в статистике и вероятностном обучении». Статистика преподавания в школьной математике - Проблемы преподавания и педагогического образования . Новая серия исследований ICMI. 14 . С. 85–95. DOI : 10.1007 / 978-94-007-1131-0_12 . ISBN 978-94-007-1130-3.

[7] Миллер Р.Г. (1981). Одновременный статистический вывод (2-е изд.). Нью-Йорк: Springer Verlag . ISBN 978-0-387-90548-8.

[8] Бенджамини Y (декабрь 2010 г.). «Одновременный и выборочный вывод: текущие успехи и будущие проблемы». Биометрический журнал. Biometrische Zeitschrift . 52 (6): 708–21. DOI : 10.1002 / bimj.200900299 . PMID 21154895 .

[9] Манро Р. (6 апреля 2011 г.). «Значительный» . xkcd . Проверено 22 февраля 2016 .

[DC-10] Colquhoun D (ноябрь 2014 г.). «Расследование ложных открытий и неправильного толкования p-значений» . Королевское общество «Открытая наука» . 1 (3): 140216. arXiv : 1407.5296 . Bibcode : 2014RSOS .... 140216C . DOI : 10,1098 / rsos.140216 . PMC 4448847 . PMID 26064558 .

[StatsDoneWrong-11] а б Рейнхарт А. (2015). Неправильная статистика: Ужасно полное руководство . Пресс без крахмала . С. 47–48. ISBN 978-1-59327-620-1.

[Minitab-12] Барсалов М. (2 июня 2014 г.). «Проверка гипотез и p-значения» . Блог Minitab . Проверено 22 февраля 2016 .

[1]