Статистическая значимость

В статистической проверки гипотез , ^[1]^[2] результат имеет статистическую значимость , когда это очень маловероятно, что произошло , учитывая нулевую гипотезу . ^[3]^[4] Точнее, определенный уровень значимости исследования , обозначаемый как , представляет собой вероятность того, что исследование отклонит нулевую гипотезу, учитывая, что нулевая гипотеза считалась верной; ^[5], а p -значение результата, является вероятностью получения результата, по крайней мере, такого же экстремального, при условии, что нулевая гипотеза верна. ^[6] Результат статистически значим, $\alpha$ $p$ по меркам исследования, когда . ^[7]^[8]^[9]^[10]^[11]^[12]^[13] Уровень значимости для исследования выбирается до сбора данных и обычно устанавливается на 5% ^[14] или намного ниже - в зависимости от область изучения. ^[15] $p\leq \alpha$

В любом эксперименте или наблюдении, которое включает в себя выборку из совокупности , всегда существует вероятность того, что наблюдаемый эффект произошел бы только из-за ошибки выборки . ^[16]^[17] Но если p- значение наблюдаемого эффекта меньше (или равно) уровню значимости, исследователь может сделать вывод, что эффект отражает характеристики всей популяции ^[1], тем самым отвергая нулевое значение. гипотеза. ^[18]

Этот метод проверки статистической значимости результатов был разработан в начале 20 века. Термин « значимость» здесь не подразумевает важности, а термин « статистическая значимость» - это не то же самое, что и исследовательская, теоретическая или практическая значимость. ^[1]^[2]^[19]^[20] Например, термин « клиническая значимость» относится к практической значимости лечебного эффекта. ^[21]

История [ править ]

Статистическая значимость восходит к 1700-м годам в работах Джона Арбетнота и Пьера-Симона Лапласа , которые вычислили p- значение для соотношения полов человека при рождении, приняв нулевую гипотезу о равной вероятности мужских и женских рождений; подробности см. в p -value § История . ^[22]^[23]^[24]^[25]^[26]^[27]^[28]

В 1925 году Рональд Фишер выдвинул идею статистической проверки гипотез, которую он назвал «тестами значимости», в своей публикации « Статистические методы для научных работников» . ^[29]^[30]^[31] Фишер предложил вероятность один к двадцати (0,05) как удобный уровень отсечения для отклонения нулевой гипотезы. ^[32] В статье 1933 года Ежи Нейман и Эгон Пирсон назвали это ограничение уровнем значимости , который они назвали . Они рекомендовали сделать это заранее, до сбора каких-либо данных. ^[32]^[33] $\alpha$ $\alpha$

Несмотря на его первоначальное предложение 0,05 в качестве уровня значимости, Фишер не намеревался фиксировать это пороговое значение. В своей публикации 1956 года « Статистические методы и научный вывод» он рекомендовал устанавливать уровни значимости в соответствии с конкретными обстоятельствами. ^[32]

Понятия, связанные с данным [ править ]

Уровень значимости - это порог, ниже которого нулевая гипотеза отклоняется, даже если предполагается, что она верна, и что-то еще происходит. Это означает, что это также вероятность ошибочного отклонения нулевой гипотезы, если нулевая гипотеза верна. ^[5] Это также называется ложноположительной и ошибка типа I . $\alpha$ $p$ $\alpha$

Иногда вместо этого исследователи говорят об уровне достоверности $γ = (1 - α)$ . Это вероятность не отвергнуть нулевую гипотезу при условии, что она верна. ^[34]^[35] Уровни достоверности и доверительные интервалы были введены Нейманом в 1937 году. ^[36]

Роль в статистической проверке гипотез [ править ]

В двустороннем тесте область отклонения для уровня значимости

α = 0,05

делится на оба конца выборочного распределения и составляет 5% площади под кривой (белые области).

Статистическая значимость играет ключевую роль в проверке статистических гипотез. Он используется, чтобы определить, следует ли отклонить нулевую гипотезу или оставить ее. Нулевая гипотеза - это предположение по умолчанию, что ничего не произошло и не изменилось. ^[37] Для отклонения нулевой гипотезы наблюдаемый результат должен быть статистически значимым, т. Е. Наблюдаемое значение p меньше заранее заданного уровня значимости . $\alpha$

Чтобы определить, является ли результат статистически значимым, исследователь вычисляет p- значение, которое представляет собой вероятность наблюдения эффекта такой же величины или более экстремального при условии, что нулевая гипотеза верна. ^[6]^[13] Нулевая гипотеза отвергается , если р -значение меньше (или равно) заранее определенный уровень, . также называется уровнем значимости и представляет собой вероятность отклонения нулевой гипотезы при условии, что она верна ( ошибка типа I ). Обычно устанавливается на уровне 5% или ниже. $\alpha$ $\alpha$

Например, когда установлена на 5%, то условная вероятность того, из ошибки типа I , при условии , что нулевая гипотеза верна , составляет 5%, ^[38] и статистически значимый результат один , где наблюдаемый р -значение меньше (или равно) 5%. ^[39] При извлечении данных из выборки это означает, что область отклонения составляет 5% распределения выборки . ^[40] Эти 5% могут быть отнесены к одной стороне выборочного распределения, как в одностороннем тесте , или разделены на обе стороны распределения, как в двустороннем тесте. $\alpha$ , причем каждый хвост (или область отклонения) содержит 2,5% распределения.

Использование одностороннего теста зависит от того, определяет ли исследовательский вопрос или альтернативная гипотеза направление, например, тяжелее ли группа предметов или лучше успеваемость учащихся по оценке . ^[3] Двусторонний тест все еще может использоваться, но он будет менее эффективным, чем односторонний, потому что область отклонения для одностороннего теста сосредоточена на одном конце нулевого распределения и в два раза больше ( 5% против 2,5%) каждой области отклонения для двустороннего теста. В результате нулевая гипотеза может быть отклонена с менее экстремальным результатом, если использовался односторонний тест. ^[41]Односторонний тест более эффективен, чем двусторонний, только если указанное направление альтернативной гипотезы верно. Однако если это неверно, то односторонний тест не имеет силы.

Пороги значимости в определенных полях [ править ]

В конкретных областях, таких как физика элементарных частиц и производство , статистическая значимость часто выражается в единицах, кратных стандартному отклонению или сигме ( σ ) нормального распределения , при этом пороговые значения значимости устанавливаются на гораздо более строгом уровне (например, 5 σ ). ^[42]^[43] Например, уверенность в существовании частицы бозона Хиггса была основана на критерии 5 σ , что соответствует значению p примерно 1 из 3,5 миллиона. ^[43]^[44]

В других областях научных исследований, таких как полногеномные ассоциации , уровни значимости не превышают5 × 10 ⁻⁸ не редкость ^[45]^[46], поскольку количество выполненных тестов чрезвычайно велико.

Ограничения [ править ]

Исследователи, которые сосредотачиваются исключительно на том, являются ли их результаты статистически значимыми, могут сообщать о выводах, которые не являются существенными ^[47] и не воспроизводятся. ^[48]^[49] Существует также разница между статистической и практической значимостью. Статистически значимое исследование не обязательно может иметь практическое значение. ^[50]^[20]

Размер эффекта [ править ]

Размер эффекта является мерой практической значимости исследования. ^[50] Статистически значимый результат может иметь слабый эффект. Чтобы оценить значимость результатов для исследований, исследователям рекомендуется всегда сообщать размер эффекта вместе с p-значениями . Мера размера эффекта определяет силу эффекта, например, расстояние между двумя средними в единицах стандартного отклонения (см . D Коэна ), коэффициент корреляции между двумя переменными или его квадрат и другие меры. ^[51]

Воспроизводимость [ править ]

Статистически значимый результат может быть непросто воспроизвести. ^[49] В частности, некоторые статистически значимые результаты на самом деле будут ложноположительными. Каждая неудачная попытка воспроизвести результат увеличивает вероятность того, что результат был ложноположительным. ^[52]

Проблемы [ править ]

Чрезмерное использование в некоторых журналах [ править ]

Начиная с 2010-х годов, некоторые журналы начали сомневаться в том, что проверка значимости, особенно с использованием порога $α$ = 5%, слишком сильно используется в качестве основного критерия достоверности гипотезы. ^[53] Некоторые журналы рекомендовали авторам проводить более подробный анализ, чем просто тест статистической значимости. В области социальной психологии журнал « Базовая и прикладная социальная психология» полностью запретил использование тестирования значимости в опубликованных им статьях ^[54], требуя, чтобы авторы использовали другие меры для оценки гипотез и воздействия. ^[55]^[56]

Другие редакторы, комментируя этот запрет, отметили: «Запрет на публикацию p- значений , как это недавно сделала Базовая и Прикладная социальная психология, не решит проблему, потому что это просто лечение симптома проблемы. В этом нет ничего плохого. с проверкой гипотез и собственно p -значениями, если авторы, рецензенты и редакторы действий используют их правильно ». ^[57] Некоторые статистики предпочитают использовать альтернативные меры доказательства, такие как отношения правдоподобия или байесовские факторы . ^[58] Использование байесовской статистики позволяет избежать уровней достоверности, но также требует дополнительных предположений, ^[58]и не обязательно может улучшить практику статистического тестирования. ^[59]

Широко распространенное злоупотребление статистической значимостью представляет собой важную тему исследований в метанауке . ^[60]

Новое определение значения [ править ]

В 2016 году Американская статистическая ассоциация (ASA) опубликовала заявление о p-значениях , в котором говорилось, что «широкое использование« статистической значимости »(обычно интерпретируемой как« p ≤ 0,05 ») в качестве лицензии на утверждение научных результатов. (или подразумеваемая истина) приводит к значительному искажению научного процесса ". ^[58] В 2017 году группа из 72 авторов предложила улучшить воспроизводимость, изменив пороговое значение p для статистической значимости с 0,05 до 0,005. ^[61] Другие исследователи ответили, что установление более строгого порога значимости усугубит такие проблемы, как углубление данных.; Таким образом, альтернативные предложения состоят в том, чтобы выбрать и обосновать гибкие пороговые значения p- значений перед сбором данных ^[62] или интерпретировать p-значения как непрерывные индексы, тем самым отбросив пороговые значения и статистическую значимость. ^[63] Кроме того, изменение на 0,005 увеличит вероятность ложноотрицательных результатов, в результате чего изучаемый эффект реален, но тест не может его показать. ^[64]

В 2019 году более 800 статистиков и ученых подписали сообщение, призывающее отказаться от термина «статистическая значимость» в науке ^[65], а Американская статистическая ассоциация опубликовала еще одно официальное заявление ^{[66], в} котором говорится (стр. 2):

На основании нашего обзора статей в этом специальном выпуске и более широкой литературы мы пришли к выводу, что пора полностью отказаться от термина «статистически значимый». Также не должны сохраняться такие варианты, как «существенно отличается», « » и «несущественно», независимо от того, выражены ли они словами, звездочками в таблице или каким-либо другим образом. $p\leq 0.05$

См. Также [ править ]

A / B-тестирование , ABX-тест
Статистика оценок
Метод Фишера для объединения независимых тестов значимости
Эффект поиска в другом месте
Проблема множественных сравнений
Размер образца
Заблуждение техасского снайпера (приводятся примеры тестов, в которых уровень значимости был установлен слишком высоким)

Ссылки [ править ]

^ a b c Сиркин, Р. Марк (2005). «Двухвыборочные t-тесты». Статистика для социальных наук (3-е изд.). Таузенд-Оукс, Калифорния: SAGE Publications, Inc., стр. 271–316. ISBN 978-1-412-90546-6.
^ a b Боррор, Конни М. (2009). «Принятие статистических решений». Справочник сертифицированного инженера по качеству (3-е изд.). Милуоки, Висконсин: ASQ Quality Press. С. 418–472. ISBN 978-0-873-89745-7.
^ a b Майерс, Джером Л .; Что ж, Арнольд Д .; Лорч-младший, Роберт Ф. (2010). «Разработка основ проверки гипотез с использованием биномиального распределения». Дизайн исследования и статистический анализ (3-е изд.). Нью-Йорк, штат Нью-Йорк: Рутледж. С. 65–90. ISBN 978-0-805-86431-1.
^ «Букварь по статистической значимости» . Математическое хранилище . 2017-04-30 . Проверено 11 ноября 2019 .
^ a b Далгаард, Питер (2008). «Мощность и расчет размера выборки». Вводная статистика с R . Статистика и вычисления. Нью-Йорк: Спрингер. С. 155–56. DOI : 10.1007 / 978-0-387-79054-1_9 . ISBN 978-0-387-79053-4.
^ a b «Статистическая проверка гипотез» . www.dartmouth.edu . Проверено 11 ноября 2019 .
↑ Джонсон, Вален Э. (9 октября 2013 г.). «Пересмотренные стандарты статистических данных» . Труды Национальной академии наук . 110 (48): 19313–19317. DOI : 10.1073 / pnas.1313476110 . PMC 3845140 . PMID 24218581 . Проверено 3 июля 2014 года .
^ Редмонд, Кэрол; Колтон, Теодор (2001). «Клиническая значимость против статистической значимости». Биостатистика в клинических исследованиях . Серия ссылок Wiley по биостатистике (3-е изд.). Западный Суссекс, Соединенное Королевство: John Wiley & Sons Ltd., стр. 35–36. ISBN 978-0-471-82211-0.
^ Камминг, Джефф (2012). Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ . Нью-Йорк, США: Рутледж. С. 27–28.
^ Кшивинский, Мартин; Альтман, Наоми (30 октября 2013 г.). «Важные моменты: значимость, значения P и t-тесты» . Методы природы . 10 (11): 1041–1042. DOI : 10.1038 / nmeth.2698 . PMID 24344377 .
^ Шам, Пак С .; Перселл, Шон М. (17 апреля 2014 г.). «Статистическая мощность и проверка значимости в крупномасштабных генетических исследованиях». Природа Обзоры Генетики . 15 (5): 335–346. DOI : 10.1038 / nrg3706 . PMID 24739678 .
^ Альтман, Дуглас Г. (1999). Практическая статистика для медицинских исследований . Нью-Йорк, США: Chapman & Hall / CRC. С. 167 . ISBN 978-0412276309.
^ a b Девор, Джей Л. (2011). Вероятность и статистика для техники и наук (8-е изд.). Бостон, Массачусетс: обучение Cengage. С. 300–344. ISBN 978-0-538-73352-6.
^ Крапаро, Роберт М. (2007). "Уровень значимости". В Salkind, Нил Дж. (Ред.). Энциклопедия измерения и статистики . 3 . Таузенд-Окс, Калифорния: SAGE Publications. С. 889–891. ISBN 978-1-412-91611-0.
^ Sproull, Натали Л. (2002). «Проверка гипотез» . Справочник по методам исследования: Руководство для практиков и студентов в области социальных наук (2-е изд.). Лэнхэм, Мэриленд: Scarecrow Press, Inc., стр. 49–64 . ISBN 978-0-810-84486-5.
^ Babbie, Earl R. (2013). «Логика выборки». Практика социальных исследований (13-е изд.). Бельмонт, Калифорния: Cengage Learning. С. 185–226. ISBN 978-1-133-04979-1.
^ Faherty, Винсент (2008). «Вероятность и статистическая значимость». Сострадательная статистика: прикладной количественный анализ социальных услуг (с упражнениями и инструкциями в SPSS) (1-е изд.). Таузенд-Оукс, Калифорния: SAGE Publications, Inc., стр. 127–138. ISBN 978-1-412-93982-9.
^ McKillup, Steve (2006). «Вероятность помогает вам принять решение о ваших результатах» . Разъяснения статистики: Вводное руководство для ученых-биологов (1-е изд.). Кембридж, Соединенное Королевство: Издательство Кембриджского университета. С. 44–56 . ISBN 978-0-521-54316-3.
^ Майерс, Джером L .; Что ж, Арнольд Д .; Лорч-младший, Роберт Ф. (2010). «Распределение t и его приложения». Дизайн исследования и статистический анализ (3-е изд.). Нью-Йорк, штат Нью-Йорк: Рутледж. С. 124–153. ISBN 978-0-805-86431-1.
^ a b Хупер, Питер. "Что такое P-значение?" (PDF) . Университет Альберты, факультет математических и статистических наук . Проверено 10 ноября 2019 года .
^ Leung, W.-C. (2001-03-01). «Баланс статистической и клинической значимости при оценке эффектов лечения» . Последипломный медицинский журнал . 77 (905): 201–204. DOI : 10.1136 / pmj.77.905.201 . ISSN 0032-5473 . PMC 1741942 . PMID 11222834 .
^ Брайан, Эрик; Джейссон, Мари (2007). «Физико-теология и математика (1710–1794)». Происхождение соотношения полов человека при рождении . Springer Science & Business Media. С. 1–25. ISBN 978-1-4020-6036-6.
^ Джон Арбетнот (1710). «Аргумент в пользу Божественного провидения, взятый из постоянной закономерности, наблюдаемой в рождении обоих полов» (PDF) . Философские труды Лондонского королевского общества . 27 (325–336): 186–190. DOI : 10,1098 / rstl.1710.0011 .
^ Коновер, WJ (1999), "Глава 3.4: Знак Test", практический непараметрической статистики (. Третье издание), М., С. 157-176,. ISBN 978-0-471-16068-7
^ Спрент, П. (1989), Прикладные непараметрические статистические методы (второе издание), Chapman & Hall, ISBN 978-0-412-44980-2
^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. С. 225–226 . ISBN 978-0-67440341-3.
^ Bellhouse, P. (2001), "Джон Арбутнот", в статистиках столетий ЦК Хейд и Е. Сенетами , Springer, стр. 39-42, ISBN 978-0-387-95329-8
^ Hald, Андерс (1998), «Глава 4. Случайность или Дизайн: Испытания Значения», История математической статистики с 1750 по 1930 , Wiley, стр. 65
^ Камминг, Джефф (2011). «От значимости нулевой гипотезы до величины эффекта тестирования». Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ . Серия многомерных приложений. Восточный Сассекс, Соединенное Королевство: Рутледж. С. 21–52. ISBN 978-0-415-87968-2.
^ Фишер, Рональд А. (1925). Статистические методы для научных работников . Эдинбург, Великобритания: Оливер и Бойд. С. 43 . ISBN 978-0-050-02170-5.
^ Poletiek, Fenna H. (2001). «Формальные теории тестирования». Поведение при проверке гипотез . Очерки когнитивной психологии (1-е изд.). Восточный Сассекс, Соединенное Королевство: Psychology Press. С. 29–48. ISBN 978-1-841-69159-6.
^ a b c Куинн, Джеффри Р .; Кео, Майкл Дж. (2002). Экспериментальный дизайн и анализ данных для биологов (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. С. 46–69 . ISBN 978-0-521-00976-8.
^ Neyman, J .; Пирсон, ES (1933). «Проверка статистических гипотез относительно априорных вероятностей». Математические труды Кембриджского философского общества . 29 (4): 492–510. DOI : 10.1017 / S030500410001152X .
^ «Выводы о статистической значимости возможны с помощью доверительного интервала. Если доверительный интервал не включает значение нулевого эффекта, можно предположить, что имеется статистически значимый результат». Прель, Жан-Батист дю; Хоммель, Герхард; Рериг, Бернд; Блеттнер, Мария (2009). "Доверительный интервал или P-значение?" . Deutsches Ärzteblatt Online . 106 (19): 335–9. DOI : 10,3238 / arztebl.2009.0335 . PMC 2689604 . PMID 19547734 .
^ StatNews # 73: перекрывающиеся доверительные интервалы и статистическая значимость
^ Нейман Дж (1937). «Очерк теории статистического оценивания на основе классической теории вероятностей» . Философские труды Королевского общества А . 236 (767): 333–380. DOI : 10,1098 / rsta.1937.0005 . JSTOR 91337 .
^ Мейер, Кеннет Дж .; Brudney, Джеффри Л .; Ботэ, Джон (2011). Прикладная статистика для государственного и некоммерческого управления (3-е изд.). Бостон, Массачусетс: обучение Cengage. С. 189–209. ISBN 978-1-111-34280-7.
^ Хили, Джозеф Ф. (2009). Основы статистики: инструмент социальных исследований (2-е изд.). Бельмонт, Калифорния: Cengage Learning. С. 177–205. ISBN 978-0-495-60143-2.
^ McKillup, Steve (2006). Разъяснения статистики: Вводное руководство для ученых-биологов (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. С. 32–38 . ISBN 978-0-521-54316-3.
^ Здоровье, Дэвид (1995). Введение в экспериментальный дизайн и статистику для биологии (1-е изд.). Бостон, Массачусетс: CRC Press. С. 123–154. ISBN 978-1-857-28132-3.
^ Хинтон, Перри Р. (2010). «Значение, ошибка и сила». Статистика объяснена (3-е изд.). Нью-Йорк, штат Нью-Йорк: Рутледж. С. 79–90. ISBN 978-1-848-72312-2.
Перейти ↑ Vaughan, Simon (2013). Научный вывод: обучение на основе данных (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. С. 146–152. ISBN 978-1-107-02482-3.
^ a b Bracken, Майкл Б. (2013). Риск, шанс и причинно-следственная связь: исследование происхождения и лечения заболеваний (1-е изд.). Нью-Хейвен, Коннектикут: Издательство Йельского университета. С. 260–276 . ISBN 978-0-300-18884-4.
^ Франклин, Аллан (2013). «Пролог: подъем сигм». Сдвиг стандартов: эксперименты по физике элементарных частиц в двадцатом веке (1-е изд.). Питтсбург, Пенсильвания: Университет Питтсбурга Press. стр. Ii – Iii. ISBN 978-0-822-94430-0.
^ Кларк, GM; Андерсон, Калифорния; Петтерссон, Ф.Х .; Кардон, Л. Р.; Моррис, AP; Зондерван, К.Т. (6 февраля 2011 г.). «Базовый статистический анализ в генетических исследованиях случай-контроль» . Протоколы природы . 6 (2): 121–33. DOI : 10.1038 / nprot.2010.182 . PMC 3154648 . PMID 21293453 .
^ Барш, GS; Копенгейвер, ВП; Гибсон, G; Уильямс, С.М. (5 июля 2012 г.). «Руководство по исследованиям общегеномных ассоциаций» . PLOS Genetics . 8 (7): e1002812. DOI : 10.1371 / journal.pgen.1002812 . PMC 3390399 . PMID 22792080 .
^ Карвер, Рональд П. (1978). «Дело против проверки статистической значимости» . Harvard Educational Review . 48 (3): 378–399. DOI : 10,17763 / haer.48.3.t490261645281841 .
^ Иоаннидис, Джон PA (2005). «Почему большинство опубликованных результатов исследований ложны» . PLOS Medicine . 2 (8): e124. DOI : 10.1371 / journal.pmed.0020124 . PMC 1182327 . PMID 16060722 .
^ a b Амрейн, Валентин; Корнер-Нивергельт, Франци; Рот, Тобиас (2017). «Земля плоская (p> 0,05): пороги значимости и кризис необъяснимых исследований» . PeerJ . 5 : e3544. DOI : 10,7717 / peerj.3544 . PMC 5502092 . PMID 28698825 .
^ а б Ходжат, Мохаммадреза; Сюй, Банда (2004). «Путеводитель по размерам эффекта». Достижения в области медицинского образования . 9 (3): 241–9. DOI : 10,1023 / Б: AHSE.0000038173.00909.f6 . PMID 15316274 .
^ Педхазур, Элазар Дж .; Шмелькин, Лиора П. (1991). Измерение, дизайн и анализ: комплексный подход (под ред. Студента). Нью-Йорк, Нью-Йорк: Психология Пресс. С. 180–210. ISBN 978-0-805-81063-9.
^ Stahel, Вернер (2016). «Статистическая проблема воспроизводимости». Воспроизводимость принципов, проблем, практик и перспектив: принципы, проблемы, практики и перспективы : 87–114. DOI : 10.1002 / 9781118865064.ch5 . ISBN 9781118864975.
^ "Серия семинаров CSSME: аргументы в пользу p- значений и парадигма проверки значимости нулевой гипотезы (NHST)" . www.education.leeds.ac.uk . Педагогическая школа Университета Лидса . Проверено 1 декабря 2016 .
↑ Новелла, Стивен (25 февраля 2015 г.). «Психологический журнал запрещает тестирование значимости» . Научная медицина.
^ Вулстон, Крис (2015-03-05). «Психологический журнал запрещает P-ценности» . Природа . 519 (7541): 9. дои : 10.1038 / 519009f .
^ Зигфрид, Том (2015-03-17). «Запрет на ценность P: маленький шаг для журнала, гигантский скачок для науки» . Новости науки . Проверено 1 декабря 2016 .
^ Antonakis, Джон (февраль 2017). «О совершенствовании науки: от острых ощущений от открытий до последствий для политики» (PDF) . Ежеквартально . 28 (1): 5–21. DOI : 10.1016 / j.leaqua.2017.01.006 .
^ a b c Вассерштейн, Рональд Л .; Лазар, Николь А. (2016-04-02). «Заявление ASA о p-значениях: контекст, процесс и цель» . Американский статистик . 70 (2): 129–133. DOI : 10.1080 / 00031305.2016.1154108 .
^ Гарсиа-Перес, Мигель А. (2016-10-05). «Не свидетельствуй о ложном свидетельстве против проверки значимости нулевой гипотезы» . Образовательные и психологические измерения . 77 (4): 631–662. DOI : 10.1177 / 0013164416668232 . ISSN 0013-1644 . PMC 5991793 . PMID 30034024 .
^ Иоаннидис, Джон PA; Уэр, Дженнифер Дж .; Вагенмакерс, Эрик-Ян; Симонсон, Ури; Чемберс, Кристофер Д.; Кнопка, Кэтрин С .; Бишоп, Дороти В.М.; Носек, Брайан А .; Мунафо, Маркус Р. (январь 2017 г.). «Манифест воспроизводимой науки» . Природа человеческого поведения . 1 : 0021. DOI : 10.1038 / s41562-016-0021 .
^ Бенджамин, Даниэль; и другие. (2018). «Новое определение статистической значимости» . Природа человеческого поведения . 1 (1): 6–10. DOI : 10.1038 / s41562-017-0189-Z . PMID 30980045 .
^ Чавла, Dalmeet (2017). « „ Один размер подходит всем“пороговых значений P под огнем» . Природа . DOI : 10.1038 / nature.2017.22625 .
^ Амрейн, Валентин; Гренландия, Сандер (2017). «Удалите, а не переопределите статистическую значимость». Природа человеческого поведения . 2 (1): 0224. DOI : 10.1038 / s41562-017-0224-0 . PMID 30980046 .
^ Vyse, Стюарт. «Движущиеся статистические цели науки» . csicop.org . CSI . Проверено 10 июля 2018 .
^ МакШейн, Блейк; Гренландия, Сандер; Амрейн, Валентин (март 2019 г.). «Ученые восстают против статистической значимости» . Природа . 567 (7748): 305–307. DOI : 10.1038 / d41586-019-00857-9 . PMID 30894741 .
^ Вассерштейн, Рональд Л .; Schirm, Allen L .; Лазар, Николь А. (20 марта 2019 г.). «Перемещение в мир за гранью» p <0,05 « » . Американский статистик . 73 (sup1): 1–19. DOI : 10.1080 / 00031305.2019.1583913 .

Дальнейшее чтение [ править ]

Лидия Денворт, «Серьезная проблема: стандартные научные методы подвергаются критике. Изменится ли что-нибудь?», Scientific American , vol. 321, нет. 4 (октябрь 2019 г.), стр. 62–67. «Использование значений p в течение почти столетия [с 1925 года] для определения статистической значимости экспериментальных результатов способствовало возникновению иллюзии достоверности и [к] кризисам воспроизводимости во многих областях науки . Растет решимость реформировать статистический анализ ... Некоторые [исследователи] предлагают изменить статистические методы, в то время как другие отказались бы от порога для определения «значимых» результатов ». (стр.63)
Зилиак, Стивен и Дейрдра Макклоски (2008), Культ статистической значимости: как стандартная ошибка стоит нам рабочих мест, правосудия и жизней . Анн-Арбор, Мичиганский университет Press , 2009. ISBN 978-0-472-07007-7 . Отзывы и прием: (составитель Зиляк)
Томпсон, Брюс (2004). «Значимость» кризиса в психологии и образовании ». Социально-экономический журнал . 33 (5): 607–613. DOI : 10.1016 / j.socec.2004.09.034 .
Чоу, Сиу Л., (1996). Статистическая значимость: обоснование, валидность и полезность , том 1 серии « Введение в статистические методы», Sage Publications Ltd, ISBN 978-0-7619-5205-3 - утверждает, что статистическая значимость полезна при определенных обстоятельствах.
Клайн, Рекс, (2004). Помимо тестирования значимости: реформирование методов анализа данных в поведенческих исследованиях Вашингтон, округ Колумбия: Американская психологическая ассоциация.
Нуццо, Регина (2014). Научный метод: статистические ошибки . Nature Vol. 506, стр. 150-152 (в открытом доступе). Выявляет распространенные заблуждения относительно значения p.
Коэн, Джозеф (1994). [1] . Земля круглая (p <0,05). Американский психолог. Том 49, стр. 997-1003. Рассматривает проблемы со статистической проверкой нулевой гипотезы.
Амрейн, Валентин; Гренландия, Сандер; МакШейн, Блейк (20 марта 2019 г.). «Ученые восстают против статистической значимости» . Природа . 567 (7748): 305–307. DOI : 10.1038 / d41586-019-00857-9 . PMID 30894741 .

Внешние ссылки [ править ]

В Викиверситете есть ресурсы для изучения статистической значимости

Статья « Самые ранние известные варианты использования некоторых слов математики (S) » содержит статью о значении, которая предоставляет некоторую историческую информацию.
« Концепция тестирования статистической значимости » (февраль 1994 г.): статья Брюса Томпона, размещенная в Информационном центре ERIC по оценке и оценке, Вашингтон, округ Колумбия.
« Что означает« статистически значимый »результат? » (Без даты): статья из Службы статистической оценки Университета Джорджа Мейсона, Вашингтон, округ Колумбия

[Sirkin-1] Сиркин, Р. Марк (2005). «Двухвыборочные t-тесты». Статистика для социальных наук (3-е изд.). Таузенд-Оукс, Калифорния: SAGE Publications, Inc., стр. 271–316. ISBN 978-1-412-90546-6.

[Borror-2] Боррор, Конни М. (2009). «Принятие статистических решений». Справочник сертифицированного инженера по качеству (3-е изд.). Милуоки, Висконсин: ASQ Quality Press. С. 418–472. ISBN 978-0-873-89745-7.

[Myers_et_al-p65-3] Майерс, Джером Л .; Что ж, Арнольд Д .; Лорч-младший, Роберт Ф. (2010). «Разработка основ проверки гипотез с использованием биномиального распределения». Дизайн исследования и статистический анализ (3-е изд.). Нью-Йорк, штат Нью-Йорк: Рутледж. С. 65–90. ISBN 978-0-805-86431-1.

[4] «Букварь по статистической значимости» . Математическое хранилище . 2017-04-30 . Проверено 11 ноября 2019 .

[Dalgaard-5] Далгаард, Питер (2008). «Мощность и расчет размера выборки». Вводная статистика с R . Статистика и вычисления. Нью-Йорк: Спрингер. С. 155–56. DOI : 10.1007 / 978-0-387-79054-1_9 . ISBN 978-0-387-79053-4.

[:0-6] «Статистическая проверка гипотез» . www.dartmouth.edu . Проверено 11 ноября 2019 .

[Johnson-7] Джонсон, Вален Э. (9 октября 2013 г.). «Пересмотренные стандарты статистических данных» . Труды Национальной академии наук . 110 (48): 19313–19317. DOI : 10.1073 / pnas.1313476110 . PMC 3845140 . PMID 24218581 . Проверено 3 июля 2014 года .

[Redmond_and_Colton-8] Редмонд, Кэрол; Колтон, Теодор (2001). «Клиническая значимость против статистической значимости». Биостатистика в клинических исследованиях . Серия ссылок Wiley по биостатистике (3-е изд.). Западный Суссекс, Соединенное Королевство: John Wiley & Sons Ltd., стр. 35–36. ISBN 978-0-471-82211-0.

[Cumming-p27-9] Камминг, Джефф (2012). Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ . Нью-Йорк, США: Рутледж. С. 27–28.

[Krzywinski_and_Altman-10] Кшивинский, Мартин; Альтман, Наоми (30 октября 2013 г.). «Важные моменты: значимость, значения P и t-тесты» . Методы природы . 10 (11): 1041–1042. DOI : 10.1038 / nmeth.2698 . PMID 24344377 .

[Sham_and_Purcell-11] Шам, Пак С .; Перселл, Шон М. (17 апреля 2014 г.). «Статистическая мощность и проверка значимости в крупномасштабных генетических исследованиях». Природа Обзоры Генетики . 15 (5): 335–346. DOI : 10.1038 / nrg3706 . PMID 24739678 .

[Altman-12] Альтман, Дуглас Г. (1999). Практическая статистика для медицинских исследований . Нью-Йорк, США: Chapman & Hall / CRC. С. 167 . ISBN 978-0412276309.

[Devore-13] Девор, Джей Л. (2011). Вероятность и статистика для техники и наук (8-е изд.). Бостон, Массачусетс: обучение Cengage. С. 300–344. ISBN 978-0-538-73352-6.

[Salkind-14] Крапаро, Роберт М. (2007). "Уровень значимости". В Salkind, Нил Дж. (Ред.). Энциклопедия измерения и статистики . 3 . Таузенд-Окс, Калифорния: SAGE Publications. С. 889–891. ISBN 978-1-412-91611-0.

[Sproull-15] Sproull, Натали Л. (2002). «Проверка гипотез» . Справочник по методам исследования: Руководство для практиков и студентов в области социальных наук (2-е изд.). Лэнхэм, Мэриленд: Scarecrow Press, Inc., стр. 49–64 . ISBN 978-0-810-84486-5.

[Babbie2-16] Babbie, Earl R. (2013). «Логика выборки». Практика социальных исследований (13-е изд.). Бельмонт, Калифорния: Cengage Learning. С. 185–226. ISBN 978-1-133-04979-1.

[Faherty-17] Faherty, Винсент (2008). «Вероятность и статистическая значимость». Сострадательная статистика: прикладной количественный анализ социальных услуг (с упражнениями и инструкциями в SPSS) (1-е изд.). Таузенд-Оукс, Калифорния: SAGE Publications, Inc., стр. 127–138. ISBN 978-1-412-93982-9.

[McKillup-18] McKillup, Steve (2006). «Вероятность помогает вам принять решение о ваших результатах» . Разъяснения статистики: Вводное руководство для ученых-биологов (1-е изд.). Кембридж, Соединенное Королевство: Издательство Кембриджского университета. С. 44–56 . ISBN 978-0-521-54316-3.

[Myers_et_al-p124-19] Майерс, Джером L .; Что ж, Арнольд Д .; Лорч-младший, Роберт Ф. (2010). «Распределение t и его приложения». Дизайн исследования и статистический анализ (3-е изд.). Нью-Йорк, штат Нью-Йорк: Рутледж. С. 124–153. ISBN 978-0-805-86431-1.

[:1-20] Хупер, Питер. "Что такое P-значение?" (PDF) . Университет Альберты, факультет математических и статистических наук . Проверено 10 ноября 2019 года .

[21] Leung, W.-C. (2001-03-01). «Баланс статистической и клинической значимости при оценке эффектов лечения» . Последипломный медицинский журнал . 77 (905): 201–204. DOI : 10.1136 / pmj.77.905.201 . ISSN 0032-5473 . PMC 1741942 . PMID 11222834 .

[22] Брайан, Эрик; Джейссон, Мари (2007). «Физико-теология и математика (1710–1794)». Происхождение соотношения полов человека при рождении . Springer Science & Business Media. С. 1–25. ISBN 978-1-4020-6036-6.

[23] Джон Арбетнот (1710). «Аргумент в пользу Божественного провидения, взятый из постоянной закономерности, наблюдаемой в рождении обоих полов» (PDF) . Философские труды Лондонского королевского общества . 27 (325–336): 186–190. DOI : 10,1098 / rstl.1710.0011 .

[Conover1999-24] Коновер, WJ (1999), "Глава 3.4: Знак Test", практический непараметрической статистики (. Третье издание), М., С. 157-176,. ISBN 978-0-471-16068-7

[Sprent1989-25] Спрент, П. (1989), Прикладные непараметрические статистические методы (второе издание), Chapman & Hall, ISBN 978-0-412-44980-2

[26] Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. С. 225–226 . ISBN 978-0-67440341-3.

[Bellhouse2001-27] Bellhouse, P. (2001), "Джон Арбутнот", в статистиках столетий ЦК Хейд и Е. Сенетами , Springer, стр. 39-42, ISBN 978-0-387-95329-8

[Hald1998-28] Hald, Андерс (1998), «Глава 4. Случайность или Дизайн: Испытания Значения», История математической статистики с 1750 по 1930 , Wiley, стр. 65

[Cumming-29] Камминг, Джефф (2011). «От значимости нулевой гипотезы до величины эффекта тестирования». Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ . Серия многомерных приложений. Восточный Сассекс, Соединенное Королевство: Рутледж. С. 21–52. ISBN 978-0-415-87968-2.

[Fisher1925-30] Фишер, Рональд А. (1925). Статистические методы для научных работников . Эдинбург, Великобритания: Оливер и Бойд. С. 43 . ISBN 978-0-050-02170-5.

[Poletiek-31] Poletiek, Fenna H. (2001). «Формальные теории тестирования». Поведение при проверке гипотез . Очерки когнитивной психологии (1-е изд.). Восточный Сассекс, Соединенное Королевство: Psychology Press. С. 29–48. ISBN 978-1-841-69159-6.

[Quinn-32] Куинн, Джеффри Р .; Кео, Майкл Дж. (2002). Экспериментальный дизайн и анализ данных для биологов (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. С. 46–69 . ISBN 978-0-521-00976-8.

[Neyman-33] Neyman, J .; Пирсон, ES (1933). «Проверка статистических гипотез относительно априорных вероятностей». Математические труды Кембриджского философского общества . 29 (4): 492–510. DOI : 10.1017 / S030500410001152X .

[34] «Выводы о статистической значимости возможны с помощью доверительного интервала. Если доверительный интервал не включает значение нулевого эффекта, можно предположить, что имеется статистически значимый результат». Прель, Жан-Батист дю; Хоммель, Герхард; Рериг, Бернд; Блеттнер, Мария (2009). "Доверительный интервал или P-значение?" . Deutsches Ärzteblatt Online . 106 (19): 335–9. DOI : 10,3238 / arztebl.2009.0335 . PMC 2689604 . PMID 19547734 .

[35] StatNews # 73: перекрывающиеся доверительные интервалы и статистическая значимость

[Neyman1937-36] Нейман Дж (1937). «Очерк теории статистического оценивания на основе классической теории вероятностей» . Философские труды Королевского общества А . 236 (767): 333–380. DOI : 10,1098 / rsta.1937.0005 . JSTOR 91337 .

[Meier-37] Мейер, Кеннет Дж .; Brudney, Джеффри Л .; Ботэ, Джон (2011). Прикладная статистика для государственного и некоммерческого управления (3-е изд.). Бостон, Массачусетс: обучение Cengage. С. 189–209. ISBN 978-1-111-34280-7.

[Healy2009-38] Хили, Джозеф Ф. (2009). Основы статистики: инструмент социальных исследований (2-е изд.). Бельмонт, Калифорния: Cengage Learning. С. 177–205. ISBN 978-0-495-60143-2.

[Healy2006-39] McKillup, Steve (2006). Разъяснения статистики: Вводное руководство для ученых-биологов (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. С. 32–38 . ISBN 978-0-521-54316-3.

[Heath-40] Здоровье, Дэвид (1995). Введение в экспериментальный дизайн и статистику для биологии (1-е изд.). Бостон, Массачусетс: CRC Press. С. 123–154. ISBN 978-1-857-28132-3.

[Hinton_2014-41] Хинтон, Перри Р. (2010). «Значение, ошибка и сила». Статистика объяснена (3-е изд.). Нью-Йорк, штат Нью-Йорк: Рутледж. С. 79–90. ISBN 978-1-848-72312-2.

[Vaughan-42] Перейти ↑ Vaughan, Simon (2013). Научный вывод: обучение на основе данных (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. С. 146–152. ISBN 978-1-107-02482-3.

[Bracken-43] Bracken, Майкл Б. (2013). Риск, шанс и причинно-следственная связь: исследование происхождения и лечения заболеваний (1-е изд.). Нью-Хейвен, Коннектикут: Издательство Йельского университета. С. 260–276 . ISBN 978-0-300-18884-4.

[franklin-44] Франклин, Аллан (2013). «Пролог: подъем сигм». Сдвиг стандартов: эксперименты по физике элементарных частиц в двадцатом веке (1-е изд.). Питтсбург, Пенсильвания: Университет Питтсбурга Press. стр. Ii – Iii. ISBN 978-0-822-94430-0.

[Clarke_et_al-45] Кларк, GM; Андерсон, Калифорния; Петтерссон, Ф.Х .; Кардон, Л. Р.; Моррис, AP; Зондерван, К.Т. (6 февраля 2011 г.). «Базовый статистический анализ в генетических исследованиях случай-контроль» . Протоколы природы . 6 (2): 121–33. DOI : 10.1038 / nprot.2010.182 . PMC 3154648 . PMID 21293453 .

[Barsh_et_al-46] Барш, GS; Копенгейвер, ВП; Гибсон, G; Уильямс, С.М. (5 июля 2012 г.). «Руководство по исследованиям общегеномных ассоциаций» . PLOS Genetics . 8 (7): e1002812. DOI : 10.1371 / journal.pgen.1002812 . PMC 3390399 . PMID 22792080 .

[Carver-47] Карвер, Рональд П. (1978). «Дело против проверки статистической значимости» . Harvard Educational Review . 48 (3): 378–399. DOI : 10,17763 / haer.48.3.t490261645281841 .

[Ioannidis-48] Иоаннидис, Джон PA (2005). «Почему большинство опубликованных результатов исследований ложны» . PLOS Medicine . 2 (8): e124. DOI : 10.1371 / journal.pmed.0020124 . PMC 1182327 . PMID 16060722 .

[peerj.com-49] Амрейн, Валентин; Корнер-Нивергельт, Франци; Рот, Тобиас (2017). «Земля плоская (p> 0,05): пороги значимости и кризис необъяснимых исследований» . PeerJ . 5 : e3544. DOI : 10,7717 / peerj.3544 . PMC 5502092 . PMID 28698825 .

[A_Visitor’s_Guide_to_Effect_Sizes-50] а б Ходжат, Мохаммадреза; Сюй, Банда (2004). «Путеводитель по размерам эффекта». Достижения в области медицинского образования . 9 (3): 241–9. DOI : 10,1023 / Б: AHSE.0000038173.00909.f6 . PMID 15316274 .

[Pedhazur-51] Педхазур, Элазар Дж .; Шмелькин, Лиора П. (1991). Измерение, дизайн и анализ: комплексный подход (под ред. Студента). Нью-Йорк, Нью-Йорк: Психология Пресс. С. 180–210. ISBN 978-0-805-81063-9.

[52] Stahel, Вернер (2016). «Статистическая проблема воспроизводимости». Воспроизводимость принципов, проблем, практик и перспектив: принципы, проблемы, практики и перспективы : 87–114. DOI : 10.1002 / 9781118865064.ch5 . ISBN 9781118864975.

[53] "Серия семинаров CSSME: аргументы в пользу p- значений и парадигма проверки значимости нулевой гипотезы (NHST)" . www.education.leeds.ac.uk . Педагогическая школа Университета Лидса . Проверено 1 декабря 2016 .

[54] Новелла, Стивен (25 февраля 2015 г.). «Психологический журнал запрещает тестирование значимости» . Научная медицина.

[55] Вулстон, Крис (2015-03-05). «Психологический журнал запрещает P-ценности» . Природа . 519 (7541): 9. дои : 10.1038 / 519009f .

[56] Зигфрид, Том (2015-03-17). «Запрет на ценность P: маленький шаг для журнала, гигантский скачок для науки» . Новости науки . Проверено 1 декабря 2016 .

[57] Antonakis, Джон (февраль 2017). «О совершенствовании науки: от острых ощущений от открытий до последствий для политики» (PDF) . Ежеквартально . 28 (1): 5–21. DOI : 10.1016 / j.leaqua.2017.01.006 .

[Wasserstein_129–133-58] Вассерштейн, Рональд Л .; Лазар, Николь А. (2016-04-02). «Заявление ASA о p-значениях: контекст, процесс и цель» . Американский статистик . 70 (2): 129–133. DOI : 10.1080 / 00031305.2016.1154108 .

[59] Гарсиа-Перес, Мигель А. (2016-10-05). «Не свидетельствуй о ложном свидетельстве против проверки значимости нулевой гипотезы» . Образовательные и психологические измерения . 77 (4): 631–662. DOI : 10.1177 / 0013164416668232 . ISSN 0013-1644 . PMC 5991793 . PMID 30034024 .

[60] Иоаннидис, Джон PA; Уэр, Дженнифер Дж .; Вагенмакерс, Эрик-Ян; Симонсон, Ури; Чемберс, Кристофер Д.; Кнопка, Кэтрин С .; Бишоп, Дороти В.М.; Носек, Брайан А .; Мунафо, Маркус Р. (январь 2017 г.). «Манифест воспроизводимой науки» . Природа человеческого поведения . 1 : 0021. DOI : 10.1038 / s41562-016-0021 .

[61] Бенджамин, Даниэль; и другие. (2018). «Новое определение статистической значимости» . Природа человеческого поведения . 1 (1): 6–10. DOI : 10.1038 / s41562-017-0189-Z . PMID 30980045 .

[62] Чавла, Dalmeet (2017). « „ Один размер подходит всем“пороговых значений P под огнем» . Природа . DOI : 10.1038 / nature.2017.22625 .

[63] Амрейн, Валентин; Гренландия, Сандер (2017). «Удалите, а не переопределите статистическую значимость». Природа человеческого поведения . 2 (1): 0224. DOI : 10.1038 / s41562-017-0224-0 . PMID 30980046 .

[64] Vyse, Стюарт. «Движущиеся статистические цели науки» . csicop.org . CSI . Проверено 10 июля 2018 .

[65] МакШейн, Блейк; Гренландия, Сандер; Амрейн, Валентин (март 2019 г.). «Ученые восстают против статистической значимости» . Природа . 567 (7748): 305–307. DOI : 10.1038 / d41586-019-00857-9 . PMID 30894741 .

[Wasserstein2_129–133-66] Вассерштейн, Рональд Л .; Schirm, Allen L .; Лазар, Николь А. (20 марта 2019 г.). «Перемещение в мир за гранью» p <0,05 « » . Американский статистик . 73 (sup1): 1–19. DOI : 10.1080 / 00031305.2019.1583913 .

[1]