Из Википедии, бесплатной энциклопедии
  (Перенаправлен с уровня значимости )
Перейти к навигации Перейти к поиску

В статистической проверки гипотез , [1] [2] результат имеет статистическую значимость , когда это очень маловероятно, что произошло , учитывая нулевую гипотезу . [3] [4] Точнее, определенный уровень значимости исследования , обозначаемый как , представляет собой вероятность того, что исследование отклонит нулевую гипотезу, учитывая, что нулевая гипотеза считалась верной; [5], а p -значение результата, является вероятностью получения результата, по крайней мере, такого же экстремального, при условии, что нулевая гипотеза верна. [6] Результат статистически значим,по меркам исследования, когда . [7] [8] [9] [10] [11] [12] [13] Уровень значимости для исследования выбирается до сбора данных и обычно устанавливается на 5% [14] или намного ниже - в зависимости от область изучения. [15]

В любом эксперименте или наблюдении, которое включает в себя выборку из совокупности , всегда существует вероятность того, что наблюдаемый эффект произошел бы только из-за ошибки выборки . [16] [17] Но если p- значение наблюдаемого эффекта меньше (или равно) уровню значимости, исследователь может сделать вывод, что эффект отражает характеристики всей популяции [1], тем самым отвергая нулевое значение. гипотеза. [18]

Этот метод проверки статистической значимости результатов был разработан в начале 20 века. Термин « значимость» здесь не подразумевает важности, а термин « статистическая значимость» - это не то же самое, что и исследовательская, теоретическая или практическая значимость. [1] [2] [19] [20] Например, термин « клиническая значимость» относится к практической значимости лечебного эффекта. [21]

История [ править ]

Статистическая значимость восходит к 1700-м годам в работах Джона Арбетнота и Пьера-Симона Лапласа , которые вычислили p- значение для соотношения полов человека при рождении, приняв нулевую гипотезу о равной вероятности мужских и женских рождений; подробности см. в p -value § История . [22] [23] [24] [25] [26] [27] [28]

В 1925 году Рональд Фишер выдвинул идею статистической проверки гипотез, которую он назвал «тестами значимости», в своей публикации « Статистические методы для научных работников» . [29] [30] [31] Фишер предложил вероятность один к двадцати (0,05) как удобный уровень отсечения для отклонения нулевой гипотезы. [32] В статье 1933 года Ежи Нейман и Эгон Пирсон назвали это ограничение уровнем значимости , который они назвали . Они рекомендовали сделать это заранее, до сбора каких-либо данных. [32] [33]

Несмотря на его первоначальное предложение 0,05 в качестве уровня значимости, Фишер не намеревался фиксировать это пороговое значение. В своей публикации 1956 года « Статистические методы и научный вывод» он рекомендовал устанавливать уровни значимости в соответствии с конкретными обстоятельствами. [32]

Понятия, связанные с данным [ править ]

Уровень значимости - это порог, ниже которого нулевая гипотеза отклоняется, даже если предполагается, что она верна, и что-то еще происходит. Это означает, что это также вероятность ошибочного отклонения нулевой гипотезы, если нулевая гипотеза верна. [5] Это также называется ложноположительной и ошибка типа I .

Иногда вместо этого исследователи говорят об уровне достоверности γ = (1 - α ) . Это вероятность не отвергнуть нулевую гипотезу при условии, что она верна. [34] [35] Уровни достоверности и доверительные интервалы были введены Нейманом в 1937 году. [36]

Роль в статистической проверке гипотез [ править ]

В двустороннем тесте область отклонения для уровня значимости α = 0,05 делится на оба конца выборочного распределения и составляет 5% площади под кривой (белые области).

Статистическая значимость играет ключевую роль в проверке статистических гипотез. Он используется, чтобы определить, следует ли отклонить нулевую гипотезу или оставить ее. Нулевая гипотеза - это предположение по умолчанию, что ничего не произошло и не изменилось. [37] Для отклонения нулевой гипотезы наблюдаемый результат должен быть статистически значимым, т. Е. Наблюдаемое значение p меньше заранее заданного уровня значимости .

Чтобы определить, является ли результат статистически значимым, исследователь вычисляет p- значение, которое представляет собой вероятность наблюдения эффекта такой же величины или более экстремального при условии, что нулевая гипотеза верна. [6] [13] Нулевая гипотеза отвергается , если р -значение меньше (или равно) заранее определенный уровень, . также называется уровнем значимости и представляет собой вероятность отклонения нулевой гипотезы при условии, что она верна ( ошибка типа I ). Обычно устанавливается на уровне 5% или ниже.

Например, когда установлена на 5%, то условная вероятность того, из ошибки типа I , при условии , что нулевая гипотеза верна , составляет 5%, [38] и статистически значимый результат один , где наблюдаемый р -значение меньше (или равно) 5%. [39] При извлечении данных из выборки это означает, что область отклонения составляет 5% распределения выборки . [40] Эти 5% могут быть отнесены к одной стороне выборочного распределения, как в одностороннем тесте , или разделены на обе стороны распределения, как в двустороннем тесте., причем каждый хвост (или область отклонения) содержит 2,5% распределения.

Использование одностороннего теста зависит от того, определяет ли исследовательский вопрос или альтернативная гипотеза направление, например, тяжелее ли группа предметов или лучше успеваемость учащихся по оценке . [3] Двусторонний тест все еще может использоваться, но он будет менее эффективным, чем односторонний, потому что область отклонения для одностороннего теста сосредоточена на одном конце нулевого распределения и в два раза больше ( 5% против 2,5%) каждой области отклонения для двустороннего теста. В результате нулевая гипотеза может быть отклонена с менее экстремальным результатом, если использовался односторонний тест. [41]Односторонний тест более эффективен, чем двусторонний, только если указанное направление альтернативной гипотезы верно. Однако если это неверно, то односторонний тест не имеет силы.

Пороги значимости в определенных полях [ править ]

В конкретных областях, таких как физика элементарных частиц и производство , статистическая значимость часто выражается в единицах, кратных стандартному отклонению или сигме ( σ ) нормального распределения , при этом пороговые значения значимости устанавливаются на гораздо более строгом уровне (например, 5 σ ). [42] [43] Например, уверенность в существовании частицы бозона Хиггса была основана на критерии 5 σ , что соответствует значению p примерно 1 из 3,5 миллиона. [43] [44]

В других областях научных исследований, таких как полногеномные ассоциации , уровни значимости не превышают5 × 10 −8 не редкость [45] [46], поскольку количество выполненных тестов чрезвычайно велико.

Ограничения [ править ]

Исследователи, которые сосредотачиваются исключительно на том, являются ли их результаты статистически значимыми, могут сообщать о выводах, которые не являются существенными [47] и не воспроизводятся. [48] [49] Существует также разница между статистической и практической значимостью. Статистически значимое исследование не обязательно может иметь практическое значение. [50] [20]

Размер эффекта [ править ]

Размер эффекта является мерой практической значимости исследования. [50] Статистически значимый результат может иметь слабый эффект. Чтобы оценить значимость результатов для исследований, исследователям рекомендуется всегда сообщать размер эффекта вместе с p-значениями . Мера размера эффекта определяет силу эффекта, например, расстояние между двумя средними в единицах стандартного отклонения (см . D Коэна ), коэффициент корреляции между двумя переменными или его квадрат и другие меры. [51]

Воспроизводимость [ править ]

Статистически значимый результат может быть непросто воспроизвести. [49] В частности, некоторые статистически значимые результаты на самом деле будут ложноположительными. Каждая неудачная попытка воспроизвести результат увеличивает вероятность того, что результат был ложноположительным. [52]

Проблемы [ править ]

Чрезмерное использование в некоторых журналах [ править ]

Начиная с 2010-х годов, некоторые журналы начали сомневаться в том, что проверка значимости, особенно с использованием порога α = 5%, слишком сильно используется в качестве основного критерия достоверности гипотезы. [53] Некоторые журналы рекомендовали авторам проводить более подробный анализ, чем просто тест статистической значимости. В области социальной психологии журнал « Базовая и прикладная социальная психология» полностью запретил использование тестирования значимости в опубликованных им статьях [54], требуя, чтобы авторы использовали другие меры для оценки гипотез и воздействия. [55] [56]

Другие редакторы, комментируя этот запрет, отметили: «Запрет на публикацию p- значений , как это недавно сделала Базовая и Прикладная социальная психология, не решит проблему, потому что это просто лечение симптома проблемы. В этом нет ничего плохого. с проверкой гипотез и собственно p -значениями, если авторы, рецензенты и редакторы действий используют их правильно ». [57] Некоторые статистики предпочитают использовать альтернативные меры доказательства, такие как отношения правдоподобия или байесовские факторы . [58] Использование байесовской статистики позволяет избежать уровней достоверности, но также требует дополнительных предположений, [58]и не обязательно может улучшить практику статистического тестирования. [59]

Широко распространенное злоупотребление статистической значимостью представляет собой важную тему исследований в метанауке . [60]

Новое определение значения [ править ]

В 2016 году Американская статистическая ассоциация (ASA) опубликовала заявление о p-значениях , в котором говорилось, что «широкое использование« статистической значимости »(обычно интерпретируемой как« p  ≤ 0,05 ») в качестве лицензии на утверждение научных результатов. (или подразумеваемая истина) приводит к значительному искажению научного процесса ". [58] В 2017 году группа из 72 авторов предложила улучшить воспроизводимость, изменив пороговое значение p для статистической значимости с 0,05 до 0,005. [61] Другие исследователи ответили, что установление более строгого порога значимости усугубит такие проблемы, как углубление данных.; Таким образом, альтернативные предложения состоят в том, чтобы выбрать и обосновать гибкие пороговые значения p- значений перед сбором данных [62] или интерпретировать p-значения как непрерывные индексы, тем самым отбросив пороговые значения и статистическую значимость. [63] Кроме того, изменение на 0,005 увеличит вероятность ложноотрицательных результатов, в результате чего изучаемый эффект реален, но тест не может его показать. [64]

В 2019 году более 800 статистиков и ученых подписали сообщение, призывающее отказаться от термина «статистическая значимость» в науке [65], а Американская статистическая ассоциация опубликовала еще одно официальное заявление [66], в котором говорится (стр. 2):

На основании нашего обзора статей в этом специальном выпуске и более широкой литературы мы пришли к выводу, что пора полностью отказаться от термина «статистически значимый». Также не должны сохраняться такие варианты, как «существенно отличается», « » и «несущественно», независимо от того, выражены ли они словами, звездочками в таблице или каким-либо другим образом.

См. Также [ править ]

  • A / B-тестирование , ABX-тест
  • Статистика оценок
  • Метод Фишера для объединения независимых тестов значимости
  • Эффект поиска в другом месте
  • Проблема множественных сравнений
  • Размер образца
  • Заблуждение техасского снайпера (приводятся примеры тестов, в которых уровень значимости был установлен слишком высоким)

Ссылки [ править ]

  1. ^ a b c Сиркин, Р. Марк (2005). «Двухвыборочные t-тесты». Статистика для социальных наук (3-е изд.). Таузенд-Оукс, Калифорния: SAGE Publications, Inc., стр. 271–316. ISBN 978-1-412-90546-6.
  2. ^ a b Боррор, Конни М. (2009). «Принятие статистических решений». Справочник сертифицированного инженера по качеству (3-е изд.). Милуоки, Висконсин: ASQ Quality Press. С. 418–472. ISBN 978-0-873-89745-7.
  3. ^ a b Майерс, Джером Л .; Что ж, Арнольд Д .; Лорч-младший, Роберт Ф. (2010). «Разработка основ проверки гипотез с использованием биномиального распределения». Дизайн исследования и статистический анализ (3-е изд.). Нью-Йорк, штат Нью-Йорк: Рутледж. С. 65–90. ISBN 978-0-805-86431-1.
  4. ^ «Букварь по статистической значимости» . Математическое хранилище . 2017-04-30 . Проверено 11 ноября 2019 .
  5. ^ a b Далгаард, Питер (2008). «Мощность и расчет размера выборки». Вводная статистика с R . Статистика и вычисления. Нью-Йорк: Спрингер. С. 155–56. DOI : 10.1007 / 978-0-387-79054-1_9 . ISBN 978-0-387-79053-4.
  6. ^ a b «Статистическая проверка гипотез» . www.dartmouth.edu . Проверено 11 ноября 2019 .
  7. Джонсон, Вален Э. (9 октября 2013 г.). «Пересмотренные стандарты статистических данных» . Труды Национальной академии наук . 110 (48): 19313–19317. DOI : 10.1073 / pnas.1313476110 . PMC 3845140 . PMID 24218581 . Проверено 3 июля 2014 года .  
  8. ^ Редмонд, Кэрол; Колтон, Теодор (2001). «Клиническая значимость против статистической значимости». Биостатистика в клинических исследованиях . Серия ссылок Wiley по биостатистике (3-е изд.). Западный Суссекс, Соединенное Королевство: John Wiley & Sons Ltd., стр. 35–36. ISBN 978-0-471-82211-0.
  9. ^ Камминг, Джефф (2012). Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ . Нью-Йорк, США: Рутледж. С. 27–28.
  10. ^ Кшивинский, Мартин; Альтман, Наоми (30 октября 2013 г.). «Важные моменты: значимость, значения P и t-тесты» . Методы природы . 10 (11): 1041–1042. DOI : 10.1038 / nmeth.2698 . PMID 24344377 . 
  11. ^ Шам, Пак С .; Перселл, Шон М. (17 апреля 2014 г.). «Статистическая мощность и проверка значимости в крупномасштабных генетических исследованиях». Природа Обзоры Генетики . 15 (5): 335–346. DOI : 10.1038 / nrg3706 . PMID 24739678 . 
  12. ^ Альтман, Дуглас Г. (1999). Практическая статистика для медицинских исследований . Нью-Йорк, США: Chapman & Hall / CRC. С.  167 . ISBN 978-0412276309.
  13. ^ a b Девор, Джей Л. (2011). Вероятность и статистика для техники и наук (8-е изд.). Бостон, Массачусетс: обучение Cengage. С. 300–344. ISBN 978-0-538-73352-6.
  14. ^ Крапаро, Роберт М. (2007). "Уровень значимости". В Salkind, Нил Дж. (Ред.). Энциклопедия измерения и статистики . 3 . Таузенд-Окс, Калифорния: SAGE Publications. С. 889–891. ISBN 978-1-412-91611-0.
  15. ^ Sproull, Натали Л. (2002). «Проверка гипотез» . Справочник по методам исследования: Руководство для практиков и студентов в области социальных наук (2-е изд.). Лэнхэм, Мэриленд: Scarecrow Press, Inc., стр.  49–64 . ISBN 978-0-810-84486-5.
  16. ^ Babbie, Earl R. (2013). «Логика выборки». Практика социальных исследований (13-е изд.). Бельмонт, Калифорния: Cengage Learning. С. 185–226. ISBN 978-1-133-04979-1.
  17. ^ Faherty, Винсент (2008). «Вероятность и статистическая значимость». Сострадательная статистика: прикладной количественный анализ социальных услуг (с упражнениями и инструкциями в SPSS) (1-е изд.). Таузенд-Оукс, Калифорния: SAGE Publications, Inc., стр. 127–138. ISBN 978-1-412-93982-9.
  18. ^ McKillup, Steve (2006). «Вероятность помогает вам принять решение о ваших результатах» . Разъяснения статистики: Вводное руководство для ученых-биологов (1-е изд.). Кембридж, Соединенное Королевство: Издательство Кембриджского университета. С.  44–56 . ISBN 978-0-521-54316-3.
  19. ^ Майерс, Джером L .; Что ж, Арнольд Д .; Лорч-младший, Роберт Ф. (2010). «Распределение t и его приложения». Дизайн исследования и статистический анализ (3-е изд.). Нью-Йорк, штат Нью-Йорк: Рутледж. С. 124–153. ISBN 978-0-805-86431-1.
  20. ^ a b Хупер, Питер. "Что такое P-значение?" (PDF) . Университет Альберты, факультет математических и статистических наук . Проверено 10 ноября 2019 года .
  21. ^ Leung, W.-C. (2001-03-01). «Баланс статистической и клинической значимости при оценке эффектов лечения» . Последипломный медицинский журнал . 77 (905): 201–204. DOI : 10.1136 / pmj.77.905.201 . ISSN 0032-5473 . PMC 1741942 . PMID 11222834 .   
  22. ^ Брайан, Эрик; Джейссон, Мари (2007). «Физико-теология и математика (1710–1794)». Происхождение соотношения полов человека при рождении . Springer Science & Business Media. С. 1–25. ISBN 978-1-4020-6036-6.
  23. ^ Джон Арбетнот (1710). «Аргумент в пользу Божественного провидения, взятый из постоянной закономерности, наблюдаемой в рождении обоих полов» (PDF) . Философские труды Лондонского королевского общества . 27 (325–336): 186–190. DOI : 10,1098 / rstl.1710.0011 .
  24. ^ Коновер, WJ (1999), "Глава 3.4: Знак Test", практический непараметрической статистики (. Третье издание), М., С. 157-176,. ISBN 978-0-471-16068-7
  25. ^ Спрент, П. (1989), Прикладные непараметрические статистические методы (второе издание), Chapman & Hall, ISBN 978-0-412-44980-2
  26. ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. С.  225–226 . ISBN 978-0-67440341-3.
  27. ^ Bellhouse, P. (2001), "Джон Арбутнот", в статистиках столетий ЦК Хейд и Е. Сенетами , Springer, стр. 39-42, ISBN 978-0-387-95329-8
  28. ^ Hald, Андерс (1998), «Глава 4. Случайность или Дизайн: Испытания Значения», История математической статистики с 1750 по 1930 , Wiley, стр. 65
  29. ^ Камминг, Джефф (2011). «От значимости нулевой гипотезы до величины эффекта тестирования». Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ . Серия многомерных приложений. Восточный Сассекс, Соединенное Королевство: Рутледж. С. 21–52. ISBN 978-0-415-87968-2.
  30. ^ Фишер, Рональд А. (1925). Статистические методы для научных работников . Эдинбург, Великобритания: Оливер и Бойд. С.  43 . ISBN 978-0-050-02170-5.
  31. ^ Poletiek, Fenna H. (2001). «Формальные теории тестирования». Поведение при проверке гипотез . Очерки когнитивной психологии (1-е изд.). Восточный Сассекс, Соединенное Королевство: Psychology Press. С. 29–48. ISBN 978-1-841-69159-6.
  32. ^ a b c Куинн, Джеффри Р .; Кео, Майкл Дж. (2002). Экспериментальный дизайн и анализ данных для биологов (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. С.  46–69 . ISBN 978-0-521-00976-8.
  33. ^ Neyman, J .; Пирсон, ES (1933). «Проверка статистических гипотез относительно априорных вероятностей». Математические труды Кембриджского философского общества . 29 (4): 492–510. DOI : 10.1017 / S030500410001152X .
  34. ^ «Выводы о статистической значимости возможны с помощью доверительного интервала. Если доверительный интервал не включает значение нулевого эффекта, можно предположить, что имеется статистически значимый результат». Прель, Жан-Батист дю; Хоммель, Герхард; Рериг, Бернд; Блеттнер, Мария (2009). "Доверительный интервал или P-значение?" . Deutsches Ärzteblatt Online . 106 (19): 335–9. DOI : 10,3238 / arztebl.2009.0335 . PMC 2689604 . PMID 19547734 .  
  35. ^ StatNews # 73: перекрывающиеся доверительные интервалы и статистическая значимость
  36. ^ Нейман Дж (1937). «Очерк теории статистического оценивания на основе классической теории вероятностей» . Философские труды Королевского общества А . 236 (767): 333–380. DOI : 10,1098 / rsta.1937.0005 . JSTOR 91337 . 
  37. ^ Мейер, Кеннет Дж .; Brudney, Джеффри Л .; Ботэ, Джон (2011). Прикладная статистика для государственного и некоммерческого управления (3-е изд.). Бостон, Массачусетс: обучение Cengage. С. 189–209. ISBN 978-1-111-34280-7.
  38. ^ Хили, Джозеф Ф. (2009). Основы статистики: инструмент социальных исследований (2-е изд.). Бельмонт, Калифорния: Cengage Learning. С. 177–205. ISBN 978-0-495-60143-2.
  39. ^ McKillup, Steve (2006). Разъяснения статистики: Вводное руководство для ученых-биологов (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. С.  32–38 . ISBN 978-0-521-54316-3.
  40. ^ Здоровье, Дэвид (1995). Введение в экспериментальный дизайн и статистику для биологии (1-е изд.). Бостон, Массачусетс: CRC Press. С. 123–154. ISBN 978-1-857-28132-3.
  41. ^ Хинтон, Перри Р. (2010). «Значение, ошибка и сила». Статистика объяснена (3-е изд.). Нью-Йорк, штат Нью-Йорк: Рутледж. С. 79–90. ISBN 978-1-848-72312-2.
  42. Перейти ↑ Vaughan, Simon (2013). Научный вывод: обучение на основе данных (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. С. 146–152. ISBN 978-1-107-02482-3.
  43. ^ a b Bracken, Майкл Б. (2013). Риск, шанс и причинно-следственная связь: исследование происхождения и лечения заболеваний (1-е изд.). Нью-Хейвен, Коннектикут: Издательство Йельского университета. С.  260–276 . ISBN 978-0-300-18884-4.
  44. ^ Франклин, Аллан (2013). «Пролог: подъем сигм». Сдвиг стандартов: эксперименты по физике элементарных частиц в двадцатом веке (1-е изд.). Питтсбург, Пенсильвания: Университет Питтсбурга Press. стр. Ii – Iii. ISBN 978-0-822-94430-0.
  45. ^ Кларк, GM; Андерсон, Калифорния; Петтерссон, Ф.Х .; Кардон, Л. Р.; Моррис, AP; Зондерван, К.Т. (6 февраля 2011 г.). «Базовый статистический анализ в генетических исследованиях случай-контроль» . Протоколы природы . 6 (2): 121–33. DOI : 10.1038 / nprot.2010.182 . PMC 3154648 . PMID 21293453 .  
  46. ^ Барш, GS; Копенгейвер, ВП; Гибсон, G; Уильямс, С.М. (5 июля 2012 г.). «Руководство по исследованиям общегеномных ассоциаций» . PLOS Genetics . 8 (7): e1002812. DOI : 10.1371 / journal.pgen.1002812 . PMC 3390399 . PMID 22792080 .  
  47. ^ Карвер, Рональд П. (1978). «Дело против проверки статистической значимости» . Harvard Educational Review . 48 (3): 378–399. DOI : 10,17763 / haer.48.3.t490261645281841 .
  48. ^ Иоаннидис, Джон PA (2005). «Почему большинство опубликованных результатов исследований ложны» . PLOS Medicine . 2 (8): e124. DOI : 10.1371 / journal.pmed.0020124 . PMC 1182327 . PMID 16060722 .  
  49. ^ a b Амрейн, Валентин; Корнер-Нивергельт, Франци; Рот, Тобиас (2017). «Земля плоская (p> 0,05): пороги значимости и кризис необъяснимых исследований» . PeerJ . 5 : e3544. DOI : 10,7717 / peerj.3544 . PMC 5502092 . PMID 28698825 .  
  50. ^ а б Ходжат, Мохаммадреза; Сюй, Банда (2004). «Путеводитель по размерам эффекта». Достижения в области медицинского образования . 9 (3): 241–9. DOI : 10,1023 / Б: AHSE.0000038173.00909.f6 . PMID 15316274 . 
  51. ^ Педхазур, Элазар Дж .; Шмелькин, Лиора П. (1991). Измерение, дизайн и анализ: комплексный подход (под ред. Студента). Нью-Йорк, Нью-Йорк: Психология Пресс. С. 180–210. ISBN 978-0-805-81063-9.
  52. ^ Stahel, Вернер (2016). «Статистическая проблема воспроизводимости». Воспроизводимость принципов, проблем, практик и перспектив: принципы, проблемы, практики и перспективы : 87–114. DOI : 10.1002 / 9781118865064.ch5 . ISBN 9781118864975.
  53. ^ "Серия семинаров CSSME: аргументы в пользу p- значений и парадигма проверки значимости нулевой гипотезы (NHST)" . www.education.leeds.ac.uk . Педагогическая школа Университета Лидса . Проверено 1 декабря 2016 .
  54. Новелла, Стивен (25 февраля 2015 г.). «Психологический журнал запрещает тестирование значимости» . Научная медицина.
  55. ^ Вулстон, Крис (2015-03-05). «Психологический журнал запрещает P-ценности» . Природа . 519 (7541): 9. дои : 10.1038 / 519009f .
  56. ^ Зигфрид, Том (2015-03-17). «Запрет на ценность P: маленький шаг для журнала, гигантский скачок для науки» . Новости науки . Проверено 1 декабря 2016 .
  57. ^ Antonakis, Джон (февраль 2017). «О совершенствовании науки: от острых ощущений от открытий до последствий для политики» (PDF) . Ежеквартально . 28 (1): 5–21. DOI : 10.1016 / j.leaqua.2017.01.006 .
  58. ^ a b c Вассерштейн, Рональд Л .; Лазар, Николь А. (2016-04-02). «Заявление ASA о p-значениях: контекст, процесс и цель» . Американский статистик . 70 (2): 129–133. DOI : 10.1080 / 00031305.2016.1154108 .
  59. ^ Гарсиа-Перес, Мигель А. (2016-10-05). «Не свидетельствуй о ложном свидетельстве против проверки значимости нулевой гипотезы» . Образовательные и психологические измерения . 77 (4): 631–662. DOI : 10.1177 / 0013164416668232 . ISSN 0013-1644 . PMC 5991793 . PMID 30034024 .   
  60. ^ Иоаннидис, Джон PA; Уэр, Дженнифер Дж .; Вагенмакерс, Эрик-Ян; Симонсон, Ури; Чемберс, Кристофер Д.; Кнопка, Кэтрин С .; Бишоп, Дороти В.М.; Носек, Брайан А .; Мунафо, Маркус Р. (январь 2017 г.). «Манифест воспроизводимой науки» . Природа человеческого поведения . 1 : 0021. DOI : 10.1038 / s41562-016-0021 .
  61. ^ Бенджамин, Даниэль; и другие. (2018). «Новое определение статистической значимости» . Природа человеческого поведения . 1 (1): 6–10. DOI : 10.1038 / s41562-017-0189-Z . PMID 30980045 . 
  62. ^ Чавла, Dalmeet (2017). « Один размер подходит всем“пороговых значений P под огнем» . Природа . DOI : 10.1038 / nature.2017.22625 .
  63. ^ Амрейн, Валентин; Гренландия, Сандер (2017). «Удалите, а не переопределите статистическую значимость». Природа человеческого поведения . 2 (1): 0224. DOI : 10.1038 / s41562-017-0224-0 . PMID 30980046 . 
  64. ^ Vyse, Стюарт. «Движущиеся статистические цели науки» . csicop.org . CSI . Проверено 10 июля 2018 .
  65. ^ МакШейн, Блейк; Гренландия, Сандер; Амрейн, Валентин (март 2019 г.). «Ученые восстают против статистической значимости» . Природа . 567 (7748): 305–307. DOI : 10.1038 / d41586-019-00857-9 . PMID 30894741 . 
  66. ^ Вассерштейн, Рональд Л .; Schirm, Allen L .; Лазар, Николь А. (20 марта 2019 г.). «Перемещение в мир за гранью» p <0,05 « » . Американский статистик . 73 (sup1): 1–19. DOI : 10.1080 / 00031305.2019.1583913 .

Дальнейшее чтение [ править ]

  • Лидия Денворт, «Серьезная проблема: стандартные научные методы подвергаются критике. Изменится ли что-нибудь?», Scientific American , vol. 321, нет. 4 (октябрь 2019 г.), стр. 62–67. «Использование значений p в течение почти столетия [с 1925 года] для определения статистической значимости экспериментальных результатов способствовало возникновению иллюзии достоверности и [к] кризисам воспроизводимости во многих областях науки . Растет решимость реформировать статистический анализ ... Некоторые [исследователи] предлагают изменить статистические методы, в то время как другие отказались бы от порога для определения «значимых» результатов ». (стр.63)
  • Зилиак, Стивен и Дейрдра Макклоски (2008), Культ статистической значимости: как стандартная ошибка стоит нам рабочих мест, правосудия и жизней . Анн-Арбор, Мичиганский университет Press , 2009. ISBN 978-0-472-07007-7 . Отзывы и прием: (составитель Зиляк) 
  • Томпсон, Брюс (2004). «Значимость» кризиса в психологии и образовании ». Социально-экономический журнал . 33 (5): 607–613. DOI : 10.1016 / j.socec.2004.09.034 .
  • Чоу, Сиу Л., (1996). Статистическая значимость: обоснование, валидность и полезность , том 1 серии « Введение в статистические методы», Sage Publications Ltd, ISBN 978-0-7619-5205-3 - утверждает, что статистическая значимость полезна при определенных обстоятельствах. 
  • Клайн, Рекс, (2004). Помимо тестирования значимости: реформирование методов анализа данных в поведенческих исследованиях Вашингтон, округ Колумбия: Американская психологическая ассоциация.
  • Нуццо, Регина (2014). Научный метод: статистические ошибки . Nature Vol. 506, стр. 150-152 (в открытом доступе). Выявляет распространенные заблуждения относительно значения p.
  • Коэн, Джозеф (1994). [1] . Земля круглая (p <0,05). Американский психолог. Том 49, стр. 997-1003. Рассматривает проблемы со статистической проверкой нулевой гипотезы.
  • Амрейн, Валентин; Гренландия, Сандер; МакШейн, Блейк (20 марта 2019 г.). «Ученые восстают против статистической значимости» . Природа . 567 (7748): 305–307. DOI : 10.1038 / d41586-019-00857-9 . PMID  30894741 .

Внешние ссылки [ править ]

  • Статья « Самые ранние известные варианты использования некоторых слов математики (S) » содержит статью о значении, которая предоставляет некоторую историческую информацию.
  • « Концепция тестирования статистической значимости » (февраль 1994 г.): статья Брюса Томпона, размещенная в Информационном центре ERIC по оценке и оценке, Вашингтон, округ Колумбия.
  • « Что означает« статистически значимый »результат? » (Без даты): статья из Службы статистической оценки Университета Джорджа Мейсона, Вашингтон, округ Колумбия