Из Википедии, бесплатной энциклопедии
  (Перенаправлено с P-значений )
Перейти к навигации Перейти к поиску

В нулевом тестировании гипотезы значимости , то р -значение [примечание 1] является вероятностью получения результатов испытаний по крайней мере , столь же крайность , как результат действительно наблюдается , в предположении , что нулевая гипотеза верна. [2] [3] Очень маленькое значение p означает, что такой экстремальный наблюдаемый результат был бы очень маловероятным при нулевой гипотезе. Представление p- значений статистических тестов - обычная практика в академических публикациях многих количественных областей. Поскольку точное значение p -значения трудно понять, широко распространено неправильное использование.и была основной темой в метанауке . [4] [5]

Основные понятия [ править ]

В статистике каждая гипотеза относительно неизвестного распределения вероятностей набора случайных величин, представляющих наблюдаемые данные в каком-либо исследовании, называется статистической гипотезой . Если мы сформулируем только одну гипотезу и цель статистической проверки состоит в том, чтобы увидеть, является ли эта гипотеза разумной, но не в то же время, чтобы исследовать другие гипотезы, то такой тест называется тестом значимости . Обратите внимание, что гипотеза может точно определять распределение вероятностей или только указывать, что оно принадлежит какому-то классу распределений. Часто мы сводим данные к единой числовой статистике , предельное распределение вероятностей которой тесно связано с основным вопросом, представляющим интерес в исследовании.

Значение p используется в контексте проверки нулевой гипотезы для того, чтобы количественно оценить идею статистической значимости свидетельства, причем свидетельством является наблюдаемое значение выбранной статистики . [примечание 2] Проверка нулевой гипотезы - это довод до абсурда, адаптированный к статистике. По сути, иск считается действительным, если его встречный иск крайне неправдоподобен.

Таким образом, единственная гипотеза, которая должна быть уточнена в этом тесте и которая воплощает встречный иск, называется нулевой гипотезой ; то есть гипотеза должна быть аннулирована. Результат считается статистически значимым, если он позволяет нам отвергнуть нулевую гипотезу. Статистически значимый результат был маловероятным, если предположить, что нулевая гипотеза верна. Отказ от нулевой гипотезы означает, что правильная гипотеза заключается в логическом дополнении нулевой гипотезы. Но никаких конкретных альтернатив указывать не нужно. Отказ от нулевой гипотезы не говорит нам, какая из возможных альтернатив может быть лучше поддержана. Однако пользователь теста выбрал статистику теста.в первую очередь, вероятно, имея в виду определенные альтернативы; такой тест часто используется именно для того, чтобы убедить людей в жизнеспособности этих альтернатив, потому что то, что действительно наблюдалось, было крайне маловероятным при нулевой гипотезе.

В качестве конкретного примера, если нулевая гипотеза утверждает, что определенная сводная статистика следует стандартному нормальному распределению N (0,1), то отклонение этой нулевой гипотезы может означать, что (i) среднее не равно 0, или (ii) дисперсияне равно 1, или (iii) распределение не является нормальным. Различные тесты одной и той же нулевой гипотезы будут более или менее чувствительны к различным альтернативам. В любом случае, если нам удастся отвергнуть нулевую гипотезу, даже если мы знаем, что распределение является нормальным, а дисперсия равна 1, проверка нулевой гипотезы не скажет нам, какие ненулевые значения среднего теперь наиболее правдоподобны. Если у кого-то есть огромное количество независимых наблюдений с одним и тем же распределением вероятностей, он в конечном итоге сможет показать, что их среднее значение не точно равно нулю; но отклонение от нуля может быть настолько малым, что не представляет практического или научного интереса. При прочих равных условиях меньшие p-значения считаются более сильным доказательством против нулевой гипотезы.

Определение и толкование [ править ]

Общие [ править ]

Рассмотрим наблюдаемую статистику теста из неизвестного распределения . Тогда p -значение - это априорная вероятность наблюдения значения тестовой статистики, по крайней мере, столь же «экстремального», как если бы нулевая гипотеза была верной. Это:

  • для одностороннего теста правого хвоста,
  • для одностороннего теста с левым хвостом,
  • для двустороннего теста. Если распределение симметрично относительно нуля, то

Если значение p очень мало, то либо нулевая гипотеза неверна, либо произошло что-то маловероятное. В формальном тесте значимости нулевая гипотеза отклоняется, если значение p меньше заранее определенного порогового значения , которое называется альфа-уровнем или уровнем значимости . Значение вместо этого устанавливается исследователем , прежде чем рассматривать данные. По соглашению обычно устанавливается на 0,05, хотя иногда используются более низкие уровни альфа-канала.

Значение p является функцией выбранной статистики теста и, следовательно, является случайной величиной . Если нулевая гипотеза точно фиксирует распределение вероятностей , и если это распределение является непрерывным, тогда, когда нулевая гипотеза верна, значение p равномерно распределяется между 0 и 1. Таким образом, значение p не фиксировано. Если один и тот же тест повторяется независимо со свежими данными (всегда с одним и тем же распределением вероятностей), на каждой итерации будет получено другое значение p . Если нулевая гипотеза является составной или распределение статистики дискретно, вероятность получения p-значение меньше или равно любому числу от 0 до 1 меньше или равно этому числу, если нулевая гипотеза верна. Остается в силе, что очень маленькие значения относительно маловероятны, если нулевая гипотеза верна, и что проверка значимости на уровне получается путем отклонения нулевой гипотезы, если уровень значимости меньше или равен .

Различные p-значения, основанные на независимых наборах данных, можно комбинировать, например, используя комбинированный вероятностный тест Фишера .

Распространение [ править ]

Если нулевая гипотеза верна, если она принимает форму , и случайная величина , лежащая в основе непрерывна, то распределение вероятностей из р -значения является равномерным на интервале [0,1]. Напротив, если альтернативная гипотеза верна, распределение зависит от размера выборки и истинного значения изучаемого параметра. [6] [7]

Распределение p- значений для группы исследований иногда называют p- кривой. [8] На кривую влияют четыре фактора: доля исследований, в которых изучались ложные нулевые гипотезы, мощность исследований, в которых изучались ложные нулевые гипотезы, альфа-уровни и систематическая ошибка публикации . [9] р -кривый может быть использована для оценки надежности научной литературы, например, путем определения смещения публикации или р -hacking . [8] [10]

Для составной гипотезы [ править ]

В задачах параметрической проверки гипотез простая или точечная гипотеза относится к гипотезе, в которой предполагается, что значение параметра представляет собой одно число. Напротив, в сложной гипотезе значение параметра задается набором чисел. Например, при проверке нулевой гипотезы о том, что распределение является нормальным со средним значением, меньшим или равным нулю, по сравнению с альтернативой, что среднее значение больше нуля (известная дисперсия), нулевая гипотеза не определяет распределение вероятностей соответствующего теста. статистика. В только что упомянутом примере это будет Z- статистика, принадлежащая одностороннему одностороннему Z- тесту. Для каждого возможного значения теоретического среднего значение ZСтатистика -тест имеет другое распределение вероятностей. В этих обстоятельствах (случай так называемой составной нулевой гипотезы) p -значение определяется путем принятия наименее благоприятного случая нулевой гипотезы, который обычно находится на границе между нулевой и альтернативной.

Это определение обеспечивает взаимодополняемость p-значений и альфа-уровней. Если мы установим уровень значимости альфа равным 0,05 и отклоним нулевую гипотезу только в том случае, если значение p меньше или равно 0,05, тогда наша проверка гипотезы действительно будет иметь уровень значимости (максимальная частота ошибок типа 1) 0,05. Как писал Нейман: «Ошибка, которую практикующий статистик считает более важной, чтобы ее избежать (что является субъективным суждением), называется ошибкой первого рода. Первое требование математической теории - вывести такие критерии проверки, которые гарантировали бы, что вероятность совершения ошибки первого рода будет равна (или приблизительно равна, или не превышает) заранее заданному числу α, например α = 0,05 или 0,01. и т. д. Это число называется уровнем значимости »; Нейман 1976, стр. 161 в «Появление математической статистики:Исторический очерк с особым упором на Соединенные Штаты »,« Об истории статистики и вероятностей », изд. Д.Б. Оуэн, Нью-Йорк: Марсель Деккер, стр. 149–193. См. Также« Путаница в отношении мер доказательства »(стр.) Сравнение ошибок (а) в классическом статистическом тестировании », Раймонд Хаббард и М. Дж. Баярри, Американский статистик, август 2003 г., том 57, № 3, 171–182 (с обсуждением). Краткое современное утверждение см. В главе 10« Вся статистика: краткий курс статистических выводов », Springer; 1-е исправленное издание, 20-е издание (17 сентября 2004 г.). Ларри Вассерман.Путаница между мерами доказательности (p) и ошибками (a) в классическом статистическом тестировании », Раймонд Хаббард и MJ Bayarri, Американский статистик, август 2003 г., том 57, № 3, 171-182 (с обсуждением). Краткое современное утверждение см. в главе 10 книги «Вся статистика: краткий курс статистических выводов», Springer, 1-е исправленное издание 20-го издания (17 сентября 2004 г.), Ларри Вассерман.Путаница между мерами доказательности (p) и ошибками (a) в классическом статистическом тестировании », Раймонд Хаббард и MJ Bayarri, Американский статистик, август 2003 г., том 57, № 3, 171-182 (с обсуждением). Краткое современное утверждение см. в главе 10 книги «Вся статистика: краткий курс статистических выводов», Springer, 1-е исправленное издание 20-го издания (17 сентября 2004 г.), Ларри Вассерман.

Использование [ править ]

Значение p широко используется при статистической проверке гипотез , особенно при проверке значимости нулевых гипотез. В этом методе, как часть экспериментального плана , перед проведением эксперимента сначала выбирается модель ( нулевая гипотеза ) и пороговое значение для p , называемое уровнем значимости теста, традиционно 5% или 1% [11] и обозначается как α . Если значение p меньше выбранного уровня значимости ( α ), это говорит о том, что наблюдаемые данные достаточно несовместимы с нулевой гипотезой.и что нулевая гипотеза может быть отклонена. Однако это не доказывает, что проверенная гипотеза ложна. Когда р -значение правильно вычисляется, этот тест гарантирует , что частота появления ошибок типа I. составляет не более & alpha ; [ далее объяснение необходимости ] [ править ] . Для типичного анализа с использованием стандартного  отсечения α = 0,05 нулевая гипотеза отклоняется, если р <0,05, и не отклоняется, если р > 0,05. Значение p само по себе не поддерживает рассуждения о вероятностях гипотез, а является лишь инструментом для принятия решения, следует ли отвергать нулевую гипотезу.

Неправильное использование [ править ]

Согласно ASA , широко распространено мнение о том, что значения p часто неправильно используются и неверно интерпретируются. [3] Одна практика, которая подверглась особой критике, - это принятие альтернативной гипотезы для любого значения p, номинально меньшего 0,05, без других подтверждающих доказательств. Хотя p- значения помогают оценить, насколько данные несовместимы с определенной статистической моделью, необходимо также учитывать контекстуальные факторы, такие как «дизайн исследования, качество измерений, внешние свидетельства изучаемого явления, и обоснованность предположений, лежащих в основе анализа данных ". [3] Другая проблема заключается в том, что p-значение часто неправильно понимается как вероятность того, что нулевая гипотеза верна. [3] [12]

Некоторые статистики предложили заменить р -значения с альтернативными мерами доказательств, [3] , такие как доверительные интервалы , [13] [14] отношения правдоподобия , [15] [16] или байесовские факторы , [17] [18] [19] но есть жаркие споры о возможности этих альтернатив. [20] [21] Другие предложили удалить фиксированные пороги значимости и интерпретировать p-значения как непрерывные показатели силы свидетельств против нулевой гипотезы. [22] [23]Третьи предложили сообщать вместе с p-значениями априорную вероятность реального эффекта, который потребовался бы для получения ложноположительного риска (т. Е. Вероятность отсутствия реального эффекта) ниже заранее заданного порога (например, 5%). [24]

Расчет [ править ]

Обычно это тестовая статистика , а не какие-либо фактические наблюдения. Тестовая статистика - это результат скалярной функции всех наблюдений. Эта статистика предоставляет единое число, такое как среднее значение или коэффициент корреляции , которое суммирует характеристики данных в соответствии с конкретным запросом. Таким образом, статистика теста следует распределению, определяемому функцией, используемой для определения этой статистики теста, и распределения входных данных наблюдений.

Для важного случая, когда предполагается, что данные являются случайной выборкой из нормального распределения, в зависимости от природы тестовой статистики и интересующих гипотез о ее распределении, были разработаны различные тесты нулевой гипотезы. Некоторые из таких тестов - это z-тест для гипотез, касающихся среднего нормального распределения с известной дисперсией, t-тест, основанный на t-распределении Стьюдента подходящей статистики для гипотез, касающихся среднего нормального распределения, когда дисперсия неизвестна, F-тест на основе F-распределенияеще одной статистики для гипотез относительно дисперсии. Для данных другой природы, например категориальных (дискретных) данных, может быть построена тестовая статистика, распределение нулевой гипотезы которой основано на нормальных приближениях к соответствующей статистике, полученной путем применения центральной предельной теоремы для больших выборок, как в случае критерия Пирсона. квадратный тест .

Таким образом, для вычисления p- значения требуется нулевая гипотеза, тестовая статистика (вместе с решением, выполняет ли исследователь односторонний или двусторонний тест ) и данные. Несмотря на то, что вычисление тестовой статистики по заданным данным может быть простым, вычисление выборочного распределения при нулевой гипотезе, а затем вычисление его кумулятивной функции распределения (CDF) часто является сложной проблемой. Сегодня эти вычисления выполняются с использованием статистического программного обеспечения, часто с помощью числовых методов (а не точных формул), но в начале и середине 20-го века это вместо этого выполнялось с помощью таблиц значений и одного интерполированного или экстраполированного p-значения из этих дискретные значения [цитата необходима ]. Вместо того, чтобы использовать таблицуp-значений, Фишер вместо этого инвертировал CDF, опубликовав список значений тестовой статистики для заданных фиксированныхp-значений; это соответствует вычислениюфункции квантиля(обратный CDF).

Пример [ править ]

В качестве примера статистического теста, эксперимент проводится , чтобы определить , является ли подбрасывание монеты является справедливым (равной вероятностью посадки голов или хвостов) или несправедливо пристрастных (один результат с большей вероятностью , чем другие).

Предположим, что экспериментальные результаты показывают, что монета переворачивается орлом 14 раз из 20 общих подбрасываний. Полные данные будут представлять собой последовательность, в двадцать раз превышающую символ «H» или «T». Статистикой, на которой можно сосредоточиться, может быть общее количество голов. Нулевая гипотеза состоит в том, что монета честная и подбрасывания монеты не зависят друг от друга. Если рассматривается правосторонний тест, что может иметь место, если кто-то действительно интересуется возможностью того, что монета смещена в сторону падающей орла , тогда p- значение этого результата представляет собой шанс справедливой выпадения монеты орлом в не менее 14 раз из 20 сальто. Эта вероятность может быть вычислена из биномиальных коэффициентов как

Эта вероятность представляет собой p -значение, учитывая только крайние результаты, которые благоприятствуют орлам. Это называется односторонним тестом . Однако кого-то могут интересовать отклонения в любом направлении, отдавая предпочтение орлу или решке. Вместо этого может быть вычислено двустороннее значение p , которое учитывает отклонения в пользу орла или решки. Поскольку биномиальное распределение симметрично для честной монеты, двустороннее значение p просто вдвое больше, чем рассчитанное выше одностороннее значение p : двустороннее значение p равно 0,115.

В приведенном выше примере:

  • Нулевая гипотеза (H 0 ): монета справедливая, с вероятностью (орла) = 0,5.
  • Статистика теста: количество голов
  • Альфа-уровень (обозначенный порог значимости): 0,05
  • Наблюдение O: 14 решек из 20 сальто; а также
  • Двусторонний p -значение наблюдения O при H 0 = 2 * мин ( Вероятность (кол-во голов ≥ 14 голов), Вероятность (кол-во голов ≤ 14 голов)) = 2 * мин (0,058, 0,978) = 2 * 0,058 = 0,115.

Обратите внимание, что Prob (количество голов ≤ 14 голов) = 1 - Prob (количество голов ≥ 14 голов) + Prob (количество голов = 14) = 1 - 0,058 + 0,036 = 0,978; однако симметрия биномиального распределения делает ненужным вычисление для нахождения меньшей из двух вероятностей. Здесь рассчитанное значение p превышает 0,05, что означает, что данные попадают в диапазон того, что произошло бы в 95% случаев, если бы монета была действительно честной. Следовательно, нулевая гипотеза не отклоняется на уровне 0,05.

Однако, если бы была получена еще одна голова, результирующее значение p (двустороннее) было бы 0,0414 (4,14%), и в этом случае нулевая гипотеза была бы отклонена на уровне 0,05.

История [ править ]

Джон Арбетнот
Пьер-Симон Лаплас
Карл Пирсон
Рональд Фишер

Расчеты p- значений относятся к 1700-м годам, когда они были вычислены для соотношения полов человека при рождении и использовались для вычисления статистической значимости по сравнению с нулевой гипотезой о равной вероятности рождения мужского и женского пола. [25] Джон Арбетнот изучал этот вопрос в 1710 году, [26] [27] [28] [29] и изучал записи о рождении в Лондоне за каждый из 82 лет с 1629 по 1710 год. В каждом году количество мужчин, рожденных в Лондон превысил количество женщин. Если рассматривать большее количество мужских или женских рождений как равновероятные, вероятность наблюдаемого результата составляет 1/2 82 , или примерно 1 из 4 8360000000000000000000000; Говоря современным языком, p-значение. Это исчезающе мало, что приводит Арбетнота к тому, что это произошло не случайно, а по божественному провидению: «Отсюда следует, что правит искусство, а не случайность». Говоря современным языком, он отверг нулевую гипотезу о равной вероятности рождения мужского и женского пола при уровне значимости p  = 1/2 82 . Эта и другие работы Арбутнота считаются «… первым использованием критериев значимости…» [30], первым примером рассуждений о статистической значимости, [31] и «… возможно, первым опубликованным отчетом непараметрического теста …», [ 27], в частности, знаковый тест ; подробности см. в разделе «Проверка знаков» § История .

Позже к этому же вопросу обратился Пьер-Симон Лаплас , который вместо этого использовал параметрический тест, моделируя количество рождений мужского пола с биномиальным распределением : [32]

В 1770-х годах Лаплас считал статистику почти полумиллиона рождений. Статистика показала превышение количества мальчиков над девочками. Он пришел к выводу, вычислив p -значение, что превышение было реальным, но необъяснимым эффектом.

Р -значение был впервые официально представлен Карлом Пирсоном в его хи-квадрат тест Пирсона , [33] с использованием критерия хи-квадрат распределение и нотированы в качестве капитала П. [33] В р -значения для распределения хи-квадрат (для различные значения χ 2 и степеней свободы), теперь обозначаемые как P, были рассчитаны в ( Elderton 1902 ), собранные в ( Pearson 1914 , стр. xxxi – xxxiii, 26–28, таблица XII) .

Использование р -значения в статистике популяризировали Рональд Фишер , [34] [ полные цитаций ] и играет центральную роль в своем подходе к этому вопросу. [35] В своей влиятельной книге « Статистические методы для научных работников» (1925) Фишер предложил уровень p = 0,05, или вероятность случайного превышения 1 из 20, в качестве предела статистической значимости и применил его к нормальному распределению. (как двусторонний тест), что дает правило двух стандартных отклонений (при нормальном распределении) для статистической значимости (см. правило 68–95–99.7 ). [36] [примечание 3][37]

Затем он составил таблицу значений, аналогичную Элдертону, но, что важно, поменял роли χ 2 и p. То есть, вместо того, чтобы вычислять p для разных значений χ 2 (и степеней свободы n ), он вычислял значения χ 2, которые дают заданные значения p , а именно 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50. , 0,30, 0,20, 0,10, 0,05, 0,02 и 0,01. [38] Это позволяло сравнивать вычисленные значения χ 2 с порогами отсечения и поощряло использование p- значений (особенно 0,05, 0,02 и 0,01) в качестве пороговых значений вместо вычислений и отчетов.p -значения сами по себе. Таблицы того же типа были затем составлены в ( Fisher & Yates 1938 ), что закрепило этот подход. [37]

В качестве иллюстрации применения p- значений к планированию и интерпретации экспериментов в своей следующей книге « Планирование экспериментов» (1935) Фишер представил эксперимент с женщиной, дегустирующей чай [39], который является архетипическим примером p - значение.

Чтобы оценить утверждение женщины о том, что она ( Мюриэль Бристол ) могла различать по вкусу способ приготовления чая (сначала добавляя молоко в чашку, затем чай или сначала чай, затем молоко), ей последовательно предлагали 8 чашек: 4 приготовленных. в одном случае четверо приготовили другой и попросили определить приготовление каждой чашки (зная, что их было по четыре). В этом случае нулевая гипотеза заключалась в том, что у нее не было особых способностей, тест был точным тестом Фишера , а значение p было таким, что Фишер был готов отклонить нулевую гипотезу (считайте, что результат очень маловероятен, если это случайность), если все были классифицированы правильно. (В реальном эксперименте Бристоль правильно классифицировал все 8 чашек.)

Фишер повторил порог p = 0,05 и объяснил его обоснование, заявив: [40]

Для экспериментаторов обычно и удобно принимать 5% за стандартный уровень значимости в том смысле, что они готовы игнорировать все результаты, которые не соответствуют этому стандарту, и, таким образом, исключить из дальнейшего обсуждения более значимые результаты. часть колебаний, которые случайные причины внесли в их экспериментальные результаты.

Он также применяет этот порог к планированию экспериментов, отмечая, что если бы было представлено только 6 чашек (по 3 каждой), идеальная классификация дала бы только p- значение, которое не соответствовало бы этому уровню значимости. [40] Фишер также подчеркнул интерпретацию p, как долгосрочную долю значений, по крайней мере столь же экстремальных, как данные, при условии, что нулевая гипотеза верна.

В более поздних изданиях Фишер явно противопоставил использование p- значения для статистических выводов в науке методу Неймана – Пирсона, который он назвал «процедурами принятия». [41] Фишер подчеркивает, что, хотя фиксированные уровни, такие как 5%, 2% и 1%, удобны, можно использовать точное значение p , а сила доказательств может и будет пересмотрена в ходе дальнейших экспериментов. Напротив, процедуры принятия решений требуют четкого решения, приводящего к необратимым действиям, а процедура основана на стоимости ошибки, которая, как он утверждает, неприменима к научным исследованиям.

Связанные количества [ править ]

Тесно связанное с понятием является Е -значения , [42] , который является как ожидается числом раза в множественном тестировании , которые можно ожидать , чтобы получить тестовую статистику , по крайней мере , как крайние , как тот , который был фактически наблюдаемыми , если предположить , что нулевая гипотеза правда. E -value является произведением числа тестов и р -значение.

Д -значение является аналогом р -значение по отношению к положительной скорости ложного обнаружения . [43] Он используется при проверке нескольких гипотез для поддержания статистической мощности при минимальном количестве ложных срабатываний . [44]

См. Также [ править ]

  • Коррекция Бонферрони
  • Контрнулл
  • Метод Фишера объединения p- значений
  • Обобщенное p -значение
  • Метод Холма – Бонферрони
  • Множественные сравнения
  • p -rep
  • ошибка p- значения
  • Гармоническое среднее р -значение

Заметки [ править ]

  1. ^ Курсив, заглавные буквы и расстановка переносов в словах различаются. Например, в стиле AMA используется «значение P », в стиле APA - «значение p », а в Американской статистической ассоциации используется «значение p ». [1]
  2. ^ Статистическая значимость результата не означает, что результат также является значимым с научной точки зрения. Например, лекарство может иметь крошечный положительный эффект, но он может быть настолько незначительным, что не представляет медицинского или научного интереса. [ требуется разъяснение ]
  3. ^ Чтобы быть более конкретным, p = 0,05 соответствует примерно 1,96 стандартного отклонения для нормального распределения (двусторонний тест), а 2 стандартных отклонения соответствуют примерно 1 из 22 шансов быть превышенными случайно, или p ≈ 0,045; Фишер отмечает эти приближения.

Ссылки [ править ]

  1. ^ http://magazine.amstat.org/wp-content/uploads/STATTKadmin/style%5B1%5D.pdf
  2. ^ Ашванден, Кристи (2015-11-24). «Даже ученые не могут легко объяснить P-значения» . FiveThirtyEight . Архивировано из оригинального 25 сентября 2019 года . Проверено 11 октября 2019 года .
  3. ^ a b c d e Вассерштейн, Рональд Л .; Лазар, Николь А. (7 марта 2016 г.). «Заявление ASA о p-значениях: контекст, процесс и цель» . Американский статистик . 70 (2): 129–133. DOI : 10.1080 / 00031305.2016.1154108 .
  4. ^ Хаббард, Раймонд; Линдси, Р. Мюррей (2008). «Почему значения P не являются полезным показателем в тестировании статистической значимости». Теория и психология . 18 (1): 69–88. DOI : 10.1177 / 0959354307086923 .
  5. ^ Иоаннидис, Джон PA ; и другие. (Январь 2017 г.). «Манифест воспроизводимой науки» (PDF) . Природа человеческого поведения . 1 : 0021. DOI : 10.1038 / s41562-016-0021 . S2CID 6326747 .  
  6. ^ Бхаттачарья, Бхаскар; Habtzghi, DeSale (2002). «Медиана значения p согласно альтернативной гипотезе». Американский статистик . 56 (3): 202–6. DOI : 10,1198 / 000313002146 . S2CID 33812107 . 
  7. ^ Хунг, HMJ; О'Нил, RT; Bauer, P .; Кон, К. (1997). «Поведение p-значения, когда альтернативная гипотеза верна» . Биометрия (Представленная рукопись). 53 (1): 11–22. DOI : 10.2307 / 2533093 . JSTOR 2533093 . PMID 9147587 .  
  8. ^ a b Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD (2015). «Масштабы и последствия p-hacking в науке» . PLOS Biol . 13 (3): e1002106. DOI : 10.1371 / journal.pbio.1002106 . PMC 4359000 . PMID 25768323 .  
  9. ^ Lakens D (2015). «Как на самом деле выглядит p-hacking: комментарий к Masicampo and LaLande (2012)» . QJ Exp Psychol (Hove) . 68 (4): 829–32. DOI : 10.1080 / 17470218.2014.982664 . PMID 25484109 . 
  10. ^ Simonsohn U, Нельсон Л.Д., Симмонс JP (2014). «Кривая p и размер эффекта: исправление смещения публикации с использованием только значимых результатов». Perspect Psychol Sci . 9 (6): 666–81. DOI : 10.1177 / 1745691614553988 . PMID 26186117 . S2CID 39975518 .  
  11. ^ Nuzzo, R. (2014). «Научный метод: статистические ошибки» . Природа . 506 (7487): 150–152. Bibcode : 2014Natur.506..150N . DOI : 10.1038 / 506150a . PMID 24522584 . 
  12. ^ Колхаун, Дэвид (2014). «Расследование ложных открытий и неправильного толкования p-значений» . Королевское общество «Открытая наука» . 1 (3): 140216. arXiv : 1407.5296 . Bibcode : 2014RSOS .... 140216C . DOI : 10,1098 / rsos.140216 . PMC 4448847 . PMID 26064558 .  
  13. Ли, Донгю (7 марта 2017 г.). «Альтернативы значению P: доверительный интервал и величина эффекта» . Корейский журнал анестезиологии . 69 (6): 555–562. DOI : 10.4097 / kjae.2016.69.6.555 . ISSN 2005-6419 . PMC 5133225 . PMID 27924194 .   
  14. ^ Ranstam, J. (август 2012). «Почему культура P-значения плохая, а доверительные интервалы - лучшая альтернатива» (PDF) . Остеоартроз и хрящ . 20 (8): 805–808. DOI : 10.1016 / j.joca.2012.04.001 . PMID 22503814 .  
  15. ^ Perneger, Томас В. (12 мая 2001). «Просеивание доказательств: отношения правдоподобия являются альтернативой значениям P» . BMJ: Британский медицинский журнал . 322 (7295): 1184–5. DOI : 10.1136 / bmj.322.7295.1184 . ISSN 0959-8138 . PMC 1120301 . PMID 11379590 .   
  16. ^ Royall, Ричард (2004). «Парадигма правдоподобия для статистических данных». Природа научных доказательств . С. 119–152. DOI : 10,7208 / Чикагский / 9780226789583.003.0005 . ISBN 9780226789576.
  17. ^ Schimmack, Ulrich (30 апреля 2015). «Замена p-значений байесовскими факторами: чудо-лекарство от кризиса воспроизводимости в психологической науке» . Индекс воспроизводимости . Проверено 7 марта 2017 года .
  18. ^ Marden, John I. (декабрь 2000). «Проверка гипотез: от значений p до байесовских факторов». Журнал Американской статистической ассоциации . 95 (452): 1316–1320. DOI : 10.2307 / 2669779 . JSTOR 2669779 . 
  19. Стерн, Хэл С. (16 февраля 2016 г.). «Тест под любым другим названием: значения, байесовские факторы и статистический вывод» . Многомерное поведенческое исследование . 51 (1): 23–29. DOI : 10.1080 / 00273171.2015.1099032 . PMC 4809350 . PMID 26881954 .  
  20. ^ Murtaugh, Пол А. (март 2014). «В защиту р-ценностей» . Экология . 95 (3): 611–617. DOI : 10.1890 / 13-0590.1 . PMID 24804441 . 
  21. ^ Aschwanden, Christie (7 марта 2016). «Статистики обнаружили одну вещь, в которой они могут согласиться: пора перестать злоупотреблять P-значениями» . FiveThirtyEight .
  22. ^ Амрейн, Валентин ; Корнер-Нивергельт, Франци; Рот, Тобиас (2017). «Земля плоская (p> 0,05): пороги значимости и кризис необъяснимых исследований» . PeerJ . 5 : e3544. DOI : 10,7717 / peerj.3544 . PMC 5502092 . PMID 28698825 .  
  23. ^ Амрейн, Валентин ; Гренландия, Сандер (2017). «Удалите, а не переопределите статистическую значимость». Природа человеческого поведения . 2 (1): 0224. DOI : 10.1038 / s41562-017-0224-0 . PMID 30980046 . S2CID 46814177 .  
  24. ^ Colquhoun D (декабрь 2017). «p-значения» . Королевское общество «Открытая наука» . 4 (12): 171085. DOI : 10.1098 / rsos.171085 . PMC 5750014 . PMID 29308247 .  
  25. ^ Брайан, Эрик ; Джейссон, Мари (2007). «Физико-теология и математика (1710–1794)». Происхождение соотношения полов человека при рождении . Springer Science & Business Media. стр.  1 -25. ISBN 978-1-4020-6036-6.
  26. ^ Джон Арбетнот (1710). «Аргумент в пользу Божественного провидения, взятый из постоянной закономерности, наблюдаемой в рождении обоих полов» (PDF) . Философские труды Лондонского королевского общества . 27 (325–336): 186–190. DOI : 10,1098 / rstl.1710.0011 . S2CID 186209819 .  
  27. ^ a b Коновер, WJ (1999), «Глава 3.4: Знаковый тест», Практическая непараметрическая статистика (третье изд.), Wiley, стр. 157–176, ISBN 978-0-471-16068-7
  28. ^ Спрент, П. (1989), Прикладные непараметрические статистические методы (второе изд.), Chapman & Hall, ISBN 978-0-412-44980-2
  29. ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. С.  225–226 . ISBN 978-0-67440341-3.
  30. ^ Bellhouse, P. (2001), "Джон Арбутнот", в статистиках столетий ЦК Хейд и Е. Сенетами , Springer, стр. 39-42, ISBN 978-0-387-95329-8
  31. ^ Hald, Андерс (1998), «Глава 4. Случайность или Дизайн: Испытания Значения», История математической статистики с 1750 по 1930 , Wiley, стр. 65
  32. ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. п. 134 . ISBN 978-0-67440341-3.
  33. ^ а б Пирсон, Карл (1900). «По критерию, согласно которому данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно разумно предположить, что она возникла в результате случайной выборки» (PDF) . Философский журнал . Серия 5. 50 (302): 157–175. DOI : 10.1080 / 14786440009463897 .
  34. Перейти ↑ Inman 2004 .
  35. ^ Хаббард, Раймонд; Баярри, М.Дж. (2003), «Путаница в отношении показателей доказательности ( p ′ s) и ошибок (α ′) в классическом статистическом тестировании», The American Statistician , 57 (3): 171–178 [стр. 171], DOI : 10.1198 / 0003130031856
  36. ^ Фишер 1925 , стр. 47, Глава III. Распределения .
  37. ^ a b Даллал 2012 , Примечание 31: Почему P = 0,05? .
  38. Fisher, 1925 , стр. 78–79, 98, Глава IV. Тесты согласия, независимости и однородности; с таблицей χ 2 , таблицей III. Таблица χ 2 .
  39. ^ Фишер 1971 , II. Принципы экспериментирования, иллюстрируемые психофизическим экспериментом.
  40. ^ а б Фишер 1971 , Раздел 7. Проверка значимости.
  41. ^ Фишер 1971 , Раздел 12.1 Процедуры научного вывода и принятия.
  42. ^ Определение E-value Национальным институтом здравоохранения
  43. ^ Стори, Джон Д. (2003). «Положительный уровень ложных открытий: байесовская интерпретация и q-значение» . Летопись статистики . 31 (6): 2013–2035. DOI : 10.1214 / AOS / 1074290335 .
  44. ^ Стори, Джон Д; Тибширани, Роберт (2003). «Статистическая значимость для полногеномных исследований» . PNAS . 100 (16): 9440–9445. Bibcode : 2003PNAS..100.9440S . DOI : 10.1073 / pnas.1530509100 . PMC 170937 . PMID 12883005 .  

Дальнейшее чтение [ править ]

  • Лидия Денуорт, «Серьезная проблема: стандартные научные методы подвергаются критике. Изменится ли что-нибудь?», Scientific American , vol. 321, нет. 4 (октябрь 2019 г.), стр. 62–67. «Использование р значений в течение почти столетия [после 1925] для определения статистической значимости из экспериментальных результатов способствовало иллюзии определенности и [к] воспроизводимости кризисам во многих областях науки . Существует растущая решимость реформ статистического анализ ... Некоторые [исследователи] предлагают изменить статистические методы, в то время как другие отказались бы от порогового значения для определения «значимых» результатов ». (стр.63)
  • Элдертон, Уильям Пэйлин (1902). «Таблицы для проверки соответствия теории наблюдению» . Биометрика . 1 (2): 155–163. DOI : 10.1093 / Biomet / 1.2.155 .
  • Фишер, Рональд (1925). Статистические методы для научных работников . Эдинбург, Шотландия: Оливер и Бойд. ISBN 978-0-05-002170-5.
  • Фишер, Рональд А. (1971) [1935]. Дизайн экспериментов (9-е изд.). Макмиллан. ISBN 978-0-02-844690-5.
  • Фишер, РА; Йейтс, Ф. (1938). Статистические таблицы для биологических, сельскохозяйственных и медицинских исследований . Лондон, Англия.
  • Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Кембридж, Массачусетс: Belknap Press of Harvard University Press. ISBN 978-0-674-40340-6.
  • Хаббард, Раймонд; Армстронг, Дж. Скотт (2006). «Почему мы действительно не знаем, что означает статистическая значимость: последствия для преподавателей» (PDF) . Журнал маркетингового образования . 28 (2): 114–120. DOI : 10.1177 / 0273475306288399 . ЛВП : 2092/413 . Архивировано 18 мая 2006 года.CS1 maint: unfit URL (link)
  • Хаббард, Раймонд; Линдси, Р. Мюррей (2008). «Почему значения P не являются полезным показателем при тестировании статистической значимости» (PDF) . Теория и психология . 18 (1): 69–88. DOI : 10.1177 / 0959354307086923 . Архивировано из оригинального (PDF) 21 октября 2016 года . Проверено 28 августа 2015 .
  • Стиглер, С. (декабрь 2008 г.). «Фишер и 5% уровень» . Шанс . 21 (4): 12. DOI : 10.1007 / s00144-008-0033-3 .
  • Даллал, Джерард Э. (2012). Маленький справочник по статистической практике .
  • Биау, диджей; Джоллес, BM; Порчер, Р. (март 2010 г.). «Значение P и теория проверки гипотез: объяснение для новых исследователей» . Clin Orthop Relat Res . 463 (3): 885–892. DOI : 10.1007 / s11999-009-1164-4 . PMC  2816758 . PMID  19921345 .
  • Рейнхарт, Алекс (2015). Неправильная статистика: Ужасно полное руководство . Пресс без крахмала . п. 176. ISBN. 978-1593276201.

Внешние ссылки [ править ]

  • Бесплатные онлайн- калькуляторы p- значений для различных специфических тестов (хи-квадрат, F-тест Фишера и т. Д.).
  • Понимание p- значений , включая Java-апплет, который иллюстрирует, как числовые значения p- значений могут давать весьма вводящие в заблуждение впечатления об истинности или ложности проверяемой гипотезы.
  • StatQuest: Значения P, четко объясненные на YouTube
  • StatQuest: подводные камни P-value и расчеты мощности на YouTube
  • Наука не сломана - статья о том, как можно манипулировать p-значениями, и интерактивный инструмент для ее визуализации.