Одно- и двусторонние тесты

Двусторонний тест применяется к нормальному распределению .

Односторонний тест , показывающий р -значение как размер одного хвоста.

В статистической проверке значимости , A односторонний тест и двусторонний тест альтернативные способы вычисления статистической значимости в виде параметра выведенного из набора данных, в терминах тестовой статистики . Двусторонний тест подходит, если оценочное значение больше или меньше определенного диапазона значений, например, может ли тестируемый набрать больше или меньше определенного диапазона баллов. Этот метод используется для нулевой гипотезытестирование, и если оценочное значение существует в критических областях, альтернативная гипотеза принимается вместо нулевой гипотезы. Односторонний тест подходит, если оценочное значение может отклоняться от эталонного значения только в одном направлении, влево или вправо, но не в обоих. Примером может быть то, производит ли машина более одного процента дефектной продукции. В этой ситуации, если оценочное значение существует в одной из односторонних критических областей, в зависимости от направления интереса (больше или меньше), альтернативная гипотеза принимается вместо нулевой гипотезы. Альтернативные названия бывают односторонними и двусторонними.тесты; термин "хвост" используется потому, что крайние части распределений, где наблюдения приводят к отклонению нулевой гипотезы, являются небольшими и часто "отходят" к нулю, как в нормальном распределении , окрашенном в желтый цвет или "колоколообразной кривой" изображен справа и окрашен в зеленый цвет.

Приложения [ править ]

Односторонние тесты используются для асимметричных распределений с одним хвостом, таких как распределение хи-квадрат , которое часто используется при измерении согласия , или для одной стороны распределения, имеющего два хвоста, например нормального распределения. распределение , которое является обычным при оценке местоположения; это соответствует указанию направления. Двусторонние тесты применимы только тогда, когда есть два хвоста, например, в нормальном распределении, и соответствуют рассмотрению значимого любого направления. ^[1]^[2]

В подходе Рональда Фишера , то нулевая гипотеза Н ₀ , будут отклонены , когда р -значение из тестовой статистики является достаточно экстремальным ( по отношению отношению тестовой статистики по распределению выборки ) , и , таким образом , судить вряд ли может быть результатом случайности. Обычно это делается путем сравнения полученного p-значения с заданным уровнем значимости, обозначенным значком , при вычислении статистической значимости параметра . В одностороннем тесте «крайний» определяется заранее как либо означающий «достаточно маленький», либо $\alpha$ означает «достаточно большие» - значения в обратном направлении считаются несущественными. Можно сообщить, что вероятность левого или правого хвоста в виде одностороннего p-значения, которое в конечном итоге соответствует направлению, в котором статистика теста отклоняется от H _0.^[3] В двустороннем тесте «крайний» означает: либо достаточно малыми, либо достаточно большими », и значения в любом направлении считаются значительными. ^[4] Для данной статистики теста существует один двусторонний тест и два односторонних теста, по одному для каждого направления. Если задан уровень значимости , критические области будут существовать на двух концах распределения с площадью $\alpha$ $\alpha /2$ каждый для двустороннего теста. В качестве альтернативы критическая область могла бы существовать исключительно на одном конце с площадью для одностороннего теста. Для заданного уровня значимости в двустороннем тесте для тестовой статистики соответствующие односторонние тесты для той же тестовой статистики будут считаться либо вдвое более значимыми (половина значения p ), если данные находятся в направлении, указанном тест, или не имеет значения вообще ( p -значение выше ), если данные направлены в направлении, противоположном критической области, указанной тестом. $\alpha$ $\alpha$

Например, если подбрасывать монету , проверка того, смещена ли она в сторону орла, является односторонним тестом, и получение данных «все решки» будет рассматриваться как очень значимое, в то время как получение данных «всех решек» не будет значимым при все ( p = 1). Напротив, проверка того, смещено ли оно в любом направлении, является двусторонним тестом, и оба варианта «все решки» или «все решки» будут рассматриваться как очень важные данные. В медицинском тестировании, в то время как обычно кто-то интересуется, приводит ли лечение к результатам, которые лучше, чем случайность, предлагая, таким образом, односторонний тест; хужеИсход также интересен для научной области, поэтому следует использовать двусторонний тест, который соответствует вместо того, чтобы проверять, приводит ли лечение к результатам, отличным от случайных, лучше или хуже. ^[5] В экспериментальном эксперименте с типичной женщиной, дегустирующей чай , Фишер проверял, была ли женщина, о которой идет речь, лучше, чем шанс различить два типа приготовления чая, а не то, отличается ли ее способность от случайности, и поэтому он использовал односторонний тест.

Пример подбрасывания монеты [ править ]

В монеты листать, то нулевая гипотеза представляет собой последовательность испытаний Бернулли с вероятностью 0,5, получая случайную величину X , который равен 1 для головок и 0 для хвостов, и общая тестовая статистика представляет собой выборочное среднее (числа головок) Если тестирование Для определения того, смещена ли монета в сторону орла, будет использоваться односторонний тест - только большое количество орлов будет иметь значение. В этом случае набор данных из пяти голов (Ч-В-Ч-Н) со средним выборочным значением 1 имеет шанс выпадения (5 последовательных переворотов с 2 исходами - ((1/2) ^ 5 = 1/32). и будет значимым (отклонение нулевой гипотезы), если тест будет проанализирован на уровне значимости ${\bar {X}}.$ $1/32=0.03125\approx 0.03$ $p\approx 0.03$ $\alpha =0.05$ (уровень значимости, соответствующий границе отсечения). Однако при проверке того, смещена ли монета в сторону орла или решки, будет использоваться двусторонний тест, и набор данных из пяти голов (выборочное среднее 1) будет таким же экстремальным, как и набор данных из пяти решек (выборочное среднее 0 ). В результате p -значение было бы, и оно не было бы значимым (не отвергая нулевую гипотезу), если бы тест был проанализирован на уровне значимости . $2/32=0.0625\approx 0.06$ $\alpha =0.05$

История [ править ]

p -значение распределения хи-квадрат для разного числа степеней свободы

Значение p было введено Карлом Пирсоном ^[6] в тесте хи-квадрат Пирсона , где он определил P (исходное обозначение) как вероятность того, что статистика будет на заданном уровне или выше. Это одностороннее определение, а распределение хи-квадрат асимметрично, принимает только положительные или нулевые значения и имеет только один хвост, верхний. Он измеряет степень соответствия данных теоретическому распределению, при этом ноль соответствует точному согласию с теоретическим распределением; р -Value таким образом меры , насколько вероятно подгонка была бы это плохо или хуже.

Нормальное распределение с двумя хвостами

Различие между одним хвостом и два хвостами испытаниями популяризировали Рональд Фишер в влиятельной книге Статистических метод для научных работников , ^[7] , где он применил его специально к нормальному распределению , которое является симметричным распределением с двумя равными хвостами. Нормальное распределение является общей мерой местоположения, а не критерием согласия, и имеет два хвоста, что соответствует оценке местоположения, находящейся выше или ниже теоретического местоположения (например, выборочное среднее значение по сравнению с теоретическим средним). В случае симметричного распределения, такого как нормальное распределение, одностороннее p- значение составляет ровно половину двустороннего p- значения: ^[7]

Некоторая путаница иногда вносится тем фактом, что в некоторых случаях мы хотим знать вероятность того, что отклонение, заведомо положительное, превысит наблюдаемое значение, тогда как в других случаях требуемая вероятность состоит в том, что отклонение, которое также часто бывает положительным и отрицательный, должен превышать наблюдаемое значение; последняя вероятность всегда вдвое меньше первой.
- Рональд Фишер , Статистические методы для научных работников

Фишер подчеркивал важность измерения хвоста - наблюдаемого значения тестовой статистики и все более экстремального - а не просто вероятности конкретного результата в своем «Плане экспериментов» (1935). ^[8] Он объясняет это тем, что конкретный набор данных может быть маловероятным (в нулевой гипотезе), но вероятны более экстремальные результаты, поэтому в этом свете конкретные, но не крайне маловероятные данные не должны считаться значимыми.

Специальные тесты [ править ]

Если тестовая статистика следует Стьюдента т -распределение в нулевой гипотезы - который является общим , где основной переменной следует за нормальное распределение с коэффициентом масштабирования неизвестно, то тест называется как один хвост или два-хвостатых т -test . Если тест выполняется с использованием фактического среднего и дисперсии генеральной совокупности, а не оценки по выборке, он будет называться односторонним или двусторонним Z- тестом .

В статистических таблицах для т и для Z обеспечивают критические значения для обеих одно- и двух хвостатых испытаний. То есть они предоставляют критические значения, которые отсекают всю область на одном или другом конце выборочного распределения, а также критические значения, которые отсекают области (половинного размера) на обоих концах выборочного распределения.

См. Также [ править ]

Тест парных различий , когда сравниваются два образца

Ссылки [ править ]

^ Mundry, R .; Фишер, Дж. (1998). «Использование статистических программ для непараметрических тестов небольших выборок часто приводит к неверным значениям P: примеры из поведения животных». Поведение животных . 56 (1): 256–259. DOI : 10.1006 / anbe.1998.0756 . PMID 9710485 .
^ Pillemer, DB (1991). «Односторонние и двусторонние проверки гипотез в современных исследованиях в области образования». Педагогический исследователь . 20 (9): 13–17. DOI : 10.3102 / 0013189X020009013 .
^ Современное введение в вероятность и статистику: понимание, почему и как . Деккинг, Мишель, 1946-. Лондон: Спрингер. 2005. стр. 389 -390. ISBN 9781852338961. OCLC 262680588 .CS1 maint: others (link)
^ Джон Э. Фройнд , (1984) Современная элементарная статистика , шестое издание. Зал Прентис. ISBN 0-13-593525-3 (Раздел « Выводы о средствах», глава «Тесты значимости», стр. 289.)
^ JM Bland, DG Bland (BMJ, 1994) Статистические заметки: Одно- и двусторонние тесты значимости
^ Пирсон, Карл (1900). «По критерию, согласно которому данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно разумно предположить, что она возникла в результате случайной выборки» (PDF) . Философский журнал . Серия 5. 50 (302): 157–175. DOI : 10.1080 / 14786440009463897 .
^ a b Фишер, Рональд (1925). Статистические методы для научных работников . Эдинбург: Оливер и Бойд. ISBN 0-05-002170-2.
^ Фишер, Рональд А. (1971) [1935]. Дизайн экспериментов (9-е изд.). Макмиллан. ISBN 0-02-844690-9.

[1] Mundry, R .; Фишер, Дж. (1998). «Использование статистических программ для непараметрических тестов небольших выборок часто приводит к неверным значениям P: примеры из поведения животных». Поведение животных . 56 (1): 256–259. DOI : 10.1006 / anbe.1998.0756 . PMID 9710485 .

[2] Pillemer, DB (1991). «Односторонние и двусторонние проверки гипотез в современных исследованиях в области образования». Педагогический исследователь . 20 (9): 13–17. DOI : 10.3102 / 0013189X020009013 .

[3] Современное введение в вероятность и статистику: понимание, почему и как . Деккинг, Мишель, 1946-. Лондон: Спрингер. 2005. стр. 389 -390. ISBN 9781852338961. OCLC 262680588 .CS1 maint: others (link)

[4] Джон Э. Фройнд , (1984) Современная элементарная статистика , шестое издание. Зал Прентис. ISBN 0-13-593525-3 (Раздел « Выводы о средствах», глава «Тесты значимости», стр. 289.)

[5] JM Bland, DG Bland (BMJ, 1994) Статистические заметки: Одно- и двусторонние тесты значимости

[6] Пирсон, Карл (1900). «По критерию, согласно которому данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно разумно предположить, что она возникла в результате случайной выборки» (PDF) . Философский журнал . Серия 5. 50 (302): 157–175. DOI : 10.1080 / 14786440009463897 .

[fisher-7] Фишер, Рональд (1925). Статистические методы для научных работников . Эдинбург: Оливер и Бойд. ISBN 0-05-002170-2.

[8] Фишер, Рональд А. (1971) [1935]. Дизайн экспериментов (9-е изд.). Макмиллан. ISBN 0-02-844690-9.

[1]