U- критерий Манна – Уитни

В статистике , то Манна-Уитни U тест (также называемый Манна-Уитни-Вилкоксона ( MWW ), Вилкоксона тест суммы рангов , или критерий Вилкоксона-Манна-Уитни ) является непараметрический тест на нулевой гипотезы , что для случайно выбранных значений X и Y из двух популяций, вероятность X составляет больше , чем Y равна вероятности Y , больший , чем X .

Аналогичный непараметрический критерий, используемый для зависимых выборок, - это знаковый ранговый критерий Уилкоксона .

Предположения и формальное изложение гипотез

Хотя Манн и Уитни ^[1] разработали U- критерий Манна – Уитни в предположении непрерывных ответов с альтернативной гипотезой о том, что одно распределение стохастически больше другого, существует множество других способов сформулировать нулевую и альтернативную гипотезы, так что U- тест Манна – Уитни является действительным. ^[2]

Очень общая формулировка предполагает, что:

Все наблюдения обеих групп независимы друг от друга,
Ответы, по крайней мере, порядковые (т. Е. Можно, по крайней мере, сказать, из любых двух наблюдений, что больше),
При нулевой гипотезе H ₀ распределения обеих популяций равны. ^[3]
Альтернативная гипотеза H ₁ состоит в том, что распределения не равны.

Согласно общей формулировке, тест является непротиворечивым только в том случае, если в H ₁ происходит следующее :

Вероятность того, что наблюдение из популяции X превышает наблюдение из популяции Y , отличается (больше или меньше), чем вероятность того, что наблюдение из Y превышает наблюдение из X; т.е. $P (X > Y) \neq P (Y > X)$ или $P (X > Y) + 0,5 \cdot P (X = Y) \neq 0,5$ .

При более строгих предположениях, чем в общей формулировке, приведенной выше, например, если предполагается, что отклики являются непрерывными, а альтернатива ограничена сдвигом местоположения, т.е. $F 1 (x) = F 2 (x + δ)$ , мы можем интерпретировать значимый U- критерий Манна – Уитни, показывающий разницу в медианах. При таком предположении о сдвиге местоположения мы также можем интерпретировать U- критерий Манна – Уитни как оценку того, отличается ли оценка Ходжеса – Лемана разницы в центральной тенденции между двумя популяциями от нуля. Оценка Ходжеса – Лемана для этой задачи с двумя выборками представляет собой медианное значение всех возможных различий между наблюдением в первой выборке и наблюдением во второй выборке.

В противном случае, если дисперсия и форма распределения обеих выборок различаются, U- критерий Манна-Уайти не проходит проверку медиан. Можно показать примеры, где медианы численно равны, а тест отвергает нулевую гипотезу с малым p-значением. ^[4] ^[5]

Манна-Уитни U / Уилкоксона тест суммы рангов тест не такой же , как Вилкоксона подписал -ранга испытание , хотя оба непараметрический и включают суммирование рангов. U- критерий Манна – Уитни применяется к независимым выборкам. Знаковый ранговый критерий Уилкоксона применяется к сопоставленным или зависимым выборкам.

Статистика U

Позволять ${\ Displaystyle X_ {1}, \ ldots, X_ {n}}$ быть образцом идентификатора из ${\ displaystyle X}$ , а также ${\ Displaystyle Y_ {1}, \ ldots, Y_ {m}}$ образец идентификатора из ${\ displaystyle Y}$ , и оба образца не зависят друг от друга. Соответствующая статистика U Манна-Уитни определяется как:

{\ displaystyle U = \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {m} S (X_ {i}, Y_ {j}),}

с участием

{\ Displaystyle S (X, Y) = {\ begin {case} 1, & {\ text {if}} Y X. \ end {case}}} ,>

Расчеты

Тест включает вычисление статистики , обычно называемой U , распределение которой при нулевой гипотезе известно. В случае небольших выборок распределение представлено в виде таблицы, но для размеров выборки более ~ 20 аппроксимация с использованием нормального распределения является довольно хорошей. В некоторых книгах приводится статистика, эквивалентная U , такая как сумма рангов в одной из выборок, а не сама U.

U- критерий Манна – Уитни включен в большинство современных статистических пакетов . Его также легко вычислить вручную, особенно для небольших образцов. Это можно сделать двумя способами.

Метод первый:

Для сравнения двух небольших наборов наблюдений прямой метод является быстрым и дает представление о значении статистики U , которая соответствует количеству побед во всех парных соревнованиях (см. Пример с черепахой и зайцем в разделе «Примеры» ниже). Для каждого наблюдения в одном наборе подсчитайте, сколько раз это первое значение побеждает любые наблюдения в другом наборе (другое значение проигрывает, если первое больше). Считайте 0,5 для любых ничьих. Сумма побед и ничьей равна U (т.е. ${\ displaystyle U_ {1}}$ ) для первого набора. U для другого набора обратное (т. Е .: ${\ displaystyle U_ {2}}$ ).

Метод второй:

Для образцов большего размера:

Присвойте числовые ранги всем наблюдениям (поместите наблюдения из обеих групп в один набор), начиная с 1 для наименьшего значения. Если есть группы связанных значений, присвойте ранг, равный средней точке нескорректированного ранжирования. Например, ранги $(3, 5, 5, 5, 5, 8)$ равны $(1, 3.5, 3.5, 3.5, 3.5, 6)$ (нескорректированный ранг будет $(1, 2, 3, 4, 5, 6 )$ ).
Теперь сложите ранги для наблюдений, полученных из выборки 1. Теперь определена сумма рангов в выборке 2, поскольку сумма всех рангов равна $N (N + 1) / 2,$ где N - общее количество наблюдений. .
Тогда U определяется по формуле: ^[6]

{\ Displaystyle U_ {1} = R_ {1} - {n_ {1} (n_ {1} +1) \ более 2} \, \!}

где n ₁ - размер выборки для выборки 1, а R ₁ - сумма рангов в выборке 1.

Обратите внимание , что это не имеет значения , какой из двух образцов рассматриваемого примера 1. В равной степени справедлива формула U является

{\ Displaystyle U_ {2} = R_ {2} - {n_ {2} (n_ {2} +1) \ более 2} \, \!}

Меньшее значение U ₁ и U ₂ используется при просмотре таблиц значимости. Сумма двух значений определяется выражением

{\ displaystyle U_ {1} + U_ {2} = R_ {1} - {n_ {1} (n_ {1} +1) \ over 2} + R_ {2} - {n_ {2} (n_ {2 } +1) \ более 2}. \, \!}

Зная, что

R 1 + R 2 = N (N + 1) / 2

и

N = n 1 + n 2

, и выполняя некоторую алгебру , мы находим, что сумма равна

U 1 + U 2 знак равно n 1 n 2

.

Характеристики

Максимальное значение U - это произведение размеров выборки для двух выборок (т. Е.: ${\ displaystyle U_ {i} = n_ {1} n_ {2}}$ ). В таком случае «другой» U будет равен 0.

Примеры

Иллюстрация методов расчета

Предположим, что Эзоп недоволен своим классическим экспериментом, в котором было обнаружено, что одна черепаха побила одного зайца в гонке, и решает провести тест значимости, чтобы выяснить, можно ли распространить результаты на черепах и зайцев в целом. Он собирает образец из 6 черепах и 6 зайцев и заставляет их всех участвовать в его гонке одновременно. Порядок, в котором они достигают финишной стойки (их ранжирование, от первого до последнего пересечения финишной черты), следующий: буква T означает черепаху, а H - заяц:

THHHHHTTTTTH

В чем ценность U ?

Используя прямой метод, мы берем каждую черепаху по очереди и подсчитываем количество зайцев, которых она бьет, получая 6, 1, 1, 1, 1, 1, что означает, что $U = 11$ . В качестве альтернативы мы могли бы взять каждого зайца по очереди и подсчитать, сколько черепах он бьет. В этом случае мы получаем 5, 5, 5, 5, 5, 0, поэтому U = 25. Обратите внимание, что сумма этих двух значений для $U = 36$ , что составляет $6 \times 6$ .
Косвенным методом:

ранжируйте животных по времени, необходимому для прохождения курса, поэтому дайте первому домашнему животному ранг 12, второму рангу 11 и так далее.

сумма рангов, полученных черепахами, составляет

12 + 6 + 5 + 4 + 3 + 2 = 32

.

Следовательно,

U = 32 - (6 \times 7) / 2 = 32 - 21 = 11

(аналогично первому методу).

сумма рангов, полученных зайцами, составляет

11 + 10 + 9 + 8 + 7 + 1 = 46

, что приводит к

U = 46 - 21 = 25

.

Пример отчета о результатах

Сообщая о результатах U- теста Манна – Уитни , важно указать:

Мера центральных тенденций двух групп (средние значения или медианы; поскольку U- критерий Манна-Уитни является порядковым критерием, обычно рекомендуются медианы)
Значение U (возможно, с некоторой мерой величины эффекта, такой как размер эффекта общепринятого языка или рангово-бисериальная корреляция ).
Размеры выборки
Уровень значимости.

На практике часть этой информации, возможно, уже была предоставлена, и следует руководствоваться здравым смыслом при принятии решения, следует ли ее повторять. Типичный отчет может быть запущен,

«Медиана латентности в группах E и C составляла 153 и 247 мс; распределения в двух группах значительно различались (Mann – Whitney

U = 10,5

,

n 1 = n 2 = 8

,

P <0,05

двусторонний)».

Заявление, которое полностью соответствует статистическому статусу теста, может выполняться,

«Результаты двух курсов лечения сравнивались с использованием двухвыборочного критерия суммы рангов Вилкоксона-Манна-Уитни. Эффект лечения (разница между видами лечения) оценивался количественно с использованием оценочного показателя Ходжеса-Лемана (HL), который согласуется с критерием Вилкоксона. . ^[7] Эта оценка (HLΔ) представляет собой медианное значение всех возможных различий в результатах между субъектом в группе B и субъектом в группе A. Непараметрический доверительный интервал 0,95 для HLΔ сопровождает эти оценки, как и ρ, оценка величины вероятность того, что случайно выбранный субъект из популяции B имеет более высокий вес, чем случайно выбранный субъект из популяции A. Средний вес [квартили] для субъектов, получающих лечение A и B, соответственно составляет 147 [121, 177] и 151 [130, 180] ] кг. Обработка A снизила вес на HLΔ = 5 кг (0,95 CL [2, 9] кг,

2 P = 0,02

,

ρ = 0,58

) ».

Однако редко можно найти столь развернутый отчет в документе, основной темой которого не является статистический вывод.

Нормальное приближение и исправление связи

Для больших выборок U имеет приблизительно нормальное распределение . В этом случае стандартизованное значение

{\ displaystyle z = {\ frac {U-m_ {U}} {\ sigma _ {U}}}, \,}

где m _U и σ _U - среднее и стандартное отклонение U , является приблизительно стандартным нормальным отклонением, значимость которого можно проверить в таблицах нормального распределения. m _U и σ _U задаются формулами

{\ displaystyle m_ {U} = {\ frac {n_ {1} n_ {2}} {2}}, \,}

^[8] и

{\ displaystyle \ sigma _ {U} = {\ sqrt {n_ {1} n_ {2} (n_ {1} + n_ {2} +1) \ более 12}}. \,}

^[8]

Формула стандартного отклонения усложняется при наличии равных рангов. При равенстве рангов σ следует скорректировать следующим образом:

{\ displaystyle \ sigma _ {\ text {corr}} = {\ sqrt {{n_ {1} n_ {2} \ over 12} \ left ((n + 1) - \ sum _ {i = 1} ^ { k} {{t_ {i}} ^ {3} -t_ {i} \ over n (n-1)} \ right)}} \,}

где $n = n 1 + n 2$ , t _i - количество субъектов, имеющих ранг i , а k - количество (различных) рангов.

Если количество стяжек невелико (и особенно если нет больших стяжек), при выполнении расчетов вручную их можно не учитывать. Пакеты компьютерной статистики будут использовать правильно скорректированную формулу в обычном порядке.

Следует отметить , что , так как $U 1 + U 2 = п 1 п 2$ , средней $п 1 п 2 /2$ , используемой в обычном приближении представляет собой среднее из двух значений U . Следовательно, вычисленное абсолютное значение статистики z будет таким же, какое бы значение U ни использовалось.

Размеры эффекта

Ученые часто рекомендуют сообщать величину эффекта для логического теста. ^[9]^[10]

Доля соответствия из всех пар

Следующие три меры эквивалентны.

Размер общеязыкового эффекта

Один из методов сообщения о величине эффекта для U- критерия Манна – Уитни - это f , размер общеязыкового эффекта. ^[11]^[12] В качестве статистического примера размер общеязыкового эффекта вычисляется путем формирования всех возможных пар между двумя группами, а затем определения доли пар, поддерживающих направление (скажем, элементы из группы 1 больше, чем элементы из группы 2). ^[12] Чтобы проиллюстрировать, в исследовании с выборкой из десяти зайцев и десяти черепах общее количество упорядоченных пар составляет десять раз по десять или 100 пар зайцев и черепах. Предположим, что результаты показывают, что заяц бежал быстрее черепахи в 90 из 100 пар выборки; в этом случае примерный размер эффекта общеязыкового общения составляет 90%. Это значение выборки является объективной оценкой значения генеральной совокупности, поэтому выборка предполагает, что наилучшая оценка величины эффекта общеязыкового общения в генеральной совокупности составляет 90%. ^[13]

Связь между f и U Манна – Уитни (в частности, ${\ displaystyle U_ {1}}$ ) составляет:

{\ displaystyle f = {U_ {1} \ over n_ {1} n_ {2}} \,}

Это то же самое, что и площадь под кривой (AUC) для кривой ROC ниже.

ρ статистика

Статистика под названием ρ, которая линейно связана с U и широко используется в исследованиях категоризации ( обучение дискриминации с использованием концепций ) и в других местах ^[14] , вычисляется путем деления U на максимальное значение для данного размера выборки, которое просто равно $n 1 \times п 2$ . Таким образом, ρ - непараметрическая мера перекрытия двух распределений; он может принимать значения от 0 до 1, и это оценка $P (Y > X) + 0,5 P (Y = X)$ , где X и Y - случайно выбранные наблюдения из двух распределений. Оба крайних значения представляют собой полное разделение распределений, в то время как р 0,5 представляет полное перекрытие. Полезность статистики ρ можно увидеть в случае нечетного примера, использованного выше, где два распределения, которые существенно различались по U- критерию Манна-Уитни, тем не менее, имели почти идентичные медианы: значение ρ в этом случае составляет примерно 0,723 в пользу зайцев, правильно отражая тот факт, что даже при том, что срединная черепаха побеждает срединного зайца, вместе взятые зайцы добились большего успеха, чем черепахи вместе взятые. ^{[ необходима цитата ]}

Статистика площади под кривой (AUC) для кривых ROC

U статистика эквивалентна площади под операционный приемником характеристической кривой ( AUC ) , который может быть легко вычислен. ^[15]^[16]

{\ displaystyle \ mathrm {AUC} _ {1} = {U_ {1} \ over n_ {1} n_ {2}}}

Обратите внимание, что это то же определение, что и размер общеязыкового эффекта из раздела выше. то есть: вероятность того, что классификатор оценит случайно выбранный положительный экземпляр выше, чем случайно выбранный отрицательный (при условии, что «положительный» рейтинг выше, чем «отрицательный»). ^[17]

Благодаря своей вероятностной форме, U- статистика может быть обобщена до меры разделительной способности классификатора для более чем двух классов: ^[18]

{\ displaystyle M = {1 \ over c (c-1)} \ sum \ mathrm {AUC} _ {k, \ ell}}

Где c - количество классов, а член R _{k , ℓ} AUC _{k , ℓ} рассматривает только ранжирование элементов, принадлежащих к классам k и ℓ (т. Е. Элементы, принадлежащие всем другим классам, игнорируются) в соответствии с оценками классификатора. вероятности принадлежности этих предметов к классу k . AUC _{k , k} всегда будет равно нулю, но, в отличие от случая с двумя классами, обычно $AUC k, ℓ \neq AUC ℓ, k$ , поэтому мера M суммируется по всем парам ( k , ℓ ), фактически используя среднее AUC _{k , ℓ} и AUC _{ℓ , k} .

Рангово-бисериальная корреляция

Метод сообщения величины эффекта для U- критерия Манна – Уитни основан на измерении ранговой корреляции, известной как ранговая бисериальная корреляция. Эдвард Кюретон представил и назвал меру. ^[19] Как и другие меры корреляции, ранг-бисериальная корреляция может варьироваться от минус единицы до плюс один, при этом значение нуля указывает на отсутствие связи.

Существует простая формула разности для вычисления рангово-бисериальной корреляции из величины эффекта общего языка: корреляция - это разница между долей пар, благоприятных для гипотезы ( f ), минус ее дополнение (то есть: пропорция, которая неблагоприятна ( u )). Эта простая формула различия представляет собой разницу в размере эффекта общего языка для каждой группы и выглядит следующим образом: ^[11]

{\ displaystyle r = fu}

Например, рассмотрим пример, когда зайцы бегают быстрее черепах в 90 парах из 100. Размер эффекта общего языка составляет 90%, поэтому ранг-бисериальная корреляция составляет 90% минус 10%, а ранг-бисериальная корреляция $r = 0,80$ .

Альтернативная формула для бисериала ранга может использоваться, чтобы вычислить его из U Манна – Уитни (либо ${\ displaystyle U_ {1}}$ или же ${\ displaystyle U_ {2}}$ ) и размер выборки каждой группы: ^[20]

{\ displaystyle r = f- (1-f) = 2f-1 = {2U_ {1} \ over n_ {1} n_ {2}} - 1 = 1- {2U_ {2} \ over n_ {1} n_ {2}}}

Эта формула полезна, когда данные недоступны, но есть опубликованный отчет, потому что U и размеры выборки обычно сообщаются. В приведенном выше примере с 90 парами, которые предпочитают зайцев, и 10 парами, которые предпочитают черепаху, U ₂ является меньшим из двух, поэтому $U 2 = 10$ . Затем эта формула дает $r = 1 - (2 \times 10) / (10 \times 10) = 0,80$ , что является тем же результатом, что и для простой формулы разности выше.

Отношение к другим тестам

Сравнение с t- критерием Стьюдента

U- критерий Манна – Уитни проверяет нулевую гипотезу о том, что вероятность того, что случайно полученное наблюдение из одной группы больше, чем случайно полученное наблюдение из другой, равна 0,5 против альтернативы, что эта вероятность не равна 0,5 (см. Манна-Уитни U test # Предположения и формальное изложение гипотез ). Напротив, t-тест проверяет нулевую гипотезу о равных средних в двух группах против альтернативы неравных средних. Следовательно, за исключением особых случаев, U-критерий Манна – Уитни и t-критерий не проверяют одни и те же гипотезы, и их следует сравнивать с этим.

Порядковые данные: U- критерий Манна – Уитни предпочтительнее t- критерия, когда данные являются порядковыми, но не масштабированы по интервалам, и в этом случае интервал между соседними значениями шкалы нельзя считать постоянным.
Надежность: При сравнении сумм рангов ^[21] U- критерий Манна – Уитни с меньшей вероятностью, чем t- критерий, ложно указывает на значимость из-за наличия выбросов . Однако U- критерий Манна-Уитни может иметь худший контроль ошибок типа I, когда данные одновременно гетероскедастичны и ненормальны. ^[22]
Эффективность: Когда нормальность сохраняется, U- критерий Манна – Уитни имеет (асимптотическую) эффективность 3 / $π$ или около 0,95 по сравнению с t- критерием. ^[23] Для распределений, достаточно далеких от нормального, и для достаточно больших размеров выборки U- критерий Манна – Уитни значительно более эффективен, чем t . ^[24] Это сравнение эффективности, однако, следует интерпретировать с осторожностью, поскольку Манна-Уитни и t-критерий не проверяют одни и те же величины. Если, например, основной интерес представляет разница средних значений группы, тест Манна-Уитни не подходит. ^[25]

U- критерий Манна – Уитни даст результаты, очень похожие на выполнение обычного параметрического двухвыборочного t- теста на ранжирование данных. ^[26]

Разные дистрибутивы

Если кто-то желает проверить стохастический порядок двух популяций (т. Е. Альтернативная гипотеза ${\ Displaystyle P (Y> X) + 0,5P (Y = X) \ neq 0,5}$ ), не предполагая, что формы распределений одинаковы (т. е. используя нулевую гипотезу ${\ Displaystyle P (Y> X) + 0,5P (Y = X) = 0,5}$ вместо ${\ displaystyle F_ {1} = F_ {2}}$ ) доступны лучшие тесты. Среди них тест Бруннера-Мюнцеля и Флиннера-Поличелло. ^{[27] В} частности, согласно более общей нулевой гипотезе ${\ Displaystyle P (Y> X) + 0,5P (Y = X) = 0,5}$ U- критерий Манна – Уитни привел к завышению количества ошибок типа даже в больших выборках, и эту проблему решают лучшие альтернативы. ^[28] В результате было предложено использовать одну из альтернатив (в частности, тест Бруннера-Мюнзеля), если нельзя предположить, что распределения равны при нулевой гипотезе. ^[28]

Альтернативы

Если кто-то хочет простую интерпретацию сдвига, U- критерий Манна – Уитни не следует использовать, когда распределения двух выборок сильно различаются, поскольку он может дать ошибочную интерпретацию значимых результатов. ^[29] В этой ситуации версия t- критерия с неравными дисперсиями может дать более надежные результаты.

Точно так же некоторые авторы (например, Conover ^{[ требуется полная ссылка ]} ) предлагают преобразовать данные в ранги (если они еще не ранжированы), а затем выполнить t -тест для преобразованных данных, версия используемого t- теста зависит от независимо от того, есть ли предположения о различиях в дисперсии населения. Преобразования рангов не сохраняют дисперсии, но дисперсии пересчитываются из выборок после преобразований рангов.

Тест Брауна – Форсайта был предложен в качестве подходящего непараметрического эквивалента F- теста для равных дисперсий. ^{[ необходима цитата ]}

Более мощный тест - это тест Бруннера-Мюнцеля , превосходящий U- тест Манна-Уитни в случае нарушения предположения об обмене. ^[30]

U- критерий Манна-Уитни является частным случаем модели пропорциональных шансов , допускающей ковариантную корректировку. ^[31]

См. Также тест Колмогорова – Смирнова .

Статистика связанных тестов

Тау Кендалла

U- критерий Манна – Уитни связан с рядом других непараметрических статистических процедур. Например, это эквивалентно коэффициенту корреляции тау Кендалла, если одна из переменных является двоичной (то есть может принимать только два значения). ^{[ необходима цитата ]}

Программные реализации

Во многих программных пакетах U- критерий Манна – Уитни (гипотезы равных распределений по сравнению с соответствующими альтернативами) плохо документирован. Некоторые пакеты неправильно обрабатывают связи или не могут задокументировать асимптотические методы (например, исправление непрерывности). В обзоре 2000 г. обсуждались некоторые из следующих пакетов: ^[32]

MATLAB имеет рейтинг в своей панели инструментов статистики.
Базовый пакет статистики R реализует тест wilcox.test в своем пакете "stats".
Пакет R WilcoxonZ вычислит статистику z для двухвыборочного, парного или одновыборочного теста Вилкоксона.
SAS реализует тест в своей процедуре PROC NPAR1WAY.
Python (язык программирования) имеет реализацию этого теста, предоставленную SciPy ^[33]
SigmaStat (SPSS Inc., Чикаго, Иллинойс)
SYSTAT (SPSS Inc., Чикаго, Иллинойс)
Java (язык программирования) имеет реализацию этого теста, предоставленную Apache Commons ^[34]
У Джулии (язык программирования) есть реализации этого теста в нескольких пакетах. В пакете HypothesisTests.jl он находится как pvalue (MannWhitneyUTest (X, Y)) ^[35]
JMP (SAS Institute Inc., Кэри, Северная Каролина)
S-Plus (MathSoft, Inc., Сиэтл, Вашингтон)
СТАТИСТИКА (StatSoft, Inc., Талса, ОК)
UNISTAT (Unistat Ltd, Лондон)
SPSS (SPSS Inc, Чикаго)
StatsDirect (StatsDirect Ltd, Манчестер, Великобритания) реализует все распространенные варианты .
Stata (Stata Corporation, Колледж-Стейшн, Техас) реализует тест в своей команде ranksum .
StatXact (Cytel Software Corporation, Кембридж, Массачусетс)
PSPP реализует тест в своей функции WILCOXON .

История

Статистика появилась в статье 1914 года ^[36] немца Густава Дойхлера (с пропущенным членом в дисперсии).

В единственной статье 1945 года Фрэнк Уилкоксон ^[37] предложил ^[37] как критерий ранжирования со знаком по одной выборке, так и двухвыборочный критерий суммы рангов в тесте значимости с нулевой гипотезой против ее дополнительной альтернативы (т. Е. не равный). Однако в этой статье он привел только несколько пунктов для случая равного размера выборки (хотя в более поздней статье он привел таблицы большего размера).

Тщательный анализ статистики, который включал в себя повторение , позволяющий вычисление хвостовых вероятностей для произвольных размеров выборки и таблицы для размеров выборки из восьми или менее появились , в статье Генри Манн и его ученик Дональд Ransom Уитни в 1947 году ^[1] This В статье обсуждались альтернативные гипотезы, в том числе стохастический порядок (когда кумулятивные функции распределения удовлетворяли поточечному неравенству $F X (t) < F Y (t)$ ). В этой статье также были вычислены первые четыре момента и установлена предельная нормальность статистики при нулевой гипотезе, таким образом установлено, что она асимптотически свободна от распределения.

Смотрите также

Лепаж тест
Тест Куккони
Тест Колмогорова – Смирнова
Знаковый ранговый тест Вилкоксона
Односторонний дисперсионный анализ Краскала – Уоллиса
Тест Бруннера-Мюнцеля
Модель пропорциональных шансов

Заметки

^ a b Манн, Генри Б .; Уитни, Дональд Р. (1947). «О проверке того, является ли одна из двух случайных величин стохастически большей, чем другая» . Анналы математической статистики . 18 (1): 50–60. DOI : 10.1214 / АОМ / 1177730491 . Руководство по ремонту 0022058 . Zbl 0041.26103 .
^ Фэй, Майкл П .; Прошан, Майкл А. (2010). «Уилкоксона – Манна – Уитни или t- критерий? На предположениях для проверки гипотез и множественной интерпретации правил принятия решений» . Статистические обзоры . 4 : 1–39. DOI : 10.1214 / 09-SS051 . Руководство по ремонту 2595125 . PMC 2857732 . PMID 20414472 .
^ [1] , см. Таблицу 2.1 Пратта (1964) «Устойчивость некоторых процедур для задачи размещения двух выборок». Журнал Американской статистической ассоциации. 59 (307): 655–680. Если два распределения являются нормальными с одним и тем же средним значением, но с разными дисперсиями, тогда Pr [X> Y] = Pr [Y Таким образом, мы не можем определить нулевую гипотезу как Pr [X> Y] = Pr [Y ]>],>
^ Божественное, Джордж У .; Нортон, Х. Джеймс; Барон, Анна Э .; Хуарес-Колунга, Элизабет (2018). «Процедура Уилкоксона-Манна-Уитни терпит неудачу как тест на медианы» . Американский статистик . 72 (3): 278–286. DOI : 10.1080 / 00031305.2017.1305291 . Проверено 24 мая 2021 года .
^ Конрой, Ронан (2012). «Какие гипотезы на самом деле проверяют« непараметрические »двухгрупповые тесты?» . Stata Journal . 12 (2): 182–190. DOI : 10.1177 / 1536867X1201200202 . Проверено 24 мая 2021 года .
^ Зар, Джеррольд Х. (1998). Биостатистический анализ . Нью-Джерси: Prentice Hall International, INC. Стр. 147. ISBN. 978-0-13-082390-8.
^ Майлз Холландер и Дуглас А. Вулф (1999). Непараметрические статистические методы (2-е изд.). Wiley-Interscience. ISBN 978-0471190455.CS1 maint: использует параметр авторов ( ссылка )
^ а б Сигал, Сидней. Непараметрическая статистика для наук о поведении . Макгроу-Хилл. п. 121.
^ Уилкинсон, Лиланд (1999). «Статистические методы в психологических журналах: рекомендации и пояснения». Американский психолог . 54 (8): 594–604. DOI : 10.1037 / 0003-066X.54.8.594 .
^ Накагава, Шиничи; Катхилл, Иннес С. (2007). «Размер эффекта, доверительный интервал и статистическая значимость: практическое руководство для биологов». Биологические обзоры Кембриджского философского общества . 82 (4): 591–605. DOI : 10.1111 / j.1469-185X.2007.00027.x . PMID 17944619 .
^ а б Керби, Д.С. (2014). «Формула простой разности: подход к обучению непараметрической корреляции». Комплексная психология . 3 : 11.IT.3.1. DOI : 10,2466 / 11.IT.3.1 .
^ а б Макгроу, нокаут; Вонг, Дж. Дж. (1992). «Общая статистика размера эффекта». Психологический бюллетень . 111 (2): 361–365. DOI : 10.1037 / 0033-2909.111.2.361 .
^ Гриссом Р.Дж. (1994). «Статистический анализ порядкового категориального статуса после терапии». Журнал консалтинговой и клинической психологии . 62 (2): 281–284. DOI : 10.1037 / 0022-006X.62.2.281 .
^ Herrnstein, Ричард Дж .; Loveland, Donald H .; Кабель, Синтия (1976). «Естественные представления у голубей». Журнал экспериментальной психологии: процессы поведения животных . 2 (4): 285–302. DOI : 10.1037 / 0097-7403.2.4.285 .
^ Хэнли, Джеймс А .; Макнил, Барбара Дж. (1982). «Значение и использование площади под характеристикой кривой работы приемника (ROC)». Радиология . 143 (1): 29–36. DOI : 10,1148 / radiology.143.1.7063747 . PMID 7063747 .
^ Мейсон, Саймон Дж .; Грэм, Николас Э. (2002). «Области ниже кривых относительных рабочих характеристик (ROC) и относительных рабочих уровней (ROL): статистическая значимость и интерпретация» (PDF) . Ежеквартальный журнал Королевского метеорологического общества . 128 (584): 2145–2166. Bibcode : 2002QJRMS.128.2145M . CiteSeerX 10.1.1.458.8392 . DOI : 10.1256 / 003590002320603584 .
^ Фосетт, Том (2006); Введение в анализ ROC , Письма о распознавании образов, 27, 861–874.
^ Рука, Дэвид Дж .; Тилль, Роберт Дж. (2001). «Простое обобщение площади под кривой ROC для задач классификации нескольких классов» . Машинное обучение . 45 (2): 171–186. DOI : 10,1023 / A: 1010920819831 .
^ Cureton, EE (1956). «Рангово-бисериальная корреляция». Психометрика . 21 (3): 287–290. DOI : 10.1007 / BF02289138 .
^ Wendt, HW (1972). «Решение общей проблемы в социальных науках: упрощенный ранг-бисериальный коэффициент корреляции, основанный на статистике U». Европейский журнал социальной психологии . 2 (4): 463–465. DOI : 10.1002 / ejsp.2420020412 .
^ Мотульский, Харви Дж .; Руководство по статистике , Сан-Диего, Калифорния: Программное обеспечение GraphPad, 2007 г., стр. 123
^ Циммерман, Дональд В. (1 января 1998 г.). «Признание недействительными параметрических и непараметрических статистических тестов одновременным нарушением двух предположений». Журнал экспериментального образования . 67 (1): 55–68. DOI : 10.1080 / 00220979809598344 . ISSN 0022-0973 .
^ Lehamnn, Эрих L .; Элементы теории больших выборок , Springer, 1999, с. 176
^ Коновер, Уильям Дж .; Практическая непараметрическая статистика , John Wiley & Sons, 1980 (2-е издание), стр. 225–226.
^ Ламли, Томас; Дир, Паула; Эмерсон, Скотт; Чен, Лу (май 2002 г.). «Важность предположения о нормальности в больших наборах данных общественного здравоохранения» . Ежегодный обзор общественного здравоохранения . 23 (1): 151–169. DOI : 10.1146 / annurev.publhealth.23.100901.140546 . ISSN 0163-7525 .
^ Коновер, Уильям Дж .; Иман, Рональд Л. (1981). «Ранговые преобразования как мост между параметрической и непараметрической статистикой». Американский статистик . 35 (3): 124–129. DOI : 10.2307 / 2683975 . JSTOR 2683975 .
^ Бруннер, Эдгар; Bathke, Arne C .; Конечке, Франк (2018). Ранговые и псевдоранговые процедуры для независимых наблюдений в факторных планах: Использование R и SAS . Серии Спрингера в статистике. Чам: Издательство Springer International. ISBN 978-3-030-02912-8.
^ а б Карч, Джулиан Д. (2021). «Психологи должны использовать U-критерий Бруннера-Мюнзеля вместо U-критерия Манна-Уитни в качестве стандартной непараметрической процедуры» . Достижения в методах и практиках психологической науки . 4 (2). DOI : 10.1177 / 2515245921999602 . ISSN 2515-2459 .
^ Касуя, Эйити (2001). «U-критерий Манна – Уитни, когда дисперсии неравны». Поведение животных . 61 (6): 1247–1249. DOI : 10.1006 / anbe.2001.1691 .
^ Карч, Джулиан (2021). «Психологи должны использовать U-критерий Бруннера-Мюнзеля вместо U-критерия Манна-Уитни в качестве стандартной непараметрической процедуры» . Журналы SAGE - Достижения в методах и практиках психологической науки . 4 (2). DOI : 10.1177 / 2515245921999602 .
^ Харрелл, Фрэнк. «Нарушение пропорциональной ставки не является фатальным» . Цитировать журнал требует |journal=( помощь )
^ Бергманн, Рейнхард; Ладбрук, Джон; Спурен, Уилл PJM (2000). «Различные результаты теста Вилкоксона – Манна – Уитни из разных статистических пакетов». Американский статистик . 54 (1): 72–77. DOI : 10.1080 / 00031305.2000.10474513 . JSTOR 2685616 .
^ "scipy.stats.mannwhitneyu" . Справочное руководство SciPy v0.16.0 . Сообщество Scipy. 24 июля 2015 . Проверено 11 сентября 2015 года . scipy.stats.mannwhitneyu (x, y, use_continuity = True): вычисляет ранговый критерий Манна – Уитни для выборок x и y.
^ "MannWhitneyUTest (API Apache Commons Math 3.3)" . commons.apache.org .
^ "JuliaStats / HypothesisTests.jl" . GitHub .
^ Крускал, Уильям Х. (сентябрь 1957 г.). «Исторические заметки о непарном двухвыборочном тесте Вилкоксона». Журнал Американской статистической ассоциации . 52 (279): 356–360. DOI : 10.2307 / 2280906 . JSTOR 2280906 .
^ Вилкоксон, Франк (1945). «Индивидуальные сравнения методами ранжирования». Бюллетень биометрии . 1 (6): 80–83. DOI : 10.2307 / 3001968 . hdl : 10338.dmlcz / 135688 . JSTOR 3001968 .

Внешние ссылки

Таблица критических значений U (pdf)
Интерактивный калькулятор для U и его значения
Краткое руководство экспериментального психолога Карла Л. Вюнша - Непараметрические оценки величины эффекта (Copyright 2015 by Karl L. Weunsch)

[mannwhitney1947-1] Манн, Генри Б .; Уитни, Дональд Р. (1947). «О проверке того, является ли одна из двух случайных величин стохастически большей, чем другая» . Анналы математической статистики . 18 (1): 50–60. DOI : 10.1214 / АОМ / 1177730491 . Руководство по ремонту 0022058 . Zbl 0041.26103 .

[2] Фэй, Майкл П .; Прошан, Майкл А. (2010). «Уилкоксона – Манна – Уитни или t- критерий? На предположениях для проверки гипотез и множественной интерпретации правил принятия решений» . Статистические обзоры . 4 : 1–39. DOI : 10.1214 / 09-SS051 . Руководство по ремонту 2595125 . PMC 2857732 . PMID 20414472 .

[3] [1] , см. Таблицу 2.1 Пратта (1964) «Устойчивость некоторых процедур для задачи размещения двух выборок». Журнал Американской статистической ассоциации. 59 (307): 655–680. Если два распределения являются нормальными с одним и тем же средним значением, но с разными дисперсиями, тогда Pr [X> Y] = Pr [Y Таким образом, мы не можем определить нулевую гипотезу как Pr [X> Y] = Pr [Y ]>],>

[4] Божественное, Джордж У .; Нортон, Х. Джеймс; Барон, Анна Э .; Хуарес-Колунга, Элизабет (2018). «Процедура Уилкоксона-Манна-Уитни терпит неудачу как тест на медианы» . Американский статистик . 72 (3): 278–286. DOI : 10.1080 / 00031305.2017.1305291 . Проверено 24 мая 2021 года .

[5] Конрой, Ронан (2012). «Какие гипотезы на самом деле проверяют« непараметрические »двухгрупповые тесты?» . Stata Journal . 12 (2): 182–190. DOI : 10.1177 / 1536867X1201200202 . Проверено 24 мая 2021 года .

[6] Зар, Джеррольд Х. (1998). Биостатистический анализ . Нью-Джерси: Prentice Hall International, INC. Стр. 147. ISBN. 978-0-13-082390-8.

[7] Майлз Холландер и Дуглас А. Вулф (1999). Непараметрические статистические методы (2-е изд.). Wiley-Interscience. ISBN 978-0471190455.CS1 maint: использует параметр авторов ( ссылка )

[auto-8] а б Сигал, Сидней. Непараметрическая статистика для наук о поведении . Макгроу-Хилл. п. 121.

[Wilkinson1999-9] Уилкинсон, Лиланд (1999). «Статистические методы в психологических журналах: рекомендации и пояснения». Американский психолог . 54 (8): 594–604. DOI : 10.1037 / 0003-066X.54.8.594 .

[Nakagawa2007-10] Накагава, Шиничи; Катхилл, Иннес С. (2007). «Размер эффекта, доверительный интервал и статистическая значимость: практическое руководство для биологов». Биологические обзоры Кембриджского философского общества . 82 (4): 591–605. DOI : 10.1111 / j.1469-185X.2007.00027.x . PMID 17944619 .

[Kerby2014-11] а б Керби, Д.С. (2014). «Формула простой разности: подход к обучению непараметрической корреляции». Комплексная психология . 3 : 11.IT.3.1. DOI : 10,2466 / 11.IT.3.1 .

[McGraw1992-12] а б Макгроу, нокаут; Вонг, Дж. Дж. (1992). «Общая статистика размера эффекта». Психологический бюллетень . 111 (2): 361–365. DOI : 10.1037 / 0033-2909.111.2.361 .

[13] Гриссом Р.Дж. (1994). «Статистический анализ порядкового категориального статуса после терапии». Журнал консалтинговой и клинической психологии . 62 (2): 281–284. DOI : 10.1037 / 0022-006X.62.2.281 .

[H1976-14] Herrnstein, Ричард Дж .; Loveland, Donald H .; Кабель, Синтия (1976). «Естественные представления у голубей». Журнал экспериментальной психологии: процессы поведения животных . 2 (4): 285–302. DOI : 10.1037 / 0097-7403.2.4.285 .

[Hanley-15] Хэнли, Джеймс А .; Макнил, Барбара Дж. (1982). «Значение и использование площади под характеристикой кривой работы приемника (ROC)». Радиология . 143 (1): 29–36. DOI : 10,1148 / radiology.143.1.7063747 . PMID 7063747 .

[Mason-16] Мейсон, Саймон Дж .; Грэм, Николас Э. (2002). «Области ниже кривых относительных рабочих характеристик (ROC) и относительных рабочих уровней (ROL): статистическая значимость и интерпретация» (PDF) . Ежеквартальный журнал Королевского метеорологического общества . 128 (584): 2145–2166. Bibcode : 2002QJRMS.128.2145M . CiteSeerX 10.1.1.458.8392 . DOI : 10.1256 / 003590002320603584 .

[fawcett-17] Фосетт, Том (2006); Введение в анализ ROC , Письма о распознавании образов, 27, 861–874.

[18] Рука, Дэвид Дж .; Тилль, Роберт Дж. (2001). «Простое обобщение площади под кривой ROC для задач классификации нескольких классов» . Машинное обучение . 45 (2): 171–186. DOI : 10,1023 / A: 1010920819831 .

[19] Cureton, EE (1956). «Рангово-бисериальная корреляция». Психометрика . 21 (3): 287–290. DOI : 10.1007 / BF02289138 .

[20] Wendt, HW (1972). «Решение общей проблемы в социальных науках: упрощенный ранг-бисериальный коэффициент корреляции, основанный на статистике U». Европейский журнал социальной психологии . 2 (4): 463–465. DOI : 10.1002 / ejsp.2420020412 .

[Motulsky_2007-21] Мотульский, Харви Дж .; Руководство по статистике , Сан-Диего, Калифорния: Программное обеспечение GraphPad, 2007 г., стр. 123

[22] Циммерман, Дональд В. (1 января 1998 г.). «Признание недействительными параметрических и непараметрических статистических тестов одновременным нарушением двух предположений». Журнал экспериментального образования . 67 (1): 55–68. DOI : 10.1080 / 00220979809598344 . ISSN 0022-0973 .

[Lehmann_1999-23] Lehamnn, Эрих L .; Элементы теории больших выборок , Springer, 1999, с. 176

[Conover_1980-24] Коновер, Уильям Дж .; Практическая непараметрическая статистика , John Wiley & Sons, 1980 (2-е издание), стр. 225–226.

[25] Ламли, Томас; Дир, Паула; Эмерсон, Скотт; Чен, Лу (май 2002 г.). «Важность предположения о нормальности в больших наборах данных общественного здравоохранения» . Ежегодный обзор общественного здравоохранения . 23 (1): 151–169. DOI : 10.1146 / annurev.publhealth.23.100901.140546 . ISSN 0163-7525 .

[26] Коновер, Уильям Дж .; Иман, Рональд Л. (1981). «Ранговые преобразования как мост между параметрической и непараметрической статистикой». Американский статистик . 35 (3): 124–129. DOI : 10.2307 / 2683975 . JSTOR 2683975 .

[27] Бруннер, Эдгар; Bathke, Arne C .; Конечке, Франк (2018). Ранговые и псевдоранговые процедуры для независимых наблюдений в факторных планах: Использование R и SAS . Серии Спрингера в статистике. Чам: Издательство Springer International. ISBN 978-3-030-02912-8.

[karch-28] а б Карч, Джулиан Д. (2021). «Психологи должны использовать U-критерий Бруннера-Мюнзеля вместо U-критерия Манна-Уитни в качестве стандартной непараметрической процедуры» . Достижения в методах и практиках психологической науки . 4 (2). DOI : 10.1177 / 2515245921999602 . ISSN 2515-2459 .

[29] Касуя, Эйити (2001). «U-критерий Манна – Уитни, когда дисперсии неравны». Поведение животных . 61 (6): 1247–1249. DOI : 10.1006 / anbe.2001.1691 .

[30] Карч, Джулиан (2021). «Психологи должны использовать U-критерий Бруннера-Мюнзеля вместо U-критерия Манна-Уитни в качестве стандартной непараметрической процедуры» . Журналы SAGE - Достижения в методах и практиках психологической науки . 4 (2). DOI : 10.1177 / 2515245921999602 .

[31] Харрелл, Фрэнк. «Нарушение пропорциональной ставки не является фатальным» . Цитировать журнал требует |journal=( помощь )

[32] Бергманн, Рейнхард; Ладбрук, Джон; Спурен, Уилл PJM (2000). «Различные результаты теста Вилкоксона – Манна – Уитни из разных статистических пакетов». Американский статистик . 54 (1): 72–77. DOI : 10.1080 / 00031305.2000.10474513 . JSTOR 2685616 .

[33] "scipy.stats.mannwhitneyu" . Справочное руководство SciPy v0.16.0 . Сообщество Scipy. 24 июля 2015 . Проверено 11 сентября 2015 года . scipy.stats.mannwhitneyu (x, y, use_continuity = True): вычисляет ранговый критерий Манна – Уитни для выборок x и y.

[34] "MannWhitneyUTest (API Apache Commons Math 3.3)" . commons.apache.org .

[35] "JuliaStats / HypothesisTests.jl" . GitHub .

[Kruskal57-36] Крускал, Уильям Х. (сентябрь 1957 г.). «Исторические заметки о непарном двухвыборочном тесте Вилкоксона». Журнал Американской статистической ассоциации . 52 (279): 356–360. DOI : 10.2307 / 2280906 . JSTOR 2280906 .

[wilcoxon1945-37] Вилкоксон, Франк (1945). «Индивидуальные сравнения методами ранжирования». Бюллетень биометрии . 1 (6): 80–83. DOI : 10.2307 / 3001968 . hdl : 10338.dmlcz / 135688 . JSTOR 3001968 .

[1]