Из Википедии, бесплатной энциклопедии
  (Перенаправлено из теста суммы рангов Вилкоксона )
Перейти к навигации Перейти к поиску

В статистике , то Манна-Уитни U тест (также называемый Манна-Уитни-Вилкоксона ( MWW ), Вилкоксона тест суммы рангов , или критерий Вилкоксона-Манна-Уитни ) является непараметрический тест на нулевой гипотезы , что для случайно выбранных значений X и Y из двух популяций, вероятность X составляет больше , чем Y равна вероятности Y , больший , чем  X .

Аналогичный непараметрический критерий, используемый для зависимых выборок, - это знаковый ранговый критерий Уилкоксона .

Предположения и формальное изложение гипотез [ править ]

Хотя Манн и Уитни [1] разработали U- критерий Манна – Уитни в предположении непрерывных ответов с альтернативной гипотезой о том, что одно распределение стохастически больше другого, существует множество других способов сформулировать нулевую и альтернативную гипотезы, так что U- тест Манна – Уитни является действительным. [2]

Очень общая формулировка предполагает, что:

  1. Все наблюдения обеих групп независимы друг от друга,
  2. Ответы, по крайней мере, порядковые (т. Е. Можно, по крайней мере, сказать, из любых двух наблюдений, что больше),
  3. При нулевой гипотезе H 0 распределения обеих популяций равны. [3]
  4. Альтернативная гипотеза H 1 состоит в том, что распределения не равны.

Согласно общей формулировке, тест является непротиворечивым только в том случае, если в H 1 происходит следующее :

  1. Вероятность того, что наблюдение из популяции X превышает наблюдение из популяции Y , отличается (больше или меньше), чем вероятность того, что наблюдение из Y превышает наблюдение из X; т.е. P ( X > Y ) ≠ P ( Y > X ) или P ( X > Y ) + 0,5 · P ( X = Y ) ≠ 0,5 .

При более строгих предположениях, чем в общей формулировке, приведенной выше, например, если предполагается, что отклики являются непрерывными, а альтернатива ограничена сдвигом местоположения, т.е. F 1 ( x ) = F 2 ( x + δ ) , мы можем интерпретировать значимый U- критерий Манна-Уитни, показывающий разницу в медианах. При таком предположении о сдвиге местоположения мы также можем интерпретировать U- критерий Манна – Уитни как оценку того, отличается ли оценка Ходжеса – Лемана разницы в центральной тенденции между двумя популяциями от нуля. Оценка Ходжеса – Лемана для этой двухвыборочной задачи - этомедиана всех возможных различий между наблюдением в первой выборке и наблюдением во второй выборке.

Манна-Уитни U / Уилкоксона тест суммы рангов тест не такой же , как Вилкоксона подписал -ранга испытание , хотя оба непараметрический и включают суммирование рангов. U- критерий Манна – Уитни применяется к независимым выборкам. Знаковый ранговый критерий Уилкоксона применяется к сопоставленным или зависимым выборкам.

Статистика U [ править ]

Пусть будет выборка iid из и выборка iid из , и обе выборки независимы друг от друга. Соответствующая статистика U Манна-Уитни определяется как:

с участием

Расчеты [ править ]

Тест включает вычисление статистики , обычно называемой U , распределение которой при нулевой гипотезе известно. В случае небольших выборок распределение представлено в виде таблицы, но для размеров выборки более ~ 20 аппроксимация с использованием нормального распределения является довольно хорошей. В некоторых книгах приводится статистика, эквивалентная U , такая как сумма рангов в одной из выборок, а не сама U.

U- критерий Манна – Уитни включен в большинство современных статистических пакетов . Его также легко вычислить вручную, особенно для небольших образцов. Это можно сделать двумя способами.

Метод первый:

Для сравнения двух небольших наборов наблюдений прямой метод является быстрым и дает представление о значении статистики U , которая соответствует количеству побед во всех парных соревнованиях (см. Пример с черепахой и зайцем в разделе «Примеры» ниже). Для каждого наблюдения в одном наборе подсчитайте, сколько раз это первое значение побеждает любые наблюдения в другом наборе (другое значение проигрывает, если первое больше). Считайте 0,5 для любых ничьих. Сумма побед и ничей в первом сете равна U (т. Е. ). U для другого набора - обратное (то есть:) .

Метод второй:

Для образцов большего размера:

  1. Присвойте числовые ранги всем наблюдениям (поместите наблюдения из обеих групп в один набор), начиная с 1 для наименьшего значения. Если есть группы связанных значений, присвойте ранг, равный средней точке нескорректированного ранжирования. Например, ранги (3, 5, 5, 5, 5, 8) равны (1, 3.5, 3.5, 3.5, 3.5, 6) (нескорректированный ранг будет (1, 2, 3, 4, 5, 6 ) ).
  2. Теперь сложите ранги для наблюдений, полученных из выборки 1. Сумма рангов в выборке 2 теперь определена, поскольку сумма всех рангов равна N ( N + 1) / 2, где N - общее количество наблюдений. .
  3. Тогда U определяется как: [4]
где n 1 - размер выборки для выборки 1, а R 1 - сумма рангов в выборке 1.
Обратите внимание, что не имеет значения, какая из двух выборок считается выборкой 1. В равной степени допустимая формула для U :
Меньшее значение U 1 и U 2 используется при просмотре таблиц значимости. Сумма двух значений определяется выражением
Зная, что R 1 + R 2 = N ( N + 1) / 2 и N = n 1 + n 2 , и выполняя некоторую алгебру , мы обнаруживаем, что сумма равна
U 1 + U 2 знак равно n 1 n 2 .

Свойства [ править ]

Максимальное значение U - это произведение размеров выборки для двух выборок (т. Е.:) . В таком случае «другой» U будет равен 0.

Примеры [ править ]

Иллюстрация методов расчета [ править ]

Предположим, что Эзоп недоволен своим классическим экспериментом, в котором было обнаружено, что одна черепаха побила одного зайца в гонке, и решает провести тест значимости, чтобы выяснить, можно ли распространить результаты на черепах и зайцев в целом. Он собирает образец из 6 черепах и 6 зайцев и заставляет их всех участвовать в его гонке одновременно. Порядок, в котором они достигают финишной стойки (их ранжирование, от первого до последнего пересечения финишной черты), следующий: буква T означает черепаху, а H - заяц:

THHHHHTTTTTH

Какое значение имеет U ?

  • Используя прямой метод, мы берем каждую черепаху по очереди и подсчитываем количество зайцев, которых она бьет, получая 6, 1, 1, 1, 1, 1, что означает, что U = 11 . В качестве альтернативы мы могли бы взять каждого зайца по очереди и подсчитать, сколько черепах он бьет. В этом случае мы получаем 5, 5, 5, 5, 5, 0, поэтому U = 25. Обратите внимание, что сумма этих двух значений для U = 36 , что составляет 6 × 6 .
  • Косвенным методом:
ранжируйте животных по времени, необходимому для прохождения курса, поэтому дайте первому домашнему животному ранг 12, второму рангу 11 и так далее.
сумма рангов, полученных черепахами, составляет 12 + 6 + 5 + 4 + 3 + 2 = 32 .
Следовательно, U = 32 - (6 × 7) / 2 = 32 - 21 = 11 (аналогично первому методу).
сумма рангов, полученных зайцами, составляет 11 + 10 + 9 + 8 + 7 + 1 = 46 , что приводит к U = 46 - 21 = 25 .

Пример отчета о результатах [ править ]

Сообщая о результатах U- теста Манна – Уитни , важно указать:

  • Мера центральных тенденций двух групп (средние значения или медианы; поскольку U- критерий Манна-Уитни является порядковым критерием, обычно рекомендуются медианы)
  • Значение U (возможно, с некоторой мерой величины эффекта, такой как размер эффекта общепринятого языка или рангово-бисериальная корреляция ).
  • Размеры выборки
  • Уровень значимости.

На практике часть этой информации, возможно, уже была предоставлена, и следует руководствоваться здравым смыслом при принятии решения, следует ли ее повторять. Типичный отчет может быть запущен,

«Медиана латентности в группах E и C составляла 153 и 247 мс; распределения в двух группах значительно различались (Mann – Whitney U = 10,5 , n 1 = n 2 = 8 , P <0,05 двусторонний)».

Заявление, которое полностью соответствует статистическому статусу теста, может выполняться,

«Результаты двух курсов лечения сравнивались с использованием двухвыборочного критерия суммы рангов Вилкоксона-Манна-Уитни. Эффект лечения (разница между видами лечения) оценивался количественно с использованием оценочного показателя Ходжеса-Лемана (HL), который согласуется с критерием Вилкоксона. . [5] Эта оценка (HLΔ) представляет собой медианное значение всех возможных различий в результатах между субъектом в группе B и субъектом в группе A. Непараметрический доверительный интервал 0,95 для HLΔ сопровождает эти оценки, как и ρ, оценка величины вероятность того, что случайно выбранный субъект из популяции B имеет более высокий вес, чем случайно выбранный субъект из популяции A. Средний вес [квартили] для субъектов, получающих лечение A и B, соответственно составляет 147 [121, 177] и 151 [130, 180] ] кг. Обработка A уменьшила вес на HLΔ = 5 кг (0,95 CL [2, 9] кг,2 P = 0,02 , ρ = 0,58 ) ".

Однако редко можно найти столь развернутый отчет в документе, основной темой которого не является статистический вывод.

Нормальное приближение и исправление связи [ править ]

Для больших выборок U имеет приблизительно нормальное распределение . В этом случае стандартизованное значение

где m U и σ U - среднее и стандартное отклонение U , является приблизительно стандартным нормальным отклонением, значимость которого можно проверить в таблицах нормального распределения. m U и σ U задаются формулами

[6] и
[6]

Формула для стандартного отклонения усложняется при наличии равных рангов. При равенстве рангов σ следует скорректировать следующим образом:

где n = n 1 + n 2 , t i - количество субъектов, имеющих ранг i , а k - количество (различных) рангов.

Если количество стяжек невелико (и особенно если нет больших стяжек), при выполнении расчетов вручную их можно не учитывать. Пакеты компьютерных статистических данных будут использовать правильно скорректированную формулу в обычном порядке.

Следует отметить , что , так как U 1 + U 2 = п 1 п 2 , средней п 1 п 2 /2 , используемой в обычном приближении представляет собой среднее из двух значений U . Следовательно, вычисленное абсолютное значение статистики z будет таким же, какое бы значение U ни использовалось.

Размеры эффектов [ править ]

Ученые часто рекомендуют сообщать величину эффекта для логического теста. [7] [8]

Доля соответствия среди всех пар [ править ]

Следующие три меры эквивалентны.

Размер общеязыкового эффекта [ править ]

Один из методов сообщения о величине эффекта для U- критерия Манна – Уитни - это f , размер общеязыкового эффекта. [9] [10] В качестве статистического примера размер общеязыкового эффекта вычисляется путем формирования всех возможных пар между двумя группами, а затем определения доли пар, поддерживающих направление (скажем, элементы из группы 1 больше, чем элементы из группы 2). [10]Для иллюстрации: в исследовании с выборкой из десяти зайцев и десяти черепах общее количество упорядоченных пар составляет десять раз по десять или 100 пар зайцев и черепах. Предположим, результаты показывают, что заяц бежал быстрее черепахи в 90 из 100 пар выборки; в этом случае примерный размер эффекта общеязыкового общения составляет 90%. Это значение выборки является непредвзятой оценкой значения совокупности, поэтому выборка предполагает, что наилучшая оценка величины эффекта общеязыкового общения в совокупности составляет 90%. [11]

Связь между f и U Манна – Уитни (в частности ) следующая:

Это то же самое, что и площадь под кривой (AUC) для кривой ROC ниже.

статистика ρ [ править ]

Статистика под названием ρ, которая линейно связана с U и широко используется в исследованиях категоризации ( обучение дискриминации с использованием концепций ) и в других местах [12] , вычисляется путем деления U на максимальное значение для данного размера выборки, которое просто равно n 1 × п 2 . Таким образом, ρ - непараметрическая мера перекрытия двух распределений; он может принимать значения от 0 до 1, и это оценка P ( Y > X ) + 0,5 P ( Y = X ) , где Xи Y - случайно выбранные наблюдения из двух распределений. Оба крайних значения представляют собой полное разделение распределений, в то время как р 0,5 представляет полное перекрытие. Полезность статистики ρ можно увидеть в случае нечетного примера, использованного выше, где два распределения, которые значительно различались по U- критерию Манна-Уитни, тем не менее, имели почти идентичные медианы: значение ρ в этом случае составляет примерно 0,723 в пользу зайцев, правильно отражая тот факт, что, хотя срединная черепаха побеждает срединного зайца, все вместе зайцы добились большего успеха, чем черепахи вместе взятые. [ необходима цитата ]

Статистика площади под кривой (AUC) для кривых ROC [ править ]

U статистика эквивалентна площади под операционный приемником характеристической кривой ( AUC ) , который может быть легко вычислен. [13] [14]

Обратите внимание, что это то же определение, что и размер общеязыкового эффекта из раздела выше. то есть: вероятность того, что классификатор оценит случайно выбранный положительный экземпляр выше, чем случайно выбранный отрицательный (при условии, что «положительный» рейтинг выше, чем «отрицательный»). [15]

Благодаря своей вероятностной форме, U- статистика может быть обобщена до меры разделительной способности классификатора для более чем двух классов: [16]

Где c - количество классов, а член R k , AUC k , рассматривает только ранжирование элементов, принадлежащих к классам k и (т. Е. Элементы, принадлежащие всем другим классам, игнорируются) в соответствии с оценками классификатора. вероятности принадлежности этих предметов к классу k . AUC k , k всегда будет равно нулю, но, в отличие от случая двух классов, обычно AUC k , ≠ AUC , k , поэтому мера M суммируется по всем ( k, ) пары, фактически используя среднее значение AUC k , и AUC , k .

Рангово-бисериальная корреляция [ править ]

Метод сообщения величины эффекта для U- критерия Манна – Уитни основан на измерении ранговой корреляции, известной как ранговая бисериальная корреляция. Эдвард Кюретон представил и назвал меру. [17] Как и другие корреляционные меры, ранговая бисериальная корреляция может варьироваться от минус единицы до плюс один, при этом значение нуля указывает на отсутствие связи.

There is a simple difference formula to compute the rank-biserial correlation from the common language effect size: the correlation is the difference between the proportion of pairs favorable to the hypothesis (f) minus its complement (i.e.: the proportion that is unfavorable (u)). This simple difference formula is just the difference of the common language effect size of each group, and is as follows:[9]

For example, consider the example where hares run faster than tortoises in 90 of 100 pairs. The common language effect size is 90%, so the rank-biserial correlation is 90% minus 10%, and the rank-biserial r = 0.80.

An alternative formula for the rank-biserial can be used to calculate it from the Mann–Whitney U (either or ) and the sample sizes of each group:[18]

This formula is useful when the data are not available, but when there is a published report, because U and the sample sizes are routinely reported. Using the example above with 90 pairs that favor the hares and 10 pairs that favor the tortoise, U2 is the smaller of the two, so U2 = 10. This formula then gives r = 1 – (2×10) / (10×10) = 0.80, which is the same result as with the simple difference formula above.

Relation to other tests[edit]

Comparison to Student's t-test[edit]

The Mann–Whitney U test tests a null hypothesis of that the probability that a randomly drawn observation from one group is larger than a randomly drawn observation from the other is equal to 0.5 against an alternative that this probability is not 0.5 (see Mann–Whitney U test#Assumptions and formal statement of hypotheses). In contrast, a t-test tests a null hypothesis of equal means in two groups against an alternative of unequal means. Hence, except in special cases, the Mann–Whitney U test and the t-test do not test the same hypotheses and should be compared with this in mind.

Ordinal data
The Mann–Whitney U test is preferable to the t-test when the data are ordinal but not interval scaled, in which case the spacing between adjacent values of the scale cannot be assumed to be constant.
Robustness
As it compares the sums of ranks,[19] the Mann–Whitney U test is less likely than the t-test to spuriously indicate significance because of the presence of outliers. However, the Mann-Whitney U test may have worse type I error control when data are both heteroschedastic and non-normal.[20]
Efficiency
When normality holds, the Mann–Whitney U test has an (asymptotic) efficiency of 3/π or about 0.95 when compared to the t-test.[21] For distributions sufficiently far from normal and for sufficiently large sample sizes, the Mann–Whitney U test is considerably more efficient than the t.[22] This comparison in efficiency, however, should be interpreted with caution, as Mann-Whitney and the t-test do not test the same quantities. If, for example, a difference of group means is of primary interest, Mann-Whitney is not an appropriate test.[23]

The Mann–Whitney U test will give very similar results to performing an ordinary parametric two-sample t-test on the rankings of the data.[24]

Different distributions[edit]

If one desires testing stochastic ordering of the two populations (i.e., the alternative hypothesis ), without assuming that the shapes of the distributions are the same (i.e., using the null hypothesis instead of ), better tests are available. Among those are the Brunner-Munzel and the Fligner–Policello test.[25] Specifically, under the more general null hypothesis , the Mann–Whitney U test has inflated type error rates even in large samples, a problem the better alternatives solve.[26] As a result, it has been suggested to use one of the alternatives (specifically the Brunner-Munzel test) if it cannot be assumed that the distributions are equal under the null hypothesis.[26]

Alternatives[edit]

If one desires a simple shift interpretation, the Mann–Whitney U test should not be used when the distributions of the two samples are very different, as it can give erroneous interpretation of significant results.[27] In that situation, the unequal variances version of the t-test may give more reliable results.

Similarly, some authors (e.g., Conover[full citation needed]) suggest transforming the data to ranks (if they are not already ranks) and then performing the t-test on the transformed data, the version of the t-test used depending on whether or not the population variances are suspected to be different. Rank transformations do not preserve variances, but variances are recomputed from samples after rank transformations.

The Brown–Forsythe test has been suggested as an appropriate non-parametric equivalent to the F-test for equal variances.[citation needed]

See also Kolmogorov–Smirnov test.

Related test statistics[edit]

Kendall's tau[edit]

The Mann–Whitney U test is related to a number of other non-parametric statistical procedures. For example, it is equivalent to Kendall's tau correlation coefficient if one of the variables is binary (that is, it can only take two values).[citation needed]

Software implementations[edit]

In many software packages, the Mann–Whitney U test (of the hypothesis of equal distributions against appropriate alternatives) has been poorly documented. Some packages incorrectly treat ties or fail to document asymptotic techniques (e.g., correction for continuity). A 2000 review discussed some of the following packages:[28]

  • MATLAB has ranksum in its Statistics Toolbox.
  • R's statistics base-package implements the test wilcox.test in its "stats" package.
  • The R package wilcoxonZ will calculate the z statistic for a Wilcoxon two-sample, paired, or one-sample test.
  • SAS implements the test in its PROC NPAR1WAY procedure.
  • Python (programming language) has an implementation of this test provided by SciPy[29]
  • SigmaStat (SPSS Inc., Chicago, IL)
  • SYSTAT (SPSS Inc., Chicago, IL)
  • Java (programming language) has an implementation of this test provided by Apache Commons[30]
  • Julia (programming language) has implementations of this test through several packages. In the package HypothesisTests.jl, this is found as pvalue(MannWhitneyUTest(X, Y))[31]
  • JMP (SAS Institute Inc., Cary, NC)
  • S-Plus (MathSoft, Inc., Seattle, WA)
  • STATISTICA (StatSoft, Inc., Tulsa, OK)
  • UNISTAT (Unistat Ltd, London)
  • SPSS (SPSS Inc, Chicago)
  • StatsDirect (StatsDirect Ltd, Manchester, UK) implements all common variants.
  • Stata (Stata Corporation, College Station, TX) implements the test in its ranksum command.
  • StatXact (Cytel Software Corporation, Cambridge, Massachusetts)
  • PSPP implements the test in its WILCOXON function.

History[edit]

The statistic appeared in a 1914 article[32] by the German Gustav Deuchler (with a missing term in the variance).

In a single paper in 1945, Frank Wilcoxon proposed [33] both the one-sample signed rank and the two-sample rank sum test, in a test of significance with a point null-hypothesis against its complementary alternative (that is, equal versus not equal). However, he only tabulated a few points for the equal-sample size case in that paper (though in a later paper he gave larger tables).

A thorough analysis of the statistic, which included a recurrence allowing the computation of tail probabilities for arbitrary sample sizes and tables for sample sizes of eight or less appeared in the article by Henry Mann and his student Donald Ransom Whitney in 1947.[1] This article discussed alternative hypotheses, including a stochastic ordering (where the cumulative distribution functions satisfied the pointwise inequality FX(t) < FY(t)). This paper also computed the first four moments and established the limiting normality of the statistic under the null hypothesis, so establishing that it is asymptotically distribution-free.

See also[edit]

  • Lepage test
  • Cucconi test
  • Kolmogorov–Smirnov test
  • Wilcoxon signed-rank test
  • Kruskal–Wallis one-way analysis of variance

Notes[edit]

  1. ^ a b Mann, Henry B.; Whitney, Donald R. (1947). "On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other". Annals of Mathematical Statistics. 18 (1): 50–60. doi:10.1214/aoms/1177730491. MR 0022058. Zbl 0041.26103.
  2. ^ Fay, Michael P.; Proschan, Michael A. (2010). "Wilcoxon–Mann–Whitney or t-test? On assumptions for hypothesis tests and multiple interpretations of decision rules". Statistics Surveys. 4: 1–39. doi:10.1214/09-SS051. MR 2595125. PMC 2857732. PMID 20414472.
  3. ^ [1], See Table 2.1 of Pratt (1964) "Robustness of Some Procedures for the Two-Sample Location Problem." Journal of the American Statistical Association. 59 (307): 655–680. If the two distributions are normal with the same mean but different variances, then Pr[ X>Y]=Pr[Y<X] but the size of the Mann-Whitney test can be larger than the nominal level. So we cannot define the null hypothesis as Pr[ X>Y]=Pr[Y<X] and get a valid test.
  4. ^ Zar, Jerrold H. (1998). Biostatistical Analysis. New Jersey: Prentice Hall International, INC. p. 147. ISBN 978-0-13-082390-8.
  5. ^ Myles Hollander and Douglas A. Wolfe (1999). Nonparametric Statistical Methods (2 ed.). Wiley-Interscience. ISBN 978-0471190455.CS1 maint: uses authors parameter (link)
  6. ^ a b Siegal, Sidney. Nonparametric statistics for the behavioral sciences. McGraw-Hill. p. 121.
  7. ^ Wilkinson, Leland (1999). "Statistical methods in psychology journals: Guidelines and explanations". American Psychologist. 54 (8): 594–604. doi:10.1037/0003-066X.54.8.594.
  8. ^ Nakagawa, Shinichi; Cuthill, Innes C (2007). "Effect size, confidence interval and statistical significance: a practical guide for biologists". Biological Reviews of the Cambridge Philosophical Society. 82 (4): 591–605. doi:10.1111/j.1469-185X.2007.00027.x. PMID 17944619.
  9. ^ a b Kerby, D.S. (2014). "The simple difference formula: An approach to teaching nonparametric correlation". Comprehensive Psychology. 3: 11.IT.3.1. doi:10.2466/11.IT.3.1.
  10. ^ a b McGraw, K.O.; Wong, J.J. (1992). "A common language effect size statistic". Psychological Bulletin. 111 (2): 361–365. doi:10.1037/0033-2909.111.2.361.
  11. ^ Grissom RJ (1994). "Statistical analysis of ordinal categorical status after therapies". Journal of Consulting and Clinical Psychology. 62 (2): 281–284. doi:10.1037/0022-006X.62.2.281.
  12. ^ Herrnstein, Richard J.; Loveland, Donald H.; Cable, Cynthia (1976). "Natural Concepts in Pigeons". Journal of Experimental Psychology: Animal Behavior Processes. 2 (4): 285–302. doi:10.1037/0097-7403.2.4.285.
  13. ^ Hanley, James A.; McNeil, Barbara J. (1982). "The Meaning and Use of the Area under a Receiver Operating (ROC) Curve Characteristic". Radiology. 143 (1): 29–36. doi:10.1148/radiology.143.1.7063747. PMID 7063747.
  14. ^ Mason, Simon J.; Graham, Nicholas E. (2002). "Areas beneath the relative operating characteristics (ROC) and relative operating levels (ROL) curves: Statistical significance and interpretation" (PDF). Quarterly Journal of the Royal Meteorological Society. 128 (584): 2145–2166. Bibcode:2002QJRMS.128.2145M. CiteSeerX 10.1.1.458.8392. doi:10.1256/003590002320603584.
  15. ^ Fawcett, Tom (2006); An introduction to ROC analysis, Pattern Recognition Letters, 27, 861–874.
  16. ^ Hand, David J.; Till, Robert J. (2001). "A Simple Generalisation of the Area Under the ROC Curve for Multiple Class Classification Problems". Machine Learning. 45 (2): 171–186. doi:10.1023/A:1010920819831.
  17. ^ Cureton, E.E. (1956). "Rank-biserial correlation". Psychometrika. 21 (3): 287–290. doi:10.1007/BF02289138.
  18. ^ Wendt, H.W. (1972). "Dealing with a common problem in social science: A simplified rank-biserial coefficient of correlation based on the U statistic". European Journal of Social Psychology. 2 (4): 463–465. doi:10.1002/ejsp.2420020412.
  19. ^ Motulsky, Harvey J.; Statistics Guide, San Diego, CA: GraphPad Software, 2007, p. 123
  20. ^ Zimmerman, Donald W. (1998-01-01). "Invalidation of Parametric and Nonparametric Statistical Tests by Concurrent Violation of Two Assumptions". The Journal of Experimental Education. 67 (1): 55–68. doi:10.1080/00220979809598344. ISSN 0022-0973.
  21. ^ Lehamnn, Erich L.; Elements of Large Sample Theory, Springer, 1999, p. 176
  22. ^ Conover, William J.; Practical Nonparametric Statistics, John Wiley & Sons, 1980 (2nd Edition), pp. 225–226
  23. ^ Lumley, Thomas; Diehr, Paula; Emerson, Scott; Chen, Lu (May 2002). "The Importance of the Normality Assumption in Large Public Health Data Sets". Annual Review of Public Health. 23 (1): 151–169. doi:10.1146/annurev.publhealth.23.100901.140546. ISSN 0163-7525.
  24. ^ Conover, William J.; Iman, Ronald L. (1981). "Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics". The American Statistician. 35 (3): 124–129. doi:10.2307/2683975. JSTOR 2683975.
  25. ^ Brunner, Edgar; Bathke, Arne C.; Konietschke, Frank (2018). Rank and pseudo-rank procedures for independent observations in factorial designs: Using R and SAS. Springer Series in Statistics. Cham: Springer International Publishing. ISBN 978-3-030-02912-8.
  26. ^ a b Karch, Julian D. (2021). "Psychologists Should Use Brunner-Munzel's Instead of Mann-Whitney's U Test as the Default Nonparametric Procedure". Advances in Methods and Practices in Psychological Science. 4 (2). doi:10.1177/2515245921999602. ISSN 2515-2459.
  27. ^ Kasuya, Eiiti (2001). "Mann–Whitney U test when variances are unequal". Animal Behaviour. 61 (6): 1247–1249. doi:10.1006/anbe.2001.1691.
  28. ^ Bergmann, Reinhard; Ludbrook, John; Spooren, Will P.J.M. (2000). "Different Outcomes of the Wilcoxon–Mann–Whitney Test from Different Statistics Packages". The American Statistician. 54 (1): 72–77. doi:10.1080/00031305.2000.10474513. JSTOR 2685616.
  29. ^ "scipy.stats.mannwhitneyu". SciPy v0.16.0 Reference Guide. The Scipy community. 24 July 2015. Retrieved 11 September 2015. scipy.stats.mannwhitneyu(x, y, use_continuity=True): Computes the Mann–Whitney rank test on samples x and y.
  30. ^ "MannWhitneyUTest (Apache Commons Math 3.3 API)". commons.apache.org.
  31. ^ "JuliaStats/HypothesisTests.jl". GitHub.
  32. ^ Kruskal, William H. (September 1957). "Historical Notes on the Wilcoxon Unpaired Two-Sample Test". Journal of the American Statistical Association. 52 (279): 356–360. doi:10.2307/2280906. JSTOR 2280906.
  33. ^ Wilcoxon, Frank (1945). "Individual comparisons by ranking methods". Biometrics Bulletin. 1 (6): 80–83. doi:10.2307/3001968. hdl:10338.dmlcz/135688. JSTOR 3001968.

References[edit]

  • Hettmansperger, T.P.; McKean, J.W. (1998). Robust nonparametric statistical methods. Kendall's Library of Statistics. 5 (First ed., rather than Taylor and Francis (2010) second ed.). London; New York: Edward Arnold; John Wiley and Sons, Inc. pp. xiv+467. ISBN 978-0-340-54937-7. MR 1604954.
  • Corder, G.W.; Foreman, D.I. (2014). Nonparametric Statistics: A Step-by-Step Approach. Wiley. ISBN 978-1118840313.
  • Hodges, J.L.; Lehmann, E.L. (1963). "Estimation of location based on ranks". Annals of Mathematical Statistics. 34 (2): 598–611. doi:10.1214/aoms/1177704172. JSTOR 2238406. MR 0152070. Zbl 0203.21105. PE euclid.aoms/1177704172.
  • Kerby, D.S. (2014). "The simple difference formula: An approach to teaching nonparametric correlation". Comprehensive Psychology. 3: 11.IT.3.1. doi:10.2466/11.IT.3.1.
  • Lehmann, Erich L. (2006). Nonparametrics: Statistical methods based on ranks. With the special assistance of H.J.M. D'Abrera (Reprinting of 1988 revision of 1975 Holden-Day ed.). New York: Springer. pp. xvi+463. ISBN 978-0-387-35212-1. MR 0395032.
  • Oja, Hannu (2010). Multivariate nonparametric methods with R: An approach based on spatial signs and ranks. Lecture Notes in Statistics. 199. New York: Springer. pp. xiv+232. doi:10.1007/978-1-4419-0468-3. ISBN 978-1-4419-0467-6. MR 2598854.
  • Sen, Pranab Kumar (December 1963). "On the estimation of relative potency in dilution(-direct) assays by distribution-free methods". Biometrics. 19 (4): 532–552. doi:10.2307/2527532. JSTOR 2527532. Zbl 0119.15604.

External links[edit]

  • Table of critical values of U (pdf)
  • Interactive calculator for U and its significance
  • Brief guide by experimental psychologist Karl L. Weunsch – Nonparametric effect size estimators (Copyright 2015 by Karl L. Weunsch)