Односторонний дисперсионный анализ Краскала – Уоллиса

Тест Крускала-Уоллиса по рангу, Крускала-Уоллиса Н тест ^[1] (названный в честь Уильяма Крускала и В. Аллен Wallis ) или односторонней ANOVA на ряды ^[1] является непараметрический метод для проверки того , образцы происходят из такое же распределение. ^[2]^[3]^[4] Он используется для сравнения двух или более независимых выборок равного или разного размера. Он расширяет U- критерий Манна – Уитни , который используется для сравнения только двух групп. Параметрическим эквивалентом критерия Краскела – Уоллиса является односторонний дисперсионный анализ. (ANOVA).

Значимый критерий Краскела – Уоллиса показывает, что по крайней мере один образец стохастически доминирует над другим образцом. Тест не определяет, где происходит это стохастическое доминирование или для скольких пар групп достигается стохастическое доминирование. Для анализа конкретных пар образцов для стохастического доминирования, тест Данна, ^[5] попарно Манна-Уитни тесты с коррекцией Бонферрони , ^[6] или более мощный , но менее известный Коновер-Иман тест ^[6] иногда используются.

Поскольку это непараметрический метод, тест Крускала – Уоллиса не предполагает нормального распределения остатков, в отличие от аналогичного одностороннего дисперсионного анализа. Если исследователь может сделать предположения об одинаковом масштабном распределении для всех групп, за исключением любых различий в медианах, то нулевая гипотеза состоит в том, что медианы всех групп равны, а альтернативная гипотеза состоит в том, что по крайней мере одна медиана популяции одной группы отличается от медианы популяции по крайней мере одной другой группы.

Методика

Сгруппируйте все данные из всех групп вместе; то есть ранжировать данные от 1 до N, игнорируя членство в группе. Присвойте любым связанным значениям среднее значение рангов, которые они получили бы, если бы не были связаны.
Статистика теста определяется по формуле:
${\ displaystyle H = (N-1) {\ frac {\ sum _ {i = 1} ^ {g} n_ {i} ({\ bar {r}} _ {i \ cdot} - {\ bar {r }}) ^ {2}} {\ sum _ {i = 1} ^ {g} \ sum _ {j = 1} ^ {n_ {i}} (r_ {ij} - {\ bar {r}}) ^ {2}}},}$ где:
- ${\ displaystyle N}$ общее количество наблюдений по всем группам
- ${\ displaystyle g}$ это количество групп
- ${\ displaystyle n_ {i}}$ количество наблюдений в группе ${\ displaystyle i}$
- ${\ displaystyle r_ {ij}}$ это ранг (среди всех наблюдений) наблюдения ${\ displaystyle j}$ из группы ${\ displaystyle i}$
- ${\ displaystyle {\ bar {r}} _ {i \ cdot} = {\ frac {\ sum _ {j = 1} ^ {n_ {i}} {r_ {ij}}} {n_ {i}}} }$ средний рейтинг всех наблюдений в группе ${\ displaystyle i}$
- ${\ displaystyle {\ bar {r}} = {\ tfrac {1} {2}} (N + 1)}$ это среднее значение всех ${\ displaystyle r_ {ij}}$ .
Если данные не содержат связей, знаменатель выражения для ${\ displaystyle H}$ точно ${\ Displaystyle (N-1) N (N + 1) / 12}$ а также ${\ displaystyle {\ bar {r}} = {\ tfrac {N + 1} {2}}}$ . Таким образом
${\ displaystyle {\ begin {align} H & = {\ frac {12} {N (N + 1)}} \ sum _ {i = 1} ^ {g} n_ {i} \ left ({\ bar {r }} _ {i \ cdot} - {\ frac {N + 1} {2}} \ right) ^ {2} \\ & = {\ frac {12} {N (N + 1)}} \ sum _ {i = 1} ^ {g} n_ {i} {\ bar {r}} _ {i \ cdot} ^ {2} - \ 3 (N + 1) \ end {выровнено}}}$
Последняя формула содержит только квадраты средних рангов.
Поправка на связи при использовании краткой формулы, описанной в предыдущем пункте, может быть сделана путем деления ${\ displaystyle H}$ от ${\ displaystyle 1 - {\ frac {\ sum _ {i = 1} ^ {G} (t_ {i} ^ {3} -t_ {i})} {N ^ {3} -N}}}$ , где G - количество группировок с разными связанными рангами, а t _i - количество связанных значений в группе i , которые связаны с определенным значением. Эта поправка обычно мало влияет на значение H, если нет большого количества связей.
Наконец, решение отклонить или нет нулевую гипотезу принимается путем сравнения ${\ displaystyle H}$ до критического значения ${\ displaystyle H_ {c}}$ полученный из таблицы или программного обеспечения для данного уровня значимости или альфа. Если ${\ displaystyle H}$ больше чем ${\ displaystyle H_ {c}}$ , нулевая гипотеза отклоняется. По возможности (нет связей, выборка не слишком большая) следует сравнить ${\ displaystyle H}$ до критического значения, полученного из точного распределения ${\ displaystyle H}$ . В противном случае распределение H можно аппроксимировать распределением хи-квадрат с g-1 степенями свободы. Если некоторые ${\ displaystyle n_ {i}}$ значения невелики (т.е. менее 5) точное распределение вероятностей из ${\ displaystyle H}$ может сильно отличаться от этого распределения хи-квадрат . Если доступна таблица распределения вероятностей хи-квадрат, критическое значение хи-квадрат, ${\ displaystyle \ chi _ {\ alpha: g-1} ^ {2}}$ , можно найти, введя в таблицу степень свободы g - 1 и просмотрев нужную значимость или альфа-уровень.
Если статистика незначительна, значит, нет доказательств стохастического доминирования между выборками. Однако, если тест является значимым, то по крайней мере один образец стохастически доминирует над другим образцом. Следовательно, исследователь может использовать выборочные контрасты между отдельными парами выборок или апостериорные тесты с использованием критерия Данна, который (1) правильно использует те же ранжирования, что и тест Краскела – Уоллиса, и (2) правильно использует объединенную дисперсию, подразумеваемую нулевым значением гипотезы теста Краскела – Уоллиса, чтобы определить, какие пары выборок существенно различаются. ^[5] При выполнении множественных сравнений или тестов частота ошибок типа I имеет тенденцию к завышению, что вызывает опасения по поводу множественных сравнений .

Таблицы точных вероятностей

Для вычисления точных вероятностей теста Краскала – Уоллиса требуется большой объем вычислительных ресурсов. Существующее программное обеспечение предоставляет точные вероятности только для размеров выборки менее 30 участников. Эти программы полагаются на асимптотическое приближение для больших размеров выборки.

Доступны точные значения вероятности для больших размеров выборки. Spurrier (2003) опубликовал точные таблицы вероятностей для выборок размером до 45 человек. ^[7] Мейер и Симан (2006) получили точные распределения вероятностей для выборок размером до 105 участников. ^[8]

Точное распределение ${\ displaystyle H}$

Choi et al. ^[9] сделали обзор двух методов, которые были разработаны для вычисления точного распределения ${\ displaystyle H}$ , предложил новое и сравнил точное распределение с приближением хи-квадрат.

Смотрите также

дальнейшее чтение

Дэниел, Уэйн В. (1990). «Односторонний дисперсионный анализ Краскала – Уоллиса по рангам» . Прикладная непараметрическая статистика (2-е изд.). Бостон: PWS-Kent. С. 226–234. ISBN 0-534-91976-6.

Внешние ссылки

Онлайн-версия теста

[Laerd-1] Тест Краскела – Уоллиса с использованием SPSS Statistics , Laerd Statistics

[2] Крускал; Уоллис (1952). «Использование рангов в однокритериальном дисперсионном анализе». Журнал Американской статистической ассоциации . 47 (260): 583–621. DOI : 10.1080 / 01621459.1952.10483441 .

[3] Кордер, Грегори У .; Форман, Дейл И. (2009). Непараметрическая статистика для нестатистиков . Хобокен: Джон Уайли и сыновья. стр. 99 -105. ISBN 9780470454619.

[4] Сигель; Кастеллан (1988). Непараметрическая статистика для поведенческих наук (второе изд.). Нью-Йорк: Макгроу – Хилл. ISBN 0070573573.

[Dunn-5] а ^б Данн, Олив Джин (1964). «Множественные сравнения с использованием ранговых сумм». Технометрика . 6 (3): 241–252. DOI : 10.2307 / 1266041 .

[Conover-6] а б Коновер, У. Джей; Иман, Рональд Л. (1979). «О процедурах множественных сравнений» (PDF) (Отчет). Лос-Аламосская научная лаборатория . Проверено 28 октября 2016 .

[7] Спурриер, Дж. Д. (2003). «О нулевом распределении статистики Краскела – Уоллиса». Журнал непараметрической статистики . 15 (6): 685–691. DOI : 10.1080 / 10485250310001634719 .

[8] Мейер; Моряк (апрель 2006 г.). «Расширенные таблицы критических значений для статистики H Краскела – Уоллиса». Документ представлен на ежегодном собрании Американской ассоциации исследований в области образования в Сан-Франциско .Таблицы критических значений и точные вероятности от Мейера и Симана доступны для загрузки по адресу http://faculty.virginia.edu/kruskal-wallis/ Архивировано 17 октября 2018 г. в Wayback Machine . Там же можно найти документ с описанием их работы.

[9] Вон Чхве, Чжэ Вон Ли, Мён-Хо Ха и Сын-Хо Кан (2003). "Алгоритм вычисления точного распределения теста Краскела-Уоллиса". Коммуникации в статистике - моделирование и вычисления (32, номер 4): 1029–1040. DOI : 10.1081 / SAC-120023876 .CS1 maint: несколько имен: список авторов ( ссылка )

[1]