Корреляция рангов

В статистике , ранговая корреляция является одной из нескольких статистических данных, измерить Порядковую ассоциацию -The отношения между ранжированием различных порядковыми переменными или различных рейтингами одной и тем же переменным, где «рейтинг» является отнесением заказа этикеток «первым», " второй »,« третий »и т. д. для различных наблюдений за конкретной переменной. Коэффициент ранговой корреляции измеряет степень сходства между два ранжированием, и может быть использован для оценки значимости этого отношения между ними. Например, двумя распространенными непараметрическими методами значимости, использующими ранговую корреляцию, являются:U - критерий Манна – Уитни и знаковый ранговый критерий Вилкоксона .

Контекст [ править ]

Если, например, одна переменная является идентификатором программы студенческого баскетбола, а другая переменная - идентификатором программы студенческого футбола, можно проверить взаимосвязь между рейтингами в опросах двух типов программ: колледжи с более высоким рейтингом. рейтинговая баскетбольная программа имеет тенденцию иметь более высокий рейтинг футбольной программы? Коэффициент ранговой корреляции может измерить эту взаимосвязь, а мера значимости коэффициента ранговой корреляции может показать, является ли измеренная взаимосвязь достаточно малой, чтобы быть вероятным совпадением.

Если существует только одна переменная, идентичность футбольной программы колледжа, но она подлежит двум разным рейтингам в опросах (например, один тренерами и одним спортивными обозревателями), то сходство рейтингов двух разных опросов может быть измерено с помощью коэффициент ранговой корреляции.

В качестве другого примера, в таблице непредвиденных обстоятельств с низким доходом , средним доходом и высоким доходом в строке переменной и уровнем образования ( без средней школы , средней школы , университета - в переменной столбца) ^[1] ранговая корреляция измеряет взаимосвязь между доходом и уровнем образования.

Коэффициенты корреляции [ править ]

Некоторые из наиболее популярных статистических данных ранговой корреляции включают

Повышение коэффициента ранговой корреляции предполагает увеличение согласованности ранжирования. Коэффициент находится внутри интервала [−1, 1] и принимает значение:

1, если соответствие между двумя рейтингами идеальное; два рейтинга совпадают.
0, если рейтинги полностью независимы.
−1, если расхождение между двумя рейтингами полное; один рейтинг противоположен другому.

Вслед за Diaconis (1988) , ранжирование можно рассматривать как перестановки в виде множества объектов. Таким образом, мы можем рассматривать наблюдаемые рейтинги как данные, полученные, когда пространство выборки (отождествляется с) симметричной группой . Затем мы можем ввести метрику , превратив симметрическую группу в метрическое пространство . Разные метрики будут соответствовать разным ранговым корреляциям.

Общий коэффициент корреляции [ править ]

Кендалл 1970 ^[2] показал, что его (тау) и Спирмена (ро) являются частными случаями общего коэффициента корреляции. ${\ Displaystyle \ тау}$ ${\ displaystyle \ rho}$

Предположим, у нас есть набор объектов, которые рассматриваются в отношении двух свойств, представленных как и , образуя наборы значений и . Любой паре индивидов, скажем -й и -й, мы присваиваем -счет, обозначаемый , и -счет, обозначаемый . Единственное требование к этим функциям - они должны быть антисимметричными, поэтому и . (Обратите внимание, что, в частности, если .) Тогда обобщенный коэффициент корреляции определяется как ${\ displaystyle n}$ ${\ displaystyle x}$ ${\ displaystyle y}$ ${\ Displaystyle \ {х_ {я} \} _ {я \ leq п}}$ ${\ Displaystyle \ {у_ {я} \} _ {я \ leq п}}$ ${\ displaystyle i}$ ${\ displaystyle j}$ ${\ displaystyle x}$ ${\ displaystyle a_ {ij}}$ ${\ displaystyle y}$ ${\ displaystyle b_ {ij}}$ ${\ displaystyle a_ {ij} = - a_ {ji}}$ ${\ displaystyle b_ {ij} = - b_ {ji}}$ ${\ displaystyle a_ {ij} = b_ {ij} = 0}$ ${\ displaystyle i = j}$ ${\ displaystyle \ Gamma}$

{\ displaystyle \ Gamma = {\ frac {\ sum _ {i, j = 1} ^ {n} a_ {ij} b_ {ij}} {\ sqrt {\ sum _ {i, j = 1} ^ {n } a_ {ij} ^ {2} \ sum _ {i, j = 1} ^ {n} b_ {ij} ^ {2}}}}}

Эквивалентно, если все коэффициенты собраны в матрицы и , с и , то ${\ displaystyle A = (a_ {ij})}$ ${\ displaystyle B = (b_ {ij})}$ $A^{\textsf {T}}=-A$ $B^{\textsf {T}}=-B$

\Gamma ={\frac {\langle A,B\rangle _{\rm {F}}}{\|A\|_{\rm {F}}\|B\|_{\rm {F}}}}

где это Фробениус скалярное произведение и норма Фробениуса . В частности, общий коэффициент корреляции - это косинус угла между матрицами и . $\langle A,B\rangle _{\rm {F}}$ $\|A\|_{\rm {F}}={\sqrt {\langle A,A\rangle _{\rm {F}}}}$ $A$ $B$

Кендалл как частный случай $\tau$ [ править ]

Если , - ранги члена согласно -качество и -качество соответственно, то мы можем определить $r_{i}$ $s_{i}$ $i$ $x$ $y$

a_{ij}=\operatorname {sgn}(r_{j}-r_{i}),\quad b_{ij}=\operatorname {sgn}(s_{j}-s_{i}).

Сумма - это количество согласованных пар минус количество дискордантных пар (см. Коэффициент ранговой корреляции тау Кендалла ). Сумма просто , количество членов , как есть . Таким образом, в этом случае $\sum a_{ij}b_{ij}$ $\sum a_{ij}^{2}$ $n(n-1)/2$ $a_{ij}$ $\sum b_{ij}^{2}$

\Gamma ={\frac {2\,(({\text{number of concordant pairs}})-({\text{number of discordant pairs}}))}{n(n-1)}}={\text{Kendall's }}\tau

Спирмена как частный случай $\rho$ [ править ]

Если , - ранги члена согласно качеству и соответственно, мы можем просто определить $r_{i}$ $s_{i}$ $i$ $x$ $y$

a_{ij}=r_{j}-r_{i}

b_{ij}=s_{j}-s_{i}

Суммы и равны, так как и диапазон от до . Тогда у нас есть: $\sum a_{ij}^{2}$ $\sum b_{ij}^{2}$ $r_{i}$ $s_{i}$ $1$ $n$

\Gamma ={\frac {\sum (r_{j}-r_{i})(s_{j}-s_{i})}{\sum (r_{j}-r_{i})^{2}}}

сейчас же

{\begin{aligned}\sum _{i,j=1}^{n}(r_{j}-r_{i})(s_{j}-s_{i})&=\sum _{i=1}^{n}\sum _{j=1}^{n}r_{i}s_{i}+\sum _{i=1}^{n}\sum _{j=1}^{n}r_{j}s_{j}&-\sum _{i=1}^{n}\sum _{j=1}^{n}r_{i}s_{j}-\sum _{i=1}^{n}\sum _{j=1}^{n}r_{j}s_{i}\\&=2n\sum _{i=1}^{n}r_{i}s_{i}&-2\sum _{i=1}^{n}r_{i}\sum _{j=1}^{n}s_{j}\\&=2n\sum _{i=1}^{n}r_{i}s_{i}&-2({\frac {1}{2}}n(n+1))^{2}\\&=2n\sum _{i=1}^{n}r_{i}s_{i}-{\frac {1}{2}}n^{2}(n+1)^{2}\\\end{aligned}}

У нас также есть

S=\sum _{i=1}^{n}(r_{i}-s_{i})^{2}=2\sum r_{i}^{2}-2\sum r_{i}s_{i}

и поэтому

\sum (r_{j}-r_{i})(s_{j}-s_{i})=2n\sum r_{i}^{2}-{\frac {1}{2}}n^{2}(n+1)^{2}-nS

$\sum r_{i}^{2}$ сумма квадратов первых натуральных чисел равна . Таким образом, последнее уравнение сводится к $n$ ${\frac {1}{6}}n(n+1)(2n+1)$

\sum (r_{j}-r_{i})(s_{j}-s_{i})={\frac {1}{6}}n^{2}(n^{2}-1)-nS

Дальше

\sum (r_{j}-r_{i})^{2}=2n\sum r_{i}^{2}-2\sum r_{i}r_{j}

=2n\sum r_{i}^{2}-2(\sum r_{i})^{2}={\frac {1}{6}}n^{2}(n^{2}-1)

и, таким образом, подставляя в исходную формулу эти результаты, получаем

\Gamma _{R}=1-{\frac {6\sum d_{i}^{2}}{n^{3}-n}}

где разница между рангами. $d_{i}=r_{i}-s_{i},$

что и есть коэффициент ранговой корреляции Спирмена . $\rho$

Ранг-бисериальная корреляция [ править ]

Джин Гласс (1965) отметил, что бисериал ранга может быть получен из ранга Спирмена . «Можно вывести коэффициент, определенный на X, дихотомической переменной, и Y, ранжирующей переменной, которая оценивает ро Спирмена между X и Y так же, как бисериал r оценивает r Пирсона между двумя нормальными переменными» (стр. 91). Ранговая бисериальная корреляция была введена девятью годами ранее Эдвардом Кюртоном (1956) как мера ранговой корреляции, когда ранги делятся на две группы. $\rho$

Формула простой разности Керби [ править ]

Дэйв Керби (2014) рекомендовал бисериал рангов в качестве меры для ознакомления студентов с ранговой корреляцией, поскольку общую логику можно объяснить на вводном уровне. Бисериал рангов - это корреляция, используемая в U-тесте Манна – Уитни , методе, который обычно рассматривается во вводных курсах колледжей по статистике. Данные для этого теста состоят из двух групп; и для каждого члена группы результат оценивается для исследования в целом.

Керби показал, что эту ранговую корреляцию можно выразить двумя понятиями: процент данных, подтверждающих высказанную гипотезу, и процент данных, не подтверждающих ее. Формула простой разности Керби утверждает, что ранговая корреляция может быть выражена как разница между долей благоприятных доказательств ( f ) минус долей неблагоприятных доказательств ( u ).

r=f-u

Пример и интерпретация [ править ]

Чтобы проиллюстрировать вычисления, предположим, что тренер тренирует бегунов на длинные дистанции в течение одного месяца, используя два метода. В группе A 5 бегунов, а в группе B 4 бегуна. Заявленная гипотеза заключается в том, что метод А дает более быстрых бегунов. Гонка для оценки результатов показывает, что бегуны из группы A действительно бегают быстрее, имея следующие ранги: 1, 2, 3, 4 и 6. Таким образом, более медленные бегуны из группы B имеют ранги 5, 7, 8, и 9.

Анализ проводится по парам, определяемым как член одной группы по сравнению с членом другой группы. Например, самый быстрый бегун в исследовании входит в четыре пары: (1,5), (1,7), (1,8) и (1,9). Все четыре пары поддерживают гипотезу, потому что в каждой паре бегун из группы A быстрее бегуна из группы B. Всего насчитывается 20 пар, и 19 пар подтверждают гипотезу. Единственная пара, которая не поддерживает гипотезу, - это два бегуна с 5-м и 6-м рангами, потому что в этой паре бегун из группы B показал лучшее время. По формуле простой разности Керби 95% данных подтверждают гипотезу (19 из 20 пар), а 5% не подтверждают (1 из 20 пар), поэтому ранговая корреляция составляет r = 0,95 - 0,05 = 0,90 .

Максимальное значение корреляции r = 1, что означает, что 100% пар поддерживают гипотезу. Корреляция r = 0 показывает, что половина пар поддерживает гипотезу, а половина - нет; Другими словами, группы выборки не различаются по рангам, поэтому нет никаких доказательств того, что они происходят из двух разных популяций. Можно сказать, что величина эффекта r = 0 не описывает никакой связи между членством в группе и рангами членов.

Ссылки [ править ]

^ Краскал, Уильям Х. (1958). «Порядковые меры объединения». Журнал Американской статистической ассоциации . 53 (284): 814–861. DOI : 10.2307 / 2281954 . JSTOR 2281954 .
^ Кендалл, Морис G (1970). Методы ранговой корреляции (4-е изд.). Грифон. ISBN 9780852641996.

Дальнейшее чтение [ править ]

Кюретон, Эдвард Э. (1956). «Рангово-бисериальная корреляция». Психометрика . 21 (3): 287–290. DOI : 10.1007 / BF02289138 .
Эверит, BS (2002), Кембриджский статистический словарь , Кембридж: Cambridge University Press, ISBN 0-521-81099-X
Диаконис П. (1988), Групповые представления в вероятностях и статистике , Серия лекций-монографий, Хейворд, Калифорния: Институт математической статистики, ISBN 0-940600-14-5
Гласс, Джин В. (1965). «Аналог ранжирующей переменной бисериальной корреляции: значение для краткого анализа элементов». Журнал педагогических измерений . 2 (1): 91–95. DOI : 10.1111 / j.1745-3984.1965.tb00396.x .
Кендалл, MG (1970), Методы ранговой корреляции , Лондон: Griffin, ISBN 0-85264-199-0
Керби, Дэйв С. (2014). «Формула простой разности: подход к обучению непараметрической корреляции» . Комплексная психология . 3 (1). DOI : 10,2466 / 11.IT.3.1 .

Внешние ссылки [ править ]

Краткое руководство экспериментального психолога Карла Л. Вюнша - Непараметрические размеры эффекта (Copyright 2015 by Karl L. Weunsch)

[1] Краскал, Уильям Х. (1958). «Порядковые меры объединения». Журнал Американской статистической ассоциации . 53 (284): 814–861. DOI : 10.2307 / 2281954 . JSTOR 2281954 .

[kendall1970-2] Кендалл, Морис G (1970). Методы ранговой корреляции (4-е изд.). Грифон. ISBN 9780852641996.

[1]