Коэффициент ранговой корреляции Кендалла

В статистике , то коэффициент ранговой корреляции Кендалла , обычно называют т коэффициента Кендалла (после греческой буквы т , тау), является статистика используется для измерения порядковой связи между двумя измеряемыми величинами. Тест τ - это непараметрический тест гипотезы для статистической зависимости, основанный на коэффициенте τ.

Это мера ранговой корреляции : сходство порядка данных при ранжировании по каждой из величин. Он назван в честь Мориса Кендалла , который разработал его в 1938 году ^[1], хотя Густав Фехнер предложил аналогичную меру в контексте временных рядов в 1897 году ^[2].

Интуитивно корреляция Кендалла между двумя переменными будет высокой, когда наблюдения имеют одинаковый (или идентичный для корреляции 1) ранг (т. Е. Метку относительного положения наблюдений внутри переменной: 1-й, 2-й, 3-й и т. Д.) Между двумя. переменные и низкий, когда наблюдения имеют разный (или полностью различающийся при корреляции -1) ранг между двумя переменными.

Оба Кендалла ${\ Displaystyle \ тау}$ и Спирмена ${\ displaystyle \ rho}$ можно сформулировать как частные случаи более общего коэффициента корреляции .

Определение

Все точки в серой области согласованы, а все точки в белой области не согласуются с точкой.

{\ displaystyle (X_ {1}, Y_ {1})}

. С участием

{\ displaystyle n = 30}

очков, всего

{\ displaystyle {\ binom {30} {2}} = 435}

возможные пары точек. В этом примере имеется 395 согласованных пар точек и 40 несогласованных пар точек, что приводит к коэффициенту ранговой корреляции Кендалла 0,816.

Позволять ${\ displaystyle (x_ {1}, y_ {1}), ..., (x_ {n}, y_ {n})}$ - набор наблюдений совместных случайных величин X и Y , таких, что все значения ( ${\ displaystyle x_ {i}}$ ) а также ( ${\ displaystyle y_ {i}}$ ) уникальны (связями для простоты пренебрегаем). Любая пара наблюдений ${\ Displaystyle (х_ {я}, у_ {я})}$ а также ${\ displaystyle (x_ {j}, y_ {j})}$ , где ${\ displaystyle i }>$ , называются согласованными, если порядок сортировки ${\ displaystyle (x_ {i}, x_ {j})}$ а также ${\ displaystyle (y_ {i}, y_ {j})}$ соглашается: то есть, если оба ${\ displaystyle x_ {i}> x_ {j}}$ а также ${\ displaystyle y_ {i}> y_ {j}}$ держит или оба ${\ displaystyle x_ {i}$ а также ${\ displaystyle y_ {i}$ ; в противном случае они называются дискордантными .

Коэффициент Кендалла τ определяется как:

{\ displaystyle \ tau = {\ frac {({\ text {количество совпадающих пар}}) - ({\ text {количество несовместимых пар}})} {n \ select 2}}.}

^[3]

Где ${\ Displaystyle {п \ выбрать 2} = {п (п-1) \ более 2}}$ - биномиальный коэффициент для количества способов выбрать два элемента из n элементов.

Характеристики

Знаменатель представляет общее количество комбинаций пара, так что коэффициент должен находиться в диапазоне от -1 & le ; т & le ; 1.

Если соответствие между двумя рейтингами идеальное (т. Е. Два рейтинга совпадают), коэффициент имеет значение 1.
Если несоответствие между двумя рейтингами полное (т. Е. Одно ранжирование противоположно другому), коэффициент имеет значение -1.
Если X и Y являются независимыми , то мы ожидаем , что коэффициент будет приблизительно равен нулю.
Явное выражение для коэффициента ранга Кендалла: ${\ displaystyle \ tau = {\ frac {2} {n (n-1)}} \ sum _ {i }>$ .

Проверка гипотез

Ранговый коэффициент Кендалла часто используется в качестве тестовой статистики в тесте статистической гипотезы, чтобы установить, могут ли две переменные считаться статистически зависимыми. Этот тест является непараметрическим , так как он не полагается на какие-либо предположения о распределениях X или Y или распределении ( X , Y ).

В соответствии с нулевой гипотезы о независимости X и Y , то распределение выборки из т имеет ожидаемое значение , равное нулю. Точное распределение не может быть охарактеризовано в терминах общих распределений, но может быть рассчитано точно для небольших выборок; для больших выборок обычно используется приближение к нормальному распределению с нулевым средним и дисперсией

{\ displaystyle {\ frac {2 (2n + 5)} {9n (n-1)}}}

. ^[4]

Учет галстуков

Пара ${\ displaystyle \ {(x_ {i}, x_ {j}), (y_ {i}, y_ {j}) \}}$ считается связанным, если ${\ displaystyle x_ {i} = x_ {j}}$ или же ${\ displaystyle y_ {i} = y_ {j}}$ ; связанная пара не является ни согласованной, ни противоречащей друг другу. Когда в данных возникают связанные пары, коэффициент может быть изменен несколькими способами, чтобы он оставался в диапазоне [-1, 1]:

Тау-а

Tau-статистика проверяет прочность ассоциации из перекрестных таблиц . Обе переменные должны быть порядковыми . Тау-а не будет делать никаких поправок на завязки. Это определяется как:

{\ displaystyle \ tau _ {A} = {\ frac {n_ {c} -n_ {d}} {n_ {0}}}}

где n _c , n _d и n ₀ определены, как в следующем разделе.

Тау-б

Статистика Tau-b, в отличие от Tau-a, делает поправки на связи. ^[5] Значения Tau-b варьируются от -1 (100% отрицательная ассоциация или идеальная инверсия) до +1 (100% положительная ассоциация или полное совпадение). Нулевое значение указывает на отсутствие ассоциации.

Коэффициент Кендалла Тау-b определяется как:

{\ displaystyle \ tau _ {B} = {\ frac {n_ {c} -n_ {d}} {\ sqrt {(n_ {0} -n_ {1}) (n_ {0} -n_ {2}) }}}}

где

{\ displaystyle {\ begin {align} n_ {0} & = n (n-1) / 2 \\ n_ {1} & = \ sum _ {i} t_ {i} (t_ {i} -1) / 2 \\ n_ {2} & = \ sum _ {j} u_ {j} (u_ {j} -1) / 2 \\ n_ {c} & = {\ text {Количество совпадающих пар}} \\ n_ {d} & = {\ text {Количество несовместимых пар}} \\ t_ {i} & = {\ text {Количество связанных значений в группе}} i ^ {\ text {th}} {\ text { связей для первой величины}} \\ u_ {j} & = {\ text {Количество связанных значений в}} j ^ {\ text {th}} {\ text {группе связей для второй величины}} \ конец {выровнен}}}

Имейте в виду, что некоторые статистические пакеты, например SPSS, используют альтернативные формулы для вычисления эффективности вычислений с удвоенным «обычным» количеством согласованных и несогласованных пар. ^[6]

Тау-с

Tau-c (также называемый Stuart-Kendall Tau-c) ^[7] более подходит, чем Tau-b для анализа данных, основанных на неквадратных (т.е. прямоугольных) таблицах непредвиденных обстоятельств . ^[7]^[8] Поэтому используйте Tau-b, если базовая шкала обеих переменных имеет одинаковое количество возможных значений (до ранжирования), и Tau-c, если они различаются. Например, одна переменная может быть оценена по 5-балльной шкале (очень хорошо, хорошо, средне, плохо, очень плохо), а другая может быть основана на более тонкой 10-балльной шкале.

Коэффициент Кендалла Тау-c определяется как: ^[8]

{\ displaystyle \ tau _ {C} = {\ frac {2 (n_ {c} -n_ {d})} {n ^ {2} {\ frac {(m-1)} {m}}}}}

где

{\ displaystyle {\ begin {align} n_ {c} & = {\ text {Количество совпадающих пар}} \\ n_ {d} & = {\ text {Количество несовместимых пар}} \\ r & = {\ text {Количество строк}} \\ c & = {\ text {Количество столбцов}} \\ m & = \ min (r, c) \ end {выровнено}}}

Тесты значимости

Когда две величины статистически независимы, распределение ${\ Displaystyle \ тау}$ трудно охарактеризовать в терминах известных распределений. Однако для ${\ displaystyle \ tau _ {A}}$ следующая статистика, ${\ displaystyle z_ {A}}$ , приблизительно распределяется как стандартное нормальное, когда переменные статистически независимы:

{\ displaystyle z_ {A} = {3 (n_ {c} -n_ {d}) \ over {\ sqrt {n (n-1) (2n + 5) / 2}}}}

Таким образом, чтобы проверить, являются ли две переменные статистически зависимыми, вычисляется ${\ displaystyle z_ {A}}$ , и находит кумулятивную вероятность для стандартного нормального распределения при ${\ displaystyle - | z_ {A} |}$ . Для двустороннего теста умножьте это число на два, чтобы получить значение p . Если p -значение ниже заданного уровня значимости, отвергают нулевую гипотезу (на этом уровне значимости) о том, что величины статистически независимы.

Многочисленные корректировки следует добавить в ${\ displaystyle z_ {A}}$ при учете галстуков. Следующая статистика, ${\ displaystyle z_ {B}}$ , имеет то же распределение, что и ${\ displaystyle \ tau _ {B}}$ распределение, и снова приблизительно равно стандартному нормальному распределению, когда величины статистически независимы:

{\ displaystyle z_ {B} = {n_ {c} -n_ {d} \ over {\ sqrt {v}}}}

где

{\ displaystyle {\ begin {array} {ccl} v & = & (v_ {0} -v_ {t} -v_ {u}) / 18 + v_ {1} + v_ {2} \\ v_ {0} & = & n (n-1) (2n + 5) \\ v_ {t} & = & \ sum _ {i} t_ {i} (t_ {i} -1) (2t_ {i} +5) \\ v_ {u} & = & \ sum _ {j} u_ {j} (u_ {j} -1) (2u_ {j} +5) \\ v_ {1} & = & \ sum _ {i} t_ {i } (t_ {i} -1) \ sum _ {j} u_ {j} (u_ {j} -1) / (2n (n-1)) \\ v_ {2} & = & \ sum _ {i } t_ {i} (t_ {i} -1) (t_ {i} -2) \ sum _ {j} u_ {j} (u_ {j} -1) (u_ {j} -2) / (9n (n-1) (n-2)) \ end {array}}}

Иногда это называют тестом Манна-Кендалла. ^[9]

Алгоритмы

Прямое вычисление числителя ${\ displaystyle n_ {c} -n_ {d}}$ , включает две вложенные итерации, которые характеризуются следующим псевдокодом:

numer: = 0 для i: = 2..N do  для j: = 1 .. (i - 1) do число: = число + знак (x [i] - x [j]) × знак (y [i] - y [j])возвращение Numer

Хотя этот алгоритм быстро реализуется, он ${\ Displaystyle О (п ^ {2})}$ по сложности и становится очень медленным на больших выборках. Более сложный алгоритм ^[10], основанный на алгоритме сортировки слиянием , может использоваться для вычисления числителя в ${\ Displaystyle О (п \ CDOT \ журнал {п})}$ время.

Начните с сортировки точек данных по первому количеству, ${\ displaystyle x}$ , и во вторую очередь (среди связей в ${\ displaystyle x}$ ) по второй величине, ${\ displaystyle y}$ . При таком первоначальном заказе ${\ displaystyle y}$ не сортируется, и ядро алгоритма состоит в вычислении того, сколько шагов нужно выполнить пузырьковой сортировке для сортировки этого начального ${\ displaystyle y}$ . Улучшенный алгоритм сортировки слиянием с ${\ Displaystyle О (п \ журнал п)}$ сложность, может применяться для вычисления количества свопов, ${\ Displaystyle S (у)}$ , который потребуется пузырьковой сортировке для сортировки ${\ displaystyle y_ {i}}$ . Тогда числитель для ${\ Displaystyle \ тау}$ вычисляется как:

{\ displaystyle n_ {c} -n_ {d} = n_ {0} -n_ {1} -n_ {2} + n_ {3} -2S (y),}

где ${\ displaystyle n_ {3}}$ вычисляется как ${\ displaystyle n_ {1}}$ а также ${\ displaystyle n_ {2}}$ , но что касается совместных связей в ${\ displaystyle x}$ а также ${\ displaystyle y}$ .

A Merge Сортировка разделов данных , которые будут отсортированы, ${\ displaystyle y}$ на две примерно равные половины, ${\ displaystyle y _ {\ mathrm {left}}}$ а также ${\ displaystyle y _ {\ mathrm {right}}}$ , затем сортирует каждую половину рекурсивно, а затем объединяет две отсортированные половины в полностью отсортированный вектор. Количество свопов пузырьковой сортировки равно:

{\ Displaystyle S (y) = S (y _ {\ mathrm {left}}) + S (y _ {\ mathrm {right}}) + M (Y _ {\ mathrm {left}}, Y _ {\ mathrm {right}) })}

где ${\ displaystyle Y _ {\ mathrm {left}}}$ а также ${\ displaystyle Y _ {\ mathrm {right}}}$ отсортированные версии ${\ displaystyle y _ {\ mathrm {left}}}$ а также ${\ displaystyle y _ {\ mathrm {right}}}$ , а также ${\ Displaystyle М (\ cdot, \ cdot)}$ характеризует замену, эквивалентную пузырьковой сортировке для операции слияния. ${\ Displaystyle М (\ cdot, \ cdot)}$ вычисляется, как показано в следующем псевдокоде:

функция M (L [1..n], R [1..m]) является я: = 1 j: = 1 nSwaps: = 0 в то время как i ≤ n и j ≤ m ,  если R [j] то nSwaps: = nSwaps + n - i + 1 j: = j + 1 еще я: = я + 1 вернуть nSwaps

Побочным эффектом вышеупомянутых шагов является то, что вы получаете как отсортированную версию ${\ displaystyle x}$ и отсортированная версия ${\ displaystyle y}$ . Таким образом, факторы ${\ displaystyle t_ {i}}$ а также ${\ displaystyle u_ {j}}$ используется для вычисления ${\ displaystyle \ tau _ {B}}$ легко получить за один проход линейного времени через отсортированные массивы.

Программные реализации

Базовый пакет статистики R реализует тест cor.test(x, y, method = "kendall")в своем пакете "stats" (также cor(x, y, method = "kendall")будет работать, но без возврата p-значения).
Для Python , то SciPy библиотека реализует вычисление ${\ Displaystyle \ тау}$ в scipy.stats.kendalltau

Смотрите также

Корреляция
Кендалл тау расстояние
Кендаллс W
Коэффициент ранговой корреляции Спирмена
Гамма Гудмана и Крускала
Оценщик Тейла – Сена
U-критерий Манна – Уитни - он эквивалентен коэффициенту корреляции тау Кендалла, если одна из переменных является бинарной.

дальнейшее чтение

Абди, Х. (2007). «Ранговая корреляция Кендалла» (PDF) . В Салкинд, штат Нью-Джерси (ред.). Энциклопедия измерения и статистики . Таузенд-Оукс (Калифорния): Шалфей.
Дэниел, Уэйн В. (1990). «Тау Кендалла» . Прикладная непараметрическая статистика (2-е изд.). Бостон: PWS-Kent. С. 365–377. ISBN 978-0-534-91976-4.
Кендалл, Морис; Гиббонс, Джин Дикинсон (1990) [Впервые опубликовано в 1948 году]. Методы ранговой корреляции . Серия книг Чарльза Гриффина (5-е изд.). Оксфорд: Издательство Оксфордского университета. ISBN 978-0195208375.
Bonett, Douglas G .; Райт, Томас А. (2000). «Требования к размеру выборки для оценки корреляций Пирсона, Кендалла и Спирмена». Психометрика . 65 (1): 23–28. DOI : 10.1007 / BF02294183 .

Внешние ссылки

Расчет привязанного ранга
Программное обеспечение для вычисления тау Кендалла на очень больших наборах данных
Онлайн-программное обеспечение: вычисляет ранговую корреляцию тау Кендалла
Процедура CORR: статистические вычисления - Школа бизнеса Макдоно

[1] Кендалл, М. (1938). «Новая мера ранговой корреляции». Биометрика . 30 (1–2): 81–89. DOI : 10.1093 / Biomet / 30.1-2.81 . JSTOR 2332226 .

[2] Крускал, WH (1958). «Порядковые меры объединения». Журнал Американской статистической ассоциации . 53 (284): 814–861. DOI : 10.2307 / 2281954 . JSTOR 2281954 . Руководство по ремонту 0100941 .

[3] Нельсен, РБ (2001) [1994], «Кендалловская тау-метрика» , Энциклопедия математики , EMS Press

[4] Прохоров, А.В. (2001) [1994], "Коэффициент Кендалла ранговой корреляции" , Энциклопедия математики , EMS Press

[5] Агрести, А. (2010). Анализ порядковых категориальных данных (второе изд.). Нью-Йорк: Джон Вили и сыновья. ISBN 978-0-470-08289-8.

[IBM-6] IBM (2016). IBM SPSS Statistics 24 алгоритма . IBM. п. 168 . Проверено 31 августа 2017 года .

[Berry-7] а б Берри, КДж; Johnston, JE; Zahran, S .; Mielke, PW (2009). «Тау-мера Стюарта величины эффекта для порядковых переменных: некоторые методологические соображения» . Методы исследования поведения . 41 (4): 1144–1148. DOI : 10,3758 / brm.41.4.1144 . PMID 19897822 .

[Stuart-8] а б Стюарт, А. (1953). «Оценка и сравнение сильных сторон ассоциации в таблицах непредвиденных обстоятельств». Биометрика . 40 (1–2): 105–110. DOI : 10.2307 / 2333101 . JSTOR 2333101 .

[9] Glen_b. «Отношения между Манн-Кендаллом и Кендаллом Тау-б» .

[10] Найт, У. (1966). «Компьютерный метод для расчета Тау Кендалла с разгруппированными данными». Журнал Американской статистической ассоциации . 61 (314): 436–439. DOI : 10.2307 / 2282833 . JSTOR 2282833 .

[1],