Коэффициент ранговой корреляции Кендалла

В статистике , то коэффициент ранговой корреляции Кендалла , обычно называют т коэффициента Кендалла (после греческой буквы т , тау), является статистика используется для измерения порядковой связи между двумя измеряемыми величинами. Тест τ - это непараметрический тест гипотезы для статистической зависимости, основанный на коэффициенте τ.

Это мера ранговой корреляции : схожесть порядка данных при ранжировании по каждой из величин. Он назван в честь Мориса Кендалла , который разработал его в 1938 году ^[1], хотя Густав Фехнер предложил аналогичную меру в контексте временных рядов в 1897 году ^[2].

Интуитивно корреляция Кендалла между двумя переменными будет высокой, когда наблюдения имеют одинаковый (или идентичный для корреляции 1) ранг (т. Е. Метку относительного положения наблюдений внутри переменной: 1-й, 2-й, 3-й и т. Д.) Между двумя. переменные, и низкий, когда наблюдения имеют разный (или полностью различающийся при корреляции -1) ранг между двумя переменными.

И Кендалла, и Спирмена можно сформулировать как частные случаи более общего коэффициента корреляции . ${\ Displaystyle \ тау}$ ${\ displaystyle \ rho}$

Определение [ править ]

Все точки в серой зоне согласуются, а все точки в белой зоне не согласуются с точкой . С точками существует общее количество возможных пар точек. В этом примере 395 согласованных пар точек и 40 несогласованных пар точек, что приводит к коэффициенту ранговой корреляции Кендалла 0,816.

{\ displaystyle (X_ {1}, Y_ {1})}

{\ displaystyle n = 30}

{\ displaystyle {\ binom {30} {2}} = 435}

Пусть будет набором наблюдений совместных случайных величин X и Y , таких, что все значения ( ) и ( ) уникальны (для простоты связи не учитываются). Любая пара наблюдений и , где , считается согласованной, если порядок сортировки и совпадает: то есть, если выполняется либо оба и, либо оба и ; в противном случае они называются дискордантными . ${\ displaystyle (x_ {1}, y_ {1}), ..., (x_ {n}, y_ {n})}$ ${\ displaystyle x_ {i}}$ ${\ displaystyle y_ {i}}$ ${\ Displaystyle (х_ {я}, у_ {я})}$ ${\ displaystyle (x_ {j}, y_ {j})}$ ${\ displaystyle i <j}$ ${\ displaystyle (x_ {i}, x_ {j})}$ ${\ displaystyle (y_ {i}, y_ {j})}$ ${\ displaystyle x_ {i}> x_ {j}}$ ${\ displaystyle y_ {i}> y_ {j}}$ ${\ displaystyle x_ {i} <x_ {j}}$ ${\ displaystyle y_ {i} <y_ {j}}$

Коэффициент Кендалла τ определяется как:

\tau ={\frac {({\text{number of concordant pairs}})-({\text{number of discordant pairs}})}{n \choose 2}}.

^[3]

Где - биномиальный коэффициент для количества способов выбрать два элемента из n элементов. ${n \choose 2}={n(n-1) \over 2}$

Свойства [ править ]

Знаменатель представляет общее количество комбинаций пара, так что коэффициент должен находиться в диапазоне от -1 & le ; т & le ; 1.

Если соответствие между двумя рейтингами идеальное (т. Е. Два рейтинга совпадают), коэффициент имеет значение 1.
Если несоответствие между двумя рейтингами полное (т. Е. Одно ранжирование противоположно другому), коэффициент имеет значение -1.
Если X и Y являются независимыми , то мы ожидаем , что коэффициент будет приблизительно равен нулю.
Явное выражение для коэффициента ранга Кендалла есть . $\tau ={\frac {2}{n(n-1)}}\sum _{i<j}\operatorname {sgn}(x_{i}-x_{j})\operatorname {sgn}(y_{i}-y_{j})$

Проверка гипотез [ править ]

Ранговый коэффициент Кендалла часто используется в качестве тестовой статистики в тесте статистической гипотезы, чтобы установить, могут ли две переменные считаться статистически зависимыми. Этот тест является непараметрическим , поскольку он не полагается на какие-либо предположения о распределениях X или Y или распределении ( X , Y ).

В соответствии с нулевой гипотезы о независимости X и Y , то распределение выборки из т имеет ожидаемое значение , равное нулю. Точное распределение не может быть охарактеризовано в терминах общих распределений, но может быть рассчитано точно для небольших выборок; для больших выборок обычно используется приближение к нормальному распределению с нулевым средним и дисперсией

{\frac {2(2n+5)}{9n(n-1)}}

. ^[4]

Учет связей [ править ]

Пара называется связаны , если или ; связанная пара не является ни согласованной, ни противоречивой. Когда в данных возникают связанные пары, коэффициент можно изменить несколькими способами, чтобы он оставался в диапазоне [-1, 1]: $\{(x_{i},y_{i}),(x_{j},y_{j})\}$ $x_{i}=x_{j}$ $y_{i}=y_{j}$

Тау-а [ править ]

Tau-статистика проверяет прочность ассоциации из перекрестных таблиц . Обе переменные должны быть порядковыми . Tau-a не будет делать никаких поправок на связи. Это определяется как:

\tau _{A}={\frac {n_{c}-n_{d}}{n_{0}}}

где n _c , n _d и n ₀ определены, как в следующем разделе.

Тау-б [ править ]

Статистика Tau-b, в отличие от Tau-a, делает поправки на связи. ^[5] Значения Tau-b варьируются от -1 (100% отрицательная ассоциация или идеальная инверсия) до +1 (100% положительная ассоциация или полное совпадение). Нулевое значение указывает на отсутствие ассоциации.

Коэффициент Кендалла Тау-b определяется как:

\tau _{B}={\frac {n_{c}-n_{d}}{\sqrt {(n_{0}-n_{1})(n_{0}-n_{2})}}}

куда

{\begin{aligned}n_{0}&=n(n-1)/2\\n_{1}&=\sum _{i}t_{i}(t_{i}-1)/2\\n_{2}&=\sum _{j}u_{j}(u_{j}-1)/2\\n_{c}&={\text{Number of concordant pairs}}\\n_{d}&={\text{Number of discordant pairs}}\\t_{i}&={\text{Number of tied values in the }}i^{\text{th}}{\text{ group of ties for the first quantity}}\\u_{j}&={\text{Number of tied values in the }}j^{\text{th}}{\text{ group of ties for the second quantity}}\end{aligned}}

Имейте в виду, что некоторые статистические пакеты, например SPSS, используют альтернативные формулы для вычисления вычислительной эффективности с удвоенным «обычным» количеством согласованных и несогласованных пар. ^[6]

Тау-ц [ править ]

Tau-c (также называемый Stuart-Kendall Tau-c) ^[7] более подходит, чем Tau-b для анализа данных, основанных на неквадратных (то есть прямоугольных) таблицах непредвиденных обстоятельств . ^[7]^[8] Поэтому используйте Tau-b, если базовая шкала обеих переменных имеет одинаковое количество возможных значений (до ранжирования), и Tau-c, если они различаются. Например, одна переменная может быть оценена по 5-балльной шкале (очень хорошо, хорошо, средне, плохо, очень плохо), а другая может быть основана на более тонкой 10-балльной шкале.

Коэффициент Кендалла Тау-c определяется как: ^[8]

\tau _{C}={\frac {2(n_{c}-n_{d})}{n^{2}{\frac {(m-1)}{m}}}}

куда

{\begin{aligned}n_{c}&={\text{Number of concordant pairs}}\\n_{d}&={\text{Number of discordant pairs}}\\r&={\text{Number of rows}}\\c&={\text{Number of columns}}\\m&=\min(r,c)\end{aligned}}

Тесты значимости [ править ]

Когда две величины статистически независимы, распределение нелегко охарактеризовать с помощью известных распределений. Однако для следующей статистики, приблизительно распределена как стандартная норма, когда переменные статистически независимы: $\tau$ $\tau _{A}$ $z_{A}$

z_{A}={3(n_{c}-n_{d}) \over {\sqrt {n(n-1)(2n+5)/2}}}

Таким образом, чтобы проверить, являются ли две переменные статистически зависимыми, вычисляют и находят кумулятивную вероятность для стандартного нормального распределения при . Для двустороннего теста умножьте это число на два, чтобы получить значение p . Если p -значение ниже заданного уровня значимости, отвергается нулевая гипотеза (на этом уровне значимости) о том, что величины статистически независимы. $z_{A}$ $-|z_{A}|$

При учете галстуков следует добавить многочисленные корректировки . Следующая статистика, имеет то же распределение, что и распределение, и снова приблизительно равна стандартному нормальному распределению, когда количества статистически независимы: $z_{A}$ $z_{B}$ $\tau _{B}$

z_{B}={n_{c}-n_{d} \over {\sqrt {v}}}

куда

{\begin{array}{ccl}v&=&(v_{0}-v_{t}-v_{u})/18+v_{1}+v_{2}\\v_{0}&=&n(n-1)(2n+5)\\v_{t}&=&\sum _{i}t_{i}(t_{i}-1)(2t_{i}+5)\\v_{u}&=&\sum _{j}u_{j}(u_{j}-1)(2u_{j}+5)\\v_{1}&=&\sum _{i}t_{i}(t_{i}-1)\sum _{j}u_{j}(u_{j}-1)/(2n(n-1))\\v_{2}&=&\sum _{i}t_{i}(t_{i}-1)(t_{i}-2)\sum _{j}u_{j}(u_{j}-1)(u_{j}-2)/(9n(n-1)(n-2))\end{array}}

Иногда это называют тестом Манна-Кендалла. ^[9]

Алгоритмы [ править ]

Прямое вычисление числителя включает две вложенные итерации, которые характеризуются следующим псевдокодом: $n_{c}-n_{d}$

numer: = 0 для i: = 2..N do  для j: = 1 .. (i - 1) do число: = число + знак (x [i] - x [j]) × знак (y [i] - y [j])возвращение Numer

Хотя этот алгоритм быстро реализуется, он сложен и становится очень медленным на больших выборках. Более сложный алгоритм ^[10], построенный на алгоритме сортировки слиянием , может использоваться для вычисления числителя во времени. $O(n^{2})$ $O(n\cdot \log {n})$

Начните заказе ваших точек данных сортировки по первой величины, и во вторую очередь ( в том числе в связи ) с помощью второго количества, . При таком начальном порядке сортировка не выполняется, и ядро алгоритма состоит в вычислении количества шагов, которые потребует пузырьковая сортировка для сортировки этого начального . Улучшенный алгоритм сортировки слиянием со сложностью может применяться для вычисления количества свопов , которые потребуются пузырьковой сортировке для сортировки . Тогда числитель для вычисляется как: $x$ $x$ $y$ $y$ $y$ $O(n\log n)$ $S(y)$ $y_{i}$ $\tau$

n_{c}-n_{d}=n_{0}-n_{1}-n_{2}+n_{3}-2S(y),

где вычисляется как и , но с учетом совместных связей в и . $n_{3}$ $n_{1}$ $n_{2}$ $x$ $y$

A сортировка слиянием разделов данных , которые должны быть отсортированы, на две примерно равные половины, и , затем сортирует каждую половину рекурсивной, а затем сливается две половинки сортируются в полностью отсортированный вектор. Количество свопов пузырьковой сортировки равно: $y$ $y_{\mathrm {left} }$ $y_{\mathrm {right} }$

S(y)=S(y_{\mathrm {left} })+S(y_{\mathrm {right} })+M(Y_{\mathrm {left} },Y_{\mathrm {right} })

где и - отсортированные версии и , а характеризует замену, эквивалентную пузырьковой сортировке, для операции слияния. вычисляется, как показано в следующем псевдокоде: $Y_{\mathrm {left} }$ $Y_{\mathrm {right} }$ $y_{\mathrm {left} }$ $y_{\mathrm {right} }$ $M(\cdot ,\cdot )$ $M(\cdot ,\cdot )$

функция M (L [1..n], R [1..m]) является я: = 1 j: = 1 nSwaps: = 0 в то время как i ≤ n и j ≤ m действуют,  если R [j] <L [i], то nSwaps: = nSwaps + n - i + 1 j: = j + 1 еще я: = я + 1 вернуть nSwaps

Побочным эффектом вышеуказанных шагов является то, что вы получаете как отсортированную версию, так и отсортированную версию . С их помощью коэффициенты и, используемые для вычисления , легко получить за один проход линейного времени через отсортированные массивы. $x$ $y$ $t_{i}$ $u_{j}$ $\tau _{B}$

Программные реализации [ править ]

Базовый пакет статистики R реализует тест cor.test(x, y, method = "kendall")в своем пакете "stats" (также cor(x, y, method = "kendall")будет работать, но без возврата p-значения).
Для Python , то SciPy библиотека реализует вычисление в $\tau$ scipy.stats.kendalltau

См. Также [ править ]

Корреляция
Кендалл тау расстояние
Кендаллс W
Коэффициент ранговой корреляции Спирмена
Гамма Гудмана и Крускала
Оценка Тейла – Сена
U-критерий Манна – Уитни - он эквивалентен коэффициенту корреляции тау Кендалла, если одна из переменных является двоичной.

Ссылки [ править ]

^ Кендалл, М. (1938). «Новая мера ранговой корреляции». Биометрика . 30 (1–2): 81–89. DOI : 10.1093 / Biomet / 30.1-2.81 . JSTOR 2332226 .
^ Крускала, WH (1958). «Порядковые меры объединения». Журнал Американской статистической ассоциации . 53 (284): 814–861. DOI : 10.2307 / 2281954 . JSTOR 2281954 . Руководство по ремонту 0100941 .
^ Nelsen, RB (2001) [1994], "тау Кендалла метрика" , Энциклопедия математики , EMS Пресс
^ Прохоров, А.В. (2001) [1994], "Коэффициент Кендалла ранговой корреляции" , Энциклопедия математики , EMS Press
^ Агрести, A. (2010). Анализ порядковых категориальных данных (второе изд.). Нью-Йорк: Джон Вили и сыновья. ISBN 978-0-470-08289-8.
^ IBM (2016). IBM SPSS Statistics 24 алгоритма . IBM. п. 168 . Проверено 31 августа 2017 года .
^ a b Берри, KJ; Johnston, JE; Zahran, S .; Мильке, П. В. (2009). «Тау-мера Стюарта величины эффекта для порядковых переменных: некоторые методологические соображения» . Методы исследования поведения . 41 (4): 1144–1148. DOI : 10,3758 / brm.41.4.1144 . PMID 19897822 .
^ а б Стюарт А. (1953). «Оценка и сравнение сильных сторон ассоциации в таблицах непредвиденных обстоятельств». Биометрика . 40 (1–2): 105–110. DOI : 10.2307 / 2333101 . JSTOR 2333101 .
^ Glen_b. «Отношения между Манн-Кендаллом и Кендаллом Тау-б» .
^ Knight, W. (1966). "Компьютерный метод для расчета Тау Кендалла с разгруппированными данными". Журнал Американской статистической ассоциации . 61 (314): 436–439. DOI : 10.2307 / 2282833 . JSTOR 2282833 .

Дальнейшее чтение [ править ]

Абди, Х. (2007). «Ранговая корреляция Кендалла» (PDF) . В Салкинд, штат Нью-Джерси (ред.). Энциклопедия измерения и статистики . Таузенд-Оукс (Калифорния): Шалфей.
Дэниел, Уэйн В. (1990). «Тау Кендалла» . Прикладная непараметрическая статистика (2-е изд.). Бостон: PWS-Kent. С. 365–377. ISBN 978-0-534-91976-4.
Кендалл, Морис; Гиббонс, Джин Дикинсон (1990) [Впервые опубликовано в 1948 году]. Методы ранговой корреляции . Серия книг Чарльза Гриффина (5-е изд.). Оксфорд: Издательство Оксфордского университета. ISBN 978-0195208375.
Бонетт, Дуглас Дж .; Райт, Томас А. (2000). «Требования к размеру выборки для оценки корреляций Пирсона, Кендалла и Спирмена». Психометрика . 65 (1): 23–28. DOI : 10.1007 / BF02294183 .

Внешние ссылки [ править ]

Расчет привязанного ранга
Программное обеспечение для вычисления тау Кендалла на очень больших наборах данных
Онлайн-программное обеспечение: вычисляет ранговую корреляцию тау Кендалла
Процедура CORR: статистические вычисления - Школа бизнеса Макдоно

[1] Кендалл, М. (1938). «Новая мера ранговой корреляции». Биометрика . 30 (1–2): 81–89. DOI : 10.1093 / Biomet / 30.1-2.81 . JSTOR 2332226 .

[2] Крускала, WH (1958). «Порядковые меры объединения». Журнал Американской статистической ассоциации . 53 (284): 814–861. DOI : 10.2307 / 2281954 . JSTOR 2281954 . Руководство по ремонту 0100941 .

[3] Nelsen, RB (2001) [1994], "тау Кендалла метрика" , Энциклопедия математики , EMS Пресс

[4] Прохоров, А.В. (2001) [1994], "Коэффициент Кендалла ранговой корреляции" , Энциклопедия математики , EMS Press

[5] Агрести, A. (2010). Анализ порядковых категориальных данных (второе изд.). Нью-Йорк: Джон Вили и сыновья. ISBN 978-0-470-08289-8.

[IBM-6] IBM (2016). IBM SPSS Statistics 24 алгоритма . IBM. п. 168 . Проверено 31 августа 2017 года .

[Berry-7] Берри, KJ; Johnston, JE; Zahran, S .; Мильке, П. В. (2009). «Тау-мера Стюарта величины эффекта для порядковых переменных: некоторые методологические соображения» . Методы исследования поведения . 41 (4): 1144–1148. DOI : 10,3758 / brm.41.4.1144 . PMID 19897822 .

[Stuart-8] а б Стюарт А. (1953). «Оценка и сравнение сильных сторон ассоциации в таблицах непредвиденных обстоятельств». Биометрика . 40 (1–2): 105–110. DOI : 10.2307 / 2333101 . JSTOR 2333101 .

[9] Glen_b. «Отношения между Манн-Кендаллом и Кендаллом Тау-б» .

[10] Knight, W. (1966). "Компьютерный метод для расчета Тау Кендалла с разгруппированными данными". Журнал Американской статистической ассоциации . 61 (314): 436–439. DOI : 10.2307 / 2282833 . JSTOR 2282833 .

[1],