Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Корреляция Спирмена, равная 1, получается, когда две сравниваемые переменные связаны монотонно, даже если их взаимосвязь не является линейной. Это означает, что все точки данных с большими значениями x, чем у данной точки данных, также будут иметь большие значения y . Напротив, это не дает идеальной корреляции Пирсона.
Когда данные распределены примерно по эллипсу и нет заметных выбросов, корреляция Спирмена и корреляция Пирсона дают аналогичные значения.
Корреляция Спирмена менее чувствительна, чем корреляция Пирсона, к сильным выбросам, которые находятся в хвостах обеих выборок. Это потому, что ρ Спирмена ограничивает выброс значением его ранга.

В статистике , коэффициент ранговой корреляции Спирмена или Спирмен ρ , названный в честь Чарльза Спирмена и часто обозначается греческой буквой (Rho) , или как , это непараметрическая мера ранговой корреляции ( статистическая зависимость между ранжированием двух переменных ). Он оценивает, насколько хорошо взаимосвязь между двумя переменными может быть описана с помощью монотонной функции .

Корреляция Спирмена между двумя переменными равна корреляции Пирсона между значениями ранга этих двух переменных; в то время как корреляция Пирсона оценивает линейные отношения, корреляция Спирмена оценивает монотонные отношения (линейные или нет). Если нет повторяющихся значений данных, идеальная корреляция Спирмена +1 или -1 возникает, когда каждая из переменных является идеальной монотонной функцией другой.

Интуитивно корреляция Спирмена между двумя переменными будет высокой, когда наблюдения имеют одинаковый (или идентичный для корреляции 1) ранг (т. Е. Метку относительного положения наблюдений внутри переменной: 1-й, 2-й, 3-й и т. Д.) Между двумя. переменные, и низкий, когда наблюдения имеют несходный (или полностью противоположный для корреляции -1) ранг между двумя переменными.

Коэффициент Спирмена подходит как для непрерывных, так и для дискретных порядковых переменных . [1] [2] И Спирмена, и Кендалла можно сформулировать как частные случаи более общего коэффициента корреляции .

Определение и расчет [ править ]

Коэффициент корреляции Спирмена определяется как коэффициент корреляции Пирсона между ранговыми переменными . [3]

Для образца размера п , то п сырых баллов преобразуются в ряды , и вычисляются как

где

обозначает обычный коэффициент корреляции Пирсона , но применяется к ранговым переменным,
является ковариационным рангом переменных,
и - стандартные отклонения переменных ранга.

Только если все n рангов являются различными целыми числами , его можно вычислить по популярной формуле

где

разница между двумя рангами каждого наблюдения,
n - количество наблюдений.

Идентичным значениям обычно [4] присваиваются дробные ранги, равные среднему значению их позиций в порядке возрастания значений, что эквивалентно усреднению по всем возможным перестановкам.

Если в наборе данных присутствуют связи, приведенная выше упрощенная формула дает неверные результаты: только если в обеих переменных все ранги различны, то (рассчитывается в соответствии со смещенной дисперсией). Первое уравнение - нормализация на стандартное отклонение - может использоваться даже тогда, когда ранги нормализованы до [0, 1] («относительные ранги»), потому что оно нечувствительно как к сдвигу, так и к линейному масштабированию.

Упрощенный метод также не следует использовать в случаях, когда набор данных усечен; то есть, когда коэффициент корреляции Спирмена желателен для верхних X записей (по рангу до изменения или рангу после изменения, или по обоим), пользователь должен использовать формулу коэффициента корреляции Пирсона, приведенную выше. [5]

Связанные количества [ править ]

Есть несколько других числовых показателей, которые определяют степень статистической зависимости между парами наблюдений. Наиболее распространенным из них является коэффициент корреляции продукта-момента Пирсона , который представляет собой метод корреляции, аналогичный рангу Спирмена, который измеряет «линейные» отношения между исходными числами, а не между их рангами.

Альтернативное название ранговой корреляции Спирмена - « ранговая корреляция»; [6] в этом случае «ранг» наблюдения заменяется «оценкой». В непрерывных распределениях оценка наблюдения по соглашению всегда на половину меньше ранга, и, следовательно, корреляции оценок и рангов в этом случае одинаковы. В более общем смысле, «уровень» наблюдения пропорционален оценке доли населения меньше заданного значения с поправкой на половину наблюдения при наблюдаемых значениях. Таким образом, это соответствует одной из возможных трактовок равных рангов. Хотя это и необычно, термин «корреляция оценок» все еще используется. [7]

Интерпретация [ править ]

Знак корреляции Спирмена указывает направление связи между X (независимой переменной) и Y (зависимой переменной). Если Y имеет тенденцию к увеличению при увеличении X , коэффициент корреляции Спирмена положительный. Если Y имеет тенденцию к уменьшению при увеличении X , коэффициент корреляции Спирмена отрицательный. Корреляция Спирмена, равная нулю, указывает на отсутствие тенденции к увеличению или уменьшению Y при увеличении X. Корреляция Спирмена увеличивается по мере того, как X и Y становятся все более монотонными функциями друг друга. КогдаX и Y совершенно монотонно связаны, коэффициент корреляции Спирмена становится 1. Совершенно монотонное возрастающее соотношение подразумевает, что для любых двух пар значений данных X i , Y i и X j , Y j , что X i - X j и Y i - Y j всегда имеют один и тот же знак. Совершенно монотонно убывающая связь означает, что эти различия всегда имеют противоположные знаки.

Коэффициент корреляции Спирмена часто называют «непараметрическим». Это может иметь два значения. Во-первых, идеальная корреляция Спирмена получается, когда X и Y связаны какой-либо монотонной функцией . Сравните это с корреляцией Пирсона, которая дает идеальное значение только тогда, когда X и Y связаны линейной функцией. Другой смысл , в котором корреляция Спирмена непараметрическая является то , что его распределение точной дискретизации может быть получено без необходимости знания (т.е., зная параметры) совместного распределения вероятностей по X и Y .

Пример [ править ]

В этом примере необработанные данные в таблице ниже используются для расчета корреляции между IQ человека и количеством часов, проведенных перед телевизором в неделю. [ необходима цитата ]

Во-первых, оцените . Для этого выполните следующие действия, указанные в таблице ниже.

  1. Отсортируйте данные по первому столбцу ( ). Создайте новый столбец и присвойте ему ранжированные значения 1, 2, 3, ..., n .
  2. Затем отсортируйте данные по второму столбцу ( ). Создайте четвертый столбец и аналогичным образом присвойте ему ранжированные значения 1, 2, 3, ..., n .
  3. Создайте пятый столбец для хранения различий между двумя столбцами ранжирования ( и ).
  4. Создайте один последний столбец для хранения значения столбца в квадрате.

С найденным, добавьте их, чтобы найти . Значение n равно 10. Теперь эти значения можно подставить обратно в уравнение.

дать

который принимает значение ρ = -29/165 = -0,175757575 ... с р -значение = 0.627188 ( с использованием т -распределение ).

Диаграмма представленных данных. Можно видеть, что может быть отрицательная корреляция, но эта связь не кажется окончательной.

То, что это значение близко к нулю, показывает, что корреляция между IQ и часами, потраченными на просмотр телевизора, очень мала, хотя отрицательное значение предполагает, что чем дольше вы проводите время перед телевизором, тем ниже IQ. В случае совпадения исходных значений эту формулу использовать не следует; вместо этого коэффициент корреляции Пирсона должен быть рассчитан на рангах (где связи даны рангам, как описано выше).

Определение значения [ править ]

Один из подходов к проверке того, значительно ли наблюдаемое значение ρ отличается от нуля ( r всегда будет поддерживать −1 ≤ r ≤ 1 ), заключается в вычислении вероятности того, что оно будет больше или равно наблюдаемому r при нулевой гипотезе , с помощью теста перестановки . Преимущество этого подхода заключается в том, что он автоматически учитывает количество связанных значений данных в выборке и способ их обработки при вычислении ранговой корреляции.

Другой подход аналогичен использованию преобразования Фишера в случае коэффициента корреляции момента произведения Пирсона. То есть доверительные интервалы и проверки гипотез, относящиеся к значению совокупности ρ, могут быть выполнены с использованием преобразования Фишера:

Если F ( r ) - это преобразование Фишера r , коэффициент ранговой корреляции Спирмена выборки, а n - размер выборки, то

является г -score для г , что примерно следующий стандартное нормальное распределение под нулевой гипотезой о статистической независимости ( ρ = 0 ). [8] [9]

Также можно проверить значимость, используя

которая распределяется примерно как Стьюдента т -распределения с п - 2 степенями свободы при нулевой гипотезе . [10] Обоснование этого результата основывается на аргументе перестановки. [11]

Обобщение коэффициента Спирмена полезно в ситуации, когда имеется три или более условий, в каждом из них наблюдается ряд субъектов, и предполагается, что наблюдения будут иметь определенный порядок. Например, нескольким субъектам может быть предложено по три испытания для одной и той же задачи, и прогнозируется, что результативность будет улучшаться от испытания к испытанию. Тест значимости тренда между условиями в этой ситуации был разработан Э.Б. Пейджем [12] и обычно называется тестом тренда Пейджа для упорядоченных альтернатив.

Анализ соответствия на основе ρ Спирмена [ править ]

Классический анализ соответствия - это статистический метод, который дает оценку каждому значению двух номинальных переменных. Таким образом, коэффициент корреляции Пирсона между ними максимизируется.

Существует эквивалент этого метода, называемый анализом соответствия оценок , который максимизирует ρ Спирмена или τ Кендалла . [13]

Аппроксимация ρ Спирмена из потока [ править ]

Существует два существующих подхода к аппроксимации коэффициента ранговой корреляции Спирмена на основе потоковых данных. [14] [15] Первый подход [14] включает огрубление совместного распределения . Для непрерывных значений: точки отсечения выбираются для этих случайных величин и соответственно дискретизируются. Контрольные точки по умолчанию добавляются в и . Затем создается матрица подсчета размера , обозначенного , где хранится количество наблюдений, которые попадают в двумерную ячейку, проиндексированную . Для потоковой передачи данных при поступлении нового наблюдения соответствующийэлемент увеличивается. Затем можно вычислить ранговую корреляцию Спирмена на основе счетной матрицы , используя операции линейной алгебры (алгоритм 2 [14] ). Обратите внимание, что для дискретных случайных величин процедура дискретизации не требуется. Этот метод применим как к стационарным потоковым данным, так и к большим наборам данных. Для нестационарных потоковых данных, где коэффициент ранговой корреляции Спирмена может изменяться со временем, можно применить ту же процедуру, но к движущемуся окну наблюдений. При использовании движущегося окна требования к памяти растут линейно с выбранным размером окна.

Второй подход к аппроксимации коэффициента ранговой корреляции Спирмена из потоковых данных включает использование оценок на основе ряда Эрмита. [15] Эти оценки, основанные на полиномах Эрмита , позволяют последовательно оценивать функцию плотности вероятности и кумулятивную функцию распределения в одномерном и двумерном случаях. Двумерные оценщики плотности ряда Эрмита и одномерные оценщики кумулятивной функции распределения на основе ряда Эрмита включены в большую выборочную версию оценщика коэффициента ранговой корреляции Спирмена, чтобы дать последовательную оценку корреляции Спирмена. Эта оценка сформулирована в терминах операций линейной алгебры для вычислительной эффективности (уравнение (8) и алгоритм 1 и 2 [15]). Эти алгоритмы применимы только к непрерывным данным случайных величин, но в этой настройке имеют определенные преимущества перед подходом с использованием матриц подсчета. Первое преимущество - повышенная точность при применении к большому количеству наблюдений. Второе преимущество заключается в том, что коэффициент ранговой корреляции Спирмена можно вычислить для нестационарных потоков, не полагаясь на движущееся окно. Вместо этого оценщик на основе ряда Эрмита использует схему экспоненциального взвешивания для отслеживания изменяющейся во времени ранговой корреляции Спирмена из потоковых данных, которые имеют постоянные требования к памяти относительно «эффективного» размера движущегося окна.

Программные реализации [ править ]

  • Базовый пакет статистики R реализует тест cor.test(x, y, method = "spearman")в своем пакете "stats" (также cor(x, y, method = "spearman")будет работать.
  • Реализация MATLAB : [r,p] = corr(x,y,'Type','Spearman')где r- коэффициент ранговой корреляции Спирмена, p- p-значение, xи y- векторы. [16]
  • Python . Может быть вычислена с spearmanr функции модуля scipy.stats.

См. Также [ править ]

  • Коэффициент ранговой корреляции Кендалла тау
  • Неравенство сумма Чебышева , перегруппировка неравенство (Эти две статьи могут пролить свет на математические свойства Спирмена  р .)
  • Корреляция расстояний
  • Полихорическая корреляция

Ссылки [ править ]

  1. ^ Типы шкалы .
  2. Перейти ↑ Lehman, Ann (2005). Jmp для базовой одномерной и многомерной статистики: пошаговое руководство . Кэри, Северная Каролина: SAS Press. п. 123 . ISBN 978-1-59047-576-8.
  3. ^ Майерс, Джером L .; Что ж, Арнольд Д. (2003). Дизайн исследования и статистический анализ (2-е изд.). Лоуренс Эрльбаум. С.  508 . ISBN 978-0-8058-4037-7.
  4. ^ Dodge, Yadolah (2010). Краткая энциклопедия статистики . Springer-Verlag New York. п. 502 . ISBN 978-0-387-31742-7.
  5. Аль-Джабер, Ахмед Одех; Элайян, Хайфа Омар (2018). К обеспечению качества и передового опыта в высшем образовании . River Publishers. п. 284. ISBN 978-87-93609-54-9.
  6. Yule, GU; Кендалл, MG (1968) [1950]. Введение в теорию статистики (14-е изд.). Чарльз Гриффин и компания стр. 268.
  7. ^ Piantadosi, J .; Howlett, P .; Боланд, Дж. (2007). «Согласование коэффициента корреляции классов с использованием связки с максимальным беспорядком» . Журнал промышленной и управленческой оптимизации . 3 (2): 305–312. DOI : 10,3934 / jimo.2007.3.305 .
  8. Перейти ↑ Choi, SC (1977). «Тесты на равенство зависимых коэффициентов корреляции». Биометрика . 64 (3): 645–647. DOI : 10.1093 / Biomet / 64.3.645 .
  9. ^ Fieller, EC; Хартли, HO; Пирсон, ES (1957). «Тесты на коэффициенты ранговой корреляции. I». Биометрика . 44 (3–4): 470–481. CiteSeerX 10.1.1.474.9634 . DOI : 10.1093 / Biomet / 44.3-4.470 . 
  10. ^ Нажмите; Веттеринг; Теукольский; Фланнери (1992). Числовые рецепты в C: Искусство научных вычислений (2-е изд.). Издательство Кембриджского университета. п. 640.
  11. ^ Кендалл, MG; Стюарт, А. (1973). «Разделы 31.19, 31.21». Расширенная теория статистики, Том 2: Вывод и взаимосвязь . Грифон. ISBN 978-0-85264-215-3.
  12. ^ Пейдж, EB (1963). «Упорядоченные гипотезы для нескольких обработок: тест значимости для линейных рангов». Журнал Американской статистической ассоциации . 58 (301): 216–230. DOI : 10.2307 / 2282965 . JSTOR 2282965 . 
  13. ^ Ковальчик, Т .; Pleszczyńska, E .; Руланд, Ф., ред. (2004). Модели оценок и методы анализа данных с приложениями для анализа совокупностей данных . Исследования в области нечеткости и мягких вычислений. 151 . Берлин Гейдельберг Нью-Йорк: Springer Verlag. ISBN 978-3-540-21120-4.
  14. ^ а б в Сяо, W. (2019). «Новые онлайн-алгоритмы непараметрических корреляций с применением для анализа данных датчиков». Международная конференция IEEE по большим данным (Big Data) 2019: 404–412. DOI : 10.1109 / BigData47090.2019.9006483 .
  15. ^ a b c Стефану, Майкл; Варугезе, Мелвин (декабрь 2020 г.). «Последовательная оценка непараметрической корреляции с использованием оценок ряда Эрмита». arXiv : 2012.06287 [ stat.ME ].
  16. ^ https://www.mathworks.com/help/stats/corr.html

Дальнейшее чтение [ править ]

  • Кордер, Г. В. и Форман, Д. И. (2014). Непараметрическая статистика: пошаговый подход, Wiley. ISBN 978-1118840313 . 
  • Дэниел, Уэйн В. (1990). «Коэффициент ранговой корреляции Спирмена» . Прикладная непараметрическая статистика (2-е изд.). Бостон: PWS-Kent. С. 358–365. ISBN 978-0-534-91976-4.
  • Спирмен К. (1904). «Доказательство и измерение связи между двумя вещами». Американский журнал психологии . 15 (1): 72–101. DOI : 10.2307 / 1412159 . JSTOR  1412159 .
  • Бонетт Д.Г., Райт, Т.А. (2000). «Требования к размеру выборки для корреляций Пирсона, Кендалла и Спирмена». Психометрика . 65 : 23–28. DOI : 10.1007 / bf02294183 .CS1 maint: multiple names: authors list (link)
  • Кендалл MG (1970). Методы ранговой корреляции (4-е изд.). Лондон: Гриффин. ISBN 978-0-852-6419-96. OCLC  136868 .
  • Холландер М., Вулф Д.А. (1973). Методы непараметрической статистики . Нью-Йорк: Вили. ISBN 978-0-471-40635-8. OCLC  520735 .
  • Карузо Дж. К., Клифф Н. (1997). «Эмпирический размер, охват и мощность доверительных интервалов для Спирмена Ро». Образовательные и психологические измерения . 57 (4): 637–654. DOI : 10.1177 / 0013164497057004009 .

Внешние ссылки [ править ]

  • Таблица критических значений ρ для значимости с небольшими выборками
  • Коэффициент корреляции рангов Спирмена - Руководство по Excel : образцы данных и формулы для Excel, разработанные Королевским географическим обществом .