В статистике , соотношение или зависимость любая статистическая зависимость, будь то причинной или нет, между двумя случайными величинами или двумерные данные . В самом широком смысле корреляция - это любая статистическая ассоциация, хотя обычно она относится к степени линейной связи пары переменных . Знакомые примеры зависимых явлений включают корреляцию между ростом родителей и их потомства, а также корреляцию между ценой товара и количеством, которое потребители готовы купить, как это показано на так называемой кривой спроса .
Корреляции полезны, потому что они могут указывать на прогнозную взаимосвязь, которую можно использовать на практике. Например, электроэнергетическая компания может производить меньше электроэнергии в мягкий день из-за корреляции между спросом на электроэнергию и погодой. В этом примере существует причинно-следственная связь , потому что экстремальные погодные условия заставляют людей использовать больше электроэнергии для обогрева или охлаждения. Однако, как правило, наличия корреляции недостаточно, чтобы сделать вывод о наличии причинно-следственной связи (т. Е. Корреляция не подразумевает причинно-следственную связь ).
Формально случайные величины являются зависимыми, если они не удовлетворяют математическому свойству вероятностной независимости . Выражаясь неформальным языком, корреляция является синонимом зависимости . Однако в техническом смысле корреляция относится к любому из нескольких конкретных типов математических операций между тестируемыми переменными и их соответствующими ожидаемыми значениями . По сути, корреляция - это мера того, как две или более переменных связаны друг с другом. Есть несколько коэффициентов корреляции , часто обозначаемых или же , измеряя степень корреляции. Наиболее распространенным из них является коэффициент корреляции Пирсона , который чувствителен только к линейной зависимости между двумя переменными (которая может присутствовать, даже если одна переменная является нелинейной функцией другой). Другие коэффициенты корреляции, такие как ранговая корреляция Спирмена, были разработаны, чтобы быть более надежными, чем коэффициенты Пирсона, то есть более чувствительными к нелинейным отношениям. [1] [2] [3] Взаимная информация также может применяться для измерения зависимости между двумя переменными.
Коэффициент произведения-момента Пирсона
Определение
Наиболее известной мерой зависимости между двумя величинами является коэффициент корреляции продукта-момента Пирсона (PPMCC) или «коэффициент корреляции Пирсона», обычно называемый просто «коэффициентом корреляции». Математически это определяется как качество подгонки методом наименьших квадратов к исходным данным. Он получается путем принятия отношения ковариации двух рассматриваемых переменных в нашем числовом наборе данных, нормированного на квадратный корень из их дисперсий. Математически ковариацию двух переменных просто делят на произведение их стандартных отклонений . Карл Пирсон разработал коэффициент на основе аналогичной, но немного другой идеи Фрэнсиса Гальтона . [4]
Коэффициент корреляции продукта-момента Пирсона пытается установить линию наилучшего соответствия набору данных из двух переменных, по существу, выкладывая ожидаемые значения, а полученный коэффициент корреляции Пирсона показывает, насколько далеко фактический набор данных находится от ожидаемых значений. В зависимости от знака коэффициента корреляции нашего Пирсона мы можем получить либо отрицательную, либо положительную корреляцию, если существует какая-либо связь между переменными нашего набора данных.
Коэффициент корреляции населения между двумя случайными величинами а также с ожидаемыми значениями а также и стандартные отклонения а также определяется как
где - оператор ожидаемого значения ,означает ковариацию , а- широко используемое альтернативное обозначение коэффициента корреляции. Корреляция Пирсона определяется, только если оба стандартных отклонения конечны и положительны. Альтернативная формула чисто с точки зрения моментов :
Свойство симметрии
Коэффициент корреляции симметричен: . Это подтверждается коммутативным свойством умножения.
Корреляция и независимость
Следствием неравенства Коши – Шварца является то, что абсолютное значение коэффициента корреляции Пирсона не превышает 1. Следовательно, значение коэффициента корреляции находится в диапазоне от -1 до +1. Коэффициент корреляции равен +1 в случае идеальной прямой (возрастающей) линейной зависимости (корреляции), -1 в случае идеальной обратной (убывающей) линейной зависимости ( антикорреляции ), [5] и некоторое значение в открытый интервал во всех остальных случаях с указанием степени линейной зависимости между переменными. По мере приближения к нулю связь уменьшается (ближе к некоррелированной). Чем ближе коэффициент к -1 или 1, тем сильнее корреляция между переменными.
Если переменные независимы , коэффициент корреляции Пирсона равен 0, но обратное неверно, поскольку коэффициент корреляции обнаруживает только линейные зависимости между двумя переменными.
Например, предположим, что случайная величина симметрично распределена около нуля, а . потом полностью определяется , чтобы а также совершенно зависимы, но их корреляция нулевая; они некоррелированы . Однако в частном случае, когда а также являются совместно нормально , uncorrelatedness эквивалентна независимости.
Несмотря на то, что некоррелированные данные не обязательно подразумевают независимость, можно проверить независимость случайных величин, если их взаимная информация равна 0.
Коэффициент корреляции выборки
Учитывая серию измерения пары проиндексировано , коэффициент корреляции выборки можно использовать для оценки корреляции Пирсона для популяции. между а также . Коэффициент корреляции выборки определяется как
где а также являются образцами средства из а также , а также а также являются скорректированные выборки стандартных отклонений от а также .
Эквивалентные выражения для находятся
где а также являются нескорректированными образцами стандартных отклонений от а также .
Если а также являются результатами измерений, которые содержат ошибку измерения, реалистичные пределы коэффициента корреляции составляют не от -1 до +1, а меньший диапазон. [6] Для случая линейной модели с единственной независимой переменной коэффициент детерминации (R в квадрате) представляет собой квадрат, Коэффициент произведения-момента Пирсона.
Пример
Рассмотрим совместное распределение вероятностей а также приведено в таблице ниже.
Для этого совместного распределения предельными распределениями являются:
Это дает следующие ожидания и отклонения:
Следовательно:
Коэффициенты ранговой корреляции
Коэффициенты ранговой корреляции , такие как коэффициент ранговой корреляции Спирмена и коэффициент ранговой корреляции (τ) Кендалла, измеряют степень, в которой по мере увеличения одной переменной другая переменная имеет тенденцию увеличиваться, не требуя, чтобы это увеличение было представлено линейной зависимостью. Если по мере увеличения одной переменной другая уменьшается , коэффициенты ранговой корреляции будут отрицательными. Эти коэффициенты ранговой корреляции принято рассматривать как альтернативу коэффициенту Пирсона, который используется либо для уменьшения объема вычислений, либо для того, чтобы сделать коэффициент менее чувствительным к ненормальности в распределениях. Однако у этого взгляда мало математического обоснования, поскольку коэффициенты ранговой корреляции измеряют другой тип взаимосвязи, чем коэффициент корреляции продукта-момента Пирсона , и лучше всего рассматриваются как меры другого типа ассоциации, а не как альтернативный показатель совокупности. коэффициент корреляции. [7] [8]
Чтобы проиллюстрировать природу ранговой корреляции и ее отличие от линейной корреляции, рассмотрим следующие четыре пары чисел. :
- (0, 1), (10, 100), (101, 500), (102, 2000).
Когда мы переходим от каждой пары к следующей паре увеличивается, и так же . Эти отношения идеальны в том смысле, что ростэто всегда сопровождается увеличением. Это означает, что у нас есть идеальная ранговая корреляция, и коэффициенты корреляции Спирмена и Кендалла равны 1, тогда как в этом примере коэффициент корреляции произведение-момент Пирсона равен 0,7544, что указывает на то, что точки далеко не лежат на прямой линии. Таким же образом, есливсегда уменьшается, когда увеличивается , коэффициенты ранговой корреляции будут равны -1, в то время как коэффициент корреляции произведения-момента Пирсона может или не может быть близким к -1, в зависимости от того, насколько близко точки находятся к прямой линии. Хотя в крайних случаях идеальной ранговой корреляции оба коэффициента равны (оба +1 или оба -1), это обычно не так, и поэтому значения двух коэффициентов не могут быть осмысленно сравнены. [7] Например, для трех пар (1, 1) (2, 3) (3, 2) коэффициент Спирмена равен 1/2, а коэффициент Кендалла - 1/3.
Другие меры зависимости между случайными величинами
Информации, предоставляемой коэффициентом корреляции, недостаточно для определения структуры зависимости между случайными величинами. [9] Коэффициент корреляции полностью определяет структуру зависимости только в очень частных случаях, например, когда распределение является многомерным нормальным распределением . (См. Диаграмму выше.) В случае эллиптических распределений он характеризует (гипер-) эллипсы одинаковой плотности; однако он не полностью характеризует структуру зависимости (например, степени свободы многомерного t-распределения определяют уровень хвостовой зависимости).
Корреляция расстояний [10] [11] была введена для устранения недостатка корреляции Пирсона, заключающейся в том, что она может равняться нулю для зависимых случайных величин; корреляция нулевого расстояния подразумевает независимость.
Рандомизированное Зависимость коэффициент [12] является вычислительно эффективной, копула основанной меры зависимости между многомерными случайными величинами. RDC инвариантен по отношению к нелинейным вычислениям случайных величин, способен обнаруживать широкий спектр функциональных паттернов ассоциации и принимает нулевое значение при независимости.
Для двух бинарных переменных отношение шансов измеряет их зависимость и принимает диапазон неотрицательных чисел, возможно, бесконечность:. Похожие статистические данные , такие как Юла в Y и Юле в Q нормализуют это соотношение, как диапазон. Отношение шансов обобщается логистической моделью для моделирования случаев, когда зависимые переменные являются дискретными и могут быть одна или несколько независимых переменных.
Коэффициент корреляции , взаимная информация на основе энтропии , общая корреляция , двойная полная корреляция и полихорическая корреляция также способны обнаруживать более общие зависимости, как и рассмотрение связки между ними, в то время как коэффициент детерминации обобщает коэффициент корреляции на множественную регрессию. .
Чувствительность к распределению данных
Степень зависимости между переменными а также не зависит от масштаба, в котором выражены переменные. То есть, если мы анализируем взаимосвязь между а также , на большинство показателей корреляции преобразование к a + bX ив c + dY , где a , b , c и d - константы ( b и d положительны). Это верно как для некоторых корреляционных статистических данных, так и для их популяционных аналогов. Некоторые статистические данные корреляции, такие как коэффициент ранговой корреляции, также инвариантны к монотонным преобразованиям маргинальных распределений и / или .
Большинство показателей корреляции чувствительны к тому, как а также выбраны. Зависимости становятся сильнее, если рассматривать их в более широком диапазоне значений. Таким образом, если мы рассмотрим коэффициент корреляции между ростом отцов и их сыновей по всем взрослым мужчинам и сравним его с таким же коэффициентом корреляции, вычисленным, когда отцы выбраны ростом от 165 до 170 см, корреляция будет слабее в последнем случае. Было разработано несколько методов, которые пытаются исправить ограничение диапазона для одной или обеих переменных, и обычно используются в метаанализе; наиболее распространены уравнения Торндайка II и III. [13]
Различные меры корреляции в использовании , может быть определена для некоторых совместных распределений X и Y . Например, коэффициент корреляции Пирсона определяется в терминах моментов и, следовательно, будет неопределенным, если моменты не определены. Меры зависимости, основанные на квантилях , всегда определяются. Статистика на основе выборки, предназначенная для оценки показателей зависимости населения, может иметь или не обладать желательными статистическими свойствами, такими как несмещенная или асимптотическая согласованность , в зависимости от пространственной структуры совокупности, из которой были взяты данные.
Чувствительность к распределению данных может быть использована с пользой. Например, масштабированная корреляция предназначена для использования чувствительности к диапазону, чтобы выделить корреляции между быстрыми компонентами временных рядов. [14] Путем уменьшения диапазона значений контролируемым образом корреляции на длительном временном масштабе отфильтровываются, и выявляются только корреляции на коротком временном масштабе.
Матрицы корреляции
Корреляционная матрица случайные переменные это матрица, чья запись . Таким образом, диагональные элементы равны единице . Если меры корреляций используются коэффициенты продукта момент, корреляционная матрица является таким же , как ковариационная матрица из стандартизованных случайных величин для . Это относится как к матрице корреляций населения (в этом случае - стандартное отклонение генеральной совокупности) и матрице выборочных корреляций (в этом случае обозначает стандартное отклонение выборки). Следовательно, каждая из них обязательно является положительно-полуопределенной матрицей . Более того, корреляционная матрица является строго положительно определенной, если никакая переменная не может иметь все свои значения, точно сгенерированные как линейная функция значений других.
Матрица корреляции симметрична, потому что корреляция между а также совпадает с корреляцией между а также .
Матрица корреляции появляется, например, в одной формуле для коэффициента множественной детерминации , меры согласия в множественной регрессии .
В статистическом моделировании корреляционные матрицы, представляющие отношения между переменными, подразделяются на различные корреляционные структуры, которые различаются такими факторами, как количество параметров, необходимых для их оценки. Например, в заменяемой корреляционной матрице все пары переменных моделируются как имеющие одинаковую корреляцию, поэтому все недиагональные элементы матрицы равны друг другу. С другой стороны, авторегрессионная матрица часто используется, когда переменные представляют собой временной ряд, поскольку корреляции, вероятно, будут больше, когда измерения ближе по времени. Другие примеры включают независимый, неструктурированный, M-зависимый и Toeplitz.
Ближайшая действительная корреляционная матрица
В некоторых приложениях (например, при построении моделей данных только на основе частично наблюдаемых данных) нужно найти «ближайшую» корреляционную матрицу к «приблизительной» корреляционной матрице (например, матрица, которая обычно не имеет полуопределенной положительности из-за того, как она имеет вычислено).
В 2002 году Хайэм [15] формализовал понятие близости, используя норму Фробениуса, и предоставил метод для вычисления ближайшей корреляционной матрицы с использованием алгоритма проекции Дикстры , реализация которого доступна в виде онлайн-веб-API. [16]
Это вызвало интерес к предмету с новыми теоретическими (например, вычисление ближайшей корреляционной матрицы с факторной структурой [17] ) и численными (например, использование метода Ньютона для вычисления ближайшей корреляционной матрицы [18] ) результатами, полученными в последующие годы.
Аналогично для двух случайных процессов а также : Если они независимы, то они некоррелированы. [19] : с. 151
Распространенные заблуждения
Корреляция и причинно-следственная связь
Традиционное изречение, что « корреляция не подразумевает причинно-следственную связь », означает, что корреляция не может использоваться сама по себе для вывода причинной связи между переменными. [20] Это изречение не должно означать, что корреляции не могут указывать на возможное существование причинных отношений. Однако причины, лежащие в основе корреляции, если таковые имеются, могут быть косвенными и неизвестными, а высокие корреляции также пересекаются с отношениями идентичности ( тавтологиями ), где не существует причинных процессов. Следовательно, корреляция между двумя переменными не является достаточным условием для установления причинно-следственной связи (в любом направлении).
Корреляция между возрастом и ростом у детей довольно прозрачна с точки зрения причинно-следственной связи, но корреляция между настроением и здоровьем людей менее очевидна. Приводит ли улучшение настроения к улучшению здоровья, или хорошее здоровье приводит к хорошему настроению, или и то, и другое? Или в основе обоих лежит какой-то другой фактор? Другими словами, корреляция может рассматриваться как свидетельство возможной причинной связи, но не может указывать на то, какой может быть причинная связь, если таковая имеется.
Простые линейные корреляции
Коэффициент корреляции Пирсона указывает на силу линейной связи между двумя переменными, но его значение, как правило, не полностью характеризует их взаимосвязь. [21] В частности, если условное среднее из дано , обозначенный , не является линейным по коэффициент корреляции не будет полностью определять вид .
Прилегающие изображение показывает разброс участков из квартет энскомбы , набор из четырех различных пар переменных , созданный Фрэнсис Анскомбами . [22] Четырепеременные имеют одинаковое среднее значение (7,5), дисперсию (4,12), корреляцию (0,816) и линию регрессии ( y = 3 + 0,5 x ). Однако, как видно на графиках, распределение переменных сильно отличается. Первый (вверху слева), кажется, распределен нормально и соответствует тому, что можно было бы ожидать, рассматривая две коррелированные переменные и следуя предположению о нормальности. Второй (вверху справа) не распространяется нормально; хотя можно наблюдать очевидную взаимосвязь между двумя переменными, она не является линейной. В этом случае коэффициент корреляции Пирсона не указывает на то, что существует точная функциональная связь: только степень, в которой эта связь может быть аппроксимирована линейной зависимостью. В третьем случае (внизу слева) линейная зависимость идеальна, за исключением одного выброса, который оказывает достаточное влияние, чтобы снизить коэффициент корреляции с 1 до 0,816. Наконец, четвертый пример (внизу справа) показывает другой пример, когда одного выброса достаточно для получения высокого коэффициента корреляции, даже если связь между двумя переменными не является линейной.
Эти примеры показывают, что коэффициент корреляции как сводная статистика не может заменить визуальный анализ данных. Иногда говорят, что примеры демонстрируют, что корреляция Пирсона предполагает, что данные следуют нормальному распределению , но это неверно. [4]
Двумерное нормальное распределение
Если пара случайных величин следует двумерному нормальному распределению , условное среднее является линейной функцией , а условное среднее является линейной функцией . Коэффициент корреляции между а также , наряду с предельными средними и дисперсиями а также , определяет эту линейную зависимость:
где а также ожидаемые значения а также соответственно и а также стандартные отклонения а также , соответственно.
Смотрите также
- Автокорреляция
- Каноническая корреляция
- Коэффициент детерминации
- Коинтеграция
- Коэффициент корреляции согласованности
- Кофенетическая корреляция
- Корреляционная функция
- Корреляционный разрыв
- Ковариация
- Ковариация и корреляция
- Взаимная корреляция
- Экологическая корреляция
- Необъяснимая доля дисперсии
- Генетическая корреляция
- Лямбда Гудмана и Крускала
- Иллюзорная корреляция
- Межклассовая корреляция
- Внутриклассовая корреляция
- Лифт (интеллектуальный анализ данных)
- Средняя зависимость
- Модифицируемая проблема площадных единиц
- Множественная корреляция
- Коэффициент точечно-бисериальной корреляции
- Соотношение числа квадрантов
- Ложная корреляция
- Статистический арбитраж
- Субзависимость
Рекомендации
- ^ Крокстон, Фредерик Эмори; Кауден, Дадли Джонстон; Кляйн, Сидней (1968) Общая прикладная статистика , Pitman. ISBN 9780273403159 (стр. 625)
- ^ Дитрих, Корнелиус Франк (1991) Неопределенность, калибровка и вероятность: статистика научных и промышленных измерений, 2-е издание, А. Хиглер. ISBN 9780750300605 (стр. 331)
- ^ Эйткен, Александр Крейг (1957) Статистическая математика 8-е издание. Оливер и Бойд. ISBN 9780050013007 (стр. 95)
- ^ а б Роджерс, Дж. Л.; Ничевандер, Вашингтон (1988). «Тринадцать способов взглянуть на коэффициент корреляции». Американский статистик . 42 (1): 59–66. DOI : 10.1080 / 00031305.1988.10475524 . JSTOR 2685263 .
- ^ Дауди, С. и Уэрден, С. (1983). «Статистика для исследований», Wiley. ISBN 0-471-08602-9, стр. 230
- ^ Фрэнсис, Д.П .; Пальто AJ; Гибсон Д. (1999). «Насколько высоким может быть коэффициент корреляции?». Int J Cardiol . 69 (2): 185–199. DOI : 10.1016 / S0167-5273 (99) 00028-5 .
- ↑ a b Yule, GU и Kendall, MG (1950), «Введение в теорию статистики», 14-е издание (5-е впечатление, 1968). Charles Griffin & Co., стр. 258–270.
- ^ Кендалл, MG (1955) «Методы ранговой корреляции», Charles Griffin & Co.
- ^ Махдави Дамгани Б. (2013). «Не вводящая в заблуждение ценность предполагаемой корреляции: Введение в модель коинтелирования». Журнал Уилмотт . 2013 (67): 50–61. DOI : 10.1002 / wilm.10252 .
- ^ Секели, Дж. Дж. Риццо; Бакиров, Н.К. (2007). «Измерение и проверка независимости путем корреляции расстояний». Анналы статистики . 35 (6): 2769–2794. arXiv : 0803.4101 . DOI : 10.1214 / 009053607000000505 .
- ^ Секели, GJ; Риццо, ML (2009). «Ковариация броуновского расстояния» . Анналы прикладной статистики . 3 (4): 1233–1303. arXiv : 1010.0297 . DOI : 10.1214 / 09-AOAS312 . PMC 2889501 . PMID 20574547 .
- ^ Lopez-Паз Д. и Хенниг П. и Schölkopf B. (2013). «Рандомизированная Зависимость коэффициента», « Конференция по системам Neural Information Processing » Перепечатка
- ^ Торндайк, Роберт Лэдд (1947). Проблемы и методы исследования (Отчет № 3) . Вашингтон, округ Колумбия: Правительство США. Распечатать. выключенный.
- ^ Николич, Д; Муресан, RC; Фен, Вт; Певица, W (2012). «Масштабированный корреляционный анализ: лучший способ вычисления кросс-коррелограммы». Европейский журнал нейробиологии . 35 (5): 1-21. DOI : 10.1111 / j.1460-9568.2011.07987.x . PMID 22324876 .
- ^ Хайэм, Николас Дж. (2002). «Вычисление ближайшей корреляционной матрицы - задача из финансов». Журнал численного анализа IMA . 22 (3): 329–343. CiteSeerX 10.1.1.661.2180 . DOI : 10.1093 / imanum / 22.3.329 .
- ^ «Оптимизатор портфеля» . portfoliooptimizer.io/ . Проверено 30 января 2021 .
- ^ Борсдорф, Рюдигер; Higham, Николас Дж .; Райдан, Маркос (2010). «Вычисление ближайшей корреляционной матрицы с факторной структурой». SIAM J. Matrix Anal. Прил . 31 (5): 2603–2622. DOI : 10.1137 / 090776718 .
- ^ Ци, ХУДУО; Солнце, DEFENG (2006). «Квадратично сходящийся метод Ньютона для вычисления ближайшей корреляционной матрицы». SIAM J. Matrix Anal. Прил . 28 (2): 360–385. DOI : 10.1137 / 050624509 .
- ^ Парк, Кун Иль (2018). Основы вероятностных и случайных процессов с приложениями к коммуникациям . Springer. ISBN 978-3-319-68074-3.
- ^ Олдрич, Джон (1995). «Корреляции подлинного и ложного в Пирсоне и Йоле» . Статистическая наука . 10 (4): 364–376. DOI : 10,1214 / сс / 1177009870 . JSTOR 2246135 .
- ^ Махдави Дамгани, Бабак (2012). «Вводящее в заблуждение значение измеренной корреляции». Журнал Уилмотт . 2012 (1): 64–73. DOI : 10.1002 / wilm.10167 .
- ^ Анскомб, Фрэнсис Дж. (1973). «Графики в статистическом анализе». Американский статистик . 27 (1): 17–21. DOI : 10.2307 / 2682899 . JSTOR 2682899 .
дальнейшее чтение
- Cohen, J .; Cohen P .; Уэст, С.Г. и Эйкен, Л.С. (2002). Применил множественный регрессионный / корреляционный анализ для поведенческих наук (3-е изд.). Психология Press. ISBN 978-0-8058-2223-6.
- «Корреляция (в статистике)» , Математическая энциклопедия , EMS Press , 2001 [1994]
- Острейхер, Дж. И Д.Р. (26 февраля 2015 г.). Plague of Equals: научный триллер о международных болезнях, политике и открытиях лекарств . Калифорния: Omega Cat Press. п. 408. ISBN 978-0963175540.
Внешние ссылки
- Страница MathWorld с коэффициентами (взаимной) корреляции выборки
- Вычислите значимость между двумя корреляциями для сравнения двух значений корреляции.
- Набор инструментов MATLAB для вычисления взвешенных коэффициентов корреляции
- [1] Доказательство того, что образец двумерной корреляции имеет пределы плюс-минус-1
- Интерактивное флэш-моделирование корреляции двух нормально распределенных переменных. Автор Юха Пуранен.
- Корреляционный анализ. Биомедицинская статистика
- R-Психолог Корреляционная визуализация корреляции между двумя числовыми переменными