Коэффициент корреляции Пирсона

В статистике , то коэффициент корреляции Пирсона ( PCC , выраженной / р ɪər с ən / , также упоминается как Пирсона г , в Пирсона продукта момент коэффициент корреляции PPMCC , в двумерной корреляции , ^[1] или в просторечии просто как коэффициент корреляции ^{[ 2]} ) является мерой линейной корреляции между двумя наборами данных. Это ковариация двух переменных, деленная на произведение их стандартных отклонений.; таким образом, это, по сути, нормализованное измерение ковариации, так что результат всегда имеет значение от -1 до 1. Как и сама ковариация, мера может отражать только линейную корреляцию переменных и игнорировать многие другие типы взаимосвязей или корреляции. . В качестве простого примера можно ожидать, что возраст и рост выборки подростков из средней школы будут иметь коэффициент корреляции Пирсона значительно больше 0, но меньше 1 (поскольку 1 будет представлять нереально идеальную корреляцию).

Примеры диаграмм рассеяния с разными значениями коэффициента корреляции ( ρ )

Несколько наборов точек ( x , y ) с коэффициентами корреляции x и y для каждого набора. Обратите внимание, что корреляция отражает силу и направление линейной связи (верхняя строка), но не наклон этой связи (в середине) и не многие аспекты нелинейных отношений (внизу). NB: фигура в центре имеет наклон 0, но в этом случае коэффициент корреляции не определен, потому что дисперсия Y равна нулю.

Именование и история

Он был разработан Карлом Пирсоном на основе связанной идеи, предложенной Фрэнсисом Гальтоном в 1880-х годах, математическая формула для которой была выведена и опубликована Огюстом Браве в 1844 году. ^[ A ^]^[6]^[7]^[8]^[9] Таким образом, название коэффициента является примером закона Стиглера .

Определение

Коэффициент корреляции Пирсона - это ковариация двух переменных, деленная на произведение их стандартных отклонений . Форма определения включает «момент продукта», то есть среднее значение (первый момент о происхождении) произведения случайных величин, скорректированных на среднее значение; отсюда и модификатор product-moment в названии.

Для населения

Коэффициент корреляции Пирсона, когда он применяется к совокупности , обычно обозначается греческой буквой ρ (ро) и может называться коэффициентом корреляции совокупности или коэффициентом корреляции Пирсона совокупности . ^[10] Дана пара случайных величин. ${\ displaystyle (X, Y)}$ , формула для ρ ^[11] такова: ^[12]

{\ displaystyle \ rho _ {X, Y} = {\ frac {\ operatorname {cov} (X, Y)} {\ sigma _ {X} \ sigma _ {Y}}}}

( Уравнение 1 )

где:

{\ displaystyle \ operatorname {cov}}

является ковариация

{\ displaystyle \ sigma _ {X}}

это стандартное отклонение от

{\ displaystyle X}

{\ displaystyle \ sigma _ {Y}}

стандартное отклонение

{\ displaystyle Y}

Формула для ${\ displaystyle \ rho}$ можно выразить в терминах среднего и ожидания. С

{\ Displaystyle \ OperatorName {cov} (X, Y) = \ OperatorName {\ mathbb {E}} [(X- \ mu _ {X}) (Y- \ mu _ {Y})],}

^[11]

формула для ${\ displaystyle \ rho}$ также можно записать как

{\ displaystyle \ rho _ {X, Y} = {\ frac {\ operatorname {\ mathbb {E}} [(X- \ mu _ {X}) (Y- \ mu _ {Y})]} {\ сигма _ {X} \ sigma _ {Y}}}}

( Уравнение 2 )

где:

{\ displaystyle \ sigma _ {Y}}

а также

{\ displaystyle \ sigma _ {X}}

определены, как указано выше

{\ displaystyle \ mu _ {X}}

это среднее из

{\ displaystyle X}

{\ displaystyle \ mu _ {Y}}

это среднее из

{\ displaystyle Y}

{\ displaystyle \ operatorname {\ mathbb {E}}}

это ожидание .

Формула для ${\ displaystyle \ rho}$ можно выразить в терминах нецентрированных моментов. С

{\ Displaystyle \ mu _ {X} = \ OperatorName {\ mathbb {E}} [\, X \,]}

{\ Displaystyle \ му _ {Y} = \ OperatorName {\ mathbb {E}} [\, Y \,]}

{\ displaystyle \ sigma _ {X} ^ {2} = \ operatorname {\ mathbb {E}} [\, \ left (X- \ operatorname {\ mathbb {E}} [X] \ right) ^ {2} \,] = \ operatorname {\ mathbb {E}} [\, X ^ {2} \,] - \ left (\ operatorname {\ mathbb {E}} [\, X \,] \ right) ^ {2 }}

{\ displaystyle \ sigma _ {Y} ^ {2} = \ operatorname {\ mathbb {E}} [\, \ left (Y- \ operatorname {\ mathbb {E}} [Y] \ right) ^ {2} \,] = \ OperatorName {\ mathbb {E}} [\, Y ^ {2} \,] - \ left (\, \ operatorname {\ mathbb {E}} [\, Y \,] \ right) ^ {2}}

{\ Displaystyle \ OperatorName {\ mathbb {E}} [\, \ left (X- \ mu _ {X} \ right) \ left (Y- \ mu _ {Y} \ right) \,] = \ operatorname { \ mathbb {E}} [\, \ left (X- \ operatorname {\ mathbb {E}} [\, X \,] \ right) \ left (Y- \ operatorname {\ mathbb {E}} [\, Y \,] \ right) \,] = \ operatorname {\ mathbb {E}} [\, X \, Y \,] - \ operatorname {\ mathbb {E}} [\, X \,] \ operatorname { \ mathbb {E}} [\, Y \,] \ ,,}

формула для ${\ displaystyle \ rho}$ также можно записать как

{\ displaystyle \ rho _ {X, Y} = {\ frac {\ operatorname {\ mathbb {E}} [\, X \, Y \,] - \ operatorname {\ mathbb {E}} [\, X \ ,] \ operatorname {\ mathbb {E}} [\, Y \,]} {{\ sqrt {\ operatorname {\ mathbb {E}} [\, X ^ {2} \,] - \ left (\ operatorname {\ mathbb {E}} [\, X \,] \ right) ^ {2}}} ~ {\ sqrt {\ operatorname {\ mathbb {E}} [\, Y ^ {2} \,] - \ left (\ operatorname {\ mathbb {E}} [\, Y \,] \ right) ^ {2}}}}}.}.

Для образца

Коэффициент корреляции Пирсона, применяемый к выборке , обычно представлен как ${\ displaystyle r_ {xy}}$ и может называться выборочным коэффициентом корреляции или выборочным коэффициентом корреляции Пирсона . ^[10] Мы можем получить формулу для ${\ displaystyle r_ {xy}}$ путем подстановки оценок ковариаций и дисперсий, основанных на выборке, в формулу выше. Учитывая парные данные ${\ displaystyle \ left \ {(x_ {1}, y_ {1}), \ ldots, (x_ {n}, y_ {n}) \ right \}}$ состоящий из ${\ displaystyle n}$ пары, ${\ displaystyle r_ {xy}}$ определяется как:

{\ displaystyle r_ {xy} = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) (y_ {i} - {\ bar {y}) })} {{\ sqrt {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2}}} {\ sqrt {\ sum _ {i = 1} ^ {n} (y_ {i} - {\ bar {y}}) ^ {2}}}}}}

( Уравнение 3 )

где:

{\ displaystyle n}

размер выборки

{\ displaystyle x_ {i}, y_ {i}}

индивидуальные точки выборки, проиндексированные с помощью i

{\ textstyle {\ bar {x}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i}}

(выборочное среднее ); и аналогично для

{\ displaystyle {\ bar {y}}}

Перестановка дает нам эту формулу для ${\ displaystyle r_ {xy}}$ :

{\ displaystyle r_ {xy} = {\ frac {n \ sum x_ {i} y_ {i} - \ sum x_ {i} \ sum y_ {i}} {{\ sqrt {n \ sum x_ {i} ^) {2} - \ left (\ sum x_ {i} \ right) ^ {2}}} ~ {\ sqrt {n \ sum y_ {i} ^ {2} - \ left (\ sum y_ {i} \ right ) ^ {2}}}}}.}

где ${\ displaystyle n, x_ {i}, y_ {i}}$ определены, как указано выше.

Эта формула предлагает удобный однопроходный алгоритм для расчета выборочных корреляций, хотя в зависимости от задействованных чисел он иногда может быть численно нестабильным .

Повторная перестановка дает нам формулу ^[11] для ${\ displaystyle r_ {xy}}$ :

{\ displaystyle r_ {xy} = {\ frac {\ sum x_ {i} y_ {i} -n {\ bar {x}} {\ bar {y}}} {{\ sqrt {\ sum x_ {i}) ^ {2} -n {\ bar {x}} ^ {2}}} ~ {\ sqrt {\ sum y_ {i} ^ {2} -n {\ bar {y}} ^ {2}}}} }.}

где ${\ displaystyle n, x_ {i}, y_ {i}, {\ bar {x}}, {\ bar {y}}}$ определены, как указано выше.

Эквивалентное выражение дает формулу для ${\ displaystyle r_ {xy}}$ как среднее значение произведений стандартных баллов следующим образом:

{\ displaystyle r_ {xy} = {\ frac {1} {n-1}} \ sum _ {i = 1} ^ {n} \ left ({\ frac {x_ {i} - {\ bar {x}) }} {s_ {x}}} \ right) \ left ({\ frac {y_ {i} - {\ bar {y}}} {s_ {y}}} \ right)}

где

{\ displaystyle n, x_ {i}, y_ {i}, {\ bar {x}}, {\ bar {y}}}

определены, как указано выше, и

{\ displaystyle s_ {x}, s_ {y}}

определены ниже

{\ displaystyle \ left ({\ frac {x_ {i} - {\ bar {x}}} {s_ {x}}} \ right)}

является стандартным баллом (и аналогично стандартному баллу

{\ displaystyle y}

)

Альтернативные формулы для ${\ displaystyle r_ {xy}}$ также доступны. Например. можно использовать следующую формулу для ${\ displaystyle r_ {xy}}$ :

{\ displaystyle r_ {xy} = {\ frac {\ sum x_ {i} y_ {i} -n {\ bar {x}} {\ bar {y}}} {(n-1) s_ {x} s_ {y}}}}

где:

{\ displaystyle n, x_ {i}, y_ {i}, {\ bar {x}}, {\ bar {y}}}

определены, как указано выше, и:

{\ displaystyle s_ {x} = {\ sqrt {{\ frac {1} {n-1}} \ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2}}}}

( стандартное отклонение выборки ); и аналогично для

{\ displaystyle s_ {y}}

Практические вопросы

В условиях сильного шума извлечение коэффициента корреляции между двумя наборами стохастических переменных нетривиально, в частности, когда канонический корреляционный анализ сообщает о ухудшенных значениях корреляции из-за сильного влияния шума. Обобщение подхода дано в другом месте. ^[13]

В случае отсутствия данных Гаррен получил оценку максимального правдоподобия . ^[14]

Математические свойства

Абсолютные значения коэффициентов корреляции Пирсона выборки и генеральной совокупности находятся в диапазоне от 0 до 1. Корреляции, равные +1 или -1, соответствуют точкам данных, лежащим точно на линии (в случае выборочной корреляции), или двумерное распределение полностью поддерживается на линии (в случае корреляции населения). Коэффициент корреляции Пирсона симметричен: corr ( X , Y ) = corr ( Y , X ).

Ключевым математическим свойством коэффициента корреляции Пирсона является то, что он инвариантен при отдельных изменениях местоположения и масштаба двух переменных. То есть мы можем преобразовать X в a + bX и преобразовать Y в c + dY , где a , b , c и d - константы с b , d > 0 , без изменения коэффициента корреляции. (Это справедливо как для генеральных, так и для выборочных коэффициентов корреляции Пирсона.) Обратите внимание, что более общие линейные преобразования действительно изменяют корреляцию: см. § Декорреляция n случайных величин для применения этого.

Интерпретация

Диапазоны коэффициент корреляции от -1 до 1. значения A 1 означает , что линейное уравнение описывает взаимосвязь между X и Y отлично, причем все точки данных , лежащих на линии , для которых Y возрастает по мере X возрастает. Значение -1 означает, что все точки данных лежат на линии, для которой Y уменьшается с увеличением X. Значение 0 означает, что между переменными нет линейной корреляции. ^[15]

В более общем плане отметим, что ( X _i - X ) ( Y _i - Y ) положительно тогда и только тогда, когда X _i и Y _i лежат на одной стороне от своих соответствующих средних. Таким образом, коэффициент корреляции является положительным, если X _i и Y _i имеют тенденцию одновременно быть больше или одновременно меньше, чем их соответствующие средние значения. Коэффициент корреляции отрицательный ( антикорреляция ), если X _i и Y _i имеют тенденцию лежать на противоположных сторонах своих соответствующих средних. Причем, чем сильнее тенденция, тем больше абсолютное значение коэффициента корреляции.

Роджерс и Найсвандер ^[16] каталогизировали тринадцать способов интерпретации корреляции:

Функция исходных оценок и средних значений
Стандартизированная ковариация
Стандартизированный наклон линии регрессии
Среднее геометрическое двух наклонов регрессии
Корень квадратный из отношения двух дисперсий
Среднее перекрестное произведение стандартизованных переменных
Функция угла между двумя стандартизованными линиями регрессии
Функция угла между двумя переменными векторами
Измененная дисперсия разницы между стандартизованными баллами
Оценка по правилу балуна
Связанные с двумерными эллипсами изоконцентрации
Функция тестовой статистики из запланированных экспериментов
Соотношение двух средних

Геометрическая интерпретация

Линии регрессии для y = g _X ( x ) [ красный ] и x = g _Y ( y ) [ синий ]

Для нецентрированных данных существует связь между коэффициентом корреляции и углом φ между двумя линиями регрессии, y = g _X ( x ) и x = g _Y ( y ) , полученными путем регрессии y по x и x по y соответственно. (Здесь φ измеряется против часовой стрелки внутри первого квадранта, образованного вокруг точки пересечения линий, если r > 0 , или против часовой стрелки от четвертого ко второму квадранту, если r <0 .) Можно показать ^[17], что если стандартные отклонения равны равны, то r = sec φ - tan φ , где sec и tan - тригонометрические функции .

Для центрированных данных (то есть, данные , которые были сдвинуты на выборки посредством их соответствующих переменных так, чтобы иметь в среднем от нуля для каждого переменного), коэффициента корреляции можно также рассматривать как косинус этого угла & thetas между двумя Наблюдаемыми векторы в N -мерном пространстве (для N наблюдений каждой переменной) ^[18]

Для набора данных можно определить как нецентрированные (несовместимые с Пирсоном), так и центрированные коэффициенты корреляции. В качестве примера предположим, что в пяти странах валовой национальный продукт составляет 1, 2, 3, 5 и 8 миллиардов долларов соответственно. Предположим, что в этих пяти странах (в том же порядке) бедность составляет 11%, 12%, 13%, 15% и 18%. Затем пусть x и y будут упорядоченными 5-элементными векторами, содержащими указанные выше данные: x = (1, 2, 3, 5, 8) и y = (0.11, 0.12, 0.13, 0.15, 0.18) .

При обычной процедуре нахождения угла θ между двумя векторами (см. Скалярное произведение ) нецентрированный коэффициент корреляции равен:

{\ displaystyle \ cos \ theta = {\ frac {\ mathbf {x} \ cdot \ mathbf {y}} {\ left \ | \ mathbf {x} \ right \ | \ left \ | \ mathbf {y} \ right \ |}} = {\ frac {2.93} {{\ sqrt {103}} {\ sqrt {0.0983}}}} = 0,920814711.}

Этот нецентрированный коэффициент корреляции идентичен косинусному подобию . Обратите внимание, что приведенные выше данные были намеренно выбраны так, чтобы они идеально коррелировали: y = 0,10 + 0,01 x . Следовательно, коэффициент корреляции Пирсона должен быть равен единице. Центрирование данных (сдвиг x на ℰ ( x ) = 3,8 и y на ℰ ( y ) = 0,138 ) дает x = (−2,8, −1,8, −0,8, 1,2, 4,2) и y = (−0,028, −0,018, -0,008, 0,012, 0,042) , из которых

{\ displaystyle \ cos \ theta = {\ frac {\ mathbf {x} \ cdot \ mathbf {y}} {\ left \ | \ mathbf {x} \ right \ | \ left \ | \ mathbf {y} \ right \ |}} = {\ frac {0.308} {{\ sqrt {30.8}} {\ sqrt {0.00308}}}} = 1 = \ rho _ {xy},}

как и ожидалось.

Интерпретация величины корреляции

Этот рисунок дает представление о том, как полезность корреляции Пирсона для прогнозирования значений зависит от ее величины. Учитывая совместно нормальные X , Y с соотношением ρ ,

{\ displaystyle 1 - {\ sqrt {1- \ rho ^ {2}}}}

(график здесь как функция от р ) является фактором , с помощью которого данный интервал предсказания для Y может быть уменьшена , учитывая соответствующее значение X . Например, если ρ = 0,5, то 95% интервал прогнозирования Y | Х будет составлять около 13% меньше , чем интервал предсказания в 95% от Y .

Несколько авторов предложили рекомендации по интерпретации коэффициента корреляции. ^[19]^[20] Однако все такие критерии в некотором смысле произвольны. ^[20] Интерпретация коэффициента корреляции зависит от контекста и целей. Корреляция 0,8 может быть очень низкой, если кто-то проверяет физический закон с использованием высококачественных инструментов, но может считаться очень высокой в социальных науках, где может быть больший вклад усложняющих факторов.

Вывод

Статистический вывод, основанный на коэффициенте корреляции Пирсона, часто фокусируется на одной из следующих двух целей:

Одна из целей состоит в том, чтобы проверить нулевую гипотезу о том, что истинный коэффициент корреляции ρ равен 0, на основе значения выборочного коэффициента корреляции r .
Другая цель - получить доверительный интервал, который при повторной выборке имеет заданную вероятность содержания ρ .

Ниже мы обсудим методы достижения одной или обеих этих целей.

Использование теста перестановки

Перестановочные тесты обеспечивают прямой подход к выполнению проверки гипотез и построению доверительных интервалов. Проверка перестановки коэффициента корреляции Пирсона включает следующие два этапа:

Используя исходные парные данные ( x _i , y _i ), случайным образом переопределите пары, чтобы создать новый набор данных ( x _i , y _{i '} ), где i' - это перестановка набора {1, ..., n }. Перестановка i ' выбирается случайным образом с равными вероятностями для всех n ! возможные перестановки. Это эквивалентно отрисовке i ' случайным образом без замены из набора {1, ..., n }. В бутстрэппинге , тесно связанном подходе, i и i ' равны и выводятся с заменой из {1, ..., n };
Постройте коэффициент корреляции r из рандомизированных данных.

Чтобы выполнить проверку перестановки, повторите шаги (1) и (2) большое количество раз. Значение p для теста перестановки - это доля значений r, сгенерированных на этапе (2), которые больше, чем коэффициент корреляции Пирсона, рассчитанный на основе исходных данных. Здесь «больше» может означать, что значение больше по величине или больше по значению со знаком, в зависимости от того, требуется ли двусторонний или односторонний тест.

Использование бутстрапа

Самозагрузки могут быть использованы для построения доверительных интервалов для коэффициента корреляции Пирсона. В «непараметрическом» бутстрапе n пар ( x _i , y _i ) повторно дискретизируются «с заменой» из наблюдаемого набора из n пар, и коэффициент корреляции r вычисляется на основе данных повторной дискретизации. Этот процесс повторяется большое количество раз, и эмпирическое распределение повторно выбранных значений r используется для аппроксимации выборочного распределения статистики. 95% доверительный интервал для ρ можно определить как интервал, охватывающий от 2,5 до 97,5 процентилей передискретизированных значений r .

Тестирование с использованием t- распределения Стьюдента

Критические значения коэффициента корреляции Пирсона, которые должны быть превышены, чтобы считаться значимо отличными от нуля на уровне 0,05.

Для пар из нескоррелированого двухмерного нормального распределения , то распределение выборки определенной функции коэффициента корреляции Пирсона следующим образом Стьюдента т -распределение с степенями свободы п - 2. В частности, если базовые переменные имеет двумерный нормальное распределение, то переменные

{\ displaystyle t = r {\ sqrt {\ frac {n-2} {1-r ^ {2}}}}}

имеет t -распределение Стьюдента в нулевом случае (нулевая корреляция). ^[21] Это примерно справедливо в случае ненормальных наблюдаемых значений, если размеры выборки достаточно велики. ^[22] Для определения критических значений r необходима обратная функция:

{\ displaystyle r = {\ frac {t} {\ sqrt {n-2 + t ^ {2}}}}.}

В качестве альтернативы можно использовать асимптотические подходы с большой выборкой.

В другой ранней статье ^[23] представлены графики и таблицы для общих значений ρ для малых размеров выборки, а также обсуждаются вычислительные подходы.

В случае, когда базовые переменные не являются нормальными, выборочное распределение коэффициента корреляции Пирсона следует t- распределению Стьюдента, но степени свободы уменьшаются. ^[24]

Используя точное распределение

Для данных, которые следуют двумерному нормальному распределению , точная функция плотности f ( r ) для выборочного коэффициента корреляции r нормального двумерного параметра равна ^[25]^[26]^[27]

{\ displaystyle f (r) = {\ frac {(n-2) \, \ mathrm {\ Gamma} (n-1) (1- \ rho ^ {2}) ^ {\ frac {n-1} { 2}} (1-r ^ {2}) ^ {\ frac {n-4} {2}}} {{\ sqrt {2 \ pi}} \, \ mathrm {\ Gamma} (n - {\ tfrac {1} {2}}) (1- \ rho r) ^ {n - {\ frac {3} {2}}}}} {} _ {2} \ mathrm {F} _ {1} {\ bigl (} {\ tfrac {1} {2}}, {\ tfrac {1} {2}}; {\ tfrac {1} {2}} (2n-1); {\ tfrac {1} {2}} (\ rho r + 1) {\ bigr)}}

где ${\ Displaystyle \ mathrm {\ Gamma}}$ - гамма-функция и ${\ displaystyle {} _ {2} \ mathrm {F} _ {1} (a, b; c; z)}$ - гипергеометрическая функция Гаусса .

В частном случае, когда ${\ displaystyle \ rho = 0}$ , точная функция плотности f ( r ) может быть записана как:

{\ displaystyle f (r) = {\ frac {\ left (1-r ^ {2} \ right) ^ {\ frac {n-4} {2}}} {\ mathrm {B} \ left ({\ tfrac {1} {2}}, {\ tfrac {1} {2}} (n-2) \ right)}},}

где ${\ displaystyle \ mathrm {B}}$ - это бета-функция , которая является одним из способов записать плотность t-распределения Стьюдента, как указано выше.

Использование точного распределения достоверности

Доверительные интервалы и тесты могут быть рассчитаны на основе доверительного распределения . Точная доверительная плотность для ρ равна ^[28]

{\ displaystyle \ pi (\ rho | r) = {\ frac {\ nu (\ nu -1) \ Gamma (\ nu -1)} {{\ sqrt {2 \ pi}} \ Gamma (\ nu + { \ frac {1} {2}})}} (1-r ^ {2}) ^ {\ frac {\ nu -1} {2}} \ cdot (1- \ rho ^ {2}) ^ {\ frac {\ nu -2} {2}} \ cdot (1-r \ rho) ^ {\ frac {1-2 \ nu} {2}} F \ left ({\ tfrac {3} {2}}, - {\ tfrac {1} {2}}; \ nu + {\ tfrac {1} {2}}; {\ tfrac {1 + r \ rho} {2}} \ right)}

где ${\ displaystyle F}$ - гипергеометрическая функция Гаусса, а ${\ Displaystyle \ ню = п-1> 1}$ .

Использование преобразования Фишера

На практике доверительные интервалы и проверка гипотез, относящихся к ρ , обычно выполняются с использованием преобразования Фишера , ${\ displaystyle F}$ :

{\ Displaystyle F (r) \ Equiv {\ tfrac {1} {2}} \, \ ln \ left ({\ frac {1 + r} {1-r}} \ right) = \ operatorname {artanh} ( р)}

F ( r ) приблизительно следует нормальному распределению с

{\ displaystyle {\ text {mean}} = F (\ rho) = \ operatorname {artanh} (\ rho)}

и стандартная ошибка

{\ displaystyle = {\ text {SE}} = {\ frac {1} {\ sqrt {n-3}}},}

где n - размер выборки. Ошибка аппроксимации минимальна для большого размера выборки. ${\ displaystyle n}$ и маленький ${\ displaystyle r}$ а также ${\ displaystyle \ rho _ {0}}$ и увеличивается в противном случае.

Используя аппроксимацию, z-показатель равен

{\ displaystyle z = {\ frac {x - {\ text {mean}}} {\ text {SE}}} = [F (r) -F (\ rho _ {0})] {\ sqrt {n- 3}}}

при нулевой гипотезе, что ${\ displaystyle \ rho = \ rho _ {0}}$ при условии, что пары выборок независимы, одинаково распределены и подчиняются двумерному нормальному распределению . Таким образом, приблизительное p-значение может быть получено из нормальной таблицы вероятностей. Например, если наблюдается z = 2,2 и требуется двустороннее значение p для проверки нулевой гипотезы о том, что ${\ displaystyle \ rho = 0}$ , p-значение равно 2 Φ (−2,2) = 0,028 , где Φ - стандартная нормальная кумулятивная функция распределения .

Чтобы получить доверительный интервал для ρ, мы сначала вычисляем доверительный интервал для F ( ${\ displaystyle \ rho}$ ):

{\ displaystyle 100 (1- \ alpha) \% {\ text {CI}}: \ operatorname {artanh} (\ rho) \ in [\ operatorname {artanh} (r) \ pm z _ {\ alpha / 2} { \ text {SE}}]}

Обратное преобразование Фишера возвращает интервал к шкале корреляции.

{\ displaystyle 100 (1- \ alpha) \% {\ text {CI}}: \ rho \ in [\ tanh (\ operatorname {artanh} (r) -z _ {\ alpha / 2} {\ text {SE}) }), \ tanh (\ operatorname {artanh} (r) + z _ {\ alpha / 2} {\ text {SE}})]}

Например, предположим, что мы наблюдаем r = 0,3 с размером выборки n = 50, и мы хотим получить 95% доверительный интервал для ρ. Преобразованное значение составляет arctanh ( r ) = 0,30952, поэтому доверительный интервал на преобразованной шкале составляет 0,30952 ± 1,96 / √ 47 или (0,023624, 0,595415). Возврат к шкале корреляции дает (0,024, 0,534).

Регрессионный анализ методом наименьших квадратов

Квадрат выборочного коэффициента корреляции обычно обозначается r ² и является частным случаем коэффициента детерминации . В этом случае он оценивает долю дисперсии Y, которая объясняется X в простой линейной регрессии . Итак, если у нас есть наблюдаемый набор данных ${\ displaystyle Y_ {1}, \ dots, Y_ {n}}$ и подобранный набор данных ${\ displaystyle {\ hat {Y}} _ {1}, \ dots, {\ hat {Y}} _ {n}}$ тогда в качестве отправной точки общее изменение Y _i вокруг их среднего значения можно разложить следующим образом

{\ displaystyle \ sum _ {i} (Y_ {i} - {\ bar {Y}}) ^ {2} = \ sum _ {i} (Y_ {i} - {\ hat {Y}} _ {i }) ^ {2} + \ sum _ {i} ({\ hat {Y}} _ {i} - {\ bar {Y}}) ^ {2},}

где ${\ displaystyle {\ hat {Y}} _ {i}}$ являются подобранными значениями из регрессионного анализа. Это можно изменить, чтобы дать

{\ displaystyle 1 = {\ frac {\ sum _ {i} (Y_ {i} - {\ hat {Y}} _ {i}) ^ {2}} {\ sum _ {i} (Y_ {i} - {\ bar {Y}}) ^ {2}}} + {\ frac {\ sum _ {i} ({\ hat {Y}} _ {i} - {\ bar {Y}}) ^ {2 }} {\ sum _ {i} (Y_ {i} - {\ bar {Y}}) ^ {2}}}.}

Два слагаемых выше представляют собой долю дисперсии в Y, которая объясняется X (справа) и не объясняется X (слева).

Затем мы применяем свойство моделей регрессии по методу наименьших квадратов, заключающееся в том, что выборочная ковариация между ${\ displaystyle {\ hat {Y}} _ {i}}$ а также ${\ displaystyle Y_ {i} - {\ hat {Y}} _ {i}}$ равно нулю. Таким образом, можно записать выборочный коэффициент корреляции между наблюдаемыми и подобранными значениями отклика в регрессии (расчет не соответствует ожиданиям, предполагает гауссову статистику)

{\ displaystyle {\ begin {align} r (Y, {\ hat {Y}}) & = {\ frac {\ sum _ {i} (Y_ {i} - {\ bar {Y}}) ({\ шляпа {Y}} _ {i} - {\ bar {Y}})} {\ sqrt {\ sum _ {i} (Y_ {i} - {\ bar {Y}}) ^ {2} \ cdot \ sum _ {i} ({\ hat {Y}} _ {i} - {\ bar {Y}}) ^ {2}}}} \\ [6pt] & = {\ frac {\ sum _ {i} (Y_ {i} - {\ hat {Y}} _ {i} + {\ hat {Y}} _ {i} - {\ bar {Y}}) ({\ hat {Y}} _ {i} - {\ bar {Y}})} {\ sqrt {\ sum _ {i} (Y_ {i} - {\ bar {Y}}) ^ {2} \ cdot \ sum _ {i} ({\ hat {Y}} _ {i} - {\ bar {Y}}) ^ {2}}}} \\ [6pt] & = {\ frac {\ sum _ {i} [(Y_ {i} - {\ hat {Y}} _ {i}) ({\ hat {Y}} _ {i} - {\ bar {Y}}) + ({\ hat {Y}} _ {i} - {\ bar {Y }}) ^ {2}]} {\ sqrt {\ sum _ {i} (Y_ {i} - {\ bar {Y}}) ^ {2} \ cdot \ sum _ {i} ({\ hat { Y}} _ {i} - {\ bar {Y}}) ^ {2}}}} \\ [6pt] & = {\ frac {\ sum _ {i} ({\ hat {Y}} _ { i} - {\ bar {Y}}) ^ {2}} {\ sqrt {\ sum _ {i} (Y_ {i} - {\ bar {Y}}) ^ {2} \ cdot \ sum _ { i} ({\ hat {Y}} _ {i} - {\ bar {Y}}) ^ {2}}}} \\ [6pt] & = {\ sqrt {\ frac {\ sum _ {i} ({\ hat {Y}} _ {i} - {\ bar {Y}}) ^ {2}} {\ sum _ {i} (Y_ {i} - {\ bar {Y}}) ^ {2 }}}}. \ end {выравнивается}}}

Таким образом

{\ displaystyle r (Y, {\ hat {Y}}) ^ {2} = {\ frac {\ sum _ {i} ({\ hat {Y}} _ {i} - {\ bar {Y}}) ) ^ {2}} {\ sum _ {i} (Y_ {i} - {\ bar {Y}}) ^ {2}}}}

где

{\ Displaystyle г (Y, {\ шляпа {Y}}) ^ {2}}

это доля дисперсии Y объясняется линейной функцией от X .

В приведенном выше выводе тот факт, что

{\ displaystyle \ sum _ {i} (Y_ {i} - {\ hat {Y}} _ {i}) ({\ hat {Y}} _ {i} - {\ bar {Y}}) = 0 }

можно доказать, заметив, что частные производные остаточной суммы квадратов ( $RSS$ ) по β ₀ и β ₁ равны 0 в модели наименьших квадратов, где

{\ displaystyle {\ text {RSS}} = \ sum _ {i} (Y_ {i} - {\ hat {Y}} _ {i}) ^ {2}}

.

В конце концов, уравнение можно записать как:

{\ displaystyle r (Y, {\ hat {Y}}) ^ {2} = {\ frac {{\ text {SS}} _ {\ text {reg}}} {{\ text {SS}} _ { \ text {tot}}}}}

где

{\ displaystyle {\ text {SS}} _ {\ text {reg}} = \ sum _ {i} ({\ hat {Y}} _ {i} - {\ bar {Y}}) ^ {2} }

{\ displaystyle {\ text {SS}} _ {\ text {tot}} = \ sum _ {i} (Y_ {i} - {\ bar {Y}}) ^ {2}}

Символ ${\ displaystyle {\ text {SS}} _ {\ text {reg}}}$ называется суммой квадратов регрессии, также называемой объясненной суммой квадратов , и ${\ displaystyle {\ text {SS}} _ {\ text {tot}}}$ - общая сумма квадратов (пропорциональная дисперсии данных).

Чувствительность к распределению данных

Существование

Коэффициент корреляции Пирсона совокупности определяется в терминах моментов и, следовательно, существует для любого двумерного распределения вероятностей, для которого определена ковариация совокупности и определены маргинальные дисперсии совокупности , которые не равны нулю. Некоторые распределения вероятностей, такие как распределение Коши, имеют неопределенную дисперсию, и, следовательно, ρ не определено, если X или Y следует такому распределению. В некоторых практических приложениях, например, с данными, предположительно подчиняющимися распределению с тяжелым хвостом , это важное соображение. Однако наличие коэффициента корреляции обычно не вызывает беспокойства; например, если диапазон распределения ограничен, всегда определяется ρ.

Размер образца

Если размер выборки средний или большой, а совокупность нормальная, то в случае двумерного нормального распределения коэффициент корреляции выборки является оценкой максимального правдоподобия коэффициента корреляции совокупности, асимптотически несмещенной и эффективной , что примерно означает что невозможно построить более точную оценку, чем выборочный коэффициент корреляции.
Если размер выборки велик, а совокупность ненормальна, то коэффициент корреляции выборки остается приблизительно несмещенным, но может быть неэффективным.
Если размер выборки большой, то коэффициент корреляции выборки является непротиворечивой оценкой коэффициента корреляции совокупности до тех пор, пока средние выборки, дисперсии и ковариация согласованы (что гарантируется, когда может применяться закон больших чисел ).
Если размер выборки невелик, то коэффициент корреляции выборки r не является несмещенной оценкой ρ . ^[11] Вместо этого следует использовать скорректированный коэффициент корреляции: см. Определение в другом месте этой статьи.
Корреляции могут быть разными для несбалансированных дихотомических данных, когда в выборке есть ошибка дисперсии. ^[29]

Надежность

Как и во многих широко используемых статистических данных, выборка статистики г не надежный , ^[30] , поэтому его значение может ввести в заблуждение , если выбросы присутствуют. ^[31]^{[32] В} частности, PMCC не является ни устойчивым с точки зрения распределения, ^{[ необходима цитата ],} ни устойчивостью к выбросам ^[30] (см. Устойчивую статистику # Определение ). Проверка диаграммы рассеяния между X и Y обычно выявляет ситуацию, когда отсутствие устойчивости может быть проблемой, и в таких случаях может быть целесообразно использовать надежную меру ассоциации. Однако обратите внимание, что, хотя большинство надежных оценок ассоциации каким-то образом измеряют статистическую зависимость , они, как правило, не интерпретируются в той же шкале, что и коэффициент корреляции Пирсона.

Статистический вывод для коэффициента корреляции Пирсона чувствителен к распределению данных. Точные тесты и асимптотические тесты, основанные на преобразовании Фишера, могут применяться, если данные приблизительно нормально распределены, но в противном случае могут вводить в заблуждение. В некоторых ситуациях бутстрап может применяться для построения доверительных интервалов, а тесты перестановки могут применяться для проверки гипотез. Эти непараметрические подходы могут дать более значимые результаты в некоторых ситуациях, когда двумерная нормальность не выполняется. Однако стандартные версии этих подходов полагаются на возможность обмена данными, что означает отсутствие упорядочения или группировки анализируемых пар данных, которые могли бы повлиять на поведение оценки корреляции.

Стратифицированный анализ - это один из способов либо учесть отсутствие двумерной нормальности, либо изолировать корреляцию, возникающую в результате одного фактора, при одновременном контроле другого. Если W представляет принадлежность к кластеру или другой фактор, который желательно контролировать, мы можем стратифицировать данные на основе значения W , а затем рассчитать коэффициент корреляции в пределах каждой страты. Оценки прослойки уровня могут затем быть объединены , чтобы оценить общую корреляцию, контролируя при этом для W . ^[33]

Варианты

Вариации коэффициента корреляции можно рассчитывать для разных целей. Вот несколько примеров.

Скорректированный коэффициент корреляции

Коэффициент корреляции выборки $r$ не является объективной оценкой $ρ$ . Для данных, которые подчиняются двумерному нормальному распределению , математическое ожидание $E [r]$ для выборочного коэффициента корреляции $r$ нормального двумерного параметра составляет ^[34]

{\ displaystyle \ operatorname {\ mathbb {E}} \ left [r \ right] = \ rho - {\ frac {\ rho \ left (1- \ rho ^ {2} \ right)} {2n}} + \ cdots, \ quad}

поэтому

r

- смещенная оценка

{\ displaystyle \ rho.}

Уникальная несмещенная оценка минимальной дисперсии $r adj$ дается формулой ^[35]

{\ displaystyle r _ {\ text {adj}} = r \, \ mathbf {_ {2} F_ {1}} \ left ({\ frac {1} {2}}, {\ frac {1} {2} }; {\ frac {n-1} {2}}; 1-r ^ {2} \ right),}

( 1 )

где:

{\ displaystyle r, n}

определены, как указано выше,

{\ Displaystyle \ mathbf {_ {2} F_ {1}} (a, b; c; z)}

- гипергеометрическая функция Гаусса .

Приблизительно несмещенная оценка $r adj$ может быть получена ^{[ необходима цитата ]} путем усечения $E [r]$ и решения этого усеченного уравнения:

{\ displaystyle r = \ operatorname {\ mathbb {E}} [r] \ приблизительно r _ {\ text {adj}} - {\ frac {r _ {\ text {adj}} (1-r _ {\ text {adj} } ^ {2})} {2n}}.}

( 2 )

Приближенное решение ^{[ необходимая цитата ]} уравнения ( 2 ):

{\ displaystyle r _ {\ text {adj}} \ приблизительно r \ left [1 + {\ frac {1-r ^ {2}} {2n}} \ right],}

( 3 )

где в ( 3 ):

{\ displaystyle r, n}

определены, как указано выше,

r adj

- неоптимальная оценка, ^{[ необходима цитата ]}^{[ требуется пояснение ]}

r adj

также можно получить, максимизируя log ( f ( r )),

r adj

имеет минимальную дисперсию для больших значений

n

,

r adj

имеет смещение порядка

1 / (n - 1)

.

Другой предлагаемый ^[11] скорректированный коэффициент корреляции: ^{[ необходима цитата ]}

{\ displaystyle r _ {\ text {adj}} = {\ sqrt {1 - {\ frac {(1-r ^ {2}) (n-1)} {(n-2)}}}}.}

Обратите внимание, что $r adj \approx r$ для больших значений $n$ .

Взвешенный коэффициент корреляции

Предположим, что коррелируемые наблюдения имеют разную степень важности, которая может быть выражена весовым вектором w . Чтобы вычислить корреляцию между векторами x и y с вектором весов w (все длины n ), ^[36]^[37]

Средневзвешенное значение: ${\ displaystyle \ operatorname {m} (x; w) = {\ frac {\ sum _ {i} w_ {i} x_ {i}} {\ sum _ {i} w_ {i}}}.}$
Взвешенная ковариация ${\ displaystyle \ operatorname {cov} (x, y; w) = {\ frac {\ sum _ {i} w_ {i} \ cdot (x_ {i} - \ operatorname {m} (x; w)) ( y_ {i} - \ operatorname {m} (y; w))} {\ sum _ {i} w_ {i}}}.}.}$
Взвешенная корреляция ${\ displaystyle \ operatorname {corr} (x, y; w) = {\ frac {\ operatorname {cov} (x, y; w)} {\ sqrt {\ operatorname {cov} (x, x; w) \ имя оператора {cov} (y, y; w)}}}.}$

Коэффициент корреляции отражения

Отражательная корреляция - это вариант корреляции Пирсона, в которой данные не сосредоточены вокруг своих средних значений. ^{[ необходима цитата ]} Корреляция, отражающая население,

{\ displaystyle \ operatorname {corr} _ {r} (X, Y) = {\ frac {\ operatorname {\ mathbb {E}} [\, X \, Y \,]} {\ sqrt {\ operatorname {\ mathbb {E}} [\, X ^ {2} \,] \ cdot \ operatorname {\ mathbb {E}} [\, Y ^ {2} \,]}}}.}

Отражательная корреляция симметрична, но не инвариантна при переводе:

{\ displaystyle \ operatorname {corr} _ {r} (X, Y) = \ operatorname {corr} _ {r} (Y, X) = \ operatorname {corr} _ {r} (X, bY) \ neq \ имя оператора {corr} _ {r} (X, a + bY), \ quad a \ neq 0, b> 0.}

Отражательная корреляция выборки эквивалентна косинусному подобию :

{\ displaystyle rr_ {xy} = {\ frac {\ sum x_ {i} y_ {i}} {\ sqrt {(\ sum x_ {i} ^ {2}) (\ sum y_ {i} ^ {2} )}}}.}

Взвешенная версия выборочной корреляции отражательной способности:

{\ displaystyle rr_ {xy, w} = {\ frac {\ sum w_ {i} x_ {i} y_ {i}} {\ sqrt {(\ sum w_ {i} x_ {i} ^ {2}) ( \ sum w_ {i} y_ {i} ^ {2})}}}.}

Масштабированный коэффициент корреляции

Масштабированная корреляция - это вариант корреляции Пирсона, в которой диапазон данных ограничен намеренно и контролируемым образом, чтобы выявить корреляции между быстрыми компонентами во временных рядах. ^[38] Масштабная корреляция определяется как средняя корреляция между короткими сегментами данных.

Позволять ${\ displaystyle K}$ быть количеством сегментов, которые могут уместиться в общую длину сигнала ${\ displaystyle T}$ для заданного масштаба ${\ displaystyle s}$ :

{\ displaystyle K = \ operatorname {round} \ left ({\ frac {T} {s}} \ right).}

Масштабированная корреляция по всем сигналам ${\ displaystyle {\ bar {r}} _ {s}}$ затем вычисляется как

{\ displaystyle {\ bar {r}} _ {s} = {\ frac {1} {K}} \ sum \ limits _ {k = 1} ^ {K} r_ {k},}

где ${\ displaystyle r_ {k}}$ коэффициент корреляции Пирсона для сегмента ${\ displaystyle k}$ .

Выбрав параметр ${\ displaystyle s}$ , диапазон значений сокращается и корреляции на больших временных масштабах отфильтровываются, выявляются только корреляции на коротких временных масштабах. Таким образом, вклад медленных компонентов удаляется, а вклад быстрых компонентов сохраняется.

Расстояние Пирсона

Метрика расстояния для двух переменных X и Y, известная как расстояние Пирсона, может быть определена по их коэффициенту корреляции как ^[39]

{\ displaystyle d_ {X, Y} = 1- \ rho _ {X, Y}.}

Учитывая, что коэффициент корреляции Пирсона находится между [-1, +1], расстояние Пирсона лежит в [0, 2]. Расстояние Пирсона использовалось в кластерном анализе и обнаружении данных для связи и хранения с неизвестным усилением и смещением ^[40]

Коэффициент круговой корреляции

Для переменных X = { x ₁ , ..., x _n } и Y = { y ₁ , ..., y _n }, которые определены на единичной окружности [0, 2 $π$ ), можно определить круговую аналог коэффициента Пирсона. ^[41] Это делается путем преобразования точек данных в X и Y с помощью синусоидальной функции, так что коэффициент корреляции задается как:

{\ displaystyle r _ {\ text {round}} = {\ frac {\ sum _ {i = 1} ^ {n} \ sin (x_ {i} - {\ bar {x}}) \ sin (y_ {i } - {\ bar {y}})} {{\ sqrt {\ sum _ {i = 1} ^ {n} \ sin (x_ {i} - {\ bar {x}}) ^ {2}}} {\ sqrt {\ sum _ {i = 1} ^ {n} \ sin (y_ {i} - {\ bar {y}}) ^ {2}}}}}}}

где ${\ displaystyle {\ bar {x}}}$ а также ${\ displaystyle {\ bar {y}}}$ являются круговыми средства из X и Y . Эта мера может быть полезна в таких областях, как метеорология, где важно угловое направление данных.

Частичная корреляция

Если совокупность или набор данных характеризуются более чем двумя переменными, частичный коэффициент корреляции измеряет силу зависимости между парой переменных, которая не учитывается тем, как они обе изменяются в ответ на вариации в выбранном подмножестве. других переменных.

Декорреляция n случайных величин

Всегда можно удалить корреляции между всеми парами произвольного числа случайных величин с помощью преобразования данных, даже если связь между переменными является нелинейной. Представление этого результата для распределения населения дано Cox & Hinkley. ^[42]

Соответствующий результат существует для уменьшения выборочных корреляций до нуля. Предположим, что вектор из n случайных величин наблюдается m раз. Пусть X - матрица, где ${\ Displaystyle X_ {я, j}}$ является J - й переменного наблюдения я . Позволять ${\ Displaystyle Z_ {м, м}}$ - квадратная матрица размером m на m с каждым элементом 1. Тогда D - это данные, преобразованные таким образом, что каждая случайная величина имеет нулевое среднее, а T - это данные, преобразованные таким образом, что все переменные имеют нулевое среднее значение и нулевую корреляцию со всеми другими переменными - выборочная корреляционная матрица из Т будет единичной матрицей. Это должно быть дополнительно разделено на стандартное отклонение, чтобы получить единичную дисперсию. Преобразованные переменные не будут коррелированы, даже если они не могут быть независимыми .

{\ displaystyle D = X - {\ frac {1} {m}} Z_ {m, m} X}

{\ Displaystyle T = D (D ^ {\ mathsf {T}} D) ^ {- {\ frac {1} {2}}},}

где показатель степени -+1 ⁄ 2 представляет матричный квадратный корень из обратной матрицы. Корреляционная матрица T будет единичной матрицей. Если новое наблюдение данных x представляет собой вектор-строку из n элементов, то такое же преобразование может быть применено к x, чтобы получить преобразованные векторы d и t :

{\ displaystyle d = x - {\ frac {1} {m}} Z_ {1, m} X,}

{\ displaystyle t = d (D ^ {\ mathsf {T}} D) ^ {- {\ frac {1} {2}}}.}

Эта декорреляция связана с анализом главных компонентов для многомерных данных.

Программные реализации

Базовый пакет статистики R реализует коэффициент корреляции с cor(x, y)или (также со значением P) с cor.test(x, y).
Библиотека SciPy Python через pearsonr(x, y).
Библиотека Pandas Python реализует расчет коэффициента корреляции Пирсона как параметр по умолчанию для метода.pandas.DataFrame.corr
Wolfram Mathematica через Correlationфункцию или (со значением P) с помощью CorrelationTest.
Библиотека Boost C ++ через correlation_coefficientфункцию.

Смотрите также

Квартет анскомба
Ассоциация (статистика)
Коэффициент коллигации
- Q Yule's
- Yule's Y
Коэффициент корреляции согласованности
Корреляция и зависимость
Коэффициент корреляции
Ослабление
Корреляция расстояний
Максимальный информационный коэффициент
Множественная корреляция
Нормально распределенный и некоррелированный не подразумевает независимого
Соотношение шансов
Частичная корреляция
Полихорическая корреляция
Соотношение числа квадрантов
Коэффициент RV
Коэффициент ранговой корреляции Спирмена

Сноски

^ Еще в 1877 году Гальтон использовал термин «реверсия» и символ « r » дляобозначениятого, что впоследствии стало «регрессией». ^[3]^[4]^[5]

Внешние ссылки

"кокор" . comparingcorrelations.org . - Бесплатный веб-интерфейс и пакет R для статистического сравнения двух зависимых или независимых корреляций с перекрывающимися или неперекрывающимися переменными.
«Корреляция» . nagysandor.eu . - интерактивное Flash-моделирование корреляции двух нормально распределенных переменных.
«Калькулятор коэффициента корреляции» . hackmath.net . Линейная регрессия. -
«Критические значения коэффициента корреляции Пирсона» (PDF) . frank.mtsu.edu/~dkfuller . - большой стол.
«Угадай соотношение» . - Игра, в которой игроки угадывают, насколько коррелированы две переменные на диаграмме рассеяния, чтобы лучше понять концепцию корреляции.

[6] Еще в 1877 году Гальтон использовал термин «реверсия» и символ « r » дляобозначениятого, что впоследствии стало «регрессией». ^[3]^[4]^[5]

[1] «Учебники SPSS: корреляция Пирсона» .

[2] «Коэффициент корреляции: простое определение, формула, простые шаги» . Статистика Как .

[3] Гальтон, Ф. (5–19 апреля 1877 г.). «Типичные законы наследственности» . Природа . 15 (388, 389, 390): 492–495, 512–514, 532–533. Bibcode : 1877Natur..15..492. . DOI : 10.1038 / 015492a0 . S2CID 4136393 .В «Приложении» на стр. 532 Гальтон использует термин «реверсия» и символ r .

[4] Гальтон, Ф. (24 сентября 1885 г.). «Британская ассоциация: Секция II, Антропология: вступительное слово Фрэнсиса Гальтона, ФРС и др., Президента Антропологического института, президента секции» . Природа . 32 (830): 507–510.

[5] Гальтон, Ф. (1886). «Регресс к посредственности в наследственном росте» . Журнал Антропологического института Великобритании и Ирландии . 15 : 246–263. DOI : 10.2307 / 2841583 . JSTOR 2841583 .

[7] Пирсон, Карл (20 июня 1895 г.). «Заметки о регрессе и наследовании в случае двух родителей» . Труды Лондонского королевского общества . 58 : 240–242. Bibcode : 1895RSPS ... 58..240P .

[8] Стиглер, Стивен М. (1989). «Отчет Фрэнсиса Гальтона об изобретении корреляции» . Статистическая наука . 4 (2): 73–79. DOI : 10,1214 / сс / 1177012580 . JSTOR 2245329 .

[9] «Проанализируйте математический анализ вероятностей ошибок в ситуации» . Mem. Акад. Рой. Sci. Inst. Франция . Sci. Math, et Phys. (На французском). 9 : 255–332. 1844 г. - через Google Книги.

[10] Райт, С. (1921). «Корреляция и причинно-следственная связь». Журнал сельскохозяйственных исследований . 20 (7): 557–585.

[:0-11] а б «Список вероятностных и статистических символов» . Математическое хранилище . 26 апреля 2020 . Проверено 22 августа 2020 .

[RealCorBasic-12] Реальная статистика с использованием Excel: корреляция: основные концепции , получено 22 февраля 2015 г.

[13] Вайсштейн, Эрик В. «Статистическая корреляция» . mathworld.wolfram.com . Проверено 22 августа 2020 .

[14] Мория, Н. (2008). "Многомерный оптимальный совместный анализ, связанный с шумом в продольных случайных процессах". В Ян, Фэншань (ред.). Прогресс в прикладном математическом моделировании . Nova Science Publishers, Inc., стр. 223–260. ISBN 978-1-60021-976-4.

[15] Гаррен, Стивен Т. (15 июня 1998 г.). «Оценка максимального правдоподобия коэффициента корреляции в двумерной нормальной модели с отсутствующими данными». Статистика и вероятностные письма . 38 (3): 281–288. DOI : 10.1016 / S0167-7152 (98) 00035-2 .

[16] «Вводная бизнес-статистика: коэффициент корреляции r» . opentextbc.ca . Проверено 21 августа 2020 .

[17] Роджерс; Ничевандер (1988). «Тринадцать способов взглянуть на коэффициент корреляции» (PDF) . Американский статистик . 42 (1): 59–66. DOI : 10.2307 / 2685263 . JSTOR 2685263 .

[18] Шмид, Джон младший (декабрь 1947 г.). «Связь между коэффициентом корреляции и углом между линиями регрессии». Журнал образовательных исследований . 41 (4): 311–313. DOI : 10.1080 / 00220671.1947.10881608 . JSTOR 27528906 .

[19] Раммель, Р.Дж. (1976). «Понимание корреляции» . гл. 5 (как показано для особого случая в следующем абзаце).

[Buda-20] Буда, Анджей; Ярыновский, Анджей (декабрь 2010 г.). Время жизни корреляций и его приложения . Wydawnictwo Niezależne. С. 5–21. ISBN 9788391527290.

[Cohen88-21] а б Коэн, Дж. (1988). Статистический анализ мощности для поведенческих наук (2-е изд.).

[22] Рахман, Н. А. (1968) Курс теоретической статистики , Чарльз Гриффин и компания, 1968

[23] Перейти ↑ Kendall, MG, Stuart, A. (1973) Advanced Theory of Statistics, Volume 2: Inference and Relationship , Griffin. ISBN 0-85264-215-6 (Раздел 31.19)

[24] Сопер, ОН ; Янг, AW; Пещера, BM; Ли, А .; Пирсон, К. (1917). «О распределении коэффициента корреляции в малых выборках. Приложение II к статьям« Студента »и Р.А. Фишера. Совместное исследование» . Биометрика . 11 (4): 328–413. DOI : 10.1093 / Biomet / 11.4.328 .

[25] Дэйви, Кэтрин Е .; Grayden, Дэвид Б.; Иган, Гэри Ф .; Джонстон, Ли А. (январь 2013 г.). «Фильтрация вызывает корреляцию в данных состояния покоя фМРТ». NeuroImage . 64 : 728–740. DOI : 10.1016 / j.neuroimage.2012.08.022 . ЛВП : 11343/44035 . PMID 22939874 . S2CID 207184701 .

[26] Хотеллинг, Гарольд (1953). «Новый взгляд на коэффициент корреляции и его преобразования». Журнал Королевского статистического общества . Серия Б (Методологическая). 15 (2): 193–232. DOI : 10.1111 / j.2517-6161.1953.tb00135.x . JSTOR 2983768 .

[27] Кенни, JF; Хранение, ES (1951). Математика статистики . Часть 2 (2-е изд.). Принстон, Нью-Джерси: Ван Ностранд.

[28] Вайсштейн, Эрик В. «Коэффициент корреляции - двумерное нормальное распределение» . mathworld.wolfram.com .

[29] Таральдсен, Гуннар (2020). «Уверенность в корреляции» . DOI : 10,13140 / RG.2.2.23673.49769 . Цитировать журнал требует |journal=( помощь )

[30] Лай, Чун Синг; Дао, Иншань; Сюй, Фанъюань; Ng, Wing WY; Цзя, Ювэй; Юань, Хаолян; Хуанг, Чао; Лай, Лой Лей; Сюй, Чжао; Локателли, Джорджио (январь 2019 г.). «Надежная структура корреляционного анализа несбалансированных и дихотомических данных с неопределенностью» (PDF) . Информационные науки . 470 : 58–77. DOI : 10.1016 / j.ins.2018.08.017 .

[wilcox-31] а б Уилкокс, Рэнд Р. (2005). Введение в робастную оценку и проверку гипотез . Академическая пресса.

[32] Девлин, Сьюзен Дж .; Gnanadesikan, R .; Кеттенринг-младший (1975). «Надежная оценка и обнаружение выбросов с коэффициентами корреляции». Биометрика . 62 (3): 531–545. DOI : 10.1093 / Biomet / 62.3.531 . JSTOR 2335508 .

[33] Хубер, Питер. Дж. (2004). Надежная статистика . Вайли.^{[ требуется страница ]}

[34] Кац., Митчелл Х. (2006) Многопараметрический анализ - Практическое руководство для клиницистов . 2-е издание. Издательство Кембриджского университета. ISBN 978-0-521-54985-1 . ISBN 0-521-54985-X doi : 10.2277 / 052154985X

[35] Хотеллинг, Х. (1953). «Новый взгляд на коэффициент корреляции и его преобразования». Журнал Королевского статистического общества. Серия Б (Методологическая) . 15 (2): 193–232. DOI : 10.1111 / j.2517-6161.1953.tb00135.x . JSTOR 2983768 .

[36] Олкин, Инграм; Пратт, Джон В. (март 1958 г.). «Беспристрастная оценка некоторых коэффициентов корреляции» . Летопись математической статистики . 29 (1): 201–211. DOI : 10.1214 / АОМ / 1177706717 . JSTOR 2237306 ..

[37] «Re: вычислить взвешенную корреляцию» . sci.tech-archive.net .

[38] «Матрица взвешенной корреляции - Обмен файлами - MATLAB Central» .

[Nikolicetal-39] Николич, Д; Муресан, RC; Фен, Вт; Певица, W (2012). «Масштабированный корреляционный анализ: лучший способ вычисления кросс-коррелограммы» (PDF) . Европейский журнал нейробиологии . 35 (5): 1-21. DOI : 10.1111 / j.1460-9568.2011.07987.x . PMID 22324876 . S2CID 4694570 .

[40] Fulekar (Ed.), MH (2009) Биоинформатика: Применение в жизни и наук об окружающей среде , Springer (. С. 110) ISBN 1-4020-8879-5

[41] Имминк, К. Шухамер; Вебер, Дж. (Октябрь 2010 г.). «Обнаружение минимального расстояния Пирсона для многоуровневых каналов с рассогласованием усиления и / или смещения» . IEEE Transactions по теории информации . 60 (10): 5966–5974. CiteSeerX 10.1.1.642.9971 . DOI : 10,1109 / tit.2014.2342744 . S2CID 1027502 . Проверено 11 февраля 2018 .

[SRJ-42] Джаммаламадака, С. Рао; СенГупта, А. (2001). Темы в круговой статистике . Нью-Джерси: World Scientific. п. 176. ISBN. 978-981-02-3778-3. Проверено 21 сентября 2016 года .

[43] Кокс, Д.Р .; Хинкли, Д.В. (1974). Теоретическая статистика . Чепмен и Холл. Приложение 3. ISBN 0-412-12420-3.

[1]

Коэффициент корреляции Пирсона

Именование и история

Определение

Для населения

Для образца

Практические вопросы

Математические свойства

Интерпретация

Геометрическая интерпретация

Интерпретация величины корреляции

Вывод

Использование теста перестановки

Использование бутстрапа

Тестирование с использованием t- распределения Стьюдента

Используя точное распределение

Использование точного распределения достоверности

Использование преобразования Фишера

Регрессионный анализ методом наименьших квадратов

Чувствительность к распределению данных

Существование

Размер образца

Надежность

Варианты

Скорректированный коэффициент корреляции

Взвешенный коэффициент корреляции

Коэффициент корреляции отражения

Масштабированный коэффициент корреляции

Расстояние Пирсона

Коэффициент круговой корреляции

Частичная корреляция

Декорреляция n случайных величин

Программные реализации

Смотрите также

Сноски

Рекомендации

Внешние ссылки