Коэффициент корреляции Пирсона

В статистике коэффициент корреляции Пирсона ( PCC , произносится / ˈp ɪər s ən / ) ― также известный как r Пирсона , коэффициент корреляции продукта-момента Пирсона ( PPMCC ), двумерная корреляция , ^[1] или в просторечии просто как корреляция коэффициент ^[2] ― мера линейной корреляции между двумя наборами данных. Это отношение между ковариацией двух переменных и произведением ихстандартные отклонения ; таким образом, это, по сути, нормализованное измерение ковариации, так что результат всегда имеет значение от -1 до 1. Как и в случае самой ковариации, мера может отражать только линейную корреляцию переменных и игнорирует многие другие типы отношений или корреляции. . В качестве простого примера можно было бы ожидать, что возраст и рост выборки подростков из средней школы будут иметь коэффициент корреляции Пирсона значительно больше 0, но меньше 1 (поскольку 1 будет представлять нереалистично идеальную корреляцию).

Он был разработан Карлом Пирсоном на основе родственной идеи, предложенной Фрэнсисом Гальтоном в 1880-х годах, и для которой математическая формула была получена и опубликована Огюстом Браве в 1844 году. [ ^a]^[6]^[7]^[8]^[9] Таким образом, наименование коэффициента является примером закона Стиглера .

Коэффициент корреляции Пирсона — это ковариация двух переменных, деленная на произведение их стандартных отклонений. Форма определения включает «момент произведения», то есть среднее значение (первый момент относительно начала координат) произведения случайных величин с поправкой на среднее значение; отсюда и модификатор product-moment в названии.

Коэффициент корреляции Пирсона, когда он применяется к популяции , обычно обозначается греческой буквой ρ (ро) и может называться коэффициентом корреляции популяции или коэффициентом корреляции Пирсона популяции . Для пары случайных величин формула для ρ ^[10] такова: ^[11] ${\ Displaystyle (Х, Y)}$

Формула для может быть выражена через среднее значение и математическое ожидание. Поскольку ^[10] ${\ Displaystyle \ ро}$

формулу можно также записать в виде ${\ Displaystyle \ ро}$

Примеры диаграмм рассеяния с разными значениями коэффициента корреляции ( ρ )

Несколько наборов точек ( x , y ) с коэффициентом корреляции x и y для каждого набора. Обратите внимание, что корреляция отражает силу и направление линейной зависимости (верхний ряд), но не наклон этой зависимости (в середине) и многие аспекты нелинейных отношений (внизу). NB: фигура в центре имеет наклон 0, но в этом случае коэффициент корреляции не определен, поскольку дисперсия Y равна нулю.

Линии регрессии для

y = g X (x)

[ красный ] и

x = g Y (y)

[ синий ]

Этот рисунок дает представление о том, как полезность корреляции Пирсона для прогнозирования значений зависит от ее величины. При заданных совместно нормальных X , Y с корреляцией ρ ( построенной здесь как функция ρ ) является коэффициентом, на который данный интервал прогнозирования для Y может быть уменьшен с учетом соответствующего значения X . Например, если ρ = 0,5, то 95% интервал предсказания Y | X будет примерно на 13% меньше, чем 95% интервал прогнозирования Y .

{\ displaystyle 1 - {\ sqrt {1- \ rho ^ {2}}}}

Критические значения коэффициента корреляции Пирсона, которые должны быть превышены, чтобы считаться значительно отличным от нуля на уровне 0,05.