Коэффициент корреляции Пирсона


В статистике коэффициент корреляции Пирсона ( PCC , произносится / ˈp ɪər s ən / ) ― также известный как r Пирсона , коэффициент корреляции продукта-момента Пирсона ( PPMCC ), двумерная корреляция , [1] или в просторечии просто как корреляция коэффициент [2] ― мера линейной корреляции между двумя наборами данных. Это отношение между ковариацией двух переменных и произведением ихстандартные отклонения ; таким образом, это, по сути, нормализованное измерение ковариации, так что результат всегда имеет значение от -1 до 1. Как и в случае самой ковариации, мера может отражать только линейную корреляцию переменных и игнорирует многие другие типы отношений или корреляции. . В качестве простого примера можно было бы ожидать, что возраст и рост выборки подростков из средней школы будут иметь коэффициент корреляции Пирсона значительно больше 0, но меньше 1 (поскольку 1 будет представлять нереалистично идеальную корреляцию).

Он был разработан Карлом Пирсоном на основе родственной идеи, предложенной Фрэнсисом Гальтоном в 1880-х годах, и для которой математическая формула была получена и опубликована Огюстом Браве в 1844 году. [ a] [6] [7] [8] [9] Таким образом, наименование коэффициента является примером закона Стиглера .

Коэффициент корреляции Пирсона — это ковариация двух переменных, деленная на произведение их стандартных отклонений. Форма определения включает «момент произведения», то есть среднее значение (первый момент относительно начала координат) произведения случайных величин с поправкой на среднее значение; отсюда и модификатор product-moment в названии.

Коэффициент корреляции Пирсона, когда он применяется к популяции , обычно обозначается греческой буквой ρ (ро) и может называться коэффициентом корреляции популяции или коэффициентом корреляции Пирсона популяции . Для пары случайных величин формула для ρ [10] такова: [11]

Формула для может быть выражена через среднее значение и математическое ожидание. Поскольку [10]

формулу можно также записать в виде


Примеры диаграмм рассеяния с разными значениями коэффициента корреляции ( ρ )
Несколько наборов точек ( xy ) с коэффициентом корреляции x и y для каждого набора. Обратите внимание, что корреляция отражает силу и направление линейной зависимости (верхний ряд), но не наклон этой зависимости (в середине) и многие аспекты нелинейных отношений (внизу). NB: фигура в центре имеет наклон 0, но в этом случае коэффициент корреляции не определен, поскольку дисперсия Y равна нулю.
Линии регрессии для y = g X ( x ) [ красный ] и x = g Y ( y ) [ синий ]
Этот рисунок дает представление о том, как полезность корреляции Пирсона для прогнозирования значений зависит от ее величины. При заданных совместно нормальных X , Y с корреляцией ρ ( построенной здесь как функция ρ ) является коэффициентом, на который данный интервал прогнозирования для Y может быть уменьшен с учетом соответствующего значения X . Например, если ρ = 0,5, то 95% интервал предсказания Y | X будет примерно на 13% меньше, чем 95% интервал прогнозирования Y .
Критические значения коэффициента корреляции Пирсона, которые должны быть превышены, чтобы считаться значительно отличным от нуля на уровне 0,05.