В статистике коэффициент корреляции Пирсона ( PCC , произносится / ˈp ɪər s ən / ) ― также известный как r Пирсона , коэффициент корреляции продукта-момента Пирсона ( PPMCC ), двумерная корреляция , [1] или в просторечии просто как корреляция коэффициент [2] ― мера линейной корреляции между двумя наборами данных. Это отношение между ковариацией двух переменных и произведением ихстандартные отклонения ; таким образом, это, по сути, нормализованное измерение ковариации, так что результат всегда имеет значение от -1 до 1. Как и в случае самой ковариации, мера может отражать только линейную корреляцию переменных и игнорирует многие другие типы отношений или корреляции. . В качестве простого примера можно было бы ожидать, что возраст и рост выборки подростков из средней школы будут иметь коэффициент корреляции Пирсона значительно больше 0, но меньше 1 (поскольку 1 будет представлять нереалистично идеальную корреляцию).
Он был разработан Карлом Пирсоном на основе родственной идеи, предложенной Фрэнсисом Гальтоном в 1880-х годах, и для которой математическая формула была получена и опубликована Огюстом Браве в 1844 году. [ a] [6] [7] [8] [9] Таким образом, наименование коэффициента является примером закона Стиглера .
Коэффициент корреляции Пирсона — это ковариация двух переменных, деленная на произведение их стандартных отклонений. Форма определения включает «момент произведения», то есть среднее значение (первый момент относительно начала координат) произведения случайных величин с поправкой на среднее значение; отсюда и модификатор product-moment в названии.
Коэффициент корреляции Пирсона, когда он применяется к популяции , обычно обозначается греческой буквой ρ (ро) и может называться коэффициентом корреляции популяции или коэффициентом корреляции Пирсона популяции . Для пары случайных величин формула для ρ [10] такова: [11]
Формула для может быть выражена через среднее значение и математическое ожидание. Поскольку [10]
формулу можно также записать в виде