Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В теории вероятностей и статистике , частичная корреляция измеряет степень ассоциации между двумя случайными величинами , с эффектом набора управления случайными величинами удалены. Если мы заинтересованы в поиске , в какой степени есть численное соотношение между двумя переменными , представляющих интерес, используя их коэффициент корреляции будет давать ошибочные результаты , если есть другой, путая, переменная, которая численно связана с обеими интересующими переменными. Этой вводящей в заблуждение информации можно избежать, контролируя смешивающую переменную, которая выполняется путем вычисления частного коэффициента корреляции. Это и есть мотивация для включения других правых переменных в множественную регрессию ; но хотя множественная регрессия дает несмещенные результаты для величины эффекта , она не дает числового значения меры силы взаимосвязи между двумя интересующими переменными.

Например, если у нас есть экономические данные о потреблении, доходе и богатстве различных людей, и мы хотим увидеть, существует ли связь между потреблением и доходом, неспособность контролировать богатство при вычислении коэффициента корреляции между потреблением и доходом даст вводящий в заблуждение результат, поскольку доход может быть численно связан с богатством, которое, в свою очередь, может быть численно связано с потреблением; измеренная корреляция между потреблением и доходом может быть искажена этими другими корреляциями. Использование частичной корреляции позволяет избежать этой проблемы.

Как и коэффициент корреляции, частный коэффициент корреляции принимает значение в диапазоне от –1 до 1. Значение –1 передает идеальную отрицательную корреляцию, контролирующую некоторые переменные (то есть точную линейную зависимость, в которой более высокие значения одной переменной связаны с более низкими значениями другого); значение 1 передает идеальную положительную линейную зависимость, а значение 0 означает отсутствие линейной зависимости.

Частичная корреляция совпадает с условной корреляцией, если случайные величины совместно распределены как многомерное нормальное , другое эллиптическое , многомерное гипергеометрическое , многомерное отрицательное гипергеометрическое , полиномиальное или распределение Дирихле , но не в целом иначе. [1]

Формальное определение [ править ]

Формально частичная корреляция между X и Y с учетом набора из n управляющих переменных Z = { Z 1 , Z 2 , ..., Z n }, записываемого как ρ XY · Z , является корреляцией между остатками e X и e Y в результате линейной регрессии из X с Z и Y с Z , соответственно. Частичная корреляция первого порядка (т. Е. Когдаn = 1) - разница между корреляцией и произведением устранимых корреляций, деленная на произведение коэффициентов отчуждения устранимых корреляций. Коэффициент отчуждения , и его связь с совместной дисперсией через корреляцию доступны в Гилфорде (1973, стр. 344-345). [2]

Вычисление [ править ]

Использование линейной регрессии [ править ]

Простой способ вычислить частичную корреляцию выборки для некоторых данных - решить две связанные задачи линейной регрессии , получить остатки и вычислить корреляцию между остатками. Пусть X и Y будут, как указано выше, случайными величинами, принимающими действительные значения, и пусть Z будет n- мерной векторной случайной величиной. Мы пишем x i , y i и z i для обозначения i- го из N i.id наблюдений из некоторого совместного распределения вероятностей по реальным случайным величинам X, Y и Z , причем z i был увеличен на 1, чтобы учесть постоянный член в регрессии. Решение задачи линейной регрессии сводится к нахождению ( n +1) -мерных векторов коэффициентов регрессии и таких, что

с N -число наблюдений и скалярное произведение между векторами ш и V .

Остатки тогда

и частичная корреляция выборки затем задается обычной формулой для выборочной корреляции , но между этими новыми производными значениями:

В первом выражении три члена после знаков минус все равны 0, поскольку каждый содержит сумму остатков от обычной регрессии наименьших квадратов .

Пример [ править ]

Предположим, у нас есть следующие данные о трех переменных, X , Y и Z :

Если мы вычислим коэффициент корреляции Пирсона между переменными X и Y , результат будет примерно 0,970, а если мы вычислим частичную корреляцию между X и Y , используя формулу, приведенную выше, мы найдем частичную корреляцию 0,919. Вычисления были выполнены с использованием R со следующим кодом.

> X  =  c ( 2 , 4 , 15 , 20 ) > Y  =  c ( 1 , 2 , 3 , 4 ) > Z  =  c ( 0 , 0 , 1 , 1 ) > mm1  =  lm ( X ~ Z ) > res1  =  mm1 $ невязки > mm2  =  лм (Y ~ Z ) > res2  =  mm2 $ остатки > cor ( res1 , res2 ) [1] 0.919145 > cor ( X , Y ) [1] 0.9695016 > generalCorr :: parcorMany ( cbind ( X , Y , Z ))  nami namj partij partji rijMrji [1,] "X" "Y" "0,8844" "1" "-0,1156" [2,] "X" "Z" "0,1581" "1" "-0,8419" 

Нижняя часть приведенного выше кода сообщает обобщенный нелинейный частный коэффициент корреляции между X и Y после удаления нелинейного эффекта Z, равный 0,8844. Также обобщенный частный коэффициент корреляции между X и Z после устранения нелинейного эффекта Y составляет 0,1581. Подробности смотрите в пакете R `generalCorr 'и его виньетках. Моделирование и другие подробности см. В Vinod (2017) «Обобщенная корреляция и причинная связь ядра с приложениями в экономике развития», Communications in Statistics - Simulation and Computing, vol. 46, [4513, 4534], доступно онлайн: 29 декабря 2015 г., URL https://doi.org/10.1080/03610918.2015.1122048 .

Использование рекурсивной формулы [ править ]

Решение задач линейной регрессии может быть дорогостоящим в вычислительном отношении. Фактически, частичная корреляция n- го порядка (то есть с | Z | = n ) может быть легко вычислена из трех частичных корреляций ( n - 1) -го порядка. Частичная корреляция нулевого порядка ρ XY · Ø определяется как регулярный коэффициент корреляции ρ XY .

Это справедливо для любого, что [ необходима цитата ]

Наивная реализация этого вычисления в виде рекурсивного алгоритма дает экспоненциальную временную сложность . Однако это вычисление имеет свойство перекрывающихся подзадач , так что использование динамического программирования или простое кэширование результатов рекурсивных вызовов дает сложность .

Обратите внимание, что в случае, когда Z - единственная переменная, это сокращается до: [ необходима ссылка ]

Использование инверсии матрицы [ править ]

Со временем другой подход позволяет вычислить все частичные корреляции между любыми двумя переменными X i и X j из множества V мощности n , учитывая все остальные, т. Е. Если ковариационная матрица Ω = ( ρ X i X j ), является положительно определенной и , следовательно , обратим . Если мы определим матрицу точности P = (p ij ) = Ω −1 , то получим:

Интерпретация [ править ]

Геометрическая интерпретация частичной корреляции для случая N = 3 наблюдений и, следовательно, 2-мерной гиперплоскости.

Геометрический [ править ]

Пусть три переменных X , Y , Z (где Z представляет собой «контроль» или «дополнительные переменные») можно выбрать из совместного распределения вероятностей по п переменных V . Далее , пусть v я , 1 ≤ яN , то N п - мерные IID наблюдения , взятые из совместного распределения вероятностей по V . Затем мы рассматриваем N -мерные векторы x (образованные последовательными значениями X по наблюдениям), y (образованные значениямиY ) и z (образованный значениями Z ).

Можно показать, что невязки e X, i, возникающие из линейной регрессии X на Z , если их также рассматривать как N -мерный вектор e X (обозначенный r X в сопроводительном графике), имеют нулевое скалярное произведение с вектором г , порожденный Z . Это означает , что вектор остатков лежит на ( N -1) n - мерного гиперплоского S г , которая является перпендикулярной к г .

То же самое относится и к невязки е Y, я генерация вектора х Y . Желательно частичная корреляция , то косинус угла ф между выступами е X и е Y из х и у , соответственно, на гиперплоскость перпендикулярно г . [3] : гл. 7

Как проверка условной независимости [ править ]

В предположении , что все задействованные переменные многомерные гауссы , частичная корреляция ρ XY · Z равен нуль тогда и только тогда , когда X является условно независимым от Y данного Z . [1] В общем случае это свойство не выполняется.

Чтобы проверить, подразумевает ли выборочная частичная корреляция истинная частичная корреляция популяции, равная 0, можно использовать z-преобразование Фишера частичной корреляции :

Нулевая гипотеза является , быть испытанным против два хвоста альтернативы . Мы отклоняем H 0 с уровнем значимости α, если:

где Φ (·) является функцией распределения из гауссового распределения с нулевым средним и единичным стандартным отклонением , и N является размером выборки . Это z -преобразование является приблизительным, и фактическое распределение выборочного (частичного) коэффициента корреляции не является прямым. Однако доступен точный t-критерий, основанный на комбинации коэффициента частичной регрессии, частичного коэффициента корреляции и частичных дисперсий. [4]

Распределение выборочной частичной корреляции было описано Фишером. [5]

Частичная корреляция (частичная корреляция) [ править ]

Статистика частичной (или частичной) корреляции аналогична статистике частичной корреляции. Оба сравнивают вариации двух переменных после того, как контролируются определенные факторы, но для расчета полупчастичной корреляции один сохраняет третью переменную константу либо для X, либо для Y, но не для обоих, тогда как для частичной корреляции одна сохраняет третью переменную константу для обоих. [6] Полупарциальная корреляция сравнивает уникальную вариацию одной переменной (без удаления вариации, связанной с переменной (ами) Z ) с нефильтрованной вариацией другой, в то время как частичная корреляция сравнивает уникальную вариацию одной переменной с уникальной вариацией. другого.

Частичная (или частичная) корреляция может рассматриваться как более актуальная с практической точки зрения, «потому что она масштабируется (т. Е. Относительно) общей изменчивости в зависимой (ответной) переменной». [7] И наоборот, он менее полезен с теоретической точки зрения, поскольку менее точен в отношении роли уникального вклада независимой переменной.

Абсолютное значение корреляции semipartial X с Y всегда меньше или равно , что частичной корреляции X с Y . Причина в следующем: предположим, что корреляция X с Z была удалена из X , давая остаточный вектор e x . При вычислении semipartial корреляции, Y все еще содержит как уникальную дисперсию и дисперсию из - за его ассоциации с Z . Но e x , будучи некоррелированным с Z , может объяснить только некоторую уникальную часть дисперсии Yа не часть связана с Z . Напротив, с частичной корреляцией нужно объяснять только e y (часть дисперсии Y, которая не связана с Z ), поэтому меньше дисперсия того типа, который e x не может объяснить.

Использование в анализе временных рядов [ править ]

В анализе временных рядов , то частичная функция автокорреляции (иногда «частичная корреляционная функция») из временных рядов определена, для задержки ч , а

Эта функция используется для определения соответствующей длины лага для авторегрессии .

См. Также [ править ]

  • Линейная регрессия
  • Условная независимость
  • Множественная корреляция

Ссылки [ править ]

  1. ^ а б Баба, Кунихиро; Ритеи Шибата; Масааки Сибуя (2004). «Частичная корреляция и условная корреляция как меры условной независимости». Статистический журнал Австралии и Новой Зеландии . 46 (4): 657–664. DOI : 10.1111 / j.1467-842X.2004.00360.x .
  2. ^ Гилфорд ДП, Фрухтер Б. (1973). Фундаментальная статистика в психологии и образовании . Токио: McGraw-Hill Kogakusha, LTD.
  3. Перейти ↑ Rummel, RJ (1976). «Понимание корреляции» .
  4. ^ Кендалл MG, Стюарт А. (1973) Расширенная теория статистики , том 2 (3-е издание), ISBN 0-85264-215-6 , раздел 27.22 
  5. Перейти ↑ Fisher, RA (1924). «Распределение частного коэффициента корреляции» . Метрон . 3 (3–4): 329–332.
  6. ^ https://web.archive.org/web/20140206182503/http://luna.cas.usf.edu/~mbrannic/files/regression/Partial.html . Архивировано из оригинала на 2014-02-06. Отсутствует или пусто |title=( справка )
  7. ^ StatSoft, Inc. (2010). «Частичная (или частичная) корреляция» , Учебник по электронной статистике. Талса, OK: StatSoft, по состоянию на 15 января 2011 г.

Внешние ссылки [ править ]

  • Прохоров, А.В. (2001) [1994], "Частичный коэффициент корреляции" , Энциклопедия математики , EMS Press
  • Математические формулы в разделе «Описание» подпрограммы IMSL Numerical Library PCORR
  • Пример с тремя переменными