В статистике и теории вероятностей , расстояние корреляция или расстояние ковариация является мерой зависимости между двумя парными случайными векторами произвольным, не обязательно равно, измерение . Коэффициент корреляции расстояния между популяциями равен нулю тогда и только тогда, когда случайные векторы независимы . Таким образом, корреляция расстояния измеряет как линейную, так и нелинейную связь между двумя случайными величинами или случайными векторами. Это контрастирует с корреляцией Пирсона , которая может обнаруживать только линейную связь между двумя случайными величинами .
Корреляция расстояния может использоваться для выполнения статистического теста зависимости с тестом перестановки . Сначала вычисляется корреляция расстояний (включая повторное центрирование матриц евклидовых расстояний) между двумя случайными векторами, а затем это значение сравнивается с корреляциями расстояний многих перетасовок данных.
Фон [ править ]
Классическая мера зависимости, коэффициент корреляции Пирсона , [1] , в основном чувствителен к линейной зависимости между двумя переменными. Корреляция расстояния была введена в 2005 году Габором Дж. Секели в нескольких лекциях для устранения этого недостатка корреляции Пирсона , а именно того, что она легко может быть равна нулю для зависимых переменных. Корреляция = 0 (некоррелированность) не подразумевает независимости, а корреляция расстояния = 0 подразумевает независимость. Первые результаты по дистанционной корреляции были опубликованы в 2007 и 2009 годах. [2] [3] Было доказано, что дистанционная ковариация такая же, как броуновская ковариация. [3] Эти меры являются примерамиэнергетические расстояния .
Расстояние корреляция является производным от ряда других величин, которые используются в описании, а именно: расстояние дисперсии , расстояние стандартного отклонения , и расстояние ковариации . Эти величины играют ту же роль, что и обычные моменты с соответствующими названиями в спецификации коэффициента корреляции момента произведения Пирсона .
Определения [ править ]
Ковариация расстояния [ править ]
Начнем с определения ковариации выборочного расстояния . Пусть ( X k , Y k ), k = 1, 2, ..., n будет статистической выборкой из пары действительных или векторных случайных величин ( X , Y ). Сначала вычислите матрицы расстояний n на n ( a j , k ) и ( b j , k ), содержащие все попарные расстояния
где || ⋅ || обозначает евклидову норму . Затем возьмите все дважды центрированные расстояния
где - среднее значение j-й строки, - среднее значение k-го столбца и - общее среднее значение матрицы расстояний выборки X. Обозначения аналогичны для значений b . (В матрицах центрированных расстояний ( A j , k ) и ( B j , k ) сумма всех строк и всех столбцов равна нулю.) Ковариация квадрата выборочного расстояния (скаляр) - это просто среднее арифметическое произведений A j , k B j , k :
Статистика T n = n dCov 2 n ( X , Y ) определяет непротиворечивый многомерный тест на независимость случайных векторов в произвольных измерениях. Для реализации см dcov.test функции в энергетическом пакете для R . [4]
Таким же образом можно определить популяционное значение ковариации расстояния . Пусть X - случайная величина, которая принимает значения в p -мерном евклидовом пространстве с распределением вероятностей μ, и пусть Y - случайная величина, которая принимает значения в q -мерном евклидовом пространстве с распределением вероятностей ν , и предположим, что X и Y имеют конечное ожидания. Написать
Наконец, определите значение популяции ковариации квадрата расстояния X и Y как
Можно показать, что это эквивалентно следующему определению:
где E обозначает ожидаемое значение, и являются независимыми и одинаково распределенными. Штрихованные случайные величины и обозначают независимые и одинаково распределенные (iid) копии переменных и и аналогичным образом iid. [5] Ковариация расстояния может быть выражена в терминах классической ковариации Пирсона , cov , следующим образом:
Это тождество показывает, что ковариация расстояний - это не то же самое, что ковариация расстояний, cov (|| X - X ' ||, || Y - Y' || ). Он может быть равен нулю, даже если X и Y не независимы.
В качестве альтернативы ковариация расстояния может быть определена как взвешенная норма L 2 расстояния между совместной характеристической функцией случайных величин и произведением их маргинальных характеристических функций: [6]
где , и являются характеристическими функциями из ( X , Y ), Х и Y , соответственно, р , д обозначают евклидово размерность X и Y , и , следовательно, с и т и гр р , с д константы. Весовая функция выбрана для получения меры, эквивариантной по масштабу и инвариантной к вращению, которая не стремится к нулю для зависимых переменных. [6] [7] Одна из интерпретаций определения характеристической функции состоит в том, что переменные e isX и e itY являются циклическими представлениями X и Y с разными периодами, заданными s и t , и выражением ϕ X , Y ( s , t ) - ϕ X ( s ) ϕ Y ( t ) в числителе определения характеристической функции ковариации расстояния - это просто классическая ковариация e isX иe itY . Определение характеристической функции ясно показывает, что dCov 2 ( X , Y ) = 0 тогда и только тогда, когда X и Y независимы.
Дисперсия расстояния и стандартное отклонение расстояния [ править ]
Расстояние дисперсия является частным случаем расстояния ковариации , когда эти две переменные идентичны. Значение дисперсии расстояния для населения - это квадратный корень из
где , и являются независимыми и одинаково распределенными случайными величинами , обозначает ожидаемую величину , и для функции , например, .
Вариация выборочного расстояния - это квадратный корень из
который является родственником Коррадо Джини «s средняя разница введена в 1912 году (но Джини не работа с сосредоточенными расстояния). [8]
Расстояние стандартное отклонение представляет собой квадратный корень из расстояния дисперсии .
Корреляция расстояний [ править ]
Расстояние корреляция [2] [3] из двух случайных величин получаются путем деления их расстояние ковариации по произведению их расстояния стандартных отклонений . Корреляция расстояний равна
и корреляция выборочного расстояния определяется путем замены ковариации выборочного расстояния и дисперсии расстояния для коэффициентов совокупности выше.
Для простоты расчета образца расстояния корреляции см Dcor функция в энергетическом пакете для R . [4]
Свойства [ править ]
Корреляция расстояний [ править ]
- и ; это контрастирует с корреляцией Пирсона, которая может быть отрицательной.
- тогда и только тогда, когда X и Y независимы.
- означает, что размерности линейных подпространств, натянутых на образцы X и Y соответственно, почти наверняка равны, и если мы предположим, что эти подпространства равны, то в этом подпространстве для некоторого вектора A , скаляра b и ортонормированной матрицы .
Ковариация расстояния [ править ]
- и ;
- для всех постоянных векторов , скаляров и ортонормированных матриц .
- Если случайные векторы и независимы, то
- тогда и только тогда, когда X и Y независимы.
Последнее свойство является наиболее важным эффектом при работе с центрированными расстояниями.
Статистика является предвзятой оценкой . При независимости от X и Y [9]
Беспристрастная оценка дается Секели и Риццо. [10]
Дисперсия расстояния [ править ]
- если и только если почти наверняка.
- тогда и только тогда, когда все наблюдения образца идентичны.
- для всех постоянных векторов A , скаляров b и ортонормированных матриц .
- Если X и Y независимы, тогда .
Равенство в (iv) выполняется тогда и только тогда, когда одна из случайных величин X или Y является константой.
Обобщение [ править ]
Ковариация расстояния может быть обобщена, чтобы включать степени евклидова расстояния. Определять
Тогда для каждого , и независимы тогда и только тогда, когда . Важно отметить, что эта характеристика не верна для экспоненты ; в этом случае для двумерных , является детерминированной функцией корреляции Пирсона. [2] Если и являются степенями соответствующих расстояний, то ковариацию выборочного расстояния можно определить как неотрицательное число, для которого
Можно распространить на метрическое пространство -значного случайные величин и : Если есть закон , в метрическом пространстве с метрикой , то определить , и ( при условии , конечно, то есть, имеет конечный первый момент), . Тогда, если имеет закон (возможно, в другом метрическом пространстве с конечным первым моментом), определим
Это неотрицательно для всех таких, если оба метрических пространства имеют отрицательный тип. [11] Здесь метрическое пространство имеет отрицательный тип, если оно изометрично подмножеству гильбертова пространства . [12] Если оба метрических пространства имеют строго отрицательный тип, то независимы тогда и только тогда . [11]
Альтернативное определение ковариации расстояния [ править ]
Исходная ковариация расстояния была определена как квадратный корень , а не как возведенный в квадрат коэффициент. обладает тем свойством, что это энергетическое расстояние между совместным распределением и произведением его маргиналов. Однако согласно этому определению дисперсия расстояния, а не стандартное отклонение расстояния, измеряется в тех же единицах, что и расстояния.
В качестве альтернативы можно определить ковариацию расстояния как квадрат энергетического расстояния: в этом случае стандартное отклонение расстояния измеряется в тех же единицах, что и расстояние, и существует несмещенная оценка ковариации расстояния между популяциями. [10]
Согласно этим альтернативным определениям корреляция расстояния также определяется как квадрат , а не как квадратный корень.
Альтернативная формулировка: броуновская ковариация [ править ]
Броуновская ковариация мотивирована обобщением понятия ковариантности на случайные процессы. Квадрат ковариации случайных величин X и Y можно записать в следующем виде:
где E обозначает ожидаемое значение, а штрих обозначает независимые и одинаково распределенные копии. Нам понадобится следующее обобщение этой формулы. Если U (s), V (t) - произвольные случайные процессы, определенные для всех действительных s и t, то определите U-центрированную версию X следующим образом:
всякий раз, когда существует вычитаемое условное математическое ожидание, обозначим через Y V V-центрированную версию Y. [3] [13] [14] Ковариация (U, V) числа (X, Y) определяется как неотрицательное число, квадрат которого является
всякий раз, когда правая часть неотрицательна и конечна. Наиболее важный пример - когда U и V - двусторонние независимые броуновские движения / винеровские процессы с нулевым математическим ожиданием и ковариацией | s | + | т | - | с - т | = 2 мин ( s , t ) (только для неотрицательных s, t). (Это в два раза больше ковариации стандартного винеровского процесса; здесь множитель 2 упрощает вычисления.) В этом случае ковариация ( U , V ) называется броуновской ковариацией и обозначается
Удивительное совпадение: броуновская ковариация - это то же самое, что ковариация расстояния:
и, таким образом, броуновская корреляция - это то же самое, что и дистанционная корреляция.
С другой стороны, если мы заменим броуновское движение детерминированной функцией тождества id, тогда Cov id ( X , Y ) будет просто абсолютным значением классической ковариации Пирсона ,
Связанные показатели [ править ]
Другие корреляционные метрики, включая корреляционные метрики на основе ядра (такие как критерий независимости Гильберта-Шмидта или HSIC), также могут обнаруживать линейные и нелинейные взаимодействия. Как дистанционная корреляция, так и показатели на основе ядра могут использоваться в таких методах, как канонический корреляционный анализ и анализ независимых компонентов, чтобы обеспечить более высокую статистическую мощность .
См. Также [ править ]
- Коэффициент RV
- Для связанной статистики третьего порядка см. Асимметрия расстояния .
Заметки [ править ]
- ^ Пирсон 1895
- ^ a b c Székely, Gábor J .; Риццо, Мария Л .; Бакиров, Наиль К. (2007). «Измерение и проверка независимости путем корреляции расстояний». Летопись статистики . 35 (6): 2769–2794. arXiv : 0803.4101 . DOI : 10.1214 / 009053607000000505 . S2CID 5661488 .
- ^ a b c d Székely, Gábor J .; Риццо, Мария Л. (2009). «Ковариация броуновского расстояния» . Летопись прикладной статистики . 3 (4): 1236–1265. DOI : 10.1214 / 09-AOAS312 . PMC 2889501 . PMID 20574547 .
- ^ a b энергетический пакет для R
- ^ Székely & Rizzo 2014 , стр. 11
- ^ a b Székely & Rizzo 2009a , стр. 1249, теорема 7, (3.7).
- ^ Székely, Gábor J .; Риццо, Мария Л. (2012). «Об однозначности дистанционной ковариации». Статистика и вероятностные письма . 82 (12): 2278–2282. DOI : 10.1016 / j.spl.2012.08.007 .
- ^ Джини 1912
- ^ Székely & Rizzo 2009b
- ^ a b Székely & Rizzo 2014
- ^ a b Лайонс, Рассел (2014). «Ковариация расстояний в метрических пространствах». Летопись вероятности . 41 (5): 3284–3305. arXiv : 1106,5758 . DOI : 10.1214 / 12-AOP803 . S2CID 73677891 .
- Перейти ↑ Klebanov, LB (2005).N -расстояния и их приложения . Karolinum Press , Карлов университет, Прага.
- ^ Бикель и Сюй 2009
- ^ Косорок 2009
Ссылки [ править ]
- Бикель, Питер Дж .; Сюй, Ин (2009). «Обсуждение: Ковариация броуновского расстояния» . Летопись прикладной статистики . 3 (4): 1266–1269. DOI : 10.1214 / 09-AOAS312A .CS1 maint: ref=harv (link)
- Джини, К. (1912). Variabilità e Mutabilità . Болонья: Типография Паоло Куппини.CS1 maint: ref=harv (link)
- Косорок, Майкл Р. (2009). «Обсуждение: Ковариация броуновского расстояния». Летопись прикладной статистики . 3 (4): 1270–1278. arXiv : 1010.0822 . DOI : 10.1214 / 09-AOAS312B . S2CID 88518490 .CS1 maint: ref=harv (link)
- Пирсон, К. (1895). «Примечание о регрессе и наследовании в случае двух родителей». Труды Королевского общества . 58 : 240–242. Bibcode : 1895RSPS ... 58..240P .CS1 maint: ref=harv (link)
- Пирсон, К. (1895). «Заметки по истории корреляции» . Биометрика . 13 : 25–45. DOI : 10.1093 / Biomet / 13.1.25 .CS1 maint: ref=harv (link)
- Székely, Gábor J .; Риццо, Мария Л. (2009a). «Ковариация броуновского расстояния» . Летопись прикладной статистики . 3 (4): 1236–1265. DOI : 10.1214 / 09-AOAS312 . PMC 2889501 . PMID 20574547 .CS1 maint: ref=harv (link)
- Székely, Gábor J .; Риццо, Мария Л. (2009b). «Реплика: ковариация броуновского расстояния» . Летопись прикладной статистики . 3 (4): 1303–1308. DOI : 10.1214 / 09-AOAS312REJ .CS1 maint: ref=harv (link)
- Székely, Gabor J .; Риццо, Мария Л. (2014). «Частичная корреляция расстояний с методами различий». Летопись статистики . 42 (6): 2382–2412. arXiv : 1310.2926 . Bibcode : 2014arXiv1310.2926S . DOI : 10.1214 / 14-AOS1255 . S2CID 55801702 .CS1 maint: ref=harv (link)
Внешние ссылки [ править ]
- Электронная статистика (статистика энергетики)