Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике и теории вероятностей , расстояние корреляция или расстояние ковариация является мерой зависимости между двумя парными случайными векторами произвольным, не обязательно равно, измерение . Коэффициент корреляции расстояния между популяциями равен нулю тогда и только тогда, когда случайные векторы независимы . Таким образом, корреляция расстояния измеряет как линейную, так и нелинейную связь между двумя случайными величинами или случайными векторами. Это контрастирует с корреляцией Пирсона , которая может обнаруживать только линейную связь между двумя случайными величинами .

Корреляция расстояния может использоваться для выполнения статистического теста зависимости с тестом перестановки . Сначала вычисляется корреляция расстояний (включая повторное центрирование матриц евклидовых расстояний) между двумя случайными векторами, а затем это значение сравнивается с корреляциями расстояний многих перетасовок данных.

Несколько наборов точек ( xy ) с коэффициентами корреляции расстояний x и y для каждого набора. Сравните с графиком корреляции

Фон [ править ]

Классическая мера зависимости, коэффициент корреляции Пирсона , [1] , в основном чувствителен к линейной зависимости между двумя переменными. Корреляция расстояния была введена в 2005 году Габором Дж. Секели в нескольких лекциях для устранения этого недостатка корреляции Пирсона , а именно того, что она легко может быть равна нулю для зависимых переменных. Корреляция = 0 (некоррелированность) не подразумевает независимости, а корреляция расстояния = 0 подразумевает независимость. Первые результаты по дистанционной корреляции были опубликованы в 2007 и 2009 годах. [2] [3] Было доказано, что дистанционная ковариация такая же, как броуновская ковариация. [3] Эти меры являются примерамиэнергетические расстояния .

Расстояние корреляция является производным от ряда других величин, которые используются в описании, а именно: расстояние дисперсии , расстояние стандартного отклонения , и расстояние ковариации . Эти величины играют ту же роль, что и обычные моменты с соответствующими названиями в спецификации коэффициента корреляции момента произведения Пирсона .

Определения [ править ]

Ковариация расстояния [ править ]

Начнем с определения ковариации выборочного расстояния . Пусть ( X kY k ), k  = 1, 2, ..., n будет статистической выборкой из пары действительных или векторных случайных величин ( XY ). Сначала вычислите матрицы расстояний n на n ( a j , k ) и ( b j , k ), содержащие все попарные расстояния

где || ⋅ || обозначает евклидову норму . Затем возьмите все дважды центрированные расстояния

где - среднее значение j-й строки, - среднее значение k-го столбца и - общее среднее значение матрицы расстояний выборки X. Обозначения аналогичны для значений b . (В матрицах центрированных расстояний ( A j , k ) и ( B j , k ) сумма всех строк и всех столбцов равна нулю.) Ковариация квадрата выборочного расстояния (скаляр) - это просто среднее арифметическое произведений A j , k B j , k :

Статистика T n = n dCov 2 n ( X , Y ) определяет непротиворечивый многомерный тест на независимость случайных векторов в произвольных измерениях. Для реализации см dcov.test функции в энергетическом пакете для R . [4]

Таким же образом можно определить популяционное значение ковариации расстояния . Пусть X - случайная величина, которая принимает значения в p -мерном евклидовом пространстве с распределением вероятностей μ, и пусть Y - случайная величина, которая принимает значения в q -мерном евклидовом пространстве с распределением вероятностей ν , и предположим, что X и Y имеют конечное ожидания. Писать

Наконец, определите значение популяции ковариации квадрата расстояния X и Y как

Можно показать, что это эквивалентно следующему определению:

где E обозначает ожидаемое значение, и являются независимыми и одинаково распределенными. Штрихованные случайные величины и обозначают независимые и одинаково распределенные (iid) копии переменных и и аналогичным образом iid. [5] Ковариация расстояния может быть выражена в терминах классической ковариации Пирсона , cov , следующим образом:

Это тождество показывает, что ковариация расстояний - это не то же самое, что ковариация расстояний, cov (|| X - X ' ||, || Y - Y' || ). Он может быть равен нулю, даже если X и Y не независимы.

В качестве альтернативы ковариация расстояния может быть определена как взвешенная норма L 2 расстояния между совместной характеристической функцией случайных величин и произведением их маргинальных характеристических функций: [6]

где , и являются характеристическими функциями из ( X , Y ), Х и Y , соответственно, р , д обозначают евклидово размерность X и Y , и , следовательно, с и т и гр р , с д константы. Весовая функция выбрана для получения меры, эквивариантной по масштабу и инвариантной к вращению, которая не стремится к нулю для зависимых переменных. [6] [7] Одна интерпретация определения характеристической функции состоит в том, что переменные e isX и e itY являются циклическими представлениями X и Y с разными периодами, заданными s и t , и выражением ϕ X , Y ( s , t ) - ϕ X ( s ) ϕ Y ( t ) в числителе определения характеристической функции ковариации расстояния - это просто классическая ковариация e isX иe itY . Определение характеристической функции ясно показывает, что dCov 2 ( X , Y ) = 0 тогда и только тогда, когда X и Y независимы.

Дисперсия расстояния и стандартное отклонение расстояния [ править ]

Расстояние дисперсия является частным случаем расстояния ковариации , когда эти две переменные идентичны. Значение дисперсии расстояния для населения - это квадратный корень из

где , и являются независимыми и одинаково распределенными случайными величинами , обозначает ожидаемую величину , и для функции , например, .

Вариация выборочного расстояния - это квадратный корень из

который является родственником Коррадо Джини «s средняя разница введена в 1912 году (но Джини не работа с сосредоточенными расстояния). [8]

Расстояние стандартное отклонение представляет собой квадратный корень из расстояния дисперсии .

Корреляция расстояний [ править ]

Расстояние корреляция [2] [3] из двух случайных величин получаются путем деления их расстояние ковариации по произведению их расстояния стандартных отклонений . Корреляция расстояний равна

и корреляция выборочного расстояния определяется путем замены ковариации выборочного расстояния и дисперсии расстояния для коэффициентов совокупности выше.

Для простоты расчета образца расстояния корреляции см Dcor функция в энергетическом пакете для R . [4]

Свойства [ править ]

Корреляция расстояний [ править ]

  1. и ; это контрастирует с корреляцией Пирсона, которая может быть отрицательной.
  2. тогда и только тогда, когда X и Y независимы.
  3. означает, что размерности линейных подпространств, натянутых на образцы X и Y соответственно, почти наверняка равны, и если мы предположим, что эти подпространства равны, то в этом подпространстве для некоторого вектора A , скаляра b и ортонормированной матрицы .

Ковариация расстояния [ править ]

  1. и ;
  2. для всех постоянных векторов , скаляров и ортонормированных матриц .
  3. Если случайные векторы и независимы, то
    Равенство имеет место тогда и только тогда, когда и оба являются константами, или и являются константами, или взаимно независимы.
  4. тогда и только тогда, когда X и Y независимы.

Последнее свойство является наиболее важным эффектом при работе с центрированными расстояниями.

Статистика является предвзятой оценкой . При независимости от X и Y [9]

Беспристрастная оценка дается Секели и Риццо. [10]

Дисперсия расстояния [ править ]

  1. если и только если почти наверняка.
  2. тогда и только тогда, когда все наблюдения образца идентичны.
  3. для всех постоянных векторов A , скаляров b и ортонормированных матриц .
  4. Если X и Y независимы, тогда .

Равенство в (iv) выполняется тогда и только тогда, когда одна из случайных величин X или Y является константой.

Обобщение [ править ]

Ковариация расстояния может быть обобщена, чтобы включать степени евклидова расстояния. Определять

Тогда для каждого , и независимы тогда и только тогда, когда . Важно отметить, что эта характеристика не верна для экспоненты ; в этом случае для двумерных , является детерминированной функцией корреляции Пирсона. [2] Если и являются степенями соответствующих расстояний, то ковариацию выборочного расстояния можно определить как неотрицательное число, для которого

Можно распространить на метрическое пространство -значного случайные величин и : Если есть закон , в метрическом пространстве с метрикой , то определить , и ( при условии , конечно, то есть, имеет конечный первый момент), . Тогда, если имеет закон (возможно, в другом метрическом пространстве с конечным первым моментом), определим

Это неотрицательно для всех таких, если оба метрических пространства имеют отрицательный тип. [11] Здесь метрическое пространство имеет отрицательный тип, если оно изометрично подмножеству гильбертова пространства . [12] Если оба метрических пространства имеют строго отрицательный тип, то независимы тогда и только тогда . [11]

Альтернативное определение ковариации расстояния [ править ]

Исходная ковариация расстояния была определена как квадратный корень , а не как возведенный в квадрат коэффициент. обладает тем свойством, что это энергетическое расстояние между совместным распределением и произведением его маргиналов. Однако согласно этому определению дисперсия расстояния, а не стандартное отклонение расстояния, измеряется в тех же единицах, что и расстояния.

В качестве альтернативы можно определить ковариацию расстояния как квадрат энергетического расстояния: в этом случае стандартное отклонение расстояния измеряется в тех же единицах, что и расстояние, и существует несмещенная оценка ковариации расстояния между популяциями. [10]

Согласно этим альтернативным определениям корреляция расстояния также определяется как квадрат , а не как квадратный корень.

Альтернативная формулировка: броуновская ковариация [ править ]

Броуновская ковариация мотивирована обобщением понятия ковариантности на случайные процессы. Квадрат ковариации случайных величин X и Y можно записать в следующем виде:

где E обозначает ожидаемое значение, а штрих обозначает независимые и одинаково распределенные копии. Нам понадобится следующее обобщение этой формулы. Если U (s), V (t) - произвольные случайные процессы, определенные для всех действительных s и t, то определите U-центрированную версию X следующим образом:

всякий раз, когда существует вычитаемое условное математическое ожидание, обозначим через Y V V-центрированную версию Y. [3] [13] [14] Ковариация (U, V) числа (X, Y) определяется как неотрицательное число, квадрат которого является

всякий раз, когда правая часть неотрицательна и конечна. Наиболее важный пример - когда U и V - двусторонние независимые броуновские движения / винеровские процессы с нулевым математическим ожиданием и ковариацией | s | + | т | - | с - т | = 2 мин ( s , t ) (только для неотрицательных s, t). (Это в два раза больше ковариации стандартного винеровского процесса; здесь множитель 2 упрощает вычисления.) В этом случае ковариация ( U , V ) называется броуновской ковариацией и обозначается

Удивительное совпадение: броуновская ковариация - это то же самое, что и ковариация расстояния:

и поэтому броуновская корреляция - это то же самое, что и дистанционная корреляция.

С другой стороны, если мы заменим броуновское движение детерминированной функцией тождества id, тогда Cov id ( X , Y ) будет просто абсолютным значением классической ковариации Пирсона ,

Связанные показатели [ править ]

Другие корреляционные метрики, включая корреляционные метрики на основе ядра (такие как критерий независимости Гильберта-Шмидта или HSIC), также могут обнаруживать линейные и нелинейные взаимодействия. Как дистанционная корреляция, так и показатели на основе ядра могут использоваться в таких методах, как канонический корреляционный анализ и анализ независимых компонентов, чтобы обеспечить более высокую статистическую мощность .

См. Также [ править ]

  • Коэффициент RV
  • Для связанной статистики третьего порядка см. Асимметрия расстояния .

Заметки [ править ]

  1. ^ Пирсон 1895
  2. ^ a b c Székely, Gábor J .; Риццо, Мария Л .; Бакиров, Наиль К. (2007). «Измерение и проверка независимости путем корреляции расстояний». Летопись статистики . 35 (6): 2769–2794. arXiv : 0803.4101 . DOI : 10.1214 / 009053607000000505 . S2CID  5661488 .
  3. ^ a b c d Székely, Gábor J .; Риццо, Мария Л. (2009). «Ковариация броуновского расстояния» . Летопись прикладной статистики . 3 (4): 1236–1265. DOI : 10.1214 / 09-AOAS312 . PMC 2889501 . PMID 20574547 .  
  4. ^ a b энергетический пакет для R
  5. ^ Székely & Rizzo 2014 , стр. 11
  6. ^ a b Székely & Rizzo 2009a , стр. 1249, теорема 7, (3.7).
  7. ^ Székely, Gábor J .; Риццо, Мария Л. (2012). «Об однозначности дистанционной ковариации». Статистика и вероятностные письма . 82 (12): 2278–2282. DOI : 10.1016 / j.spl.2012.08.007 .
  8. ^ Джини 1912
  9. ^ Székely & Rizzo 2009b
  10. ^ a b Székely & Rizzo 2014
  11. ^ a b Лайонс, Рассел (2014). «Ковариация расстояний в метрических пространствах». Летопись вероятности . 41 (5): 3284–3305. arXiv : 1106,5758 . DOI : 10.1214 / 12-AOP803 . S2CID 73677891 . 
  12. Перейти ↑ Klebanov, LB (2005).N -расстояния и их приложения . Karolinum Press , Карлов университет, Прага.
  13. ^ Бикель и Сюй 2009
  14. ^ Косорок 2009

Ссылки [ править ]

  • Бикель, Питер Дж .; Сюй, Ин (2009). «Обсуждение: Ковариация броуновского расстояния» . Летопись прикладной статистики . 3 (4): 1266–1269. DOI : 10.1214 / 09-AOAS312A .CS1 maint: ref=harv (link)
  • Джини, К. (1912). Variabilità e Mutabilità . Болонья: Типография Паоло Куппини.CS1 maint: ref=harv (link)
  • Косорок, Майкл Р. (2009). «Обсуждение: Ковариация броуновского расстояния». Летопись прикладной статистики . 3 (4): 1270–1278. arXiv : 1010.0822 . DOI : 10.1214 / 09-AOAS312B . S2CID  88518490 .CS1 maint: ref=harv (link)
  • Пирсон, К. (1895). «Примечание о регрессе и наследовании в случае двух родителей». Труды Королевского общества . 58 : 240–242. Bibcode : 1895RSPS ... 58..240P .CS1 maint: ref=harv (link)
  • Пирсон, К. (1895). «Заметки по истории корреляции» . Биометрика . 13 : 25–45. DOI : 10.1093 / Biomet / 13.1.25 .CS1 maint: ref=harv (link)
  • Székely, Gábor J .; Риццо, Мария Л. (2009a). «Ковариация броуновского расстояния» . Летопись прикладной статистики . 3 (4): 1236–1265. DOI : 10.1214 / 09-AOAS312 . PMC  2889501 . PMID  20574547 .CS1 maint: ref=harv (link)
  • Székely, Gábor J .; Риццо, Мария Л. (2009b). «Реплика: ковариация броуновского расстояния» . Летопись прикладной статистики . 3 (4): 1303–1308. DOI : 10.1214 / 09-AOAS312REJ .CS1 maint: ref=harv (link)
  • Székely, Gabor J .; Риццо, Мария Л. (2014). «Частичная корреляция расстояний с методами различий». Летопись статистики . 42 (6): 2382–2412. arXiv : 1310.2926 . Bibcode : 2014arXiv1310.2926S . DOI : 10.1214 / 14-AOS1255 . S2CID  55801702 .CS1 maint: ref=harv (link)

Внешние ссылки [ править ]

  • Электронная статистика (статистика энергетики)