Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Энергетическое расстояние - это статистическое расстояние между распределениями вероятностей . Если X и Y являются независимыми случайными векторами в R d с кумулятивными функциями распределения (cdf) F и G соответственно, то энергетическое расстояние между распределениями F и G определяется как квадратный корень из

где (X, X ', Y, Y') независимы, cdf для X и X '- это F, cdf для Y и Y' - это G, является ожидаемым значением и || . || обозначает длину вектора. Энергетическое расстояние удовлетворяет всем аксиомам метрики, таким образом, энергетическое расстояние характеризует равенство распределений: D (F, G) = 0 тогда и только тогда, когда F = G. Энергетическое расстояние для статистических приложений было введено в 1985 г. Габором Дж. Секели , который доказал что для вещественнозначных случайных величин ровно в два раза расстояние Харальда Крамера : [1]

Простое доказательство этой эквивалентности см. В Székely (2002). [2]

Однако в более высоких измерениях эти два расстояния различаются, потому что энергетическое расстояние инвариантно относительно вращения, а расстояние Крамера - нет. (Обратите внимание , что расстояние Крамера не совпадает с распределением свободного критерия Крамера-Мизеса .)

Обобщение на метрические пространства [ править ]

Можно обобщить понятие энергетического расстояния на распределения вероятностей в метрических пространствах. Позвольте быть метрическое пространство с его борелевской сигма-алгеброй . Обозначим через набор всех вероятностных мер на измеримом пространстве . Если μ и ν - вероятностные меры в , то энергетическое расстояние μ и ν можно определить как квадратный корень из

Однако это не обязательно неотрицательно. Если - сильно отрицательно определенное ядро, то - метрика , и наоборот. [3] Это состояние выражается выражением отрицательного типа. Отрицательного типа недостаточно, чтобы быть метрикой; последнее состояние выражается выражением сильного отрицательного типа. В этой ситуации энергетическое расстояние равно нулю тогда и только тогда, когда X и Y одинаково распределены. Примером метрики отрицательного типа, но не сильно отрицательного типа, является самолет с метрикой такси . Все евклидовы пространства и даже сепарабельные гильбертовы пространства имеют сильно отрицательный тип. [4]

В литературе по методам ядра для машинного обучения , эти обобщенные понятия расстояния энергии изучаются под названием максимального среднего расхождения. Эквивалентность дистанционных и ядерных методов для проверки гипотез рассматривается несколькими авторами. [5] [6]

Статистика энергии [ править ]

Родственная статистическая концепция, понятие электронной статистики или статистики энергии [7], было введено Габором Дж. Секели в 1980-х годах, когда он читал лекции на коллоквиуме в Будапеште, Венгрия, а также в Массачусетском технологическом институте, Йельском университете и Колумбии. Эта концепция основана на представлении о потенциальной энергии Ньютона . [8] Идея состоит в том, чтобы рассматривать статистические наблюдения как небесные тела, управляемые статистической потенциальной энергией, которая равна нулю только в том случае, если основная статистическая нулевая гипотеза верна. Статистика энергии - это функция расстояний между статистическими наблюдениями.

Энергетическое расстояние и E-статистика рассматривались как N -расстояния и N-статистика в Зингере А.А., Какосян А.В., Клебанов Л.Б. Характеристика распределений с помощью средних значений некоторых статистик в связи с некоторыми вероятностными метриками, Проблемы устойчивости для стохастических моделей. Москва, ВНИИСИ, 1989,47-55. (на русском), английский перевод: Характеристика распределений средними значениями статистики и некоторыми вероятностными метриками А. А. Зингер, А. В. Какосян, Л. Б. Клебанов в Journal of Soviet Mathematics (1992). В той же статье было дано определение сильно отрицательно определенного ядра и дано обобщение на метрические пространства, о котором говорилось выше. Книга [3]предоставляет эти результаты и их приложения для статистического тестирования. Книга также содержит некоторые приложения для восстановления потенциала меры.

Тестирование на равное распределение [ править ]

Рассмотрим нулевую гипотезу , что две случайные величины, X и Y имеют одинаковые распределения вероятностей: . Для статистических выборок из X и Y :

и ,

следующие средние арифметические расстояния вычисляются между выборками X и Y:

.

E-статистика базовой нулевой гипотезы определяется следующим образом:

Можно доказать [8] [9], что и что соответствующее значение совокупности равно нулю тогда и только тогда, когда X и Y имеют одинаковое распределение ( ). Согласно этой нулевой гипотезе, статистика теста

сходится по распределению к квадратичной форме независимых стандартных нормальных случайных величин . Согласно альтернативной гипотезе T стремится к бесконечности. Это позволяет построить последовательный статистический тест , энергетический тест для равных распределений. [10]

Также можно ввести E-коэффициент неоднородности. Это всегда от 0 до 1 и определяется как

где обозначает ожидаемое значение . H  = 0 именно тогда, когда X и Y имеют одинаковое распределение.

Goodness-of-fit [ править ]

Многомерная мера согласия определяется для распределений в произвольной размерности (не ограниченной размером выборки). Статистика согласия по энергии равна

где X и X 'независимы и одинаково распределены согласно гипотетическому распределению, и . Единственное необходимое условие - это то, что X имеет конечный момент при нулевой гипотезе. При нулевой гипотезе асимптотическое распределение Q n является квадратичной формой центрированных гауссовских случайных величин. Согласно альтернативной гипотезе, Q n стохастически стремится к бесконечности и, таким образом, определяет статистически непротиворечивый тест. Для большинства приложений можно применять показатель степени 1 (евклидово расстояние). Важный частный случай проверки многомерной нормальности [9] реализован в энергетическойпакет для R. Тесты также разработаны для распределений с тяжелым хвостом, таких как Парето ( степенной закон ), или стабильных распределений путем применения показателей в (0,1).

Приложения [ править ]

Приложения включают:

  • Иерархическая кластеризация (обобщение метода Уорда) [11] [12]
  • Проверка многомерной нормальности [9]
  • Проверка гипотезы о равных распределениях с несколькими выборками, [13] [14] [15]
  • Обнаружение точки изменения [16]
  • Многомерная независимость:
    • корреляция расстояний , [17]
    • Броуновская ковариация . [18]
  • Правила подсчета очков :
Гнейтинг и Рэфтери [19] применяют энергетическое расстояние для разработки нового и очень общего типа правильного правила оценки для вероятностных прогнозов - оценки энергии.
  • Надежная статистика [20]
  • Выбор гена [21]
  • Анализ данных микрочипов [22]
  • Анализ структуры материала [23]
  • Морфометрические и хемометрические данные [24]

Применение статистики энергетики реализуются в открытом источнике энергии пакета [25] для R .

Ссылки [ править ]

  1. ^ Крамер, Х. (1928) О составе элементарных ошибок, Skandinavisk Aktuarietidskrift, 11, 141-180.
  2. ^ Электронная статистика: энергия статистических выборок (2002) PDF
  3. ^ a b Клебанов, Л.Б. (2005) N-расстояния и их приложения, Karolinum Press , Карлов университет, Прага.
  4. Перейти ↑ Lyons, R. (2013). «Дистанционная ковариация в метрических пространствах». Летопись вероятности . 41 (5): 3284–3305. arXiv : 1106,5758 . DOI : 10.1214 / 12-aop803 .
  5. ^ Sejdinovic, D .; Sriperumbudur, B .; Греттон, А. и Фукумизу, К. (2013). «Эквивалентность дистанционной и RKHS-статистики при проверке гипотез». Летопись статистики . 41 (5): 2263–2291. arXiv : 1207.6076 . DOI : 10.1214 / 13-aos1140 .
  6. ^ Шен, Ченчэн; Фогельштейн, Джошуа Т. (2018). «Точная эквивалентность дистанционных и ядерных методов для проверки гипотез». arXiv : 1806.05514 . Cite journal requires |journal= (help)
  7. ^ GJ Szekely и ML Rizzo (2013). Статистика энергии: статистика на основе расстояний. Журнал статистического планирования и вывода, том 143, выпуск 8, август 2013 г., стр. 1249-1272. [1]
  8. ^ a b Секели, GJ (2002) Электронная статистика: энергия статистических выборок, Технический отчет БГСУ № 02-16.
  9. ^ a b c Секели, GJ; Риццо, ML (2005). «Новый тест на многомерную нормальность». Журнал многомерного анализа . 93 (1): 58–80. DOI : 10.1016 / j.jmva.2003.12.002 . Переиздание
  10. ^ GJ Szekely и ML Rizzo (2004). Тестирование равных распределений в высокой размерности, InterStat , ноябрь (5). Перепечатка .
  11. ^ Секели, GJ и Риццо, ML (2005) Иерархическая кластеризация через совместное расстояние между внутренними расстояниями: расширение метода минимальной дисперсии Уорда, Journal of Classification, 22 (2) 151–183
  12. Перейти ↑ Varin, T., Bureau, R., Mueller, C. and Willett, P. (2009). «Кластеризация файлов химических структур с использованием обобщения Секели-Риццо метода Уорда» (PDF) . Журнал молекулярной графики и моделирования . 28 (2): 187–195. DOI : 10.1016 / j.jmgm.2009.06.006 . PMID 19640752 .  CS1 maint: multiple names: authors list (link) «эпринт» .
  13. ML Rizzo и GJ Székely (2010). Анализ DISCO: непараметрическое расширение дисперсионного анализа, Annals of Applied Statistics Vol. 4, № 2, 1034–1055. arXiv : 1011.2288
  14. ^ Szekely, GJ и Риццо, ML (2004) Тестирование на равных распределения в высокой размерности, InterStat, ноября (5). Перепечатка .
  15. ^ Ледли, Джонатан и Пицух, Питер и Зельцер, Марго (2006). Стабильные и точные координаты сети . Советская Медицина . ICDCS '06. Вашингтон, округ Колумбия, США: Компьютерное общество IEEE. С. 74–83. CiteSeerX 10.1.1.68.4006 . DOI : 10.1109 / ICDCS.2006.79 . ISBN  978-0-7695-2540-2. PMID  1154085 .CS1 maint: multiple names: authors list (link) PDF-файл, заархивированный 8 июля 2011 г., на Wayback Machine.
  16. Альберт Ю. Ким; Карен Марзбан; Дональд Б. Персиваль; Вернер Штютцле (2009). «Использование помеченных данных для оценки детекторов изменений в многомерной потоковой среде». Обработка сигналов . 89 (12): 2529–2536. CiteSeerX 10.1.1.143.6576 . DOI : 10.1016 / j.sigpro.2009.04.011 . ISSN 0165-1684 .  [2] Препринт: TR534 .
  17. ^ Székely, GJ, Риццо ML и Бакиров, Н. К. (2007). «Измерение и проверка независимости путем корреляции расстояний», «Анналы статистики» , 35, 2769–2794. arXiv : 0803.4101
  18. ^ Székely, GJ и Риццо, ML (2009). «Ковариация броуновского расстояния», «Анналы прикладной статистики» , 3/4, 1233–1308. arXiv : 1010.0297
  19. ^ Т. Гнейтинг; А. Э. Рафтери (2007). «Строго правильные правила подсчета очков, прогнозов и оценок». Журнал Американской статистической ассоциации . 102 (477): 359–378. DOI : 10.1198 / 016214506000001437 . Переиздание
  20. ^ Клебанов Л.Б. Класс вероятностных метрик и их статистические приложения, Статистика в промышленности и технологиях: статистический анализ данных, Yadolah Dodge, Ed. Биркхаузер, Базель, Бостон, Берлин, 2002, 241-252.
  21. ^ Статистика и анализ данных, 2006, 50, 12, 3619-3628 Руи Ху, Син Цю, Галина Глазко, Лев Клебанов, Андрей Яковлев Выявление изменений межгенной корреляции в анализе микрочипов: новый подход к отбору генов, BMCBioinformatics, Vol.10, 20 (2009), 1-15.
  22. ^ Юаньхуэй Сяо, Роберт Фрисина, Александр Гордон, Лев Клебанов, Андрей Яковлев Многофакторный поиск комбинаций дифференциально экспрессируемых генов BMC Bioinformatics, 2004, 5: 164; Антони Альмудевар, Лев Клебанов, Син Цю, Андрей Яковлев Полезность корреляционных мер в анализе экспрессии генов, В: NeuroRX, 2006, 3, 3, 384-395; Клебанов Лев, Гордон Александр, Лэнд Хартмут, Яковлев Андрей Тест на перестановку, мотивированный анализом данных микрочипов
  23. ^ Виктор Бенеш, Радка Лечнерова, Лев Клебанов, Маргарита Сламова, Питер Слама Статистическое сравнение геометрии частиц второй фазы, Характеристики материалов, Vol. 60 (2009), 1076 - 1081.
  24. ^ Э. Вайчюкинас, А. Верикас, А. Гельзинис, М. Бакаускене и И. Оленина (2015) Использование статистического энергетического теста для сравнения нескольких групп в морфометрических и хемометрических данных, Хемометрика и интеллектуальные лабораторные системы, 146, 10-23 .
  25. ^ "энергия: пакет R версии 1.6.2" . Проверено 30 января 2015 года .