В статистике , теории вероятностей и теории информации , A статистическое расстояние квантифицирует расстояние между двумя статистическими объектами, которые могут быть две случайные величины , или два распределения вероятностей или образца , или расстояние может находиться между отдельной точки выборки и населения или более широкая выборка точек.
Расстояние между популяциями можно интерпретировать как измерение расстояния между двумя распределениями вероятностей, и, следовательно, они, по сути, являются мерой расстояний между мерами вероятности . Там , где меры статистических расстояний связаны с различиями между случайными величинами , они могут иметь статистическую зависимость , [1] и , следовательно , эти расстояния не связаны непосредственно с мерами расстояний между вероятностными мерами. Опять же, мера расстояния между случайными величинами может относиться к степени зависимости между ними, а не к их индивидуальным значениям.
Статистические меры расстояния в большинстве случаев не являются метриками и не обязательно должны быть симметричными. Некоторые типы мер расстояния называются (статистическими) расхождениями .
Терминология
Многие термины используются для обозначения различных понятий расстояния; они часто до степени смешения схожи и могут непоследовательно использоваться авторами и с течением времени, либо вольно, либо с точным техническим значением. В дополнение к «расстоянию» аналогичные термины включают в себя отклонение , отклонение , несоответствие , дискриминацию и расхождение , а также другие, такие как функция контраста и метрика . Термины из теории информации включают кросс-энтропию , относительную энтропию , информацию о различении и получение информации .
Расстояния как метрики
Метрики
Метрика на множестве X является функцией (называется функция расстояния или просто расстояние ) d : X × X → R + (где R + представляет собой набор неотрицательных действительных чисел ). Для всех x , y , z в X эта функция должна удовлетворять следующим условиям:
- d ( x , y ) ≥ 0 ( неотрицательность )
- d ( x , y ) = 0 тогда и только тогда, когда x = y ( тождество неразличимых . Обратите внимание, что условия 1 и 2 вместе дают положительную определенность )
- d ( x , y ) = d ( y , x ) ( симметрия )
- d ( x , z ) ≤ d ( x , y ) + d ( y , z ) ( субаддитивность / неравенство треугольника ).
Обобщенные метрики
Многие статистические расстояния не являются метриками , потому что им не хватает одного или нескольких свойств правильных метрик. Например, псевдометрия нарушает свойство « положительной определенности » (альтернативно, «тождество неразличимых» ) (1 и 2 выше); квазиметрики нарушают свойство симметрии (3); а полуметрики нарушают неравенство треугольника (4). Статистические расстояния, удовлетворяющие (1) и (2), называются расходимостями .
Примеры
Некоторые важные статистические расстояния включают следующее:
- f-дивергенция : включает
- Дивергенция Кульбака – Лейблера.
- Расстояние Хеллингера
- Общее расстояние вариации (иногда просто "статистическое расстояние")
- Расхождение Реньи
- Расхождение Дженсена – Шеннона
- Метрика Леви – Прохорова
- Бхаттачарья расстояние
- Метрика Вассерштейна : также известная как метрика Канторовича, или расстояние земного движителя.
- Статистики Колмогорова-Смирнова представляет собой расстояние между двумя распределений вероятности определяется на одной действительной переменной
- Максимальное среднее расхождение , которое определено в терминах ядра вложения распределений
- Расстояние отношения сигнал / шум
- Расстояние Махаланобиса
- Индекс различимости , в частности индекс различимости Байеса, является положительно определенной симметричной мерой перекрытия двух распределений.
- Энергетическое расстояние
- Корреляция расстояния - это мера зависимости между двумя случайными величинами , она равна нулю тогда и только тогда, когда случайные величины независимы.
- Оценка вероятности с непрерывным ранжированием измеряет, насколько хорошо прогнозы, выраженные в виде распределения вероятностей, соответствуют наблюдаемым результатам. Как местоположение, так и разброс прогнозируемого распределения учитываются при оценке того, насколько близко распределение является наблюдаемым значением: см. Вероятностное прогнозирование .
- Метрика Лукашика – Кармовского - это функция, определяющая расстояние между двумя случайными величинами или двумя случайными векторами . Он не удовлетворяет тождественному условию неразличимости метрики и равен нулю тогда и только тогда, когда оба его аргумента являются определенными событиями, описываемыми функциями распределения вероятностей дельта- плотности Дирака .
Смотрите также
- Вероятностное метрическое пространство
Заметки
- ^ Додж, Ю. (2003) - запись на расстоянии
Внешние ссылки
- Меры расстояния и сходства (Wolfram Alpha)
Рекомендации
- Додж Ю. (2003) Оксфордский словарь статистических терминов , OUP. ISBN 0-19-920613-9