Эта статья требует дополнительных ссылок для проверки . ( декабрь 2020 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон ) |
В статистике , теории вероятностей и теории информации , A статистическое расстояние квантифицирует расстояние между двумя статистическими объектами, которые могут быть две случайные величины , или два распределения вероятностей или образца , или расстояние может находиться между отдельной точки выборки и населения или более широкая выборка точек.
Расстояние между популяциями можно интерпретировать как измерение расстояния между двумя распределениями вероятностей, и, следовательно, они, по сути, являются мерой расстояний между мерами вероятности . Там , где меры статистических расстояний связаны с различиями между случайными величинами , они могут иметь статистическую зависимость , [1] и , следовательно , эти расстояния не связаны непосредственно с мерами расстояний между вероятностными мерами. Опять же, мера расстояния между случайными величинами может относиться к степени зависимости между ними, а не к их индивидуальным значениям.
Статистические меры расстояния в основном не являются метриками и не обязательно должны быть симметричными. Некоторые типы мер расстояния называются (статистическими) расхождениями .
Терминология [ править ]
Многие термины используются для обозначения различных понятий расстояния; они часто до степени смешения схожи и могут непоследовательно использоваться авторами и с течением времени, либо вольно, либо с точным техническим значением. В дополнение к «расстоянию» аналогичные термины включают отклонение , отклонение , несоответствие , дискриминацию и расхождение , а также другие, такие как функция контраста и метрика . Термины из теории информации включают кросс-энтропию , относительную энтропию , информацию о различении и получение информации .
Расстояния как метрики [ править ]
Показатели [ править ]
Метрика на множестве X является функцией (называется функция расстояния или просто расстояние )
d : X × X → R + (где R + - множество неотрицательных действительных чисел ). Для всех x , y , z в X эта функция должна удовлетворять следующим условиям:
- d ( x , y ) ≥ 0 ( неотрицательность )
- d ( x , y ) = 0 тогда и только тогда, когда x = y ( тождество неразличимых . Обратите внимание, что условия 1 и 2 вместе дают положительную определенность )
- d ( x , y ) = d ( y , x ) ( симметрия )
- d ( x , z ) ≤ d ( x , y ) + d ( y , z ) ( субаддитивность / неравенство треугольника ).
Обобщенные показатели [ править ]
Многие статистические расстояния не являются метриками , потому что им не хватает одного или нескольких свойств правильных метрик. Например, псевдометрия нарушает свойство « положительной определенности » (альтернативно, «тождество неразличимых» ) (1 и 2 выше); квазиметрики нарушают свойство симметрии (3); а полуметрики нарушают неравенство треугольника (4). Статистические расстояния, удовлетворяющие (1) и (2), называются расходимостями .
Примеры [ править ]
Некоторые важные статистические расстояния включают следующее:
- f-дивергенция : включает
- Дивергенция Кульбака – Лейблера
- Расстояние Хеллингера
- Общее расстояние вариации (иногда просто "статистическое расстояние")
- Расхождение Реньи
- Расхождение Дженсена – Шеннона
- Метрика Леви – Прохорова
- Бхаттачарья расстояние
- Метрика Вассерштейна : также известная как метрика Канторовича, или расстояние земного движителя.
- Статистики Колмогорова-Смирнова представляет собой расстояние между двумя распределений вероятности определяется на одной действительной переменной
- Максимальное среднее расхождение , которое определено в терминах ядра вложения распределений
Другие подходы
- Расстояние отношения сигнал / шум
- Расстояние Махаланобиса
- Энергетическое расстояние
- Корреляция расстояния - это мера зависимости между двумя случайными величинами , она равна нулю тогда и только тогда, когда случайные величины независимы.
- Оценка вероятности с непрерывным ранжированием измеряет, насколько хорошо прогнозы, выраженные в виде распределения вероятностей, соответствуют наблюдаемым результатам. Как местоположение, так и разброс прогнозируемого распределения учитываются при оценке того, насколько близко распределение является наблюдаемым значением: см. Вероятностное прогнозирование .
- Метрика Лукашика – Кармовского - это функция, определяющая расстояние между двумя случайными величинами или двумя случайными векторами . Он не удовлетворяет тождеству неразличимости метрики и равен нулю тогда и только тогда, когда оба его аргумента являются определенными событиями, описываемыми функциями распределения вероятностей дельта- плотности Дирака .
См. Также [ править ]
- Вероятностное метрическое пространство
Эта статья включает в себя список общих ссылок , но он остается в основном непроверенным, поскольку в нем отсутствуют соответствующие встроенные ссылки . Февраль 2012 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) ( |
Примечания [ править ]
- ^ Dodge, Y. (2003) - запись на расстоянии
Внешние ссылки [ править ]
- Меры расстояния и сходства (Wolfram Alpha)
Ссылки [ править ]
- Додж, Ю. (2003) Оксфордский словарь статистических терминов , OUP. ISBN 0-19-920613-9