Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике , теории вероятностей и теории информации , A статистическое расстояние квантифицирует расстояние между двумя статистическими объектами, которые могут быть две случайные величины , или два распределения вероятностей или образца , или расстояние может находиться между отдельной точки выборки и населения или более широкая выборка точек.

Расстояние между популяциями можно интерпретировать как измерение расстояния между двумя распределениями вероятностей, и, следовательно, они, по сути, являются мерой расстояний между мерами вероятности . Там , где меры статистических расстояний связаны с различиями между случайными величинами , они могут иметь статистическую зависимость , [1] и , следовательно , эти расстояния не связаны непосредственно с мерами расстояний между вероятностными мерами. Опять же, мера расстояния между случайными величинами может относиться к степени зависимости между ними, а не к их индивидуальным значениям.

Статистические меры расстояния в основном не являются метриками и не обязательно должны быть симметричными. Некоторые типы мер расстояния называются (статистическими) расхождениями .

Терминология [ править ]

Многие термины используются для обозначения различных понятий расстояния; они часто до степени смешения схожи и могут непоследовательно использоваться авторами и с течением времени, либо вольно, либо с точным техническим значением. В дополнение к «расстоянию» аналогичные термины включают отклонение , отклонение , несоответствие , дискриминацию и расхождение , а также другие, такие как функция контраста и метрика . Термины из теории информации включают кросс-энтропию , относительную энтропию , информацию о различении и получение информации .

Расстояния как метрики [ править ]

Показатели [ править ]

Метрика на множестве X является функцией (называется функция расстояния или просто расстояние )

d  : X × XR + (где R + - множество неотрицательных действительных чисел ). Для всех x , y , z в X эта функция должна удовлетворять следующим условиям:

  1. d ( x , y ) ≥ 0 ( неотрицательность )
  2. d ( x , y ) = 0 тогда и только тогда, когда   x = y     ( тождество неразличимых . Обратите внимание, что условия 1 и 2 вместе дают положительную определенность )
  3. d ( x , y ) = d ( y , x ) ( симметрия )
  4. d ( x , z ) ≤ d ( x , y ) + d ( y , z ) ( субаддитивность / неравенство треугольника ).

Обобщенные показатели [ править ]

Многие статистические расстояния не являются метриками , потому что им не хватает одного или нескольких свойств правильных метрик. Например, псевдометрия нарушает свойство « положительной определенности » (альтернативно, «тождество неразличимых» ) (1 и 2 выше); квазиметрики нарушают свойство симметрии (3); а полуметрики нарушают неравенство треугольника (4). Статистические расстояния, удовлетворяющие (1) и (2), называются расходимостями .

Примеры [ править ]

Некоторые важные статистические расстояния включают следующее:

  • f-дивергенция : включает
    • Дивергенция Кульбака – Лейблера
    • Расстояние Хеллингера
    • Общее расстояние вариации (иногда просто "статистическое расстояние")
  • Расхождение Реньи
  • Расхождение Дженсена – Шеннона
  • Метрика Леви – Прохорова
  • Бхаттачарья расстояние
  • Метрика Вассерштейна : также известная как метрика Канторовича, или расстояние земного движителя.
  • Статистики Колмогорова-Смирнова представляет собой расстояние между двумя распределений вероятности определяется на одной действительной переменной
  • Максимальное среднее расхождение , которое определено в терминах ядра вложения распределений

Другие подходы

  • Расстояние отношения сигнал / шум
  • Расстояние Махаланобиса
  • Энергетическое расстояние
    • Корреляция расстояния - это мера зависимости между двумя случайными величинами , она равна нулю тогда и только тогда, когда случайные величины независимы.
  • Оценка вероятности с непрерывным ранжированием измеряет, насколько хорошо прогнозы, выраженные в виде распределения вероятностей, соответствуют наблюдаемым результатам. Как местоположение, так и разброс прогнозируемого распределения учитываются при оценке того, насколько близко распределение является наблюдаемым значением: см. Вероятностное прогнозирование .
  • Метрика Лукашика – Кармовского - это функция, определяющая расстояние между двумя случайными величинами или двумя случайными векторами . Он не удовлетворяет тождеству неразличимости метрики и равен нулю тогда и только тогда, когда оба его аргумента являются определенными событиями, описываемыми функциями распределения вероятностей дельта- плотности Дирака .

См. Также [ править ]

  • Вероятностное метрическое пространство

Примечания [ править ]

  1. ^ Dodge, Y. (2003) - запись на расстоянии

Внешние ссылки [ править ]

  • Меры расстояния и сходства (Wolfram Alpha)

Ссылки [ править ]

  • Додж, Ю. (2003) Оксфордский словарь статистических терминов , OUP. ISBN  0-19-920613-9