Дивергенция (статистика)

В статистической и информационной геометрии , дивергенции или функции контраста является функцией , которая устанавливает «расстояние» одного распределения вероятностей к другой на статистическом многообразии . Дивергенция является более слабым понятием, чем расстояние , в частности, дивергенция не обязательно должна быть симметричной (то есть, в общем случае дивергенция от p до q не равна расходимости от q до p ) и не обязательно должна удовлетворять треугольнику неравенство .

Определение

Предположим, что S - это пространство всех распределений вероятностей с общей поддержкой. Тогда дивергенция на S - это функция D (· || ·): S × S → R, удовлетворяющая ^[1]

D ( p || q ) ≥ 0 для всех p , q ∈ S ,
D ( p || q ) = 0 тогда и только тогда, когда p = q ,

Двойной дивергенции D * определяется как

{\ displaystyle D ^ {*} (p \ parallel q) = D (q \ parallel p).}

Геометрические свойства

Многие свойства расходимостей могут быть получены, если мы ограничим S как статистическое многообразие, что означает, что оно может быть параметризовано с помощью конечномерной системы координат θ , так что для распределения p ∈ S мы можем написать p = p ( θ ) .

Для пары точек p , q ∈ S с координатами θ _p и θ _q обозначим частные производные D ( p || q ) как

{\ displaystyle {\ begin {align} D ((\ partial _ {i}) _ {p} \ parallel q) \ \ & {\ stackrel {\ mathrm {def}} {=}} \ \ {\ tfrac { \ partial} {\ partial \ theta _ {p} ^ {i}}} D (p \ parallel q), \\ D ((\ partial _ {i} \ partial _ {j}) _ {p} \ parallel (\ partial _ {k}) _ {q}) \ \ & {\ stackrel {\ mathrm {def}} {=}} \ \ {\ tfrac {\ partial} {\ partial \ theta _ {p} ^ { i}}} {\ tfrac {\ partial} {\ partial \ theta _ {p} ^ {j}}} {\ tfrac {\ partial} {\ partial \ theta _ {q} ^ {k}}} D ( p \ parallel q), \ \ \ mathrm {и т. д.} \ end {align}}}

Ограничим эти функции на диагональ p = q и обозначим ^[2]

{\ displaystyle {\ begin {align} D [\ partial _ {i} \ parallel \ cdot] \ &: \ p \ mapsto D ((\ partial _ {i}) _ {p} \ parallel p), \\ D [\ partial _ {i} \ parallel \ partial _ {j}] \ &: \ p \ mapsto D ((\ partial _ {i}) _ {p} \ parallel (\ partial _ {j}) _ { p}), \ \ \ mathrm {и т. д.} \ end {align}}}

По определению функция D ( p || q ) минимизируется при p = q , поэтому

{\ Displaystyle {\ begin {align} & D [\ partial _ {i} \ parallel \ cdot] = D [\ cdot \ parallel \ partial _ {i}] = 0, \\ & D [\ partial _ {i} \ частичный _ {j} \ parallel \ cdot] = D [\ cdot \ parallel \ partial _ {i} \ partial _ {j}] = - D [\ partial _ {i} \ parallel \ partial _ {j}] \ \ Equiv \ g_ {ij} ^ {(D)}, \ end {align}}}

где матрица г ^{( D )} является положительным полуопределенным и определяет уникальный риманов метрики на многообразии S .

Расхождение D (· || ·) также определяет уникальное кручение -бесплатно аффинная связность ∇ ^{( D )} с коэффициентами

{\ Displaystyle \ Gamma _ {ij, k} ^ {(D)} = - D [\ partial _ {i} \ partial _ {j} \ parallel \ partial _ {k}],}

и двойственная к этой связности ∇ * порождается двойственной дивергенцией D *.

Таким образом, дивергенция D (· || ·) порождает на статистическом многообразии единственную дуалистическую структуру ( g ^{( D )} , ∇ ^{( D )} , ∇ ^{( D *)} ). Верно и обратное: каждая дуалистическая структура без кручения на статистическом многообразии индуцируется некоторой глобально определенной функцией дивергенции (которая, однако, не обязательно должна быть единственной). ^[3]

Например, когда D является f-дивергенцией для некоторой функции ƒ (·), то она порождает метрику g ^{( D _f )} = c · g и связность ∇ ^{( D _f )} = ∇ ^{( α )} , где g - каноническая информационная метрика Фишера , ∇ ^{( α )} - α-связность , c = ƒ ′ ′ (1) и α = 3 + 2ƒ ′ ′ ′ (1) / ƒ ′ ′ (1) .

Примеры

Двумя наиболее важными расхождениями являются относительная энтропия ( расхождение Кульбака – Лейблера, расхождение KL), которое является центральным в теории информации и статистике, и квадрат Евклидова расстояния (SED). Минимизация этих двух расхождений является основным способом решения линейной обратной задачи с помощью принципа максимальной энтропии и наименьших квадратов , особенно в логистической регрессии и линейной регрессии . ^[4]

Два наиболее важные классов расхождений являются F -divergences и Брегман расходимость ; однако в литературе встречаются и другие типы функций дивергенции. Единственное расхождение, которое одновременно является f- расхождением и расхождением Брегмана, - это расхождение Кульбака – Лейблера; квадрат евклидовой дивергенции - это дивергенция Брегмана (соответствующая функции ${\ displaystyle x ^ {2}}$ ), но не f -расходимость.

f-расхождения

Это семейство расходимостей порождается функциями f ( u ), выпуклыми на u > 0 и такими, что f (1) = 0 . Тогда f -дивергенция определяется как

{\ displaystyle D_ {f} (p \ parallel q) = \ int p (x) f {\ bigg (} {\ frac {q (x)} {p (x)}} {\ bigg)} dx}

Дивергенция Кульбака – Лейблера :	${\ Displaystyle D _ {\ mathrm {KL}} (p \ parallel q) = \ int p (x) \ ln \ left ({\ frac {p (x)} {q (x)}} \ right) dx}$
квадрат расстояния Хеллингера :	${\ displaystyle H ^ {2} (p, \, q) = 2 \ int {\ Big (} {\ sqrt {p (x)}} - {\ sqrt {q (x)}} \, {\ Big )} ^ {2} dx}$
Дивергенция Джеффри:	${\ Displaystyle D_ {J} (п \ параллельно q) = \ int (p (x) -q (x)) {\ big (} \ ln p (x) - \ ln q (x) {\ big)} dx}$
Α-расходимость Чернова :	${\ displaystyle D ^ {(\ alpha)} (p \ parallel q) = {\ frac {4} {1- \ alpha ^ {2}}} {\ bigg (} 1- \ int p (x) ^ { \ frac {1- \ alpha} {2}} q (x) ^ {\ frac {1+ \ alpha} {2}} dx {\ bigg)}}$
экспоненциальное расхождение:	${\ Displaystyle D_ {е} (п \ параллельно q) = \ int p (x) {\ big (} \ ln p (x) - \ ln q (x) {\ big)} ^ {2} dx}$
Расхождение Кагана:	${\ displaystyle D _ {\ chi ^ {2}} (p \ parallel q) = {\ frac {1} {2}} \ int {\ frac {(p (x) -q (x)) ^ {2} } {p (x)}} dx}$
( α , β ) -расходимость произведения:	${\ displaystyle D _ {\ alpha, \ beta} (p \ parallel q) = {\ frac {2} {(1- \ alpha) (1- \ beta)}} \ int {\ Big (} 1 - {\ Большой (} {\ tfrac {q (x)} {p (x)}} {\ Big)} ^ {\! \! {\ Frac {1- \ alpha} {2}}} {\ Big)} { \ Big (} 1 - {\ Big (} {\ tfrac {q (x)} {p (x)}} {\ Big)} ^ {\! \! {\ Frac {1- \ beta} {2} }} {\ Big)} p (x) dx}$

Если марковский процесс имеет положительное равновесное распределение вероятностей ${\ displaystyle p ^ {*}}$ тогда ${\ displaystyle D_ {f} (p (t) \ parallel p ^ {*})}$ - монотонная (невозрастающая) функция времени, где распределение вероятностей ${\ displaystyle p (t)}$ является решением прямых уравнений Колмогорова (или главного уравнения ), используемых для описания временной эволюции распределения вероятностей в марковском процессе. Это означает, что все f -дивергенции ${\ displaystyle D_ {f} (p (t) \ parallel p ^ {*})}$ являются функциями Ляпунова прямых уравнений Колмогорова. Верно и обратное утверждение: если ${\ displaystyle H (p)}$ является функцией Ляпунова для всех цепей Маркова с положительным равновесием ${\ displaystyle p ^ {*}}$ и имеет форму следа ( ${\ displaystyle H (p) = \ sum _ {i} h (p_ {i}, p_ {i} ^ {*})}$ ) тогда ${\ Displaystyle H (p) = D_ {f} (p (t) \ parallel p ^ {*})}$ , для некоторой выпуклой функции f . ^[5]^[6] Расходимости Брегмана в общем случае не обладают таким свойством и могут увеличиваться в марковских процессах.

Расхождения Брегмана

Расходимости Брегмана соответствуют выпуклым функциям на выпуклых множествах. Учитывая строго выпуклой , непрерывно-дифференцируемая функция $F$ на выпуклом множестве , известный как генератор Брегман , что Брегман расходимости измеряет выпуклость: погрешности линейной аппроксимации $F$ от $Q$ в качестве приближения значения при $р$ :

{\ Displaystyle D_ {F} (p, q) = F (p) -F (q) - \ langle \ nabla F (q), pq \ rangle.}

Двойственная дивергенция к дивергенции Брегмана - это дивергенция, порожденная выпуклой сопряженной $F *$ генератора Брегмана исходной дивергенции. Например, для квадрата евклидова расстояния генератор ${\ displaystyle x ^ {2}}$ , а для относительной энтропии генератором является отрицательная энтропия ${\ Displaystyle х \ журнал х}$ .

История

Термин «дивергенция» для статистического расстояния использовался неформально в различных контекстах от c. 1910 до с. 1940. Его официальное использование датируется по крайней мере Бхаттачарьей (1943)., озаглавленный «О мере расхождения между двумя статистическими популяциями, определяемыми их распределениями вероятностей», в котором определено расстояние Бхаттачарьи , и Бхаттачарья (1946), озаглавленный «Об измерении расхождения между двумя полиномиальными популяциями», в котором определен угол Бхаттачарьи . Этот термин был популяризирован его использованием для расхождения Кульбака – Лейблера в Kullback & Leibler (1951)., его использование в учебнике Кульбака (1959), а затем Али и Сильви (1966)в общем, для класса f -расходов. Термин «расстояние Брегмана» все еще используется, но теперь предпочтение отдается «дивергенции Брегмана». В информационной геометрии изначально использовались альтернативные термины, в том числе «квазидистанция» Амари (1982 , стр. 369).и «функция контраста» Eguchi (1985) , хотя «дивергенция» использовалась в Amari (1985)для $α$ -расходимости и стало стандартом (например, Amari & Cichocki (2010)).

Смотрите также

Статистическое расстояние