В статистической и информационной геометрии , дивергенции или функции контраста является функцией , которая устанавливает «расстояние» одного распределения вероятностей к другой на статистическом многообразии . Дивергенция является более слабым понятием, чем расстояние , в частности, дивергенция не обязательно должна быть симметричной (то есть, в общем случае дивергенция от p до q не равна расходимости от q до p ) и не обязательно должна удовлетворять треугольнику неравенство .
Определение
Предположим, что S - это пространство всех распределений вероятностей с общей поддержкой. Тогда дивергенция на S - это функция D (· || ·): S × S → R, удовлетворяющая [1]
- D ( p || q ) ≥ 0 для всех p , q ∈ S ,
- D ( p || q ) = 0 тогда и только тогда, когда p = q ,
Двойной дивергенции D * определяется как
Геометрические свойства
Многие свойства расходимостей могут быть получены, если мы ограничим S как статистическое многообразие, что означает, что оно может быть параметризовано с помощью конечномерной системы координат θ , так что для распределения p ∈ S мы можем написать p = p ( θ ) .
Для пары точек p , q ∈ S с координатами θ p и θ q обозначим частные производные D ( p || q ) как
Ограничим эти функции на диагональ p = q и обозначим [2]
По определению функция D ( p || q ) минимизируется при p = q , поэтому
где матрица г ( D ) является положительным полуопределенным и определяет уникальный риманов метрики на многообразии S .
Расхождение D (· || ·) также определяет уникальное кручение -бесплатно аффинная связность ∇ ( D ) с коэффициентами
и двойственная к этой связности ∇ * порождается двойственной дивергенцией D *.
Таким образом, дивергенция D (· || ·) порождает на статистическом многообразии единственную дуалистическую структуру ( g ( D ) , ∇ ( D ) , ∇ ( D *) ). Верно и обратное: каждая дуалистическая структура без кручения на статистическом многообразии индуцируется некоторой глобально определенной функцией дивергенции (которая, однако, не обязательно должна быть единственной). [3]
Например, когда D является f-дивергенцией для некоторой функции ƒ (·), то она порождает метрику g ( D f ) = c · g и связность ∇ ( D f ) = ∇ ( α ) , где g - каноническая информационная метрика Фишера , ∇ ( α ) - α-связность , c = ƒ ′ ′ (1) и α = 3 + 2ƒ ′ ′ ′ (1) / ƒ ′ ′ (1) .
Примеры
Двумя наиболее важными расхождениями являются относительная энтропия ( расхождение Кульбака – Лейблера, расхождение KL), которое является центральным в теории информации и статистике, и квадрат Евклидова расстояния (SED). Минимизация этих двух расхождений является основным способом решения линейной обратной задачи с помощью принципа максимальной энтропии и наименьших квадратов , особенно в логистической регрессии и линейной регрессии . [4]
Два наиболее важные классов расхождений являются F -divergences и Брегман расходимость ; однако в литературе встречаются и другие типы функций дивергенции. Единственное расхождение, которое одновременно является f- расхождением и расхождением Брегмана, - это расхождение Кульбака – Лейблера; квадрат евклидовой дивергенции - это дивергенция Брегмана (соответствующая функции), но не f -расходимость.
f-расхождения
Это семейство расходимостей порождается функциями f ( u ), выпуклыми на u > 0 и такими, что f (1) = 0 . Тогда f -дивергенция определяется как
Дивергенция Кульбака – Лейблера : | |
квадрат расстояния Хеллингера : | |
Дивергенция Джеффри: | |
Α-расходимость Чернова : | |
экспоненциальное расхождение: | |
Расхождение Кагана: | |
( α , β ) -расходимость произведения: |
Если марковский процесс имеет положительное равновесное распределение вероятностей тогда - монотонная (невозрастающая) функция времени, где распределение вероятностей является решением прямых уравнений Колмогорова (или главного уравнения ), используемых для описания временной эволюции распределения вероятностей в марковском процессе. Это означает, что все f -дивергенцииявляются функциями Ляпунова прямых уравнений Колмогорова. Верно и обратное утверждение: если является функцией Ляпунова для всех цепей Маркова с положительным равновесием и имеет форму следа () тогда , для некоторой выпуклой функции f . [5] [6] Расходимости Брегмана в общем случае не обладают таким свойством и могут увеличиваться в марковских процессах.
Расхождения Брегмана
Расходимости Брегмана соответствуют выпуклым функциям на выпуклых множествах. Учитывая строго выпуклой , непрерывно-дифференцируемая функция F на выпуклом множестве , известный как генератор Брегман , что Брегман расходимости измеряет выпуклость: погрешности линейной аппроксимации F от Q в качестве приближения значения при р :
Двойственная дивергенция к дивергенции Брегмана - это дивергенция, порожденная выпуклой сопряженной F * генератора Брегмана исходной дивергенции. Например, для квадрата евклидова расстояния генератор, а для относительной энтропии генератором является отрицательная энтропия .
История
Термин «дивергенция» для статистического расстояния использовался неформально в различных контекстах от c. 1910 до с. 1940. Его официальное использование датируется по крайней мере Бхаттачарьей (1943). , озаглавленный «О мере расхождения между двумя статистическими популяциями, определяемыми их распределениями вероятностей», в котором определено расстояние Бхаттачарьи , и Бхаттачарья (1946) , озаглавленный «Об измерении расхождения между двумя полиномиальными популяциями», в котором определен угол Бхаттачарьи . Этот термин был популяризирован его использованием для расхождения Кульбака – Лейблера в Kullback & Leibler (1951). , его использование в учебнике Кульбака (1959) , а затем Али и Сильви (1966) в общем, для класса f -расходов. Термин «расстояние Брегмана» все еще используется, но теперь предпочтение отдается «дивергенции Брегмана». В информационной геометрии изначально использовались альтернативные термины, в том числе «квазидистанция» Амари (1982 , стр. 369). и «функция контраста» Eguchi (1985) , хотя «дивергенция» использовалась в Amari (1985) для α -расходимости и стало стандартом (например, Amari & Cichocki (2010) ).
Смотрите также
- Статистическое расстояние
Рекомендации
- ^ Эгучи (1985)
- ^ Эгучи (1992)
- ^ Матумото (1993)
- ^ Csiszár 1991 .
- ↑ Горбань, Павел А. (15 октября 2003 г.). «Монотонно эквивалентные энтропии и решение уравнения аддитивности». Physica . 328 (3–4): 380–390. arXiv : cond-mat / 0304131 . DOI : 10.1016 / S0378-4371 (03) 00578-8 .
- ^ Амари, Шунити (2009). Люнг, CS; Ли, М .; Чан, JH (ред.). Дивергенция, Оптимизация, Геометрия . 16-я Международная конференция по обработке нейронной информации (ICONIP 20009), Бангкок, Таиланд, 1-5 декабря 2009 г. Конспект лекций по информатике, том 5863. Берлин, Гейдельберг: Springer. С. 185–193. DOI : 10.1007 / 978-3-642-10677-4_21 .
- Амари, Шун-ичи ; Нагаока, Хироши (2000). Методы информационной геометрии . Издательство Оксфордского университета. ISBN 0-8218-0531-2.CS1 maint: ref дублирует значение по умолчанию ( ссылка )
- Эгути, синтоизм (1985). «Дифференциально-геометрический подход к статистическому выводу на основе функционалов контраста» . Математический журнал Хиросимы . 15 (2): 341–391. DOI : 10.32917 / HMJ / 1206130775 .CS1 maint: ref дублирует значение по умолчанию ( ссылка )
- Егучи, синтоизм (1992). «Геометрия минимального контраста» . Математический журнал Хиросимы . 22 (3): 631–647. DOI : 10.32917 / HMJ / 1206128508 .CS1 maint: ref дублирует значение по умолчанию ( ссылка )
- Матумото, Такао (1993). «Любое статистическое многообразие имеет функцию контраста - на C³-функциях, принимающих минимум на диагонали многообразия-произведения» . Математический журнал Хиросимы . 23 (2): 327–332. DOI : 10.32917 / HMJ / 1206128255 .CS1 maint: ref дублирует значение по умолчанию ( ссылка )