Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистической и информационной геометрии , дивергенции или функции контраста является функцией , которая устанавливает «расстояние» одного распределения вероятностей к другой на статистическом многообразии . Дивергенция является более слабым понятием, чем расстояние , в частности, дивергенция не обязательно должна быть симметричной (то есть, в общем случае дивергенция от p до q не равна расходимости от q до p ), и не обязательно удовлетворять треугольнику неравенство .

Определение [ править ]

Предположим, что S - это пространство всех распределений вероятностей с общей поддержкой. Тогда дивергенция на S - это функция D (· || ·): S × SR, удовлетворяющая [1]

  1. D ( p  ||  q ) ≥ 0 для всех p , qS ,
  2. D ( p  ||  q ) = 0 тогда и только тогда, когда p = q ,

Двойной дивергенции D * определяется как

Геометрические свойства [ править ]

Многие свойства расходимостей могут быть получены, если мы ограничим S как статистическое многообразие, что означает, что оно может быть параметризовано с помощью конечномерной системы координат θ , так что для распределения pS мы можем написать p = p ( θ ) .

Для пары точек p , qS с координатами θ p и θ q обозначим частные производные D ( p  ||  q ) как

Ограничим эти функции на диагональ p = q и обозначим [2]

По определению, функция D ( p  ||  q ) минимизируется при p = q , поэтому

где матрица г ( D ) является положительным полуопределенным и определяет уникальный риманов метрики на многообразии S .

Расхождение D (· || ·) также определяет уникальное кручение -бесплатно аффинная связность( D ) с коэффициентами

и двойственная к этой связности ∇ * порождается двойственной дивергенцией D *.

Таким образом, дивергенция D (· || ·) порождает на статистическом многообразии единственную дуалистическую структуру ( g ( D ) , ∇ ( D ) , ∇ ( D *) ). Верно и обратное: каждая дуалистическая структура без кручения на статистическом многообразии индуцируется некоторой глобально определенной функцией дивергенции (которая, однако, не обязательно должна быть единственной). [3]

Например, если D является f-дивергенцией для некоторой функции ƒ (·), то она порождает метрику g ( D f ) = c · g и связность ( D f ) = ∇ ( α ) , где g - каноническая информационная метрика Фишера , ∇ ( α ) - α-связность , c = ƒ ′ ′ (1) и α = 3 + 2ƒ ′ ′ ′ (1) / ƒ ′ ′ (1) .

Примеры [ править ]

Двумя наиболее важными расходимостями являются относительная энтропия ( расхождение Кульбака – Лейблера, расхождение KL), которое является центральным в теории информации и статистике, и квадрат Евклидова расстояния (SED). Минимизация этих двух расхождений является основным способом решения линейной обратной задачи с помощью принципа максимальной энтропии и наименьших квадратов , особенно в логистической регрессии и линейной регрессии . [4]

Двумя наиболее важными классами расхождений являются f- расхождения и расхождения Брегмана ; однако в литературе встречаются и другие типы функций дивергенции. Единственное расхождение, которое одновременно является f- расхождением и расхождением Брегмана, - это расхождение Кульбака – Лейблера; Евклидова дивергенция в квадрате - это дивергенция Брегмана (соответствующая функции ), но не f- дивергенция.

f-дивергенции [ править ]

Это семейство расходимостей порождается функциями f ( u ), выпуклыми на u > 0 и такими, что f (1) = 0 . Тогда f -дивергенция определяется как

Если марковский процесс имеет положительное равновесное распределение вероятностей, то это монотонная (невозрастающая) функция времени, где распределение вероятностей является решением прямых уравнений Колмогорова (или главного уравнения ), используемых для описания временной эволюции вероятности распределение в марковском процессе. Это означает, что все f -расходимости являются функциями Ляпунова прямых уравнений Колмогорова. Верно и обратное утверждение: если - функция Ляпунова для всех цепей Маркова с положительным равновесием и имеет форму следа ( ), то для некоторой выпуклой функцииf . [5] [6] Расходимости Брегмана в общем случае не обладают таким свойством и могут увеличиваться в марковских процессах.

Расхождения Брегмана [ править ]

Расходимости Брегмана соответствуют выпуклым функциям на выпуклых множествах. Учитывая строго выпуклой , непрерывно-дифференцируемая функция F на выпуклом множестве , известный как генератор Брегман , что Брегман расходимости измеряет выпуклость: погрешности линейной аппроксимации F от Q в качестве приближения значения при р :

Двойственная дивергенция к дивергенции Брегмана - это дивергенция, порожденная выпуклой сопряженной F * генератора Брегмана исходной дивергенции. Например, для квадрата евклидова расстояния генератор есть , а для относительной энтропии генератор - отрицательная энтропия .

История [ править ]

Термин «дивергенция» для статистического расстояния использовался неформально в различных контекстах от c. 1910 до с. 1940. Его официальное использование датируется, по крайней мере, Бхаттачарьей (1943) , озаглавленной «Об измерении расхождения между двумя статистическими популяциями, определяемыми их распределениями вероятностей», который определил расстояние Бхаттачарьи , и Бхаттачарьей (1946) , озаглавленным «О мере Дивергенция между двумя полиномиальными популяциями », который определил угол Бхаттачарьи . Этот термин был популяризирован благодаря его использованию для обозначения расхождения Кульбака-Лейблера в Kullback & Leibler (1951) , его использованию в учебнике Kullback (1959) , а затем Али иСильви (1966)в общем, для класса f -расходов. Термин «расстояние Брегмана» все еще используется, но теперь предпочтение отдается «дивергенции Брегмана». В информационной геометрии изначально использовались альтернативные термины, в том числе «квазидистанция» Амари (1982 , стр. 369) и «функция контраста» Эгути (1985) , хотя «дивергенция» использовалась в Амари (1985) для α -расходимости. , и стал стандартным (например, Amari & Cichocki (2010) ).

См. Также [ править ]

  • Статистическое расстояние

Ссылки [ править ]

  1. ^ Эгучи (1985)
  2. ^ Эгучи (1992)
  3. ^ Матумото (1993)
  4. ^ Csiszár 1991 .
  5. Горбань, Павел А. (15 октября 2003 г.). «Монотонно эквивалентные энтропии и решение уравнения аддитивности». Physica . 328 (3–4): 380–390. arXiv : cond-mat / 0304131 . DOI : 10.1016 / S0378-4371 (03) 00578-8 .
  6. ^ Amari, Shun'ichi (2009). Люнг, CS; Ли, М .; Чан, JH (ред.). Дивергенция, Оптимизация, Геометрия . 16-я Международная конференция по обработке нейронной информации (ICONIP 20009), Бангкок, Таиланд, 1-5 декабря 2009 г. Конспект лекций по информатике, том 5863. Берлин, Гейдельберг: Springer. С. 185–193. DOI : 10.1007 / 978-3-642-10677-4_21 .
  • Амари, Шун-ичи ; Нагаока, Хироши (2000). Методы информационной геометрии . Издательство Оксфордского университета. ISBN 0-8218-0531-2.
  • Егучи, синтоизм (1985). «Дифференциально-геометрический подход к статистическому выводу на основе функционалов контраста» . Математический журнал Хиросимы . 15 (2): 341–391. DOI : 10.32917 / HMJ / 1206130775 .
  • Егучи, синтоизм (1992). «Геометрия минимального контраста» . Математический журнал Хиросимы . 22 (3): 631–647. DOI : 10.32917 / HMJ / 1206128508 .
  • Матумото, Такао (1993). «Любое статистическое многообразие имеет функцию контраста - на C³-функциях, принимающих минимум на диагонали многообразия-произведения» . Математический журнал Хиросимы . 23 (2): 327–332. DOI : 10.32917 / HMJ / 1206128255 .