Неравенство Дженсена


В математике , неравенство Йенсена , названный в честь датского математика Иоганна Jensen , связывающее значение выпуклой функции в качестве интеграла к интегралу от выпуклой функции. Это было доказано Йенсеном в 1906 г. [1] Учитывая его общность, неравенство проявляется во многих формах в зависимости от контекста, некоторые из которых представлены ниже. В своей простейшей форме неравенство утверждает, что выпуклое преобразование среднего меньше или равно среднему значению, примененному после выпуклого преобразования; Это простое следствие, что обратное верно для вогнутых преобразований.

Неравенство Йенсена обобщает утверждение, что секущая выпуклой функции лежит над графиком.
Визуализация выпуклости и неравенства Дженсена

Неравенство Йенсена обобщает утверждение о том, что секущая выпуклой функции лежит над графиком функции, что является неравенством Йенсена для двух точек: секущая состоит из взвешенных средних значений выпуклой функции (для t  ∈ [0,1]) ,

в то время как график функции является выпуклой функцией взвешенных средних,

Таким образом, неравенство Дженсена имеет вид

В контексте теории вероятностей это обычно формулируется в следующей форме: если X - случайная величина, а φ - выпуклая функция, то

Разница между двумя сторонами неравенства, , называется разрывом Дженсена . [2]

Классическая форма неравенства Дженсена включает несколько чисел и весов. Неравенство может быть сформулировано в самом общем виде, используя язык теории меры или (что то же самое) вероятностное. В вероятностной постановке неравенство может быть обобщено в полной мере .

Конечная форма

Для действительной выпуклой функции , числа в своей области, а положительные веса , Неравенство Дженсена можно сформулировать как:

и неравенство отменяется, если является вогнутой , который является

Равенство имеет место тогда и только тогда, когда или же линейна в области, содержащей .

Как частный случай, если веса все равны, то (1) и (2) становятся

Например, функция журнал ( х ) является вогнутым , так что замещающимв предыдущей формуле (4) устанавливает (логарифм) знакомое неравенство среднего арифметического / среднего геометрического :

Обычное приложение имеет как функция другой переменной (или набора переменных) , это, . Все это прямо переносится на общий непрерывный случай: веса a i заменяются неотрицательной интегрируемой функцией f  ( x ) , такой как распределение вероятностей, а суммы заменяются интегралами.

Теоретико-мерная и вероятностная форма

Позволять быть вероятностным пространством , т. е.. Если- вещественнозначная функция, которая- интегрируемые , а еслиявляется выпуклой функцией на вещественной прямой, то:

[3]

В реальном анализе нам может потребоваться оценка

где , а также - неотрицательная интегрируемая по Лебегу функция. В этом случае мера Лебегане должно быть единства. Однако путем интегрирования путем подстановки интервал можно масштабировать так, чтобы он имел единицу измерения. Тогда неравенство Дженсена может быть применено, чтобы получить [4]

Тот же результат может быть эквивалентно сформулирован в контексте теории вероятностей путем простой замены обозначений. Позволять- вероятностное пространство , X - интегрируемая вещественная случайная величина, а φ - выпуклая функция . Потом:

[5]

В этой настройке вероятности мера μ предназначена как вероятность, интеграл по μ как математическое ожидание , а функция в качестве случайной величины X .

Заметим, что равенство выполняется тогда и только тогда, когда φ - линейная функция на некотором выпуклом множестве такой, что (что следует из приведенного ниже доказательства теории меры).

Общее неравенство в вероятностной постановке

В более общем смысле, пусть T - реальное топологическое векторное пространство , а X - T -значная интегрируемая случайная величина. В этом общем случае интегрируемость означает, что существует элементв T , такой, что для любого элемента z в пространстве, сопряженном с T :, а также . Тогда для любой измеримой выпуклой функции φ и любой под- σ-алгебры из :

Здесь обозначает математическое ожидание, обусловленное σ-алгеброй. Это общее утверждение сводится к предыдущим, когда топологическое векторное пространство T является действительной осью и- тривиальная σ -алгебра {∅, Ω} (где - пустое множество , а Ω - пространство выборок ). [6]

Заостренная и обобщенная форма

Пусть X - одномерная случайная величина со средним и дисперсия . Позволять - дважды дифференцируемая функция, и определим функцию

Тогда [7]

В частности, когда выпукло, то , а стандартная форма неравенства Йенсена сразу следует для случая, когда дополнительно предполагается дважды дифференцируемой.

Графическое «доказательство» неравенства Йенсена для вероятностного случая. Пунктирная кривая по оси X - это гипотетическое распределение X , а пунктирная кривая по оси Y - соответствующее распределение значений Y. Обратите внимание , что выпуклое отображение У ( Х ) все более « отрезки » распределение для увеличения значения X .
Это без слов доказательство неравенства Йенсена для n переменных. Без ограничения общности сумма положительных весов равна 1 . Отсюда следует, что взвешенная точка лежит в выпуклой оболочке исходных точек, лежащей над самой функцией по определению выпуклости. Напрашивается вывод. [8]

Неравенство Дженсена может быть доказано несколькими способами, и будут предложены три разных доказательства, соответствующих различным утверждениям выше. Однако прежде чем приступить к этим математическим выводам, стоит проанализировать интуитивно понятный графический аргумент, основанный на вероятностном случае, когда X - действительное число (см. Рисунок). Предполагая гипотетическое распределение значений X , можно сразу определить положение и его образ в графике. Заметив, что для выпуклых отображений Y = φ ( X ) соответствующее распределение значений Y все больше «растягивается» при увеличении значений X , легко видеть, что распределение Y шире в интервале, соответствующем X > X 0. и уже в X < X 0 для любого X 0 ; в частности, это верно и для. Следовательно, на этой картинке ожидание Y всегда будет смещаться вверх по отношению к положению. Аналогичное рассуждение справедливо, если распределение X покрывает убывающую часть выпуклой функции или как убывающую, так и возрастающую ее части. Это «доказывает» неравенство, т. Е.

с равенством, когда φ ( X ) не является строго выпуклым, например, когда это прямая линия, или когда X следует вырожденному распределению (т.е. является константой).

Приведенные ниже доказательства формализуют это интуитивное понятие.

Доказательство 1 (конечная форма)

Если λ 1 и λ 2 - два произвольных неотрицательных действительных числа такие, что λ 1 + λ 2 = 1, то из выпуклости φ следует

Это можно обобщить: если λ 1 , ..., λ n - неотрицательные действительные числа такие, что λ 1 + ... + λ n = 1 , то

для любых x 1 , ..., x n .

Конечная форма неравенства Йенсена может быть доказана индукцией : по выпуклости гипотез, это утверждение верно для п  = 2. Предположим , что утверждение верно для некоторого п , так

для любых λ 1 , ..., λ n таких, что λ 1 + ... + λ n = 1 .

Это нужно доказать для n + 1 . По крайней мере, одно из λ i строго меньше, чем, скажем, λ n + 1 ; поэтому по неравенству выпуклости:

Поскольку λ 1 + ... + λ n + λ n + 1 = 1 ,

,

применение предположения индукции дает

следовательно

Мы заключаем, что равенство верно для n + 1 , из принципа математической индукции следует, что результат также верен для всех целых n больше 2.

Чтобы получить общее неравенство из этой конечной формы, необходимо использовать аргумент плотности. Конечная форма может быть переписана как:

где μ п является мерой задается произвольной выпуклой комбинации из Дирака дельт :

Поскольку выпуклые функции непрерывны , а выпуклые комбинации дельт Дирака слабо плотны в множестве вероятностных мер (что легко проверить), общее утверждение получается просто с помощью предельной процедуры.

Доказательство 2 (теоретико-мерная форма)

Пусть g - вещественнозначная μ-интегрируемая функция на вероятностном пространстве Ω, а φ - выпуклая функция на действительных числах. Поскольку φ является выпуклым, в каждом действительном числе x у нас есть непустое множество подчиненных производных , которые можно рассматривать как прямые, касающиеся графика φ в точке x , но которые находятся на графике φ или ниже во всех точках (опорные линии график).

Теперь, если мы определим

из-за существования субпроизводных для выпуклых функций мы можем выбрать a и b так , чтобы

для всех реальных x и

Но тогда у нас есть это

для всех х . Поскольку у нас есть вероятностная мера, интеграл монотонен с μ (Ω) = 1, так что

по желанию.

Доказательство 3 (общее неравенство в вероятностной постановке)

Пусть X интегрируемая случайная величина, принимающая значения в реальном топологическом векторном пространстве Т . С выпукло, для любого , количество

убывает, когда θ приближается к 0 + . В частности, субдифференциале изоценивается в x в направлении y , хорошо определяется

Легко видеть, что субдифференциал линейен по y [ необходима цитата ] (это неверно, и утверждение требует доказательства теоремы Хана-Банаха) и, поскольку нижняя грань, взятая в правой части предыдущей формулы, меньше, чем значение того же члена при θ = 1 , получаем

В частности, для произвольной под- σ -алгебры мы можем оценить последнее неравенство, когда чтобы получить

Теперь, если мы возьмем ожидание, обусловленное по обе стороны от предыдущего выражения, мы получаем результат, так как:

линейностью субдифференциала по переменной y и следующим хорошо известным свойством условного математического ожидания :

Форма с функцией плотности вероятности

Предположим, что Ω - измеримое подмножество вещественной прямой, а f ( x ) - неотрицательная функция такая, что

На вероятностном языке f - это функция плотности вероятности .

Тогда неравенство Йенсена превращается в следующее утверждение о выпуклых интегралах:

Если g - любая измеримая действительная функция ивыпукла в диапазоне g , то

Если g ( x ) = x , то эта форма неравенства сводится к обычно используемому частному случаю:

Это применяется в вариационных байесовских методах .

Пример: четные моменты случайной величины

Если g ( x ) = x 2n и X - случайная величина, то g выпукла, как

и другие

В частности, если некоторые даже момент 2n из X конечен, X имеет конечное среднее. Расширение этого аргумента показывает, что X имеет конечные моменты любого порядкаразделение n .

Альтернативная конечная форма

Пусть Ω = { x 1 , ... x n }, и пусть μ - считающая мера на Ω , тогда общая форма сводится к утверждению о суммах:

при условии, что λ i ≥ 0 и

Также существует бесконечная дискретная форма.

Статистическая физика

Неравенство Йенсена имеет особое значение в статистической физике, когда выпуклая функция является экспоненциальной, что дает:

где ожидаемые значения являются относительно некоторого распределения вероятностей в случайной величине X .

Доказательство в этом случае очень простое (см. Чандлер, раздел 5.5). Желаемое неравенство следует непосредственно, записывая

а затем применяя неравенство e X ≥ 1 + X к финальной экспоненте.

Теория информации

Если p ( x ) - истинная плотность вероятности для X , а q ( x ) - другая плотность, то применяя неравенство Дженсена для случайной величины Y ( X ) = q ( X ) / p ( X ) и выпуклой функции φ ( y ) = −log ( y ) дает

Следовательно:

результат, названный неравенством Гиббса .

Он показывает, что средняя длина сообщения минимизируется, когда коды назначаются на основе истинных вероятностей p, а не любого другого распределения q . Величина , которая является неотрицательным называется Кульбак-Либлер расхождение в д из р .

Так как -log ( х ) является строго выпуклой функцией для й > 0 , то отсюда следует , что имеет место равенства при р ( х ) равен д ( х ) почти всюду.

Теорема Рао – Блэквелла.

Если L - выпуклая функция и суб-сигма-алгебры, то из условной версии неравенства Дженсена получаем

Итак, если δ ( X ) - некоторая оценка ненаблюдаемого параметра θ, заданного вектором наблюдаемых X ; и если T ( X ) - достаточная статистика для θ; тогда улучшенная оценка в смысле меньших ожидаемых потерь L может быть получена путем вычисления

ожидаемое значение δ относительно θ, взятое по всем возможным векторам наблюдений X, совместимых с тем же значением T ( X ), что и наблюдаемое. Кроме того, поскольку T - достаточная статистика, не зависит от θ, следовательно, становится статистикой.

Этот результат известен как теорема Рао – Блэквелла .

  • Неравенство Караматы для более общего неравенства
  • Неравенство Поповичу
  • Закон средних чисел
  • Доказательство без слов неравенства Дженсена

  1. ^ Дженсен, JLWV (1906). "Sur les fonctions convxes et les inégalités entre les valeurs moyennes" . Acta Mathematica . 30 (1): 175–193. DOI : 10.1007 / BF02418571 .
  2. ^ Гао, Сян; Ситарам, Мира; Ройтберг, Адриан (2019). «Границы разрыва Дженсена и последствия для средне-концентрированных распределений» (PDF) . Австралийский журнал математического анализа и приложений . 16 (2). arXiv : 1712.05267 .
  3. ^ стр. 25 из Рик Дарретт (2019). Вероятность: теория и примеры (5-е изд.). Издательство Кембриджского университета. ISBN 978-1108473682.
  4. ^ Никулеску, Константин П. «Интегральные неравенства» , стр. 12.
  5. ^ стр. 29 из Рик Дарретт (2019). Вероятность: теория и примеры (5-е изд.). Издательство Кембриджского университета. ISBN 978-1108473682.
  6. ^ Внимание: в этой общности необходимы дополнительные предположения о выпуклой функции и / или топологическом векторном пространстве, см. Пример (1.3) на с. 53 дюйм Перлман, Майкл Д. (1974). «Неравенство Йенсена для выпуклой векторнозначной функции на бесконечномерном пространстве» . Журнал многомерного анализа . 4 (1): 52–65. DOI : 10.1016 / 0047-259X (74) 90005-0 .
  7. ^ Liao, J .; Берг, А (2018). «Обострение неравенства Дженсена». Американский статистик . arXiv : 1707.08644 . DOI : 10.1080 / 00031305.2017.1419145 .
  8. ^ Брэдли, CJ (2006). Введение в неравенство . Лидс, Соединенное Королевство: Математический фонд Соединенного Королевства. п. 97. ISBN 978-1-906001-11-7.

  • Дэвид Чендлер (1987). Введение в современную статистическую механику . Оксфорд. ISBN 0-19-504277-8.
  • Тристан Нидхэм (1993) «Визуальное объяснение неравенства Дженсена», American Mathematical Monthly 100 (8): 768–71.
  • Никола Фуско ; Паоло Марчеллини ; Карло Сбордоне (1996). Analisi Matematica Due . Лигуори. ISBN 978-88-207-2675-1.
  • Вальтер Рудин (1987). Реальный и комплексный анализ . Макгроу-Хилл. ISBN 0-07-054234-1.
  • Рик Дарретт (2019). Вероятность: теория и примеры (5-е изд.). Издательство Кембриджского университета. п. 430. ISBN 978-1108473682. Дата обращения 21 декабря 2020 .

  • Операторное неравенство Дженсена Хансена и Педерсена.
  • «Неравенство Дженсена» , Энциклопедия математики , EMS Press , 2001 [1994]
  • Вайсштейн, Эрик В. «Неравенство Дженсена» . MathWorld .
  • Артур Лохуотер (1982). «Введение в неравенство» . Электронная книга в формате PDF.