Неравенство Дженсена

В математике , неравенство Йенсена , названный в честь датского математика Иоганна Jensen , связывающее значение выпуклой функции в качестве интеграла к интегралу от выпуклой функции. Это было доказано Йенсеном в 1906 г. ^[1] Учитывая его общность, неравенство проявляется во многих формах в зависимости от контекста, некоторые из которых представлены ниже. В своей простейшей форме неравенство утверждает, что выпуклое преобразование среднего меньше или равно среднему значению, примененному после выпуклого преобразования; это простое следствие, что обратное верно для вогнутых преобразований.

Неравенство Йенсена обобщает утверждение о том, что секущая выпуклой функции лежит над графиком.

">

Воспроизвести медиа

Визуализация выпуклости и неравенства Дженсена

Неравенство Йенсена обобщает утверждение о том, что секущая выпуклой функции лежит над графиком функции, что является неравенством Йенсена для двух точек: секущая состоит из взвешенных средних значений выпуклой функции (для t ∈ [0,1]) ,

{\ Displaystyle tf (x_ {1}) + (1-t) f (x_ {2}),}

в то время как график функции является выпуклой функцией взвешенных средних,

{\ displaystyle f \ left (tx_ {1} + (1-t) x_ {2} \ right).}

Таким образом, неравенство Дженсена имеет вид

{\ displaystyle f \ left (tx_ {1} + (1-t) x_ {2} \ right) \ leq tf (x_ {1}) + (1-t) f (x_ {2}).}

В контексте теории вероятностей это обычно формулируется в следующей форме: если X - случайная величина, а $φ$ - выпуклая функция, то

{\ displaystyle \ varphi \ left (\ operatorname {E} [X] \ right) \ leq \ operatorname {E} \ left [\ varphi (X) \ right].}

Разница между двумя сторонами неравенства, ${\ Displaystyle \ OperatorName {E} \ left [\ varphi (X) \ right] - \ varphi \ left (\ operatorname {E} [X] \ right)}$ , называется разрывом Дженсена . ^[2]

Заявления

Классическая форма неравенства Дженсена включает несколько чисел и весов. Неравенство может быть сформулировано в самом общем виде, используя язык теории меры или (что то же самое) вероятностное. В вероятностной постановке неравенство может быть обобщено в полной мере .

Конечная форма

Для действительной выпуклой функции ${\ displaystyle \ varphi}$ , числа ${\ Displaystyle x_ {1}, x_ {2}, \ ldots, x_ {n}}$ в своей области, а положительные веса ${\ displaystyle a_ {i}}$ , Неравенство Дженсена можно сформулировать как:

{\ displaystyle \ varphi \ left ({\ frac {\ sum a_ {i} x_ {i}} {\ sum a_ {i}}} \ right) \ leq {\ frac {\ sum a_ {i} \ varphi ( x_ {i})} {\ sum a_ {i}}} \ qquad \ qquad (1)}

и неравенство отменяется, если ${\ displaystyle \ varphi}$ является вогнутой , который является

{\ displaystyle \ varphi \ left ({\ frac {\ sum a_ {i} x_ {i}} {\ sum a_ {i}}} \ right) \ geq {\ frac {\ sum a_ {i} \ varphi ( x_ {i})} {\ sum a_ {i}}}. \ qquad \ qquad (2)}

Равенство имеет место тогда и только тогда, когда ${\ Displaystyle x_ {1} = x_ {2} = \ cdots = x_ {n}}$ или же ${\ displaystyle \ varphi}$ линейна в области, содержащей ${\ Displaystyle x_ {1}, x_ {2}, \ cdots, x_ {n}}$ .

Как частный случай, если веса ${\ displaystyle a_ {i}}$ все равны, то (1) и (2) становятся

{\ displaystyle \ varphi \ left ({\ frac {\ sum x_ {i}} {n}} \ right) \ leq {\ frac {\ sum \ varphi (x_ {i})} {n}} \ qquad \ qquad (3)}

{\ displaystyle \ varphi \ left ({\ frac {\ sum x_ {i}} {n}} \ right) \ geq {\ frac {\ sum \ varphi (x_ {i})} {n}} \ qquad \ qquad (4)}

Например, функция $журнал (х)$ является вогнутым , так что замещающим ${\ Displaystyle \ varphi (х) = \ журнал (х)}$ в предыдущей формуле (4) устанавливает (логарифм) знакомое неравенство среднего арифметического / среднего геометрического :

{\ displaystyle \ log \! \ left ({\ frac {\ sum _ {i = 1} ^ {n} x_ {i}} {n}} \ right) \ geq {\ frac {\ sum _ {i = 1} ^ {n} \ log \! \ Left (x_ {i} \ right)} {n}} \ quad {\ text {или}} \ quad {\ frac {x_ {1} + x_ {2} + \ cdots + x_ {n}} {n}} \ geq {\ sqrt [{n}] {x_ {1} \ cdot x_ {2} \ cdots x_ {n}}}}

Обычное приложение имеет ${\ displaystyle x}$ как функция другой переменной (или набора переменных) ${\ displaystyle t}$ , это, ${\ Displaystyle х_ {я} = г (т_ {я})}$ . Все это прямо переносится на общий непрерывный случай: веса $a i$ заменяются неотрицательной интегрируемой функцией $f$ $($ $x$ $)$ , такой как распределение вероятностей, а суммы заменяются интегралами.

Теоретико-мерная и вероятностная форма

Позволять ${\ displaystyle (\ Omega, A, \ mu)}$ быть вероятностным пространством , т. е. ${\ Displaystyle \ му (\ Омега) = 1}$ . Если ${\ displaystyle g}$ - вещественнозначная функция, которая ${\ displaystyle \ mu}$ - интегрируемые , а если ${\ displaystyle \ varphi}$ является выпуклой функцией на вещественной прямой, то:

{\ displaystyle \ varphi \ left (\ int _ {\ Omega} g \, d \ mu \ right) \ leq \ int _ {\ Omega} \ varphi \ circ g \, d \ mu.}

^[3]

В реальном анализе нам может потребоваться оценка

{\ displaystyle \ varphi \ left (\ int _ {a} ^ {b} f (x) \, dx \ right),}

где ${\ displaystyle a, b \ in \ mathbb {R}}$ , а также ${\ displaystyle f \ двоеточие [a, b] \ to \ mathbb {R}}$ - неотрицательная интегрируемая по Лебегу функция. В этом случае мера Лебега ${\ Displaystyle [а, б]}$ не должно быть единства. Однако путем интегрирования путем подстановки интервал можно масштабировать так, чтобы он имел единицу измерения. Тогда неравенство Дженсена может быть применено, чтобы получить ^[4]

{\ displaystyle \ varphi \ left ({\ frac {1} {ba}} \ int _ {a} ^ {b} f (x) \, dx \ right) \ leq {\ frac {1} {ba}} \ int _ {a} ^ {b} \ varphi (f (x)) \, dx.}

Тот же результат может быть эквивалентно сформулирован в контексте теории вероятностей путем простой замены обозначений. Позволять ${\ displaystyle (\ Omega, {\ mathfrak {F}}, \ operatorname {P})}$ - вероятностное пространство , X - интегрируемая вещественная случайная величина, а $φ$ - выпуклая функция . Потом:

{\ displaystyle \ varphi \ left (\ operatorname {E} [X] \ right) \ leq \ operatorname {E} \ left [\ varphi (X) \ right].}

^[5]

В этой настройке вероятности мера $μ$ предназначена как вероятность ${\ displaystyle \ operatorname {P}}$ , интеграл по $μ$ как математическое ожидание ${\ displaystyle \ operatorname {E}}$ , а функция ${\ displaystyle g}$ в качестве случайной величины X .

Заметим, что равенство выполняется тогда и только тогда, когда $φ$ - линейная функция на некотором выпуклом множестве ${\ displaystyle A}$ такой, что ${\ Displaystyle \ mathrm {P} (Х \ в А) = 1}$ (что следует из приведенного ниже доказательства теории меры).

Общее неравенство в вероятностной постановке

В более общем смысле, пусть T - реальное топологическое векторное пространство , а X - T -значная интегрируемая случайная величина. В этом общем случае интегрируемость означает, что существует элемент ${\ displaystyle \ operatorname {E} [X]}$ в T , такой, что для любого элемента z в пространстве, сопряженном с T : ${\ Displaystyle \ OperatorName {E} | \ langle z, X \ rangle | <\ infty}$ , а также ${\ displaystyle \ langle z, \ OperatorName {E} [X] \ rangle = \ operatorname {E} [\ langle z, X \ rangle]}$ . Тогда для любой измеримой выпуклой функции $φ$ и любой под- σ-алгебры ${\ Displaystyle {\ mathfrak {G}}}$ из ${\ displaystyle {\ mathfrak {F}}}$ :

{\ displaystyle \ varphi \ left (\ operatorname {E} \ left [X \ mid {\ mathfrak {G}} \ right] \ right) \ leq \ operatorname {E} \ left [\ varphi (X) \ mid { \ mathfrak {G}} \ right].}

Здесь ${\ Displaystyle \ OperatorName {E} [\ cdot \ mid {\ mathfrak {G}}]}$ обозначает математическое ожидание, обусловленное σ-алгеброй ${\ Displaystyle {\ mathfrak {G}}}$ . Это общее утверждение сводится к предыдущим, когда топологическое векторное пространство $T$ является действительной осью и ${\ Displaystyle {\ mathfrak {G}}}$ - тривиальная $σ$ -алгебра ${\emptyset, Ω}$ (где $\emptyset$ - пустое множество , а $Ω$ - пространство выборок ). ^[6]

Заостренная и обобщенная форма

Пусть X - одномерная случайная величина со средним ${\ displaystyle \ mu}$ и дисперсия ${\ Displaystyle \ sigma ^ {2} \ geq 0}$ . Позволять ${\ Displaystyle \ varphi (х)}$ - дважды дифференцируемая функция, и определим функцию

{\ Displaystyle час (х) \ треугольник {\ гидроразрыва {\ varphi \ left (x \ right) - \ varphi \ left (\ mu \ right)} {\ left (x- \ mu \ right) ^ {2}} } - {\ frac {\ varphi '\ left (\ mu \ right)} {x- \ mu}}.}

Тогда ^[7]

{\ displaystyle \ sigma ^ {2} \ inf {\ frac {\ varphi '' '(x)} {2}} \ leq \ sigma ^ {2} \ inf h (x) \ leq E \ left [\ varphi \ left (X \ right) \ right] - \ varphi \ left (E [X] \ right) \ leq \ sigma ^ {2} \ sup h (x) \ leq \ sigma ^ {2} \ sup {\ frac { \ varphi '' (x)} {2}}.}

В частности, когда ${\ Displaystyle \ varphi (х)}$ выпукло, то ${\ Displaystyle \ varphi '' (х) \ geq 0}$ , а стандартная форма неравенства Йенсена сразу следует для случая, когда ${\ Displaystyle \ varphi (х)}$ дополнительно предполагается дважды дифференцируемой.

Доказательства

Графическое «доказательство» неравенства Йенсена для вероятностного случая. Пунктирная кривая по оси

X

- это гипотетическое распределение

X

, а пунктирная кривая по оси

Y

- соответствующее распределение значений

Y.

Обратите внимание , что выпуклое отображение

У (Х)

все более « отрезки » распределение для увеличения значения

X

.

Это без слов доказательство неравенства Йенсена для

n

переменных. Без ограничения общности сумма положительных весов равна

1

. Отсюда следует, что взвешенная точка лежит в выпуклой оболочке исходных точек, лежащей над самой функцией по определению выпуклости. Напрашивается вывод. ^[8]

Неравенство Дженсена может быть доказано несколькими способами, и будут предложены три разных доказательства, соответствующих различным утверждениям выше. Однако прежде чем приступить к этим математическим выводам, стоит проанализировать интуитивно понятный графический аргумент, основанный на вероятностном случае, когда $X$ - действительное число (см. Рисунок). Предполагая гипотетическое распределение значений $X$ , можно сразу определить положение ${\ displaystyle \ operatorname {E} [X]}$ и его образ ${\ displaystyle \ varphi (\ operatorname {E} [X])}$ в графике. Заметив, что для выпуклых отображений $Y = φ (X)$ соответствующее распределение значений $Y$ все больше «растягивается» при увеличении значений $X$ , легко видеть, что распределение $Y$ шире в интервале, соответствующем $X > X 0.$ и уже в $X < X 0$ для любого $X 0$ ; в частности, это верно и для ${\ displaystyle X_ {0} = \ operatorname {E} [X]}$ . Следовательно, на этой картинке ожидание $Y$ всегда будет смещаться вверх по отношению к положению ${\ displaystyle \ varphi (\ operatorname {E} [X])}$ . Аналогичное рассуждение справедливо, если распределение $X$ покрывает убывающую часть выпуклой функции или как убывающую, так и возрастающую ее части. Это «доказывает» неравенство, т. Е.

{\ displaystyle \ varphi (\ operatorname {E} [X]) \ leq \ operatorname {E} [\ varphi (X)] = \ operatorname {E} [Y],}

с равенством, когда $φ (X)$ не является строго выпуклым, например, когда это прямая линия, или когда $X$ следует вырожденному распределению (т.е. является константой).

Приведенные ниже доказательства формализуют это интуитивное понятие.

Доказательство 1 (конечная форма)

Если $λ 1$ и $λ 2$ - два произвольных неотрицательных действительных числа такие, что $λ 1 + λ 2 = 1,$ то из выпуклости $φ$ следует

{\ displaystyle \ forall x_ {1}, x_ {2}: \ qquad \ varphi \ left (\ lambda _ {1} x_ {1} + \ lambda _ {2} x_ {2} \ right) \ leq \ lambda _ {1} \, \ varphi (x_ {1}) + \ lambda _ {2} \, \ varphi (x_ {2}).}

Это можно обобщить: если $λ 1, ..., λ n$ - неотрицательные действительные числа такие, что $λ 1 + ... + λ n = 1$ , то

{\ displaystyle \ varphi (\ lambda _ {1} x_ {1} + \ lambda _ {2} x_ {2} + \ cdots + \ lambda _ {n} x_ {n}) \ leq \ lambda _ {1} \, \ varphi (x_ {1}) + \ lambda _ {2} \, \ varphi (x_ {2}) + \ cdots + \ lambda _ {n} \, \ varphi (x_ {n}),}

для любых $x 1, ..., x n$ .

Конечная форма неравенства Йенсена может быть доказана индукцией : по выпуклости гипотез, это утверждение верно для п = 2. Предположим , что утверждение верно для некоторого п , так

{\ displaystyle \ varphi \ left (\ sum _ {i = 1} ^ {n} \ lambda _ {i} x_ {i} \ right) \ leq \ sum _ {i = 1} ^ {n} \ lambda _ {i} \ varphi \ left (x_ {i} \ right)}

для любых $λ 1, ..., λ n$ таких, что $λ 1 + ... + λ n = 1$ .

Это нужно доказать для $n + 1$ . По крайней мере, одно из $λ i$ строго меньше, чем ${\ displaystyle 1}$ , скажем, $λ n + 1$ ; поэтому по неравенству выпуклости:

{\ displaystyle {\ begin {align} \ varphi \ left (\ sum _ {i = 1} ^ {n + 1} \ lambda _ {i} x_ {i} \ right) & = \ varphi \ left ((1 - \ lambda _ {n + 1}) \ sum _ {i = 1} ^ {n} {\ frac {\ lambda _ {i}} {1- \ lambda _ {n + 1}}} x_ {i} + \ lambda _ {n + 1} x_ {n + 1} \ right) \\ & \ leq (1- \ lambda _ {n + 1}) \ varphi \ left (\ sum _ {i = 2} ^ { n + 1} {\ frac {\ lambda _ {i}} {1- \ lambda _ {n + 1}}} x_ {i} \ right) + \ lambda _ {n + 1} \, \ varphi (x_ {n + 1}). \ end {выравнивается}}}

Поскольку $λ 1 + ... + λ n + λ n + 1 = 1$ ,

{\ Displaystyle \ сумма _ {я = 1} ^ {п} {\ гидроразрыва {\ лямбда _ {я}} {1- \ лямбда _ {п + 1}}} = 1}

,

применение предположения индукции дает

{\ displaystyle \ varphi \ left (\ sum _ {i = 1} ^ {n} {\ frac {\ lambda _ {i}} {1- \ lambda _ {n + 1}}} x_ {i} \ right ) \ leq \ sum _ {i = 1} ^ {n} {\ frac {\ lambda _ {i}} {1- \ lambda _ {n + 1}}} \ varphi \ left (x_ {i} \ right )}

следовательно

{\ displaystyle {\ begin {align} \ varphi \ left (\ sum _ {i = 1} ^ {n + 1} \ lambda _ {i} x_ {i} \ right) & \ leq (1- \ lambda _ {n + 1}) \ sum _ {i = 1} ^ {n} {\ frac {\ lambda _ {i}} {1- \ lambda _ {n + 1}}} \ varphi \ left (x_ {i } \ right) + \ lambda _ {n + 1} \, \ varphi (x_ {n + 1}) = \ sum _ {i = 1} ^ {n + 1} \ lambda _ {i} \ varphi \ left (x_ {i} \ right) \ end {выровнено}}}

Мы заключаем, что равенство верно для $n + 1$ , из принципа математической индукции следует, что результат также верен для всех целых $n$ больше 2.

Чтобы получить общее неравенство из этой конечной формы, необходимо использовать аргумент плотности. Конечная форма может быть переписана как:

{\ displaystyle \ varphi \ left (\ int x \, d \ mu _ {n} (x) \ right) \ leq \ int \ varphi (x) \, d \ mu _ {n} (x),}

где μ _п является мерой задается произвольной выпуклой комбинации из Дирака дельт :

{\ displaystyle \ mu _ {n} = \ sum _ {i = 1} ^ {n} \ lambda _ {i} \ delta _ {x_ {i}}.}

Поскольку выпуклые функции непрерывны , а выпуклые комбинации дельт Дирака слабо плотны в множестве вероятностных мер (что легко проверить), общее утверждение получается просто с помощью предельной процедуры.

Доказательство 2 (теоретико-мерная форма)

Пусть g - вещественнозначная μ-интегрируемая функция на вероятностном пространстве Ω, а $φ$ - выпуклая функция на действительных числах. Поскольку $φ$ является выпуклым, в каждом действительном числе $x$ у нас есть непустое множество подчиненных производных , которые можно рассматривать как прямые, касающиеся графика $φ$ в $точке x$ , но которые находятся на графике $φ$ или ниже во всех точках (опорные линии график).

Теперь, если мы определим

{\ displaystyle x_ {0}: = \ int _ {\ Omega} g \, d \ mu,}

из-за существования субпроизводных для выпуклых функций мы можем выбрать a и b так , чтобы

{\ Displaystyle топор + б \ leq \ varphi (х),}

для всех реальных $x$ и

{\ displaystyle ax_ {0} + b = \ varphi (x_ {0}).}

Но тогда у нас есть это

{\ Displaystyle \ varphi \ circ g (x) \ geq ag (x) + b}

для всех $х$ . Поскольку у нас есть вероятностная мера, интеграл монотонен с $μ (Ω) = 1,$ так что

{\ Displaystyle \ int _ {\ Omega} \ varphi \ circ g \, d \ mu \ geq \ int _ {\ Omega} (ag + b) \, d \ mu = a \ int _ {\ Omega} g \ , d \ mu + b \ int _ {\ Omega} d \ mu = ax_ {0} + b = \ varphi (x_ {0}) = \ varphi \ left (\ int _ {\ Omega} g \, d \ mu \ right),}

по желанию.

Доказательство 3 (общее неравенство в вероятностной постановке)

Пусть X интегрируемая случайная величина, принимающая значения в реальном топологическом векторном пространстве Т . С ${\ displaystyle \ varphi: T \ to \ mathbb {R}}$ выпукло, для любого ${\ displaystyle x, y \ in T}$ , количество

{\ displaystyle {\ frac {\ varphi (x + \ theta \, y) - \ varphi (x)} {\ theta}},}

убывает, когда $θ$ приближается к 0 ⁺ . В частности, субдифференциале из ${\ displaystyle \ varphi}$ оценивается в $x$ в направлении $y$ , хорошо определяется

{\ displaystyle (D \ varphi) (x) \ cdot y: = \ lim _ {\ theta \ downarrow 0} {\ frac {\ varphi (x + \ theta \, y) - \ varphi (x)} {\ theta }} = \ inf _ {\ theta \ neq 0} {\ frac {\ varphi (x + \ theta \, y) - \ varphi (x)} {\ theta}}.}.

Легко видеть, что субдифференциал линейен по $y$ ^{[ необходима цитата ]} (это неверно, и утверждение требует доказательства теоремы Хана-Банаха) и, поскольку нижняя грань, взятая в правой части предыдущей формулы, меньше, чем значение того же члена при $θ = 1$ , получаем

{\ displaystyle \ varphi (x) \ leq \ varphi (x + y) - (D \ varphi) (x) \ cdot y.}

В частности, для произвольной под- $σ$ -алгебры ${\ Displaystyle {\ mathfrak {G}}}$ мы можем оценить последнее неравенство, когда ${\ displaystyle x = \ operatorname {E} [X \ mid {\ mathfrak {G}}], \, y = X- \ operatorname {E} [X \ mid {\ mathfrak {G}}]}$ чтобы получить

{\ displaystyle \ varphi (\ operatorname {E} [X \ mid {\ mathfrak {G}}]) \ leq \ varphi (X) - (D \ varphi) (\ operatorname {E} [X \ mid {\ mathfrak {G}}]) \ cdot (X- \ operatorname {E} [X \ mid {\ mathfrak {G}}]).}

Теперь, если мы возьмем ожидание, обусловленное ${\ Displaystyle {\ mathfrak {G}}}$ по обе стороны от предыдущего выражения, мы получаем результат, так как:

{\ displaystyle \ operatorname {E} \ left [\ left [(D \ varphi) (\ operatorname {E} [X \ mid {\ mathfrak {G}}]]) \ cdot (X- \ operatorname {E} [X \ mid {\ mathfrak {G}}]) \ right] \ mid {\ mathfrak {G}} \ right] = (D \ varphi) (\ operatorname {E} [X \ mid {\ mathfrak {G}}] ) \ cdot \ operatorname {E} [\ left (X- \ operatorname {E} [X \ mid {\ mathfrak {G}}] \ right) \ mid {\ mathfrak {G}}] = 0,}

линейностью субдифференциала по переменной y и следующим хорошо известным свойством условного математического ожидания :

{\ displaystyle \ operatorname {E} \ left [\ left (\ operatorname {E} [X \ mid {\ mathfrak {G}}] \ right) \ mid {\ mathfrak {G}} \ right] = \ operatorname { E} [X \ mid {\ mathfrak {G}}].}

Приложения и особые случаи

Форма с функцией плотности вероятности

Предположим, что $Ω$ - измеримое подмножество вещественной прямой, а f ( x ) - неотрицательная функция такая, что

{\ displaystyle \ int _ {- \ infty} ^ {\ infty} f (x) \, dx = 1.}

На вероятностном языке f - это функция плотности вероятности .

Тогда неравенство Йенсена превращается в следующее утверждение о выпуклых интегралах:

Если g - любая измеримая действительная функция и ${\ textstyle \ varphi}$ выпукла в диапазоне g , то

{\ displaystyle \ varphi \ left (\ int _ {- \ infty} ^ {\ infty} g (x) f (x) \, dx \ right) \ leq \ int _ {- \ infty} ^ {\ infty} \ varphi (g (x)) f (x) \, dx.}

Если g ( x ) = x , то эта форма неравенства сводится к обычно используемому частному случаю:

{\ displaystyle \ varphi \ left (\ int _ {- \ infty} ^ {\ infty} x \, f (x) \, dx \ right) \ leq \ int _ {- \ infty} ^ {\ infty} \ varphi (x) \, f (x) \, dx.}

Это применяется в вариационных байесовских методах .

Пример: четные моменты случайной величины

Если g ( x ) = x ²ⁿ и X - случайная величина, то g выпукла, как

{\ displaystyle {\ frac {d ^ {2} g} {dx ^ {2}}} (x) = 2n (2n-1) x ^ {2n-2} \ geq 0 \ quad \ forall \ x \ in \ mathbb {R}}

и другие

{\ displaystyle g (\ operatorname {E} [X]) = (\ operatorname {E} [X]) ^ {2n} \ leq \ operatorname {E} [X ^ {2n}].}

В частности, если некоторые даже момент 2n из X конечен, X имеет конечное среднее. Расширение этого аргумента показывает, что X имеет конечные моменты любого порядка ${\ displaystyle l \ in \ mathbb {N}}$ разделение n .

Альтернативная конечная форма

Пусть $Ω = {x 1, ... x n},$ и пусть $μ$ - считающая мера на $Ω$ , тогда общая форма сводится к утверждению о суммах:

{\ displaystyle \ varphi \ left (\ sum _ {i = 1} ^ {n} g (x_ {i}) \ lambda _ {i} \ right) \ leq \ sum _ {i = 1} ^ {n} \ varphi (g (x_ {i})) \ lambda _ {i},}

при условии, что $λ i \geq 0$ и

{\ displaystyle \ lambda _ {1} + \ cdots + \ lambda _ {n} = 1.}

Также существует бесконечная дискретная форма.

Статистическая физика

Неравенство Йенсена имеет особое значение в статистической физике, когда выпуклая функция является экспоненциальной, что дает:

{\ Displaystyle е ^ {\ OperatorName {E} [X]} \ leq \ OperatorName {E} \ left [e ^ {X} \ right],}

где ожидаемые значения являются относительно некоторого распределения вероятностей в случайной величине $X$ .

Доказательство в этом случае очень простое (см. Чандлер, раздел 5.5). Желаемое неравенство следует непосредственно, записывая

{\ displaystyle \ operatorname {E} \ left [e ^ {X} \ right] = e ^ {\ operatorname {E} [X]} \ operatorname {E} \ left [e ^ {X- \ operatorname {E} [X]} \ right]}

а затем применяя неравенство $e X \geq 1 + X$ к финальной экспоненте.

Теория информации

Если $p (x)$ - истинная плотность вероятности для $X$ , а $q (x)$ - другая плотность, то применяя неравенство Дженсена для случайной величины $Y (X) = q (X) / p (X)$ и выпуклой функции $φ (y) = -log (y)$ дает

{\ Displaystyle \ OperatorName {E} [\ varphi (Y)] \ geq \ varphi (\ operatorname {E} [Y])}

Следовательно:

{\ Displaystyle -D (п (х) \ | д (х)) = \ инт р (х) \ журнал \ влево ({\ гидроразрыва {д (х)} {р (х)}} \ вправо) \, dx \ leq \ log \ left (\ int p (x) {\ frac {q (x)} {p (x)}} \, dx \ right) = \ log \ left (\ int q (x) \, dx \ right) = 0}

результат, названный неравенством Гиббса .

Он показывает, что средняя длина сообщения минимизируется, когда коды назначаются на основе истинных вероятностей p, а не любого другого распределения q . Величина , которая является неотрицательным называется Кульбак-Либлер расхождение в д из р .

Так как $-log (х)$ является строго выпуклой функцией для $й > 0$ , то отсюда следует , что имеет место равенства при $р (х)$ равен $д (х)$ почти всюду.

Теорема Рао – Блэквелла.

Если L - выпуклая функция и ${\ Displaystyle {\ mathfrak {G}}}$ суб-сигма-алгебры, то из условной версии неравенства Дженсена получаем

{\ displaystyle L (\ operatorname {E} [\ delta (X) \ mid {\ mathfrak {G}}]) \ leq \ operatorname {E} [L (\ delta (X)) \ mid {\ mathfrak {G }}] \ quad \ Longrightarrow \ quad \ operatorname {E} [L (\ operatorname {E} [\ delta (X) \ mid {\ mathfrak {G}}])] \ leq \ operatorname {E} [L ( \ delta (X))].}

Итак, если δ ( X ) - некоторая оценка ненаблюдаемого параметра θ, заданного вектором наблюдаемых X ; и если T ( X ) - достаточная статистика для θ; тогда улучшенная оценка в смысле меньших ожидаемых потерь L может быть получена путем вычисления

{\ Displaystyle \ delta _ {1} (X) = \ OperatorName {E} _ {\ theta} [\ delta (X ') \ mid T (X') = T (X)],}

ожидаемое значение δ относительно θ, взятое по всем возможным векторам наблюдений X, совместимых с тем же значением T ( X ), что и наблюдаемое. Кроме того, поскольку T - достаточная статистика, ${\ displaystyle \ delta _ {1} (X)}$ не зависит от θ, следовательно, становится статистикой.

Этот результат известен как теорема Рао – Блэквелла .

Смотрите также

Неравенство Караматы для более общего неравенства
Неравенство Поповичу
Закон средних чисел
Доказательство без слов неравенства Дженсена

Заметки

^ Дженсен, JLWV (1906). "Sur les fonctions convxes et les inégalités entre les valeurs moyennes" . Acta Mathematica . 30 (1): 175–193. DOI : 10.1007 / BF02418571 .
^ Гао, Сян; Ситарам, Мира; Ройтберг, Адриан (2019). «Границы разрыва Дженсена и последствия для средне-концентрированных распределений» (PDF) . Австралийский журнал математического анализа и приложений . 16 (2). arXiv : 1712.05267 .
^ стр. 25 из Рик Дарретт (2019). Вероятность: теория и примеры (5-е изд.). Издательство Кембриджского университета. ISBN 978-1108473682.
^ Никулеску, Константин П. «Интегральные неравенства» , стр. 12.
^ стр. 29 из Рик Дарретт (2019). Вероятность: теория и примеры (5-е изд.). Издательство Кембриджского университета. ISBN 978-1108473682.
^ Внимание: в этой общности необходимы дополнительные предположения о выпуклой функции и / или топологическом векторном пространстве, см. Пример (1.3) на с. 53 дюйм Перлман, Майкл Д. (1974). «Неравенство Йенсена для выпуклой векторнозначной функции на бесконечномерном пространстве» . Журнал многомерного анализа . 4 (1): 52–65. DOI : 10.1016 / 0047-259X (74) 90005-0 .
^ Liao, J .; Берг, А (2018). «Обострение неравенства Дженсена». Американский статистик . arXiv : 1707.08644 . DOI : 10.1080 / 00031305.2017.1419145 .
^ Брэдли, CJ (2006). Введение в неравенство . Лидс, Соединенное Королевство: Математический фонд Соединенного Королевства. п. 97. ISBN 978-1-906001-11-7.

Внешние ссылки

Операторное неравенство Дженсена Хансена и Педерсена.
«Неравенство Дженсена» , Энциклопедия математики , EMS Press , 2001 [1994]
Вайсштейн, Эрик В. «Неравенство Дженсена» . MathWorld .
Артур Лохуотер (1982). «Введение в неравенство» . Электронная книга в формате PDF.

[1] Дженсен, JLWV (1906). "Sur les fonctions convxes et les inégalités entre les valeurs moyennes" . Acta Mathematica . 30 (1): 175–193. DOI : 10.1007 / BF02418571 .

[Gao_et_al.-2] Гао, Сян; Ситарам, Мира; Ройтберг, Адриан (2019). «Границы разрыва Дженсена и последствия для средне-концентрированных распределений» (PDF) . Австралийский журнал математического анализа и приложений . 16 (2). arXiv : 1712.05267 .

[3] стр. 25 из Рик Дарретт (2019). Вероятность: теория и примеры (5-е изд.). Издательство Кембриджского университета. ISBN 978-1108473682.

[4] Никулеску, Константин П. «Интегральные неравенства» , стр. 12.

[5] стр. 29 из Рик Дарретт (2019). Вероятность: теория и примеры (5-е изд.). Издательство Кембриджского университета. ISBN 978-1108473682.

[6] Внимание: в этой общности необходимы дополнительные предположения о выпуклой функции и / или топологическом векторном пространстве, см. Пример (1.3) на с. 53 дюйм Перлман, Майкл Д. (1974). «Неравенство Йенсена для выпуклой векторнозначной функции на бесконечномерном пространстве» . Журнал многомерного анализа . 4 (1): 52–65. DOI : 10.1016 / 0047-259X (74) 90005-0 .

[Liao_&_Berg-7] Liao, J .; Берг, А (2018). «Обострение неравенства Дженсена». Американский статистик . arXiv : 1707.08644 . DOI : 10.1080 / 00031305.2017.1419145 .

[8] Брэдли, CJ (2006). Введение в неравенство . Лидс, Соединенное Королевство: Математический фонд Соединенного Королевства. п. 97. ISBN 978-1-906001-11-7.

[1]