В математике , неравенство Йенсена , названный в честь датского математика Иоганна Jensen , связывающее значение выпуклой функции в качестве интеграла к интегралу от выпуклой функции. Это было доказано Йенсеном в 1906 г. [1] Учитывая его общность, неравенство проявляется во многих формах в зависимости от контекста, некоторые из которых представлены ниже. В своей простейшей форме неравенство утверждает, что выпуклое преобразование среднего меньше или равно среднему значению, примененному после выпуклого преобразования; это простое следствие, что обратное верно для вогнутых преобразований.
Неравенство Йенсена обобщает утверждение о том, что секущая выпуклой функции лежит над графиком.
Неравенство Йенсена обобщает утверждение о том, что секущая выпуклой функции лежит над графиком функции, что является неравенством Йенсена для двух точек: секущая состоит из взвешенных средних значений выпуклой функции (для t ∈ [0,1]) ,
в то время как график функции является выпуклой функцией взвешенных средних,
Разница между двумя сторонами неравенства, , называется разрывом Дженсена . [2]
Заявления
Классическая форма неравенства Дженсена включает несколько чисел и весов. Неравенство может быть сформулировано в самом общем виде, используя язык теории меры или (что то же самое) вероятностное. В вероятностной постановке неравенство может быть обобщено в полной мере .
Конечная форма
Для действительной выпуклой функции, числа в своей области, а положительные веса , Неравенство Дженсена можно сформулировать как:
и неравенство отменяется, если является вогнутой , который является
Равенство имеет место тогда и только тогда, когда или же линейна в области, содержащей .
Как частный случай, если веса все равны, то (1) и (2) становятся
Обычное приложение имеет как функция другой переменной (или набора переменных) , это, . Все это прямо переносится на общий непрерывный случай: веса a i заменяются неотрицательной интегрируемой функцией f ( x ) , такой как распределение вероятностей, а суммы заменяются интегралами.
где , а также - неотрицательная интегрируемая по Лебегу функция. В этом случае мера Лебегане должно быть единства. Однако путем интегрирования путем подстановки интервал можно масштабировать так, чтобы он имел единицу измерения. Тогда неравенство Дженсена может быть применено, чтобы получить [4]
В этой настройке вероятности мера μ предназначена как вероятность, интеграл по μ как математическое ожидание, а функция в качестве случайной величины X .
Заметим, что равенство выполняется тогда и только тогда, когда φ - линейная функция на некотором выпуклом множестве такой, что (что следует из приведенного ниже доказательства теории меры).
Общее неравенство в вероятностной постановке
В более общем смысле, пусть T - реальное топологическое векторное пространство , а X - T -значная интегрируемая случайная величина. В этом общем случае интегрируемость означает, что существует элементв T , такой, что для любого элемента z в пространстве, сопряженном с T :, а также . Тогда для любой измеримой выпуклой функции φ и любой под- σ-алгебры из :
В частности, когда выпукло, то , а стандартная форма неравенства Йенсена сразу следует для случая, когда дополнительно предполагается дважды дифференцируемой.
Доказательства
Графическое «доказательство» неравенства Йенсена для вероятностного случая. Пунктирная кривая по оси X - это гипотетическое распределение X , а пунктирная кривая по оси Y - соответствующее распределение значений Y. Обратите внимание , что выпуклое отображение У ( Х ) все более « отрезки » распределение для увеличения значения X .
Это без слов доказательство неравенства Йенсена для n переменных. Без ограничения общности сумма положительных весов равна 1 . Отсюда следует, что взвешенная точка лежит в выпуклой оболочке исходных точек, лежащей над самой функцией по определению выпуклости. Напрашивается вывод. [8]
Неравенство Дженсена может быть доказано несколькими способами, и будут предложены три разных доказательства, соответствующих различным утверждениям выше. Однако прежде чем приступить к этим математическим выводам, стоит проанализировать интуитивно понятный графический аргумент, основанный на вероятностном случае, когда X - действительное число (см. Рисунок). Предполагая гипотетическое распределение значений X , можно сразу определить положение и его образ в графике. Заметив, что для выпуклых отображений Y = φ ( X ) соответствующее распределение значений Y все больше «растягивается» при увеличении значений X , легко видеть, что распределение Y шире в интервале, соответствующем X > X 0. и уже в X < X 0 для любого X 0 ; в частности, это верно и для. Следовательно, на этой картинке ожидание Y всегда будет смещаться вверх по отношению к положению. Аналогичное рассуждение справедливо, если распределение X покрывает убывающую часть выпуклой функции или как убывающую, так и возрастающую ее части. Это «доказывает» неравенство, т. Е.
с равенством, когда φ ( X ) не является строго выпуклым, например, когда это прямая линия, или когда X следует вырожденному распределению (т.е. является константой).
Приведенные ниже доказательства формализуют это интуитивное понятие.
Доказательство 1 (конечная форма)
Если λ 1 и λ 2 - два произвольных неотрицательных действительных числа такие, что λ 1 + λ 2 = 1, то из выпуклости φ следует
Это можно обобщить: если λ 1 , ..., λ n - неотрицательные действительные числа такие, что λ 1 + ... + λ n = 1 , то
для любых x 1 , ..., x n .
Конечная форма неравенства Йенсена может быть доказана индукцией : по выпуклости гипотез, это утверждение верно для п = 2. Предположим , что утверждение верно для некоторого п , так
для любых λ 1 , ..., λ n таких, что λ 1 + ... + λ n = 1 .
Это нужно доказать для n + 1 . По крайней мере, одно из λ i строго меньше, чем, скажем, λ n + 1 ; поэтому по неравенству выпуклости:
Поскольку λ 1 + ... + λ n + λ n + 1 = 1 ,
,
применение предположения индукции дает
следовательно
Мы заключаем, что равенство верно для n + 1 , из принципа математической индукции следует, что результат также верен для всех целых n больше 2.
Чтобы получить общее неравенство из этой конечной формы, необходимо использовать аргумент плотности. Конечная форма может быть переписана как:
Поскольку выпуклые функции непрерывны , а выпуклые комбинации дельт Дирака слабо плотны в множестве вероятностных мер (что легко проверить), общее утверждение получается просто с помощью предельной процедуры.
Доказательство 2 (теоретико-мерная форма)
Пусть g - вещественнозначная μ-интегрируемая функция на вероятностном пространстве Ω, а φ - выпуклая функция на действительных числах. Поскольку φ является выпуклым, в каждом действительном числе x у нас есть непустое множество подчиненных производных , которые можно рассматривать как прямые, касающиеся графика φ в точке x , но которые находятся на графике φ или ниже во всех точках (опорные линии график).
Теперь, если мы определим
из-за существования субпроизводных для выпуклых функций мы можем выбрать a и b так , чтобы
для всех реальных x и
Но тогда у нас есть это
для всех х . Поскольку у нас есть вероятностная мера, интеграл монотонен с μ (Ω) = 1, так что
по желанию.
Доказательство 3 (общее неравенство в вероятностной постановке)
Пусть X интегрируемая случайная величина, принимающая значения в реальном топологическом векторном пространстве Т . С выпукло, для любого , количество
убывает, когда θ приближается к 0 + . В частности, субдифференциале изоценивается в x в направлении y , хорошо определяется
Легко видеть, что субдифференциал линейен по y [ необходима цитата ] (это неверно, и утверждение требует доказательства теоремы Хана-Банаха) и, поскольку нижняя грань, взятая в правой части предыдущей формулы, меньше, чем значение того же члена при θ = 1 , получаем
В частности, для произвольной под- σ -алгебры мы можем оценить последнее неравенство, когда чтобы получить
Теперь, если мы возьмем ожидание, обусловленное по обе стороны от предыдущего выражения, мы получаем результат, так как:
линейностью субдифференциала по переменной y и следующим хорошо известным свойством условного математического ожидания :
Приложения и особые случаи
Форма с функцией плотности вероятности
Предположим, что Ω - измеримое подмножество вещественной прямой, а f ( x ) - неотрицательная функция такая, что
На вероятностном языке f - это функция плотности вероятности .
Тогда неравенство Йенсена превращается в следующее утверждение о выпуклых интегралах:
Если g - любая измеримая действительная функция ивыпукла в диапазоне g , то
Если g ( x ) = x , то эта форма неравенства сводится к обычно используемому частному случаю:
Это применяется в вариационных байесовских методах .
Пример: четные моменты случайной величины
Если g ( x ) = x 2n и X - случайная величина, то g выпукла, как
и другие
В частности, если некоторые даже момент 2n из X конечен, X имеет конечное среднее. Расширение этого аргумента показывает, что X имеет конечные моменты любого порядкаразделение n .
Альтернативная конечная форма
Пусть Ω = { x 1 , ... x n }, и пусть μ - считающая мера на Ω , тогда общая форма сводится к утверждению о суммах:
при условии, что λ i ≥ 0 и
Также существует бесконечная дискретная форма.
Статистическая физика
Неравенство Йенсена имеет особое значение в статистической физике, когда выпуклая функция является экспоненциальной, что дает:
где ожидаемые значения являются относительно некоторого распределения вероятностей в случайной величине X .
Доказательство в этом случае очень простое (см. Чандлер, раздел 5.5). Желаемое неравенство следует непосредственно, записывая
а затем применяя неравенство e X ≥ 1 + X к финальной экспоненте.
Теория информации
Если p ( x ) - истинная плотность вероятности для X , а q ( x ) - другая плотность, то применяя неравенство Дженсена для случайной величины Y ( X ) = q ( X ) / p ( X ) и выпуклой функции φ ( y ) = −log ( y ) дает
Следовательно:
результат, названный неравенством Гиббса .
Он показывает, что средняя длина сообщения минимизируется, когда коды назначаются на основе истинных вероятностей p, а не любого другого распределения q . Величина , которая является неотрицательным называется Кульбак-Либлер расхождение в д из р .
Так как -log ( х ) является строго выпуклой функцией для й > 0 , то отсюда следует , что имеет место равенства при р ( х ) равен д ( х ) почти всюду.
Теорема Рао – Блэквелла.
Если L - выпуклая функция и суб-сигма-алгебры, то из условной версии неравенства Дженсена получаем
Итак, если δ ( X ) - некоторая оценка ненаблюдаемого параметра θ, заданного вектором наблюдаемых X ; и если T ( X ) - достаточная статистика для θ; тогда улучшенная оценка в смысле меньших ожидаемых потерь L может быть получена путем вычисления
ожидаемое значение δ относительно θ, взятое по всем возможным векторам наблюдений X, совместимых с тем же значением T ( X ), что и наблюдаемое. Кроме того, поскольку T - достаточная статистика, не зависит от θ, следовательно, становится статистикой.
Этот результат известен как теорема Рао – Блэквелла .
Смотрите также
Неравенство Караматы для более общего неравенства
Неравенство Поповичу
Закон средних чисел
Доказательство без слов неравенства Дженсена
Заметки
^ Дженсен, JLWV (1906). "Sur les fonctions convxes et les inégalités entre les valeurs moyennes" . Acta Mathematica . 30 (1): 175–193. DOI : 10.1007 / BF02418571 .
^Гао, Сян; Ситарам, Мира; Ройтберг, Адриан (2019). «Границы разрыва Дженсена и последствия для средне-концентрированных распределений» (PDF) . Австралийский журнал математического анализа и приложений . 16 (2). arXiv : 1712.05267 .
^ стр. 25 из Рик Дарретт (2019). Вероятность: теория и примеры (5-е изд.). Издательство Кембриджского университета. ISBN 978-1108473682.
^ Никулеску, Константин П. «Интегральные неравенства» , стр. 12.
^ стр. 29 из Рик Дарретт (2019). Вероятность: теория и примеры (5-е изд.). Издательство Кембриджского университета. ISBN 978-1108473682.
^ Внимание: в этой общности необходимы дополнительные предположения о выпуклой функции и / или топологическом векторном пространстве, см. Пример (1.3) на с. 53 дюйм Перлман, Майкл Д. (1974). «Неравенство Йенсена для выпуклой векторнозначной функции на бесконечномерном пространстве» . Журнал многомерного анализа . 4 (1): 52–65. DOI : 10.1016 / 0047-259X (74) 90005-0 .
^Liao, J .; Берг, А (2018). «Обострение неравенства Дженсена». Американский статистик . arXiv : 1707.08644 . DOI : 10.1080 / 00031305.2017.1419145 .
^Брэдли, CJ (2006). Введение в неравенство . Лидс, Соединенное Королевство: Математический фонд Соединенного Королевства. п. 97. ISBN 978-1-906001-11-7.
Рекомендации
Дэвид Чендлер (1987). Введение в современную статистическую механику . Оксфорд. ISBN 0-19-504277-8.
Никола Фуско ; Паоло Марчеллини ; Карло Сбордоне (1996). Analisi Matematica Due . Лигуори. ISBN 978-88-207-2675-1.
Вальтер Рудин (1987). Реальный и комплексный анализ . Макгроу-Хилл. ISBN 0-07-054234-1.
Рик Дарретт (2019). Вероятность: теория и примеры (5-е изд.). Издательство Кембриджского университета. п. 430. ISBN 978-1108473682. Дата обращения 21 декабря 2020 .
Внешние ссылки
Операторное неравенство Дженсена Хансена и Педерсена.
«Неравенство Дженсена» , Энциклопедия математики , EMS Press , 2001 [1994]
Вайсштейн, Эрик В. «Неравенство Дженсена» . MathWorld .
Артур Лохуотер (1982). «Введение в неравенство» . Электронная книга в формате PDF.