Метод Штейна

Метод Штейна - это общий метод теории вероятностей для получения оценок расстояния между двумя распределениями вероятностей относительно метрики вероятности . Он был введен Чарльзом Стейном , который впервые опубликовал его в 1972 году ^[1], чтобы получить оценку между распределением суммы ${\ displaystyle m}$ -зависимая последовательность случайных величин и стандартное нормальное распределение в колмогоровской (равномерной) метрике и, следовательно, для доказательства не только центральной предельной теоремы , но и оценок скорости сходимости для данной метрики.

История

В конце 1960-х годов, неудовлетворенный известными к тому времени доказательствами конкретной центральной предельной теоремы , Чарльз Стейн для своей лекции по статистике разработал новый способ доказательства теоремы . ^[2] Его основополагающая статья была представлена в 1970 году на шестом симпозиуме в Беркли и опубликована в соответствующих трудах. ^[1]

Позже его докторская степень. студент Луи Чен Сяо Юнь модифицировал метод, чтобы получить результаты аппроксимации для распределения Пуассона ; ^[3] поэтому метод Стейна, применяемый к проблеме пуассоновской аппроксимации, часто называют методом Стейна-Чена .

Вероятно, наиболее важным вкладом является монография Штейна (1986), в которой он представляет свой взгляд на метод и концепцию вспомогательной рандомизации , в частности с использованием заменяемых пар , а также статьи Барбура (1988) и Гетце (1991), представила так называемую интерпретацию генератора , которая позволила легко адаптировать метод ко многим другим распределениям вероятностей. Важным вкладом была также статья Болтхаузена (1984) о так называемой комбинаторной центральной предельной теореме . ^{[ необходима цитата ]}

В 1990-х годах этот метод был адаптирован к множеству распределений, таким как гауссовские процессы Барбура (1990), биномиальное распределение Эмом (1991), пуассоновские процессы Барбура и Брауна (1992), гамма-распределение Люка (1994). , и много других.

Базовый подход

Вероятностные метрики

Метод Штейна - это способ ограничить расстояние между двумя распределениями вероятностей с помощью определенной метрики вероятности .

Пусть метрика задана в виде

{\ displaystyle (1.1) \ quad d (P, Q) = \ sup _ {h \ in {\ mathcal {H}}} \ left | \ int hdP- \ int hdQ \ right | = \ sup _ {h \ в {\ mathcal {H}}} \ left | Eh (W) -Eh (Y) \ right |}

Здесь, ${\ displaystyle P}$ а также ${\ displaystyle Q}$ вероятностные меры на измеримом пространстве ${\ Displaystyle {\ mathcal {X}}}$ , ${\ displaystyle W}$ а также ${\ displaystyle Y}$ случайные величины с распределением ${\ displaystyle P}$ а также ${\ displaystyle Q}$ соответственно, ${\ displaystyle E}$ - обычный оператор ожидания и ${\ displaystyle {\ mathcal {H}}}$ это набор функций из ${\ Displaystyle {\ mathcal {X}}}$ к набору действительных чисел. Набор ${\ displaystyle {\ mathcal {H}}}$ должен быть достаточно большим, чтобы приведенное выше определение действительно давало метрику .

Важными примерами являются метрика общей вариации , где мы позволяем ${\ displaystyle {\ mathcal {H}}}$ состоят из всех индикаторных функций измеримых множеств, метрики Колмогорова (равномерной) для вероятностных мер на действительных числах, где мы рассматриваем все индикаторные функции полупрямой, и метрики Липшица (Вассерштейна первого порядка; Канторовича) , где лежащая в основе пространство само является метрическим пространством, и мы берем множество ${\ displaystyle {\ mathcal {H}}}$ быть всеми липшицевыми функциями с липшицевой константой 1. Однако заметим, что не всякая метрика может быть представлена в виде (1.1).

В дальнейшем ${\ displaystyle P}$ представляет собой сложное распределение (например, распределение суммы зависимых случайных величин), которое мы хотим аппроксимировать гораздо более простым и управляемым распределением ${\ displaystyle Q}$ (например, стандартное нормальное распределение).

Оператор Штейна

Предположим теперь, что распределение ${\ displaystyle Q}$ фиксированное распределение; в дальнейшем мы, в частности, рассмотрим случай, когда ${\ displaystyle Q}$ - стандартное нормальное распределение, которое служит классическим примером.

В первую очередь нам понадобится оператор ${\ displaystyle {\ mathcal {A}}}$ , действующий на функции ${\ displaystyle f}$ из ${\ Displaystyle {\ mathcal {X}}}$ множеству действительных чисел и 'характеризует' распределение ${\ displaystyle Q}$ в том смысле, что имеет место следующая эквивалентность:

{\ displaystyle (2.1) \ quad E ({\ mathcal {A}} f) (Y) = 0 {\ text {для всех}} f \ quad \ iff \ quad Y {\ text {имеет распределение}} Q. }

Мы называем такой оператор оператором Штейна .

Для стандартного нормального распределения лемма Стейна дает такой оператор:

{\ Displaystyle (2.2) \ четырехъядерный E \ влево (f '(Y) -Yf (Y) \ right) = 0 {\ text {для всех}} f \ in C_ {b} ^ {1} \ quad \ iff \ quad Y {\ text {имеет стандартное нормальное распределение.}}}

Таким образом, мы можем взять

{\ displaystyle (2.3) \ quad ({\ mathcal {A}} f) (x) = f '(x) -xf (x).}

Таких операторов, вообще говоря, бесконечно много, и вопрос о том, какой из них выбрать, остается открытым. Однако кажется, что для многих распределений есть особенно хорошее , например (2.3) для нормального распределения.

Есть разные способы найти операторы Штейна. ^[4]

Уравнение Штейна

${\ displaystyle P}$ близко к ${\ displaystyle Q}$ относительно ${\ displaystyle d}$ если разность ожиданий в (1.1) близка к 0. Теперь мы надеемся, что оператор ${\ displaystyle {\ mathcal {A}}}$ демонстрирует то же поведение: если ${\ Displaystyle P = Q}$ тогда ${\ Displaystyle E ({\ mathcal {A}} f) (W) = 0}$ , и, надеюсь, если ${\ Displaystyle P \ приблизительно Q}$ у нас есть ${\ Displaystyle E ({\ mathcal {A}} f) (W) \ приблизительно 0}$ .

Обычно можно определить функцию ${\ displaystyle f = f_ {h}}$ такой, что

{\ displaystyle (3.1) \ quad ({\ mathcal {A}} f) (x) = h (x) -E [h (Y)] \ qquad {\ text {для всех}} x.}

Мы называем (3.1) уравнением Штейна . Замена ${\ displaystyle x}$ от ${\ displaystyle W}$ и ожидая в отношении ${\ displaystyle W}$ , мы получили

{\ displaystyle (3.2) \ quad E ({\ mathcal {A}} f) (W) = E [h (W)] - E [h (Y)].}

Теперь все усилия окупаются, только если левую часть (3.2) легче связать, чем правую. Как ни странно, так бывает часто.

Если ${\ displaystyle Q}$ - стандартное нормальное распределение, и мы используем (2.3), то соответствующее уравнение Стейна имеет вид

{\ displaystyle (3.3) \ quad f '(x) -xf (x) = h (x) -E [h (Y)] \ qquad {\ text {для всех}} x.}

Если вероятностное распределение Q имеет абсолютно непрерывную (относительно меры Лебега) плотность q, то ^[4]

{\ displaystyle (3.4) \ quad ({\ mathcal {A}} f) (x) = f '(x) + f (x) q' (x) / q (x).}

Решение уравнения Штейна

Аналитические методы . Уравнение (3.3) легко решается явно:

{\ Displaystyle (4.1) \ четырехъядерный е (х) = е ^ {х ^ {2} / 2} \ int _ {- \ infty} ^ {x} [h (s) -Eh (Y)] e ^ { -s ^ {2} / 2} ds.}

Генераторный метод . Если ${\ displaystyle {\ mathcal {A}}}$ является генератором марковского процесса ${\ Displaystyle (Z_ {т}) _ {т \ geq 0}}$ (см. Barbour (1988), Götze (1991)), тогда решение (3.2) есть

{\ Displaystyle (4.2) \ четырехъядерный е (х) = - \ int _ {0} ^ {\ infty} [E ^ {x} h (Z_ {t}) - Eh (Y)] dt,}

где ${\ displaystyle E ^ {x}}$ обозначает ожидание по отношению к процессу ${\ displaystyle Z}$ начат в ${\ displaystyle x}$ . Однако еще предстоит доказать, что решение (4.2) существует для всех искомых функций ${\ displaystyle h \ in {\ mathcal {H}}}$ .

Свойства решения уравнения Штейна.

Обычно стараются дать границы ${\ displaystyle f}$ и его производные (или отличия) с точки зрения ${\ displaystyle h}$ и его производные (или разности), то есть неравенства вида

{\ displaystyle (5.1) \ quad \ | D ^ {k} f \ | \ leq C_ {k, l} \ | D ^ {l} h \ |,}

для некоторых конкретных ${\ Displaystyle к, l = 0,1,2, \ точки}$ (обычно ${\ Displaystyle к \ geq l}$ или же ${\ Displaystyle к \ geq l-1}$ соответственно, в зависимости от вида оператора Штейна), где часто ${\ Displaystyle \ | \ cdot \ |}$ - норма супремума. Здесь, ${\ displaystyle D ^ {k}}$ обозначает дифференциальный оператор , но в дискретных настройках обычно относится к разностному оператору . Константы ${\ displaystyle C_ {k, l}}$ может содержать параметры распределения ${\ displaystyle Q}$ . Если они есть, их часто называют факторами Штейна .

В случае (4.1) для нормы супремума можно доказать, что

{\ Displaystyle (5.2) \ quad \ | е \ | _ {\ infty} \ leq \ min \ {{\ sqrt {\ pi / 2}} \ | h \ | _ {\ infty}, 2 \ | h ' \ | _ {\ infty} \}, \ quad \ | f '\ | _ {\ infty} \ leq \ min \ {2 \ | h \ | _ {\ infty}, 4 \ | h' \ | _ { \ infty} \}, \ quad \ | f '' \ | _ {\ infty} \ leq 2 \ | h '\ | _ {\ infty},}

где последняя оценка, конечно, применима, только если ${\ displaystyle h}$ дифференцируемо (или, по крайней мере, липшицево, что, например, не так, если мы рассматриваем метрику полной вариации или метрику Колмогорова!). Поскольку стандартное нормальное распределение не имеет дополнительных параметров, в этом конкретном случае константы не содержат дополнительных параметров.

Если у нас есть оценки в общей форме (5.1), мы обычно можем рассматривать многие вероятностные метрики вместе. Часто можно начать со следующего шага ниже, если границы вида (5.1) уже доступны (что имеет место для многих распределений).

Абстрактная аппроксимационная теорема

Теперь мы можем ограничить левую часть (3.1). Поскольку этот шаг сильно зависит от формы оператора Штейна, мы непосредственно рассматриваем случай стандартного нормального распределения.

На этом этапе мы могли напрямую подключить случайную переменную ${\ displaystyle W}$ , которое мы хотим аппроксимировать, и попытаемся найти верхнюю границу. Однако часто бывает полезно сформулировать более общую теорему. Рассмотрим здесь случай локальной зависимости.

Предположить, что ${\ Displaystyle W = \ сумма _ {я = 1} ^ {п} X_ {я}}$ представляет собой сумму случайных величин таких, что ${\ displaystyle E [W] = 0}$ и дисперсия ${\ displaystyle \ operatorname {var} [W] = 1}$ . Предположим, что для каждого ${\ Displaystyle я = 1, \ точки, п}$ , есть набор ${\ Displaystyle A_ {я} \ подмножество \ {1,2, \ точки, п \}}$ , такое что ${\ displaystyle X_ {i}}$ не зависит от всех случайных величин ${\ displaystyle X_ {j}}$ с участием ${\ displaystyle j \ not \ in A_ {i}}$ . Мы называем это множество "окрестностью" ${\ displaystyle X_ {i}}$ . Так же пусть ${\ Displaystyle B_ {я} \ подмножество \ {1,2, \ точки, п \}}$ быть набором таким, что все ${\ displaystyle X_ {j}}$ с участием ${\ displaystyle j \ in A_ {i}}$ независимы от всех ${\ displaystyle X_ {k}}$ , ${\ displaystyle k \ not \ in B_ {i}}$ . Мы можем думать о ${\ displaystyle B_ {i}}$ как соседи по соседству с ${\ displaystyle X_ {i}}$ , так сказать, район второго порядка. Для набора ${\ Displaystyle А \ подмножество \ {1,2, \ точки, п \}}$ теперь определите сумму ${\ Displaystyle X_ {A}: = \ сумма _ {j \ in A} X_ {j}}$ .

Используя разложение Тейлора, можно доказать, что

{\ Displaystyle (6.1) \ quad \ left | E (f '(W) -Wf (W)) \ right | \ leq \ | f' '\ | _ {\ infty} \ sum _ {i = 1} ^ {n} \ left ({\ frac {1} {2}} E | X_ {i} X_ {A_ {i}} ^ {2} | + E | X_ {i} X_ {A_ {i}} X_ { B_ {i} \ setminus A_ {i}} | + E | X_ {i} X_ {A_ {i}} | E | X_ {B_ {i}} | \ right)}

Отметим, что, если мы будем следовать этой линии рассуждений, мы сможем оценить (1.1) только для функций, где ${\ Displaystyle \ | ч '\ | _ {\ infty}}$ ограничена в силу третьего неравенства (5.2) (и действительно, если ${\ displaystyle h}$ имеет разрывы, так будет ${\ displaystyle f ''}$ ). Чтобы получить оценку, аналогичную (6.1), которая содержит только выражения ${\ Displaystyle \ | е \ | _ {\ infty}}$ а также ${\ Displaystyle \ | е '\ | _ {\ infty}}$ аргумент гораздо сложнее, а результат не так прост, как (6.1); однако это можно сделать.

Теорема А . Если ${\ displaystyle W}$ как описано выше, для липшицевой метрики ${\ displaystyle d_ {W}}$ что

{\ displaystyle (6.2) \ quad d_ {W} ({\ mathcal {L}} (W), N (0,1)) \ leq 2 \ sum _ {i = 1} ^ {n} \ left ({ \ frac {1} {2}} E | X_ {i} X_ {A_ {i}} ^ {2} | + E | X_ {i} X_ {A_ {i}} X_ {B_ {i} \ setminus A_ {i}} | + E | X_ {i} X_ {A_ {i}} | E | X_ {B_ {i}} | \ right).}

Доказательство . Напомним, что липшицева метрика имеет вид (1.1) где функции ${\ displaystyle h}$ липшицевы с константой Липшица 1, поэтому ${\ Displaystyle \ | ч '\ | \ leq 1}$ . Объединение этого с (6.1) и последней оценкой в (5.2) доказывает теорему.

Таким образом, грубо говоря, мы доказали, что для вычисления липшицевости расстояния между ${\ displaystyle W}$ со структурой локальной зависимости и стандартным нормальным распределением нам нужно знать только третьи моменты ${\ displaystyle X_ {i}}$ и размер кварталов ${\ displaystyle A_ {i}}$ а также ${\ displaystyle B_ {i}}$ .

Применение теоремы

Мы можем рассматривать случай сумм независимых и одинаково распределенных случайных величин с помощью теоремы A.

Предположить, что ${\ displaystyle EX_ {i} = 0}$ , ${\ displaystyle varX_ {i} = 1}$ а также ${\ displaystyle W = n ^ {- 1/2} \ sum X_ {i}}$ . Мы можем взять ${\ Displaystyle А_ {я} = В_ {я} = \ {я \}}$ . Из теоремы A получаем, что

{\ displaystyle (7.1) \ quad d_ {W} ({\ mathcal {L}} (W), N (0,1)) \ leq {\ frac {5E | X_ {1} | ^ {3}} { n ^ {1/2}}}.}

Для сумм случайных величин другой подход, связанный с методом Штейнса, известен как преобразование нулевого смещения .

Подключения к другим методам

Устройство Линдеберга . Линдеберг (1922) представил устройство, в котором разница

${\ displaystyle Eh (X_ {1} + ... + X_ {n}) - Eh (Y_ {1} + ... + Y_ {n})}$ представлен в виде суммы пошаговых различий.

Метод Тихомирова . Ясно, что подход, основанный на (1.1) и (3.1), не использует характеристические функции . Однако Тихомиров (1980) представил доказательство центральной предельной теоремы, основанное на характеристических функциях и дифференциальном операторе, аналогичном (2.3). Основное наблюдение состоит в том, что характеристическая функция ${\ Displaystyle \ psi (т)}$ стандартного нормального распределения удовлетворяет дифференциальному уравнению ${\ Displaystyle \ psi '(t) + t \ psi (t) = 0}$ для всех ${\ displaystyle t}$ . Таким образом, если характеристическая функция ${\ Displaystyle \ psi _ {W} (т)}$ из ${\ displaystyle W}$ таково, что ${\ Displaystyle \ psi '_ {W} (t) + t \ psi _ {W} (t) \ приблизительно 0}$ мы ожидаем, что ${\ Displaystyle \ psi _ {W} (t) \ приблизительно \ psi (t)}$ и, следовательно, что ${\ displaystyle W}$ близка к нормальному распределению. Тихомиров утверждает в своей статье, что его вдохновила основополагающая статья Штейна.

Смотрите также

Лемма Штейна

Заметки

^ ^а ^б Стейн, К. (1972). «Граница ошибки нормального приближения к распределению суммы зависимых случайных величин» . Труды Шестого симпозиума Беркли по математической статистике и теории вероятностей, Том 2 . Калифорнийский университет Press . С. 583–602. Руководство по ремонту 0402873 . Zbl 0278.60026 .
^ Чарльз Штайн: инвариант, прямой и «претенциозный». Архивировано 5 июля 2007 г. в Wayback Machine . Интервью, данное в 2003 году в Сингапуре
^ Чен, LHY (1975). «Пуассоновское приближение для зависимых испытаний» . Анналы вероятности . 3 (3): 534–545. DOI : 10.1214 / AOP / 1176996359 . JSTOR 2959474 . Руководство по ремонту 0428387 . Zbl 0335.60016 .
^ а б Новак, SY (2011). Методы экстремальной ценности с приложениями к финансам . Монографии по статистике и прикладной теории вероятностей. 122 . CRC Press . Гл. 12. ISBN 978-1-43983-574-6.

Литература

Следующий текст является расширенным и дает исчерпывающий обзор нормального случая.

Чен, LHY, Голдштейн, Л., и Шао, QM (2011). Нормальное приближение по методу Штейна . www.springer.com. ISBN 978-3-642-15006-7.CS1 maint: несколько имен: список авторов ( ссылка )

Еще одна продвинутая книга, но имеющая некоторый вводный характер, - это

изд. Барбур, А.Д. и Чен, LHY (2005). Введение в метод Штейна . Серия конспектов лекций, Институт математических наук, Национальный университет Сингапура. 4 . Издательство Сингапурского университета. ISBN 981-256-280-Х.CS1 maint: несколько имен: список авторов ( ссылка ) CS1 maint: дополнительный текст: список авторов ( ссылка )

Стандартный справочник - книга Штейна,

Стейн, К. (1986). Примерный расчет ожиданий . Конспект лекций Института математической статистики, серия монографий, 7. Хейворд, Калифорния: Институт математической статистики. ISBN 0-940600-08-0.

который содержит много интересного материала, но может быть немного трудным для понимания при первом чтении.

Несмотря на свой возраст, существует несколько стандартных вводных книг о методе Штейна. В следующем недавнем учебнике есть глава (глава 2), посвященная введению метода Штейна:

Росс, Шелдон и Пекез, Эрол (2007). Второй вариант вероятности . ISBN 978-0-9795704-0-7.

Хотя книга

Барбур, А.Д., Холст, Л. и Янсон, С. (1992). Пуассоновское приближение . Оксфордские исследования вероятностей. 2 . Clarendon Press Oxford University Press. ISBN 0-19-852235-5.CS1 maint: несколько имен: список авторов ( ссылка )

по большей части относится к приближению Пуассона, тем не менее, он содержит много информации о подходе генератора, в частности, в контексте приближения процесса Пуассона.

В следующем учебнике есть глава (глава 10), посвященная введению метода Пуассона Штейна:

Шелдон М. Росс (1995). Случайные процессы . Вайли. ISBN 978-0471120629.

[stein1972-1] а ^б Стейн, К. (1972). «Граница ошибки нормального приближения к распределению суммы зависимых случайных величин» . Труды Шестого симпозиума Беркли по математической статистике и теории вероятностей, Том 2 . Калифорнийский университет Press . С. 583–602. Руководство по ремонту 0402873 . Zbl 0278.60026 .

[2] Чарльз Штайн: инвариант, прямой и «претенциозный». Архивировано 5 июля 2007 г. в Wayback Machine . Интервью, данное в 2003 году в Сингапуре

[chen1975-3] Чен, LHY (1975). «Пуассоновское приближение для зависимых испытаний» . Анналы вероятности . 3 (3): 534–545. DOI : 10.1214 / AOP / 1176996359 . JSTOR 2959474 . Руководство по ремонту 0428387 . Zbl 0335.60016 .

[Novak-4] а б Новак, SY (2011). Методы экстремальной ценности с приложениями к финансам . Монографии по статистике и прикладной теории вероятностей. 122 . CRC Press . Гл. 12. ISBN 978-1-43983-574-6.

[1],