Эмпирическая функция распределения

В статистике , эмпирическая функция распределения (обычно называемая также эмпирическая функция распределения, eCDF) является функция распределения , связанная с эмпирической мерой в виде образца . Эта кумулятивная функция распределения представляет собой ступенчатую функцию, которая увеличивается на $1 / n$ в каждой из $n$ точек данных. Его значение при любом заданном значении измеряемой переменной представляет собой долю наблюдений измеряемой переменной, которые меньше или равны заданному значению.

Эмпирическая функция распределения - это оценка кумулятивной функции распределения, которая сгенерировала точки в выборке. Согласно теореме Гливенко – Кантелли, оно сходится с вероятностью 1 к основному распределению . Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к лежащей в основе кумулятивной функции распределения.

Определение

Пусть $(X 1,\dots, X n)$ - независимые, одинаково распределенные вещественные случайные величины с общей кумулятивной функцией распределения $F (t)$ . Тогда эмпирическая функция распределения определяется как ^[1]^[2]

{\ displaystyle {\ widehat {F}} _ {n} (t) = {\ frac {{\ mbox {количество элементов в выборке}} \ leq t} {n}} = {\ frac {1} { n}} \ sum _ {i = 1} ^ {n} \ mathbf {1} _ {X_ {i} \ leq t},}

где ${\ displaystyle \ mathbf {1} _ {A}}$ является индикатором из событий $A$ . При фиксированном $t$ индикатор ${\ Displaystyle \ mathbf {1} _ {X_ {i} \ leq t}}$ - случайная величина Бернулли с параметром $p = F (t)$ ; следовательно ${\ Displaystyle п {\ widehat {F}} _ {п} (т)}$ - биномиальная случайная величина со средним значением $nF (t)$ и дисперсией $nF (t) (1 - F (t))$ . Это означает, что ${\ Displaystyle {\ widehat {F}} _ {п} (т)}$ является несмещенной оценкой для $F (т)$ .

Однако в некоторых учебниках это определение приводится как ${\ displaystyle {\ widehat {F}} _ {n} (t) = {\ frac {1} {n + 1}} \ sum _ {i = 1} ^ {n} \ mathbf {1} _ {X_ {i} \ leq t}}$ ^[3]^[4]

Иметь в виду

Среднее эмпирического распределения является несмещенной оценкой среднего значения распределения населения.

${\ displaystyle E_ {n} (X) = {\ frac {1} {n}} \ left (\ sum _ {i = 1} ^ {n} {x_ {i}} \ right)}$

что чаще обозначается ${\ displaystyle {\ bar {x}}}$

Дисперсия

Дисперсия эмпирических времен распространения ${\ displaystyle {\ tfrac {n} {n-1}}}$ представляет собой объективную оценку дисперсии распределения населения.

${\ displaystyle {\ begin {align} \ operatorname {Var} (X) & = \ operatorname {E} \ left [(X- \ operatorname {E} [X]) ^ {2} \ right] \\ [4pt ] & = \ operatorname {E} \ left [(X - {\ bar {x}}) ^ {2} \ right] \\ [4pt] & = {\ frac {1} {n}} \ left (\ сумма _ {i = 1} ^ {n} {(x_ {i} - {\ bar {x}}) ^ {2}} \ right) \ end {align}}}$

Среднеквадратичная ошибка

Среднеквадратичной ошибки для эмпирического распределения заключается в следующем.

${\ displaystyle {\ begin {align} \ operatorname {MSE} & = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (Y_ {i} - {\ hat {Y_ { i}}}) ^ {2} \\ [4pt] & = \ operatorname {Var} _ {\ hat {\ theta}} ({\ hat {\ theta}}) + \ operatorname {Bias} ({\ hat {\ theta}}, \ theta) ^ {2} \ end {align}}}$

Где ${\ displaystyle {\ hat {\ theta}}}$ это оценщик и ${\ displaystyle \ theta}$ неизвестный параметр

Квантили

Для любого реального числа ${\ displaystyle a}$ обозначение ${\ Displaystyle \ lceil {а} \ rceil}$ (читать «потолок а») обозначает наименьшее целое число, большее или равное ${\ displaystyle a}$ . Для любого действительного числа a обозначение ${\ displaystyle \ lfloor {a} \ rfloor}$ (читать «пол из а») обозначает наибольшее целое число, меньшее или равное ${\ displaystyle a}$ .

Если ${\ displaystyle nq}$ не является целым числом, то ${\ displaystyle q}$ -й квантиль уникален и равен ${\ Displaystyle х _ {(\ lceil {nq} \ rceil)}}$

Если ${\ displaystyle nq}$ целое число, то ${\ displaystyle q}$ -й квантиль не уникален и представляет собой любое действительное число ${\ displaystyle x}$ такой, что

${\ Displaystyle х _ {({nq})} <х <х _ {({nq + 1})}}$

Эмпирическая медиана

Если ${\ displaystyle n}$ нечетно, то эмпирическая медиана - это число

${\ Displaystyle {\ тильда {х}} = х _ {(\ lceil {п / 2} \ rceil)}}$

Если ${\ displaystyle n}$ четно, то эмпирическая медиана - это число

${\ displaystyle {\ tilde {x}} = {\ frac {x_ {n / 2} + x_ {n / 2 + 1}} {2}}}$

Асимптотические свойства

Поскольку отношение $(n + 1) / n$ приближается к 1, когда $n$ стремится к бесконечности, асимптотические свойства двух определений, приведенных выше, одинаковы.

По усиленному закону больших чисел оценка ${\ Displaystyle \ scriptstyle {\ widehat {F}} _ {п} (т)}$ сходится к $F (t)$ при $n \to \infty$ почти наверное для любого значения $t$ : ^[1]

{\ displaystyle {\ widehat {F}} _ {n} (t) \ {\ xrightarrow {\ text {as}}} \ F (t);}

таким образом, оценщик ${\ Displaystyle \ scriptstyle {\ widehat {F}} _ {п} (т)}$ является последовательным . Это выражение утверждает поточечную сходимость эмпирической функции распределения к истинной кумулятивной функции распределения. Существует более сильный результат, называемый теоремой Гливенко – Кантелли , который утверждает, что сходимость на самом деле происходит равномерно по $t$ : ^[5]

{\ displaystyle \ | {\ widehat {F}} _ {n} -F \ | _ {\ infty} \ Equiv \ sup _ {t \ in \ mathbb {R}} {\ big |} {\ widehat {F }} _ {n} (t) -F (t) {\ big |} \ {\ xrightarrow {\ text {as}}} \ 0.}

Верхняя норма в этом выражении называется статистикой Колмогорова – Смирнова для проверки согласия между эмпирическим распределением ${\ Displaystyle \ scriptstyle {\ widehat {F}} _ {п} (т)}$ и предполагается истинный интегральная функция распределения $F$ . Здесь вместо sup-norm можно разумно использовать другие функции norm. Например, L ² -норма дает статистику Крамера – фон Мизеса .

Асимптотическое распределение можно дополнительно охарактеризовать несколькими различными способами. Во- первых, центральная предельная теорема утверждает , что точечно , ${\ Displaystyle \ scriptstyle {\ widehat {F}} _ {п} (т)}$ имеет асимптотически нормальное распределение со стандартным ${\ displaystyle {\ sqrt {n}}}$ скорость сходимости: ^[1]

{\ displaystyle {\ sqrt {n}} {\ big (} {\ widehat {F}} _ {n} (t) -F (t) {\ big)} \ \ {\ xrightarrow {d}} \ \ {\ mathcal {N}} {\ Big (} 0, F (t) {\ big (} 1-F (t) {\ big)} {\ Big)}.}.

Этот результат расширяется теоремой Донскера , утверждающей, что эмпирический процесс ${\ displaystyle \ scriptstyle {\ sqrt {n}} ({\ widehat {F}} _ {n} -F)}$ , рассматриваемая как функция, проиндексированная ${\ Displaystyle \ scriptstyle т \ в \ mathbb {R}}$ , Сходится по распределению в пространстве Скорохода ${\ Displaystyle \ scriptstyle D [- \ infty, + \ infty]}$ к среднему нулю гауссовскому процессу ${\ Displaystyle \ scriptstyle G_ {F} = B \ circ F}$ , где $B$ - стандартный броуновский мост . ^[5] Ковариационная структура этого гауссовского процесса такова:

{\ Displaystyle \ OperatorName {E} [\, G_ {F} (t_ {1}) G_ {F} (t_ {2}) \,] = F (t_ {1} \ клин t_ {2}) - F (t_ {1}) F (t_ {2}).}

Равномерная скорость сходимости в теореме Донскера может быть определена количественно с помощью результата, известного как венгерское вложение : ^[6]

{\ displaystyle \ limsup _ {n \ to \ infty} {\ frac {\ sqrt {n}} {\ ln ^ {2} n}} {\ big \ |} {\ sqrt {n}} ({\ widehat {F}} _ {n} -F) -G_ {F, n} {\ big \ |} _ {\ infty} <\ infty, \ quad {\ text {as}}}

В качестве альтернативы, скорость сходимости ${\ displaystyle \ scriptstyle {\ sqrt {n}} ({\ widehat {F}} _ {n} -F)}$ также может быть определено количественно в терминах асимптотического поведения sup-нормы этого выражения. Ряд результатов существует в этом месте, например, неравенство Дворецкого – Кифера – Вулфовица дает оценку хвостовых вероятностей ${\ displaystyle \ scriptstyle {\ sqrt {n}} \ | {\ widehat {F}} _ {n} -F \ | _ {\ infty}}$ : ^[6]

{\ displaystyle \ Pr \! {\ Big (} {\ sqrt {n}} \ | {\ widehat {F}} _ {n} -F \ | _ {\ infty}> z {\ Big)} \ leq 2e ^ {- 2z ^ {2}}.}

Фактически Колмогоров показал, что если кумулятивная функция распределения $F$ непрерывна, то выражение ${\ displaystyle \ scriptstyle {\ sqrt {n}} \ | {\ widehat {F}} _ {n} -F \ | _ {\ infty}}$ сходится по распределению к ${\ Displaystyle \ scriptstyle \ | B \ | _ {\ infty}}$ , Который имеет распределение Колмогорова , которое не зависит от формы $F$ .

Другой результат, который следует из закона повторного логарифма , состоит в том, что ^[6]

{\ displaystyle \ limsup _ {n \ to \ infty} {\ frac {{\ sqrt {n}} \ | {\ widehat {F}} _ {n} -F \ | _ {\ infty}} {\ sqrt {2 \ ln \ ln n}}} \ leq {\ frac {1} {2}}, \ quad {\ text {as}}}

а также

{\ displaystyle \ liminf _ {n \ to \ infty} {\ sqrt {2n \ ln \ ln n}} \ | {\ widehat {F}} _ {n} -F \ | _ {\ infty} = {\ гидроразрыв {\ pi} {2}}, \ quad {\ text {as}}}

Доверительные интервалы

Эмпирические графики CDF, CDF и доверительного интервала для различных размеров выборки нормального распределения

Согласно неравенству Дворецкого – Кифера – Вулфовица интервал, содержащий истинную CDF, ${\ Displaystyle F (х)}$ , с вероятностью ${\ displaystyle 1- \ alpha}$ указывается как

Эмпирические графики CDF, CDF и доверительного интервала для различных размеров выборки распределения Коши

${\ displaystyle F_ {n} (x) - \ varepsilon \ leq F (x) \ leq F_ {n} (x) + \ varepsilon \; {\ text {where}} \ varepsilon = {\ sqrt {\ frac { \ ln {\ frac {2} {\ alpha}}} {2n}}}.}$

В соответствии с указанными выше границами мы можем построить эмпирические CDF, CDF и доверительные интервалы для различных распределений, используя любую из статистических реализаций. Ниже приводится синтаксис Statsmodel для построения эмпирического распределения.

Эмпирические графики CDF, CDF и доверительного интервала для различных размеров выборки треугольного распределения

"" " Эмпирические функции CDF " "" импортировать  numpy  как  np из  scipy.interpolate  import  interp1ddef  _conf_set ( F ,  альфа = 0,05 ):  nobs  =  len ( F )  epsilon  =  np . sqrt ( np . log ( 2.0  /  alpha )  /  ( 2  *  nobs ))  lower  =  np . clip ( F  -  эпсилон ,  0 ,  1 )  верхний  =  np . clip ( F  +  epsilon ,  0 ,  1 )  возвращает  нижний ,  верхнийКласс  StepFunction :  Защита  __init__ ( самостоятельно ,  х ,  у ,  Ival = 0,0 ,  отсортированный = Ложные ,  сторона = "влево" ):  если  сторона . lower ()  not  in  [ "right" ,  "left" ]:  msg  =  "сторона может принимать значения 'right' или 'left'"  поднять  ValueError ( msg )  self . сторона  =  сторона  _x  =  np . asarray ( x )  _y  =  np . asarray ( y ),  если  _x . форма  ! =  _y . shape :  msg  =  "x и y не имеют одинаковой формы"  вызывать  ValueError ( msg ),  если  len ( _x . shape )  ! =  1 :  msg  =  "x и y должны быть одномерными",  повышать  ValueError ( msg )  self . х  =  нп . r_ [ - нп . inf ,  _x ]  сам . y  =  np . r_ [ ival ,  _y ],  если  не  отсортировано :  asort  =  np . argsort ( self . x )  self . х  =  нп . взять ( self . x ,  asort ,  0 )  self . y  =  np . take ( self . y ,  asort ,  0 )  self . n  =  себя . х . форма [ 0 ] def  __call__ ( сам ,  время ):  tind  =  np . searchsorted ( self . x ,  time ,  self . side )  -  1  возврат  self . y [ tind ]класс  ECDF ( StepFunction ):  def  __init__ ( self ,  x ,  side = "right" ):  x  =  np . массив ( x ,  копия = True )  x . sort ()  nobs  =  len ( x )  y  =  np . linspace ( 1.0  /  nobs ,  1 ,  nobs )  super ( ECDF ,  self ) . __init__ ( x ,  y ,  side = side ,  sorted = True )def  monotone_fn_inverter ( fn ,  x ,  vectorized = True ,  ** ключевые слова ):  x  =  np . asarray ( x )  при  векторизации :  y  =  fn ( x ,  ** ключевые слова )  else :  y  =  []  для  _x  в  x :  y . append ( fn ( _x ,  ** ключевые слова ))  y  =  np . массив ( y )  a  =  np . argsort ( y )  return  interp1d ( y [ a ],  x [ a ])if  __name__  ==  "__main__" :  # TODO: Убедитесь, что все правильно выровнено, и выполните  # функцию  построения из  urllib.request  import  urlopen  import  matplotlib.pyplot  as  plt nerve_data  =  urlopen ( "http://www.statsci.org/data/general/nerve.txt" )  nerve_data  =  np . loadtxt ( nerve_data )  x  =  nerve_data  /  50.0  # Было за 1/50 секунды  cdf  =  ECDF ( x )  x . sort ()  F  =  cdf ( x )  plt . step ( x ,  F ,  где = "post" )  lower ,  upper  =  _conf_set ( F )  plt . step ( x ,  lower ,  "r" ,  где = "post" )  plt . step ( x ,  upper ,  "r" ,  где = "post" )  plt . xlim ( 0 ,  1.5 )  plt . ylim ( 0 ,  1.05 )  plt . vlines ( x ,  0 ,  0,05 )  plt . показать ()

Статистическая реализация

Неполный список программных реализаций функции эмпирического распределения включает:

В программном обеспечении R мы вычисляем эмпирическую кумулятивную функцию распределения с помощью нескольких методов построения, печати и вычислений с таким объектом «ecdf».
В Mathworks мы можем использовать график эмпирической кумулятивной функции распределения (cdf)
jmp из SAS , график CDF создает график эмпирической кумулятивной функции распределения.
Minitab , создайте эмпирический CDF
Mathwave , мы можем подогнать распределение вероятностей к нашим данным
Dataplot , мы можем построить график Empirical CDF
Scipy , используя scipy.stats, мы можем построить распределение
Statsmodels , мы можем использовать statsmodels.distributions.empirical_distribution.ECDF
Matplotlib , мы можем использовать гистограммы для построения кумулятивного распределения
Seaborn , используя функцию seaborn.ecdfplot
Excel , мы можем построить эмпирический график CDF

Смотрите также

Càdlàg функции
Данные подсчета
Распределительная арматура
Неравенство Дворецкого – Кифера – Вулфовица.
Эмпирическая вероятность
Эмпирический процесс
Оценка квантилей по выборке
Частота (статистика)
Оценка Каплана – Мейера для цензурированных процессов
Функция выживания

дальнейшее чтение

Shorack, GR; Веллнер, Дж. А. (1986). Эмпирические процессы с приложениями к статистике . Нью-Йорк: Вили. ISBN 0-471-86725-X.

Внешние ссылки

СМИ, связанные с эмпирическими функциями распределения на Викискладе?

[vdv265-1] van der Vaart, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 265 . ISBN 0-521-78450-6.

[2] PlanetMath архивации 9 мая 2013, в Wayback Machine

[3] Coles, S. (2001) Введение в статистическое моделирование экстремальных значений . Спрингер, стр. 36, определение 2.4. ISBN 978-1-4471-3675-0 .

[4] Madsen, HO, Krenk, S., Lind, SC (2006) Методы структурной безопасности . Dover Publications. п. 148-149. ISBN 0486445976

[vdv266-5] а б ван дер Ваарт, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 266 . ISBN 0-521-78450-6.

[vdv268-6] а б в ван дер Ваарт, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 268 . ISBN 0-521-78450-6.

[1]