Эмпирическая функция распределения

В статистике , эмпирическая функция распределения (обычно называемая также эмпирическая функция распределения, eCDF) является функция распределения , связанная с эмпирической мерой в виде образца . Эта кумулятивная функция распределения представляет собой ступенчатую функцию, которая увеличивается на $1 / n$ в каждой из $n$ точек данных. Его значение при любом заданном значении измеряемой переменной - это часть наблюдений измеряемой переменной, которые меньше или равны заданному значению.

Эмпирическая функция распределения - это оценка кумулятивной функции распределения, которая сгенерировала точки в выборке. Согласно теореме Гливенко – Кантелли, оно сходится с вероятностью 1 к основному распределению . Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к лежащей в основе кумулятивной функции распределения.

Определение [ править ]

Пусть $(X 1,\dots, X n)$ - независимые, одинаково распределенные вещественные случайные величины с общей кумулятивной функцией распределения $F (t)$ . Тогда эмпирическая функция распределения определяется как ^[1]^[2]

{\ displaystyle {\ widehat {F}} _ {n} (t) = {\ frac {{\ mbox {количество элементов в выборке}} \ leq t} {n}} = {\ frac {1} { n}} \ sum _ {i = 1} ^ {n} \ mathbf {1} _ {X_ {i} \ leq t},}

где является показателем из событий $A$ . При фиксированном $t$ индикатор представляет собой случайную величину Бернулли с параметром $p$ $=$ $F$ $($ $t$ $)$ ; следовательно, является биномиальной случайной величиной со средним значением $nF$ $($ $t$ $)$ и дисперсией $nF$ $($ $t$ $) (1 -$ $F$ $($ $t$ $))$ . Это означает, что это несмещенная оценка для $F$ $($ $t$ $)$ . ${\ displaystyle \ mathbf {1} _ {A}}$ ${\ Displaystyle \ mathbf {1} _ {X_ {i} \ leq t}}$ ${\ Displaystyle п {\ widehat {F}} _ {п} (т)}$ ${\ Displaystyle {\ widehat {F}} _ {п} (т)}$

Однако в некоторых учебниках это определение приводится как ^[3]^[4] ${\ displaystyle {\ widehat {F}} _ {n} (t) = {\ frac {1} {n + 1}} \ sum _ {i = 1} ^ {n} \ mathbf {1} _ {X_ {i} \ leq t}}$

Среднее [ править ]

Среднее эмпирического распределения является несмещенной оценкой среднего значения распределения населения.

${\ displaystyle E_ {n} (X) = {\ frac {1} {n}} \ left (\ sum _ {i = 1} ^ {n} {x_ {i}} \ right)}$

что чаще обозначается ${\ displaystyle {\ bar {x}}}$

Дисперсия [ править ]

Дисперсия эмпирических времен распределения является несмещенной оценкой дисперсии распределения населения. ${\ displaystyle {\ tfrac {n} {n-1}}}$

${\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left[(X-\operatorname {E} [X])^{2}\right]\\[4pt]&=\operatorname {E} \left[(X-{\bar {x}})^{2}\right]\\[4pt]&={\frac {1}{n}}\left(\sum _{i=1}^{n}{(x_{i}-{\bar {x}})^{2}}\right)\end{aligned}}$

Среднеквадратичная ошибка [ править ]

Среднеквадратичной ошибки для эмпирического распределения заключается в следующем.

${\begin{aligned}\operatorname {MSE} &={\frac {1}{n}}\sum _{i=1}^{n}(Y_{i}-{\hat {Y_{i}}})^{2}\\[4pt]&=\operatorname {Var} _{\hat {\theta }}({\hat {\theta }})+\operatorname {Bias} ({\hat {\theta }},\theta )^{2}\end{aligned}}$

Где оценщик и неизвестный параметр ${\hat {\theta }}$ $\theta$

Квантили [ править ]

Для любого действительного числа запись (читай «потолок a») обозначает наименьшее целое число, большее или равное . Для любого действительного числа a запись (читается как «пол из a») означает наибольшее целое число, меньшее или равное . $a$ $\lceil {a}\rceil$ $a$ $\lfloor {a}\rfloor$ $a$

Если не является целым числом, то -й квантиль уникален и равен $nq$ $q$ $x_{(\lceil {nq}\rceil )}$

Если - целое число, то -й квантиль не уникален и представляет собой любое действительное число, такое что $nq$ $q$ $x$

$x_{({nq})}<x<x_{({nq+1})}$

Эмпирическая медиана [ править ]

Если нечетное, то эмпирическая медиана - это число $n$

${\tilde {x}}=x_{(\lceil {n/2}\rceil )}$

Если четно, то эмпирическая медиана - это число $n$

${\tilde {x}}={\frac {x_{n/2}+x_{n/2+1}}{2}}$

Асимптотические свойства [ править ]

Поскольку отношение $(n + 1) / n$ приближается к 1, когда $n$ стремится к бесконечности, асимптотические свойства двух определений, приведенных выше, одинаковы.

По усиленному закону больших чисел оценка почти наверняка сходится к $F$ $($ $t$ $)$ при $n$ $\to \infty$ для любого значения $t$ : ^[1] $\scriptstyle {\widehat {F}}_{n}(t)$

{\widehat {F}}_{n}(t)\ {\xrightarrow {\text{a.s.}}}\ F(t);

Таким образом , оценщик является последовательным . Это выражение утверждает поточечную сходимость эмпирической функции распределения к истинной кумулятивной функции распределения. Существует более сильный результат, называемый теоремой Гливенко – Кантелли , который утверждает, что сходимость на самом деле происходит равномерно по $t$ : ^[5] $\scriptstyle {\widehat {F}}_{n}(t)$

\|{\widehat {F}}_{n}-F\|_{\infty }\equiv \sup _{t\in \mathbb {R} }{\big |}{\widehat {F}}_{n}(t)-F(t){\big |}\ {\xrightarrow {\text{a.s.}}}\ 0.

Вир-норма в этом выражении называется статистика Колмогорова-Смирнова для проверки благость степени согласия между эмпирическим распределением и предполагаемой истинной интегральную функцию распределения $F$ . Здесь вместо sup-norm можно разумно использовать другие функции norm. Например, L 2 -норма дает статистику Крамера – фон Мизеса . $\scriptstyle {\widehat {F}}_{n}(t)$

Асимптотическое распределение можно дополнительно охарактеризовать несколькими различными способами. Во- первых, центральная предельная теорема утверждает , что точечно , имеет асимптотически нормальное распределение со стандартной скорости сходимости: ^[1] $\scriptstyle {\widehat {F}}_{n}(t)$ ${\sqrt {n}}$

{\sqrt {n}}{\big (}{\widehat {F}}_{n}(t)-F(t){\big )}\ \ {\xrightarrow {d}}\ \ {\mathcal {N}}{\Big (}0,F(t){\big (}1-F(t){\big )}{\Big )}.

Этот результат расширен теоремой Донскера , которая утверждает, что эмпирический процесс , рассматриваемый как функция, индексированная , сходится по распределению в пространстве Скорохода к гауссовскому процессу с нулевым средним , где $B$ - стандартный броуновский мост . ^[5] Ковариационная структура этого гауссовского процесса такова: $\scriptstyle {\sqrt {n}}({\widehat {F}}_{n}-F)$ $\scriptstyle t\in \mathbb {R}$ $\scriptstyle D[-\infty ,+\infty ]$ $\scriptstyle G_{F}=B\circ F$

\operatorname {E} [\,G_{F}(t_{1})G_{F}(t_{2})\,]=F(t_{1}\wedge t_{2})-F(t_{1})F(t_{2}).

Равномерная скорость сходимости в теореме Донскера может быть определена количественно с помощью результата, известного как венгерское вложение : ^[6]

\limsup _{n\to \infty }{\frac {\sqrt {n}}{\ln ^{2}n}}{\big \|}{\sqrt {n}}({\widehat {F}}_{n}-F)-G_{F,n}{\big \|}_{\infty }<\infty ,\quad {\text{a.s.}}

В качестве альтернативы, скорость сходимости также может быть определена количественно в терминах асимптотического поведения sup-нормы этого выражения. Ряд результатов существует в этом месте, например, неравенство Дворецкого – Кифера – Вулфовица дает оценку хвостовых вероятностей : ^[6] $\scriptstyle {\sqrt {n}}({\widehat {F}}_{n}-F)$ $\scriptstyle {\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }$

\Pr \!{\Big (}{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }>z{\Big )}\leq 2e^{-2z^{2}}.

На самом деле, Колмогоров показал , что если функция распределения $F$ непрерывна, то выражение сходится по распределению к , который имеет распределение Колмогорова , которое не зависит от формы $F$ . $\scriptstyle {\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }$ $\scriptstyle \|B\|_{\infty }$

Другой результат, который следует из закона повторного логарифма , состоит в том, что ^[6]

\limsup _{n\to \infty }{\frac {{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }}{\sqrt {2\ln \ln n}}}\leq {\frac {1}{2}},\quad {\text{a.s.}}

а также

\liminf _{n\to \infty }{\sqrt {2n\ln \ln n}}\|{\widehat {F}}_{n}-F\|_{\infty }={\frac {\pi }{2}},\quad {\text{a.s.}}

Доверительные интервалы [ править ]

Эмпирические графики CDF, CDF и доверительного интервала для различных размеров выборки нормального распределения

Согласно неравенству Дворецкого – Кифера – Вулфовица интервал, содержащий истинную CDF ,, с вероятностью , задается как $F(x)$ $1-\alpha$

Эмпирические графики CDF, CDF и доверительного интервала для различных размеров выборки распределения Коши

$F_{n}(x)-\varepsilon \leq F(x)\leq F_{n}(x)+\varepsilon \;{\text{ where }}\varepsilon ={\sqrt {\frac {\ln {\frac {2}{\alpha }}}{2n}}}.$

В соответствии с указанными выше границами мы можем построить эмпирические CDF, CDF и доверительные интервалы для различных распределений, используя любую из статистических реализаций. Ниже приводится синтаксис Statsmodel для построения эмпирического распределения.

Эмпирические графики CDF, CDF и доверительного интервала для различных размеров выборки треугольного распределения

"" " Эмпирические функции CDF " "" импортировать  numpy  как  np из  scipy.interpolate  import  interp1ddef  _conf_set ( F ,  альфа = 0,05 ):  nobs  =  len ( F )  epsilon  =  np . sqrt ( np . log ( 2.0  /  alpha )  /  ( 2  *  nobs ))  lower  =  np . clip ( F  -  эпсилон ,  0 ,  1 )  верхний  =  np . зажим ( F +  epsilon ,  0 ,  1 )  вернуть  нижний ,  верхнийКласс  StepFunction :  Защита  __init__ ( самостоятельно ,  х ,  у ,  Ival = 0,0 ,  отсортированный = Ложные ,  сторона = "влево" ):  если  сторона . lower ()  not  in  [ "right" ,  "left" ]:  msg  =  "сторона может принимать значения 'right' или 'left'"  поднять  ValueError ( msg )  self . сторона  =  сторона  _x  = нп . asarray ( x )  _y  =  np . asarray ( y ),  если  _x . форма  ! =  _y . shape :  msg  =  "x и y не имеют одинаковой формы"  вызывать  ValueError ( msg ),  если  len ( _x . shape )  ! =  1 :  msg  =  "x и y должны быть одномерными",  повышать  ValueError ( msg )  self .х  =  нп . r_ [ - нп . inf ,  _x ]  сам . y  =  np . r_ [ ival ,  _y ],  если  не  отсортировано :  asort  =  np . argsort ( self . x )  self . х  =  нп . взять ( self . x ,  asort ,  0 )  self .y  =  np . take ( self . y ,  asort ,  0 )  self . n  =  себя . х . форма [ 0 ] def  __call__ ( сам ,  время ):  tind  =  np . searchsorted ( self . x ,  time ,  self . side )  -  1  возврат  self . y [ tind ]класс  ECDF ( StepFunction ):  def  __init__ ( self ,  x ,  side = "right" ):  x  =  np . массив ( x ,  копия = True )  x . sort ()  nobs  =  len ( x )  y  =  np . linspace ( 1.0  /  nobs ,  1 ,  nobs )  super ( ECDF,  себя ) . __init__ ( x ,  y ,  side = side ,  sorted = True )def  monotone_fn_inverter ( fn ,  x ,  vectorized = True ,  ** ключевые слова ):  x  =  np . asarray ( x )  при  векторизации :  y  =  fn ( x ,  ** ключевые слова )  else :  y  =  []  для  _x  в  x :  y . append ( fn ( _x ,  ** ключевые слова))  y  =  np . массив ( y )  a  =  np . argsort ( y )  return  interp1d ( y [ a ],  x [ a ])if  __name__  ==  "__main__" :  # TODO: Убедитесь, что все правильно выровнено, и выполните  # функцию  построения из  urllib.request  import  urlopen  import  matplotlib.pyplot  as  plt nerve_data  =  urlopen ( "http://www.statsci.org/data/general/nerve.txt" )  nerve_data  =  np . loadtxt ( nerve_data )  x  =  nerve_data  /  50.0  # Было за 1/50 секунды  cdf  =  ECDF ( x )  x . sort ()  F  =  cdf ( x )  plt . step ( x ,  F ,  где = "post" )  ниже , upper  =  _conf_set ( F )  plt . step ( x ,  lower ,  "r" ,  где = "post" )  plt . step ( x ,  upper ,  "r" ,  где = "post" )  plt . xlim ( 0 ,  1.5 )  plt . ylim ( 0 ,  1.05 )  plt . vlines ( x , 0 ,  0,05 )  пл . показать ()

Статистическая реализация [ править ]

Неполный список программных реализаций функции эмпирического распределения включает:

В программном обеспечении R мы вычисляем эмпирическую кумулятивную функцию распределения с помощью нескольких методов построения, печати и вычислений с таким объектом «ecdf».
В Mathworks мы можем использовать график эмпирической кумулятивной функции распределения (cdf)
jmp из SAS , график CDF создает график эмпирической кумулятивной функции распределения.
Minitab , создайте эмпирический CDF
Mathwave , мы можем подогнать распределение вероятностей к нашим данным
Dataplot , мы можем построить график Empirical CDF
Scipy , используя scipy.stats, мы можем построить распределение
Statsmodels , мы можем использовать statsmodels.distributions.empirical_distribution.ECDF
Matplotlib , мы можем использовать гистограммы для построения кумулятивного распределения
Seaborn , используя функцию seaborn.ecdfplot
Excel , мы можем построить эмпирический график CDF

См. Также [ править ]

Càdlàg функции
Данные подсчета
Распределительная арматура
Неравенство Дворецкого – Кифера – Вулфовица.
Эмпирическая вероятность
Эмпирический процесс
Оценка квантилей по выборке
Частота (статистика)
Оценка Каплана – Мейера для цензурированных процессов
Функция выживания

Ссылки [ править ]

^ a b c van der Vaart, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 265 . ISBN 0-521-78450-6.
^ PlanetMath архивации 9 мая 2013, в Wayback Machine
^ Coles, S. (2001) Введение в статистическое моделирование экстремальных значений . Спрингер, стр. 36, определение 2.4. ISBN 978-1-4471-3675-0 .
^ Madsen, HO, Krenk, S., Lind, SC (2006) Методы структурной безопасности . Dover Publications. п. 148-149. ISBN 0486445976
^ a b van der Vaart, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 266 . ISBN 0-521-78450-6.
^ a b c van der Vaart, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 268 . ISBN 0-521-78450-6.

Дальнейшее чтение [ править ]

Shorack, GR; Веллнер, Дж. А. (1986). Эмпирические процессы с приложениями к статистике . Нью-Йорк: Вили. ISBN 0-471-86725-X.

Внешние ссылки [ править ]

СМИ, связанные с эмпирическими функциями распределения на Викискладе?

[vdv265-1] van der Vaart, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 265 . ISBN 0-521-78450-6.

[2] PlanetMath архивации 9 мая 2013, в Wayback Machine

[3] Coles, S. (2001) Введение в статистическое моделирование экстремальных значений . Спрингер, стр. 36, определение 2.4. ISBN 978-1-4471-3675-0 .

[4] Madsen, HO, Krenk, S., Lind, SC (2006) Методы структурной безопасности . Dover Publications. п. 148-149. ISBN 0486445976

[vdv266-5] van der Vaart, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 266 . ISBN 0-521-78450-6.

[vdv268-6] van der Vaart, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 268 . ISBN 0-521-78450-6.

[1]