Из Википедии, бесплатной энциклопедии
  (Перенаправлено из статистического распределения )
Перейти к навигации Перейти к поиску

В статистике , эмпирическая функция распределения (обычно называемая также эмпирическая функция распределения, eCDF) является функция распределения , связанная с эмпирической мерой в виде образца . Эта кумулятивная функция распределения представляет собой ступенчатую функцию, которая увеличивается на 1 / n в каждой из n точек данных. Его значение при любом заданном значении измеряемой переменной - это часть наблюдений измеряемой переменной, которые меньше или равны заданному значению.

Эмпирическая функция распределения - это оценка кумулятивной функции распределения, которая сгенерировала точки в выборке. Согласно теореме Гливенко – Кантелли, оно сходится с вероятностью 1 к основному распределению . Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к лежащей в основе кумулятивной функции распределения.

Определение [ править ]

Пусть ( X 1 ,…, X n ) - независимые, одинаково распределенные вещественные случайные величины с общей кумулятивной функцией распределения F ( t ) . Тогда эмпирическая функция распределения определяется как [1] [2]

где является показателем из событий A . При фиксированном t индикатор представляет собой случайную величину Бернулли с параметром p = F ( t ) ; следовательно, является биномиальной случайной величиной со средним значением nF ( t ) и дисперсией nF ( t ) (1 - F ( t )) . Это означает, что это несмещенная оценка для F ( t ) .

Однако в некоторых учебниках это определение приводится как [3] [4]

Среднее [ править ]

Среднее эмпирического распределения является несмещенной оценкой среднего значения распределения населения.

что чаще обозначается

Дисперсия [ править ]

Дисперсия эмпирических времен распределения является несмещенной оценкой дисперсии распределения населения.

Среднеквадратичная ошибка [ править ]

Среднеквадратичной ошибки для эмпирического распределения заключается в следующем.

Где оценщик и неизвестный параметр

Квантили [ править ]

Для любого действительного числа запись (читай «потолок a») обозначает наименьшее целое число, большее или равное . Для любого действительного числа a запись (читается как «пол из a») означает наибольшее целое число, меньшее или равное .

Если не является целым числом, то -й квантиль уникален и равен

Если - целое число, то -й квантиль не уникален и представляет собой любое действительное число, такое что

Эмпирическая медиана [ править ]

Если нечетное, то эмпирическая медиана - это число

Если четно, то эмпирическая медиана - это число

Асимптотические свойства [ править ]

Поскольку отношение ( n  + 1) / n приближается к 1, когда n стремится к бесконечности, асимптотические свойства двух определений, приведенных выше, одинаковы.

По усиленному закону больших чисел оценка почти наверняка сходится к F ( t ) при n  → ∞ для любого значения t : [1]

Таким образом , оценщик является последовательным . Это выражение утверждает поточечную сходимость эмпирической функции распределения к истинной кумулятивной функции распределения. Существует более сильный результат, называемый теоремой Гливенко – Кантелли , который утверждает, что сходимость на самом деле происходит равномерно по t : [5]

Вир-норма в этом выражении называется статистика Колмогорова-Смирнова для проверки благость степени согласия между эмпирическим распределением и предполагаемой истинной интегральную функцию распределения F . Здесь вместо sup-norm можно разумно использовать другие функции norm. Например, L 2 -норма дает статистику Крамера – фон Мизеса .

Асимптотическое распределение можно дополнительно охарактеризовать несколькими различными способами. Во- первых, центральная предельная теорема утверждает , что точечно , имеет асимптотически нормальное распределение со стандартной скорости сходимости: [1]

Этот результат расширен теоремой Донскера , которая утверждает, что эмпирический процесс , рассматриваемый как функция, индексированная , сходится по распределению в пространстве Скорохода к гауссовскому процессу с нулевым средним , где B - стандартный броуновский мост . [5] Ковариационная структура этого гауссовского процесса такова:

Равномерная скорость сходимости в теореме Донскера может быть определена количественно с помощью результата, известного как венгерское вложение : [6]

В качестве альтернативы, скорость сходимости также может быть определена количественно в терминах асимптотического поведения sup-нормы этого выражения. Ряд результатов существует в этом месте, например, неравенство Дворецкого – Кифера – Вулфовица дает оценку хвостовых вероятностей : [6]

На самом деле, Колмогоров показал , что если функция распределения F непрерывна, то выражение сходится по распределению к , который имеет распределение Колмогорова , которое не зависит от формы F .

Другой результат, который следует из закона повторного логарифма , состоит в том, что [6]

а также

Доверительные интервалы [ править ]

Эмпирические графики CDF, CDF и доверительного интервала для различных размеров выборки нормального распределения

Согласно неравенству Дворецкого – Кифера – Вулфовица интервал, содержащий истинную CDF ,, с вероятностью , задается как

Эмпирические графики CDF, CDF и доверительного интервала для различных размеров выборки распределения Коши

В соответствии с указанными выше границами мы можем построить эмпирические CDF, CDF и доверительные интервалы для различных распределений, используя любую из статистических реализаций. Ниже приводится синтаксис Statsmodel для построения эмпирического распределения.

Эмпирические графики CDF, CDF и доверительного интервала для различных размеров выборки треугольного распределения
"" " Эмпирические функции CDF " "" импортировать  numpy  как  np из  scipy.interpolate  import  interp1ddef  _conf_set ( F ,  альфа = 0,05 ):  nobs  =  len ( F )  epsilon  =  np . sqrt ( np . log ( 2.0  /  alpha )  /  ( 2  *  nobs ))  lower  =  np . clip ( F  -  эпсилон ,  0 ,  1 )  верхний  =  np . зажим ( F +  epsilon ,  0 ,  1 )  вернуть  нижний ,  верхнийКласс  StepFunction :  Защита  __init__ ( самостоятельно ,  х ,  у ,  Ival = 0,0 ,  отсортированный = Ложные ,  сторона = "влево" ):  если  сторона . lower ()  not  in  [ "right" ,  "left" ]:  msg  =  "сторона может принимать значения 'right' или 'left'"  поднять  ValueError ( msg )  self . сторона  =  сторона  _x  = нп . asarray ( x )  _y  =  np . asarray ( y ),  если  _x . форма  ! =  _y . shape :  msg  =  "x и y не имеют одинаковой формы"  вызывать  ValueError ( msg ),  если  len ( _x . shape )  ! =  1 :  msg  =  "x и y должны быть одномерными",  повышать  ValueError ( msg )  self .х  =  нп . r_ [ - нп . inf ,  _x ]  сам . y  =  np . r_ [ ival ,  _y ],  если  не  отсортировано :  asort  =  np . argsort ( self . x )  self . х  =  нп . взять ( self . x ,  asort ,  0 )  self .y  =  np . take ( self . y ,  asort ,  0 )  self . n  =  себя . х . форма [ 0 ] def  __call__ ( сам ,  время ):  tind  =  np . searchsorted ( self . x ,  time ,  self . side )  -  1  возврат  self . y [ tind ]класс  ECDF ( StepFunction ):  def  __init__ ( self ,  x ,  side = "right" ):  x  =  np . массив ( x ,  копия = True )  x . sort ()  nobs  =  len ( x )  y  =  np . linspace ( 1.0  /  nobs ,  1 ,  nobs )  super ( ECDF,  себя ) . __init__ ( x ,  y ,  side = side ,  sorted = True )def  monotone_fn_inverter ( fn ,  x ,  vectorized = True ,  ** ключевые слова ):  x  =  np . asarray ( x )  при  векторизации :  y  =  fn ( x ,  ** ключевые слова )  else :  y  =  []  для  _x  в  x :  y . append ( fn ( _x ,  ** ключевые слова))  y  =  np . массив ( y )  a  =  np . argsort ( y )  return  interp1d ( y [ a ],  x [ a ])if  __name__  ==  "__main__" :  # TODO: Убедитесь, что все правильно выровнено, и выполните  # функцию  построения из  urllib.request  import  urlopen  import  matplotlib.pyplot  as  plt nerve_data  =  urlopen ( "http://www.statsci.org/data/general/nerve.txt" )  nerve_data  =  np . loadtxt ( nerve_data )  x  =  nerve_data  /  50.0  # Было за 1/50 секунды  cdf  =  ECDF ( x )  x . sort ()  F  =  cdf ( x )  plt . step ( x ,  F ,  где = "post" )  ниже , upper  =  _conf_set ( F )  plt . step ( x ,  lower ,  "r" ,  где = "post" )  plt . step ( x ,  upper ,  "r" ,  где = "post" )  plt . xlim ( 0 ,  1.5 )  plt . ylim ( 0 ,  1.05 )  plt . vlines ( x , 0 ,  0,05 )  пл . показать ()

Статистическая реализация [ править ]

Неполный список программных реализаций функции эмпирического распределения включает:

  • В программном обеспечении R мы вычисляем эмпирическую кумулятивную функцию распределения с помощью нескольких методов построения, печати и вычислений с таким объектом «ecdf».
  • В Mathworks мы можем использовать график эмпирической кумулятивной функции распределения (cdf)
  • jmp из SAS , график CDF создает график эмпирической кумулятивной функции распределения.
  • Minitab , создайте эмпирический CDF
  • Mathwave , мы можем подогнать распределение вероятностей к нашим данным
  • Dataplot , мы можем построить график Empirical CDF
  • Scipy , используя scipy.stats, мы можем построить распределение
  • Statsmodels , мы можем использовать statsmodels.distributions.empirical_distribution.ECDF
  • Matplotlib , мы можем использовать гистограммы для построения кумулятивного распределения
  • Seaborn , используя функцию seaborn.ecdfplot
  • Excel , мы можем построить эмпирический график CDF

См. Также [ править ]

  • Càdlàg функции
  • Данные подсчета
  • Распределительная арматура
  • Неравенство Дворецкого – Кифера – Вулфовица.
  • Эмпирическая вероятность
  • Эмпирический процесс
  • Оценка квантилей по выборке
  • Частота (статистика)
  • Оценка Каплана – Мейера для цензурированных процессов
  • Функция выживания

Ссылки [ править ]

  1. ^ a b c van der Vaart, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 265 . ISBN  0-521-78450-6.
  2. ^ PlanetMath архивации 9 мая 2013, в Wayback Machine
  3. ^ Coles, S. (2001) Введение в статистическое моделирование экстремальных значений . Спрингер, стр. 36, определение 2.4. ISBN 978-1-4471-3675-0 . 
  4. ^ Madsen, HO, Krenk, S., Lind, SC (2006) Методы структурной безопасности . Dover Publications. п. 148-149. ISBN 0486445976 
  5. ^ a b van der Vaart, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 266 . ISBN 0-521-78450-6.
  6. ^ a b c van der Vaart, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 268 . ISBN 0-521-78450-6.

Дальнейшее чтение [ править ]

  • Shorack, GR; Веллнер, Дж. А. (1986). Эмпирические процессы с приложениями к статистике . Нью-Йорк: Вили. ISBN 0-471-86725-X.

Внешние ссылки [ править ]

  • СМИ, связанные с эмпирическими функциями распределения на Викискладе?