В статистике , эмпирическая функция распределения (обычно называемая также эмпирическая функция распределения, eCDF) является функция распределения , связанная с эмпирической мерой в виде образца . Эта кумулятивная функция распределения представляет собой ступенчатую функцию, которая увеличивается на 1 / n в каждой из n точек данных. Его значение при любом заданном значении измеряемой переменной - это часть наблюдений измеряемой переменной, которые меньше или равны заданному значению.
Эмпирическая функция распределения - это оценка кумулятивной функции распределения, которая сгенерировала точки в выборке. Согласно теореме Гливенко – Кантелли, оно сходится с вероятностью 1 к основному распределению . Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к лежащей в основе кумулятивной функции распределения.
Определение [ править ]
Пусть ( X 1 ,…, X n ) - независимые, одинаково распределенные вещественные случайные величины с общей кумулятивной функцией распределения F ( t ) . Тогда эмпирическая функция распределения определяется как [1] [2]
где является показателем из событий A . При фиксированном t индикатор представляет собой случайную величину Бернулли с параметром p = F ( t ) ; следовательно, является биномиальной случайной величиной со средним значением nF ( t ) и дисперсией nF ( t ) (1 - F ( t )) . Это означает, что это несмещенная оценка для F ( t ) .
Однако в некоторых учебниках это определение приводится как [3] [4]
Среднее [ править ]
Среднее эмпирического распределения является несмещенной оценкой среднего значения распределения населения.
что чаще обозначается
Дисперсия [ править ]
Дисперсия эмпирических времен распределения является несмещенной оценкой дисперсии распределения населения.
Среднеквадратичная ошибка [ править ]
Среднеквадратичной ошибки для эмпирического распределения заключается в следующем.
Где оценщик и неизвестный параметр
Квантили [ править ]
Для любого действительного числа запись (читай «потолок a») обозначает наименьшее целое число, большее или равное . Для любого действительного числа a запись (читается как «пол из a») означает наибольшее целое число, меньшее или равное .
Если не является целым числом, то -й квантиль уникален и равен
Если - целое число, то -й квантиль не уникален и представляет собой любое действительное число, такое что
Эмпирическая медиана [ править ]
Если нечетное, то эмпирическая медиана - это число
Если четно, то эмпирическая медиана - это число
Асимптотические свойства [ править ]
Поскольку отношение ( n + 1) / n приближается к 1, когда n стремится к бесконечности, асимптотические свойства двух определений, приведенных выше, одинаковы.
По усиленному закону больших чисел оценка почти наверняка сходится к F ( t ) при n → ∞ для любого значения t : [1]
Таким образом , оценщик является последовательным . Это выражение утверждает поточечную сходимость эмпирической функции распределения к истинной кумулятивной функции распределения. Существует более сильный результат, называемый теоремой Гливенко – Кантелли , который утверждает, что сходимость на самом деле происходит равномерно по t : [5]
Вир-норма в этом выражении называется статистика Колмогорова-Смирнова для проверки благость степени согласия между эмпирическим распределением и предполагаемой истинной интегральную функцию распределения F . Здесь вместо sup-norm можно разумно использовать другие функции norm. Например, L 2 -норма дает статистику Крамера – фон Мизеса .
Асимптотическое распределение можно дополнительно охарактеризовать несколькими различными способами. Во- первых, центральная предельная теорема утверждает , что точечно , имеет асимптотически нормальное распределение со стандартной скорости сходимости: [1]
Этот результат расширен теоремой Донскера , которая утверждает, что эмпирический процесс , рассматриваемый как функция, индексированная , сходится по распределению в пространстве Скорохода к гауссовскому процессу с нулевым средним , где B - стандартный броуновский мост . [5] Ковариационная структура этого гауссовского процесса такова:
Равномерная скорость сходимости в теореме Донскера может быть определена количественно с помощью результата, известного как венгерское вложение : [6]
В качестве альтернативы, скорость сходимости также может быть определена количественно в терминах асимптотического поведения sup-нормы этого выражения. Ряд результатов существует в этом месте, например, неравенство Дворецкого – Кифера – Вулфовица дает оценку хвостовых вероятностей : [6]
На самом деле, Колмогоров показал , что если функция распределения F непрерывна, то выражение сходится по распределению к , который имеет распределение Колмогорова , которое не зависит от формы F .
Другой результат, который следует из закона повторного логарифма , состоит в том, что [6]
а также
Доверительные интервалы [ править ]
Согласно неравенству Дворецкого – Кифера – Вулфовица интервал, содержащий истинную CDF ,, с вероятностью , задается как
В соответствии с указанными выше границами мы можем построить эмпирические CDF, CDF и доверительные интервалы для различных распределений, используя любую из статистических реализаций. Ниже приводится синтаксис Statsmodel для построения эмпирического распределения.
"" " Эмпирические функции CDF " "" импортировать numpy как np из scipy.interpolate import interp1ddef _conf_set ( F , альфа = 0,05 ): nobs = len ( F ) epsilon = np . sqrt ( np . log ( 2.0 / alpha ) / ( 2 * nobs )) lower = np . clip ( F - эпсилон , 0 , 1 ) верхний = np . зажим ( F + epsilon , 0 , 1 ) вернуть нижний , верхнийКласс StepFunction : Защита __init__ ( самостоятельно , х , у , Ival = 0,0 , отсортированный = Ложные , сторона = "влево" ): если сторона . lower () not in [ "right" , "left" ]: msg = "сторона может принимать значения 'right' или 'left'" поднять ValueError ( msg ) self . сторона = сторона _x = нп . asarray ( x ) _y = np . asarray ( y ), если _x . форма ! = _y . shape : msg = "x и y не имеют одинаковой формы" вызывать ValueError ( msg ), если len ( _x . shape ) ! = 1 : msg = "x и y должны быть одномерными", повышать ValueError ( msg ) self .х = нп . r_ [ - нп . inf , _x ] сам . y = np . r_ [ ival , _y ], если не отсортировано : asort = np . argsort ( self . x ) self . х = нп . взять ( self . x , asort , 0 ) self .y = np . take ( self . y , asort , 0 ) self . n = себя . х . форма [ 0 ] def __call__ ( сам , время ): tind = np . searchsorted ( self . x , time , self . side ) - 1 возврат self . y [ tind ]класс ECDF ( StepFunction ): def __init__ ( self , x , side = "right" ): x = np . массив ( x , копия = True ) x . sort () nobs = len ( x ) y = np . linspace ( 1.0 / nobs , 1 , nobs ) super ( ECDF, себя ) . __init__ ( x , y , side = side , sorted = True )def monotone_fn_inverter ( fn , x , vectorized = True , ** ключевые слова ): x = np . asarray ( x ) при векторизации : y = fn ( x , ** ключевые слова ) else : y = [] для _x в x : y . append ( fn ( _x , ** ключевые слова)) y = np . массив ( y ) a = np . argsort ( y ) return interp1d ( y [ a ], x [ a ])if __name__ == "__main__" : # TODO: Убедитесь, что все правильно выровнено, и выполните # функцию построения из urllib.request import urlopen import matplotlib.pyplot as plt nerve_data = urlopen ( "http://www.statsci.org/data/general/nerve.txt" ) nerve_data = np . loadtxt ( nerve_data ) x = nerve_data / 50.0 # Было за 1/50 секунды cdf = ECDF ( x ) x . sort () F = cdf ( x ) plt . step ( x , F , где = "post" ) ниже , upper = _conf_set ( F ) plt . step ( x , lower , "r" , где = "post" ) plt . step ( x , upper , "r" , где = "post" ) plt . xlim ( 0 , 1.5 ) plt . ylim ( 0 , 1.05 ) plt . vlines ( x , 0 , 0,05 ) пл . показать ()
Статистическая реализация [ править ]
Неполный список программных реализаций функции эмпирического распределения включает:
- В программном обеспечении R мы вычисляем эмпирическую кумулятивную функцию распределения с помощью нескольких методов построения, печати и вычислений с таким объектом «ecdf».
- В Mathworks мы можем использовать график эмпирической кумулятивной функции распределения (cdf)
- jmp из SAS , график CDF создает график эмпирической кумулятивной функции распределения.
- Minitab , создайте эмпирический CDF
- Mathwave , мы можем подогнать распределение вероятностей к нашим данным
- Dataplot , мы можем построить график Empirical CDF
- Scipy , используя scipy.stats, мы можем построить распределение
- Statsmodels , мы можем использовать statsmodels.distributions.empirical_distribution.ECDF
- Matplotlib , мы можем использовать гистограммы для построения кумулятивного распределения
- Seaborn , используя функцию seaborn.ecdfplot
- Excel , мы можем построить эмпирический график CDF
См. Также [ править ]
- Càdlàg функции
- Данные подсчета
- Распределительная арматура
- Неравенство Дворецкого – Кифера – Вулфовица.
- Эмпирическая вероятность
- Эмпирический процесс
- Оценка квантилей по выборке
- Частота (статистика)
- Оценка Каплана – Мейера для цензурированных процессов
- Функция выживания
Ссылки [ править ]
- ^ a b c van der Vaart, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 265 . ISBN 0-521-78450-6.
- ^ PlanetMath архивации 9 мая 2013, в Wayback Machine
- ^ Coles, S. (2001) Введение в статистическое моделирование экстремальных значений . Спрингер, стр. 36, определение 2.4. ISBN 978-1-4471-3675-0 .
- ^ Madsen, HO, Krenk, S., Lind, SC (2006) Методы структурной безопасности . Dover Publications. п. 148-149. ISBN 0486445976
- ^ a b van der Vaart, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 266 . ISBN 0-521-78450-6.
- ^ a b c van der Vaart, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 268 . ISBN 0-521-78450-6.
Дальнейшее чтение [ править ]
- Shorack, GR; Веллнер, Дж. А. (1986). Эмпирические процессы с приложениями к статистике . Нью-Йорк: Вили. ISBN 0-471-86725-X.
Внешние ссылки [ править ]
- СМИ, связанные с эмпирическими функциями распределения на Викискладе?