В статистике , эмпирическая функция распределения (обычно называемая также эмпирическая функция распределения, eCDF) является функция распределения , связанная с эмпирической мерой в виде образца . Эта кумулятивная функция распределения представляет собой ступенчатую функцию, которая увеличивается на 1 / n в каждой из n точек данных. Его значение при любом заданном значении измеряемой переменной представляет собой долю наблюдений измеряемой переменной, которые меньше или равны заданному значению.
Эмпирическая функция распределения - это оценка кумулятивной функции распределения, которая сгенерировала точки в выборке. Согласно теореме Гливенко – Кантелли, оно сходится с вероятностью 1 к основному распределению . Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к лежащей в основе кумулятивной функции распределения.
Определение
Пусть ( X 1 ,…, X n ) - независимые, одинаково распределенные вещественные случайные величины с общей кумулятивной функцией распределения F ( t ) . Тогда эмпирическая функция распределения определяется как [1] [2]
где является индикатором из событий A . При фиксированном t индикатор- случайная величина Бернулли с параметром p = F ( t ) ; следовательно- биномиальная случайная величина со средним значением nF ( t ) и дисперсией nF ( t ) (1 - F ( t )) . Это означает, чтоявляется несмещенной оценкой для F ( т ) .
Однако в некоторых учебниках это определение приводится как [3] [4]
Иметь в виду
Среднее эмпирического распределения является несмещенной оценкой среднего значения распределения населения.
что чаще обозначается
Дисперсия
Дисперсия эмпирических времен распространения представляет собой объективную оценку дисперсии распределения населения.
Среднеквадратичная ошибка
Среднеквадратичной ошибки для эмпирического распределения заключается в следующем.
Где это оценщик и неизвестный параметр
Квантили
Для любого реального числа обозначение (читать «потолок а») обозначает наименьшее целое число, большее или равное . Для любого действительного числа a обозначение (читать «пол из а») обозначает наибольшее целое число, меньшее или равное .
Если не является целым числом, то -й квантиль уникален и равен
Если целое число, то -й квантиль не уникален и представляет собой любое действительное число такой, что
Эмпирическая медиана
Если нечетно, то эмпирическая медиана - это число
Если четно, то эмпирическая медиана - это число
Асимптотические свойства
Поскольку отношение ( n + 1) / n приближается к 1, когда n стремится к бесконечности, асимптотические свойства двух определений, приведенных выше, одинаковы.
По усиленному закону больших чисел оценкасходится к F ( t ) при n → ∞ почти наверное для любого значения t : [1]
таким образом, оценщик является последовательным . Это выражение утверждает поточечную сходимость эмпирической функции распределения к истинной кумулятивной функции распределения. Существует более сильный результат, называемый теоремой Гливенко – Кантелли , который утверждает, что сходимость на самом деле происходит равномерно по t : [5]
Верхняя норма в этом выражении называется статистикой Колмогорова – Смирнова для проверки согласия между эмпирическим распределениеми предполагается истинный интегральная функция распределения F . Здесь вместо sup-norm можно разумно использовать другие функции norm. Например, L 2 -норма дает статистику Крамера – фон Мизеса .
Асимптотическое распределение можно дополнительно охарактеризовать несколькими различными способами. Во- первых, центральная предельная теорема утверждает , что точечно , имеет асимптотически нормальное распределение со стандартным скорость сходимости: [1]
Этот результат расширяется теоремой Донскера , утверждающей, что эмпирический процесс , рассматриваемая как функция, проиндексированная , Сходится по распределению в пространстве Скорохода к среднему нулю гауссовскому процессу , где B - стандартный броуновский мост . [5] Ковариационная структура этого гауссовского процесса такова:
Равномерная скорость сходимости в теореме Донскера может быть определена количественно с помощью результата, известного как венгерское вложение : [6]
В качестве альтернативы, скорость сходимости также может быть определено количественно в терминах асимптотического поведения sup-нормы этого выражения. Ряд результатов существует в этом месте, например, неравенство Дворецкого – Кифера – Вулфовица дает оценку хвостовых вероятностей: [6]
Фактически Колмогоров показал, что если кумулятивная функция распределения F непрерывна, то выражение сходится по распределению к , Который имеет распределение Колмогорова , которое не зависит от формы F .
Другой результат, который следует из закона повторного логарифма , состоит в том, что [6]
а также
Доверительные интервалы
Согласно неравенству Дворецкого – Кифера – Вулфовица интервал, содержащий истинную CDF,, с вероятностью указывается как
В соответствии с указанными выше границами мы можем построить эмпирические CDF, CDF и доверительные интервалы для различных распределений, используя любую из статистических реализаций. Ниже приводится синтаксис Statsmodel для построения эмпирического распределения.
"" " Эмпирические функции CDF " "" импортировать numpy как np из scipy.interpolate import interp1ddef _conf_set ( F , альфа = 0,05 ): nobs = len ( F ) epsilon = np . sqrt ( np . log ( 2.0 / alpha ) / ( 2 * nobs )) lower = np . clip ( F - эпсилон , 0 , 1 ) верхний = np . clip ( F + epsilon , 0 , 1 ) возвращает нижний , верхнийКласс StepFunction : Защита __init__ ( самостоятельно , х , у , Ival = 0,0 , отсортированный = Ложные , сторона = "влево" ): если сторона . lower () not in [ "right" , "left" ]: msg = "сторона может принимать значения 'right' или 'left'" поднять ValueError ( msg ) self . сторона = сторона _x = np . asarray ( x ) _y = np . asarray ( y ), если _x . форма ! = _y . shape : msg = "x и y не имеют одинаковой формы" вызывать ValueError ( msg ), если len ( _x . shape ) ! = 1 : msg = "x и y должны быть одномерными", повышать ValueError ( msg ) self . х = нп . r_ [ - нп . inf , _x ] сам . y = np . r_ [ ival , _y ], если не отсортировано : asort = np . argsort ( self . x ) self . х = нп . взять ( self . x , asort , 0 ) self . y = np . take ( self . y , asort , 0 ) self . n = себя . х . форма [ 0 ] def __call__ ( сам , время ): tind = np . searchsorted ( self . x , time , self . side ) - 1 возврат self . y [ tind ]класс ECDF ( StepFunction ): def __init__ ( self , x , side = "right" ): x = np . массив ( x , копия = True ) x . sort () nobs = len ( x ) y = np . linspace ( 1.0 / nobs , 1 , nobs ) super ( ECDF , self ) . __init__ ( x , y , side = side , sorted = True )def monotone_fn_inverter ( fn , x , vectorized = True , ** ключевые слова ): x = np . asarray ( x ) при векторизации : y = fn ( x , ** ключевые слова ) else : y = [] для _x в x : y . append ( fn ( _x , ** ключевые слова )) y = np . массив ( y ) a = np . argsort ( y ) return interp1d ( y [ a ], x [ a ])if __name__ == "__main__" : # TODO: Убедитесь, что все правильно выровнено, и выполните # функцию построения из urllib.request import urlopen import matplotlib.pyplot as plt nerve_data = urlopen ( "http://www.statsci.org/data/general/nerve.txt" ) nerve_data = np . loadtxt ( nerve_data ) x = nerve_data / 50.0 # Было за 1/50 секунды cdf = ECDF ( x ) x . sort () F = cdf ( x ) plt . step ( x , F , где = "post" ) lower , upper = _conf_set ( F ) plt . step ( x , lower , "r" , где = "post" ) plt . step ( x , upper , "r" , где = "post" ) plt . xlim ( 0 , 1.5 ) plt . ylim ( 0 , 1.05 ) plt . vlines ( x , 0 , 0,05 ) plt . показать ()
Статистическая реализация
Неполный список программных реализаций функции эмпирического распределения включает:
- В программном обеспечении R мы вычисляем эмпирическую кумулятивную функцию распределения с помощью нескольких методов построения, печати и вычислений с таким объектом «ecdf».
- В Mathworks мы можем использовать график эмпирической кумулятивной функции распределения (cdf)
- jmp из SAS , график CDF создает график эмпирической кумулятивной функции распределения.
- Minitab , создайте эмпирический CDF
- Mathwave , мы можем подогнать распределение вероятностей к нашим данным
- Dataplot , мы можем построить график Empirical CDF
- Scipy , используя scipy.stats, мы можем построить распределение
- Statsmodels , мы можем использовать statsmodels.distributions.empirical_distribution.ECDF
- Matplotlib , мы можем использовать гистограммы для построения кумулятивного распределения
- Seaborn , используя функцию seaborn.ecdfplot
- Excel , мы можем построить эмпирический график CDF
Смотрите также
- Càdlàg функции
- Данные подсчета
- Распределительная арматура
- Неравенство Дворецкого – Кифера – Вулфовица.
- Эмпирическая вероятность
- Эмпирический процесс
- Оценка квантилей по выборке
- Частота (статистика)
- Оценка Каплана – Мейера для цензурированных процессов
- Функция выживания
Рекомендации
- ^ a b c van der Vaart, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 265 . ISBN 0-521-78450-6.
- ^ PlanetMath архивации 9 мая 2013, в Wayback Machine
- ^ Coles, S. (2001) Введение в статистическое моделирование экстремальных значений . Спрингер, стр. 36, определение 2.4. ISBN 978-1-4471-3675-0 .
- ^ Madsen, HO, Krenk, S., Lind, SC (2006) Методы структурной безопасности . Dover Publications. п. 148-149. ISBN 0486445976
- ^ а б ван дер Ваарт, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 266 . ISBN 0-521-78450-6.
- ^ а б в ван дер Ваарт, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 268 . ISBN 0-521-78450-6.
дальнейшее чтение
- Shorack, GR; Веллнер, Дж. А. (1986). Эмпирические процессы с приложениями к статистике . Нью-Йорк: Вили. ISBN 0-471-86725-X.
Внешние ссылки
- СМИ, связанные с эмпирическими функциями распределения на Викискладе?