В статистике , кумулятивная функция распределения (CDF) основа непараметрические доверительные интервалы являются общим классом доверительных интервалов вокруг статистических функционалов от распределения. Чтобы вычислить эти доверительные интервалы, все, что требуется, - это независимо и идентично распределенная (iid) выборка из распределения и известные границы поддержки распределения. Последнее требование просто означает, что вся ненулевая вероятностная масса распределения должна содержаться в некотором известном интервале..
Интуиция
Интуиция, лежащая в основе подхода, основанного на CDF, заключается в том, что границы CDF распределения могут быть переведены в границы статистических функционалов этого распределения. Учитывая верхнюю и нижнюю границы CDF, подход включает нахождение функций CDF в пределах, которые максимизируют и минимизируют интересующий статистический функционал.
Свойства границ
В отличие от подходов, которые делают асимптотические предположения, включая подходы бутстрапа и те, которые полагаются на центральную предельную теорему , границы на основе CDF действительны для конечных размеров выборки. И в отличие от оценок, основанных на неравенствах, таких как неравенства Хёффдинга и МакДиармида , границы на основе CDF используют свойства всей выборки и, таким образом, часто дают значительно более жесткие границы.
Границы CDF
При создании границ CDF мы должны различать поточечные и одновременные диапазоны .
Точечная полоса
Поточечное CDF связан один , который гарантирует только их вероятность охвата впроцентов по любой отдельной точке эмпирического CDF. Из-за ослабленных гарантий эти интервалы могут быть намного меньше.
Один из методов их создания основан на биномиальном распределении. Рассмотрение единственной точки CDF ценности, то эмпирическое распределение в этой точке будет распределено пропорционально биномиальному распределению с а также установить равным количеству выборок в эмпирическом распределении. Таким образом, любой из методов, доступных для генерации доверительного интервала биномиальной пропорции, также может быть использован для генерации границы CDF.
Синхронный диапазон
Доверительные интервалы, основанные на CDF, требуют вероятностной границы для CDF распределения, из которого была сгенерирована выборка. Существует множество методов для генерации доверительных интервалов для CDF распределения,, учитывая образец идентификатора, взятый из распределения. Все эти методы основаны на эмпирической функции распределения (эмпирической функции распределения ). Учитывая образец идентификатора размера n ,, эмпирический CDF определяется как
где является индикатором событий А. Тем самым Дворецкого-Kiefer-Вольфовица неравенства , [1] которого плотно константа была определена Massart, [2] помещает доверительный интервал вокруг статистики Колмогорова-Смирнова между ВПР и эмпирической КОР. Учитывая образец идентификатора размера n из, связанные состояния
Это можно рассматривать как доверительный интервал, который проходит параллельно эмпирической CDF и находится в равной степени выше и ниже нее.
Равномерно распределенный доверительный интервал вокруг эмпирического CDF допускает разную частоту нарушений в рамках поддержки распределения. В частности, CDF чаще оказывается за пределами границы CDF, оцененной с использованием неравенства Дворецкого – Кифера – Вулфовица вблизи медианы распределения, чем вблизи конечных точек распределения. Напротив, основанная на статистике порядка оценка, введенная Леннед-Миллером и ДеСтефано [3], допускает равную скорость нарушения по всей статистике порядка. Это, в свою очередь, приводит к тому, что граница становится более тугой у концов опоры распределения и более рыхлой в середине опоры. Другие типы границ могут быть сгенерированы путем изменения скорости нарушения статистики порядка. Например, если желательна более жесткая граница распределения в верхней части опоры, может быть допущена более высокая степень нарушения в верхней части опоры за счет более низкой скорости нарушения и, следовательно, более свободной граница, для нижней части опоры.
Непараметрическая оценка среднего
Без ограничения общности предположим, что носитель распределения содержится в Учитывая конверт уверенности для CDF легко получить соответствующий доверительный интервал для среднего значения . Можно показать [4], что функция CDF, которая максимизирует среднее значение, является той, которая проходит по нижнему доверительному диапазону,, а функция CDF, которая минимизирует среднее значение, - это функция, которая проходит по верхней оболочке, . Использование идентичности
доверительный интервал для среднего может быть вычислен как
Непараметрическая оценка дисперсии
Без ограничения общности предположим, что поддержка распределения процентов, , содержится в . Учитывая конверт уверенности дляможно показать [5], что функция CDF внутри огибающей, которая минимизирует дисперсию, начинается с нижней огибающей, имеет скачкообразный переход к верхней огибающей, а затем продолжается вдоль верхней огибающей. Кроме того, можно показать, что эта функция CDF, минимизирующая дисперсию, F ', должна удовлетворять ограничению, согласно которому скачок скачка возникает при. CDF, максимизирующий дисперсию, начинается с верхнего конверта, горизонтально переходит к нижнему конверту, а затем продолжается вдоль нижнего конверта. Явные алгоритмы для вычисления этих максимизирующих дисперсию и минимизирующих CDF даны Романо и Вольфом. [5]
Оценки других статистических функционалов
Основанная на CDF структура для генерации доверительных интервалов является очень общей и может применяться к множеству других статистических функционалов, включая
- Энтропия [3]
- Взаимная информация [6]
- Произвольные процентили
Смотрите также
Рекомендации
- ^ А., Дворецкий; Kiefer, J .; Вулфовиц, Дж. (1956). «Асимптотический минимаксный характер выборочной функции распределения и классической полиномиальной оценки» . Летопись математической статистики . 27 (3): 642–669. DOI : 10.1214 / АОМ / 1177728174 .
- ^ Массарт, П. (1990). «Точная постоянная в неравенстве Дворецкого – Кифера – Вулфовица» . Летопись вероятности . 18 (3): 1269–1283. DOI : 10.1214 / AOP / 1176990746 .
- ^ а б Learned-Miller, E .; ДеСтефано, Дж. (2008). «Вероятностная оценка сверху дифференциальной энтропии». IEEE Transactions по теории информации . 54 (11): 5223–5230. arXiv : cs / 0504091 . DOI : 10,1109 / tit.2008.929937 .
- ^ Андерсон, TW (1969). «Пределы уверенности для значения произвольной ограниченной случайной величины с непрерывной функцией распределения». Вестник Международного статистического института . 43 : 249–251.
- ^ а б Романо, JP; М., Вольф (2002). «Явные непараметрические доверительные интервалы для дисперсии с гарантированным покрытием». Коммуникации в статистике - теория и методы . 31 (8): 1231–1250. CiteSeerX 10.1.1.202.3170 . DOI : 10,1081 / STA-120006065 .
- ^ ВандерКраац, Н.Д .; Банерджи, А. (2011). «Конечная выборка, без распределения, вероятностная нижняя граница взаимной информации». Нейронные вычисления . 23 (7): 1862–1898. DOI : 10.1162 / neco_a_00144 . PMID 21492010 .