Непараметрический доверительный интервал на основе CDF

В статистике , кумулятивная функция распределения (CDF) основа непараметрические доверительные интервалы являются общим классом доверительных интервалов вокруг статистических функционалов от распределения. Чтобы вычислить эти доверительные интервалы, все, что требуется, - это независимо и идентично распределенная (iid) выборка из распределения и известные границы поддержки распределения. Последнее требование просто означает, что вся ненулевая вероятностная масса распределения должна содержаться в некотором известном интервале. ${\ Displaystyle [а, б]}$ .

Интуиция

Интуиция, лежащая в основе подхода, основанного на CDF, заключается в том, что границы CDF распределения могут быть переведены в границы статистических функционалов этого распределения. Учитывая верхнюю и нижнюю границы CDF, подход включает нахождение функций CDF в пределах, которые максимизируют и минимизируют интересующий статистический функционал.

Свойства границ

В отличие от подходов, которые делают асимптотические предположения, включая подходы бутстрапа и те, которые полагаются на центральную предельную теорему , границы на основе CDF действительны для конечных размеров выборки. И в отличие от оценок, основанных на неравенствах, таких как неравенства Хёффдинга и МакДиармида , границы на основе CDF используют свойства всей выборки и, таким образом, часто дают значительно более жесткие границы.

Границы CDF

При создании границ CDF мы должны различать поточечные и одновременные диапазоны .

Иллюстрация различных границ CDF. Это показывает границы CDF, сгенерированные из случайной выборки из 30 точек. Фиолетовая линия - это одновременные границы DKW, которые охватывают всю CDF с доверительной вероятностью 95%. Оранжевые линии показывают точечные границы Клоппера-Пирсона, которые гарантируют только отдельные точки с уровнем достоверности 95% и, таким образом, обеспечивают более жесткую границу.

Точечная полоса

Поточечное CDF связан один , который гарантирует только их вероятность охвата в ${\ displaystyle 1- \ alpha}$ процентов по любой отдельной точке эмпирического CDF. Из-за ослабленных гарантий эти интервалы могут быть намного меньше.

Один из методов их создания основан на биномиальном распределении. Рассмотрение единственной точки CDF ценности ${\ Displaystyle F (x_ {i})}$ , то эмпирическое распределение в этой точке будет распределено пропорционально биномиальному распределению с ${\ displaystyle p = F (x_ {i})}$ а также ${\ displaystyle n}$ установить равным количеству выборок в эмпирическом распределении. Таким образом, любой из методов, доступных для генерации доверительного интервала биномиальной пропорции, также может быть использован для генерации границы CDF.

Синхронный диапазон

Доверительные интервалы, основанные на CDF, требуют вероятностной границы для CDF распределения, из которого была сгенерирована выборка. Существует множество методов для генерации доверительных интервалов для CDF распределения, ${\ displaystyle F}$ , учитывая образец идентификатора, взятый из распределения. Все эти методы основаны на эмпирической функции распределения (эмпирической функции распределения ). Учитывая образец идентификатора размера n , ${\ displaystyle x_ {1}, \ ldots, x_ {n} \ sim F}$ , эмпирический CDF определяется как

{\ displaystyle {\ hat {F}} _ {n} (t) = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} 1 \ {x_ {i} \ leq t \},}

где ${\ displaystyle 1 \ {A \}}$ является индикатором событий А. Тем самым Дворецкого-Kiefer-Вольфовица неравенства , ^[1] которого плотно константа была определена Massart, ^[2] помещает доверительный интервал вокруг статистики Колмогорова-Смирнова между ВПР и эмпирической КОР. Учитывая образец идентификатора размера n из ${\ displaystyle F}$ , связанные состояния

{\ Displaystyle P (\ sup _ {x} | F (x) -F_ {n} (x) |> \ varepsilon) \ leq 2e ^ {- 2n \ varepsilon ^ {2}}.}

Это можно рассматривать как доверительный интервал, который проходит параллельно эмпирической CDF и находится в равной степени выше и ниже нее.

Иллюстрация оценки эмпирической CDF, полученной с помощью неравенства Дворецкого – Кифера – Вулфовица. Обозначение

{\ displaystyle X _ {(j)}}

указывает на

{\ displaystyle j ^ {\ text {th}}}

статистика заказов .

Равномерно распределенный доверительный интервал вокруг эмпирического CDF допускает разную частоту нарушений в рамках поддержки распределения. В частности, CDF чаще оказывается за пределами границы CDF, оцененной с использованием неравенства Дворецкого – Кифера – Вулфовица вблизи медианы распределения, чем вблизи конечных точек распределения. Напротив, основанная на статистике порядка оценка, введенная Леннед-Миллером и ДеСтефано ^[3], допускает равную скорость нарушения по всей статистике порядка. Это, в свою очередь, приводит к тому, что граница становится более тугой у концов опоры распределения и более рыхлой в середине опоры. Другие типы границ могут быть сгенерированы путем изменения скорости нарушения статистики порядка. Например, если желательна более жесткая граница распределения в верхней части опоры, может быть допущена более высокая степень нарушения в верхней части опоры за счет более низкой скорости нарушения и, следовательно, более свободной граница, для нижней части опоры.

Непараметрическая оценка среднего

Без ограничения общности предположим, что носитель распределения содержится в ${\ displaystyle [0,1].}$ Учитывая конверт уверенности для CDF ${\ displaystyle F}$ легко получить соответствующий доверительный интервал для среднего значения ${\ displaystyle F}$ . Можно показать ^[4], что функция CDF, которая максимизирует среднее значение, является той, которая проходит по нижнему доверительному диапазону, ${\ Displaystyle L (х)}$ , а функция CDF, которая минимизирует среднее значение, - это функция, которая проходит по верхней оболочке, ${\ Displaystyle U (х)}$ . Использование идентичности

{\ Displaystyle E (X) = \ int _ {0} ^ {1} (1-F (x)) \, dx,}

доверительный интервал для среднего может быть вычислен как

{\ displaystyle \ left [\ int _ {0} ^ {1} (1-U (x)) \, dx, \ int _ {0} ^ {1} (1-L (x)) \, dx \ верно].}

Непараметрическая оценка дисперсии

Без ограничения общности предположим, что поддержка распределения процентов, ${\ displaystyle F}$ , содержится в ${\ displaystyle [0,1]}$ . Учитывая конверт уверенности для ${\ displaystyle F}$ можно показать ^[5], что функция CDF внутри огибающей, которая минимизирует дисперсию, начинается с нижней огибающей, имеет скачкообразный переход к верхней огибающей, а затем продолжается вдоль верхней огибающей. Кроме того, можно показать, что эта функция CDF, минимизирующая дисперсию, F ', должна удовлетворять ограничению, согласно которому скачок скачка возникает при ${\ displaystyle E [F ']}$ . CDF, максимизирующий дисперсию, начинается с верхнего конверта, горизонтально переходит к нижнему конверту, а затем продолжается вдоль нижнего конверта. Явные алгоритмы для вычисления этих максимизирующих дисперсию и минимизирующих CDF даны Романо и Вольфом. ^[5]

Оценки других статистических функционалов

Основанная на CDF структура для генерации доверительных интервалов является очень общей и может применяться к множеству других статистических функционалов, включая

Энтропия ^[3]
Взаимная информация ^[6]
Произвольные процентили