Доверительный интервал


В частотной статистике доверительный интервал ( ДИ ) — это диапазон оценок неизвестного параметра , определяемый как интервал с нижней границей и верхней границей (несмотря на односторонние доверительные интервалы, которые ограничены только с одной стороны). Интервал вычисляется на заданном доверительном уровне . Доверительный уровень 95% является наиболее распространенным, но иногда используются и другие уровни (например, 90% или 99%). [1] [2] Доверительный уровень представляет долгосрочную частотудоверительных интервалов, содержащих истинное значение параметра. Другими словами, 95 % доверительных интервалов, рассчитанных при уровне достоверности 95 %, содержат этот параметр, и то же самое для других уровней достоверности. [3]

Факторы, влияющие на ширину ДИ, включают уровень достоверности, размер выборки и изменчивость выборки. [4] Большие выборки дают более узкие доверительные интервалы, когда все остальные факторы равны. Большая изменчивость в выборке дает более широкие доверительные интервалы, когда все остальные факторы равны. Более высокий уровень достоверности дает более широкие доверительные интервалы, когда все остальные факторы равны. [5]

Пусть X будет случайной выборкой из распределения вероятностей со статистическим параметром θ , который является оцениваемой величиной, и φ , представляющим величины, которые не представляют непосредственного интереса. Доверительный интервал для параметра θ с уровнем достоверности или коэффициентом достоверности γ представляет собой интервал со случайными конечными точками ( u ( X ),  v ( X )), определяемый парой случайных величин u ( X ) и v ( X), со свойством:

Число γ с типичными значениями, близкими к 1, но не превышающими его, иногда задается в виде 1 −  α (или в процентах 100%·(1 −  α )), где α — небольшое неотрицательное число, наиболее обычно 0,05.

Здесь Pr θ , φ указывает на распределение вероятностей X , характеризуемое ( θφ ). Важной частью этой спецификации является то, что случайный интервал ( u ( X ),  v ( X )) покрывает неизвестное значение θ с вероятностью γ независимо от того, каково истинное значение θ на самом деле. Невозможно узнать, покрывает ли (включает) индивидуальный доверительный интервал θ. Однако процедура гарантирует (если выполняются статистические допущения), что каждый раз, когда мы собираем случайную выборку для оценки параметра, у нас есть вероятность γ того, что вычисляемый нами доверительный интервал покроет θ . [2]

Во многих приложениях трудно построить доверительные интервалы, которые имеют точно требуемый уровень достоверности, но можно вычислить приблизительные интервалы. Правило построения интервала может быть принято как обеспечивающее доверительный интервал на уровне , если


Каждая строка точек является выборкой из одного и того же нормального распределения. Цветные линии представляют собой 50% доверительные интервалы для среднего значения µ . В центре каждого интервала находится выборочное среднее, отмеченное ромбом. Синие интервалы содержат среднее значение, а красные — нет.
На этой гистограмме верхние концы коричневых столбцов указывают наблюдаемые средние значения, а сегменты красной линии (« столбики погрешностей ») представляют собой доверительные интервалы вокруг них. Хотя планки погрешностей показаны симметричными относительно средних значений, это не всегда так. На большинстве графиков планки погрешностей не представляют собой доверительные интервалы (например, они часто представляют собой стандартные ошибки или стандартные отклонения).