Доверительный интервал

Эта статья поднимает множество проблем. Пожалуйста, помогите улучшить его или обсудите эти вопросы на странице обсуждения . ( Узнайте, как и когда удалить эти сообщения-шаблоны )

Эта статья требует внимания специалиста по статистике . Конкретная проблема: многие возвраты и исправления указывают на необходимость тщательной проверки языка статьи. WikiProject Statistics может помочь нанять эксперта. ( Ноябрь 2018 г. )

Эта статья может сбивать с толку или непонятна читателям . Помогите, пожалуйста, прояснить статью . На странице обсуждения может быть обсуждение этого вопроса . ( Сентябрь 2020 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Фактическая точность этой статьи оспаривается . Соответствующее обсуждение можно найти на странице обсуждения . Пожалуйста, помогите обеспечить надежный источник спорных заявлений . ( Сентябрь 2020 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Эта статья может быть слишком технической, чтобы ее могло понять большинство читателей . Пожалуйста, помогите улучшить его, чтобы он был понятен неспециалистам , не удаляя технические детали. ( Март 2021 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

( Узнайте, как и когда удалить этот шаблон сообщения )

В статистике , А доверительный интервал ( ДИ ) является одним из видов оценок вычисляются из наблюдаемых данных. Это дает диапазон значений для неизвестного параметра (например, среднее значение для генеральной совокупности). Интервал имеет связанный уровень достоверности, выбранный исследователем. Для данной оценки в данной выборке использование более высокого уровня достоверности создает более широкий (т. Е. Менее точный) доверительный интервал. В общих чертах, доверительный интервал для неизвестного параметра основан на выборке распределения соответствующей оценки . ^[1]

Это означает, что уровень достоверности представляет собой теоретическую долгосрочную частоту (т. Е. Долю) доверительных интервалов, которые содержат истинное значение неизвестного параметра совокупности. Другими словами, 90% доверительных интервалов, вычисленных с уровнем достоверности 90%, содержат параметр, 95% доверительных интервалов, вычисленных с уровнем достоверности 95%, содержат параметр, 99% доверительных интервалов, вычисленных с уровнем достоверности 99%, содержат параметр параметр и т. д. ^[2]

Уровень достоверности обозначается перед исследованием данных. Чаще всего используется доверительный интервал 95%. ^[3] Однако иногда используются другие уровни достоверности, такие как 90% или 99%.

Факторы, влияющие на ширину доверительного интервала, включают размер выборки, уровень достоверности и изменчивость в выборке. Более крупная выборка, как правило, дает лучшую оценку параметра совокупности, когда все другие факторы равны. Более высокий уровень достоверности, как правило, дает более широкий доверительный интервал.

Другой способ выразить форму доверительного интервала - это набор из двух параметров: (точечная оценка - граница ошибки, точечная оценка + граница ошибки) или символически выраженных как (–EBM, + EBM) , где (точечная оценка) служит оценка m (среднее значение по совокупности), а EBM - это граница ошибки для среднего значения по совокупности. ^[2]

Предел погрешности (EBM) зависит от уровня достоверности. ^[2]

Строгое общее определение:

Предположим, что дан набор данных, смоделированный как реализация случайных величин . Пусть будет интересующим параметром и числом от 0 до 1. Если существует статистика выборки и такая, что: $x_{1},\ldots ,x_{n}$ $X_{1},\ldots ,X_{n}$ $\theta$ $\gamma$ $L_{n}=g(X_{1},\ldots ,X_{n})$ $U_{n}=h(X_{1},\ldots ,X_{n})$

$P(L_{n}<\theta <U_{n})=\gamma$ для каждого значения $\theta$

тогда , где и , называется доверительным интервалом для . Число называется уровнем достоверности . ^[1] $(l_{n},u_{n})$ $l_{n}=g(x_{1},\ldots ,x_{n})$ $u_{n}=h(x_{1},\ldots ,x_{n})$ $\gamma \times 100\%$ $\theta$ $\gamma$

Концептуальная основа

На этой гистограмме верхние концы коричневых столбцов обозначают наблюдаемые средние значения, а сегменты красной линии («столбики ошибок») представляют собой доверительные интервалы вокруг них. Хотя планки погрешностей показаны симметрично относительно средних, это не всегда так. На большинстве графиков планки ошибок не представляют доверительные интервалы (например, они часто представляют стандартные ошибки или стандартные отклонения ).

Вступление

Интервальную оценку можно сравнить с точечной оценкой . Точечная оценка - это отдельное значение, данное как оценка интересующего параметра совокупности, например, среднее значение некоторой величины. Интервальная оценка вместо этого указывает диапазон, в котором, по оценкам, находится параметр. Доверительные интервалы обычно указываются в таблицах или графиках вместе с точечными оценками тех же параметров, чтобы показать надежность оценок.

Например, доверительный интервал можно использовать для описания надежности результатов опроса. При опросе намерений выборы-голосование может оказаться, что 40% респондентов намереваются голосовать за определенную партию. Доверительный интервал 99% для доли всего населения, имеющей одинаковые намерения в опросе, может составлять от 30% до 50%. Из тех же данных можно рассчитать 90% доверительный интервал, который в этом случае может составлять от 37% до 43%. Основным фактором, определяющим длину доверительного интервала, является размер выборки, используемой в процедуре оценки, например, количество людей, принимающих участие в опросе.

Значение и толкование

Могут быть даны различные интерпретации доверительного интервала (взяв 90% доверительный интервал в качестве примера ниже).

Доверительный интервал может быть выражен в единицах выборок (или повторных выборок ): « Если бы эту процедуру повторили на множестве выборок, доля рассчитанных доверительных интервалов (которые были бы разными для каждой выборки), которые охватывают параметр истинной генеральной совокупности, будет иметь тенденцию к 90% ». ^[4]
Доверительный интервал может быть выражен в терминах одной выборки: « Существует 90% -ная вероятность того, что рассчитанный доверительный интервал из какого-то будущего эксперимента охватывает истинное значение параметра совокупности». Это утверждение о вероятности доверительного интервала, а не о параметре совокупности. При этом рассматривается вероятность, связанная с доверительным интервалом с предэкспериментальной точки зрения, в том же контексте, в котором приводятся аргументы в пользу случайного распределения обработок по элементам исследования. Здесь экспериментатор излагает способ, которым они намереваются вычислить доверительный интервал, и знать, прежде чем они проведут фактический эксперимент, что интервал, который они будут вычислять, имеет особый шанс покрыть истинное, но неизвестное значение.^[5] Это очень похоже на интерпретацию «повторяющейся выборки», приведенной выше, за исключением того, что она избегает полагаться на рассмотрение гипотетических повторов процедуры выборки, которые могут быть неповторимыми в каком-либо значимом смысле. См. Конструкцию Неймана .
Объяснение доверительного интервала может быть примерно таким: « Доверительный интервал представляет значения для параметра совокупности, для которых разница между параметром и наблюдаемой оценкой не является статистически значимой на уровне 10% ». ^[6] Эта интерпретация распространена в научных статьях, в которых для подтверждения своих экспериментов используются доверительные интервалы, хотя чрезмерная зависимость от доверительных интервалов также может вызвать проблемы .

В каждом из вышеуказанных случаев применяется следующее: если истинное значение параметра лежит за пределами 90% доверительного интервала, то произошло событие выборки (а именно, получение точечной оценки параметра, по крайней мере, так далеко от истинного значения параметра. ) с вероятностью 10% (или меньше) того, что произошло случайно.

Недоразумения

Доверительные интервалы и уровни часто понимают неправильно, и опубликованные исследования показали, что даже профессиональные ученые часто неверно их интерпретируют. ^[7]^[8]^[9]^[10]^[11]

Уровень достоверности 95% не означает, что для данного реализованного интервала существует 95% -ная вероятность того, что параметр совокупности находится в пределах интервала (т. Е. 95% -ная вероятность того, что интервал охватывает параметр совокупности). ^[12] Согласно строгой частотной интерпретации, после вычисления интервала этот интервал либо покрывает значение параметра, либо нет; это уже не вопрос вероятности. Вероятность 95% относится к надежности процедуры оценки, а не к конкретному расчетному интервалу. ^[13] Сам Нейман (первоначальный сторонник доверительных интервалов) указал на это в своей оригинальной статье: ^[5]
«Следует отметить, что в приведенном выше описании утверждения вероятности относятся к проблемам оценки, которыми статистик будет заниматься в будущем. Фактически, я неоднократно заявлял, что частота правильных результатов будет иметь тенденцию к α . теперь случай, когда образец уже взят, и расчеты дали [конкретные пределы]. Можно ли сказать, что в этом конкретном случае вероятность истинного значения [попадания в эти пределы] равна α ? Ответ, очевидно, заключается в отрицательное. Параметр является неизвестной константой, и никакое вероятностное утверждение относительно его значения не может быть сделано ... "

Дебора Мэйо развивает это далее следующим образом: ^[14]

Однако следует подчеркнуть, что, увидев значение [данных], теория Неймана – Пирсона никогда не позволяет сделать вывод, что сформированный конкретный доверительный интервал покрывает истинное значение 0 с любой (1 - α ) 100% вероятностью или (1 - α) 100% степень уверенности. Замечание Зайденфельда, кажется, коренится в (нередком) желании, чтобы доверительные интервалы Неймана – Пирсона обеспечивали то, что они не могут предоставить на законных основаниях; а именно, мера степени вероятности, уверенности или поддержки того, что неизвестное значение параметра находится в определенном интервале. Следуя Сэвиджу (1962), вероятность того, что параметр находится в определенном интервале, может быть названа мерой конечной точности. Хотя мера окончательной точности может показаться желательной, и хотя уровни достоверности часто (ошибочно) интерпретируются как обеспечивающие такую меру, такая интерпретация не является оправданной. По общему признанию, такое неверное толкование поощряется словом «уверенность» ».

Уровень достоверности 95% не означает, что 95% данных выборки находятся в пределах доверительного интервала.
Доверительный интервал не является окончательным диапазоном вероятных значений параметра выборки, хотя его можно понимать как оценку вероятных значений параметра совокупности.
Конкретный уровень достоверности 95%, рассчитанный на основе эксперимента, не означает, что существует 95% вероятность того, что параметр выборки из повторения эксперимента попадет в этот интервал. ^[11]

История

Доверительные интервалы были введены в статистику Ежи Нейманом в статье, опубликованной в 1937 году. ^[15] Однако для точного и регулярного использования доверительных интервалов потребовалось довольно много времени.

В самом раннем современном контролируемом клиническом исследовании медикаментозного лечения острого инсульта , опубликованном Dyken and White в 1959 году, исследователи не смогли отвергнуть нулевую гипотезу об отсутствии эффекта кортизола.при инсульте. Тем не менее, они пришли к выводу, что их испытание «ясно показало отсутствие возможных преимуществ лечения кортизоном». Дайкен и Уайт не рассчитывали доверительные интервалы, которые в то время в медицине были редкостью. Когда Питер Сандеркок переоценил данные в 2015 году, он обнаружил, что 95% доверительный интервал простирается от снижения риска на 12% до увеличения риска на 140%. Таким образом, утверждение авторов не было подтверждено их экспериментом. Сандеркок пришел к выводу, что, особенно в медицинских науках, где наборы данных могут быть небольшими, доверительные интервалы лучше, чем тесты гипотез, для количественной оценки неопределенности в отношении размера и направления эффекта. ^[16]

Только в 1980-х годах журналы требовали, чтобы в статьях указывались доверительные интервалы и p-значения. К 1992 году неточные оценки все еще были обычным явлением даже для крупных испытаний. Это помешало принять четкое решение относительно нулевой гипотезы. Например, исследование медикаментозного лечения острого инсульта пришло к выводу, что лечение инсульта может снизить или увеличить смертность на 10–20%. Строгий допуск к исследованию привел к непредвиденной ошибке, что еще больше увеличило неопределенность в заключении. Исследования продолжались, и только в 1997 году исследование с огромным пулом выборок и приемлемым доверительным интервалом смогло дать окончательный ответ: терапия кортизолом не снижает риск острого инсульта. ^[16]

Философские вопросы

Принцип, лежащий в основе доверительных интервалов, был сформулирован, чтобы дать ответ на вопрос, поднятый при статистическом выводе, о том, как справиться с неопределенностью, присущей результатам, полученным на основе данных, которые сами по себе являются лишь случайно выбранным подмножеством совокупности. Есть и другие ответы, в частности, те, которые дает байесовский вывод в виде достоверных интервалов.. Доверительные интервалы соответствуют выбранному правилу для определения доверительных границ, где это правило по существу определяется до получения каких-либо данных или до проведения эксперимента. Правило определяется таким образом, что среди всех возможных наборов данных, которые могут быть получены, существует высокая вероятность («высокая» конкретно определяется количественно), что интервал, определенный правилом, будет включать истинное значение рассматриваемой величины. Байесовский подход, по-видимому, предлагает интервалы, которые могут, при условии принятия интерпретации «вероятности» как байесовской вероятности., следует интерпретировать как означающее, что определенный интервал, вычисленный на основе данного набора данных, имеет определенную вероятность включения истинного значения в зависимости от данных и другой доступной информации. Подход с использованием доверительного интервала не позволяет этого, поскольку в этой формулировке и на этом же этапе и границы интервала, и истинные значения являются фиксированными значениями, и случайность отсутствует. С другой стороны, байесовский подход действителен ровно настолько, насколько важна априорная вероятность, используемая в вычислениях, тогда как доверительный интервал не зависит от предположений об априорной вероятности.

Вопросы о том, как можно сформулировать интервал, выражающий неопределенность в оценке, и как можно интерпретировать такие интервалы, не являются строго математическими проблемами и представляют собой философские проблемы. ^[17] Математика может взять верх, как только будут установлены основные принципы подхода к «умозаключениям», но она играет лишь ограниченную роль в объяснении того, почему один подход должен быть предпочтительнее другого: например, уровень достоверности 95% является часто используется в биологических науках , но это вопрос соглашения или арбитража. В физических науках можно использовать гораздо более высокий уровень. ^[18]

Связь с другими статистическими темами

Статистическая проверка гипотез

Доверительные интервалы тесно связаны с проверкой статистической значимости . Например, если для некоторого оцененного параметра θ нужно проверить нулевую гипотезу о том, что θ = 0, против альтернативы, что θ ≠ 0, то этот тест можно выполнить, определив, содержит ли доверительный интервал для θ 0.

В более общем плане, учитывая доступность процедуры проверки гипотезы, которая может проверить нулевую гипотезу θ = θ ₀ против альтернативы θ ≠ θ ₀ для любого значения θ ₀ , тогда доверительный интервал с уровнем достоверности γ = 1 - α может быть определяется как содержащее любое число θ _0, для которого соответствующая нулевая гипотеза не отклоняется на уровне значимости α . ^[19]

Если оценки двух параметров (например, средние значения переменной в двух независимых группах) имеют доверительные интервалы, которые не перекрываются, то разница между двумя значениями более значима, чем разница , указанная отдельными значениями α . ^[20] Таким образом, этот «тест» слишком консервативен и может привести к результату, более значимому, чем могут показывать отдельные значения α . Если два доверительных интервала перекрываются, два средних значения могут существенно отличаться. ^[21]^[22]^[23] Соответственно и в соответствии с критерием хи-квадрат Мантеля-Хензеля, является предлагаемым исправлением, с помощью которого можно уменьшить границы ошибки для двух средних, умножив их на квадратный корень из ½ (0,707107) перед проведением сравнения. ^[24]

Хотя формулировки понятий доверительных интервалов и проверки статистических гипотез различаются, в некоторых смыслах они связаны и в некоторой степени дополняют друг друга. Хотя не все доверительные интервалы построены таким образом, один общий подход к построению доверительных интервалов состоит в том, чтобы определить доверительный интервал 100 (1 - α )%, состоящий из всех тех значений θ _0, для которых выполняется проверка гипотезы θ = θ. ₀не отклоняется на уровне значимости 100α%. Такой подход не всегда может быть доступен, поскольку он предполагает практическую доступность соответствующего критерия значимости. Естественно, любые допущения, необходимые для проверки значимости, будут перенесены в доверительные интервалы.

Может быть удобно сделать общее соответствие, что значения параметров в пределах доверительного интервала эквивалентны тем значениям, которые не будут отклонены при проверке гипотезы, но это было бы опасно. Во многих случаях цитируемые доверительные интервалы действительны только приблизительно, возможно, исходя из «плюс-минус удвоенной стандартной ошибки», и последствия этого для предположительно соответствующих тестов гипотез обычно неизвестны.

Стоит отметить, что доверительный интервал для параметра не совпадает с допустимой областью теста для этого параметра, как иногда думают. Доверительный интервал является частью пространства параметров, тогда как приемлемая область - частью пространства образца. По той же причине уровень достоверности не совпадает с дополнительной вероятностью уровня значимости. ^{[ требуется дальнейшее объяснение ]}

Доверительный регион

Доверительные области обобщают концепцию доверительного интервала для работы с несколькими величинами. Такие регионы могут указывать не только на степень вероятных ошибок выборки, но также могут указывать (например), так ли это, что если оценка для одной величины ненадежна, то другая, вероятно, также будет ненадежной.

Группа уверенности

Доверительный интервал используется в статистическом анализе , чтобы представлять неопределенность в оценке кривой или функции на основе ограниченных или зашумленных данных. Точно так же диапазон прогнозирования используется для представления неопределенности относительно значения новой точки данных на кривой, но с учетом шума. Полосы уверенности и прогноза часто используются как часть графического представления результатов регрессионного анализа .

Полосы достоверности тесно связаны с доверительными интервалами, которые представляют неопределенность в оценке одного числового значения. «Поскольку доверительные интервалы по своей конструкции относятся только к одной точке, они уже (в этой точке), чем доверительный интервал, который должен удерживаться одновременно во многих точках». ^[25]

Основные шаги

В этом примере предполагается, что образцы взяты из нормального распределения . Основная процедура расчета доверительного интервала для среднего значения генеральной совокупности выглядит следующим образом:

Определить выборочное среднее, . ${\bar {x}}$
Определите, известно ли стандартное отклонение генеральной совокупности или оно неизвестно и оценивается с помощью стандартного отклонения выборки . $\sigma$ $s$
- Если стандартное отклонение населения известно тогда , когда это уровень доверия и является ВПР из стандартного нормального распределения , используются в качестве критического значения. Это значение зависит только от уровня достоверности теста. Типичные двусторонние уровни достоверности: ^[26] ${\textstyle z^{*}=\Phi ^{-1}\left(1-{\frac {\alpha }{2}}\right)=-\Phi ^{-1}\left({\frac {\alpha }{2}}\right)}$ $C=100(1-\alpha )\%$ $\Phi$
  C г *
  99% 2,576
  98% 2.326
  95% 1,96
  90% 1,645
- Если стандартное отклонение населения неизвестно , то в Стьюденте т распределение используется в качестве критического значения. Это значение зависит от уровня достоверности (C) теста и степеней свободы. Степени свободы находятся путем вычитания единицы из числа наблюдений, n - 1. Критическое значение находится из таблицы t-распределения. В этой таблице критическое значение записано как , где - степени свободы и . $t^{*}=t_{\alpha }(r)$ $r$ ${\textstyle \alpha ={1-C \over 2}}$
Подставьте найденные значения в соответствующие уравнения:
- Для известного стандартного отклонения: $\left({\bar {x}}-z^{*}{\sigma \over {\sqrt {n}}},{\bar {x}}+z^{*}{\sigma \over {\sqrt {n}}}\right)$
- Для неизвестного стандартного отклонения: ^[27] $\left({\bar {x}}-t^{*}{s \over {\sqrt {n}}},{\bar {x}}+t^{*}{s \over {\sqrt {n}}}\right)$

Нормальное распределение: графическое представление разбивки доверительных интервалов и отношения доверительных интервалов к z- и t-баллам.

Значение t-таблиц и z-таблиц

Доверительные интервалы могут быть рассчитаны с использованием двух разных значений: t-значений или z-значений, как показано в базовом примере выше. Оба значения сведены в таблицы на основе степеней свободы и хвоста распределения вероятностей. Чаще используются z-значения. Это критические значения нормального распределения с вероятностью правого хвоста. Однако t-значения используются, когда размер выборки меньше 30 и стандартное отклонение неизвестно. ^[1]^[28]

Когда дисперсия неизвестна, мы должны использовать другой оценщик: . Это позволяет сформировать распределение, которое зависит только от и плотность которого может быть выражена явно. ^[1] $S_{n}$ $n$

Определение: Непрерывная случайная величина имеет t-распределение с параметром m, где - целое число, если ее плотность вероятности дается формулой for , где . Это распределение обозначается и называется t-распределением с m степенями свободы. ^[1] $m\geq 1$ ${\textstyle f(x)=\left(k_{m}\left(1+{\frac {x^{2}}{m}}\right)\right)^{\frac {-m+1}{2}}}$ $-\infty <x<\infty$ ${\textstyle k_{m}={\frac {\Gamma \left({\frac {m+1}{2}}\right)}{{\sqrt {m\pi }}\,\Gamma \left({\frac {m}{2}}\right)}}}$ $t(m)$

Пример

Использование таблицы t- распределения ^[29]

Найдите степени свободы (df) по размеру выборки:
Если размер выборки = 10, df = 9.
Вычтите доверительный интервал (CL) из 1, а затем разделите его на два. Это значение альфа-уровня. (альфа + CL = 1)
Посмотрите df и alpha в таблице t-распределения. Для df = 9 и альфа = 0,01 таблица дает значение 2,821. Это значение, полученное из таблицы, является t-баллом.

Статистическая теория

Определение

Пусть X - случайная выборка из распределения вероятностей со статистическим параметром θ , который является величиной, которую необходимо оценить, и φ , представляющими величины, которые не представляют непосредственного интереса. Доверительный интервал для параметра & thetas , с уровнем достоверности или доверительным коэффициентом гаммой , представляет собой интервал со случайными конечными точками ( U ( X ), v ( X )), определяемой парой случайных величин ¯u ( X ) и V ( X), со свойством:

{\Pr }_{\theta ,\phi }(u(X)<\theta <v(X))=\gamma {\text{ for all }}(\theta ,\phi ).

Величины φ, которые не представляют непосредственного интереса, называются мешающими параметрами , поскольку статистической теории все еще необходимо найти способ справиться с ними. Число γ с типичными значениями, близкими, но не превышающими 1, иногда задается в форме 1 - α (или в процентах 100% · (1 - α )), где α - небольшое неотрицательное число, близкое к до 0.

Здесь Pr _{θ , φ} указывает распределение вероятностей X, характеризуемое ( θ , φ ). Важной частью этой спецификации является то, что случайный интервал ( u ( X ), v ( X )) покрывает неизвестное значение θ с высокой вероятностью, независимо от того, каково истинное значение θ на самом деле.

Обратите внимание, что здесь Pr _{θ , φ} не обязательно относится к явно заданному параметризованному семейству распределений, хотя это часто бывает. Подобно тому, как случайная величина X условно соответствует другим возможным реализациям x из той же совокупности или из той же версии реальности, параметры ( θ , φ ) указывают, что нам необходимо рассмотреть другие версии реальности, в которых распределение X может имеют разные характеристики.

В конкретной ситуации, когда x является результатом выборки X , интервал ( u ( x ), v ( x )) также называется доверительным интервалом для θ . Обратите внимание, что больше нельзя сказать, что (наблюдаемый) интервал ( u ( x ), v ( x )) имеет вероятность γ содержать параметр θ . Этот наблюдаемый интервал является лишь одной реализацией всех возможных интервалов, для которых выполняется утверждение вероятности.

Примерные доверительные интервалы

Во многих приложениях трудно построить доверительные интервалы, которые имеют точно требуемый уровень достоверности. Но практически полезные интервалы все же можно найти: правило построения интервала можно принять как обеспечивающее доверительный интервал на уровне, если $\gamma$

{\Pr }_{\theta ,\phi }(u(X)<\theta <v(X))\approx \gamma {\text{ for all }}(\theta ,\phi )\,

до приемлемого уровня приближения. В качестве альтернативы некоторые авторы ^[30] просто требуют, чтобы

{\Pr }_{\theta ,\phi }(u(X)<\theta <v(X))\geq \gamma {\text{ for all }}(\theta ,\phi )\,

что полезно, если вероятности определены лишь частично или неточны , а также при работе с дискретными распределениями . Доверительные границы формы и называются консервативными ; ^[31] соответственно, говорят о консервативных доверительных интервалах и в целом о регионах. ${\Pr }_{\theta ,\phi }(u(X)<\theta )\geq \gamma$ ${\Pr }_{\theta ,\phi }(\theta <v(X))\geq \gamma$

Желательные свойства

При применении стандартных статистических процедур часто используются стандартные способы построения доверительных интервалов. Они будут разработаны так, чтобы соответствовать определенным желаемым свойствам, которые будут выполняться при условии, что предположения, на которых основана процедура, верны. Эти желательные свойства могут быть описаны как достоверность, оптимальность и инвариантность. Из них наиболее важна «достоверность», за которой следует «оптимальность». «Инвариантность» можно рассматривать как свойство метода получения доверительного интервала, а не правила построения интервала. В нестандартных приложениях требуются те же желаемые свойства.

Срок действия. Это означает, что номинальная вероятность охвата (доверительный уровень) доверительного интервала должна соблюдаться либо точно, либо с хорошим приближением.
Оптимальность. Это означает, что правило построения доверительного интервала должно максимально использовать информацию из набора данных. Напомним, что можно выбросить половину набора данных и все же получить допустимый доверительный интервал. Один из способов оценки оптимальности - это длина интервала, так что правило построения доверительного интервала оценивается лучше, чем другое, если оно приводит к интервалам, длина которых обычно короче.
Инвариантность. Во многих приложениях оцениваемое количество не может быть точно определено как таковое. Например, опрос может привести к оценке среднего дохода населения, но в равной степени его можно также рассматривать как оценку логарифма среднего дохода, учитывая, что это обычная шкала для представления графических результатов. Было бы желательно, чтобы метод, используемый для построения доверительного интервала для медианного дохода, давал эквивалентные результаты при применении к построению доверительного интервала для логарифма медианного дохода: в частности, значения на концах последнего интервала были бы логарифмами. значений на концах предыдущего интервала.

Методы вывода

Для нестандартных приложений существует несколько путей, которые можно использовать для получения правила построения доверительных интервалов. Установленные правила для стандартных процедур можно обосновать или объяснить несколькими из этих способов. Обычно правило построения доверительных интервалов тесно связано с конкретным способом нахождения точечной оценки рассматриваемой величины.

Сводные статистические данные

Это тесно связано с методом оценки моментов . Возникает простой пример, когда оцениваемая величина является средним значением, и в этом случае естественной оценкой является выборочное среднее. Обычные аргументы указывают на то, что дисперсию выборки можно использовать для оценки дисперсии выборочного среднего. Доверительный интервал для истинного среднего может быть построен на основе выборочного среднего с шириной, кратной квадратному корню из выборочной дисперсии.

Теория правдоподобия

Если оценки строятся с использованием принципа максимального правдоподобия , теория для этого предоставляет два способа построения доверительных интервалов или доверительных областей для оценок. Один из способов - использовать теорему Уилкса, чтобы найти все возможные значения, которые удовлетворяют следующему ограничению: ^[32]

\theta

\ln(L(\theta ))\geq \ln(L({\hat {\theta }}))-{\frac {1}{2}}\chi _{1,1-\alpha }^{2}

Оценочные уравнения: Подход к оценке здесь можно рассматривать как обобщение метода моментов и как обобщение подхода максимального правдоподобия. Существуют соответствующие обобщения результатов теории максимального правдоподобия, которые позволяют строить доверительные интервалы на основе оценок, полученных из оценочных уравнений . ^{[ требуется разъяснение ]}
Проверка гипотезы: Если доступны тесты значимости для общих значений параметра, то доверительные интервалы / области могут быть построены путем включения в 100 p % доверительную область всех тех точек, для которых выполняется проверка значимости нулевой гипотезы о том, что истинным значением является данное значение. не отклонено на уровне значимости (1 - p ). ^[19]
Начальная загрузка: В ситуациях, когда предположения о распределении для вышеупомянутых методов являются неопределенными или нарушаются, методы повторной выборки позволяют построить доверительные интервалы или интервалы прогнозирования. Наблюдаемое распределение данных и внутренние корреляции используются в качестве суррогата корреляций в более широкой популяции.

Примеры

Медицинские примеры

Медицинские исследования часто оценивают эффекты вмешательства или воздействия на определенную популяцию. ^[33] Обычно исследователи определяют значимость эффектов на основе p-значения; однако в последнее время возникла потребность в дополнительной статистической информации, чтобы обеспечить более надежную основу для оценок. ^[33] Один из способов решить эту проблему - также требовать отчета о доверительном интервале. Ниже приведены два примера того, как доверительные интервалы используются и используются для исследования.

В исследовании 2004 года Бритон и его коллеги провели исследование по оценке связи бесплодия с раком яичников. Отношение заболеваемости 1,98 было зарегистрировано для 95% доверительного интервала (ДИ) с диапазоном отношения от 1,4 до 2,6. ^[34] В статье приводятся следующие статистические данные: «(стандартизованный коэффициент заболеваемости = 1,98; 95% ДИ 1,4–2,6)». ^[34] Это означает, что, согласно исследованной выборке, у бесплодных женщин заболеваемость раком яичников в 1,98 раза выше, чем у бесплодных женщин. Кроме того, это также означает, что мы на 95% уверены в том, что истинный коэффициент заболеваемости среди всего бесплодного женского населения находится в диапазоне от 1,4 до 2,6. ^[34]В целом, доверительный интервал предоставил больше статистической информации, поскольку он сообщил о минимальных и максимальных эффектах, которые могут произойти для изучаемой переменной, при этом предоставляя информацию о значимости наблюдаемых эффектов. ^[33]

В исследовании 2018 года распространенность и бремя заболевания атопическим дерматитом среди взрослого населения США были изучены с использованием 95% доверительных интервалов. ^[35] Сообщалось, что среди 1278 участвовавших взрослых распространенность атопического дерматита составляла 7,3% (5,9–8,8). ^[35] Кроме того, у 60,1% (56,1–64,1) участников был атопический дерматит легкой степени, в то время как у 28,9% (25,3–32,7) была умеренная, а у 11% (8,6–13,7) - тяжелая. ^[35] Исследование подтвердило высокую распространенность и бремя заболеваний атопическим дерматитом среди населения.

Теоретический пример

Предположим, что { X ₁ ,…, X _n } является независимой выборкой из нормально распределенной совокупности с неизвестным ( параметрами ) средним μ и дисперсией σ ² . Позволять

{\bar {X}}=(X_{1}+\cdots +X_{n})/n\,,

S^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\bar {X}}\,)^{2}.

Где X - выборочное среднее , а S ² - выборочная дисперсия . потом

T={\frac {{\bar {X}}-\mu }{S/{\sqrt {n}}}}

имеет Стьюдента т распределение с п - 1 степенями свободы. ^[36] Отметим, что распределение T не зависит от значений ненаблюдаемых параметров μ и σ ² ; т.е. это основная величина . Предположим, мы хотим рассчитать 95% доверительный интервал для μ . Затем, обозначив c как 97,5-й процентиль этого распределения,

\Pr(-c\leq T\leq c)=0.95\,

Обратите внимание, что «97,5» и «0,95» верны в предыдущих выражениях. Существует вероятность 2,5%, что будет меньше, и вероятность 2,5%, что она будет больше, чем . Таким образом, вероятность того, что будет между и, составляет 95%. $T$ $-$ $c$ $+$ $c$ $T$ $-$ $c$ $+$ $c$

Как следствие,

\Pr \left({\bar {X}}-{\frac {cS}{\sqrt {n}}}\leq \mu \leq {\bar {X}}+{\frac {cS}{\sqrt {n}}}\right)=0.95\,

и у нас есть теоретический (стохастический) 95% доверительный интервал для μ .

После наблюдения за образцом мы находим значения x для X и s для S , из которых вычисляем доверительный интервал

\left[{\bar {x}}-{\frac {cs}{\sqrt {n}}},{\bar {x}}+{\frac {cs}{\sqrt {n}}}\right],\,

интервал с фиксированными числами в качестве конечных точек, о котором мы уже не можем сказать, что существует определенная вероятность, что он содержит параметр μ ; либо μ находится в этом интервале, либо нет.

Альтернативы и критика

Доверительные интервалы - это один из методов интервальной оценки , наиболее широко используемый в частотной статистике . Аналогичная концепция в байесовской статистике - это достоверные интервалы , в то время как альтернативный частотный метод - это метод прогнозирования интервалов, которые вместо оценки параметров оценивают результат будущих выборок. Для других подходов к выражению неопределенности с помощью интервалов см. Интервальную оценку .

Сравнение с интервалами прогноза

Интервал предсказания для случайной величины определяется аналогично доверительного интервала для статистического параметра . Рассмотрим дополнительную случайную величину Y , которые могут или не могут быть статистически зависит от случайной выборки X . Тогда ( у ( х ), v ( Х )) обеспечивает интервал предсказания для пока еще, чтобы быть наблюдаемое значение у из Y , если

{\Pr }_{\theta ,\varphi }(u(X)<Y<v(X))=\gamma {\text{ for all }}(\theta ,\varphi ).\,

Здесь Pr _{θ , φ} обозначает совместное распределение вероятностей случайных величин ( X , Y ), где это распределение зависит от статистических параметров ( θ , φ ).

Сравнение с байесовскими интервальными оценками

Оценка байесовского интервала называется достоверным интервалом . Используя во многом те же обозначения, что и выше, определение вероятного интервала для неизвестного истинного значения θ для данного γ : ^[37]

\Pr(u(x)<\Theta <v(x)\mid X=x)=\gamma .

Здесь Θ используется, чтобы подчеркнуть, что неизвестное значение θ рассматривается как случайная величина. Определения двух типов интервалов можно сравнить следующим образом.

Определение доверительного интервала включает вероятности, вычисленные из распределения X для заданного ( θ , φ ) (или условного от этих значений), и условие должно выполняться для всех значений ( θ , φ ).
Определение вероятного интервала включает вероятности, вычисленные из распределения, обусловленного наблюдаемыми значениями X = x и маргинализованными (или усредненными) по значениям Φ, где эта последняя величина является случайной величиной, соответствующей неопределенности относительно неприятностей. параметры в φ .

Обратите внимание, что обработка вышеупомянутых мешающих параметров часто опускается в обсуждениях, сравнивающих достоверность и достоверные интервалы, но она заметно различается между двумя случаями.

В некоторых случаях доверительный интервал и вероятный интервал, вычисленные для данного параметра с использованием данного набора данных, идентичны. Но в других случаях они могут сильно отличаться, особенно если информативная априорная информация включена в байесовский анализ .

Существуют разногласия относительно того, какой из этих методов дает наиболее полезные результаты: математика вычислений редко подвергается сомнению - доверительные интервалы основаны на выборочных распределениях, достоверные интервалы основаны на теореме Байеса - но применение этих методов дает полезность и интерпретация произведенной статистики, обсуждается. ^{[ необходима цитата ]}

Доверительные интервалы для пропорций и связанных количеств

Приблизительный доверительный интервал для среднего значения совокупности может быть построен для случайных величин, которые обычно не распределяются в совокупности, на основе центральной предельной теоремы , если размеры выборки и количество достаточно велики. Формулы идентичны приведенному выше случаю (где выборочное среднее фактически нормально распределяется относительно среднего генерального значения). Аппроксимация будет достаточно хорошей, если в выборке будет всего несколько десятков наблюдений, если распределение вероятностей случайной величины не слишком отличается от нормального распределения (например, ее кумулятивная функция распределения не имеет разрывов и ее асимметрия умеренная).

Один из типов выборочного среднего - это среднее значение индикаторной переменной., который принимает значение 1 за истину и значение 0 за ложь. Среднее значение такой переменной равно доле, в которой переменная равна единице (как в генеральной совокупности, так и в любой выборке). Это полезное свойство индикаторных переменных, особенно для проверки гипотез. Чтобы применить центральную предельную теорему, необходимо использовать достаточно большую выборку. Приблизительное эмпирическое правило состоит в том, что нужно видеть как минимум 5 случаев, когда показатель равен 1 и как минимум 5 случаев, когда он равен 0. Доверительные интервалы, построенные с использованием приведенных выше формул, могут включать отрицательные числа или числа больше 1, но пропорции, очевидно, не может быть отрицательным или превышать 1. Кроме того, пропорции выборки могут принимать только конечное число значений, поэтому центральная предельная теорема и нормальное распределение не являются лучшими инструментами для построения доверительного интервала. Видеть "Доверительный интервал биномиальной пропорции »для лучших методов, специфичных для этого случая.

Контрпримеры

С тех пор, как была предложена теория доверительных интервалов, был разработан ряд контрпримеров теории, чтобы показать, как интерпретация доверительных интервалов может быть проблематичной, по крайней мере, если интерпретировать их наивно.

Доверительная процедура для единообразной локации

Велч ^[38] представил пример, который ясно показывает разницу между теорией доверительных интервалов и другими теориями интервальной оценки (включая фидуциальные интервалы Фишера и объективные байесовские интервалы). Робинсон ^[39] назвал этот пример «[п] возможно, самым известным контрпримером для версии теории доверительных интервалов Неймана». Для Уэлча это показало превосходство теории доверительного интервала; критикам теории она показывает недостаток. Здесь мы представляем упрощенную версию.

Предположим, что это независимые наблюдения из равномерного ( θ - 1/2, θ + 1/2) распределения. Тогда оптимальная 50% доверительная процедура ^[40] является $X_{1},X_{2}$

{\bar {X}}\pm {\begin{cases}{\dfrac {|X_{1}-X_{2}|}{2}}&{\text{if }}|X_{1}-X_{2}|<1/2\\[8pt]{\dfrac {1-|X_{1}-X_{2}|}{2}}&{\text{if }}|X_{1}-X_{2}|\geq 1/2.\end{cases}}

Фидуциальный или объективный байесовский аргумент может использоваться для получения интервальной оценки.

{\bar {X}}\pm {\frac {1-|X_{1}-X_{2}|}{4}},

что также является процедурой с доверительной вероятностью 50%. Уэлч показал, что первая доверительная процедура преобладает над второй, согласно требованиям теории доверительных интервалов; для каждого вероятность того, что первая процедура содержит , меньше или равна вероятности, содержащейся во второй процедуре . Средняя ширина интервалов у первой процедуры меньше, чем у второй. Следовательно, первая процедура предпочтительнее в рамках классической теории доверительных интервалов. $\theta _{1}\neq \theta$ $\theta _{1}$ $\theta _{1}$

Однако, когда интервалы из первой процедуры гарантированно содержат истинное значение : Следовательно, номинальный 50% доверительный коэффициент не связан с неопределенностью, которую мы должны иметь, чтобы конкретный интервал содержал истинное значение. Вторая процедура не обладает этим свойством. $|X_{1}-X_{2}|\geq 1/2$ $\theta$

Более того, когда первая процедура генерирует очень короткий интервал, это указывает на то, что они находятся очень близко друг к другу и, следовательно, предлагают информацию только в одной точке данных. Но первый интервал исключит практически все разумные значения параметра из-за его малой ширины. Вторая процедура не обладает этим свойством. $X_{1},X_{2}$

Два противоречащих интуиции свойства первой процедуры - 100% покрытие, когда они далеко друг от друга, и почти 0% покрытие, когда они расположены близко друг к другу - уравновешиваются, давая в среднем 50% покрытие. Однако, несмотря на то, что первая процедура является оптимальной, ее интервалы не дают ни оценки точности оценки, ни оценки неопределенности, необходимой для того, чтобы интервал содержал истинное значение. $X_{1},X_{2}$ $X_{1},X_{2}$

Этот контрпример используется для аргументации против наивных интерпретаций доверительных интервалов. Если утверждается, что доверительная процедура имеет свойства, выходящие за рамки номинального покрытия (например, отношение к точности или отношение с байесовским выводом), эти свойства должны быть доказаны; они не вытекают из того факта, что процедура является процедурой доверия.

Доверительная процедура для ω ²

Steiger ^[41] предложил ряд доверительных процедур для общих мер размера эффекта в ANOVA . Morey et al. ^[12] отмечают, что некоторые из этих доверительных процедур, в том числе процедура для ω ² , обладают тем свойством, что по мере того, как статистика F становится все более маленькой, что указывает на несоответствие всем возможным значениям ω ^2, доверительный интервал сокращается и может даже содержать только единственное значение ω ² = 0; то есть CI бесконечно узкий (это происходит, когда для CI). $p\geq 1-\alpha /2$ $100(1-\alpha )\%$

Такое поведение согласуется с взаимосвязью между процедурой достоверности и проверкой значимости: поскольку F становится настолько малым, что средние значения группы оказываются намного ближе друг к другу, чем мы могли бы случайно ожидать, проверка значимости может указывать на отклонение для большинства или всех значений ω ² . Следовательно, интервал будет очень узким или даже пустым (или, по соглашению, предложенному Штейгером, содержащим только 0). Однако это не означает, что оценка ω ² очень точна. В некотором смысле это указывает на обратное: достоверность самих результатов может быть под сомнением. Это противоречит общепринятой интерпретации доверительных интервалов, согласно которым они показывают точность оценки.

Смотрите также

Непараметрический доверительный интервал на основе кумулятивной функции распределения
Верхние пределы CL (физика частиц)
Распределение уверенности
Доверие (статистика)
Панель ошибок
Статистика оценок
p-значение
Надежные доверительные интервалы
Доверительный регион
Достоверный интервал