Эта статья поднимает множество проблем. Пожалуйста, помогите улучшить его или обсудите эти вопросы на странице обсуждения . ( Узнайте, как и когда удалить эти сообщения-шаблоны )
|
В статистике , А доверительный интервал ( ДИ ) является одним из видов оценок вычисляются из наблюдаемых данных. Это дает диапазон значений для неизвестного параметра (например, среднее значение для генеральной совокупности). Интервал имеет связанный уровень достоверности, выбранный исследователем. Для данной оценки в данной выборке использование более высокого уровня достоверности создает более широкий (т. Е. Менее точный) доверительный интервал. В общих чертах, доверительный интервал для неизвестного параметра основан на выборке распределения соответствующей оценки . [1]
Это означает, что уровень достоверности представляет собой теоретическую долгосрочную частоту (т. Е. Долю) доверительных интервалов, которые содержат истинное значение неизвестного параметра совокупности. Другими словами, 90% доверительных интервалов, вычисленных с уровнем достоверности 90%, содержат параметр, 95% доверительных интервалов, вычисленных с уровнем достоверности 95%, содержат параметр, 99% доверительных интервалов, вычисленных с уровнем достоверности 99%, содержат параметр параметр и т. д. [2]
Уровень достоверности обозначается перед исследованием данных. Чаще всего используется доверительный интервал 95%. [3] Однако иногда используются другие уровни достоверности, такие как 90% или 99%.
Факторы, влияющие на ширину доверительного интервала, включают размер выборки, уровень достоверности и изменчивость в выборке. Более крупная выборка, как правило, дает лучшую оценку параметра совокупности, когда все другие факторы равны. Более высокий уровень достоверности, как правило, дает более широкий доверительный интервал.
Другой способ выразить форму доверительного интервала - это набор из двух параметров: (точечная оценка - граница ошибки, точечная оценка + граница ошибки) или символически выраженных как (–EBM, + EBM) , где (точечная оценка) служит оценка m (среднее значение по совокупности), а EBM - это граница ошибки для среднего значения по совокупности. [2]
Предел погрешности (EBM) зависит от уровня достоверности. [2]
Строгое общее определение:
Предположим, что дан набор данных, смоделированный как реализация случайных величин . Пусть будет интересующим параметром и числом от 0 до 1. Если существует статистика выборки и такая, что:
для каждого значения
тогда , где и , называется доверительным интервалом для . Число называется уровнем достоверности . [1]
Интервальную оценку можно сравнить с точечной оценкой . Точечная оценка - это отдельное значение, данное как оценка интересующего параметра совокупности, например, среднее значение некоторой величины. Интервальная оценка вместо этого указывает диапазон, в котором, по оценкам, находится параметр. Доверительные интервалы обычно указываются в таблицах или графиках вместе с точечными оценками тех же параметров, чтобы показать надежность оценок.
Например, доверительный интервал можно использовать для описания надежности результатов опроса. При опросе намерений выборы-голосование может оказаться, что 40% респондентов намереваются голосовать за определенную партию. Доверительный интервал 99% для доли всего населения, имеющей одинаковые намерения в опросе, может составлять от 30% до 50%. Из тех же данных можно рассчитать 90% доверительный интервал, который в этом случае может составлять от 37% до 43%. Основным фактором, определяющим длину доверительного интервала, является размер выборки, используемой в процедуре оценки, например, количество людей, принимающих участие в опросе.
Могут быть даны различные интерпретации доверительного интервала (взяв 90% доверительный интервал в качестве примера ниже).
В каждом из вышеуказанных случаев применяется следующее: если истинное значение параметра лежит за пределами 90% доверительного интервала, то произошло событие выборки (а именно, получение точечной оценки параметра, по крайней мере, так далеко от истинного значения параметра. ) с вероятностью 10% (или меньше) того, что произошло случайно.
Доверительные интервалы и уровни часто понимают неправильно, и опубликованные исследования показали, что даже профессиональные ученые часто неверно их интерпретируют. [7] [8] [9] [10] [11]
«Следует отметить, что в приведенном выше описании утверждения вероятности относятся к проблемам оценки, которыми статистик будет заниматься в будущем. Фактически, я неоднократно заявлял, что частота правильных результатов будет иметь тенденцию к α . теперь случай, когда образец уже взят, и расчеты дали [конкретные пределы]. Можно ли сказать, что в этом конкретном случае вероятность истинного значения [попадания в эти пределы] равна α ? Ответ, очевидно, заключается в отрицательное. Параметр является неизвестной константой, и никакое вероятностное утверждение относительно его значения не может быть сделано ... "
Однако следует подчеркнуть, что, увидев значение [данных], теория Неймана – Пирсона никогда не позволяет сделать вывод, что сформированный конкретный доверительный интервал покрывает истинное значение 0 с любой (1 - α ) 100% вероятностью или (1 - α) 100% степень уверенности. Замечание Зайденфельда, кажется, коренится в (нередком) желании, чтобы доверительные интервалы Неймана – Пирсона обеспечивали то, что они не могут предоставить на законных основаниях; а именно, мера степени вероятности, уверенности или поддержки того, что неизвестное значение параметра находится в определенном интервале. Следуя Сэвиджу (1962), вероятность того, что параметр находится в определенном интервале, может быть названа мерой конечной точности. Хотя мера окончательной точности может показаться желательной, и хотя уровни достоверности часто (ошибочно) интерпретируются как обеспечивающие такую меру, такая интерпретация не является оправданной. По общему признанию, такое неверное толкование поощряется словом «уверенность» ».
Доверительные интервалы были введены в статистику Ежи Нейманом в статье, опубликованной в 1937 году. [15] Однако для точного и регулярного использования доверительных интервалов потребовалось довольно много времени.
В самом раннем современном контролируемом клиническом исследовании медикаментозного лечения острого инсульта , опубликованном Dyken and White в 1959 году, исследователи не смогли отвергнуть нулевую гипотезу об отсутствии эффекта кортизола.при инсульте. Тем не менее, они пришли к выводу, что их испытание «ясно показало отсутствие возможных преимуществ лечения кортизоном». Дайкен и Уайт не рассчитывали доверительные интервалы, которые в то время в медицине были редкостью. Когда Питер Сандеркок переоценил данные в 2015 году, он обнаружил, что 95% доверительный интервал простирается от снижения риска на 12% до увеличения риска на 140%. Таким образом, утверждение авторов не было подтверждено их экспериментом. Сандеркок пришел к выводу, что, особенно в медицинских науках, где наборы данных могут быть небольшими, доверительные интервалы лучше, чем тесты гипотез, для количественной оценки неопределенности в отношении размера и направления эффекта. [16]
Только в 1980-х годах журналы требовали, чтобы в статьях указывались доверительные интервалы и p-значения. К 1992 году неточные оценки все еще были обычным явлением даже для крупных испытаний. Это помешало принять четкое решение относительно нулевой гипотезы. Например, исследование медикаментозного лечения острого инсульта пришло к выводу, что лечение инсульта может снизить или увеличить смертность на 10–20%. Строгий допуск к исследованию привел к непредвиденной ошибке, что еще больше увеличило неопределенность в заключении. Исследования продолжались, и только в 1997 году исследование с огромным пулом выборок и приемлемым доверительным интервалом смогло дать окончательный ответ: терапия кортизолом не снижает риск острого инсульта. [16]
Принцип, лежащий в основе доверительных интервалов, был сформулирован, чтобы дать ответ на вопрос, поднятый при статистическом выводе, о том, как справиться с неопределенностью, присущей результатам, полученным на основе данных, которые сами по себе являются лишь случайно выбранным подмножеством совокупности. Есть и другие ответы, в частности, те, которые дает байесовский вывод в виде достоверных интервалов.. Доверительные интервалы соответствуют выбранному правилу для определения доверительных границ, где это правило по существу определяется до получения каких-либо данных или до проведения эксперимента. Правило определяется таким образом, что среди всех возможных наборов данных, которые могут быть получены, существует высокая вероятность («высокая» конкретно определяется количественно), что интервал, определенный правилом, будет включать истинное значение рассматриваемой величины. Байесовский подход, по-видимому, предлагает интервалы, которые могут, при условии принятия интерпретации «вероятности» как байесовской вероятности., следует интерпретировать как означающее, что определенный интервал, вычисленный на основе данного набора данных, имеет определенную вероятность включения истинного значения в зависимости от данных и другой доступной информации. Подход с использованием доверительного интервала не позволяет этого, поскольку в этой формулировке и на этом же этапе и границы интервала, и истинные значения являются фиксированными значениями, и случайность отсутствует. С другой стороны, байесовский подход действителен ровно настолько, насколько важна априорная вероятность, используемая в вычислениях, тогда как доверительный интервал не зависит от предположений об априорной вероятности.
Вопросы о том, как можно сформулировать интервал, выражающий неопределенность в оценке, и как можно интерпретировать такие интервалы, не являются строго математическими проблемами и представляют собой философские проблемы. [17] Математика может взять верх, как только будут установлены основные принципы подхода к «умозаключениям», но она играет лишь ограниченную роль в объяснении того, почему один подход должен быть предпочтительнее другого: например, уровень достоверности 95% является часто используется в биологических науках , но это вопрос соглашения или арбитража. В физических науках можно использовать гораздо более высокий уровень. [18]
Доверительные интервалы тесно связаны с проверкой статистической значимости . Например, если для некоторого оцененного параметра θ нужно проверить нулевую гипотезу о том, что θ = 0, против альтернативы, что θ ≠ 0, то этот тест можно выполнить, определив, содержит ли доверительный интервал для θ 0.
В более общем плане, учитывая доступность процедуры проверки гипотезы, которая может проверить нулевую гипотезу θ = θ 0 против альтернативы θ ≠ θ 0 для любого значения θ 0 , тогда доверительный интервал с уровнем достоверности γ = 1 - α может быть определяется как содержащее любое число θ 0, для которого соответствующая нулевая гипотеза не отклоняется на уровне значимости α . [19]
Если оценки двух параметров (например, средние значения переменной в двух независимых группах) имеют доверительные интервалы, которые не перекрываются, то разница между двумя значениями более значима, чем разница , указанная отдельными значениями α . [20] Таким образом, этот «тест» слишком консервативен и может привести к результату, более значимому, чем могут показывать отдельные значения α . Если два доверительных интервала перекрываются, два средних значения могут существенно отличаться. [21] [22] [23] Соответственно и в соответствии с критерием хи-квадрат Мантеля-Хензеля, является предлагаемым исправлением, с помощью которого можно уменьшить границы ошибки для двух средних, умножив их на квадратный корень из ½ (0,707107) перед проведением сравнения. [24]
Хотя формулировки понятий доверительных интервалов и проверки статистических гипотез различаются, в некоторых смыслах они связаны и в некоторой степени дополняют друг друга. Хотя не все доверительные интервалы построены таким образом, один общий подход к построению доверительных интервалов состоит в том, чтобы определить доверительный интервал 100 (1 - α )%, состоящий из всех тех значений θ 0, для которых выполняется проверка гипотезы θ = θ. 0не отклоняется на уровне значимости 100α%. Такой подход не всегда может быть доступен, поскольку он предполагает практическую доступность соответствующего критерия значимости. Естественно, любые допущения, необходимые для проверки значимости, будут перенесены в доверительные интервалы.
Может быть удобно сделать общее соответствие, что значения параметров в пределах доверительного интервала эквивалентны тем значениям, которые не будут отклонены при проверке гипотезы, но это было бы опасно. Во многих случаях цитируемые доверительные интервалы действительны только приблизительно, возможно, исходя из «плюс-минус удвоенной стандартной ошибки», и последствия этого для предположительно соответствующих тестов гипотез обычно неизвестны.
Стоит отметить, что доверительный интервал для параметра не совпадает с допустимой областью теста для этого параметра, как иногда думают. Доверительный интервал является частью пространства параметров, тогда как приемлемая область - частью пространства образца. По той же причине уровень достоверности не совпадает с дополнительной вероятностью уровня значимости. [ требуется дальнейшее объяснение ]
Доверительные области обобщают концепцию доверительного интервала для работы с несколькими величинами. Такие регионы могут указывать не только на степень вероятных ошибок выборки, но также могут указывать (например), так ли это, что если оценка для одной величины ненадежна, то другая, вероятно, также будет ненадежной.
Доверительный интервал используется в статистическом анализе , чтобы представлять неопределенность в оценке кривой или функции на основе ограниченных или зашумленных данных. Точно так же диапазон прогнозирования используется для представления неопределенности относительно значения новой точки данных на кривой, но с учетом шума. Полосы уверенности и прогноза часто используются как часть графического представления результатов регрессионного анализа .
Полосы достоверности тесно связаны с доверительными интервалами, которые представляют неопределенность в оценке одного числового значения. «Поскольку доверительные интервалы по своей конструкции относятся только к одной точке, они уже (в этой точке), чем доверительный интервал, который должен удерживаться одновременно во многих точках». [25]
В этом примере предполагается, что образцы взяты из нормального распределения . Основная процедура расчета доверительного интервала для среднего значения генеральной совокупности выглядит следующим образом:
C | г * |
99% | 2,576 |
98% | 2.326 |
95% | 1,96 |
90% | 1,645 |
Доверительные интервалы могут быть рассчитаны с использованием двух разных значений: t-значений или z-значений, как показано в базовом примере выше. Оба значения сведены в таблицы на основе степеней свободы и хвоста распределения вероятностей. Чаще используются z-значения. Это критические значения нормального распределения с вероятностью правого хвоста. Однако t-значения используются, когда размер выборки меньше 30 и стандартное отклонение неизвестно. [1] [28]
Когда дисперсия неизвестна, мы должны использовать другой оценщик: . Это позволяет сформировать распределение, которое зависит только от и плотность которого может быть выражена явно. [1]
Определение: Непрерывная случайная величина имеет t-распределение с параметром m, где - целое число, если ее плотность вероятности дается формулой for , где . Это распределение обозначается и называется t-распределением с m степенями свободы. [1]
Использование таблицы t- распределения [29]
Пусть X - случайная выборка из распределения вероятностей со статистическим параметром θ , который является величиной, которую необходимо оценить, и φ , представляющими величины, которые не представляют непосредственного интереса. Доверительный интервал для параметра & thetas , с уровнем достоверности или доверительным коэффициентом гаммой , представляет собой интервал со случайными конечными точками ( U ( X ), v ( X )), определяемой парой случайных величин ¯u ( X ) и V ( X), со свойством:
Величины φ, которые не представляют непосредственного интереса, называются мешающими параметрами , поскольку статистической теории все еще необходимо найти способ справиться с ними. Число γ с типичными значениями, близкими, но не превышающими 1, иногда задается в форме 1 - α (или в процентах 100% · (1 - α )), где α - небольшое неотрицательное число, близкое к до 0.
Здесь Pr θ , φ указывает распределение вероятностей X, характеризуемое ( θ , φ ). Важной частью этой спецификации является то, что случайный интервал ( u ( X ), v ( X )) покрывает неизвестное значение θ с высокой вероятностью, независимо от того, каково истинное значение θ на самом деле.
Обратите внимание, что здесь Pr θ , φ не обязательно относится к явно заданному параметризованному семейству распределений, хотя это часто бывает. Подобно тому, как случайная величина X условно соответствует другим возможным реализациям x из той же совокупности или из той же версии реальности, параметры ( θ , φ ) указывают, что нам необходимо рассмотреть другие версии реальности, в которых распределение X может имеют разные характеристики.
В конкретной ситуации, когда x является результатом выборки X , интервал ( u ( x ), v ( x )) также называется доверительным интервалом для θ . Обратите внимание, что больше нельзя сказать, что (наблюдаемый) интервал ( u ( x ), v ( x )) имеет вероятность γ содержать параметр θ . Этот наблюдаемый интервал является лишь одной реализацией всех возможных интервалов, для которых выполняется утверждение вероятности.
Во многих приложениях трудно построить доверительные интервалы, которые имеют точно требуемый уровень достоверности. Но практически полезные интервалы все же можно найти: правило построения интервала можно принять как обеспечивающее доверительный интервал на уровне, если
до приемлемого уровня приближения. В качестве альтернативы некоторые авторы [30] просто требуют, чтобы
что полезно, если вероятности определены лишь частично или неточны , а также при работе с дискретными распределениями . Доверительные границы формы и называются консервативными ; [31] соответственно, говорят о консервативных доверительных интервалах и в целом о регионах.
При применении стандартных статистических процедур часто используются стандартные способы построения доверительных интервалов. Они будут разработаны так, чтобы соответствовать определенным желаемым свойствам, которые будут выполняться при условии, что предположения, на которых основана процедура, верны. Эти желательные свойства могут быть описаны как достоверность, оптимальность и инвариантность. Из них наиболее важна «достоверность», за которой следует «оптимальность». «Инвариантность» можно рассматривать как свойство метода получения доверительного интервала, а не правила построения интервала. В нестандартных приложениях требуются те же желаемые свойства.
Для нестандартных приложений существует несколько путей, которые можно использовать для получения правила построения доверительных интервалов. Установленные правила для стандартных процедур можно обосновать или объяснить несколькими из этих способов. Обычно правило построения доверительных интервалов тесно связано с конкретным способом нахождения точечной оценки рассматриваемой величины.
Медицинские исследования часто оценивают эффекты вмешательства или воздействия на определенную популяцию. [33] Обычно исследователи определяют значимость эффектов на основе p-значения; однако в последнее время возникла потребность в дополнительной статистической информации, чтобы обеспечить более надежную основу для оценок. [33] Один из способов решить эту проблему - также требовать отчета о доверительном интервале. Ниже приведены два примера того, как доверительные интервалы используются и используются для исследования.
В исследовании 2004 года Бритон и его коллеги провели исследование по оценке связи бесплодия с раком яичников. Отношение заболеваемости 1,98 было зарегистрировано для 95% доверительного интервала (ДИ) с диапазоном отношения от 1,4 до 2,6. [34] В статье приводятся следующие статистические данные: «(стандартизованный коэффициент заболеваемости = 1,98; 95% ДИ 1,4–2,6)». [34] Это означает, что, согласно исследованной выборке, у бесплодных женщин заболеваемость раком яичников в 1,98 раза выше, чем у бесплодных женщин. Кроме того, это также означает, что мы на 95% уверены в том, что истинный коэффициент заболеваемости среди всего бесплодного женского населения находится в диапазоне от 1,4 до 2,6. [34]В целом, доверительный интервал предоставил больше статистической информации, поскольку он сообщил о минимальных и максимальных эффектах, которые могут произойти для изучаемой переменной, при этом предоставляя информацию о значимости наблюдаемых эффектов. [33]
В исследовании 2018 года распространенность и бремя заболевания атопическим дерматитом среди взрослого населения США были изучены с использованием 95% доверительных интервалов. [35] Сообщалось, что среди 1278 участвовавших взрослых распространенность атопического дерматита составляла 7,3% (5,9–8,8). [35] Кроме того, у 60,1% (56,1–64,1) участников был атопический дерматит легкой степени, в то время как у 28,9% (25,3–32,7) была умеренная, а у 11% (8,6–13,7) - тяжелая. [35] Исследование подтвердило высокую распространенность и бремя заболеваний атопическим дерматитом среди населения.
Предположим, что { X 1 ,…, X n } является независимой выборкой из нормально распределенной совокупности с неизвестным ( параметрами ) средним μ и дисперсией σ 2 . Позволять
Где X - выборочное среднее , а S 2 - выборочная дисперсия . потом
имеет Стьюдента т распределение с п - 1 степенями свободы. [36] Отметим, что распределение T не зависит от значений ненаблюдаемых параметров μ и σ 2 ; т.е. это основная величина . Предположим, мы хотим рассчитать 95% доверительный интервал для μ . Затем, обозначив c как 97,5-й процентиль этого распределения,
Обратите внимание, что «97,5» и «0,95» верны в предыдущих выражениях. Существует вероятность 2,5%, что будет меньше, и вероятность 2,5%, что она будет больше, чем . Таким образом, вероятность того, что будет между и, составляет 95%.
Как следствие,
и у нас есть теоретический (стохастический) 95% доверительный интервал для μ .
После наблюдения за образцом мы находим значения x для X и s для S , из которых вычисляем доверительный интервал
интервал с фиксированными числами в качестве конечных точек, о котором мы уже не можем сказать, что существует определенная вероятность, что он содержит параметр μ ; либо μ находится в этом интервале, либо нет.
Доверительные интервалы - это один из методов интервальной оценки , наиболее широко используемый в частотной статистике . Аналогичная концепция в байесовской статистике - это достоверные интервалы , в то время как альтернативный частотный метод - это метод прогнозирования интервалов, которые вместо оценки параметров оценивают результат будущих выборок. Для других подходов к выражению неопределенности с помощью интервалов см. Интервальную оценку .
Интервал предсказания для случайной величины определяется аналогично доверительного интервала для статистического параметра . Рассмотрим дополнительную случайную величину Y , которые могут или не могут быть статистически зависит от случайной выборки X . Тогда ( у ( х ), v ( Х )) обеспечивает интервал предсказания для пока еще, чтобы быть наблюдаемое значение у из Y , если
Здесь Pr θ , φ обозначает совместное распределение вероятностей случайных величин ( X , Y ), где это распределение зависит от статистических параметров ( θ , φ ).
Оценка байесовского интервала называется достоверным интервалом . Используя во многом те же обозначения, что и выше, определение вероятного интервала для неизвестного истинного значения θ для данного γ : [37]
Здесь Θ используется, чтобы подчеркнуть, что неизвестное значение θ рассматривается как случайная величина. Определения двух типов интервалов можно сравнить следующим образом.
Обратите внимание, что обработка вышеупомянутых мешающих параметров часто опускается в обсуждениях, сравнивающих достоверность и достоверные интервалы, но она заметно различается между двумя случаями.
В некоторых случаях доверительный интервал и вероятный интервал, вычисленные для данного параметра с использованием данного набора данных, идентичны. Но в других случаях они могут сильно отличаться, особенно если информативная априорная информация включена в байесовский анализ .
Существуют разногласия относительно того, какой из этих методов дает наиболее полезные результаты: математика вычислений редко подвергается сомнению - доверительные интервалы основаны на выборочных распределениях, достоверные интервалы основаны на теореме Байеса - но применение этих методов дает полезность и интерпретация произведенной статистики, обсуждается. [ необходима цитата ]
Приблизительный доверительный интервал для среднего значения совокупности может быть построен для случайных величин, которые обычно не распределяются в совокупности, на основе центральной предельной теоремы , если размеры выборки и количество достаточно велики. Формулы идентичны приведенному выше случаю (где выборочное среднее фактически нормально распределяется относительно среднего генерального значения). Аппроксимация будет достаточно хорошей, если в выборке будет всего несколько десятков наблюдений, если распределение вероятностей случайной величины не слишком отличается от нормального распределения (например, ее кумулятивная функция распределения не имеет разрывов и ее асимметрия умеренная).
Один из типов выборочного среднего - это среднее значение индикаторной переменной., который принимает значение 1 за истину и значение 0 за ложь. Среднее значение такой переменной равно доле, в которой переменная равна единице (как в генеральной совокупности, так и в любой выборке). Это полезное свойство индикаторных переменных, особенно для проверки гипотез. Чтобы применить центральную предельную теорему, необходимо использовать достаточно большую выборку. Приблизительное эмпирическое правило состоит в том, что нужно видеть как минимум 5 случаев, когда показатель равен 1 и как минимум 5 случаев, когда он равен 0. Доверительные интервалы, построенные с использованием приведенных выше формул, могут включать отрицательные числа или числа больше 1, но пропорции, очевидно, не может быть отрицательным или превышать 1. Кроме того, пропорции выборки могут принимать только конечное число значений, поэтому центральная предельная теорема и нормальное распределение не являются лучшими инструментами для построения доверительного интервала. Видеть "Доверительный интервал биномиальной пропорции »для лучших методов, специфичных для этого случая.
С тех пор, как была предложена теория доверительных интервалов, был разработан ряд контрпримеров теории, чтобы показать, как интерпретация доверительных интервалов может быть проблематичной, по крайней мере, если интерпретировать их наивно.
Велч [38] представил пример, который ясно показывает разницу между теорией доверительных интервалов и другими теориями интервальной оценки (включая фидуциальные интервалы Фишера и объективные байесовские интервалы). Робинсон [39] назвал этот пример «[п] возможно, самым известным контрпримером для версии теории доверительных интервалов Неймана». Для Уэлча это показало превосходство теории доверительного интервала; критикам теории она показывает недостаток. Здесь мы представляем упрощенную версию.
Предположим, что это независимые наблюдения из равномерного ( θ - 1/2, θ + 1/2) распределения. Тогда оптимальная 50% доверительная процедура [40] является
Фидуциальный или объективный байесовский аргумент может использоваться для получения интервальной оценки.
что также является процедурой с доверительной вероятностью 50%. Уэлч показал, что первая доверительная процедура преобладает над второй, согласно требованиям теории доверительных интервалов; для каждого вероятность того, что первая процедура содержит , меньше или равна вероятности, содержащейся во второй процедуре . Средняя ширина интервалов у первой процедуры меньше, чем у второй. Следовательно, первая процедура предпочтительнее в рамках классической теории доверительных интервалов.
Однако, когда интервалы из первой процедуры гарантированно содержат истинное значение : Следовательно, номинальный 50% доверительный коэффициент не связан с неопределенностью, которую мы должны иметь, чтобы конкретный интервал содержал истинное значение. Вторая процедура не обладает этим свойством.
Более того, когда первая процедура генерирует очень короткий интервал, это указывает на то, что они находятся очень близко друг к другу и, следовательно, предлагают информацию только в одной точке данных. Но первый интервал исключит практически все разумные значения параметра из-за его малой ширины. Вторая процедура не обладает этим свойством.
Два противоречащих интуиции свойства первой процедуры - 100% покрытие, когда они далеко друг от друга, и почти 0% покрытие, когда они расположены близко друг к другу - уравновешиваются, давая в среднем 50% покрытие. Однако, несмотря на то, что первая процедура является оптимальной, ее интервалы не дают ни оценки точности оценки, ни оценки неопределенности, необходимой для того, чтобы интервал содержал истинное значение.
Этот контрпример используется для аргументации против наивных интерпретаций доверительных интервалов. Если утверждается, что доверительная процедура имеет свойства, выходящие за рамки номинального покрытия (например, отношение к точности или отношение с байесовским выводом), эти свойства должны быть доказаны; они не вытекают из того факта, что процедура является процедурой доверия.
Steiger [41] предложил ряд доверительных процедур для общих мер размера эффекта в ANOVA . Morey et al. [12] отмечают, что некоторые из этих доверительных процедур, в том числе процедура для ω 2 , обладают тем свойством, что по мере того, как статистика F становится все более маленькой, что указывает на несоответствие всем возможным значениям ω 2, доверительный интервал сокращается и может даже содержать только единственное значение ω 2 = 0; то есть CI бесконечно узкий (это происходит, когда для CI).
Такое поведение согласуется с взаимосвязью между процедурой достоверности и проверкой значимости: поскольку F становится настолько малым, что средние значения группы оказываются намного ближе друг к другу, чем мы могли бы случайно ожидать, проверка значимости может указывать на отклонение для большинства или всех значений ω 2 . Следовательно, интервал будет очень узким или даже пустым (или, по соглашению, предложенному Штейгером, содержащим только 0). Однако это не означает, что оценка ω 2 очень точна. В некотором смысле это указывает на обратное: достоверность самих результатов может быть под сомнением. Это противоречит общепринятой интерпретации доверительных интервалов, согласно которым они показывают точность оценки.
Викискладе есть медиафайлы по теме « Доверительный интервал» . |