Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике и, в частности, в статистической теории , объективная оценка стандартного отклонения - это вычисление на основе статистической выборки оценочного значения стандартного отклонения (меры статистической дисперсии ) совокупности значений таким образом, чтобы ожидаемое значение расчета равняется истинному значению. За исключением некоторых важных ситуаций, описанных ниже, задача не имеет большого отношения к приложениям статистики, поскольку ее необходимость устраняется стандартными процедурами, такими как использование критериев значимости и доверительных интервалов , или использованиеБайесовский анализ .

Однако для статистической теории он представляет собой образец проблемы в контексте теории оценивания, которую легко сформулировать и по которой результаты не могут быть получены в закрытой форме. В нем также приводится пример, в котором навязывание требования объективной оценки может рассматриваться как добавление неудобств без реальной выгоды.

Фон [ править ]

В статистических данных , то стандартное отклонение популяции чисел часто оцениваются из случайной выборки , проведенной из популяции. Это стандартное отклонение выборки, которое определяется как

где - выборка (формально реализации от случайной величины X ), а - выборочное среднее .

Один из способов увидеть , что это смещенная оценка стандартного отклонения населения, чтобы начать с того результата , что евым 2 является несмещенной оценкой для дисперсии σ 2 нижележащего населения , если это дисперсия существует и значение образца нарисованы независимо друг от друга с заменой. Квадратный корень - это нелинейная функция, и только линейные функции коммутируют с математическим ожиданием. Поскольку квадратный корень является строго вогнутой функцией, из неравенства Дженсена следует, что квадратный корень из выборочной дисперсии является заниженной.

Использование n  - 1 вместо n в формуле для дисперсии выборки известно как поправка Бесселя , которая корректирует смещение в оценке дисперсии генеральной совокупности и некоторые, но не все смещения в оценке эталона генеральной совокупности. отклонение.

Невозможно найти оценку стандартного отклонения, которая была бы несмещенной для всех распределений населения, поскольку смещение зависит от конкретного распределения. Большая часть следующего относится к оценке, предполагающей нормальное распределение .

Коррекция смещения [ править ]

Результаты для нормального распределения [ править ]

Поправочный коэффициент в зависимости от размера выборки n .

Когда случайная величина имеет нормальное распределение , существует небольшая поправка для устранения смещения. Для получения коррекции, к сведению , что для нормально распределенной X , теорема Кохрена следует , что имеет распределение хи - квадрат с степенями свободы и , следовательно , его квадратный корень, имеет ци распределение с степенями свободы. Следовательно, вычисляя математическое ожидание этого последнего выражения и переставляя константы,

где коэффициент коррекции является масштаб среднего значения ч распределения с степенями свободы, . Это зависит от размера выборки n и определяется следующим образом: [1]

где Γ (·) - гамма-функция . Несмещенную оценку σ можно получить делением на . По мере увеличения он приближается к 1, и даже для меньших значений поправка незначительна. На рисунке показан график зависимости размера выборки. В таблице ниже приведены числовые значения и алгебраические выражения для некоторых значений ; более полные таблицы можно найти в большинстве учебников [ необходима ссылка ] по статистическому контролю качества .

Важно иметь в виду , что это исправление производит только непредвзятый оценщик для нормально и независимо распределенных X . Когда это условие выполнено, еще один результат о с участием в том , что стандартная ошибка из S является [2] [3] , в то время как стандартная ошибка из несмещенной оценки является

Эмпирическое правило для нормального распределения [ править ]

Если вычисление функции c 4 ( n ) кажется слишком сложным, есть простое практическое правило [4], чтобы взять оценку

Формула отличается от знакомого выражения для s 2 только тем, что в знаменателе стоит n - 1,5 вместо n - 1 . Это выражение является приблизительным; по факту,

Смещение относительно невелико: допустим, для него оно равно 1,3%, а для смещения уже 0,1%.

Другие дистрибутивы [ править ]

В случаях, когда статистически независимые данные моделируются параметрическим семейством распределений, отличным от нормального распределения , стандартное отклонение совокупности, если оно существует, будет функцией параметров модели. Один общий подход к оценке - максимальная вероятность . В качестве альтернативы можно использовать теорему Рао – Блэквелла как путь к нахождению хорошей оценки стандартного отклонения. Ни в том, ни в другом случае полученные оценки обычно не были бы объективными. Теоретически можно получить теоретические поправки, которые приведут к несмещенным оценкам, но, в отличие от поправок для нормального распределения, они обычно будут зависеть от оцененных параметров.

Если требуется просто уменьшить смещение оценочного стандартного отклонения, а не полностью его устранить, тогда доступны два практических подхода, оба в контексте повторной выборки . Это складывание рук и самозаготовка . Оба могут применяться либо к параметрическим оценкам стандартного отклонения, либо к стандартному отклонению выборки.

Для ненормальных распределений приближенная (до O ( n −1 ) членов) формула несмещенной оценки стандартного отклонения имеет вид

где γ 2 обозначает избыточный эксцесс популяции . Избыточный эксцесс для определенных распределений может быть известен заранее или рассчитан на основе данных.

Эффект автокорреляции (серийная корреляция) [ править ]

Приведенный выше материал, чтобы еще раз подчеркнуть, относится только к независимым данным. Однако реальные данные часто не соответствуют этому требованию; это автокорреляция (также известная как серийная корреляция). В качестве одного примера, последовательные показания измерительного прибора, который включает в себя некоторую форму процесса «сглаживания» (точнее, низкочастотной фильтрации), будут автокоррелированы, поскольку любое конкретное значение вычисляется из некоторой комбинации более ранних и последующих показаний.

Оценки дисперсии и стандартного отклонения автокоррелированных данных будут смещены. Ожидаемое значение дисперсии выборки составляет [5]

где n - размер выборки (количество измерений), а - автокорреляционная функция (АКФ) данных. (Обратите внимание, что выражение в скобках - это просто единица минус средняя ожидаемая автокорреляция для показаний.) Если ACF состоит из положительных значений, тогда оценка дисперсии (и ее квадратного корня, стандартного отклонения) будет иметь низкое смещение. То есть фактическая изменчивость данных будет больше, чем указанная нескорректированной дисперсией или расчетом стандартного отклонения. Важно понимать, что, если это выражение будет использоваться для корректировки смещения путем деления оценки на количество в скобках выше, то ACF должна быть известна аналитически., а не путем оценки на основе данных. Это связано с тем, что оценочная ACF сама будет смещена. [6]

Пример смещения стандартного отклонения [ править ]

Чтобы проиллюстрировать величину смещения в стандартном отклонении, рассмотрим набор данных, который состоит из последовательных показаний прибора, который использует определенный цифровой фильтр, ACF которого, как известно, определяется выражением

где α - параметр фильтра, принимает значения от нуля до единицы. Таким образом, АКФ положительна и геометрически убывает.

Смещение стандартного отклонения для автокоррелированных данных.

На рисунке показано отношение расчетного стандартного отклонения к его известному значению (которое может быть вычислено аналитически для этого цифрового фильтра) для нескольких настроек α в зависимости от размера выборки n . Изменение α изменяет коэффициент уменьшения дисперсии фильтра, который, как известно,

так что меньшие значения α приводят к большему уменьшению дисперсии или «сглаживанию». Смещение указано значениями на вертикальной оси, отличными от единицы; то есть, если бы не было систематической ошибки, отношение расчетного стандартного отклонения к известному было бы равно единице. Ясно, что для небольших размеров выборки может быть значительная систематическая ошибка (в два или более раз).

Дисперсия среднего [ править ]

Часто представляет интерес оценить дисперсию или стандартное отклонение оценочного среднего, а не дисперсию генеральной совокупности. Когда данные автокоррелированы, это оказывает прямое влияние на теоретическую дисперсию выборочного среднего, которая составляет [7]

Затем можно оценить дисперсию выборочного среднего, подставив оценку σ 2 . Одна такая оценка может быть получена из уравнения для E [s 2 ], приведенного выше. Сначала определите следующие константы, опять же, принимая известную ACF:

так что

Это говорит о том, что ожидаемое значение величины, полученной путем деления наблюдаемой дисперсии выборки на поправочный коэффициент, дает несмещенную оценку дисперсии. Точно так же переписав приведенное выше выражение для дисперсии среднего,

и подстановка оценки на дает [8]

который представляет собой несмещенную оценку дисперсии среднего значения с точки зрения наблюдаемой дисперсии выборки и известных величин. Если автокорреляции тождественно равны нулю, это выражение сводится к хорошо известному результату для дисперсии среднего для независимых данных. Эффект оператора математического ожидания в этих выражениях заключается в том, что равенство выполняется в среднем (т. Е. В среднем).

Оценка стандартного отклонения населения [ править ]

Имея приведенные выше выражения, включающие дисперсию совокупности и оценку среднего значения этой совокупности, казалось бы логичным просто извлечь квадратный корень из этих выражений, чтобы получить несмещенные оценки соответствующих стандартных отклонений. Однако это тот случай, когда ожидания являются интегралами,

Вместо этого предположим, что существует такая функция θ , что можно записать несмещенную оценку стандартного отклонения

и θ зависит от размера выборки n и ACF. В случае данных NID (нормально и независимо распределенных) подкоренное выражение равно единице, а θ - это просто функция c 4, указанная в первом разделе выше. Как и в случае c 4 , θ приближается к единице с увеличением размера выборки (как и γ 1 ).

С помощью имитационного моделирования можно продемонстрировать, что игнорирование θ (то есть принятие его за единицу) и использование

удаляет все , кроме нескольких процентов от смещения , вызванного автокорреляции, что делает это уменьшенный -bias оценщик, а не ООН предвзятым оценщик. В практических ситуациях измерения это уменьшение систематической ошибки может быть значительным и полезным, даже если сохраняется относительно небольшая погрешность. Рисунок выше, показывающий пример смещения стандартного отклонения в зависимости от размера выборки, основан на этом приближении; фактическое смещение будет несколько больше, чем указано на этих графиках, поскольку смещение преобразования θ туда не входит.

Оценка стандартного отклонения выборочного среднего [ править ]

Несмещенная дисперсия среднего с точки зрения дисперсии генеральной совокупности и ACF определяется выражением

и поскольку здесь нет ожидаемых значений, в этом случае можно извлечь квадратный корень, так что

Используя приведенное выше выражение для несмещенной оценки для σ , тогда оценка стандартного отклонения среднего будет

Если данные являются NID, так что ACF исчезает, это сводится к

При наличии ненулевой АКФ игнорирование функции θ по-прежнему приводит к оценке с уменьшенным -смещением

что снова может быть продемонстрировано как устранение полезного большинства систематических ошибок.

См. Также [ править ]

  • Поправка Бесселя
  • Оценка ковариационных матриц
  • Среднее значение выборки и ковариация выборки

Ссылки [ править ]

  1. ^ Бен В. Болч, "Подробнее о беспристрастной оценке стандартного отклонения", The American Statistician, 22 (3), стр. 27 (1968)
  2. ^ Дункан, AJ, Контроль качества и промышленная статистика, 4-е изд., Ирвин (1974) ISBN  0-256-01558-9 , стр.139
  3. ^ * Н.Л. Джонсон, С. Коц и Н. Балакришнан, Непрерывные одномерные распределения, том 1 , 2-е издание, Wiley and sons, 1994. ISBN 0-471-58495-9 . Уровень 13 Слово 8.2 
  4. ^ Ричард М. Бруггер, «Заметка о беспристрастной оценке стандартного отклонения», Американский статистик (23) 4 стр. 32 (1969)
  5. ^ Ло и Келтон, Имитационное моделирование и анализ , 2-е изд. Макгроу-Хилл (1991), стр.284, ISBN 0-07-036698-5 . Это выражение может быть получено из исходного источника в Anderson, The Statistical Analysis of Time Series , Wiley (1971), ISBN 0-471-04745-7 , p.448, Equation 51.  
  6. ^ Закон и Келтон, p.286. Это смещение количественно определено в Anderson, p.448, Equations 52–54.
  7. ^ Закон и Келтон, p.285. Это уравнение может быть получено из теоремы 8.2.3 Андерсона. Он также появляется в Box, Jenkins, Reinsel, Time Series Analysis: Forecasting and Control , 4th Ed. Wiley (2008), ISBN 978-0-470-27284-8 , стр.31. 
  8. ^ Закон и Келтон, p.285
  • Дуглас К. Монтгомери и Джордж К. Рангер, Прикладная статистика и теория вероятностей для инженеров , 3-е издание, Wiley and sons, 2003 г. (см. Разделы 7–2.2 и 16–5).

Внешние ссылки [ править ]

  • Java интерактивной графики , показывающий Гельмерта PDF , из которого получены поправочные коэффициенты смещения.
  • Демонстрация моделирования методом Монте-Карло для объективной оценки стандартного отклонения.
  • http://www.itl.nist.gov/div898/handbook/pmc/section3/pmc32.htm Что такое контрольные диаграммы переменных?

 Эта статья включает материалы, являющиеся  общественным достоянием, с веб-сайта Национального института стандартов и технологий https://www.nist.gov .