Из Википедии, бесплатной энциклопедии
  (Перенаправлен с 3-сигмы )
Перейти к навигации Перейти к поиску
Для приблизительно нормального набора данных значения в пределах одного стандартного отклонения от среднего составляют около 68% набора; при этом в пределах двух стандартных отклонений приходится около 95%; и в пределах трех стандартных отклонений составляют около 99,7%. Показанные проценты представляют собой округленные теоретические вероятности, предназначенные только для приближения эмпирических данных, полученных из нормальной совокупности.
Интервал прогноза (по оси Y ), полученный из стандартной оценки (по оси X ). Ось Y масштабируется логарифмически (но значения на ней не изменяются).

В статистике , то 68-95-99.7 правила , также известное как эмпирическое правило , является сокращенным используется для запоминания процента значений , которые лежат в пределах полосы вокруг среднего в нормальном распределении с шириной два, четыре и шесть стандартных отклонения соответственно; точнее, 68,27%, 95,45% и 99,73% значений лежат в пределах одного, двух и трех стандартных отклонений от среднего, соответственно.

В математических обозначениях эти факты могут быть выражены следующим образом, где Χ - это наблюдение нормально распределенной случайной величины , μ - среднее значение распределения, а σ - его стандартное отклонение:

В эмпирических науках так называемое эмпирическое правило трех сигм выражает обычную эвристику, согласно которой почти все значения лежат в пределах трех стандартных отклонений от среднего, и, таким образом, эмпирически полезно рассматривать вероятность 99,7% как близкую к достоверности. [1] Полезность этой эвристики особенно зависит от рассматриваемого вопроса. В социальных науках результат может считаться « значимым », если его уровень достоверности имеет порядок эффекта двух сигм (95%), тогда как в физике элементарных частиц, существует соглашение о том, что эффект пяти сигм (достоверность 99,99994%) требуется для квалификации как открытие .

Более слабое правило трех сигм может быть получено из неравенства Чебышева , согласно которому даже для переменных с ненормальным распределением по крайней мере 88,8% случаев должны попадать в правильно рассчитанные интервалы трех сигм. Для унимодальных распределений вероятность попадания в интервал не менее 95% по неравенству Высочанского – Петунина . Для распределения могут быть определенные допущения, которые заставляют эту вероятность составлять не менее 98%. [2]

Кумулятивная функция распределения [ править ]

Диаграмма, показывающая кумулятивную функцию распределения для нормального распределения со средним ( μ ) 0 и дисперсией ( σ 2 ) 1

Эти числовые значения «68%, 95%, 99,7%» получены из кумулятивной функции распределения нормального распределения .

Интервал прогнозирования для любой стандартной оценки z численно соответствует (1− (1− Φ μ , σ 2 (z)) · 2).

Например, Φ (2) ≈ 0,9772 или Pr ( Xμ + 2 σ ) ≈ 0,9772 , что соответствует интервалу прогноза (1 - (1 - 0,97725) · 2) = 0,9545 = 95,45%. Это не симметричный интервал - это просто вероятность того, что наблюдение меньше μ + 2 σ . Чтобы вычислить вероятность того, что наблюдение находится в пределах двух стандартных отклонений от среднего (небольшие различия из-за округления):

Это связано с доверительным интервалом, используемым в статистике: это примерно 95% доверительный интервал, когда является средним значением выборки размера .

Тесты нормальности [ править ]

«Правило 68–95–99,7» часто используется для быстрого получения приблизительной оценки вероятности чего-либо с учетом его стандартного отклонения, если предполагается, что совокупность является нормальной. Он также используется как простой тест на выбросы, если популяция считается нормальной, и как тест на нормальность, если популяция потенциально ненормальна.

Чтобы перейти от выборки к ряду стандартных отклонений, сначала вычисляется отклонение , либо ошибка, либо остаток в зависимости от того, известно ли среднее значение генеральной совокупности или только оценивает его. Следующим шагом является стандартизация (деление на стандартное отклонение совокупности), если параметры совокупности известны, или студентизация (деление на оценку стандартного отклонения), если параметры неизвестны и только оцениваются.

Для использования в качестве теста на выбросы или теста на нормальность вычисляют размер отклонений в терминах стандартных отклонений и сравнивают его с ожидаемой частотой. Учитывая набор выборки, можно вычислить стьюдентизированные остатки и сравнить их с ожидаемой частотой: точки, которые падают более чем на 3 стандартных отклонения от нормы, вероятно, являются выбросами (если размер выборки не является значительно большим, к этому моменту можно ожидать, что выборка будет такой. крайний), и если имеется много точек, превышающих 3 стандартных отклонения от нормы, вероятно, есть основания сомневаться в предполагаемой нормальности распределения. Это особенно верно для ходов с 4 и более стандартными отклонениями.

Можно вычислить более точно, аппроксимируя количество экстремальных ходов заданной величины или выше распределением Пуассона , но просто, если в выборке размером 1000 имеется несколько 4 ходов стандартного отклонения, у него есть веские основания рассматривать эти выбросы или подвергнуть сомнению предполагаемую нормальность распределения.

Например, событие 6 σ соответствует вероятности примерно двух частей на миллиард . Например, если считать, что события происходят ежедневно, это будет соответствовать событию, которое ожидается каждые 1,4 миллиона лет. Это дает простой тест на нормальность : если в ежедневных данных наблюдается 6 σ и прошло значительно меньше 1 миллиона лет, то нормальное распределение, скорее всего, не дает хорошей модели для величины или частоты больших отклонений в этом отношении.

В The Black Swan , Талеб приводит пример модели риска в соответствии с которым черный понедельник аварии будет соответствовать 36- сг события: появление такого события следует немедленно предположить , что модель имеет недостатки, то есть , что процесс под рассмотрение не моделируется удовлетворительным образом нормальным распределением. Затем следует рассмотреть уточненные модели, например, путем введения стохастической волатильности . В таких обсуждениях важно осознавать проблему заблуждения игрока , которая гласит, что единичное наблюдение за редким событием не противоречит тому, что событие на самом деле является редким [ необходима цитата ]. Наблюдение за множеством предположительно редких событий все больше опровергает гипотезу о том, что они редки, то есть обоснованность предполагаемой модели. Правильное моделирование этого процесса постепенной потери уверенности в гипотезе потребовало бы определения априорной вероятности не только для самой гипотезы, но и для всех возможных альтернативных гипотез. По этой причине статистическая проверка гипотез работает не столько путем подтверждения гипотезы, которая считается вероятной, сколько путем опровержения гипотез, считающихся маловероятными .

Таблица числовых значений [ править ]

Из-за экспоненциальных хвостов нормального распределения вероятность более высоких отклонений уменьшается очень быстро. Из правил для нормально распределенных данных для ежедневного события:

См. Также [ править ]

  • p -значение
  • Шесть сигм # уровни сигм
  • Стандартный балл
  • t -статистический

Ссылки [ править ]

  1. ^ это использование «правила трех сигм» вошло в обиход в 2000-х, например, цитируется в Кратком обзоре бизнес-статистики Шаума . McGraw Hill Professional. 2003. с. 359и в Grafarend, Erik W. (2006). Линейные и нелинейные модели: фиксированные эффекты, случайные эффекты и смешанные модели . Вальтер де Грюйтер. п. 553 .
  2. ^ См .:
    • Уиллер, диджей; Чемберс, Д.С. (1992). Понимание статистического управления процессами . SPC Press.
    • Цитром, Вероника ; Спагон, Патрик Д. (1997). Статистические исследования по совершенствованию производственных процессов . СИАМ. п. 342.
    • Пукельсхайм, Ф. (1994). «Правило трех сигм». Американский статистик . 48 : 88–91. JSTOR  2684253 .

Внешние ссылки [ править ]

  • " Нормальное распределение " Баласубраманиана Нарасимхана
  • " Вычислить процентную долю в пределах x сигм в WolframAlpha