Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

График нормального распределения (или колоколообразная кривая), где каждая полоса имеет ширину 1 стандартное отклонение - см. Также: правило 68–95–99.7 .
Кумулятивная вероятность нормального распределения с ожидаемым значением 0 и стандартным отклонением 1

В статистических данных , то стандартное отклонение является мерой количества вариации или дисперсии множества значений. [1] Низкое стандартное отклонение указывает на то, что значения имеют тенденцию быть близкими к среднему (также называемому ожидаемым значением ) набора, в то время как высокое стандартное отклонение указывает, что значения разбросаны в более широком диапазоне.

Стандартное отклонение может быть сокращено как SD и чаще всего представлено в математических текстах и ​​уравнениях строчной греческой буквой сигма σ для стандартного отклонения генеральной совокупности или латинской буквой s для стандартного отклонения выборки. [2]

(О других случаях использования символа σ в науке и математике см. Сигма § Наука и математика .)

Стандартное отклонение случайной величины , выборки , статистической совокупности , набора данных или распределения вероятностей - это квадратный корень из ее дисперсии . Это алгебраически проще, хотя на практике менее надежно , чем среднее абсолютное отклонение . [3] [4] Полезное свойство стандартного отклонения состоит в том, что, в отличие от дисперсии, оно выражается в той же единице, что и данные.

Стандартное отклонение генеральной совокупности или выборки и стандартная ошибка статистики (например, выборочного среднего) совершенно разные, но взаимосвязанные. Стандартная ошибка выборочного среднего - это стандартное отклонение набора средних, которое может быть найдено путем извлечения бесконечного количества повторяющихся выборок из генеральной совокупности и вычисления среднего для каждой выборки. Стандартная ошибка среднего оказывается равной стандартному отклонению генеральной совокупности, деленному на квадратный корень из размера выборки, и оценивается с использованием стандартного отклонения выборки, деленного на квадратный корень из размера выборки. Например, стандартная ошибка опроса (то, что сообщается как предел погрешностиопроса) - это ожидаемое стандартное отклонение оценочного среднего, если бы один и тот же опрос проводился несколько раз. Таким образом, стандартная ошибка оценивает стандартное отклонение оценки, которое измеряет, насколько оценка зависит от конкретной выборки, взятой из совокупности.

В науке принято указывать как стандартное отклонение данных (как сводную статистику), так и стандартную ошибку оценки (как меру потенциальной ошибки в выводах). По соглашению, только эффекты, отклоняющиеся от нулевого ожидания более чем на две стандартные ошибки, считаются «статистически значимыми» , что является гарантией против ложного вывода, который на самом деле вызван случайной ошибкой выборки.

Когда доступна только выборка данных из генеральной совокупности, термин стандартное отклонение выборки или стандартное отклонение выборки может относиться либо к вышеупомянутой величине применительно к этим данным, либо к измененной величине, которая является объективной оценкой стандартное отклонение совокупности (стандартное отклонение всей совокупности).

Основные примеры [ править ]

Стандартное отклонение оценок восьми учащихся [ править ]

Предположим, что вся интересующая нас совокупность - это восемь учеников в определенном классе. Для конечного набора чисел стандартное отклонение совокупности находится путем извлечения квадратного корня из среднего квадрата отклонений значений, вычтенных из их среднего значения. Оценками класса из восьми учащихся (то есть статистической совокупности ) являются следующие восемь значений:

Эти восемь точек данных имеют среднее (среднее) 5:

Сначала вычислите отклонения каждой точки данных от среднего и возведите результат каждого в квадрат :

Дисперсия представляет собой среднее из этих значений:

а стандартное отклонение совокупности равно квадратному корню из дисперсии:

Эта формула действительна, только если восемь значений, с которых мы начали, образуют полную генеральную совокупность. Если бы вместо этого значения были случайной выборкой, взятой из некоторой большой родительской популяции (например, это были 8 учеников, случайно и независимо выбранных из класса из 2 миллионов), то одно делится на 7 (что равно n - 1) вместо 8 ( что равно n ) в знаменателе последней формулы, и результат такой: В этом случае результат исходной формулы будет называться стандартным отклонением выборки и обозначаться s вместо деления на n  - 1, а не на nдает объективную оценку дисперсии более крупной родительской популяции. Это известно как поправка Бесселя . [5] [6] Грубо говоря, причина этого в том, что формула для выборочной дисперсии основывается на вычислении различий наблюдений от выборочного среднего, а само выборочное среднее было построено так, чтобы быть как можно ближе к наблюдениям, поэтому просто деление на n приведет к недооценке изменчивости.

Стандартное отклонение среднего роста для взрослых мужчин [ править ]

Если интересующая популяция приблизительно нормально распределена, стандартное отклонение дает информацию о доле наблюдений выше или ниже определенных значений. Например, средний рост взрослого мужчины в США составляет около 70 дюймов (177,8 см) со стандартным отклонением около 3 дюймов (7,62 см). Это означает, что большинство мужчин (около 68% при нормальном распределении) имеют рост в пределах 3 дюймов (7,62 см) от среднего (67–73 дюймов (170,18–185,42 см)) - одно стандартное отклонение - и почти все мужчины (около 95%) имеют рост в пределах 6 дюймов (15,24 см). среднего (64–76 дюймов (162,56–193,04 см)) - два стандартных отклонения. Если бы стандартное отклонение было равно нулю, тогда все мужчины были бы ростом ровно 70 дюймов (177,8 см). Если бы стандартное отклонение составляло 20 дюймов (50,8 см), тогда у мужчин было бы гораздо больше переменного роста, с типичным диапазоном около 50–90 дюймов (127–228,6 см). Три стандартных отклонения составляют 99,7% исследуемой выборки, если предположить, что распределение является нормальным или колоколообразным (см. Правило 68-95-99,7 или эмпирическое правило для получения дополнительной информации).

Определение значений совокупности [ править ]

Пусть μ - ожидаемое значение (среднее значение) случайной величины X с плотностью f (x) :

Стандартное отклонение σ для X определяется как

который можно показать равным

Используя слова, стандартное отклонение представляет собой квадратный корень из дисперсии из X .

Стандартное отклонение распределения вероятностей такое же, как и у случайной величины, имеющей это распределение.

Не все случайные величины имеют стандартное отклонение. Если у распределения есть « толстые хвосты», уходящие в бесконечность, стандартное отклонение может не существовать, потому что интеграл может не сходиться. У нормального распределения хвосты уходят в бесконечность, но его среднее значение и стандартное отклонение действительно существуют, потому что хвосты уменьшаются достаточно быстро. Распределение Парето с параметром имеет среднее значение, но не стандартное отклонение (грубо говоря, стандартное отклонение бесконечно). Распределение Коши не имеет ни среднего, ни стандартного отклонения.


Дискретная случайная величина [ править ]

В случае, когда X принимает случайные значения из конечного набора данных x 1 , x 2 , ..., x N , при этом каждое значение имеет одинаковую вероятность, стандартное отклонение составляет

или, используя обозначение суммирования ,

Если, вместо того , чтобы равные вероятности, значения имеют разные вероятности, пусть х 1 есть вероятность р 1 , х 2 есть вероятность р 2 , ..., х N есть вероятность р N . В этом случае стандартное отклонение будет

Непрерывная случайная величина [ править ]

Стандартное отклонение непрерывной вещественной случайной величины X с функцией плотности вероятности p ( x ) равно

и где интегралы определенные интегралы , взятые для й в диапазоне по множеству возможных значений случайной величины  X .

В случае параметрического семейства распределений стандартное отклонение может быть выражено через параметры. Например, в случае логнормального распределения с параметрами μ и σ 2 стандартное отклонение составляет

Оценка [ править ]

Стандартное отклонение для всей генеральной совокупности можно найти в случаях (таких как стандартизованное тестирование ), когда отбирается каждый член совокупности. В случаях, когда это невозможно сделать, стандартное отклонение σ оценивается путем изучения случайной выборки, взятой из совокупности, и вычисления статистики выборки, которая используется в качестве оценки стандартного отклонения совокупности. Такая статистика называется оценщиком , а оценщик (или значение оценщика, а именно оценка) называется стандартным отклонением выборки и обозначается s (возможно, с модификаторами).

В отличие от случая оценки среднего для генеральной совокупности, для которого выборочное среднее является простой оценкой со многими желательными свойствами ( несмещенная , эффективная , максимальная вероятность), не существует единой оценки стандартного отклонения со всеми этими свойствами и несмещенной оценки стандартное отклонение - это технически сложная проблема. Чаще всего стандартное отклонение оценивается с использованием скорректированного стандартного отклонения выборки (с использованием N  - 1), определенного ниже, и его часто называют «стандартным отклонением выборки» без квалификаторов. Однако другие оценки лучше в других отношениях: нескорректированная оценка (с использованием N) дает более низкую среднеквадратичную ошибку, а использование N  - 1,5 (для нормального распределения) почти полностью устраняет смещение.

Неисправленное стандартное отклонение выборки [ править ]

Формула для населения стандартного отклонения (конечной совокупности) может быть применена к образцу, используя размер выборки как размер популяции (хотя фактического размер популяции , из которой обращается образец может быть значительно больше). Эта оценка, обозначаемая s N , известна как нескорректированное стандартное отклонение выборки , или иногда стандартное отклонение выборки (рассматриваемой как вся генеральная совокупность), и определяется следующим образом: [7]

где - наблюдаемые значения элементов выборки, а - среднее значение этих наблюдений, а знаменатель  N означает размер выборки: это квадратный корень из дисперсии выборки, которая представляет собой среднее значение квадратов отклонений около среднее значение выборки.

Это согласованная оценка (она сходится по вероятности к значению совокупности, когда количество выборок стремится к бесконечности) и является оценкой максимального правдоподобия при нормальном распределении совокупности. [ необходима цитата ] Однако это предвзятая оценка , поскольку оценки обычно слишком занижены. Смещение уменьшается по мере увеличения размера выборки, уменьшаясь до 1 / N , и, таким образом, является наиболее значимым для малых или средних размеров выборки; для смещения ниже 1%. Таким образом, для очень больших размеров выборки обычно приемлемо нескорректированное стандартное отклонение выборки. Эта оценка также имеет равномерно меньшую среднеквадратичную ошибку чем исправленное стандартное отклонение выборки.

Исправленное стандартное отклонение выборки [ править ]

Если смещенная дисперсия выборки (второй центральный момент выборки, который представляет собой оценку дисперсии генеральной совокупности с понижением) используется для вычисления оценки стандартного отклонения совокупности, результатом будет

Здесь извлечение квадратного корня приводит к дальнейшему смещению вниз по неравенству Дженсена , поскольку квадратный корень является вогнутой функцией . Смещение дисперсии легко исправить, но смещение квадратного корня исправить труднее, и оно зависит от рассматриваемого распределения.

Несмещенная оценка дисперсии дается путем применения поправки Бесселя с использованием N  - 1 вместо N для получения несмещенной выборочной дисперсии, обозначенной s 2 :

Этот оценщик является несмещенным, если существует дисперсия и выборочные значения строятся независимо с заменой. N  - 1 соответствует числу степеней свободы в векторе отклонений от среднего,

Извлечение квадратного корня вновь приводит к смещению (поскольку квадратный корень является нелинейной функцией, которая не коммутирует с математическим ожиданием), что дает скорректированное стандартное отклонение выборки, обозначенное s: [2]

Как объяснялось выше, хотя s 2 является несмещенной оценкой дисперсии генеральной совокупности, s по-прежнему является смещенной оценкой стандартного отклонения генеральной совокупности, хотя и заметно менее смещенной, чем нескорректированное стандартное отклонение выборки. Эта оценка обычно используется и известна просто как «стандартное отклонение выборки». Смещение может быть большим для малых образцов ( N менее 10). По мере увеличения размера выборки величина смещения уменьшается. Мы получаем больше информации, и разница между и становится меньше.

Беспристрастное стандартное отклонение выборки [ править ]

Для беспристрастной оценки стандартного отклонения не существует формулы, которая работала бы для всех распределений, в отличие от среднего и дисперсии. Вместо этого s используется в качестве основы и масштабируется с помощью поправочного коэффициента для получения несмещенной оценки. Для нормального распределения несмещенная оценка определяется как s / c 4 , где поправочный коэффициент (который зависит от N ) задается в терминах гамма-функции и равен:

Это происходит из-за того, что выборочное распределение стандартного отклонения выборки следует (масштабированному) распределению хи , а поправочный коэффициент является средним значением распределения хи.

Приближение может быть дано заменой N  - 1 на N  - 1,5, что дает:

Ошибка в этом приближении уменьшается квадратично (как 1 / N 2 ), и оно подходит для всех, кроме самых маленьких выборок или высочайшей точности: для N = 3 смещение равно 1,3%, а для N = 9 смещение уже менее 0,1%.

Более точное приближение заменить на . [8]

Для других распределений правильная формула зависит от распределения, но практическое правило заключается в использовании дальнейшего уточнения приближения:

где γ 2 обозначает избыточный эксцесс населения . Избыточный эксцесс для определенных распределений может быть известен заранее или рассчитан на основе данных. [ необходима цитата ]

Доверительный интервал стандартного отклонения выборки [ править ]

Стандартное отклонение, которое мы получаем путем выборки распределения, само по себе не является абсолютно точным как по математическим причинам (объясненным здесь доверительным интервалом), так и по практическим причинам измерения (ошибка измерения). Математический эффект можно описать доверительным интервалом или доверительным интервалом .

Чтобы показать, как более крупная выборка сужает доверительный интервал, рассмотрим следующие примеры: Небольшая популяция N = 2 имеет только 1 степень свободы для оценки стандартного отклонения. В результате 95% доверительный интервал SD изменяется от 0,45 × SD до 31,9 × SD; факторы здесь следующие :

где - p -й квантиль распределения хи-квадрат с k степенями свободы, а - уровень достоверности. Это эквивалентно следующему:

При k = 1, а . Обратные квадратные корни этих двух чисел дают нам множители 0,45 и 31,9, указанные выше.

Большая популяция N = 10 имеет 9 степеней свободы для оценки стандартного отклонения. Те же вычисления, что и выше, дают нам в этом случае 95% доверительный интервал от 0,69 × SD до 1,83 × SD. Таким образом, даже при выборке из 10 фактическое стандартное отклонение может быть почти в 2 раза выше, чем стандартное отклонение для выборки. Для выборки N = 100 это составляет от 0,88 × SD до 1,16 × SD. Чтобы быть более уверенным в том, что SD сэмплирования близко к фактическому SD, нам нужно отобрать большое количество точек.

Эти же формулы можно использовать для получения доверительных интервалов дисперсии остатков по методу наименьших квадратов в рамках стандартной нормальной теории, где k теперь число степеней свободы для ошибки.

Границы стандартного отклонения [ править ]

Для набора из N > 4 данных, охватывающих диапазон значений R , верхняя граница стандартного отклонения s определяется как s = 0,6R . [9] Оценка стандартного отклонения для данных N > 100, которые считаются приблизительно нормальными, следует из эвристики, согласно которой 95% площади под нормальной кривой лежит примерно на два стандартных отклонения в обе стороны от среднего значения, так что при 95 % вероятности общий диапазон значений R представляет четыре стандартных отклонения, так что s ≈ R / 4 . Это так называемое правило диапазона полезно для размера выборки.оценка, поскольку диапазон возможных значений легче оценить, чем стандартное отклонение. Другие делители K (N) диапазона, такие что s ≈ R / K (N) , доступны для других значений N и для ненормальных распределений. [10]

Тождества и математические свойства [ править ]

Стандартное отклонение инвариантно при изменении местоположения и масштабируется непосредственно с масштабом случайной величины. Таким образом, для постоянной c и случайных величин X и Y :

Стандартное отклонение суммы двух случайных величин может быть связано с их индивидуальными стандартными отклонениями и ковариацией между ними:

где и обозначают дисперсию и ковариацию соответственно.

Вычисление суммы квадратов отклонений может быть связано с моментами, рассчитанными непосредственно на основе данных. В следующей формуле буква E интерпретируется как ожидаемое значение, т.е. среднее значение.

Стандартное отклонение выборки можно рассчитать как:

Для конечной совокупности с равными вероятностями во всех точках имеем

что означает, что стандартное отклонение равно квадратному корню из разницы между средним значением квадратов значений и квадратом среднего значения.

См. Расчетную формулу для дисперсии для доказательства и аналогичный результат для стандартного отклонения выборки.

Толкование и применение [ править ]

Пример выборок из двух популяций с одинаковым средним, но разными стандартными отклонениями. Красное население имеет среднее значение 100 и стандартное отклонение 10; синяя популяция имеет среднее значение 100 и стандартное отклонение 50.

Большое стандартное отклонение указывает на то, что точки данных могут далеко отличаться от среднего, а небольшое стандартное отклонение указывает, что они сгруппированы близко к среднему.

Например, каждая из трех популяций {0, 0, 14, 14}, {0, 6, 8, 14} и {6, 6, 8, 8} имеет среднее значение 7. Их стандартные отклонения равны 7, 5. , и 1 соответственно. Третья совокупность имеет гораздо меньшее стандартное отклонение, чем две другие, потому что все ее значения близки к 7. Эти стандартные отклонения имеют те же единицы, что и сами точки данных. Если, например, набор данных {0, 6, 8, 14} представляет возраст населения из четырех братьев и сестер в годах, стандартное отклонение составляет 5 лет. В качестве другого примера популяция {1000, 1006, 1008, 1014} может представлять расстояния, пройденные четырьмя спортсменами, измеренные в метрах. Среднее значение составляет 1007 метров, а стандартное отклонение - 5 метров.

Стандартное отклонение может служить мерой неопределенности. В физической науке, например, стандартное отклонение группы повторных измерений дает точность этих измерений. При принятии решения о том, согласуются ли измерения с теоретическим предсказанием, стандартное отклонение этих измерений имеет решающее значение: если среднее значение измерений слишком далеко от прогноза (с расстоянием, измеренным в стандартных отклонениях), то теория, вероятно, проверяется. нуждается в доработке. Это имеет смысл, поскольку они выходят за пределы диапазона значений, которые можно было бы разумно ожидать, если бы прогноз был правильным и стандартное отклонение было должным образом определено количественно. См. Интервал прогнозирования .

Хотя стандартное отклонение действительно показывает, насколько типичные значения обычно отличаются от среднего, доступны и другие меры. Примером является среднее абсолютное отклонение , которое можно рассматривать как более прямую меру среднего расстояния по сравнению со среднеквадратичным расстоянием, присущим стандартному отклонению.

Примеры применения [ править ]

Практическая ценность понимания стандартного отклонения набора значений состоит в том, чтобы понять, насколько велико отклонение от среднего (среднего).

Экспериментальная, промышленная и проверка гипотез [ править ]

Стандартное отклонение часто используется для сравнения реальных данных с моделью для проверки модели. Например, в промышленных приложениях вес продуктов, сходящих с производственной линии, может потребовать соответствия юридически требуемому значению. Взвешивая некоторую долю продуктов, можно определить средний вес, который всегда будет немного отличаться от долгосрочного среднего. Используя стандартные отклонения, можно рассчитать минимальное и максимальное значение, при котором усредненный вес будет находиться в пределах некоторого очень высокого процента времени (99,9% или более). Если он выходит за пределы допустимого диапазона, возможно, необходимо скорректировать производственный процесс. Статистические тесты, подобные этим, особенно важны, когда тестирование относительно дорогое. Например, если продукт нужно открыть, слить и взвесить, или если продукт был израсходован во время теста.

В экспериментальной науке используется теоретическая модель реальности. Физика элементарных частиц обычно использует стандарт «5 сигм» для объявления открытия. Уровень пяти сигм означает один шанс из 3,5 миллиона, что случайное колебание даст результат. Этот уровень уверенности требуется для того , чтобы утверждать , что частица в соответствии с бозоном Хиггса был обнаружен в двух независимых экспериментах в ЦЕРН , [11] , и это было также уровень значимости приводит к декларации первого наблюдения гравитационных волн . [12]

Погода [ править ]

В качестве простого примера рассмотрим среднесуточные максимальные температуры в двух городах, одном на суше и на побережье. Полезно понимать, что диапазон суточных максимальных температур для прибрежных городов меньше, чем для городов внутри страны. Таким образом, хотя каждый из этих двух городов может иметь одинаковую среднюю максимальную температуру, стандартное отклонение дневной максимальной температуры для прибрежного города будет меньше, чем для внутреннего города, поскольку в любой конкретный день фактическая максимальная температура более вероятна. быть дальше от средней максимальной температуры для внутреннего города, чем для прибрежного.

Финансы [ править ]

В финансах стандартное отклонение часто используется как мера риска, связанного с колебаниями цен на данный актив (акции, облигации, имущество и т. Д.), Или риска портфеля активов [13] (активно управляемые паевые инвестиционные фонды , индексные паевые инвестиционные фонды или ETF). Риск является важным фактором при определении того, как эффективно управлять портфелем инвестиций, поскольку он определяет вариацию доходности актива и / или портфеля и дает инвесторам математическую основу для принятия инвестиционных решений (известную как оптимизация среднего отклонения.). Фундаментальная концепция риска заключается в том, что по мере его увеличения ожидаемая доходность инвестиций также должна увеличиваться, что называется премией за риск. Другими словами, инвесторы должны ожидать более высокой отдачи от инвестиций, если они связаны с более высоким уровнем риска или неопределенности. При оценке инвестиций инвесторы должны оценить как ожидаемую доходность, так и неопределенность будущей доходности. Стандартное отклонение обеспечивает количественную оценку неопределенности будущих доходов.

Например, предположим, что инвестору пришлось выбирать между двумя акциями. Акция А за последние 20 лет имела среднюю доходность 10 процентов со стандартным отклонением 20 процентных пунктов.(pp) и Акция B за тот же период имели среднюю доходность 12 процентов, но более высокое стандартное отклонение 30 п.п. На основе риска и доходности инвестор может решить, что Акция A является более безопасным выбором, поскольку Акция B дополнительные два процентных пункта доходности не стоят дополнительных 10 п.п. стандартного отклонения (больший риск или неопределенность ожидаемой доходности). Акция B, вероятно, будет меньше первоначальных вложений (но также превысит первоначальные вложения) чаще, чем Акция A при тех же обстоятельствах, и, по оценкам, приносит в среднем лишь на два процента больше. В этом примере ожидается, что Акция A принесет около 10 процентов плюс-минус 20 п.п. (диапазон от 30 процентов до −10 процентов), что составляет около двух третей прибыли в будущем году. При рассмотрении более экстремальных возможных доходов или результатов в будущем,инвестор должен ожидать результатов в размере до 10 процентов плюс-минус 60 п.п. или в диапазоне от 70 до -50 процентов, который включает результаты для трех стандартных отклонений от средней доходности (около 99,7 процента вероятной доходности).

Вычисление среднего (или среднего арифметического) доходности ценной бумаги за определенный период даст ожидаемую доходность актива. Для каждого периода вычитание ожидаемой прибыли из фактической приводит к разнице от среднего. Возведение разницы в квадрат за каждый период и взятие среднего дает общую дисперсию доходности актива. Чем больше разница, тем больший риск несет безопасность. Нахождение квадратного корня из этой дисперсии даст стандартное отклонение рассматриваемого инвестиционного инструмента.

Стандартное отклонение совокупности используется для установки ширины полос Боллинджера , широко распространенного инструмента технического анализа . Например, верхняя полоса Боллинджера задается как . Наиболее часто используемое значение n равно 2; вероятность выхода на улицу составляет около пяти процентов при нормальном распределении доходов.

Финансовые временные ряды, как известно, являются нестационарными рядами, тогда как приведенные выше статистические расчеты, такие как стандартное отклонение, применимы только к стационарным рядам. Чтобы применить вышеупомянутые статистические инструменты к нестационарным рядам, этот ряд сначала должен быть преобразован в стационарный ряд, что позволит использовать статистические инструменты, которые теперь имеют действительную основу для работы.

Геометрическая интерпретация [ править ]

Чтобы получить некоторые геометрические идеи и пояснения, мы начнем с совокупности трех значений: x 1 , x 2 , x 3 . Это определяет точку P = ( x 1 , x 2 , x 3 ) в R 3 . Рассмотрим прямую L = {( r , r , r ): rR }. Это «главная диагональ», проходящая через начало координат. Если бы все наши три заданных значения были равны, то стандартное отклонение было бы равно нулю, и P лежало бы наL . Таким образом , это не разумно предположить , что стандартное отклонение связано с расстоянием от Р до L . Это действительно так. Чтобы двигаться ортогонально от L к точке P , нужно начать с точки:

чьи координаты являются средними значениями, с которых мы начали.

Небольшая алгебра показывает, что расстояние между P и M (которое совпадает с ортогональным расстоянием между P и линией L ) равно стандартному отклонению вектора ( x 1 , x 2 , x 3 ), умноженному на квадратный корень из числа размерностей вектора (в данном случае 3).

Неравенство Чебышева [ править ]

Наблюдение редко отличается от среднего значения более чем на несколько стандартных отклонений. Неравенство Чебышева гарантирует, что для всех распределений, для которых определено стандартное отклонение, количество данных в пределах ряда стандартных отклонений среднего будет не меньше, чем указано в следующей таблице.

Правила для нормально распределенных данных [ править ]

Темно-синий - одно стандартное отклонение по обе стороны от среднего. Для нормального распределения это составляет 68,27% от набора; в то время как два стандартных отклонения от среднего (средний и темно-синий) составляют 95,45%; три стандартных отклонения (светлый, средний и темно-синий) составляют 99,73%; и четыре стандартных отклонения составляют 99,994 процента. Две точки кривой, которые находятся на одно стандартное отклонение от среднего, также являются точками перегиба .

Центральные предельная теорема утверждает , что распределение среднего числа многих независимого одинаково распределенные случайные величины стремятся к известному колоколообразному нормальному распределению с функцией плотности вероятности из

где μ - ожидаемое значение случайных величин, σ - стандартное отклонение их распределения, деленное на n 1/2 , а n - количество случайных величин. Таким образом, стандартное отклонение - это просто масштабирующая переменная, которая регулирует ширину кривой, хотя она также появляется в нормирующей константе .

Если распределение данных приблизительно нормальное, то пропорция значений данных в пределах z стандартных отклонений среднего определяется следующим образом:

где - функция ошибок . Пропорция, которая меньше или равна числу x , задается кумулятивной функцией распределения :

. [15]

Если распределение данных примерно нормальное, то около 68 процентов значений данных находятся в пределах одного стандартного отклонения от среднего (математически μ  ±  σ , где μ - среднее арифметическое), около 95 процентов находятся в пределах двух стандартных отклонений ( μ  ± 2 σ ), и около 99,7% находятся в пределах трех стандартных отклонений ( μ  ± 3 σ ). Это известно как правило 68-95-99.7 или эмпирическое правило .

Для различных значений z процент значений, которые, как ожидается, будут находиться в симметричном интервале и за его пределами, CI = (- ), составляет следующее:

Процент в пределах ( z )
z (процент в пределах)

Связь между стандартным отклонением и средним значением [ править ]

Среднее значение и стандартное отклонение набора данных представляют собой описательную статистику, обычно сообщаемую вместе. В определенном смысле стандартное отклонение является «естественной» мерой статистической дисперсии, если центр данных измеряется относительно среднего значения. Это потому, что стандартное отклонение от среднего меньше, чем от любой другой точки. Точное утверждение следующее: предположим, что x 1 , ..., x n - действительные числа, и определим функцию:

Используя исчисление или завершая квадрат , можно показать, что σ ( r ) имеет единственный минимум в среднем:

Вариабельность также можно измерить с помощью коэффициента вариации , который представляет собой отношение стандартного отклонения к среднему. Это безразмерное число .

Стандартное отклонение среднего [ править ]

Часто нам нужна некоторая информация о точности полученного среднего значения. Мы можем получить это, определив стандартное отклонение выборочного среднего. Предполагая статистическую независимость значений в выборке, стандартное отклонение среднего связано со стандартным отклонением распределения следующим образом:

где N - количество наблюдений в выборке, использованных для оценки среднего значения. Это легко проверить с помощью (см. Основные свойства дисперсии ):

(Предполагается статистическая независимость.)

следовательно

В результате чего:

Чтобы оценить стандартное отклонение среднего, необходимо заранее знать стандартное отклонение для всей генеральной совокупности . Однако в большинстве приложений этот параметр неизвестен. Например, если в лаборатории выполняется серия из 10 измерений ранее неизвестной величины, можно вычислить результирующее среднее значение выборки и стандартное отклонение выборки, но невозможно вычислить стандартное отклонение среднего.

Методы быстрого расчета [ править ]

Следующие две формулы могут представлять текущее (многократно обновляемое) стандартное отклонение. Набор из двух сумм степеней s 1 и s 2 вычисляется по набору из N значений x , обозначенных как x 1 , ..., x N :

Учитывая результаты этих текущих суммирований, значения N , s 1 , s 2 можно использовать в любое время для вычисления текущего значения текущего стандартного отклонения:

Где N, как упоминалось выше, - это размер набора значений (или также может рассматриваться как s 0 ).

Аналогично для стандартного отклонения выборки,

В компьютерной реализации, когда три суммы s j становятся большими, нам необходимо учитывать ошибку округления , арифметическое переполнение и арифметическое опустошение . Приведенный ниже метод вычисляет метод промежуточных сумм с уменьшенными ошибками округления. [16] Это «однопроходный» алгоритм для вычисления дисперсии n выборок без необходимости хранить предшествующие данные во время вычисления. Применение этого метода к временному ряду приведет к последовательным значениям стандартного отклонения, соответствующим n точкам данных, когда n увеличивается с каждой новой выборкой, а не к вычислению скользящего окна постоянной ширины.

Для k = 1, ..., n :

где A - среднее значение.

Примечание: с или

Выборочная дисперсия:

Дисперсия населения:

Взвешенный расчет [ править ]

Когда значения x i взвешиваются с неравными весами w i , каждая сумма степеней s 0 , s 1 , s 2 вычисляется как:

И уравнения стандартного отклонения остаются неизменными. ев 0 теперь сумма весов , а не количество выборок N .

Также может применяться инкрементный метод с уменьшенными ошибками округления, но с некоторой дополнительной сложностью.

Текущая сумма весов должна быть вычислена для каждого k от 1 до n :

и места, где используется 1 / n , должны быть заменены на w i / W n :

В финальном дивизионе

и

или же

где n - общее количество элементов, а n - количество элементов с ненулевым весом.

Приведенные выше формулы становятся равными приведенным выше более простым формулам, если веса приняты равными единице.

История [ править ]

Термин стандартное отклонение был впервые использован в письменной форме Карлом Пирсоном в 1894 году после того, как он использовал его в лекциях. [17] [18] Это было заменой более ранних альтернативных названий той же идеи: например, Гаусс использовал среднюю ошибку . [19]

Более высокие измерения [ править ]

В двух измерениях стандартное отклонение может быть проиллюстрировано эллипсом стандартного отклонения, см. Многомерное нормальное распределение § Геометрическая интерпретация .

Эллипс стандартного отклонения (зеленый) двумерного нормального распределения.

См. Также [ править ]

  • 68–95–99.7 правило
  • Тщательность и точность
  • Неравенство Чебышева Неравенство по параметрам расположения и масштаба
  • Коэффициент вариации
  • Кумулянт
  • Отклонение (статистика)
  • Корреляция расстояния Стандартное отклонение расстояния
  • Панель ошибок
  • Стандартное геометрическое отклонение
  • Расстояние Махаланобиса, обобщающее число стандартных отклонений до среднего
  • Средняя абсолютная ошибка
  • Объединенная дисперсия
  • Распространение неопределенности
  • Процентиль
  • Необработанные данные
  • Устойчивое стандартное отклонение
  • Среднеквадратичное значение
  • Размер образца
  • Неравенство Самуэльсона
  • Шесть Сигм
  • Стандартная ошибка
  • Стандартный балл
  • Метод Ямартино для расчета стандартного отклонения направления ветра

Ссылки [ править ]

  1. ^ Бланд, JM; Альтман, Д.Г. (1996). «Статистические заметки: погрешность измерения» . BMJ . 312 (7047): 1654. DOI : 10.1136 / bmj.312.7047.1654 . PMC  2351401 . PMID  8664723 .
  2. ^ a b «Список вероятностных и статистических символов» . Математическое хранилище . 26 апреля 2020 . Проверено 21 августа 2020 .
  3. ^ Гаусс, Карл Фридрих (1816). "Bestimmung der Genauigkeit der Beobachtungen". Zeitschrift für Astronomie und Verwandte Wissenschaften . 1 : 187–197.
  4. ^ Уокер, Хелен (1931). Исследования по истории статистического метода . Балтимор, Мэриленд: Williams & Wilkins Co., стр. 24–25.
  5. ^ Вайсштейн, Эрик В. «Поправка Бесселя» . MathWorld .
  6. ^ «Формулы стандартного отклонения» . www.mathsisfun.com . Проверено 21 августа 2020 .
  7. ^ Вайсштейн, Эрик В. «Стандартное отклонение» . mathworld.wolfram.com . Проверено 21 августа 2020 .
  8. ^ Гурланд, Джон; Трипатхи, Ram C. (1971), "Простая аппроксимация на объективное оценивание стандартного отклонения", Американский Статистик , 25 (4): 30-32, DOI : 10,2307 / 2682923 , JSTOR 2682923 
  9. ^ Шиффлер, Рональд Э .; Харша, Филлип Д. (1980). «Верхняя и нижняя границы стандартного отклонения выборки». Статистика обучения . 2 (3): 84–86. DOI : 10.1111 / j.1467-9639.1980.tb00398.x .
  10. ^ Браун, Ричард Х. (2001). «Использование диапазона выборки в качестве основы для расчета размера выборки в расчетах мощности». Американский статистик . 55 (4): 293–298. DOI : 10.1198 / 000313001753272420 . JSTOR 2685690 . S2CID 122328846 .  
  11. ^ "Эксперименты ЦЕРНа наблюдают частицу, соответствующую давно искомому бозону Хиггса | Пресс-служба ЦЕРНа" . Press.web.cern.ch. 4 июля 2012 . Дата обращения 30 мая 2015 .
  12. ^ LIGO Scientific Collaboration, Virgo Collaboration (2016), «Наблюдение гравитационных волн в результате слияния двоичных черных дыр», Physical Review Letters , 116 (6): 061102, arXiv : 1602.03837 , Bibcode : 2016PhRvL.116f1102A , doi : 10.1103 / PhysRevLett .116.061102 , PMID 26918975 , S2CID 124959784  
  13. ^ «Что такое стандартное отклонение» . Безупречный . Проверено 29 октября 2011 года .
  14. ^ Ghahramani Саид (2000). Основы теории вероятностей (2-е изд.). Нью-Джерси: Прентис-Холл. п. 438 .
  15. ^ Эрик В. Вайсштейн. «Функция распределения» . MathWorld - Интернет-ресурс Wolfram . Проверено 30 сентября 2014 года .
  16. ^ Welford, BP (август 1962 г.). «Примечание о методе расчета исправленных сумм квадратов и произведений». Технометрика . 4 (3): 419–420. CiteSeerX 10.1.1.302.7503 . DOI : 10.1080 / 00401706.1962.10490022 . 
  17. ^ Dodge, Yadolah (2003). Оксфордский словарь статистических терминов . Издательство Оксфордского университета. ISBN 978-0-19-920613-1.
  18. ^ Пирсон, Карл (1894). «О рассечении несимметричных частотных кривых» . Философские труды Королевского общества А . 185 : 71–110. Полномочный код : 1894RSPTA.185 ... 71P . DOI : 10,1098 / rsta.1894.0003 .
  19. ^ Миллер, Джефф. «Самые ранние известные применения некоторых слов математики» .

Внешние ссылки [ править ]

  • "Квадратичное отклонение" , Энциклопедия математики , EMS Press , 2001 [1994]