Стандартная ошибка

Для значения, которое выбрано с несмещенной нормально распределенной ошибкой, приведенное выше показывает долю выборок, которая будет находиться между 0, 1, 2 и 3 стандартными отклонениями выше и ниже фактического значения.

Стандартная ошибка ( SE ) ^[1]^[2] из статистики (обычно подсчет параметра ) является стандартным отклонением ее выборочным распределения ^[3] или оценка этого стандартного отклонения. Если статистика представляет собой выборочное среднее значение, это называется стандартной ошибкой среднего ( SEM ). ^[2]

Распределение выборки среднего значения совокупности генерируется путем повторной выборки и регистрации полученных средних значений. Это формирует распределение различных средних, и это распределение имеет собственное среднее значение и дисперсию . Математически дисперсия полученного распределения выборки равна дисперсии генеральной совокупности, деленной на размер выборки. Это связано с тем, что по мере увеличения размера выборки средние значения выборки сгруппируются ближе к среднему значению генеральной совокупности.

Следовательно, соотношение между стандартной ошибкой среднего и стандартным отклонением таково, что для данного размера выборки стандартная ошибка среднего равна стандартному отклонению, деленному на квадратный корень из размера выборки. ^[2] Другими словами, стандартная ошибка среднего - это мера разброса выборочных средних вокруг среднего генерального.

В регрессионном анализе термин «стандартная ошибка» относится либо к квадратному корню из приведенной статистики хи-квадрат , либо к стандартной ошибке для определенного коэффициента регрессии (который используется, например, в доверительных интервалах ).

Стандартная ошибка среднего [ править ]

Точное значение [ править ]

Если статистически независимые выборки наблюдений взяты из статистической совокупности с стандартным отклонением от , то среднее значение , рассчитанное из образца будет иметь ассоциированную стандартную ошибку среднего значения по формуле: ^[2] ${\ displaystyle n}$ ${\ displaystyle x_ {1}, x_ {2}, \ ldots, x_ {n}}$ ${\ displaystyle \ sigma}$ ${\ displaystyle {\ bar {x}}}$ ${\ displaystyle {\ sigma} _ {\ bar {x}}}$

{\ displaystyle {\ sigma} _ {\ bar {x}} \ = {\ frac {\ sigma} {\ sqrt {n}}}}

.

На практике это говорит нам о том, что при попытке оценить значение среднего из-за фактора уменьшение ошибки оценки в два раза требует получения в четыре раза большего количества наблюдений в выборке; уменьшение его в десять раз требует в сто раз больше наблюдений. ${\ displaystyle 1 / {\ sqrt {n}}}$

Оценить [ править ]

Истинное стандартное отклонение всей выборки населения известно редко. Таким образом, стандартная ошибка среднего обычно оцениваются путем замены с стандартным отклонением выборки вместо: ${\ displaystyle \ sigma}$ ${\ displaystyle \ sigma}$ $\sigma _{x}$

{\sigma }_{\bar {x}}\ \approx {\frac {\sigma _{x}}{\sqrt {n}}}

.

Поскольку это только оценка истинной "стандартной ошибки", здесь часто встречаются другие обозначения, такие как:

{\widehat {\sigma _{\bar {x}}}}={\frac {\sigma _{x}}{\sqrt {n}}}

или поочередно .

\operatorname {s} _{\bar {x}}\ ={\frac {s}{\sqrt {n}}}

Общим источником путаницы возникает при отсутствии четко различать между стандартным отклонением населения ( ), стандартное отклонение выборки ( ), стандартное отклонение среднего само по себе ( , который является стандартная ошибка), а оценка из стандартное отклонение среднего ( которое является наиболее часто вычисляемой величиной и также часто в просторечии называется стандартной ошибкой ). $\sigma$ $\sigma _{x}$ $\sigma _{\bar {x}}$ ${\widehat {\sigma _{\bar {x}}}}$

Точность оценщика [ править ]

Когда размер выборки невелик, использование стандартного отклонения выборки вместо истинного стандартного отклонения генеральной совокупности будет иметь тенденцию к систематической недооценке стандартного отклонения генеральной совокупности, а, следовательно, и стандартной ошибки. При n = 2 занижение составляет около 25%, но для n = 6 занижение составляет всего 5%. Гурланд и Трипати (1971) предлагают поправку и уравнение для этого эффекта. ^[4] Сокал и Рольф (1981) приводят уравнение поправочного коэффициента для малых выборок n <20. ^[5] См. Несмещенную оценку стандартного отклонения для дальнейшего обсуждения.

Вывод [ править ]

Стандартная ошибка среднего может быть получена из дисперсии суммы независимых случайных величин ^{[6] с} учетом определения дисперсии и некоторых ее простых свойств . Если это независимые наблюдения от совокупности со средним значением и стандартным отклонением , то мы можем определить общую $x_{1},x_{2},\ldots ,x_{n}$ $n$ ${\bar {x}}$ $\sigma$

T=(x_{1}+x_{2}+\cdots +x_{n})

которые в силу формулы Биенайме будут иметь дисперсию

\operatorname {Var} (T)={\big (}\operatorname {Var} (x_{1})+\operatorname {Var} (x_{2})+\cdots +\operatorname {Var} (x_{n}){\big )}=n\sigma ^{2}.

Среднее значение этих измерений просто дается выражением ${\bar {x}}$

{\bar {x}}=T/n

.

Тогда дисперсия среднего составляет

\operatorname {Var} \left({\frac {T}{n}}\right)={\frac {1}{n^{2}}}\operatorname {Var} (T)={\frac {1}{n^{2}}}n\sigma ^{2}={\frac {\sigma ^{2}}{n}}.

Стандартная ошибка - это, по определению, стандартное отклонение, которое представляет собой квадратный корень из дисперсии: ${\bar {x}}$

\sigma _{\bar {x}}={\sqrt {\frac {\sigma ^{2}}{n}}}={\frac {\sigma }{\sqrt {n}}}

.

Независимые и одинаково распределенные случайные величины со случайным размером выборки [ править ]

Бывают случаи, когда образец берут, не зная заранее, сколько наблюдений будет приемлемым по тому или иному критерию. В таких случаях размер выборки является случайной величиной, вариация которой добавляется к вариации , так что, $N$ $X$

\operatorname {Var} (T)=\operatorname {E} (N)\operatorname {Var} (X)+\operatorname {Var} (N){\big (}\operatorname {E} (X){\big )}^{2}

^[7]

Если имеет распределение Пуассона , то с оценкой . Следовательно, оценка становится , приводя к следующей формуле для стандартной ошибки: $N$ $\operatorname {E} (N)=\operatorname {Var} (N)$ $N=n$ $\operatorname {Var} (T)$ $nS_{X}^{2}+n{\bar {X}}^{2}$

\operatorname {Standard~Error} ({\bar {X}})={\sqrt {\frac {S_{X}^{2}+{\bar {X}}^{2}}{n}}}

(поскольку стандартное отклонение - это квадратный корень из дисперсии)

Аппроксимация Стьюдента, когда значение σ неизвестно [ править ]

Во многих практических приложениях истинное значение σ неизвестно. В результате нам нужно использовать распределение, которое учитывает этот разброс возможных σ 'с. Когда известно, что истинное базовое распределение является гауссовым, хотя и с неизвестным σ, тогда полученное оцененное распределение следует t-распределению Стьюдента. Стандартная ошибка - это стандартное отклонение t-распределения Стьюдента. Т-распределения немного отличаются от гауссовых и варьируются в зависимости от размера выборки. Небольшие выборки с большей вероятностью недооценивают стандартное отклонение совокупности и имеют среднее значение, которое отличается от истинного среднего значения совокупности, а t-распределение Стьюдента учитывает вероятность этих событий с несколько более тяжелыми хвостами по сравнению с гауссовым. Для оценки стандартной ошибки t-распределения Стьюдента достаточно использовать стандартное отклонение выборки «s» вместо σ , и мы могли бы использовать это значение для вычисления доверительных интервалов.

Примечание. Распределение вероятностей Стьюдента хорошо аппроксимируется распределением Гаусса, когда размер выборки превышает 100. Для таких выборок можно использовать последнее распределение, которое намного проще.

Предположения и использование [ править ]

Пример того, как это используется, - это сделать доверительные интервалы неизвестного среднего значения совокупности. Если распределение выборки имеет нормальное распределение , среднее значение выборки, стандартная ошибка и квантили нормального распределения могут использоваться для расчета доверительных интервалов для истинного среднего значения генеральной совокупности. Следующие выражения могут быть использованы для вычисления верхней и нижней 95% доверительные пределы, где равно выборочного среднего, равна стандартной погрешности для выборочного среднего и 1,96 приблизительное значение 97,5 процентиля точки нормального распространение : $\operatorname {SE}$ ${\bar {x}}$ $\operatorname {SE}$

Верхний предел 95% и

={\bar {x}}+(\operatorname {SE} \times 1.96),

Нижний предел 95%

={\bar {x}}-(\operatorname {SE} \times 1.96).

В частности, стандартная ошибка выборочной статистики (например, выборочное среднее ) - это фактическое или расчетное стандартное отклонение выборочного среднего в процессе, с помощью которого оно было создано. Другими словами, это фактическое или оценочное стандартное отклонение выборочного распределения статистической выборки. Обозначение для стандартной ошибки может быть любым из SE, SEM (для стандартной ошибки измерения или среднего ), или S _E .

Стандартные ошибки обеспечивают простые меры неопределенности значения и часто используются, потому что:

во многих случаях, если известна стандартная ошибка нескольких отдельных величин, то стандартную ошибку некоторой функции величин можно легко вычислить;
когда распределение вероятностей значения известно, его можно использовать для вычисления точного доверительного интервала ;
когда распределение вероятностей неизвестно, для расчета консервативного доверительного интервала можно использовать неравенства Чебышева или Высочанского – Петунина ; и
поскольку размер выборки стремится к бесконечности, центральная предельная теорема гарантирует, что выборочное распределение среднего является асимптотически нормальным .

Стандартная ошибка среднего значения по сравнению со стандартным отклонением [ править ]

В научно-технической литературе экспериментальные данные часто суммируются либо с использованием среднего значения и стандартного отклонения выборочных данных, либо среднего значения со стандартной ошибкой. Это часто приводит к путанице в отношении их взаимозаменяемости. Однако среднее значение и стандартное отклонение являются описательной статистикой , тогда как стандартная ошибка среднего значения описывает процесс случайной выборки. Стандартное отклонение данных выборки - это описание вариации в измерениях, в то время как стандартная ошибка среднего - это вероятностное утверждение о том, как размер выборки обеспечит лучшую границу оценок среднего для генеральной совокупности в свете центрального предела. теорема. ^[8]

Проще говоря, стандартная ошибка выборочного среднего - это оценка того, насколько далеко среднее значение выборки может быть от среднего значения по генеральной совокупности, тогда как стандартное отклонение выборки - это степень, в которой отдельные лица в выборке отличаются от выборочного среднего. ^[9] Если стандартное отклонение генеральной совокупности конечно, стандартная ошибка среднего значения выборки будет стремиться к нулю с увеличением размера выборки, потому что оценка среднего генерального значения улучшится, а стандартное отклонение выборки будет иметь тенденцию приближаться к стандартное отклонение генеральной совокупности при увеличении размера выборки.

Расширения [ править ]

Поправка на конечное население [ править ]

Приведенная выше формула для стандартной ошибки предполагает, что размер выборки намного меньше размера генеральной совокупности, так что совокупность может считаться фактически бесконечной по размеру. Обычно это имеет место даже в случае конечных популяций, потому что большую часть времени люди в первую очередь заинтересованы в управлении процессами, которые создали существующую конечную популяцию; это называется аналитическим исследованием вслед за У. Эдвардсом Демингом . Если люди заинтересованы в управлении существующей конечной совокупностью, которая не будет меняться со временем, то необходимо внести поправку в размер популяции; это называется перечислительным исследованием .

Когда доля выборки велика (приблизительно 5% или более) в переписном исследовании , оценка стандартной ошибки должна быть скорректирована путем умножения на «поправку на конечную совокупность»: ^[10]^[11]

\operatorname {FPC} ={\sqrt {\frac {N-n}{N-1}}}

что для больших N :

\operatorname {FPC} \approx {\sqrt {1-{\frac {n}{N}}}}

чтобы учесть дополнительную точность, полученную за счет выборки, близкой к большему проценту населения. Эффект FPC является то , что ошибка становится равной нулю , когда размер выборки п равен размеру популяции N .

Поправка на корреляцию в образце [ править ]

Ожидаемая ошибка среднего значения A для выборки из n точек данных с коэффициентом смещения выборки ρ . Несмещенная стандартная ошибка строится как диагональная линия ρ = 0 с логарифмическим наклоном −½.

Если значения измеряемой величины A не являются статистически независимыми, но были получены из известных местоположений в пространстве параметров x , несмещенная оценка истинной стандартной ошибки среднего (фактически поправка на часть стандартного отклонения) может быть получена путем умножения рассчитанная стандартная ошибка выборки по коэффициенту f :

f={\sqrt {\frac {1+\rho }{1-\rho }}},

где коэффициент смещения выборки ρ - это широко используемая оценка Прайса – Винстена коэффициента автокорреляции (величина от -1 до +1) для всех пар точек выборки. Эта приблизительная формула предназначена для выборки среднего и большого размера; Справочник дает точные формулы для любого размера выборки и может применяться к сильно автокоррелированным временным рядам, таким как котировки акций Уолл-стрит. Более того, эта формула работает как для положительных, так и для отрицательных значений ρ. ^[12] См. Также объективную оценку стандартного отклонения для более подробного обсуждения.

См. Также [ править ]

Иллюстрация центральной предельной теоремы
Допустимая погрешность
Вероятная ошибка
Стандартная ошибка средневзвешенного значения
Среднее значение выборки и ковариация выборки
Стандартная ошибка медианы
Дисперсия

Ссылки [ править ]

^ «Список вероятностных и статистических символов» . Математическое хранилище . 2020-04-26 . Проверено 12 сентября 2020 .
^ a b c d Альтман, Дуглас Дж. Блэнд, Дж. Мартин (2005-10-15). «Стандартные отклонения и стандартные ошибки» . BMJ: Британский медицинский журнал . 331 (7521): 903. ISSN 0959-8138 . PMC 1255808 . PMID 16223828 .
^ Everitt, BS (2003). Кембриджский статистический словарь . ЧАШКА. ISBN 978-0-521-81099-9.
^ Gurland, J; Трипати RC (1971). «Простое приближение для объективной оценки стандартного отклонения». Американский статистик . 25 (4): 30–32. DOI : 10.2307 / 2682923 . JSTOR 2682923 .
^ Сокаль; Рольф (1981). Биометрия: принципы и практика статистики в биологических исследованиях (2-е изд.). п. 53 . ISBN 978-0-7167-1254-1.
^ Хатчинсон, Т.П. Основы статистических методов, на 41 странице . Аделаида: Рамсби. ISBN 978-0-646-12621-0.
^ Корнелл, младший, и Бенджамин, Калифорния, Вероятность, статистика и решения для инженеров-строителей, McGraw-Hill, NY, 1970, ISBN 0486796094 , стр. 178–9.
^ Барде, М. (2012). «Что использовать для выражения изменчивости данных: стандартное отклонение или стандартная ошибка среднего?» . Перспектива. Clin. Res. 3 (3): 113–116. DOI : 10.4103 / 2229-3485.100662 . PMC 3487226 . PMID 23125963 .
^ Wassertheil-Smoller, Sylvia (1995). Биостатистика и эпидемиология: учебник для медицинских работников (второе изд.). Нью-Йорк: Спрингер. С. 40–43. ISBN 0-387-94388-9.
^ Isserlis, Л. (1918). «О значении среднего, рассчитанного по выборке» . Журнал Королевского статистического общества . 81 (1): 75–81. DOI : 10.2307 / 2340569 . JSTOR 2340569 . (Уравнение 1)
^ Бонди, Уоррен; Злот, Уильям (1976). «Стандартная ошибка среднего и разница между средними для конечных совокупностей». Американский статистик . 30 (2): 96–97. DOI : 10.1080 / 00031305.1976.10479149 . JSTOR 2683803 . (Уравнение 2)
^ Бенс, Джеймс Р. (1995). «Анализ коротких временных рядов: коррекция на автокорреляцию» . Экология . 76 (2): 628–639. DOI : 10.2307 / 1941218 . JSTOR 1941218 .

[1] «Список вероятностных и статистических символов» . Математическое хранилище . 2020-04-26 . Проверено 12 сентября 2020 .

[:0-2] Альтман, Дуглас Дж. Блэнд, Дж. Мартин (2005-10-15). «Стандартные отклонения и стандартные ошибки» . BMJ: Британский медицинский журнал . 331 (7521): 903. ISSN 0959-8138 . PMC 1255808 . PMID 16223828 .

[3] Everitt, BS (2003). Кембриджский статистический словарь . ЧАШКА. ISBN 978-0-521-81099-9.

[4] Gurland, J; Трипати RC (1971). «Простое приближение для объективной оценки стандартного отклонения». Американский статистик . 25 (4): 30–32. DOI : 10.2307 / 2682923 . JSTOR 2682923 .

[5] Сокаль; Рольф (1981). Биометрия: принципы и практика статистики в биологических исследованиях (2-е изд.). п. 53 . ISBN 978-0-7167-1254-1.

[6] Хатчинсон, Т.П. Основы статистических методов, на 41 странице . Аделаида: Рамсби. ISBN 978-0-646-12621-0.

[7] Корнелл, младший, и Бенджамин, Калифорния, Вероятность, статистика и решения для инженеров-строителей, McGraw-Hill, NY, 1970, ISBN 0486796094 , стр. 178–9.

[8] Барде, М. (2012). «Что использовать для выражения изменчивости данных: стандартное отклонение или стандартная ошибка среднего?» . Перспектива. Clin. Res. 3 (3): 113–116. DOI : 10.4103 / 2229-3485.100662 . PMC 3487226 . PMID 23125963 .

[9] Wassertheil-Smoller, Sylvia (1995). Биостатистика и эпидемиология: учебник для медицинских работников (второе изд.). Нью-Йорк: Спрингер. С. 40–43. ISBN 0-387-94388-9.

[10] Isserlis, Л. (1918). «О значении среднего, рассчитанного по выборке» . Журнал Королевского статистического общества . 81 (1): 75–81. DOI : 10.2307 / 2340569 . JSTOR 2340569 . (Уравнение 1)

[11] Бонди, Уоррен; Злот, Уильям (1976). «Стандартная ошибка среднего и разница между средними для конечных совокупностей». Американский статистик . 30 (2): 96–97. DOI : 10.1080 / 00031305.1976.10479149 . JSTOR 2683803 . (Уравнение 2)

[12] Бенс, Джеймс Р. (1995). «Анализ коротких временных рядов: коррекция на автокорреляцию» . Экология . 76 (2): 628–639. DOI : 10.2307 / 1941218 . JSTOR 1941218 .

[1]