Допустимая погрешность

Плотность вероятности опросов разного размера, каждый из которых имеет цветовую кодировку, соответствующую его 95% доверительному интервалу (ниже), пределу погрешности (слева) и размеру выборки (справа). Каждый интервал отражает диапазон, в котором можно иметь 95% -ную уверенность в том, что истинный процент может быть найден, если сообщаемый процент составляет 50%. Погрешность составляет половина доверительного интервала (кроме того , радиус интервала). Чем больше выборка, тем меньше погрешность. Кроме того, чем меньше заявленный процент от 50%, тем меньше погрешность.

Погрешность является статистической выражающим количествами случайной ошибки выборки в результатах опроса . Чем больше погрешность, тем меньше уверенности в том, что результат опроса будет отражать результат опроса всего населения . Допустимая погрешность будет положительной, если выборка из генеральной совокупности произведена не полностью и показатель результата имеет положительную дисперсию , то есть показатель варьируется .

Термин "погрешность" часто используется в контексте, не связанном с обследованием, для обозначения ошибки наблюдения при сообщении измеренных величин. Он также используется в разговорной речи для обозначения количества пространства или степени гибкости, которую можно иметь при достижении цели. Например, его часто используют в спорте комментаторы, когда описывают, сколько точности требуется для достижения цели, очков или результата. Боулинг , используемый в Соединенных Штатах 4,75 дюйма в ширину, и мяч составляет 8,5 дюйма в ширину, поэтому можно сказать , котелок имеет 21,75 дюйма предел ошибки при попытке ударить определенную булавку , чтобы заработать запасной (например, 1 контактный оставаясь на переулке).

Концепция [ править ]

Рассмотрим простой да / нет опроса в качестве образца респондентов , отобранных из населения , сообщающих процент от да ответов. Мы хотели бы знать, насколько близок к истинному результат опрос всего населения без необходимости его проведения. Если бы, гипотетически, мы должны были провести опрос среди последующих выборок респондентов (недавно отобранных ), мы бы ожидали, что эти последующие результаты будут нормально распределены . Погрешность описывает расстояние , в пределах которого определенный процент этих результатов , как ожидается, варьируется от . ${\ displaystyle P}$ ${\ displaystyle n}$ ${\ Displaystyle N {\ текст {,}} (п << N)}$ ${\ displaystyle p}$ ${\ displaystyle p}$ ${\ displaystyle N}$ ${\ displaystyle P}$ ${\ displaystyle n}$ ${\ displaystyle N}$ ${\ displaystyle p_ {1}, p_ {2}, \ ldots}$ ${\ displaystyle {\ overline {p}}}$ ${\ displaystyle {\ overline {p}}}$

Согласно правилу 68-95-99,7 , мы ожидаем, что 95% результатов будут находиться в пределах примерно двух стандартных отклонений ( ) по обе стороны от истинного среднего . Этот интервал называется доверительным интервалом , а радиус (половина интервала) называется пределом погрешности , что соответствует уровню достоверности 95% . ${\ displaystyle p_ {1}, p_ {2}, \ ldots}$ $\pm 2\sigma _{P}$ ${\overline {p}}$

Как правило, на уровне достоверности выборка из совокупности, имеющей ожидаемое стандартное отклонение, имеет предел погрешности. $\gamma$ $n$ $\sigma$

MOE_{\gamma }=z_{\gamma }\times {\sqrt {\frac {\sigma ^{2}}{n}}}

где обозначает квантиль (также обычно z-оценку ), а - стандартная ошибка . $z_{\gamma }$ ${\sqrt {\frac {\sigma ^{2}}{n}}}$

Стандартное отклонение и стандартная ошибка [ править ]

Мы ожидаем, что нормально распределенные значения будут иметь стандартное отклонение, которое так или иначе зависит от . Чем меньше , тем шире поле. Это называется стандартной ошибкой . $p_{1},p_{2},\ldots$ $n$ $n$ $\sigma _{\overline {p}}$

Для единственного результата нашего опроса мы предполагаем, что и все последующие результаты вместе будут иметь дисперсию . $p={\overline {p}}$ $p_{1},p_{2},\ldots$ $\sigma _{P}^{2}=P(1-P)$

{\text{Standard error}}=\sigma _{\overline {p}}\approx {\sqrt {\frac {\sigma _{P}^{2}}{n}}}\approx {\sqrt {\frac {p(1-p)}{n}}}

Обратите внимание, что это соответствует дисперсии распределения Бернулли . $p(1-p)$

Максимальная погрешность при различных уровнях достоверности [ править ]

Для уровня достоверности существует соответствующий доверительный интервал для среднего , то есть интервал, в который значения должны попадать с вероятностью . Точные значения даются функцией квантиля нормального распределения (которое аппроксимирует правило 68-95-99,7). $\gamma$ $\mu \pm z_{\gamma }\sigma$ $[\mu -z_{\gamma }\sigma ,\mu +z_{\gamma }\sigma ]$ $P$ $\gamma$ $z_{\gamma }$

Обратите внимание, что для не определено , то есть не определено, как есть . $z_{\gamma }$ $|\gamma |\geq 1$ $z_{1.00}$ $z_{1.10}$

$\gamma$	$z_{\gamma }$	$\gamma$	$z_{\gamma }$
0,68	0,994 457 883 210	0,999	3,290 526 731 492
0,90	1.644 853 626 951	0,9999	3,890 591 886 413
0,95	1,959963984540	0,99999	4,417 173 413 469
0,98	2,326 347 874 041	0,999999	4,891 638 475 699
0,99	2,575 829 303 549	0,9999999	5,326 723 886 384
0,995	2,807 033 768 344	0,99999999	5,730 728 868 236
0,997	2,967 737 925 342	0,999999999	6,109 410 204 869

Логарифмические графики зависимости размера выборки n и уровня достоверности γ . Стрелки показывают, что максимальная погрешность для выборки размером 1000 составляет ± 3,1% при уровне достоверности 95% и ± 4,1% при 99%. Вставная парабола иллюстрирует связь между at и at

MOE_{\gamma }(0.5)

\sigma _{p}^{2}=p-p^{2}

\sigma _{p}^{2}

p=.0.71

\sigma _{max}^{2}

p=.0.5

Так как при , мы можем произвольно установить , высчитывает , и получить максимальную погрешность для при заданном уровне доверительной и размер выборки , даже до того , что фактические результаты. С $\max \sigma _{P}^{2}=\max P(1-P)=0.25$ $p=0.5$ $p={\overline {p}}=0.5$ $\sigma _{P}$ $\sigma _{\overline {p}}$ $z_{\gamma }\sigma _{\overline {p}}$ $P$ $\gamma$ $n$ $p=0.5,n=1013$

MOE_{95}(0.5)=z_{0.95}\sigma _{\overline {p}}\approx z_{0.95}{\sqrt {\frac {\sigma _{P}^{2}}{n}}}=1.96{\sqrt {\frac {.25}{n}}}=0.98/{\sqrt {n}}=\pm 3.1\%

MOE_{99}(0.5)=z_{0.99}\sigma _{\overline {p}}\approx z_{0.99}{\sqrt {\frac {\sigma _{P}^{2}}{n}}}=2.58{\sqrt {\frac {.25}{n}}}=1.29/{\sqrt {n}}=\pm 4.1\%

Кроме того, полезно для любых заявленных $MOE_{95}$

MOE_{99}={\frac {z_{0.99}}{z_{0.95}}}MOE_{95}\approx 1.3\times MOE_{95}

Конкретные пределы ошибки [ править ]

Если опрос дает несколько процентных результатов (например, опрос, измеряющий одно предпочтение с множественным выбором), результат, наиболее близкий к 50%, будет иметь наибольшую погрешность. Обычно именно это число указывается как предел погрешности для всего опроса. Представьте отчеты об опросах как $P$ $p_{a},p_{b},p_{c}$ $71\%,27\%,2\%,n=1013$

MOE_{95}(P_{a})=z_{0.95}\sigma _{\overline {p_{a}}}\approx 1.96{\sqrt {\frac {p_{a}(1-p_{a})}{n}}}=0.89/{\sqrt {n}}=\pm 2.8\%

(как на рисунке выше)

MOE_{95}(P_{b})=z_{0.95}\sigma _{\overline {p_{b}}}\approx 1.96{\sqrt {\frac {p_{b}(1-p_{b})}{n}}}=0.87/{\sqrt {n}}=\pm 2.7\%

MOE_{95}(P_{c})=z_{0.95}\sigma _{\overline {p_{c}}}\approx 1.96{\sqrt {\frac {p_{c}(1-p_{c})}{n}}}=0.27/{\sqrt {n}}=\pm 0.8\%

Когда данный процент приближается к крайним значениям 0% или 100%, его погрешность приближается к ± 0%.

Сравнение процентов [ править ]

Представьте себе отчеты об опросах с несколькими вариантами ответов как . Как описано выше, предел погрешности сообщили для опроса, как правило , быть , а ближе всего к 50%. Популярное понятие статистической связи или статистической ничьей , однако, касается не точности отдельных результатов, а точности ранжирования результатов. Что в первую очередь? $P$ $p_{a},p_{b},p_{c}$ $46\%,42\%,12\%,n=1013$ $MOE_{95}(P_{a})$ $p_{a}$

Если бы, гипотетически, мы должны были провести опрос среди последующих выборок респондентов (недавно отобранных ) и сообщить результат , мы могли бы использовать стандартную ошибку различия, чтобы понять, как ожидается падение . Для этого нам нужно применить сумму отклонений , чтобы получить новую дисперсию, , $P$ $n$ $N$ $p_{w}=p_{a}-p_{b}$ $p_{w_{1}},p_{w_{2}},p_{w_{3}},\ldots$ ${\overline {p_{w}}}$ $\sigma _{P_{w}}^{2}$

\sigma _{P_{w}}^{2}=\sigma _{P_{a}-P_{b}}^{2}=\sigma _{P_{a}}^{2}+\sigma _{P_{b}}^{2}-2\sigma _{P_{a},P_{b}}=p_{a}(1-p_{a})+p_{b}(1-p_{b})+2p_{a}p_{b}

где является ковариационной из и . $\sigma _{P_{a},P_{b}}=-P_{a}P_{b}$ $P_{a}$ $P_{b}$

Таким образом (после упрощения),

{\text{Standard error of difference}}=\sigma _{\overline {w}}\approx {\sqrt {\frac {\sigma _{P_{w}}^{2}}{n}}}={\sqrt {\frac {p_{a}+p_{b}-(p_{a}-p_{b})^{2}}{n}}}=0.029,P_{w}=P_{a}-P_{b}

MOE_{95}(P_{a})=z_{0.95}\sigma _{\overline {p_{a}}}\approx \pm {3.1\%}

MOE_{95}(P_{w})=z_{0.95}\sigma _{\overline {w}}\approx \pm {5.8\%}

Обратите внимание, что это предполагает, что это значение близко к постоянному, то есть респонденты, выбирающие либо A, либо B, почти никогда не выберут C (обеспечивая и близкую к совершенно отрицательной корреляции ). При более близком соперничестве трех или более вариантов выбор правильной формулы для становится более сложным. $P_{c}$ $P_{a}$ $P_{b}$ $\sigma _{P_{w}}^{2}$

Эффект конечной численности населения [ править ]

Приведенные выше формулы для погрешности предполагают, что существует бесконечно большая совокупность, и, следовательно, зависят не от размера совокупности , а только от размера выборки . Согласно теории выборки , это предположение является разумным, когда доля выборки мала. Допустимая погрешность для конкретного метода выборки по существу одинакова независимо от того, является ли исследуемая популяция размером школы, города, штата или страны, если доля выборки мала. $N$ $n$

В случаях, когда доля выборки больше (на практике более 5%), аналитики могут скорректировать допустимую погрешность, используя поправку на конечную совокупность, чтобы учесть дополнительную точность, полученную при выборке гораздо большего процента генеральной совокупности. FPC можно рассчитать по формуле ^[1]

\operatorname {FPC} ={\sqrt {\frac {N-n}{N-1}}}

... и так, если бы опрос проводился более чем 24%, скажем, электората в 300 000 избирателей $P$

MOE_{95}(0.5)=z_{0.95}\sigma _{\overline {p}}\approx {\frac {0.98}{\sqrt {72,000}}}=\pm 0.4\%

MOE_{95_{FPC}}(0.5)=z_{0.95}\sigma _{\overline {p}}{\sqrt {\frac {N-n}{N-1}}}\approx {\frac {0.98}{\sqrt {72,000}}}{\sqrt {\frac {300,000-72,000}{300,000-1}}}=\pm 0.3\%

Интуитивно, для соответствующего большого , $N$

\lim _{n\to 0}{\sqrt {\frac {N-n}{N-1}}}\approx 1

\lim _{n\to N}{\sqrt {\frac {N-n}{N-1}}}=0

В первом случае она настолько мала, что не требует коррекции. В последнем случае, опрос фактически становится переписи и ошибки выборки становится спорным. $n$

См. Также [ править ]

Инженерная терпимость
Ключевая актуальность
Погрешность измерения
Ошибка наблюдения
Случайная ошибка

Примечания [ править ]

^ Isserlis, Л. (1918). «О значении среднего, рассчитанного по выборке» . Журнал Королевского статистического общества . Блэквелл Паблишинг. 81 (1): 75–81. DOI : 10.2307 / 2340569 . JSTOR 2340569 . (Уравнение 1)

Ссылки [ править ]

Судман, Сеймур и Брэдберн, Норман (1982). Задавая вопросы: Практическое руководство по разработке анкеты . Сан-Франциско: Джосси Басс. ISBN 0-87589-546-8
Воннакотт, Т.Х. и Р.Дж. Воннакотт (1990). Вводная статистика (5-е изд.). Вайли. ISBN 0-471-61518-8.

Внешние ссылки [ править ]

В Викиучебнике есть дополнительная информация по теме: Допустимая погрешность

"Ошибки, теория" , Энциклопедия математики , EMS Press , 2001 [1994]
Вайсштейн, Эрик В. "Допустимая погрешность" . MathWorld .

[1] Isserlis, Л. (1918). «О значении среднего, рассчитанного по выборке» . Журнал Королевского статистического общества . Блэквелл Паблишинг. 81 (1): 75–81. DOI : 10.2307 / 2340569 . JSTOR 2340569 . (Уравнение 1)