Ошибка выборки

В статистических данных , ошибки выборки понесены , когда статистические характеристики населения , по оценкам из подмножества, или образца , в этой популяции. Поскольку выборка не включает всех членов генеральной совокупности, статистика выборки (часто называемая оценками ), такая как средние значения и квартили, обычно отличается от статистики всей генеральной совокупности (известной как параметры ). Разница между статистикой выборки и параметром совокупности считается ошибкой выборки . ^[1] Например, если измерить рост тысячи человек из миллиона человек, средний рост тысячи, как правило, не совпадает со средним ростом всего миллиона человек в стране.

Поскольку выборка почти всегда проводится для оценки неизвестных параметров совокупности, точное измерение ошибок выборки по определению невозможно; однако они часто могут быть оценены либо общими методами, такими как бутстреппинг , либо специальными методами, включающими некоторые допущения (или предположения) относительно истинного распределения населения и его параметров. ^[2]

Описание [ править ]

Ошибка выборки [ править ]

Ошибка выборки - это ошибка, вызванная наблюдением за выборкой, а не за всей совокупностью. ^[1] Ошибка выборки - это разница между статистикой выборки, используемой для оценки параметра совокупности, и фактическим, но неизвестным значением параметра. ^[3]

Эффективная выборка [ править ]

В статистике действительно случайная выборка означает отбор людей из популяции с эквивалентной вероятностью ; другими словами, беспристрастный выбор людей из группы. Несоблюдение этого правила приведет к смещению выборки , что может резко увеличить ошибку выборки в систематическомспособ. Например, попытка измерить средний рост всего человеческого населения Земли, но измерение выборки только из одной страны, может привести к значительному завышению или занижению оценки. В действительности получение объективной выборки может быть затруднено, поскольку многие параметры (в данном примере страна, возраст, пол и т. Д.) Могут сильно влиять на оценку, и необходимо убедиться, что ни один из этих факторов не играет роли в процессе отбора. .

Даже в совершенно непредвзятой выборке ошибка выборки все равно будет существовать из-за оставшейся статистической составляющей; Учтите, что измерение только двух или трех человек и взятие среднего значения каждый раз будет приводить к сильно различающимся результатам. Вероятный размер ошибки выборки, как правило, можно уменьшить, взяв большую выборку. ^[4]

Определение размера выборки [ править ]

Стоимость увеличения размера выборки в действительности может быть непомерно высокой. Поскольку ошибку выборки часто можно оценить заранее как функцию размера выборки, используются различные методы определения размера выборки , чтобы сопоставить прогнозируемую точность оценщика с прогнозируемыми затратами на выборку большего размера.

Загрузка и стандартная ошибка [ править ]

Как уже говорилось, статистика выборки, такая как среднее или процентное значение, обычно будет зависеть от выборки. ^[1] Путем сравнения множества выборок или разделения большей выборки на более мелкие (потенциально с перекрытием) разброс итоговой статистики выборки можно использовать для оценки стандартной ошибки выборки.

В генетике [ править ]

Термин «ошибка выборки» также использовался в родственном, но принципиально ином смысле в области генетики ; например, в эффекте «бутылочного горлышка» или « эффекте основателя» , когда стихийные бедствия или миграции резко сокращают размер популяции, что приводит к уменьшению численности населения, которое может или не может точно представлять первоначальную. Это источник генетического дрейфа , поскольку определенные аллели становятся более или менее распространенными), и это называется «ошибкой выборки» ^[5], несмотря на то, что не является «ошибкой» в статистическом смысле.

См. Также [ править ]

Ссылки [ править ]

Викискладе есть медиафайлы, связанные с ошибкой выборки .

^ a b c Сарндал, Свенсон и Ретман (1992), Model Assisted Survey Sampling, Springer-Verlag, ISBN 0-387-40620-4
^ Кабанн, Вивьен; Руди, Алессандро; Бах, Фрэнсис (2021). «Быстрые темпы в структурированном прогнозировании». CoRR . arXiv : 2102.00760 .
^ Бернс, N .; Роща, СК (2009). Практика сестринского исследования: оценка, синтез и получение доказательств (6-е изд.). Сент-Луис, Миссури: Сондерс Эльзевьер. ISBN 978-1-4557-0736-2.
^ Scheuren, Fritz (2005). «Что такое допустимая погрешность?». Что такое опрос? (PDF) . Вашингтон, округ Колумбия: Американская статистическая ассоциация . Проверено 8 января 2008 .
^ Кэмпбелл, Нил А .; Рис, Джейн Б. (2002). Биология . Бенджамин Каммингс. С. 450–451. ISBN 0-536-68045-0.

[Sarndal-1] Сарндал, Свенсон и Ретман (1992), Model Assisted Survey Sampling, Springer-Verlag, ISBN 0-387-40620-4

[2] Кабанн, Вивьен; Руди, Алессандро; Бах, Фрэнсис (2021). «Быстрые темпы в структурированном прогнозировании». CoRR . arXiv : 2102.00760 .

[Burns_&_Grove,_2009-3] Бернс, N .; Роща, СК (2009). Практика сестринского исследования: оценка, синтез и получение доказательств (6-е изд.). Сент-Луис, Миссури: Сондерс Эльзевьер. ISBN 978-1-4557-0736-2.

[Scheuren-4] Scheuren, Fritz (2005). «Что такое допустимая погрешность?». Что такое опрос? (PDF) . Вашингтон, округ Колумбия: Американская статистическая ассоциация . Проверено 8 января 2008 .

[5] Кэмпбелл, Нил А .; Рис, Джейн Б. (2002). Биология . Бенджамин Каммингс. С. 450–451. ISBN 0-536-68045-0.

[1]