Систематическая ошибка выборки


В статистике систематическая ошибка выборки — это систематическая ошибка , при которой выборка собирается таким образом, что некоторые члены предполагаемой генеральной совокупности имеют более низкую или более высокую вероятность выборки , чем другие. Это приводит к смещенной выборке [1] популяции (или нечеловеческих факторов), в которой все люди или экземпляры не были выбраны с одинаковой вероятностью. [2] Если это не учитывать, результаты могут быть ошибочно отнесены к изучаемому явлению, а не к методу отбора проб .

В медицинских источниках систематическая ошибка выборки иногда упоминается как систематическая ошибка установления . [3] [4] Предвзятость установления имеет в основном такое же определение, [5] [6] , но все еще иногда классифицируется как отдельный тип предвзятости. [5]

Систематическая ошибка выборки обычно классифицируется как подтип систематической ошибки выборки , [7] иногда конкретно называемая систематической ошибкой выборочной выборки , [8] [9] [10] , но некоторые классифицируют ее как отдельный тип систематической ошибки. [11] Различие, хотя и не общепризнанное, систематической ошибки выборки заключается в том, что она подрывает внешнюю валидность теста (способность его результатов распространяться на всю популяцию), в то время как систематическая ошибка выборки в основном связана с внутренней валидностью .различия или сходства, обнаруженные в рассматриваемом образце. В этом смысле ошибки, возникающие в процессе сбора выборки или когорты, вызывают систематическую ошибку выборки, тогда как ошибки в любом последующем процессе вызывают систематическую ошибку выборки.

Изучение медицинских состояний начинается с анекдотических сообщений. По своему характеру такие отчеты включают только те, которые направлены для диагностики и лечения. У ребенка, который не может нормально учиться в школе, чаще диагностируют дислексию , чем у ребенка, который борется, но сдается. Ребенок, обследованный на наличие одного состояния, с большей вероятностью будет проверен и диагностирован с другими состояниями, что искажает статистику сопутствующих заболеваний . По мере того, как определенные диагнозы становятся связанными с проблемами поведения или умственной отсталостью , родители пытаются предотвратить стигматизацию своих детей из-за этих диагнозов, что способствует дальнейшему предубеждению. Исследования, тщательно отобранные из целых популяций, показывают, что многие состояния встречаются гораздо чаще и обычно намного мягче, чем считалось ранее.

Генетики ограничены в том, как они могут получить данные от человеческих популяций. В качестве примера рассмотрим характеристику человека. Нам интересно решить, наследуется ли характеристика как простая менделевская черта. Согласно законам менделевской наследственности , если родители в семье не имеют признака, но несут его аллель, они являются носителями (например, неэкспрессивные гетерозиготы ). В этом случае каждый из их детей будет иметь 25%-й шанс проявить характеристику. Проблема возникает из-за того, что мы не можем сказать, в каких семьях оба родителя являются носителями (гетерозиготными), если только у них нет ребенка, проявляющего эту характеристику. Описание следует учебнику Саттона. [13]

На рисунке представлены родословные всех возможных семей с двумя детьми, когда родители являются носителями (Аа).


Простой родословный пример систематической ошибки выборки
Пример необъективной выборки: по состоянию на июнь 2008 г. 55% используемых веб-браузеров ( Internet Explorer ) не прошли тест Acid2 . Из-за характера теста выборка состояла в основном из веб-разработчиков. [16]