Из Википедии, бесплатной энциклопедии
  (Перенаправлено из выборки Biased )
Перейти к навигации Перейти к поиску

В статистических данных , выборки смещения является смещением , в котором образец собирает таким образом , что некоторые члены предполагаемого населения имеют более низкую или более высокую вероятность выборки , чем другие. Это приводит к смещенной выборке , неслучайной выборке [1] популяции (или нечеловеческим факторам), в которой не все люди или экземпляры с одинаковой вероятностью были отобраны. [2] Если это не учитывать, результаты могут быть ошибочно отнесены к изучаемому явлению, а не к методу выборки .

Медицинские источники иногда называют систематическую ошибку выборки ошибкой установления . [3] [4] Систематическая ошибка установления имеет в основном то же определение, [5] [6], но все же иногда классифицируется как отдельный тип ошибки. [5]

Отличие от систематической ошибки выбора [ править ]

Отбор проб смещения, как правило , классифицируются как подтип смещения выбора , [7] иногда называют специфически смещения выборки выбора , [8] [9] [10] , но некоторые классифицировать его как отдельный вид смещения. [11] Различие, хотя и не общепризнанное, систематической ошибки выборки состоит в том, что она подрывает внешнюю валидность теста (способность его результатов распространяться на всю совокупность), в то время как систематическая ошибка выборки в основном касается внутренней валидности.на предмет различий или сходств, обнаруженных в представленном образце. В этом смысле ошибки, возникающие в процессе сбора выборки или когорты, вызывают смещение выборки, тогда как ошибки в любом последующем процессе вызывают смещение выборки.

Однако систематическая ошибка выборки и систематическая ошибка выборки часто используются как синонимы. [12]

Типы [ править ]

  • Подборка из конкретной реальной местности . Например, опрос старшеклассников для измерения употребления незаконных наркотиков подростками будет предвзятым, поскольку он не включает учащихся, обучающихся на дому, или бросивших школу. Выборка также является смещенной, если одни члены недопредставлены или перепредставлены по сравнению с другими в генеральной совокупности. Например, интервью «человек с улицы», в ходе которого отбираются люди, проходящие мимо определенного места, будет иметь слишком большое количество здоровых людей, которые с большей вероятностью будут находиться вне дома, чем люди с хроническими заболеваниями. Это может быть крайней формой смещенной выборки, потому что определенные члены совокупности полностью исключены из выборки (то есть, у них есть нулевая вероятность быть выбранными).
  • Систематическая ошибка самоотбора (см.также систематическая ошибка отсутствия ответов ), которая возможна всякий раз, когда изучаемая группа людей имеет какую-либо форму контроля над тем, участвовать ли в ней (как тоготребуютсовременные стандарты этики исследования человека с участиеммногих людей в режиме реального времени, а некоторые лонгитюдные формы обучения). Решение участников об участии может быть коррелировано с характеристиками, которые влияют на исследование, что делает участников нерепрезентативной выборкой. Например, люди, у которых есть твердое мнение или существенные знания, могут с большей готовностью тратить время на ответы на вопросы опроса, чем те, у кого нет. Другой пример - онлайн-опросы и опросы по телефону., которые являются предвзятыми выборками, поскольку респонденты выбираются самостоятельно. Те люди, которые сильно мотивированы на ответ, обычно люди, которые придерживаются твердого мнения, перепредставлены, а люди, которые безразличны или апатичны, с меньшей вероятностью ответят. Это часто приводит к поляризации ответов, когда крайним точкам зрения придается непропорциональный вес в резюме. В результате такие опросы считаются ненаучными.
  • Предварительный отбор участников испытаний или реклама волонтеров в определенных группах. Например, исследование с целью «доказать», что курение не влияет на физическую форму, может набираться в местном фитнес-центре, но рекламироваться для курильщиков во время занятий по продвинутой аэробике и для некурящих во время сеансов похудания.
  • Ошибка исключения возникает из-за исключения определенных групп из выборки, например исключения субъектов, которые недавно мигрировали в исследуемую область (это может произойти, когда новоприбывших нет в регистре, используемом для идентификации исходной популяции). Исключение субъектов, которые покидают изучаемую зону во время последующего наблюдения, скорее эквивалентно выбыванию или отсутствию ответа, систематической ошибке отбора, которая скорее влияет на внутреннюю валидность исследования.
  • Предубеждение к здоровому пользователю , когда изучаемая популяция, вероятно, более здорова, чем население в целом. Например, человек со слабым здоровьем вряд ли будет работать физическим мастером.
  • Заблуждение Берксона , когда исследуемая популяция выбрана из больницы и поэтому менее здорова, чем население в целом. Это может привести к ложной отрицательной корреляции между заболеваниями: у больного пациента без диабета с большей вероятностью будет другое заболевание, такое как холецистит , поскольку у него должны были быть какие-то причины, чтобы попасть в больницу.
  • Overmatching , соответствие для видимой confounder , чтосамом деле является результатом воздействия [ разъяснение необходимости ] . Контрольная группа становится более похожей на пациенты в отношении воздействия, чем на население в целом.
  • Ошибка выживаемости , при которой отбираются только «выжившие» субъекты, игнорируя тех, которые выпали из поля зрения. Например, использование данных о текущих компаниях в качестве индикатора делового климата или экономики игнорирует предприятия, которые потерпели неудачу и больше не существуют.
  • Смещение Мальмквиста , эффект в наблюдательной астрономии, который приводит к предпочтительному обнаружению действительно ярких объектов.

Выборка на основе симптомов [ править ]

Изучение медицинских условий начинается с анекдотических отчетов. По своему характеру такие отчеты включают только те, которые направлены для диагностики и лечения. Ребенок, который не может учиться в школе, с большей вероятностью будет диагностирован с дислексией, чем ребенок, который борется, но проходит. Ребенок, обследованный на одно заболевание, с большей вероятностью будет проверен и диагностирован с другим заболеванием, что искажает статистику коморбидности . По мере того, как определенные диагнозы становятся связанными с проблемами поведения или умственной отсталостью , родители пытаются предотвратить стигматизацию своих детей с помощью этих диагнозов, внося дополнительную предвзятость. Исследования, тщательно отобранные из целых популяций, показывают, что многие состояния встречаются гораздо чаще и обычно намного мягче, чем считалось ранее.

Обрезать выбор в племенных исследованиях [ править ]

Простой пример родословной смещения выборки

Генетики ограничены в способах получения данных о человеческих популяциях. В качестве примера рассмотрим человеческую характеристику. Мы заинтересованы в том, чтобы решить, наследуется ли характеристика как простая менделевская черта. Согласно законам менделевского наследования , если родители в семье не имеют характеристики, но несут ее аллель, они являются носителями (например, неэкспрессивная гетерозигота ). В этом случае у каждого из детей будет 25% шанс показать характеристику. Проблема возникает из-за того, что мы не можем сказать, в каких семьях есть оба родителя в качестве носителей (гетерозиготные), если в них нет ребенка, который проявляет эту характеристику. Описание следует из учебника Саттона. [13]

На рисунке показаны родословные всех возможных семей с двумя детьми, когда родители являются носителями (Аа).

  • Неусеченный выбор . В идеальном мире мы должны быть в состоянии обнаружить все такие семьи с геном, включая тех, которые являются просто носителями. В этой ситуации анализ будет свободен от предвзятости установления, а родословные будут находиться в рамках «неуклонного отбора». На практике большинство исследований выявляют и включают семьи в исследование на основании того, что они имели затронутых лиц.
  • Обрезать выделение . Когда пораженные люди имеют равные шансы быть включенными в исследование, это называется усеченным отбором, означающим непреднамеренное исключение (усечение) семей, которые являются носителями гена. Поскольку отбор осуществляется на индивидуальном уровне, семьи с двумя или более затронутыми детьми будут иметь более высокую вероятность включения в исследование.
  • Полный усеченный отбор - это особый случай, когда каждая семья с затронутым ребенком имеет равные шансы быть отобранной для исследования.

Вероятность каждой из выбранных семей представлена ​​на рисунке, а также дана частота выборки затронутых детей. В этом простом случае, исследователь будет искать частоты 4 / 7 или 5 / 8 для характеристики, в зависимости от типа используемого усечения выбора.

Эффект пещерного человека [ править ]

Пример смещения отбора называется «эффектом пещерного человека». Большая часть нашего понимания доисторических народов происходит из пещер, таких как наскальные рисунки, сделанные почти 40 000 лет назад. Если бы существовали современные картины на деревьях, шкурах животных или склонах холмов, их бы давно смыло. Точно так же следы ям для костра, мусора , захоронений и т. Д., Скорее всего, останутся нетронутыми до современной эпохи в пещерах. Доисторические люди ассоциируются с пещерами, потому что там до сих пор существуют данные, не обязательно потому, что большинство из них прожили в пещерах большую часть своей жизни. [14]

Проблемы из-за смещения выборки [ править ]

Систематическая ошибка выборки проблематична, потому что возможно, что статистические данные, вычисленные по выборке, систематически ошибочны. Систематическая ошибка выборки может привести к систематической переоценке или недооценке соответствующего параметра в генеральной совокупности. Систематическая ошибка выборки возникает на практике, поскольку практически невозможно гарантировать абсолютную случайность выборки. Если степень искажения невелика, то выборку можно рассматривать как разумное приближение к случайной выборке. Кроме того, если выборка не отличается заметно по измеряемой величине, то смещенная выборка все же может быть разумной оценкой.

Слово предвзятость имеет сильный негативный оттенок. Действительно, предубеждения иногда возникают из-за намеренного введения в заблуждение или другого научного мошенничества . В статистическом использовании систематическая ошибка представляет собой просто математическое свойство, независимо от того, является ли оно преднамеренным или бессознательным, или вызвано несовершенством инструментов, используемых для наблюдения. Хотя некоторые люди могут намеренно использовать предвзятую выборку для получения вводящих в заблуждение результатов, чаще предвзятая выборка является просто отражением трудности получения действительно репрезентативной выборки или незнания предвзятости в их процессе измерения или анализа. Примером того, как может существовать незнание предвзятости, является широко распространенное использование отношения (также известного как кратное изменение) как мера различия в биологии. Поскольку легче достичь большого отношения с двумя маленькими числами с заданной разницей и относительно труднее достичь большого отношения с двумя большими числами с большей разницей, при сравнении относительно больших числовых измерений могут быть упущены большие существенные различия. Некоторые называют это «демаркационной предвзятостью», потому что использование соотношения (деления) вместо разницы (вычитания) переводит результаты анализа из науки в псевдонауку (см. « Проблема демаркации» ).

В некоторых выборках используется предвзятый статистический план, который, тем не менее, позволяет оценивать параметры. США Национальный центр статистики здравоохранения , например, намеренно oversamples из групп меньшинств во многих из своих общенациональных обследований с целью получения достаточной точности для оценок в рамках этих групп. [15] Эти обследования требуют использования весов выборки (см. Ниже) для получения правильных оценок по всем этническим группам. При соблюдении определенных условий (главным образом, при правильном вычислении и использовании весов) эти выборки позволяют точно оценить параметры совокупности.

Исторические примеры [ править ]

Пример предвзятой выборки: по состоянию на июнь 2008 г. 55% используемых веб-браузеров ( Internet Explorer ) не прошли тест Acid2 . Из-за характера теста выборка состояла в основном из веб-разработчиков. [16]

Классический пример предвзятого образца и недостоверные результаты этого проекта имели место в 1936 г. В первые дни опросов общественного мнения, американский литературный Digest журнал собрали более двух миллионов почтовых обследований и предсказали , что республиканский кандидат в президентских выборах в США , Альф Лэндон победит действующего президента Франклина Рузвельта, с большим отрывом. Результат был прямо противоположным. Обзор «Литературный дайджест» представляет собой выборку, собранную среди читателей журнала, дополненную записями зарегистрированных владельцев автомобилей и пользователей телефонов. Эта выборка включала чрезмерное представительство людей, которые были богатыми, которые как группа с большей вероятностью проголосовали бы за кандидата от республиканцев. Напротив, опрос только 50 тысяч граждан, выбранных организацией Джорджа Гэллапа , успешно предсказал результат, что привело к популярности опроса Гэллапа .

Другой классический пример произошел на президентских выборах 1948 года . В ночь выборов газета Chicago Tribune напечатала заголовок ДЬЮИ ПОБЕГАЕТ ТРУМЭНА , который оказался ошибочным. Утром ухмыляясь избранный президент , Гарри С. Трумэн , был сфотографирован держал газету , несущий этот заголовок. Причина ошибки Tribune заключается в том, что их редактор доверял результатам телефонного опроса . Опросные исследования были тогда в зачаточном состоянии, и лишь немногие ученые осознавали, что выборка пользователей телефонов не является репрезентативной для населения в целом. Телефоны еще не получили широкого распространения, а те, у кого они были, обычно были зажиточными и имели стабильные адреса. (Во многих городах Телефонный справочник Bell System содержал те же имена, что и Social Register ). Кроме того, опросу Gallup, на котором основывалась заголовок Tribune, было более двух недель на момент публикации. [17]

Более недавним примером является пандемия COVID-19 , где было показано , что вариации в систематической ошибке выборки при тестировании на COVID-19 объясняют большие различия как в показателях летальности, так и в возрастном распределении случаев заболевания по странам. [18] [19]

Статистические поправки для смещенной выборки [ править ]

Если из выборки исключаются целые сегменты населения, то корректировки, которые могут дать оценки, репрезентативные для всего населения, отсутствуют. Но если некоторые группы недопредставлены и степень недопредставленности может быть определена количественно, то веса выборки могут исправить смещение. Однако успех исправления ограничен выбранной моделью выбора. Если некоторые переменные отсутствуют, методы, используемые для исправления смещения, могут быть неточными. [20]

Например, гипотетическая популяция может включать 10 миллионов мужчин и 10 миллионов женщин. Предположим, что необъективная выборка из 100 пациентов включала 20 мужчин и 80 женщин. Исследователь может исправить этот дисбаланс, добавив гирю 2,5 для каждого мужчины и 0,625 для каждой женщины. Это приведет к корректировке любых оценок для достижения того же ожидаемого значения, что и для выборки, включающей ровно 50 мужчин и 50 женщин, если только мужчины и женщины не различаются по вероятности участия в опросе.

См. Также [ править ]

  • Цензурированная регрессионная модель
  • Сбор вишни (заблуждение)
  • Проблема с ящиком для файлов
  • Парадокс дружбы
  • Предвзятость сообщения
  • Вероятность выборки
  • Критерий отбора
  • Смещение спектра
  • Модель усеченной регрессии

Ссылки [ править ]

  1. Медицинский словарь - 'Sampling Bias' Проверено 23 сентября 2009 г. Архивировано 10 марта 2016 г. в Wayback Machine
  2. ^ TheFreeDictionary - предвзятый образец. Проверено 23 сентября 2009 г. Сайт в свою очередь цитирует: Медицинский словарь Мосби, 8-е издание.
  3. ^ Вайзинг, Курт (2005). Дактилоскопия ДНК у растений: принципы, методы и применения . Лондон: Taylor & Francis Group. п. 180 . ISBN 978-0-8493-1488-9.
  4. ^ Page 34 в: Выбор и связь desequilibrium испытания в сложных и демографии смещения выяснении Франческа Калафелл я Majo, Анна Рамирес я Сориано. Июль 2008 г.
  5. ^ a b Паначек: Ошибка в исследовании. Архивировано 17 августа 2016 г. в Wayback Machine Society for Academic Emergency Medicine . Проверено 14 ноября, 2009 г.
  6. ^ Медицинский словарь medilexicon - 'Ascertainment Bias' Архивировано 6 августа 2016 г. в Wayback Machine. Проверено 14 ноября 2009 г.
  7. ^ Словарь терминов по раку - предвзятость выбора, заархивировано 9 июня 2009 г.на Wayback Machine, получено 23 сентября 2009 г.
  8. ^ Ардс, Шейла; Чанг, Чанджин; Майерс, Сэмюэл Л. (1998). «Влияние смещения выборки на расовые различия в сообщениях о жестоком обращении с детьми». Жестокое обращение с детьми и безнадзорность . 22 (2): 103–115. DOI : 10.1016 / S0145-2134 (97) 00131-2 . PMID 9504213 . 
  9. ^ Кортес, Коринна; Мохри, Мехриар; Райли, Майкл; Ростамизаде, Афшин (2008). Теория коррекции смещения выборки при отборе (PDF) . Теория алгоритмического обучения . Конспект лекций по информатике. 5254 . С. 38–53. arXiv : 0805.2775 . CiteSeerX 10.1.1.144.4478 . DOI : 10.1007 / 978-3-540-87987-9_8 . ISBN   978-3-540-87986-2.
  10. ^ Кортес, Коринна; Мохри, Мехриар (2014). "Теория адаптации предметной области и выборки смещения и алгоритм регрессии" (PDF) . Теоретическая информатика . 519 : 103–126. CiteSeerX 10.1.1.367.6899 . DOI : 10.1016 / j.tcs.2013.09.027 .  
  11. ^ Fadem, Барбара (2009). Поведенческая наука . Липпинкотт Уильямс и Уилкинс. п. 262. ISBN. 978-0-7817-8257-9.
  12. ^ Уоллес, Роберт (2007). Максси-Розенау-Ласт Общественное здравоохранение и профилактическая медицина (15-е изд.). McGraw Hill Professional. п. 21. ISBN 978-0-07-159318-2.
  13. ^ Саттон, Гарри Элдон (1988). Введение в генетику человека (4-е изд.). Харкорт Брейс Йованович. ISBN 978-0-15-540099-3.
  14. Берк, Ричард А. (июнь 1983 г.). "Введение в предвзятость выборки в социологических данных". Американский социологический обзор . 48 (3): 386–398. DOI : 10.2307 / 2095230 . JSTOR 2095230 . 
  15. ^ Национальный центр статистики здравоохранения (2007). Здоровье меньшинств.
  16. ^ «Статистика браузера» . Refsnes Data. Июнь 2008 . Проверено 5 июля 2008 .
  17. На основе http://www.uh.edu/engines/epi1199.htm, полученного 29 сентября 2007 г.
  18. ^ Уорд, Д. (апрель 2020 г.) «Предвзятость выборки: объяснение широких различий в показателях летальности от COVID-19» . Технический отчет. WardEnvironment. https://doi.org/10.13140/RG.2.2.24953.62564/1
  19. ^ Уорд, Дэн. (Май 2020 г.). «Ошибка выборки: объяснение различий в возрастном распределении случаев COVID-19». https://doi.org/10.13140/RG.2.2.27321.19047/2 . Технический отчет. WardEnvironment.
  20. ^ Cuddeback, Гэри; Уилсон, Орм, Комбс-Орм (2004). «Обнаружение и статистическое исправление смещения выборки» (PDF) . Журнал исследований социальных служб . 30 (3): 19–33. DOI : 10.1300 / J079v30n03_02 . Проверено 20 сентября 2016 . CS1 maint: несколько имен: список авторов ( ссылка )