Выборочное обследование

Кластерная выборка - это план выборки, используемый, когда в статистической совокупности очевидны взаимно однородные, но внутренне неоднородные группировки . Его часто используют в маркетинговых исследованиях . В этом плане выборки вся совокупность делится на эти группы (известные как кластеры) и простую случайную выборку.из групп выбрано. Затем производится выборка элементов в каждом кластере. Если отбираются все элементы в каждом кластере выборки, то это называется «одноэтапным» планом выборки кластера. Если в каждой из этих групп выбирается простая случайная подвыборка элементов, это называется «двухэтапным» планом кластерной выборки. Распространенной мотивацией кластерной выборки является уменьшение общего количества интервью и затрат при желаемой точности. Для фиксированного размера выборки ожидаемая случайная ошибка меньше, когда большая часть вариации в генеральной совокупности присутствует внутри групп, а не между группами.

Элементы кластера [ править ]

В идеале популяция внутри кластера должна быть как можно более разнородной, но между кластерами должна быть однородность. Каждый кластер должен быть мелкомасштабным представлением всего населения. Кластеры должны быть взаимоисключающими и в совокупности исчерпывающими. Затем для любых соответствующих кластеров используется метод случайной выборки, чтобы выбрать, какие кластеры включить в исследование. При одноступенчатой кластерной выборке выбираются все элементы из каждого из выбранных кластеров. При двухэтапной кластерной выборке метод случайной выборки применяется к элементам из каждого из выбранных кластеров.

Основное различие между кластерной выборкой и стратифицированной выборкой заключается в том, что при кластерной выборке кластер обрабатывается как единица выборки, поэтому выборка выполняется для совокупности кластеров (по крайней мере, на первом этапе). При стратифицированной выборке выборка выполняется по элементам в каждой страте. При стратифицированной выборке случайная выборка берется из каждой страты, тогда как в кластерной выборке выбираются только выбранные кластеры. Распространенной мотивацией кластерной выборки является снижение затрат за счет повышения эффективности выборки. Это контрастирует со стратифицированной выборкой, где мотивация состоит в повышении точности.

Также существует многоступенчатая кластерная выборка , при которой выполняется не менее двух этапов отбора элементов из кластеров.

Когда кластеры разного размера [ править ]

Без изменения оцениваемого параметра выборка кластеров является несмещенной, когда кластеры примерно одинакового размера. В этом случае параметр вычисляется путем объединения всех выбранных кластеров. Когда кластеры имеют разный размер, есть несколько вариантов:

Один из методов состоит в том, чтобы выбрать кластеры, а затем исследовать все элементы в этом кластере. Другой метод - это двухэтапный метод выборки фиксированной доли единиц (будь то 5% или 50% или другое количество, в зависимости от соображений стоимости) из каждого из выбранных кластеров. Опираясь на выборку, взятую из этих вариантов, можно получить объективную оценку. Однако размер выборки больше не фиксируется заранее. Это приводит к более сложной формуле для стандартной ошибки оценщика, а также к проблемам с оптикой плана исследования (поскольку анализ мощности и оценки затрат часто относятся к конкретному размеру выборки).

Третье возможное решение - использовать вероятность, пропорциональную размеру выборки . В этом плане выборки вероятность выбора кластера пропорциональна его размеру, так что большой кластер имеет большую вероятность выбора, чем маленький кластер. Преимущество здесь состоит в том, что когда кластеры выбираются с вероятностью, пропорциональной размеру, в каждом кластере выборки должно быть проведено одинаковое количество интервью, чтобы каждая из выбранных единиц имела одинаковую вероятность выбора.

Приложения кластерной выборки [ править ]

Примером кластерной выборки является выборка по территории или выборка по географическому кластеру . Каждый кластер - это географическая область. Поскольку обследование географически рассредоточенного населения может быть дорогостоящим, большая экономия, чем простая случайная выборка, может быть достигнута путем группирования нескольких респондентов в пределах локальной территории в кластер. Обычно необходимо увеличить общий размер выборки для достижения эквивалентной точности оценок , но экономия средств может сделать такое увеличение размера выборки возможным.

Кластерная выборка используется для оценки высокой смертности в таких случаях, как войны , голод и стихийные бедствия . ^[1]

Преимущество [ править ]

Может быть дешевле, чем другие планы выборочного контроля - например, меньше командировочных расходов, административных расходов.
Осуществимость: этот план выборки учитывает большие популяции. Поскольку эти группы очень большие, внедрение любого другого плана выборки будет очень дорогостоящим.
Экономия: при использовании этого метода значительно сокращаются две основные проблемы, связанные с расходами, т. Е. Путешествия и листинг. Например: сбор исследовательской информации о каждом домохозяйстве в городе будет очень дорогостоящим, тогда как сбор информации о различных кварталах города будет более экономичным. Здесь будут значительно сокращены затраты на поездки и листинг.
Сниженная вариативность: в редком случае отрицательной внутриклассовой корреляции между субъектами внутри кластера оценки, полученные с помощью кластерной выборки, дадут более точные оценки, чем данные, полученные из простой случайной выборки (т. Е. Эффект схемы будет меньше 1). Это не обычный сценарий.

Основное использование: когда выборка для всех элементов недоступна, мы можем прибегать только к кластерной выборке.

Недостаток [ править ]

Более высокая ошибка выборки , которая может быть выражена эффектом дизайна: соотношением между дисперсией оценки, полученной из выборок кластерного исследования, и дисперсией оценки, полученной из выборки субъектов в одинаково надежном некластеризованном исследовании с произвольной выборкой. . ^[2] Чем больше внутриклассовая корреляциямежду субъектами внутри кластера, тем хуже становится эффект дизайна (т. е. чем больше он получается от 1. Это указывает на большее ожидаемое увеличение дисперсии оценки). Другими словами, чем больше неоднородности между кластерами и больше однородности между субъектами внутри кластера, тем менее точными становятся наши оценки. Это потому, что в таких случаях нам лучше выбрать как можно больше кластеров и обойтись небольшой выборкой субъектов из каждого кластера (т.е. двухэтапная кластерная выборка).
Сложность. Кластерная выборка более сложна и требует большего внимания к тому, как планировать и как анализировать (то есть: учитывать веса субъектов при оценке параметров, доверительных интервалов и т. Д.)

Подробнее о кластерной выборке [ править ]

Двухэтапная кластерная выборка [ править ]

Двухэтапная кластерная выборка, простой случай многоступенчатой выборки , получается путем выбора кластерных выборок на первом этапе, а затем выборки элементов из каждого выбранного кластера. Рассмотрим совокупность из N кластеров. На первом этапе производится отбор n кластеров обычным методом кластерной выборки. На втором этапе обычно используется простая случайная выборка . ^[3] Он используется отдельно в каждом кластере, и количество элементов, выбранных из разных кластеров, не обязательно равно. Общее количество кластеров N , количество выбранных кластеров n, а количество элементов из выбранных кластеров должно быть заранее определено разработчиком обследования. Двухэтапная кластерная выборка направлена на минимизацию затрат на обследование и в то же время контроль неопределенности, связанной с интересующими оценками. ^[4] Этот метод может быть использован в здравоохранении и социальных науках. Например, исследователи использовали двухэтапную кластерную выборку для создания репрезентативной выборки иракского населения для проведения обследований смертности. ^[5] Отбор проб в этом методе может быть более быстрым и надежным, чем при использовании других методов, поэтому сейчас этот метод используется часто.

Вывод, когда количество кластеров невелико [ править ]

Методы кластерной выборки могут привести к значительному смещению при работе с небольшим количеством кластеров. Например, может потребоваться объединение в кластеры на уровне штата или города единиц, которые могут быть небольшими и фиксированными по количеству. В методах микроэконометрии для панельных данных часто используются короткие панели, что аналогично тому, как несколько наблюдений на кластер и много кластеров. Проблему малых кластеров можно рассматривать как проблему случайных параметров. ^[6] Хотя точечные оценки могут быть достаточно точно оценены, если количество наблюдений на кластер достаточно велико, нам нужно количество кластеров для включения асимптотики. Если количество кластеров мало, оценочная матрица ковариации может быть смещен вниз. ^[7] ${\ Displaystyle G \ rightarrow \ infty}$

Небольшое количество кластеров представляет собой риск при наличии последовательной корреляции или при наличии внутриклассовой корреляции, как в контексте Моултона. При наличии небольшого количества кластеров мы склонны недооценивать серийную корреляцию между наблюдениями, когда происходит случайный шок, или внутриклассовую корреляцию в условиях Моултона. ^[8] Несколько исследований подчеркнули последствия серийной корреляции и выдвинули на первый план проблему малых кластеров. ^[9]^[10]

В рамках фактора Моултона интуитивное объяснение проблемы малых кластеров может быть получено из формулы для фактора Моултона. Для простоты предположим, что количество наблюдений на кластер зафиксировано на n . Ниже обозначает ковариационную матрицу с поправкой на кластеризацию, обозначает ковариационную матрицу без поправки на кластеризацию, а ρ обозначает внутриклассовую корреляцию: ${\ Displaystyle V_ {c} (\ бета)}$ ${\ Displaystyle V (\ бета)}$

{\ displaystyle {\ frac {V_ {c} ({\ hat {\ beta}})} {V ({\ hat {\ beta}})}} = 1+ (n-1) \ rho}

Отношение в левой части показывает, насколько нескорректированный сценарий переоценивает точность. Следовательно, высокое число означает сильное смещение оценочной матрицы ковариации в сторону уменьшения. Проблема небольшого кластера может быть интерпретирована как большое n: когда данные фиксированы, а количество кластеров мало, количество данных в кластере может быть большим. Отсюда следует, что вывод, когда количество кластеров невелико, не будет иметь правильного покрытия. ^[8]

Было предложено несколько решений проблемы малых кластеров. Можно использовать кластерно-устойчивую матрицу дисперсии со скорректированным смещением, вносить корректировки в T-распределение или использовать методы начальной загрузки с асимптотическими уточнениями, такие как процентиль-t или дикий бутстрап, которые могут привести к улучшенному выводу для конечной выборки. ^[7] Кэмерон, Гелбах и Миллер (2008) обеспечивают микросимуляцию для различных методов и обнаруживают, что дикий бутстрап хорошо работает в условиях небольшого числа кластеров. ^[11]

См. Также [ править ]

Многоступенчатый отбор проб
Выборка (статистика)
Простая случайная выборка
Стратифицированная выборка

Ссылки [ править ]

↑ Дэвид Браун, Исследование утверждает, что «избыточное» число погибших в Ираке достигло 655 000 , Washington Post , среда, 11 октября 2006 г. Получено 14 сентября 2010 г.
^ Керри и Блэнд (1998). Примечания к статистике: коэффициент внутрикластерной корреляции при рандомизации кластера . Британский медицинский журнал , 316, 1455–1460.
^ Ахмед, Сайфуддин (2009). Методы выборочных обследований (PDF) . Университет Джона Хопкинса и Сайфуддин Ахмед.
^ Даниэль Пфефферманн; К. Радхакришна Рао (2009). Справочник по статистике Vol.29A Выборочные исследования: теория, методы и выводы . ISBN Elsevier BV 978-0-444-53124-7.
^ LP Голуэй; Натаниэль Белл; Al S SAE; Эми Акопиан; Гилберт Бернхэм; Авраам Флаксман; Вильям М. Вайс; Джули Раджаратнам; Тим К. Такаро (27 апреля 2012 г.). «Двухэтапный метод кластерной выборки с использованием данных о населении с привязкой к сетке, ГИС и изображений Google EarthTM в обследовании смертности населения в Ираке» . Международный журнал географии здоровья . 11 : 12. DOI : 10,1186 / 1476-072X-11-12 . PMC 3490933 . PMID 22540266 .
^ Cameron AC и PK Tvedi (2005): Микроэконометрика: методы и приложения. Издательство Кембриджского университета, Нью-Йорк.
^ a b Кэмерон, К. и Д.Л. Миллер (2015): Практическое руководство по кластерно-устойчивому выводу. Журнал людских ресурсов 50 (2), стр. 317–372.
^ a b Angrist, JD и J.-S. Пишке (2009): В основном безвредная эконометрика. Спутник эмпирика. Издательство Принстонского университета, Нью-Джерси.
^ Bertrand, M., E. Duflo и S. Mullainathan (2004): Насколько мы должны доверять оценкам разницы в различиях? Ежеквартальный журнал экономики 119 (1), стр. 249–275.
^ Кезди, Г. (2004): Надежная оценка стандартной ошибки в панельных моделях с фиксированным эффектом. Венгерский статистический обзор 9, стр. 95–116.
^ Кэмерон, К., Дж. Гелбах и Д.Л. Миллер (2008): Улучшения на основе начальной загрузки для вывода с кластеризованными ошибками. Обзор экономики и статистики 90, стр. 414–427.

[1] Дэвид Браун, Исследование утверждает, что «избыточное» число погибших в Ираке достигло 655 000 , Washington Post , среда, 11 октября 2006 г. Получено 14 сентября 2010 г.

[2] Керри и Блэнд (1998). Примечания к статистике: коэффициент внутрикластерной корреляции при рандомизации кластера . Британский медицинский журнал , 316, 1455–1460.

[3] Ахмед, Сайфуддин (2009). Методы выборочных обследований (PDF) . Университет Джона Хопкинса и Сайфуддин Ахмед.

[4] Даниэль Пфефферманн; К. Радхакришна Рао (2009). Справочник по статистике Vol.29A Выборочные исследования: теория, методы и выводы . ISBN Elsevier BV 978-0-444-53124-7.

[5] LP Голуэй; Натаниэль Белл; Al S SAE; Эми Акопиан; Гилберт Бернхэм; Авраам Флаксман; Вильям М. Вайс; Джули Раджаратнам; Тим К. Такаро (27 апреля 2012 г.). «Двухэтапный метод кластерной выборки с использованием данных о населении с привязкой к сетке, ГИС и изображений Google EarthTM в обследовании смертности населения в Ираке» . Международный журнал географии здоровья . 11 : 12. DOI : 10,1186 / 1476-072X-11-12 . PMC 3490933 . PMID 22540266 .

[6] Cameron AC и PK Tvedi (2005): Микроэконометрика: методы и приложения. Издательство Кембриджского университета, Нью-Йорк.

[CameronMiller-7] Кэмерон, К. и Д.Л. Миллер (2015): Практическое руководство по кластерно-устойчивому выводу. Журнал людских ресурсов 50 (2), стр. 317–372.

[AngristPischke-8] Angrist, JD и J.-S. Пишке (2009): В основном безвредная эконометрика. Спутник эмпирика. Издательство Принстонского университета, Нью-Джерси.

[9] Bertrand, M., E. Duflo и S. Mullainathan (2004): Насколько мы должны доверять оценкам разницы в различиях? Ежеквартальный журнал экономики 119 (1), стр. 249–275.

[10] Кезди, Г. (2004): Надежная оценка стандартной ошибки в панельных моделях с фиксированным эффектом. Венгерский статистический обзор 9, стр. 95–116.

[11] Кэмерон, К., Дж. Гелбах и Д.Л. Миллер (2008): Улучшения на основе начальной загрузки для вывода с кластеризованными ошибками. Обзор экономики и статистики 90, стр. 414–427.

[1]