Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Стратифицированная случайная выборка

В статистике , стратифицированная выборка представляет собой метод отбора проб из популяции , которая может быть секционированной в подгруппы .

Пример стратифицированной выборки

В статистических обследованиях , когда субпопуляции в общей популяции различаются, может быть полезно провести выборку каждой субпопуляции (страты) независимо. Стратификация - это процесс разделения членов популяции на однородные подгруппы перед выборкой. Страты должны определять разделение населения. Иными словами, он должен быть исчерпывающим и взаимоисключающим : каждый элемент совокупности должен быть отнесен к одной и только одной страте. Затем в каждом слое применяется простая случайная выборка . Цель состоит в том, чтобы повысить точность выборки за счет уменьшения ошибки выборки . Он может производить средневзвешенное значениекоторый имеет меньшую вариабельность , чем среднее арифметическое из более простой случайной выборке населения.

В вычислительной статистике стратифицированная выборка - это метод уменьшения дисперсии, когда методы Монте-Карло используются для оценки статистики населения по известной совокупности. [1]

Предположим, что нам нужно оценить среднее количество голосов за каждого кандидата на выборах. Предположим, что в стране 3 города: в городе A 1 миллион заводских рабочих, в городе B 2 миллиона служащих, а в городе C 3 миллиона пенсионеров. Мы можем выбрать случайную выборку размером 60 для всего населения, но есть некоторая вероятность, что полученная случайная выборка плохо сбалансирована по этим городам и, следовательно, является смещенной, что вызывает значительную ошибку в оценке. Вместо этого, если мы выберем случайную выборку из 10, 20 и 30 из городов A, B и C соответственно, тогда мы сможем произвести меньшую ошибку в оценке для того же общего размера выборки. Этот метод обычно используется, когда популяция не является однородной группой.

Стратегии стратифицированной выборки [ править ]

  1. Пропорциональное распределение использует долю выборки в каждой страте, которая пропорциональна доле всего населения. Например, если популяция состоит из n особей, из которых m мужчин и f женщин (и где m + f = n ), то относительный размер двух выборок ( x 1 = m / n мужчин, x 2 = ж / п самки) должна отражать эту пропорцию.
  2. Оптимальное распределение (или непропорциональное распределение ). Доля выборки каждой страты пропорциональна как пропорции (как указано выше), так и стандартному отклонению распределения переменной. Большие выборки отбираются в стратах с наибольшей изменчивостью, чтобы получить наименьшую возможную общую дисперсию выборки.

Реальным примером использования стратифицированной выборки может быть политический опрос . Если респондентам необходимо отразить разнообразие населения, исследователь будет специально стремиться включить участников из различных групп меньшинств, таких как раса или религия, на основе их пропорциональности к общей численности населения, как указано выше. Таким образом, стратифицированное обследование может претендовать на то, чтобы быть более репрезентативным для населения, чем обследование простой случайной выборки или систематической выборки .

Преимущества [ править ]

Причины использования стратифицированной выборки вместо простой случайной выборки включают [2]

  1. Если измерения внутри слоев имеют более низкое стандартное отклонение, стратификация дает меньшую ошибку в оценке.
  2. Для многих приложений измерения становятся более управляемыми и / или дешевле, когда совокупность сгруппирована по стратам.
  3. Часто желательно иметь оценки популяционных параметров для групп внутри населения.

Если плотность населения сильно различается внутри региона, стратифицированная выборка гарантирует, что оценки могут быть сделаны с одинаковой точностью в различных частях региона, и что сравнения субрегионов могут быть выполнены с одинаковой статистической мощностью . Например, в Онтарио при обследовании, проводимом по всей провинции, может использоваться более крупная фракция выборки на менее населенном севере, поскольку неравенство в населении между севером и югом настолько велико, что доля выборки, основанная на выборке провинции в целом, может привести к сбор лишь нескольких данных с севера.

Недостатки [ править ]

Стратифицированная выборка бесполезна, когда совокупность не может быть полностью разделена на непересекающиеся подгруппы. Было бы неправильным применением этого метода сделать размеры выборки подгрупп пропорциональными количеству данных, доступных от подгрупп, вместо того, чтобы масштабировать размеры выборки до размеров подгрупп (или их дисперсий, если известно, что они значительно различаются - например, с помощью F Тест). Считается, что данные, представляющие каждую подгруппу, имеют одинаковую важность, если предполагаемое различие между ними требует стратифицированной выборки. Если дисперсия подгрупп значительно различается и данные необходимо стратифицировать по дисперсии, невозможно одновременно сделать размер выборки каждой подгруппы пропорциональным размеру подгруппы в общей совокупности. Чтобы узнать об эффективном способе разделения ресурсов выборки между группами, которые различаются по средствам, дисперсии и стоимости, см. «Оптимальное распределение» . Проблема стратифицированной выборки в случае неизвестных априорных классов (соотношение субпопуляций во всей популяции) может иметь пагубное влияние на выполнение любого анализа набора данных, например классификации. [3] В этом отношении минимаксный коэффициент дискретизацииможет использоваться, чтобы сделать набор данных устойчивым в отношении неопределенности в базовом процессе генерации данных. [3]

Объединение подстратов для обеспечения адекватных чисел может привести к парадоксу Симпсона , когда тенденции, которые действительно существуют в разных группах данных, исчезают или даже меняются местами при объединении групп.

Средняя и стандартная ошибка [ править ]

Среднее значение и дисперсия стратифицированной случайной выборки выражаются следующим образом: [2]

куда,

количество слоев
сумма размеров всех слоев
размер пласта
выборочное среднее по страте
количество наблюдений в страте
стандартное отклонение выборки страты

Обратите внимание, что член ( - ) / ( ), который равен (1 - / ), является поправкой на конечную популяцию и должен быть выражен в «единицах выборки». Вышеупомянутая поправка на конечную популяцию дает:

где = / - вес населения страты .

Распределение размера выборки [ править ]

Для стратегии пропорционального распределения размер выборки в каждой страте берется пропорционально размеру страты. Предположим, что в компании есть следующие сотрудники: [4]

  • мужчин, полная занятость: 90
  • мужчин, неполный рабочий день: 18
  • женщина, полная занятость: 9
  • женщины, неполный рабочий день: 63
  • всего: 180

и нас просят взять выборку из 40 сотрудников, стратифицированных по вышеуказанным категориям.

Первый шаг - вычислить процентное соотношение каждой группы от общей суммы.

  • % мужчин, работающих полный рабочий день = 90 ÷ 180 = 50%
  • % мужчин, неполный рабочий день = 18 ÷ 180 = 10%
  • % женщин, работающих полный день = 9 ÷ 180 = 5%
  • % женщин, неполный рабочий день = 63 ÷ 180 = 35%

Это говорит нам о том, что из нашей выборки из 40,

  • 50% (20 человек) должны быть мужчинами, работающими полный рабочий день.
  • 10% (4 человека) должны быть мужчинами, работающими неполный рабочий день.
  • 5% (2 человека) должны составлять женщины, работающие полный рабочий день.
  • 35% (14 человек) должны составлять женщины, работающие неполный рабочий день.

Еще один простой способ без вычисления процента - это умножить размер каждой группы на размер выборки и разделить на общую численность населения (размер всего персонала):

  • мужчины, полный рабочий день = 90 × (40 ÷ 180) = 20
  • мужчины, неполный рабочий день = 18 × (40 ÷ 180) = 4
  • женщины, дневная форма = 9 × (40 ÷ 180) = 2
  • женщины, неполный рабочий день = 63 × (40 ÷ 180) = 14

См. Также [ править ]

  • Опрос общественного мнения
  • Статистический бенчмаркинг
  • Размер стратифицированной выборки
  • Стратификация (клинические испытания)

Ссылки [ править ]

  1. ^ Ботев, З .; Риддер, А. (2017). «Снижение дисперсии». Wiley StatsRef: Справочная статистика в Интернете : 1–6. DOI : 10.1002 / 9781118445112.stat07975 . ISBN 9781118445112.
  2. ^ a b «6.1 Как использовать стратифицированную выборку | STAT 506» . onlinecourses.science.psu.edu . Проверено 23 июля 2015 .
  3. ^ а б Шахрох Исфахани, Мохаммад; Догерти, Эдвард Р. (2014). «Влияние раздельной выборки на точность классификации» . Биоинформатика . 30 (2): 242–250. DOI : 10.1093 / биоинформатики / btt662 . PMID 24257187 . 
  4. ^ Хант, Невилл; Тиррелл, Сидней (2001). «Стратифицированная выборка» . Веб-страница Университета Ковентри . Архивировано из оригинального 13 октября 2013 года . Проверено 12 июля 2012 года .

Дальнейшее чтение [ править ]

  • Сэрндал, Карл-Эрик; и другие. (2003). «Стратифицированная выборка». Выборка при помощи модели . Нью-Йорк: Спрингер. С. 100–109. ISBN 0-387-40620-4.