Простая случайная выборка

В статистике , А простая случайная выборка представляет собой подмножество из индивидуумов (а образец ) , выбранное из большего набора (а населения ) , в котором каждый индивидуум выбирается случайным образом и полностью случайно. Более конкретно, каждый человек имеет одинаковую вероятность быть выбранным на любом этапе процесса выборки, и каждое подмножество из k человек имеет такую же вероятность быть выбранным для выборки, как и любое другое подмножество из k человек. ^[1] Этот процесс и метод известен как простая случайная выборка., и его не следует путать с систематической случайной выборкой . Простая случайная выборка - это беспристрастный метод опроса.

Простая случайная выборка - это основной тип выборки, поскольку она может быть составной частью других более сложных методов выборки. Принцип простой случайной выборки состоит в том, что каждый объект имеет одинаковую вероятность быть выбранным. Например, предположим, что N студентов колледжа хотят получить билет на баскетбольный матч, но у них есть только X < N билетов, поэтому они решают найти справедливый способ узнать, кто пойдет. Затем каждому дается число в диапазоне от 0 до N -1, и случайные числа генерируются либо в электронном виде, либо из таблицы случайных чисел. Числа вне диапазона от 0 до N -1 игнорируются, как и любые ранее выбранные числа. Первые числа X будут определять счастливых обладателей билетов.

В небольших популяциях и часто в больших такая выборка обычно проводится « без замены », т. Е. Сознательно избегают выбора любого члена популяции более одного раза. Хотя вместо этого может быть проведена простая случайная выборка с заменой, это менее распространено и обычно более полно описывается как простая случайная выборка с заменой . Отбор проб, выполненный без замены, больше не является независимым, но по-прежнему допускает возможность замены , поэтому многие результаты остаются в силе. Кроме того, для небольшой выборки из большой совокупности выборка без замены примерно такая же, как выборка с заменой, поскольку вероятность выбора одного и того же человека дважды мала.

Беспристрастный случайный отбор людей важен, так как если бы было отобрано много выборок, средняя выборка точно представляла бы совокупность. Однако это не гарантирует, что конкретная выборка является идеальным представлением генеральной совокупности. Простая случайная выборка просто позволяет на основе выборки сделать внешне достоверные выводы обо всей генеральной совокупности.

Концептуально простая случайная выборка - это самый простой из методов вероятностной выборки. Для этого требуется полная основа выборки , которую может быть невозможно или невозможно построить для больших популяций. Даже при наличии полной совокупности более эффективные подходы могут быть возможны, если доступна другая полезная информация о единицах в совокупности.

Преимущества заключаются в том, что он не содержит ошибок классификации и требует минимальных предварительных знаний о генеральной совокупности, помимо основы. Его простота также позволяет относительно легко интерпретировать данные, собранные таким образом. По этим причинам простая случайная выборка лучше всего подходит для ситуаций, когда не так много информации о совокупности и сбор данных может быть эффективно проведен по случайно распределенным элементам, или когда стоимость выборки достаточно мала, чтобы эффективность была менее важна, чем простота. Если эти условия не выполняются, лучшим выбором может быть стратифицированная выборка или кластерная выборка .

Алгоритмы

Было разработано несколько эффективных алгоритмов простой случайной выборки. ^[2]^[3] Наивный алгоритм - это алгоритм рисования за отрисовкой, где на каждом шаге мы удаляем элемент на этом шаге из набора с равной вероятностью и помещаем элемент в образец. Продолжаем, пока не получим образец желаемого размера. ${\ displaystyle k}$ . Недостатком этого метода является то, что он требует произвольного доступа в наборе.

Алгоритм выбора-отклонения, разработанный Fan et al. в 1962 г. ^[4] требуется однократный проход данных; однако это последовательный алгоритм, требующий знания общего количества элементов. ${\ displaystyle n}$ , который недоступен в сценариях потоковой передачи.

Очень простой алгоритм случайной сортировки был доказан Сантером в 1977 году. ^[5] Алгоритм просто присваивает случайное число, полученное из равномерного распределения. ${\ displaystyle (0,1)}$ как ключ к каждому элементу, затем сортирует все элементы с помощью ключа и выбирает самые маленькие ${\ displaystyle k}$ Предметы.

Дж. Виттер в 1985 г. ^[6] предложил алгоритмы отбора проб коллектора , которые широко используются. Этот алгоритм не требует знания размера популяции. ${\ displaystyle n}$ заранее и использует постоянное пространство.

Случайная выборка также может быть ускорена путем выборки из распределения промежутков между выборками ^[7] и пропуска промежутков.

Различие между систематической случайной выборкой и простой случайной выборкой

Рассмотрим школу с 1000 учениками и предположим, что исследователь хочет выбрать 100 из них для дальнейшего изучения. Все их имена могут быть помещены в ведро, а затем может быть извлечено 100 имен. Мало того, что каждый человек имеет равные шансы быть выбранным, мы также можем легко вычислить вероятность ( P ) того, что данный человек будет выбран, поскольку мы знаем размер выборки ( n ) и совокупность ( N ):

1. В случае, если любое лицо может быть выбрано только один раз (т. Е. После выбора человек удаляется из пула выбора):

{\ displaystyle {\ begin {align} P & = 1 - {\ frac {N-1} {N}} \ cdot {\ frac {N-2} {N-1}} \ cdot \ cdots \ cdot {\ frac {Nn} {N- (n-1)}} \\ [8pt] & {\ stackrel {\ text {Отмена:}} {=}} 1 - {\ frac {Nn} {N}} \\ [8pt ] & = {\ frac {n} {N}} \\ [8pt] & = {\ frac {100} {1000}} \\ [8pt] & = 10 \% \ end {align}}}

2. В случае, если любой выбранный человек возвращается в пул выбора (т. Е. Может быть выбран более одного раза):

{\ displaystyle P = 1- \ left (1 - {\ frac {1} {N}} \ right) ^ {n} = 1- \ left ({\ frac {999} {1000}} \ right) ^ { 100} = 0,0952 \ точек \ приблизительно 9,5 \%}

Это означает, что каждый ученик в школе в любом случае имеет примерно 1 из 10 шансов быть выбранным с помощью этого метода. Кроме того, любая комбинация из 100 студентов имеет одинаковую вероятность выбора.

Если систематический образец вводится в случайную выборку, это называется «систематической (случайной) выборкой». Например, если бы ученикам в школе были присвоены номера в диапазоне от 0001 до 1000, и мы выбрали случайную начальную точку, например 0533, а затем выбрали каждое 10-е имя после этого, чтобы получить нашу выборку из 100 (начиная с с 0003 после достижения 0993). В этом смысле этот метод похож на кластерную выборку, поскольку выбор первой единицы будет определять остаток. Это уже не простая случайная выборка, потому что некоторые комбинации из 100 учащихся имеют большую вероятность выбора, чем другие - например, {3, 13, 23, ..., 993} имеет шанс выбора 1/10, а {1 , 2, 3, ..., 100} не могут быть выбраны этим методом.

Выборка дихотомической совокупности

Если члены популяции бывают трех видов, скажем, «синие», «красные» и «черные», количество красных элементов в выборке данного размера будет варьироваться в зависимости от выборки и, следовательно, является случайной величиной, распределение которой можно изучить. Это распределение зависит от количества красных и черных элементов в полной популяции. Для простой случайной выборки с заменой распределение является биномиальным распределением . Для простой случайной выборки без замены получается гипергеометрическое распределение .

Смотрите также

Внешние ссылки

СМИ, связанные со случайной выборкой, на Викискладе?

[1] Йейтс, Дэниел С .; Дэвид С. Мур; Дарен С. Старнес (2008). Практика статистики, 3-е изд . Фримен . ISBN 978-0-7167-7309-2.

[2] Тилле, Ив; Тилле, Ив (01.01.2006). Алгоритмы выборки - Springer . Серии Спрингера в статистике. DOI : 10.1007 / 0-387-34240-0 . ISBN 978-0-387-30814-2.

[3] Мэн, Сянжуй (2013). «Масштабируемая простая случайная выборка и стратифицированная выборка» (PDF) . Труды 30-й Международной конференции по машинному обучению (ICML-13) : 531–539.

[4] Вентилятор, КТ; Muller, Mervin E .; Резуча, Иван (1962-06-01). «Разработка планов выборки с использованием методов последовательного (постатейного) отбора и цифровых компьютеров». Журнал Американской статистической ассоциации . 57 (298): 387–402. DOI : 10.1080 / 01621459.1962.10480667 . ISSN 0162-1459 .

[5] Сантер, AB (1977-01-01). «Список последовательных выборок с равными или неравными вероятностями без замены». Прикладная статистика . 26 (3): 261–268. DOI : 10.2307 / 2346966 . JSTOR 2346966 .

[6] Виттер, Джеффри С. (1985-03-01). «Случайная выборка с резервуаром». ACM Trans. Математика. Софтв . 11 (1): 37–57. CiteSeerX 10.1.1.138.784 . DOI : 10.1145 / 3147.3165 . ISSN 0098-3500 .

[7] Виттер, Джеффри С. (1984-07-01). «Более быстрые методы случайной выборки». Коммуникации ACM . 27 (7): 703–718. CiteSeerX 10.1.1.329.6400 . DOI : 10.1145 / 358105.893 . ISSN 0001-0782 .

[1]