Из Википедии, бесплатной энциклопедии
  (Перенаправлено из случайных выборок )
Перейти к навигации Перейти к поиску

В статистике , А простая случайная выборка представляет собой подмножество из индивидуумовобразец ) , выбранное из большего наборанаселения ). Каждый человек выбирается случайным образом и полностью случайно, так что каждый человек имеет одинаковую вероятность быть выбранным на любом этапе процесса выборки, и каждое подмножество из k человек имеет такую ​​же вероятность быть выбранным для выборки, как и любое другое подмножество. k лиц. [1] Этот процесс и метод известен как простая случайная выборка., и его не следует путать с систематической случайной выборкой . Простая случайная выборка - это беспристрастный метод опроса.

Простая случайная выборка - это основной тип выборки, поскольку она может быть составной частью других более сложных методов выборки. Принцип простой случайной выборки состоит в том, что каждый объект имеет одинаковую вероятность быть выбранным. Например, предположим, что N студентов колледжа хотят получить билет на баскетбольный матч, но у них есть только X < N билетов, поэтому они решают найти справедливый способ узнать, кто пойдет. Затем каждому дается число в диапазоне от 0 до N -1, и случайные числа генерируются либо в электронном виде, либо из таблицы случайных чисел. Числа вне диапазона от 0 до N -1 игнорируются, как и любые ранее выбранные числа. Первый X числа определят счастливых обладателей билетов.

В небольших популяциях и часто в больших такая выборка обычно проводится « без замены », т. Е. Сознательно избегают выбора любого члена популяции более одного раза. Хотя вместо этого может быть проведена простая случайная выборка с заменой, это менее распространено и обычно более полно описывается как простая случайная выборка с заменой . Отбор проб, выполненный без замены, больше не является независимым, но по-прежнему допускает возможность замены , поэтому многие результаты остаются в силе. Кроме того, для небольшой выборки из большой совокупности выборка без замены примерно такая же, как выборка с заменой, поскольку вероятность выбора одного и того же человека дважды мала.

Беспристрастный случайный отбор людей важен, так как если бы было отобрано много выборок, средняя выборка точно представляла бы совокупность. Однако это не гарантирует, что конкретная выборка является идеальным представлением генеральной совокупности. Простая случайная выборка просто позволяет на основе выборки сделать внешне достоверные выводы обо всей генеральной совокупности.

Концептуально простая случайная выборка - это самый простой из методов вероятностной выборки. Для этого требуется полная основа выборки , которую может быть невозможно или невозможно построить для больших групп населения. Даже при наличии полной базы данных могут быть возможны более эффективные подходы, если доступна другая полезная информация о единицах в совокупности.

Преимущества заключаются в том, что он не содержит ошибок классификации и требует минимальных предварительных знаний о генеральной совокупности, помимо основы. Его простота также позволяет относительно легко интерпретировать данные, собранные таким образом. По этим причинам простая случайная выборка лучше всего подходит для ситуаций, когда не так много информации о генеральной совокупности и сбор данных может быть эффективно проведен по случайно распределенным элементам, или когда стоимость выборки достаточно мала, чтобы эффективность была менее важна, чем простота. Если эти условия не выполняются, лучшим выбором может быть стратифицированная выборка или кластерная выборка .

Алгоритмы [ править ]

Было разработано несколько эффективных алгоритмов простой случайной выборки. [2] [3] Наивный алгоритм - это алгоритм рисования за отрисовкой, где на каждом шаге мы удаляем элемент на этом шаге из набора с равной вероятностью и помещаем элемент в образец. Продолжаем, пока не получим образец желаемого размера . Недостатком этого метода является то, что он требует произвольного доступа в наборе.

Алгоритм выбора-отклонения, разработанный Fan et al. в 1962 г. [4] требуется однократный проход данных; однако это последовательный алгоритм, требующий знания общего количества элементов , что недоступно в сценариях потоковой передачи.

Очень простой алгоритм случайной сортировки был доказан Сантером в 1977 г. [5] Алгоритм просто назначает случайное число, полученное из равномерного распределения, в качестве ключа для каждого элемента, затем сортирует все элементы, используя этот ключ, и выбирает самые маленькие элементы.

Дж. Виттер в 1985 г. [6] предложил алгоритмы отбора проб коллектора , которые широко используются. Этот алгоритм не требует заранее знать размер популяции и использует постоянное пространство.

Случайная выборка также может быть ускорена путем выборки из распределения промежутков между выборками [7] и пропуска промежутков.

Различие между систематической случайной выборкой и простой случайной выборкой [ править ]

Рассмотрим школу с 1000 учениками и предположим, что исследователь хочет выбрать 100 из них для дальнейшего изучения. Все их имена можно положить в корзину, а затем вытащить 100 имен. Мало того, что у каждого человека есть равные шансы быть выбранным, мы также можем легко вычислить вероятность ( P ) того, что данный человек будет выбран, поскольку мы знаем размер выборки ( n ) и совокупность ( N ):

1. В случае, если любое лицо может быть выбрано только один раз (т. Е. После выбора человек удаляется из пула выбора):

2. В случае, если любой выбранный человек возвращается в пул выбора (т. Е. Может быть выбран более одного раза):

Это означает, что каждый ученик в школе в любом случае имеет примерно 1 из 10 шансов быть выбранным с помощью этого метода. Кроме того, любая комбинация из 100 студентов имеет одинаковую вероятность выбора.

Если систематический образец вводится в случайную выборку, это называется «систематической (случайной) выборкой». Примером может служить случай, если ученики в школе имеют номера, прикрепленные к их именам в диапазоне от 0001 до 1000, и мы выбрали случайную отправную точку, например 0533, а затем выбрали каждое 10-е имя после этого, чтобы получить нашу выборку из 100 (начиная с с 0003 после достижения 0993). В этом смысле этот метод похож на кластерную выборку, поскольку выбор первой единицы будет определять остаток. Это уже не простая случайная выборка, потому что некоторые комбинации из 100 учащихся имеют большую вероятность выбора, чем другие - например, {3, 13, 23, ..., 993} имеет шанс выбора 1/10, а {1 , 2, 3, ..., 100} не могут быть выбраны этим методом.

Выборка дихотомической совокупности [ править ]

Если члены популяции бывают трех видов, скажем, «синие», «красные» и «черные», количество красных элементов в выборке данного размера будет варьироваться в зависимости от выборки и, следовательно, является случайной величиной, распределение которой можно изучить. Это распределение зависит от количества красных и черных элементов в полной популяции. Для простой случайной выборки с заменой распределение является биномиальным распределением . Для простой случайной выборки без замены получается гипергеометрическое распределение .

См. Также [ править ]

Ссылки [ править ]

  1. ^ Йейтс, Дэниел С .; Дэвид С. Мур; Дарен С. Старнес (2008). Практика статистики, 3-е изд . Фримен . ISBN 978-0-7167-7309-2.
  2. ^ Тилле, Ив; Тилле, Ив (01.01.2006). Алгоритмы выборки - Springer . Серии Спрингера в статистике. DOI : 10.1007 / 0-387-34240-0 . ISBN 978-0-387-30814-2.
  3. ^ Мэн, Xiangrui (2013). «Масштабируемая простая случайная выборка и стратифицированная выборка» (PDF) . Труды 30-й Международной конференции по машинному обучению (ICML-13) : 531–539.
  4. ^ Вентилятор, CT; Muller, Mervin E .; Резуча, Иван (1962-06-01). «Разработка планов выборки с использованием методов последовательного (постатейного) отбора и цифровых компьютеров». Журнал Американской статистической ассоциации . 57 (298): 387–402. DOI : 10.1080 / 01621459.1962.10480667 . ISSN 0162-1459 . 
  5. ^ Sunter, AB (1977-01-01). «Список последовательных выборок с равными или неравными вероятностями без замены». Прикладная статистика . 26 (3): 261–268. DOI : 10.2307 / 2346966 . JSTOR 2346966 . 
  6. ^ Виттер, Джеффри С. (1985-03-01). «Случайная выборка с резервуаром». ACM Trans. Математика. Софтв . 11 (1): 37–57. CiteSeerX 10.1.1.138.784 . DOI : 10.1145 / 3147.3165 . ISSN 0098-3500 .  
  7. ^ Виттер, Джеффри С. (1984-07-01). «Более быстрые методы случайной выборки». Коммуникации ACM . 27 (7): 703–718. CiteSeerX 10.1.1.329.6400 . DOI : 10.1145 / 358105.893 . ISSN 0001-0782 .  

Внешние ссылки [ править ]

  • СМИ, связанные со случайной выборкой, на Викискладе?