Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Визуальное представление процесса отбора проб

В статистических данных , контроль качества и методологии обследования , выборка является выбор подмножества (а статистической выборки ) особей в пределах от статистической совокупности , чтобы оценить характеристики всей популяции. Статистики пытаются представить в выборках рассматриваемую совокупность. Два преимущества выборки - это более низкая стоимость и более быстрый сбор данных, чем измерение всей генеральной совокупности.

Каждое наблюдение измеряет одно или несколько свойств (таких как вес, расположение, цвет) наблюдаемых тел, выделенных как независимые объекты или индивиды. При выборке обследования к данным могут применяться веса для корректировки плана выборки, особенно при стратифицированной выборке . [1] Для практического руководства используются результаты теории вероятностей и статистической теории . В деловых и медицинских исследованиях выборка широко используется для сбора информации о населении. [2] Приемочный отбор используется для определения того, соответствует ли партия материала нормативным требованиям .

Определение населения [ править ]

Успешная статистическая практика основана на целенаправленной постановке проблемы. При выборке это включает определение «генеральной совокупности », из которой составлена ​​наша выборка. Популяцию можно определить как включающую всех людей или предметы с характеристиками, которые человек желает понять. Поскольку очень редко бывает достаточно времени или денег для сбора информации от всех или всех в популяции, целью становится поиск репрезентативной выборки (или подмножества) этой совокупности.

Иногда то, что определяет популяцию, очевидно. Например, производителю необходимо решить, достаточно ли высокого качества производственная партия материала для передачи заказчику, или его следует отправить в брак или переделать из-за низкого качества. В этом случае партия - это популяция.

Хотя представляющая интерес совокупность часто состоит из физических объектов, иногда необходимо производить выборку во времени, пространстве или некоторой комбинации этих измерений. Например, при исследовании кадрового состава супермаркетов можно было бы изучить длину кассовых очередей в разное время, или исследование вымирающих пингвинов могло бы быть направлено на понимание того, как они используют различные охотничьи угодья с течением времени. Для измерения времени внимание может быть сосредоточено на периодах или дискретных событиях.

В других случаях исследуемая «популяция» может быть еще менее ощутимой. Например, Джозеф Джаггер изучил поведение колес рулетки в казино в Монте-Карло и использовал это, чтобы определить смещенное колесо. В данном случае «популяция», которую хотел исследовать Джаггер, представляла собой общее поведение колеса (то есть распределение вероятностей его результатов по бесконечному количеству испытаний), в то время как его «выборка» была сформирована из результатов, наблюдаемых с этого колеса. Аналогичные соображения возникают при приеме повторных измерений некоторых физических характеристик , таких как электропроводность из меди .

Эта ситуация часто возникает при поиске знаний о системе причин, следствием которой является наблюдаемая популяция. В таких случаях теория выборки может рассматривать наблюдаемую популяцию как выборку из более крупной «суперпопуляции». Например, исследователь может изучить степень успеха новой программы «бросить курить» на тестовой группе из 100 пациентов, чтобы спрогнозировать эффекты программы, если она будет доступна по всей стране. Здесь суперпопуляция - это «все в стране, получившие доступ к этому лечению» - группа, которой еще не существует, поскольку программа еще не доступна для всех.

Популяция, из которой составлена ​​выборка, может не совпадать с генеральной совокупностью, о которой требуется информация. Часто существует большое, но не полное перекрытие между этими двумя группами из-за проблем с фреймами и т. Д. (См. Ниже). Иногда они могут быть совершенно разными - например, можно изучать крыс, чтобы лучше понять здоровье человека, или можно изучать записи людей, родившихся в 2008 году, чтобы делать прогнозы относительно людей, родившихся в 2009 году.

Время, потраченное на уточнение выборки и вызывающей озабоченность совокупности, часто тратится не зря, потому что это вызывает множество проблем, двусмысленностей и вопросов, которые в противном случае были бы упущены из виду на данном этапе.

Рамка выборки [ править ]

В наиболее простом случае, например при отборе партии материала из производства (приемочный отбор по партиям), было бы наиболее желательно идентифицировать и измерять каждый отдельный элемент в генеральной совокупности и включать любой из них в нашу выборку. Однако в более общем случае это обычно невозможно или практически невозможно. Невозможно идентифицировать всех крыс в наборе всех крыс. Если голосование не является обязательным, невозможно определить, какие люди будут голосовать на предстоящих выборах (до выборов). Эти неточные совокупности не поддаются выборке ни одним из способов, указанных ниже, и к которым мы могли бы применить статистическую теорию.

В качестве средства правовой защиты мы ищем основу выборки, которая обладает тем свойством, что мы можем идентифицировать каждый отдельный элемент и включать любой из них в нашу выборку. [3] [4] [5] [6] Самый простой тип фрейма - это список элементов совокупности (предпочтительно всего населения) с соответствующей контактной информацией. Например, при опросе общественного мнения возможные рамки выборки включают список избирателей и телефонный справочник .

Образец вероятности представляет собой образец , в котором каждый блок в популяции имеет шанс (больше нуля) быть выбранным в образце, и эта вероятность может быть точно определена. Комбинация этих характеристик позволяет производить объективные оценки совокупных итогов путем взвешивания единиц выборки в соответствии с их вероятностью отбора.

Пример: мы хотим оценить общий доход взрослых, живущих на данной улице. Мы посещаем каждое домохозяйство на этой улице, определяем всех проживающих там взрослых и случайным образом выбираем по одному взрослому из каждого домохозяйства. (Например, мы можем присвоить каждому человеку случайное число, сгенерированное из равномерного распределения от 0 до 1, и выбрать человека с наибольшим номером в каждом домохозяйстве). Затем мы проводим собеседование с выбранным человеком и выясняем его доход.

Люди, живущие самостоятельно, обязательно будут отобраны, поэтому мы просто добавляем их доход к нашей оценке общей суммы. Но человек, живущий в семье из двух взрослых, имеет только один шанс из двух. Чтобы отразить это, когда мы подходим к такому домохозяйству, мы дважды подсчитываем доход выбранного человека к общей сумме. (Человек , который будет выбран из этого домашнего хозяйства может быть свободно рассматривать как также представляющий человек , который не выбран.)

В приведенном выше примере не у всех одинаковая вероятность выбора; выборку вероятности делает тот факт, что вероятность каждого человека известна. Когда каждый элемент в популяции делает имеет одинаковую вероятность выбора, это известно как «равная вероятность выбора» (EPS) дизайн. Такие схемы также называют «самовзвешенными», потому что всем отобранным единицам присваивается одинаковый вес.

Вероятностная выборка включает: простую случайную выборку , систематическую выборку , стратифицированную выборку, вероятностную выборку , пропорциональную размеру, а также кластерную или многоступенчатую выборку . Эти различные способы вероятностной выборки имеют две общие черты:

  1. Каждый элемент имеет известную ненулевую вероятность выборки и
  2. в какой-то момент включает случайный выбор.

Невероятностная выборка [ править ]

Выборки Nonprobability является любым методом отбора проб , где некоторые элементы населения не имеют нет шансов выбора (это иногда называют «вне зоны покрытия» / «негласных»), или где вероятность выбора не может быть точно определена. Он включает в себя выбор элементов на основе предположений относительно интересующей совокупности, которая формирует критерии для выбора. Следовательно, поскольку выбор элементов является неслучайным, не вероятностная выборка не позволяет оценить ошибки выборки. Эти условия приводят к смещению исключения., ограничивая объем информации, которую может предоставить выборка о совокупности. Информация о взаимосвязи между выборкой и генеральной совокупностью ограничена, что затрудняет экстраполяцию от выборки к генеральной совокупности.

Пример: мы посещаем каждую семью на данной улице и опрашиваем первого человека, открывшего дверь. В любом домохозяйстве с более чем одним жильцом это не вероятностная выборка, потому что некоторые люди с большей вероятностью откроют дверь (например, безработный, который проводит большую часть своего времени дома, с большей вероятностью ответит, чем работающий сосед по дому, который может быть на работе, когда звонит интервьюер), и рассчитывать эти вероятности нецелесообразно.

Методы отбора проб Nonprobability включают удобство отбора проб , отбор проб квот и целенаправленный отбор проб . Кроме того, эффекты неполучения ответов могут превратить любой вероятностный план в не вероятностный, если характеристики неполучения ответа не совсем понятны, поскольку отсутствие ответа эффективно изменяет вероятность выборки каждого элемента.

Методы отбора проб [ править ]

В рамках любого из типов фреймов, указанных выше, могут использоваться различные методы выборки, индивидуально или в комбинации. Факторы, обычно влияющие на выбор между этими конструкциями, включают:

  • Характер и качество кадра
  • Наличие вспомогательной информации об агрегатах на раме
  • Требования к точности и необходимость измерения точности
  • Ожидается ли подробный анализ образца
  • Затраты / операционные проблемы

Простая случайная выборка [ править ]

Визуальное представление выбора простой случайной выборки

В простой случайной выборке (SRS) заданного размера все подмножества основы выборки имеют равную вероятность быть выбранными. Таким образом, каждый элемент кадра имеет равную вероятность выбора: кадр не подразделяется и не разбивается на части. Более того, любая заданная пара элементов имеет такой же шанс выбора, как и любая другая такая пара (аналогично для троек и т. Д.). Это минимизирует предвзятость и упрощает анализ результатов. В частности, дисперсия между отдельными результатами в пределах выборки является хорошим индикатором дисперсии в генеральной совокупности, что позволяет относительно легко оценить точность результатов.

Простая случайная выборка может быть уязвима для ошибки выборки, поскольку случайность выбора может привести к тому, что выборка не будет отражать состав генеральной совокупности. Например, простая случайная выборка из десяти человек из данной страны в среднем дает пять мужчин и пять женщин, но в любом конкретном испытании один пол будет представлен слишком далеко, а другой - недостаточно. Систематические и стратифицированные методы пытаются решить эту проблему за счет «использования информации о совокупности» для выбора более «репрезентативной» выборки.

Кроме того, простая случайная выборка может быть обременительной и утомительной при выборке из большой целевой совокупности. В некоторых случаях исследователей интересуют вопросы исследования, специфичные для подгрупп населения. Например, исследователи могут быть заинтересованы в изучении того, применимы ли когнитивные способности как предиктор производительности труда в равной степени в разных расовых группах. Простая случайная выборка не может удовлетворить потребности исследователей в этой ситуации, потому что она не обеспечивает подвыборки населения, и вместо этого можно использовать другие стратегии выборки, такие как стратифицированная выборка.

Систематическая выборка [ править ]

Визуальное представление выбора случайной выборки с использованием методики систематической выборки

Систематическая выборка (также известная как интервальная выборка) основана на организации исследуемой совокупности в соответствии с некоторой схемой упорядочения и последующем выборе элементов через регулярные промежутки времени в этом упорядоченном списке. Систематическая выборка включает случайное начало, а затем переходит к выбору каждого k- го элемента с этого момента. В этом случае k = (размер генеральной совокупности / размер выборки). Важно, чтобы начальная точка не была автоматически первой в списке, а вместо этого выбиралась случайным образом от первого до k- го элемента в списке. Простым примером может быть выбор каждого 10-го имени из телефонного справочника («каждый 10-й» образец, также называемый «выборкой с пропуском 10»).

Пока отправная точка случайна , систематическая выборка является разновидностью вероятностной выборки . Его легко реализовать, и индуцированная стратификация может сделать его эффективным, если переменная, по которой упорядочен список, коррелирует с интересующей переменной. «Каждая 10-я» выборка особенно полезна для эффективной выборки из баз данных .

Например, предположим, что мы хотим выбрать людей с длинной улицы, которая начинается в бедном районе (дом № 1) и заканчивается в дорогом районе (дом № 1000). Простой случайный выбор адресов с этой улицы может легко закончиться тем, что слишком много адресов из верхнего сегмента и слишком мало из нижнего (или наоборот), что приведет к нерепрезентативной выборке. Выбор (например) номера каждой 10-й улицы вдоль улицы гарантирует, что выборка будет равномерно распределена по длине улицы, представляя все эти районы. (Обратите внимание, что если мы всегда начинаем с дома №1 и заканчиваем в №991, выборка слегка смещается в сторону нижнего предела; случайным образом выбирая начало между №1 и №10, это смещение устраняется.

Однако систематическая выборка особенно уязвима для периодичности в списке. Если периодичность присутствует и период является кратным или фактором интервала , используемым, образец, особенно вероятно, будет ООН представителя общей численности населения, что делает схему менее точной , чем простая случайная выборка.

Например, рассмотрим улицу, где все дома с нечетными номерами расположены на северной (дорогой) стороне дороги, а дома с четными номерами - на южной (дешевой) стороне. При приведенной выше схеме выборки получить репрезентативную выборку невозможно; либо дома выборочный будет все быть с нечетным номером, дорогой стороны, или они все будут от четного, дешевой стороны, если исследователь не имеют предварительные знания этого смещения и позволяет избежать его за счетом использовани пропуска , который обеспечивает прыжки между двумя сторонами (любой пропуск с нечетным номером).

Еще один недостаток систематической выборки состоит в том, что даже в сценариях, где она более точна, чем SRS, ее теоретические свойства затрудняют количественную оценку этой точности. (В двух приведенных выше примерах систематической выборки большая часть потенциальной ошибки выборки связана с различиями между соседними домами - но поскольку этот метод никогда не выбирает два соседних дома, выборка не даст нам никакой информации об этом изменении.)

Как описано выше, систематическая выборка - это метод EPS, потому что все элементы имеют одинаковую вероятность выбора (в приведенном примере - один из десяти). Это не «простая случайная выборка», потому что разные подмножества одного размера имеют разные вероятности выбора - например, набор {4,14,24, ..., 994} имеет вероятность выбора один из десяти, но набор {4,13,24,34, ...} имеет нулевую вероятность выбора.

Систематическая выборка также может быть адаптирована к подходу без САП; для примера см. обсуждение образцов PPS ниже.

Стратифицированная выборка [ править ]

Визуальное представление выбора случайной выборки с использованием метода стратифицированной выборки

Когда совокупность включает несколько отдельных категорий, рамка может быть организована по этим категориям в отдельные «страты». Затем каждая страта выбирается как независимая подгруппа, из которой случайным образом могут быть выбраны отдельные элементы. [3] Отношение размера этой случайной выборки (или выборки) к размеру генеральной совокупности называется долей выборки . Стратифицированная выборка дает несколько потенциальных преимуществ.

Во-первых, разделение популяции на отдельные независимые страты может позволить исследователям сделать выводы о конкретных подгруппах, которые могут быть потеряны в более обобщенной случайной выборке.

Во-вторых, использование метода стратифицированной выборки может привести к более эффективным статистическим оценкам (при условии, что страты выбираются на основе соответствия рассматриваемому критерию, а не наличия выборок). Даже если подход стратифицированной выборки не приводит к повышению статистической эффективности, такая тактика не приведет к меньшей эффективности, чем простая случайная выборка, при условии, что каждый слой пропорционален размеру группы в генеральной совокупности.

В-третьих, иногда данные более доступны для отдельных, ранее существовавших слоев населения, чем для всего населения; в таких случаях использование подхода стратифицированной выборки может быть более удобным, чем агрегирование данных по группам (хотя это потенциально может противоречить ранее отмеченной важности использования страт, релевантных критериям).

Наконец, поскольку каждый слой рассматривается как независимая совокупность, к разным слоям могут применяться разные подходы к выборке, что потенциально позволяет исследователям использовать подход, наиболее подходящий (или наиболее экономически эффективный) для каждой выявленной подгруппы в популяции.

Однако у использования стратифицированной выборки есть некоторые потенциальные недостатки. Во-первых, определение страт и реализация такого подхода может увеличить стоимость и сложность отбора выборки, а также привести к увеличению сложности оценок совокупности. Во-вторых, при изучении нескольких критериев стратифицирующие переменные могут быть связаны с одними, но не с другими, что еще больше усложняет дизайн и потенциально снижает полезность страт. Наконец, в некоторых случаях (например, в планах с большим количеством страт или в планах с указанным минимальным размером выборки на группу) стратифицированная выборка потенциально может потребовать большей выборки, чем другие методы (хотя в большинстве случаев требуемый размер выборки будет не больше, чем требуется для простой случайной выборки).

Подход стратифицированной выборки наиболее эффективен при соблюдении трех условий.
  1. Изменчивость внутри пластов сведена к минимуму
  2. Изменчивость между пластами максимальна
  3. Переменные, по которым стратифицируется популяция, сильно коррелируют с желаемой зависимой переменной.
Преимущества перед другими методами отбора проб
  1. Сосредоточен на важных подгруппах населения и игнорирует нерелевантные.
  2. Позволяет использовать разные методы выборки для разных субпопуляций.
  3. Повышает точность / эффективность оценки.
  4. Позволяет лучше сбалансировать статистическую мощность тестов различий между слоями за счет выборки равных чисел из слоев, сильно различающихся по размеру.
Недостатки
  1. Требует выбора соответствующих переменных стратификации, что может быть затруднено.
  2. Бесполезен, когда нет однородных подгрупп.
  3. Реализация может быть дорогостоящей.
Постстратификация

Стратификация иногда вводится после фазы выборки в процессе, называемом «постстратификация». [3] Этот подход обычно применяется из-за отсутствия предварительных знаний о соответствующей стратифицирующей переменной или когда экспериментатор не имеет необходимой информации для создания стратифицирующей переменной на этапе выборки. Хотя этот метод подвержен ошибкам апостериорных подходов, он может дать несколько преимуществ в правильной ситуации. Реализация обычно следует простой случайной выборке. Помимо учета стратификации по вспомогательной переменной, постстратификация может использоваться для реализации взвешивания, которое может повысить точность оценок выборки. [3]

Передискретизация

Выборка на основе выбора - одна из стратегий стратифицированной выборки. При выборке на основе выбора [7] данные стратифицируются по целевому объекту, и из каждого слоя берется выборка, так что редкий целевой класс будет более представлен в выборке. Затем модель строится на этом предвзятом образце . Влияние входных переменных на целевой показатель часто оценивается с большей точностью с помощью выборки, основанной на выборе, даже если общий размер выборки меньше по сравнению со случайной выборкой. Обычно результаты необходимо откорректировать, чтобы скорректировать передискретизацию.

Выборка, пропорциональная вероятности и размеру [ править ]

В некоторых случаях разработчик выборки имеет доступ к «вспомогательной переменной» или «измерению размера», которые, как считается, коррелируют с интересующей переменной для каждого элемента в генеральной совокупности. Эти данные можно использовать для повышения точности дизайна выборки. Один из вариантов - использовать вспомогательную переменную в качестве основы для стратификации, как обсуждалось выше.

Другой вариант - выборка с вероятностью, пропорциональная размеру («PPS»), при которой вероятность выбора для каждого элемента устанавливается пропорциональной его величине размера, максимум до 1. В простой схеме PPS эти вероятности выбора могут затем использоваться в качестве основы для выборки Пуассона . Однако это имеет недостаток, заключающийся в том, что размер выборки варьируется, и различные части генеральной совокупности могут по-прежнему быть чрезмерно или недопредставленными из-за случайного разброса выборки.

Теорию систематической выборки можно использовать для создания вероятности, пропорциональной размеру выборки. Для этого каждый счет в переменной размера рассматривается как единая единица выборки. Затем образцы идентифицируются путем выбора через равные промежутки времени среди этих подсчетов в пределах переменной размера. Этот метод иногда называют PPS-последовательной выборкой или выборкой денежных единиц в случае аудита или судебной выборки.

Пример: предположим, что у нас есть шесть школ с населением 150, 180, 200, 220, 260 и 490 учеников соответственно (всего 1500 учеников), и мы хотим использовать контингент учащихся в качестве основы для выборки PPS третьего размера. Для этого мы могли бы выделить первую школу с номерами от 1 до 150, вторую школу с 151 по 330 (= 150 + 180), третью школу с 331 по 530 и так далее в последнюю школу (с 1011 по 1500). Затем мы генерируем случайное начало от 1 до 500 (равное 1500/3) и подсчитываем численность учащихся школ, умножая их на 500. Если бы случайное начало было 137, мы бы выбрали школы, которым были присвоены номера 137, 637 и 1137 г., т.е. первая, четвертая и шестая школы.

Подход PPS может повысить точность для данного размера выборки за счет концентрации выборки на крупных элементах, которые имеют наибольшее влияние на оценки совокупности. Выборка PPS обычно используется для обследований предприятий, где размер элементов сильно различается и часто доступна вспомогательная информация - например, при обследовании, пытающемся измерить количество гостевых ночей, проведенных в отелях, может использоваться количество номеров каждого отеля в качестве вспомогательной переменной. . В некоторых случаях более раннее измерение интересующей переменной может использоваться в качестве вспомогательной переменной при попытке произвести более текущие оценки. [8]

Кластерная выборка [ править ]

Визуальное представление выбора случайной выборки с использованием метода кластерной выборки

Иногда более рентабельно отбирать респондентов в группы («кластеры»). Выборка часто группируется по географическому признаку или по временным периодам. (Почти все выборки в некотором смысле «сгруппированы» во времени - хотя это редко принимается во внимание при анализе.) Например, при обследовании домохозяйств в городе мы можем выбрать 100 городских кварталов, а затем опросить каждое домохозяйство в пределах города. выбранные блоки.

Кластеризация может снизить командировочные и административные расходы. В приведенном выше примере интервьюер может совершить одну поездку, чтобы посетить несколько домохозяйств в одном квартале, вместо того, чтобы ехать в разные кварталы для каждого домохозяйства.

Это также означает, что не нужна основа выборки, в которой перечислены все элементы целевой совокупности. Вместо этого кластеры могут быть выбраны из кадра уровня кластера, при этом кадр уровня элемента создается только для выбранных кластеров. В приведенном выше примере для выборки требуется только карта города на уровне квартала для первоначального выбора, а затем карта уровня домохозяйства из 100 выбранных кварталов, а не карта всего города на уровне домохозяйства.

Кластерная выборка (также известная как кластерная выборка) обычно увеличивает вариабельность оценок выборки по сравнению с простой случайной выборкой, в зависимости от того, как кластеры отличаются друг от друга по сравнению с вариацией внутри кластера. По этой причине кластерная выборка требует большей выборки, чем SRS, для достижения того же уровня точности, но экономия средств за счет кластеризации может сделать этот вариант более дешевым.

Кластерная выборка обычно реализуется как многоступенчатая выборка . Это сложная форма кластерной выборки, в которой два или более уровня единиц встроены друг в друга. Первый этап состоит из построения кластеров, из которых будет производиться выборка. На втором этапе выборка первичных единиц выбирается случайным образом из каждого кластера (вместо использования всех единиц, содержащихся во всех выбранных кластерах). На следующих этапах в каждом из этих выбранных кластеров выбираются дополнительные образцы единиц и так далее. Затем обследуются все конечные единицы (например, отдельные лица), выбранные на последнем этапе этой процедуры. Таким образом, этот метод, по сути, представляет собой процесс взятия случайных подвыборок из предыдущих случайных выборок.

Многоступенчатая выборка может существенно снизить затраты на выборку, когда необходимо будет составить полный список совокупности (до того, как можно будет применить другие методы выборки). За счет исключения работы, связанной с описанием невыбранных кластеров, многоступенчатая выборка может снизить большие затраты, связанные с традиционной кластерной выборкой. [8] Однако каждая выборка не может быть полностью репрезентативной для всей генеральной совокупности.

Выборка квоты [ править ]

При квотной выборке совокупность сначала сегментируется на взаимоисключающие подгруппы, как и при стратифицированной выборке . Затем используется суждение для выбора субъектов или единиц из каждого сегмента на основе определенной пропорции. Например, интервьюеру может быть предложено выбрать 200 женщин и 300 мужчин в возрасте от 45 до 60 лет.

Именно этот второй шаг делает методику маловероятной выборки. При квотной выборке выборка не является случайной . Например, у интервьюеров может возникнуть соблазн взять интервью у тех, кто выглядит наиболее полезным. Проблема в том, что эти образцы могут быть необъективными, потому что не у всех есть шанс быть отобранным. Этот случайный элемент - его самая большая слабость, и вопрос о соотношении квоты и вероятности является предметом споров в течение нескольких лет.

Минимаксная выборка [ править ]

В несбалансированных наборах данных, где коэффициент выборки не соответствует статистике населения, можно повторно дискретизировать набор данных консервативным способом, называемым минимаксной выборкой . Минимаксная выборка берет свое начало в минимаксном соотношении Андерсона , значение которого оказалось равным 0,5: в бинарной классификации размеры классов и выборок должны выбираться одинаково. Это отношение может быть доказано как минимаксное только в предположении LDA.классификатор с гауссовскими распределениями. Понятие минимаксной выборки недавно было разработано для общего класса правил классификации, называемых классовыми интеллектуальными классификаторами. В этом случае коэффициент выборки классов выбирается таким образом, чтобы наихудшая ошибка классификатора по всей возможной статистике совокупности для априорных вероятностей класса была наилучшей. [9]

Случайная выборка [ править ]

Случайный отбор образцов (иногда известный как захватить , удобства или выборки возможностей) - это тип не вероятностной выборки, который включает выборку из той части генеральной совокупности, которая находится поблизости. То есть население выбирается потому, что оно доступно и удобно. Это может быть через встречу с человеком или включение человека в выборку, когда кто-то встречает его, или выбранный путем поиска с помощью технических средств, таких как Интернет или по телефону. Исследователь, использующий такую ​​выборку, не может с научной точки зрения делать обобщения об общей совокупности из этой выборки, потому что она не будет достаточно репрезентативной. Например, если интервьюер должен был провести такой опрос в торговом центре рано утром в определенный день, люди, с которыми он / она мог бы опросить, были бы ограничены теми, кого там давали в данное время,которые не отражали бы взгляды других членов общества в такой области, если бы опрос проводился в разное время дня и несколько раз в неделю. Этот тип выборки наиболее полезен для пилотного тестирования. Несколько важных соображений для исследователей, использующих удобные образцы, включают:

  1. Существуют ли элементы управления в плане исследования или эксперимента, которые могут помочь уменьшить влияние неслучайной удобной выборки, тем самым гарантируя, что результаты будут более репрезентативными для населения?
  2. Есть ли веские основания полагать, что конкретная удобная выборка будет или должна реагировать или вести себя иначе, чем случайная выборка из той же генеральной совокупности?
  3. Является ли вопрос, который задает исследование, тем, на который можно адекватно ответить, используя удобную выборку?

В исследованиях в области социальных наук отбор по методу снежного кома представляет собой похожую технику, при которой существующие предметы исследования используются для набора большего количества испытуемых в выборку. Некоторые варианты выборки методом снежного кома, такие как выборка, управляемая респондентами, позволяют рассчитывать вероятности выбора и являются методами вероятностной выборки при определенных условиях.

Добровольный отбор образцов [ править ]

Метод добровольной выборки - это разновидность маловероятной выборки. Добровольцы решают заполнить анкету.

Волонтеров можно пригласить через рекламу в социальных сетях. [10] Целевая аудитория для рекламы может быть выбрана по таким характеристикам, как местоположение, возраст, пол, доход, род занятий, образование или интересы, используя инструменты, предоставляемые социальной средой. Рекламное объявление может содержать сообщение об исследовании и ссылку на опрос. После перехода по ссылке и заполнения опроса волонтер отправляет данные для включения в выборку населения. Этот метод может охватить население всего мира, но ограничен бюджетом кампании. Волонтеры, не входящие в состав приглашенного населения, также могут быть включены в выборку.

На основании этой выборки трудно делать обобщения, потому что она может не отражать всю совокупность. Часто волонтеры проявляют большой интерес к основной теме опроса.

Выборка перехвата линии [ править ]

Выборка с пересечением линии - это метод выборки элементов в области, при котором элемент выбирается, если выбранный сегмент линии, называемый «разрезом», пересекает элемент.

Выборка панели [ править ]

Панельная выборка - это метод первого выбора группы участников методом случайной выборки с последующим запросом у этой группы (потенциально одинаковой) информации несколько раз в течение определенного периода времени. Таким образом, каждый участник интервьюируется в двух или более временных точках; каждый период сбора данных называется «волной». Этот метод был разработан социологом Полем Лазарсфельдом в 1938 году как средство изучения политических кампаний . [11] Этот продольныйМетод выборки позволяет оценить изменения в населении, например, в отношении хронических заболеваний, стресса на работе и еженедельных расходов на питание. Панельная выборка также может использоваться для информирования исследователей об изменениях здоровья внутри человека в связи с возрастом или для объяснения изменений в непрерывно зависимых переменных, таких как супружеские взаимоотношения. [12] Было предложено несколько методов анализа панельных данных , включая MANOVA , кривые роста и моделирование структурных уравнений с запаздывающими эффектами.

Выборка снежка [ править ]

Выборка «снежный ком» включает в себя поиск небольшой группы первоначальных респондентов и их использование для набора большего числа респондентов. Это особенно полезно в тех случаях, когда популяция скрыта или трудна для подсчета.

Теоретическая выборка [ править ]

Теоретический отбор образцов [13] происходит, когда образцы отбираются на основе результатов уже собранных данных с целью развития более глубокого понимания данной области или разработки теорий. Могут быть выбраны крайние или очень конкретные случаи, чтобы максимизировать вероятность того, что явление действительно будет наблюдаемым.

Замена выбранных единиц [ править ]

Схемы выборки могут быть без замены («WOR» - ни один элемент не может быть выбран более одного раза в одном образце) или с заменой («WR» - элемент может появляться несколько раз в одном образце). Например, если мы ловим рыбу, измеряем ее и сразу же возвращаем в воду, прежде чем продолжить взятие пробы, это будет дизайн WR, потому что мы можем поймать и измерить одну и ту же рыбу более одного раза. Однако, если мы не возвращаем рыбу в воду или метку и не выпускаем каждую рыбу после поимки, это становится дизайном WOR.

Определение размера выборки [ править ]

Формулы, таблицы и диаграммы степенной функции - хорошо известные подходы к определению размера выборки.

Шаги по использованию таблиц размера выборки [ править ]

  1. Постулируйте величину интересующего эффекта, α и β.
  2. См. Таблицу размера выборки [14]
    1. Выберите таблицу, соответствующую выбранному α
    2. Найдите строку, соответствующую желаемой мощности
    3. Найдите столбец, соответствующий предполагаемой величине эффекта.
    4. Пересечение столбца и строки - это минимальный требуемый размер выборки.

Выборка и сбор данных [ править ]

Хороший сбор данных включает:

  • Следуя установленному процессу отбора проб
  • Хранение данных в хронологическом порядке
  • Отмечать комментарии и другие контекстные события
  • Запись неответов

Приложения выборки [ править ]

Выборка позволяет выбрать правильные точки данных из более крупного набора данных для оценки характеристик всей совокупности. Например, ежедневно создается около 600 миллионов твитов. Необязательно просматривать все твиты, чтобы определить темы, обсуждаемые в течение дня, и не обязательно просматривать все твиты, чтобы определить настроения по каждой из тем. Разработана теоретическая формулировка выборки данных Twitter. [15]

При производстве различные типы сенсорных данных, такие как акустика, вибрация, давление, ток, напряжение и данные контроллера, доступны через короткие промежутки времени. Для прогнозирования времени простоя может не потребоваться просмотр всех данных, но выборки может быть достаточно.

Ошибки в выборочных опросах [ править ]

В результатах опроса обычно есть ошибки. Общие ошибки можно разделить на ошибки выборки и ошибки, не связанные с выборкой. Термин «ошибка» здесь включает систематические ошибки, а также случайные ошибки.

Ошибки и предвзятость выборки [ править ]

Ошибки и смещения выборки вызваны дизайном выборки. Они включают:

  1. Систематическая ошибка отбора : когда истинные вероятности выбора отличаются от предполагаемых при вычислении результатов.
  2. Случайная ошибка выборки : случайное изменение результатов из-за случайного выбора элементов в выборке.

Ошибка, не связанная с выборкой [ править ]

Ошибки, не связанные с выборкой, - это другие ошибки, которые могут повлиять на окончательные оценки обследования, вызванные проблемами при сборе, обработке или построении выборки. К таким ошибкам могут относиться:

  1. Чрезмерный охват : включение данных за пределами населения
  2. Недостаточный охват : основа выборки не включает элементы совокупности.
  3. Ошибка измерения : например, когда респонденты неправильно понимают вопрос или затрудняются с ответом.
  4. Ошибка обработки : ошибки в кодировании данных
  5. Предвзятость в отношении отсутствия ответов или участия : невозможность получить полные данные от всех выбранных лиц

После отбора проб необходимо провести обзор [ кем? ] точного процесса отбора проб, а не предполагаемого, чтобы изучить любые последствия, которые любые расхождения могут оказать на последующий анализ.

Конкретная проблема связана с отсутствием ответа . Существует два основных типа неполучения ответов: [16] [17]

  • единичный неответ (невыполнение какой-либо части опроса)
  • Отсутствие ответа на элемент (отправка или участие в опросе, но невыполнение одного или нескольких компонентов / вопросов опроса)

В выборке обследования многие из лиц, определенных как часть выборки, могут не желать участвовать, не иметь времени на участие (альтернативные издержки) [18], или администраторы обследования могут не иметь возможности связаться с ними. В этом случае существует риск различий между респондентами и не респондентами, что приведет к необъективным оценкам параметров населения. Это часто решается путем улучшения дизайна опроса, предложения стимулов и проведения последующих исследований, в которых предпринимаются неоднократные попытки установить контакт с неотзывчивыми и охарактеризовать их сходства и различия с остальной частью кадра. [19]Эффект также можно смягчить путем взвешивания данных (при наличии эталонных показателей населения) или путем условного расчета данных, основанных на ответах на другие вопросы. Отсутствие ответа - особенно серьезная проблема при выборке в Интернете. Причины этой проблемы могут включать в себя неправильно составленные опросы [17], чрезмерное изучение (или усталость от опросов), [12] [20] [ требуется цитата для проверки ] и тот факт, что потенциальные участники могут иметь несколько адресов электронной почты, которые они больше не используйте или не проверяйте регулярно.

Весы опроса [ править ]

Во многих ситуациях фракция выборки может варьироваться в зависимости от страты, и данные должны быть взвешены, чтобы правильно представлять генеральную совокупность. Так, например, простая случайная выборка людей в Соединенном Королевстве может не включать некоторых из отдаленных шотландских островов, выборка которых будет чрезмерно дорогой. Более дешевым методом было бы использование стратифицированной выборки с городскими и сельскими стратами. Сельская выборка может быть недостаточно представлена ​​в выборке, но при анализе должна быть соответствующим образом взвешена для компенсации.

В более общем плане данные обычно следует взвешивать, если план выборки не дает каждому человеку равных шансов быть выбранным. Например, когда домохозяйства имеют равные возможности выбора, но опрашивается один человек из каждого домохозяйства, это дает людям из больших домохозяйств меньшие шансы быть опрошенными. Это можно учесть с помощью весов обследования. Точно так же домохозяйства, имеющие более одной телефонной линии, имеют больше шансов быть отобранными в выборке случайного набора номера, и веса могут корректироваться с учетом этого.

Веса также могут служить другим целям, например, помогать исправлять неполучение ответов.

Методы получения случайных выборок [ править ]

  • Таблица случайных чисел
  • Математические алгоритмы генераторов псевдослучайных чисел
  • Физические устройства рандомизации, такие как монеты, игральные карты или сложные устройства, такие как ERNIE

История [ править ]

Случайная выборка по жребию - старая идея, несколько раз упоминавшаяся в Библии. В 1786 году Пьер Симон Лаплас оценил численность населения Франции с помощью выборки и оценки соотношения . Он также вычислил вероятностные оценки ошибки. Они были выражены не как современные доверительные интервалы, а как размер выборки, который потребуется для достижения определенной верхней границы ошибки выборки с вероятностью 1000/1001. Его оценки использовали теорему Байеса с равномерной априорной вероятностью и предполагали, что его выборка была случайной. Александр Иванович Чупров ввел выборочные обследования в Императорскую Россию в 1870-е годы. [цитата необходима ]

В США предсказание « Литературного дайджеста» 1936 года о победе республиканцев на президентских выборах оказалось совершенно неверным из-за серьезной предвзятости [1] . Более двух миллионов человек ответили на исследование, указав свои имена из подписных списков журналов и телефонных справочников. Не было оценено, что эти списки были сильно смещены в сторону республиканцев, и полученная в результате выборка, хотя и была очень большой, была глубоко ошибочной. [21] [22]

См. Также [ править ]

  • Сбор информации
  • Теория выборки Гая
  • Проблема с немецким танком
  • Оценка Хорвица – Томпсона
  • Официальная статистика
  • Оценка отношения
  • Репликация (статистика)
  • Механизм случайной выборки
  • Ресэмплинг (статистика)
  • Выборка (тематические исследования)
  • Ошибка выборки
  • Сортировка

Заметки [ править ]

Учебник Groves et alia предоставляет обзор методологии опроса, в том числе недавнюю литературу по разработке вопросников (на основе когнитивной психологии ):

  • Роберт Гровс и другие. Методология исследования (2-е изд. 2010 г. [2004 г.]) ISBN  0-471-48348-6 .

Другие книги посвящены статистической теории выборки обследований и требуют некоторых знаний базовой статистики, как это обсуждается в следующих учебниках:

  • Дэвид С. Мур и Джордж П. Маккейб (февраль 2005 г.). « Введение в статистическую практику » (5-е издание). WH Freeman & Company. ISBN 0-7167-6282-X . 
  • Фридман, Дэвид ; Пизани, Роберт; Purves, Роджер (2007). Статистика (4-е изд.). Нью-Йорк : Нортон . ISBN 978-0-393-92972-0. Архивировано из оригинала на 2008-07-06.

В элементарной книге Шеффера и других используются квадратные уравнения из школьной алгебры:

  • Шеффер, Ричард Л., Уильям Менденхал и Р. Лайман Отт. Выборка элементарного обследования , пятое издание. Бельмонт: Duxbury Press, 1996.

Больше математической статистики требуется для Лора, Сэрндала и других и для Кокрана (классический [ необходима цитата ] ):

  • Кокран, Уильям Г. (1977). Методы отбора проб (Третье изд.). Вайли. ISBN 978-0-471-16240-7.
  • Лор, Шарон Л. (1999). Выборка: Дизайн и анализ . Даксбери. ISBN 978-0-534-35361-2.
  • Сэрндал, Карл-Эрик и Свенсон, Бенгт и Ретман, Ян (1992). Выборка обследования с помощью модели . Springer-Verlag. ISBN 978-0-387-40620-6.CS1 maint: несколько имен: список авторов ( ссылка )

Исторически важные книги Деминга и Киша по-прежнему ценны для понимания социологов (особенно о переписи населения США и Институте социальных исследований при Мичиганском университете ):

  • Деминг, У. Эдвардс (1966). Некоторая теория выборки . Dover Publications . ISBN 978-0-486-64684-8. OCLC  166526 .
  • Киш, Лесли (1995) Выборка обследования , Wiley, ISBN 0-471-10949-5 

Ссылки [ править ]

  1. Перейти ↑ Lance, P. & Hattori, A. (2016). Выборка и оценка . Веб: MEASURE Evaluation. С. 6–8, 62–64.CS1 maint: несколько имен: список авторов ( ссылка )
  2. ^ Салант, Присцилла, И. Диллман и А. Дон. Как провести собственный опрос . № 300.723 S3. 1994 г.
  3. ^ a b c d Роберт М. Гровс; и другие. (2009).Методология исследования. ISBN 978-0470465462.
  4. ^ Лор, Шэрон Л. Выборка: Дизайн и анализ .
  5. ^ Särndal, Карлы-Эрик, и Swensson, Бенет и Wretman, январь модель Assisted выборочного обследования .CS1 maint: несколько имен: список авторов ( ссылка )
  6. ^ Шеффер, Ричард Л., Уильям Менденхал и Р. Лайман Отт. (2006). Элементарная выборка обследования .CS1 maint: несколько имен: список авторов ( ссылка )
  7. ^ Скотт, AJ; Уайлд, CJ (1986). «Подгонка логистических моделей под случай-контроль или выборку на основе выбора». Журнал Королевского статистического общества, Series B . 48 (2): 170–182. JSTOR 2345712 . 
  8. ^ а б
    • Лор, Шэрон Л. Выборка: Дизайн и анализ .
    • Сэрндал, Карл-Эрик и Свенссон, Бенгт и Ретман, Ян. Выборка обследования с помощью модели .CS1 maint: несколько имен: список авторов ( ссылка )
  9. ^ Шахрох Исфахани, Мохаммад; Догерти, Эдвард (2014). «Влияние раздельной выборки на точность классификации» . Биоинформатика . 30 (2): 242–250. DOI : 10.1093 / биоинформатики / btt662 . PMID 24257187 . 
  10. ^ Ariyaratne, Buddhika (30 июля 2017). «Метод добровольной выборки в сочетании с рекламой в социальных сетях» . heal-info.blogspot.com . Информатика здравоохранения . Проверено 18 декабря 2018 .[ ненадежный источник? ]
  11. ^ Лазарсфельд П., и Фиск, М. (1938). «Панель» как новый инструмент для измерения мнений. Ежеквартальное издание «Общественное мнение», 2 (4), 596–612.
  12. ^ а б Гровс и др. Методология исследования
  13. ^ «Примеры методов отбора проб» (PDF) .
  14. ^ Коэн, 1988
  15. ^ Deepan Palguna, Викас Джоши, Venkatesan Chakaravarthy, Ravi Kothari и LV Субраманьям (2015). Анализ алгоритмов выборки для Twitter . Международная совместная конференция по искусственному интеллекту .CS1 maint: несколько имен: список авторов ( ссылка )
  16. Перейти ↑ Berinsky, AJ (2008). «Отсутствие ответа на опрос». В: W. Donsbach & MW Traugott (Eds.), The Sage: Справочник по исследованию общественного мнения (стр. 309–321). Таузенд-Оукс, Калифорния: Sage Publications.
  17. ^ a b Диллман, Д. А., Элтинг, Дж. Л., Гровс, Р. М., и Литтл, Р. Дж. А. (2002). «Отсутствие ответа на опрос при разработке, сборе данных и анализе». В: RM Groves, DA Dillman, JL Eltinge, & RJA Little (Eds.), Отсутствие ответа на опрос (стр. 3–26). Нью-Йорк: Джон Вили и сыновья.
  18. ^ Диллман, Д. А., Смит, JD, & Christian, LM (2009). Интернет, почта и смешанные опросы: индивидуальный метод разработки. Сан-Франциско: Джосси-Басс.
  19. ^ Vehovar В., Batagelj, З. Манфреда, KL, & Zaletel, M. (2002). «Отсутствие ответов в веб-опросах». В: RM Groves, DA Dillman, JL Eltinge, & RJA Little (Eds.), Nonresponse (pp. 229–242). Нью-Йорк: Джон Вили и сыновья.
  20. ^ Портер; Уиткомб; Вайцер (2004). «Множественные опросы студентов и обследование утомляемости». В Портер, Стивен Р. (ред.). Решение проблем опросного исследования . Новые направления институциональных исследований. Сан-Франциско: Джосси-Басс. С. 63–74. ISBN 9780787974770. Проверено 15 июля 2019 .
  21. ^ Дэвид С. Мур и Джордж П. МакКейб. « Введение в статистическую практику ».
  22. ^ Фридман, Дэвид ; Пизани, Роберт; Первес, Роджер. Статистика .

Дальнейшее чтение [ править ]

  • Чемберс, Р.Л. и Скиннер, К.Дж. (редакторы) (2003), Анализ данных опроса , Wiley, ISBN 0-471-89987-9 
  • Деминг, У. Эдвардс (1975) О вероятности как основе действия, Американский статистик , 29 (4), стр. 146–152.
  • Гай, П. (2012) Отбор образцов из гетерогенных и динамических систем материалов: теории неоднородности, отбора образцов и гомогенизации , Elsevier Science, ISBN 978-0444556066 
  • Корн, Э.Л., и Граубард, Б.И. (1999) Анализ медицинских обследований , Wiley, ISBN 0-471-13773-1 
  • Лукас, Сэмюэл Р. (2012). doi : 10.1007% 2Fs11135-012-9775-3 "За пределами доказательства существования: онтологические условия, эпистемологические последствия и углубленное интервьюирование."], Качество и количество , doi : 10.1007 / s11135-012-9775-3 .
  • Стюарт, Алан (1962) Основные идеи научной выборки , Hafner Publishing Company, Нью-Йорк [ ISBN отсутствует ]
  • Смит, TMF (1984). «Настоящее положение и возможные изменения: некоторые личные взгляды: выборочные опросы». Журнал Королевского статистического общества, Series A . 147 (150-летие Королевского статистического общества, номер 2): 208–221. DOI : 10.2307 / 2981677 . JSTOR  2981677 .
  • Смит, TMF (1993). «Популяции и отбор: ограничения статистики (Послание Президента)». Журнал Королевского статистического общества, Series A . 156 (2): 144–166. DOI : 10.2307 / 2982726 . JSTOR  2982726 . (Портрет TMF Smith на странице 144)
  • Смит, TMF (2001). «Столетие: Выборочные опросы» . Биометрика . 88 (1): 167–243. DOI : 10.1093 / Biomet / 88.1.167 .
  • Смит, TMF (2001). «100-летие биометрики: выборочные исследования». В DM Titterington и DR Cox (ed.).Биометрика : сто лет . Издательство Оксфордского университета. С. 165–194. ISBN 978-0-19-850993-6.
  • Уиттл, П. (май 1954 г.). «Оптимальный профилактический отбор проб». Журнал Американского общества исследования операций . 2 (2): 197–203. DOI : 10.1287 / opre.2.2.197 . JSTOR  166605 .

Стандарты [ править ]

ISO [ править ]

  • ISO 2859 серия
  • ISO 3951 серия

ASTM [ править ]

  • Стандартная практика ASTM E105 для вероятностного отбора проб материалов
  • ASTM E122 Стандартная практика для расчета размера образца для оценки, с заданной допустимой ошибкой, среднего значения для характеристики партии или процесса
  • ASTM E141 Стандартная практика принятия доказательств, основанных на результатах вероятностного отбора проб
  • Стандартная терминология ASTM E1402, относящаяся к отбору проб
  • ASTM E1994 Стандартная практика использования процессно-ориентированных планов выборочного контроля AOQL и LTPD
  • ASTM E2234 Стандартная практика отбора проб из потока продукции по атрибутам, проиндексированным AQL

ANSI, ASQ [ править ]

  • ANSI / ASQ Z1.4

Федеральные и военные стандарты США [ править ]

  • MIL-STD-105
  • MIL-STD-1916

Внешние ссылки [ править ]

  • СМИ, связанные с отбором проб (статистика) на Викискладе?