Эффект дизайна

В статистических данных , то дизайн эффект (или оценки единичной дисперсией ) является регулировка используется в некоторых видах исследований, таких , как те , что использование кластера выборки или кластера рандомизированное контролируемое исследование , чтобы позволить проектной структуры. Корректировка увеличивает дисперсию оценок параметров и, следовательно, их стандартные ошибки , что необходимо для корреляции между кластерами наблюдений. ^[1]^[2] Он аналогичен коэффициенту инфляции дисперсии и используется при расчетах размера выборки . ^[3]Термин был введен Лесли Кишом в 1965 году. ^[4]

Определение

Общий

Эффект схемы - это отношение двух теоретических отклонений для оценки некоторого параметра ( ${\ displaystyle \ theta}$ ): ^[4]^[5]

фактическая дисперсия для данного плана выборки ( ${\ displaystyle {\ hat {\ theta}} _ {w}}$ );
дисперсия предполагает тот же размер выборки, но если выборка была получена с использованием простой случайной выборки без замены ( ${\ displaystyle {\ hat {\ theta}}}$ ).

Чтобы: ${\ displaystyle D_ {eff} = {\ frac {{\ hat {\ theta}} _ {w}} {\ hat {\ theta}}}}$

Другими словами, ${\ displaystyle D_ {eff}}$ на то, насколько увеличилась (или уменьшилась в некоторых случаях) дисперсия из-за того, что мы использовали взвешенные выборки вместо выборок из простой случайной выборки . Есть много способов расчета ${\ displaystyle D_ {eff}}$ , в зависимости от того, как были созданы веса.

Эффект дизайна Киша

Эффект схемы Киша для увеличения дисперсии взвешенного среднего по выборке (некоторой выходной переменной y) равен:

{\ displaystyle D_ {eff} = {\ frac {\ overline {w ^ {2}}} {{\ overline {w}} ^ {2}}} = {\ frac {{\ frac {1} {n}) } \ sum _ {i = 1} ^ {n} w_ {i} ^ {2}} {\ left ({\ frac {1} {n}} \ sum _ {i = 1} ^ {n} w_ { i} \ right) ^ {2}}} = {\ frac {n \ sum _ {i = 1} ^ {n} w_ {i} ^ {2}} {(\ sum _ {i = 1} ^ { п} ш_ {я}) ^ {2}}}}

Это означает, что если y - это те наблюдения, которые у нас есть, а y '- это наблюдения, которые у нас были бы, если бы мы получили их из простой случайной выборки, тогда:

${\ displaystyle D_ {eff-kish} = {\ frac {var \ left ({\ bar {y}} _ {w} \ right)} {var \ left ({\ bar {y}} '\ right)} } = {\ frac {var \ left ({\ frac {\ sum \ limits _ {i = 1} ^ {n} w_ {i} y_ {i}} {\ sum \ limits _ {i = 1} ^ { n} w_ {i}}} \ right)} {var \ left ({\ frac {\ sum \ limits _ {i = 1} ^ {n} y_ {i} '} {n}} \ right)}} }$

Эта формула верна, когда все n наблюдений ( ${\ displaystyle y_ {1}, ..., y_ {n}}$ ) являются (по крайней мере приблизительно) некоррелированными ( ${\ Displaystyle \ forall (я \ neq j): cor (y_ {i}, y_ {j}) = 0}$ ), с той же дисперсией ( ${\ displaystyle \ sigma ^ {2}}$ ) в интересующей переменной отклика (y). Также предполагается, что сами веса не являются случайной величиной, а скорее фиксированными (известными) константами.

[Доказательство]

${\ displaystyle {\ begin {align} var \ left ({\ bar {y}} _ {w} \ right) & {\ stackrel {1} {=}} var \ left ({\ frac {\ sum \ limits _ {i = 1} ^ {n} w_ {i} y_ {i}} {\ sum \ limits _ {i = 1} ^ {n} w_ {i}}} \ right) {\ stackrel {2} { =}} var \ left (\ sum \ limits _ {i = 1} ^ {n} w_ {i} 'y_ {i} \ right) {\ stackrel {3} {=}} \ sum \ limits _ {i = 1} ^ {n} var \ left (w_ {i} 'y_ {i} \ right) \\ & {\ stackrel {4} {=}} \ sum \ limits _ {i = 1} ^ {n} w_ {i} '^ {2} var \ left (y_ {i} \ right) {\ stackrel {5} {=}} \ sum \ limits _ {i = 1} ^ {n} w_ {i}' ^ {2} \ sigma ^ {2} {\ stackrel {6} {=}} \ sigma ^ {2} \ sum \ limits _ {i = 1} ^ {n} w_ {i} '^ {2} {\ stackrel {7} {=}} \ sigma ^ {2} {\ frac {\ sum \ limits _ {i = 1} ^ {n} w_ {i} ^ {2}} {\ left (\ sum \ limits _ {i = 1} ^ {n} w_ {i} \ right) ^ {2}}} \\ & {\ stackrel {8} {=}} \ sigma ^ {2} {\ frac {\ sum \ limits _ {i = 1} ^ {n} w_ {i} ^ {2}} {\ left (\ sum \ limits _ {i = 1} ^ {n} w_ {i} {\ frac {n} {n}} \ right) ^ {2}}} {\ stackrel {9} {=}} \ sigma ^ {2} {\ frac {\ sum \ limits _ {i = 1} ^ {n} w_ {i} ^ {2 }} {\ left ({\ frac {\ sum \ limits _ {i = 1} ^ {n} w_ {i}} {n}} \ right) ^ {2} n ^ {2}}} {\ stackrel {10} {=}} {\ frac {\ sigma ^ {2}} {n}} {\ frac {\ frac {\ sum \ limits _ {i = 1} ^ {n} w_ {i} ^ {2 }} {n}} {\ left ({\ fra c {\ sum \ limits _ {i = 1} ^ {n} w_ {i}} {n}} \ right) ^ {2}}} {\ stackrel {11} {=}} {\ frac {\ sigma ^ {2}} {n}} {\ frac {\ overline {w ^ {2}}} {{\ bar {w}} ^ {2}}} {\ stackrel {12} {=}} var \ left ({\ bar {y}} '\ right) D_ {eff} \\ & \ подразумевает D_ {eff-kish} = {\ frac {var \ left ({\ bar {y}} _ {w} \ right) } {var \ left ({\ bar {y}} '\ right)}} \\\ конец {выровнен}}}$

Переходы:

из определения средневзвешенного значения .
с использованием определения нормированных (выпуклых) весов (веса, сумма которых равна 1): ${\ displaystyle w_ {i} '= {\ frac {w_ {i}} {\ sum \ limits _ {i = 1} ^ {n} w_ {i}}}}$ .
сумма некоррелированных случайных величин .
Если веса постоянны (из основных свойств дисперсии). Другими словами, веса известны заранее для каждого наблюдения i. А именно то, что мы на самом деле рассчитываем ${\ displaystyle var \ left ({\ bar {y}} _ {w} | w \ right)}$
когда все наблюдения имеют одинаковую дисперсию ( ${\ displaystyle \ sigma ^ {2}}$ ).

Условия на у тривиально проводятся , если у наблюдения IID с тем же ожиданием и дисперсией . В таком случае мы имеем ${\ displaystyle y = y '}$ , и мы можем оценить ${\ displaystyle var \ left ({\ bar {y}} _ {w} \ right)}$ используя ${\ displaystyle {\ overline {var \ left ({\ bar {y}} _ {w} \ right)}} = {\ overline {var \ left ({\ bar {y}} \ right)}} \ раз D_ {eff}}$ ^[6]^[7] . Если не все y имеют одинаковые ожидания, то мы не можем использовать оценочную дисперсию для расчета, поскольку эта оценка предполагает, что все ${\ displaystyle y_ {i}}$ имеют такие же ожидания. В частности, если существует корреляция между весами и выходной переменной y, это означает, что ожидание y не одинаково для всех наблюдений (а, скорее, зависит от конкретного значения веса для каждого наблюдения). В таком случае, хотя формула эффекта схемы может быть верной (при соблюдении других условий), для дисперсии средневзвешенного значения потребуется другая оценка. Например, может быть лучше использовать оценщик взвешенной дисперсии .

Если разные ${\ displaystyle y_ {i}}$ s имеют разные дисперсии, тогда, хотя взвешенная дисперсия может уловить правильную дисперсию на уровне популяции, формула Киша для эффекта схемы может больше не соответствовать действительности.

Аналогичная проблема возникает, если в выборках присутствует некоторая корреляционная структура (например, при использовании кластерной выборки ).

Обратите внимание, что определение эффекта схемы, данное Кишом, тесно связано с коэффициентом вариации весов (при использовании нескорректированного стандартного отклонения выборки для оценки ): ${\ displaystyle D_ {eff} = {C_ {V}} ^ {2} +1}$ . И когда веса нормализованы к размеру выборки (так, чтобы их сумма была равна n, а их среднее значение было равно 1), тогда ${\ Displaystyle {C_ {V}} ^ {2} = V (ш)}$ и формула сводится к ${\ Displaystyle D_ {eff} = V (ш) +1}$ . Хотя верно, что мы предполагаем, что веса фиксированы, мы можем рассматривать их дисперсию как дисперсию эмпирического распределения, определенного путем выборки (с равной вероятностью) одного веса из нашего набора весов (аналогично тому, как мы думаем о корреляции x и y в простой линейной регрессии .

[Доказательство]

${\ Displaystyle {C_ {V}} ^ {2} = \ left ({\ frac {s_ {w}} {\ bar {w}}} \ right) ^ {2} = {\ frac {\ frac {\ сумма _ {i = 1} ^ {n} (w_ {i} - {\ bar {w}}) ^ {2}} {n}} {{\ bar {w}} ^ {2}}} = { \ frac {\ frac {\ sum _ {i = 1} ^ {n} {w_ {i}} ^ {2} -n {\ bar {w}} ^ {2}} {n}} {{\ bar {w}} ^ {2}}} = {\ frac {{\ overline {w}} ^ {2} - {\ bar {w}} ^ {2}} {{\ bar {w}} ^ {2 }}} = {\ frac {{\ overline {w}} ^ {2}} {{\ bar {w}} ^ {2}}} - 1 = D_ {eff} -1 \ подразумевает D_ {eff} = {C_ {V}} ^ {2} +1}$

Эффект дизайна для кластерной выборки

Для данных, собранных с использованием кластерной выборки с m наблюдениями в каждом кластере и k кластерах, у нас есть в общей сложности ${\ Displaystyle п = к \ раз м}$ наблюдения. Они имеют блок корреляционной матрицы , в которой каждая пара наблюдений из одного кластера коррелирует с интра-кластерной корреляции в ${\ displaystyle \ rho}$ , в то время как каждая пара из разностных кластеров некоррелирована.

Эффект дизайна. D _eff определяется по формуле ^[8]^[9]

{\ displaystyle D _ {\ text {eff}} = 1+ (m-1) \ rho.}

Смотрите также

Эффективный размер выборки

дальнейшее чтение

Влияние типичных корректировок весовых коэффициентов обследования на эффект дизайна: тематическое исследование
Оценка компонентов эффектов схемы для использования при разработке выборки

[1] Александр К. Роу; Марсель Лама; Фаустин Оникпо; Майкл С. Деминг (2002). «Эффекты схемы и коэффициенты внутриклассовой корреляции из кластерного обследования медицинских учреждений в Бенине» . Международный журнал качества в здравоохранении . 14 (6): 521–523. DOI : 10.1093 / intqhc / 14.6.521 .

[2] «Глоссарий - Статистические стандарты NCES» .

[3] Хо, Мунсон; Ким, Йонгман; Сюэ, Сяонань; Ким, Мими Ю. (2010). «Требование к размеру выборки для выявления эффекта вмешательства в конце последующего наблюдения в продольном кластерном рандомизированном исследовании» . Статистика в медицине . 29 (3): 382–390. DOI : 10.1002 / sim.3806 . Архивировано из оригинала на 2013-01-05.

[Kish-4] а б Киш, Лесли (1965). «Обзорная выборка». Нью-Йорк: ISBN John Wiley & Sons, Inc. 0-471-10949-5. Цитировать журнал требует |journal=( помощь )

[5] Эверит, BS (2002) Кембриджский статистический словарь , 2-е издание. ЧАШКА. ISBN 0-521-81099-X

[6] Перейти ↑ Kish, Leslie, and J. Official Stat. «Взвешивание неравных Пи». (1992): 183-200. ссылка в формате pdf

[7] Литтл, Родерик Дж. И Соня Варивариан. «Увеличивает ли взвешивание неполучения ответов дисперсию средних значений опроса?». Методология исследования 31.2 (2005 г.): 161. Ссылка в формате pdf

[8] Bland, M (2005), «Кластерные рандомизированные испытания в медицинской литературе» , Примечания к выступлениям, Йоркский университет.

[9] Методы в выборочных исследованиях (страницы 5-6)

[1]