Взвешивание обратной вероятности

Обратное вероятностное взвешивание - это статистический метод расчета статистики, стандартизированной для псевдопопуляции, отличной от той, в которой были собраны данные. Часто применяются планы исследований с разрозненной выборкой и популяцией целевой группы (целевая группа). ^[1] Могут существовать запретительные факторы, не позволяющие исследователям напрямую брать образцы из целевой группы, такие как стоимость, время или этические соображения. ^[2] Решение этой проблемы состоит в использовании альтернативной стратегии проектирования, например, стратифицированной выборки . Взвешивание при правильном применении потенциально может повысить эффективность и уменьшить смещение невзвешенных оценок.

Одна очень ранняя взвешенная оценка - это оценка среднего значения Хорвица – Томпсона . ^[3] Если известна вероятность выборки , из которой выборочная совокупность берется из целевой совокупности, то для взвешивания наблюдений используется величина, обратная этой вероятности. Этот подход был обобщен для многих аспектов статистики в различных рамках. В частности, есть взвешенные вероятности , взвешенные уравнения оценки и взвешенные плотности вероятностей, из которых выводится большая часть статистики. Эти приложения систематизировали теорию других статистических данных и оценок, таких как модели маргинальной структуры ,стандартизированный коэффициент смертности и алгоритм EM для грубых или агрегированных данных.

Взвешивание обратной вероятности также используется для учета отсутствующих данных, когда субъекты с отсутствующими данными не могут быть включены в первичный анализ. ^[4] С оценкой вероятности выборки или вероятности того, что фактор будет измерен в другом измерении, можно использовать взвешивание обратной вероятности для завышения веса для субъектов, которые недопредставлены из-за большой степени отсутствующих данных .

Взвешенная оценка обратной вероятности (IPWE) [ править ]

Оценщик с обратной вероятностью взвешивания может использоваться для демонстрации причинно-следственной связи, когда исследователь не может провести контролируемый эксперимент, но имеет наблюдаемые данные для моделирования. Поскольку предполагается, что лечение не назначается случайным образом, цель состоит в том, чтобы оценить контрфактический или потенциальный результат, если бы всем субъектам в популяции было назначено любое лечение.

Предположим, что наблюдаемые данные взяты iid ^[^{необходимы пояснения}^] (независимые и одинаково распределенные) из неизвестного распределения P, где ${\ displaystyle \ {{\ bigl (} X_ {i}, A_ {i}, Y_ {i} {\ bigr)} \} _ {i = 1} ^ {n}}$

${\ Displaystyle X \ in \ mathbb {R} ^ {p}}$ ковариаты
${\ Displaystyle А \ в \ {0,1 \}}$ это два возможных лечения.
${\ Displaystyle Y \ in \ mathbb {R}}$ отклик
Мы не предполагаем, что лечение назначается случайным образом.

Цель состоит в том, чтобы оценить потенциальный результат, который будет наблюдаться, если субъекту будет назначено лечение a. Затем сравните средние результаты , если у всех пациентов в популяции были назначены либо лечение: . Мы хотим оценить, используя данные наблюдений . ${\ Displaystyle Y ^ {*} {\ bigl (} а {\ bigr)}}$ $\mu _{a}=\mathbb {E} Y^{*}(a)$ $\mu _{a}$ $\{{\bigl (}X_{i},A_{i},Y_{i}{\bigr )}\}_{i=1}^{n}$

Формула оценщика [ править ]

${\hat {\mu }}_{a,n}^{IPWE}={\frac {1}{n}}\sum _{i=1}^{n}Y_{i}{\frac {\mathbf {1} _{A_{i}=a}}{{\hat {p}}_{n}(A_{i}=a|X_{i})}}$

Создание IPWE [ править ]

$\mu _{a}=\mathbb {E} \{Y1_{A=a}/p(A|X)\}$ куда $p(a|x)=P(A=a,X=x)/P(X=x)$
построить или использовать любую модель склонности (часто модель логистической регрессии) ${\hat {p}}_{n}(a|x)$ $p(a|x)$
${\hat {\mu }}_{a,n}^{IPWE}=n^{-1}\Sigma _{i=1}^{n}Y_{i}1_{A_{i}=a}/{\hat {p}}_{n}(A_{i}|X_{i})$

После вычисления среднего значения каждой группы лечения можно использовать статистический t-критерий или тест ANOVA для оценки разницы между средними значениями группы и определения статистической значимости эффекта лечения.

Предположения [ править ]

Последовательность: $Y=Y^{*}(A)$
Никаких неизмеренных искажающих факторов: $\{Y^{*}(0),Y^{*}(1)\}\perp A|X$
- Назначение лечения основано исключительно на данных ковариации и не зависит от потенциальных результатов.
Позитивность: для всех и $P(A=a|X=x)>0$ $a$ $x$

Ограничения [ править ]

Взвешенная оценка обратной вероятности (IPWE) может быть нестабильной, если предполагаемые склонности невелики. Если вероятность назначения какого-либо лечения мала, тогда модель логистической регрессии может стать нестабильной вокруг хвостов, в результате чего IPWE также станет менее стабильным.

Расширенная обратная взвешенная оценка вероятности (AIPWE) [ править ]

Альтернативная оценка - это расширенная оценка с обратной взвешенной вероятностью (AIPWE), сочетающая в себе свойства оценки на основе регрессии и оценки с обратной взвешенной вероятностью. Следовательно, это «вдвойне надежный» метод, поскольку он требует только правильного определения модели склонности или результата, но не того и другого вместе. Этот метод дополняет IPWE, чтобы уменьшить изменчивость и повысить эффективность оценки. Эта модель придерживается тех же предположений, что и взвешенная оценка обратной вероятности (IPWE). ^[5]

Формула оценщика [ править ]

${\hat {\mu }}_{a,n}^{AIPWE}={\frac {1}{n}}\sum _{i=1}^{n}{\Biggl (}{\frac {Y_{i}1_{A_{i}=a}}{{\hat {p}}_{n}(A_{i}|X_{i})}}-{\frac {1_{A_{i}=a}-{\hat {p}}_{n}(A_{i}|X_{i})}{{\hat {p}}_{n}(A_{i}|X_{i})}}{\hat {Q}}_{n}(X_{i},a){\Biggr )}$

Строительство AIPWE [ править ]

Построить регрессионный оценщик для прогнозирования результата на основе ковариат и лечения ${\hat {Q}}_{n}(x,a)$ $Y$ $X$ $A$
Построить оценку склонности ${\hat {p}}_{n}(A_{i}|X_{i})$
Объедините в AIPWE, чтобы получить ${\hat {\mu }}_{a,n}^{AIPWE}$

См. Также [ править ]

Соответствие баллов склонности

Ссылки [ править ]

^ Робинс, JM; Ротницкий, А; Чжао, LP (1994). «Оценка коэффициентов регрессии при не всегда соблюдении некоторых регрессоров». Журнал Американской статистической ассоциации . 89 (427): 846–866. DOI : 10.1080 / 01621459.1994.10476818 .
^ Бреслоу, NE; Ламли, Т; и другие. (2009). «Использование всей когорты в анализе данных по когортным случаям» . Am J Epidemiol . 169 (11): 1398–1405. DOI : 10.1093 / AJE / kwp055 . PMC 2768499 . PMID 19357328 .
^ Хорвиц, Д.Г.; Томпсон, ди-джей (1952). «Обобщение выборки без замены из конечной вселенной». Журнал Американской статистической ассоциации . 47 : 663–685. DOI : 10.1080 / 01621459.1952.10483446 .
^ Эрнан, Массачусетс; Робинс, JM (2006). «Оценка причинных эффектов по эпидемиологическим данным» . J Epi Comm . 60 : 578–596. CiteSeerX 10.1.1.157.9366 . DOI : 10.1136 / jech.2004.029496 . PMC 2652882 . PMID 16790829 .
^ Цао, Вэйхуа; Циатис, Анастасиос А .; Давидиан, Мари (2009). «Повышение эффективности и надежности дважды надежной оценки для среднего значения генеральной совокупности с неполными данными» . Биометрика . 96 (3): 723–734. DOI : 10.1093 / Biomet / asp033 . ISSN 0006-3444 . PMC 2798744 . PMID 20161511 .

[refname2-1] Робинс, JM; Ротницкий, А; Чжао, LP (1994). «Оценка коэффициентов регрессии при не всегда соблюдении некоторых регрессоров». Журнал Американской статистической ассоциации . 89 (427): 846–866. DOI : 10.1080 / 01621459.1994.10476818 .

[refname3-2] Бреслоу, NE; Ламли, Т; и другие. (2009). «Использование всей когорты в анализе данных по когортным случаям» . Am J Epidemiol . 169 (11): 1398–1405. DOI : 10.1093 / AJE / kwp055 . PMC 2768499 . PMID 19357328 .

[3] Хорвиц, Д.Г.; Томпсон, ди-джей (1952). «Обобщение выборки без замены из конечной вселенной». Журнал Американской статистической ассоциации . 47 : 663–685. DOI : 10.1080 / 01621459.1952.10483446 .

[refname1-4] Эрнан, Массачусетс; Робинс, JM (2006). «Оценка причинных эффектов по эпидемиологическим данным» . J Epi Comm . 60 : 578–596. CiteSeerX 10.1.1.157.9366 . DOI : 10.1136 / jech.2004.029496 . PMC 2652882 . PMID 16790829 .

[5] Цао, Вэйхуа; Циатис, Анастасиос А .; Давидиан, Мари (2009). «Повышение эффективности и надежности дважды надежной оценки для среднего значения генеральной совокупности с неполными данными» . Биометрика . 96 (3): 723–734. DOI : 10.1093 / Biomet / asp033 . ISSN 0006-3444 . PMC 2798744 . PMID 20161511 .

[1]