Парный тест разницы

В статистике , разница тест в паре является типом теста местоположения , который используется при сравнении двух наборов измерений для оценки ли их средства населений отличаются. Тест парных различий использует дополнительную информацию об образце, которая отсутствует в обычной ситуации непарного тестирования, либо для увеличения статистической мощности , либо для уменьшения влияния искажающих факторов .

Конкретными методами проведения тестов парных различий являются t-критерий нормально распределенной разницы (где стандартное отклонение разницы для совокупности неизвестно) и парный Z-критерий (где известно стандартное отклонение разницы для совокупности), а также для различия, которые не могут быть нормально распределены по критерию знакового ранга Уилкоксона . ^[1]

Самый известный пример парного теста разницы возникает, когда испытуемых измеряют до и после лечения. Такой тест «повторных измерений» сравнивает эти измерения внутри субъектов, а не между субъектами, и, как правило, имеет большую мощность, чем непарный тест. Другой пример - сопоставление случаев заболевания с сопоставимыми контрольными случаями.

Использование для уменьшения дисперсии [ править ]

Тесты парных разностей для уменьшения дисперсии - это особый тип блокировки . Чтобы проиллюстрировать эту идею, предположим, что мы оцениваем эффективность лекарства для лечения высокого уровня холестерина. В рамках нашего исследования мы набираем 100 субъектов и измеряем уровень холестерина у каждого из них. Затем всех испытуемых лечили препаратом в течение шести месяцев, после чего снова измеряли их уровень холестерина. Наш интерес заключается в том, оказывает ли препарат какое-либо влияние на средний уровень холестерина, что может быть определено путем сравнения измерений после лечения с измерениями до лечения.

Ключевой вопрос, который мотивирует проведение теста парных различий, заключается в том, что, если в исследовании нет очень строгих критериев включения, вполне вероятно, что субъекты будут существенно отличаться друг от друга до начала лечения. Важные исходные различия между участниками могут быть связаны с их полом, возрастом, статусом курения, уровнем активности и диетой.

Есть два естественных подхода к анализу этих данных:

В «непарном анализе» данные обрабатываются так, как если бы план исследования действительно предусматривал включение 200 субъектов с последующим случайным распределением 100 субъектов в каждую из экспериментальных и контрольных групп. Группа лечения в непарном дизайне будет рассматриваться как аналогичная измерениям после лечения в парном дизайне, а контрольная группа будет рассматриваться как аналогичная измерениям перед лечением. Затем мы могли бы вычислить средние значения выборки в группах пациентов, получавших и не получавших лечение, и сравнить эти средние значения друг с другом.
В «анализе парных различий» мы сначала вычитали значение до лечения из значения после лечения для каждого субъекта, а затем сравнивали эти различия с нулем.

Если рассматривать только средства, парный и непарный подходы дают одинаковый результат. Чтобы увидеть это, пусть $Y i 1, Y i 2$ - наблюдаемые данные для $i- й$ пары, и пусть $D i = Y i 2 - Y i 1$ . Кроме того, пусть $D, Y 1$ и $Y 2$ обозначают, соответственно, выборочные средние по $D я$ , то $Y я 1$ , и $Y я 2$ . Переставляя термины, мы видим, что

{\ displaystyle {\ bar {D}} = {\ frac {1} {n}} \ sum _ {i} (Y_ {i2} -Y_ {i1}) = {\ frac {1} {n}} \ сумма _ {i} Y_ {i2} - {\ frac {1} {n}} \ sum _ {i} Y_ {i1} = {\ bar {Y}} _ {2} - {\ bar {Y}} _ {1},}

где n - количество пар. Таким образом, средняя разница между группами не зависит от того, организуем ли мы данные как пары.

Хотя средняя разница одинакова для парной и непарной статистики, их уровни статистической значимости могут сильно отличаться, потому что дисперсию непарной статистики легко переоценить . Дисперсия $D$ равна

{\begin{array}{ccl}{\rm {var}}({\bar {D}})&=&{\rm {var}}({\bar {Y}}_{2}-{\bar {Y}}_{1})\\&=&{\rm {var}}({\bar {Y}}_{2})+{\rm {var}}({\bar {Y}}_{1})-2{\rm {cov}}({\bar {Y}}_{1},{\bar {Y}}_{2})\\&=&\sigma _{1}^{2}/n+\sigma _{2}^{2}/n-2\sigma _{1}\sigma _{2}{\rm {corr}}(Y_{i1},Y_{i2})/n,\end{array}}

где $σ 1$ и $σ 2$ - стандартные отклонения совокупности данных $Y i 1$ и $Y i 2$ , соответственно. Таким образом, дисперсия $D$ будет ниже, если в каждой паре есть положительная корреляция . Такая корреляция очень часто встречается в настройке повторных измерений, поскольку лечение не влияет на многие факторы, влияющие на сравниваемое значение. Например, если уровни холестерина связаны с возрастом, влияние возраста приведет к положительной корреляции между уровнями холестерина, измеренными у субъектов, при условии, что продолжительность исследования мала по сравнению с возрастными вариациями в выборке.

Мощность парного Z-теста [ править ]

Предположим, мы используем Z-тест для анализа данных, где известны дисперсии данных до и после лечения $σ 12$ и $σ 22$ (ситуация с t-критерием аналогична). Статистика непарного Z-критерия

{\frac {{\bar {Y}}_{2}-{\bar {Y}}_{1}}{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}},

Мощность непарного одностороннего теста, выполненного на уровне $α = 0,05,$ можно рассчитать следующим образом:

{\begin{array}{lcl}P\left({\frac {{\bar {Y}}_{2}-{\bar {Y}}_{1}}{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}}>1.64\right)&=&P\left({\frac {{\bar {Y}}_{2}-{\bar {Y}}_{1}}{S}}>1.64{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}/S\right)\\&=&P\left({\frac {{\bar {Y}}_{2}-{\bar {Y}}_{1}-\delta +\delta }{S}}>1.64{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}/S\right)\\&=&P\left({\frac {{\bar {Y}}_{2}-{\bar {Y}}_{1}-\delta }{S}}>1.64{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}/S-\delta /S\right)\\&=&1-\Phi (1.64{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}/S-\delta /S),\end{array}}

где S - стандартное отклонение D , Φ - стандартная нормальная кумулятивная функция распределения , а δ = E Y ₂ - EY ₁ - истинный эффект лечения. Константа 1,64 - это 95-й процентиль стандартного нормального распределения, который определяет область отклонения теста.

По аналогичному расчету мощность парного Z-теста равна

1-\Phi (1.64-\delta /S).

Сравнивая выражения для мощности парного и непарного тестов, можно увидеть, что парный тест имеет большую мощность, пока

{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}/S={\sqrt {\frac {\sigma _{1}^{2}+\sigma _{2}^{2}}{\sigma _{1}^{2}+\sigma _{2}^{2}-2\sigma _{1}\sigma _{2}\rho }}}>1~~{\text{where}}~~\rho :={\rm {corr}}(Y_{i1},Y_{i2}).

Это условие выполняется всякий раз , когда корреляция внутри пар положительна. $\rho$

Модель случайных эффектов для парного тестирования [ править ]

Следующая статистическая модель полезна для понимания теста парных различий.

Y_{ij}=\mu _{j}+\alpha _{i}+\epsilon _{ij}

где $α i$ - случайный эффект, который разделяется между двумя значениями в паре, а $ε ij$ - член случайного шума, который не зависит от всех точек данных. Постоянные значения $μ 1, μ 2$ - это ожидаемые значения двух сравниваемых измерений, и нас интересует $δ = μ 2 - μ 1$ .

В этой модели $α i$ улавливает «стабильные искажающие факторы», которые имеют одинаковый эффект на измерения до и после обработки. Когда мы вычитаем, чтобы сформировать $D i, α i$ сокращается, поэтому не вносит вклад в дисперсию. Ковариация внутри пар равна

{\rm {cov}}(Y_{i1},Y_{i2})={\rm {var}}(\alpha _{i}).

Это неотрицательно, поэтому это приводит к лучшей производительности для теста парных различий по сравнению с непарным тестом, если $α i не$ является постоянным по $i$ , и в этом случае парный и непарный тесты эквивалентны.

В менее математических терминах непарный тест предполагает, что данные в двух сравниваемых группах независимы. Это предположение определяет форму для дисперсии $D$ . Однако, когда для каждого объекта выполняются два измерения, маловероятно, что эти два измерения будут независимыми. Если два измерения внутри объекта положительно коррелируют, непарный тест завышает дисперсию $D$ , что делает его консервативным в том смысле, что его фактическая ошибка типа I.вероятность будет ниже номинального уровня с соответствующей потерей статистической мощности. В редких случаях данные могут иметь отрицательную корреляцию внутри субъектов, и в этом случае непарный тест становится антиконсервативным. Парный тест обычно используется при повторных измерениях на одних и тех же объектах, поскольку он имеет правильный уровень независимо от корреляции измерений внутри пар.

Использование для уменьшения затруднений [ править ]

Другое применение тестирования парных различий возникает при сравнении двух групп в наборе данных наблюдений., с целью изолировать влияние одного интересующего фактора от воздействия других факторов, которые могут играть роль. Например, предположим, что учителя применяют один из двух разных подходов, обозначенных «A» и «B», к преподаванию определенной математической темы. Нас может интересовать, различаются ли результаты учащихся на стандартизированном тесте по математике в зависимости от подхода к обучению. Если учителя могут принять подход A или подход B, возможно, что учителя, ученики которых уже хорошо успевают по математике, предпочтут метод A (или наоборот). В этой ситуации простое сравнение средних показателей успеваемости студентов, обучаемых по подходу A и подходу B, скорее всего, покажет разницу.но это различие частично или полностью связано с существовавшими ранее различиями между двумя группами студентов. В этой ситуации базовые способности студентов служатсмешивающая переменная , поскольку они связаны как с результатом (результативность стандартизованного теста), так и с назначением лечения для подхода A или подхода B.

Можно уменьшить, но не обязательно исключить, влияние искажающих переменных, формируя «искусственные пары» и выполняя тест на попарную разность. Эти искусственные пары построены на основе дополнительных переменных, которые считаются мешающими. При объединении учащихся, чьи значения смешивающих переменных схожи, большая часть разницы в интересующем значении (например, стандартизованный результат теста в приведенном выше примере) обусловлена интересующим фактором, а меньшая часть - к конфаундер. Формирование искусственных пар для тестирования парных различий - это пример общего подхода к уменьшению эффекта смешения при проведении сравнений с использованием данных наблюдений, называемых сопоставлением . ^[2]^[3]^[4]

В качестве конкретного примера предположим, что мы наблюдаем за учениками тестовые баллы X в рамках обучающих стратегий $A$ и $B$ , и каждый студент имеет либо «высокий», либо «низкий» уровень математических знаний до того, как будут реализованы две стратегии обучения. Однако мы не знаем, какие студенты относятся к «высокой» категории, а какие - к «низкой». В популяции средние результаты тестов в четырех возможных групп и пропорции студентов в группах находятся где $р$ $HA$ $+$ $р$ $HB$ $+$ $р$ $LA$ $+$ $р$ $LB$ $= 1$ . ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&\mu _{HA}&\mu _{HB}\\{\text{Low}}&\mu _{LA}&\mu _{LB}\end{array}}$ ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&p_{HA}&p_{HB}\\{\text{Low}}&p_{LA}&p_{LB}\end{array}}$

«Разница лечения» среди студентов в «высокой» группе $μ HA - μ НВ$ и разность лечения среди студентов в группе «низкой» является $μ LA - μ LB$ . В общем, возможно, что две стратегии обучения могут различаться в любом направлении или не проявлять никакой разницы, а эффекты могут различаться по величине или даже по знаку между «высокими» и «низкими» группами. Например, если стратегия B превосходила стратегию A для хорошо подготовленных студентов, но стратегия A превосходила стратегию B для плохо подготовленных студентов, два различия в лечении будут иметь противоположные признаки.

Поскольку мы не знаем базовых уровней учащихся, ожидаемое значение среднего балла теста $X A$ среди учащихся в группе A является средним значением для двух базовых уровней:

E{\bar {X}}_{A}=\mu _{HA}{\frac {p_{HA}}{p_{HA}+p_{LA}}}+\mu _{LA}{\frac {p_{LA}}{p_{HA}+p_{LA}}},

и аналогично средний результат теста $X B$ среди студентов в группе B составляет

E{\bar {X}}_{B}=\mu _{HB}{\frac {p_{HB}}{p_{HB}+p_{LB}}}+\mu _{LB}{\frac {p_{LB}}{p_{HB}+p_{LB}}}.

Таким образом, ожидаемое значение наблюдаемой разницы в лечении $D = X A - X B$ равно

\mu _{HA}{\frac {p_{HA}}{p_{HA}+p_{LA}}}-\mu _{HB}{\frac {p_{HB}}{p_{HB}+p_{LB}}}+\mu _{LA}{\frac {p_{LA}}{p_{HA}+p_{LA}}}-\mu _{LB}{\frac {p_{LB}}{p_{HB}+p_{LB}}}.

Разумная нулевая гипотеза в том , что нет никакого эффекта от лечения в течение либо «высоких» или «низкие» студенческих групп, так что $μ HA = μ HB и μ LA = ц LB$ . Согласно этой нулевой гипотезе, ожидаемое значение $D$ будет равно нулю, если

p_{HA}=(p_{HA}+p_{LA})(p_{HA}+p_{HB})

а также

p_{HB}=(p_{HB}+p_{LB})(p_{HA}+p_{HB}).

Это условие утверждает, что распределение студентов по группам стратегии обучения $A$ и $B$ не зависит от их математических знаний до того, как стратегии обучения будут реализованы. Если это так, базовые математические знания не мешают, и, наоборот, если базовые математические знания мешают, ожидаемое значение $D$ обычно будет отличаться от нуля. Если ожидаемое значение $D$ при нулевой гипотезе не равно нулю, то ситуация, когда мы отклоняем нулевую гипотезу, может быть либо из-за фактического дифференциального эффекта между обучающими стратегиями $A$ и $B$ , либо из-за отсутствия независимости в отнесении студентов кГруппы $А$ и $В$ (даже при полном отсутствии эффекта от стратегии обучения).

Этот пример показывает, что если мы проводим прямое сравнение между двумя группами при наличии искажающих факторов, мы не знаем, связано ли наблюдаемое различие с самой группировкой или с каким-то другим фактором. Если мы можем объединить студентов в пары по точному или приблизительному показателю их базовых математических способностей, тогда мы будем сравнивать студентов только «в строках» приведенной выше таблицы средних значений. Следовательно, если нулевая гипотеза верна, ожидаемое значение $D$ будет равно нулю, а уровни статистической значимости имеют предполагаемую интерпретацию.

См. Также [ править ]

Ссылки [ править ]

^ Деррик, B; Широкий, А; Toher, D; Белый, П (2017). «Влияние экстремального наблюдения на дизайн парных выборок» . Методолошки Звездки - Успехи в методологии и статистике . 14 (2): 1–17.
^ Рубин, Дональд Б. (1973). «Соответствие для устранения предвзятости в наблюдательных исследованиях». Биометрия . 29 (1): 159–183. DOI : 10.2307 / 2529684 . JSTOR 2529684 .
^ Андерсон, Даллас W .; Киш, Лесли; Корнелл, Ричард Г. (1980). «О стратификации, группировке и сопоставлении». Скандинавский статистический журнал . Блэквелл Паблишинг. 7 (2): 61–66. JSTOR 4615774 .
^ Куппер, Лоуренс Л .; Карон, Джон М .; Kleinbaum, David G .; Моргенштерн, Хэл; Льюис, Дональд К. (1981). «Соответствие в эпидемиологических исследованиях: соображения достоверности и эффективности». Биометрия . 37 (2): 271–291. CiteSeerX 10.1.1.154.1197 . DOI : 10.2307 / 2530417 . JSTOR 2530417 . PMID 7272415 .

Внешние ссылки [ править ]

Относительное измерение и его обобщение при принятии решений: почему парные сравнения занимают центральное место в математике для измерения нематериальных факторов - аналитическая иерархия / сетевой процесс (Томас Л. Саати)
Оценка парного сравнения последовательностей
Парное сравнение (Филиппо А. Салюстри)

[outie-1] Деррик, B; Широкий, А; Toher, D; Белый, П (2017). «Влияние экстремального наблюдения на дизайн парных выборок» . Методолошки Звездки - Успехи в методологии и статистике . 14 (2): 1–17.

[2] Рубин, Дональд Б. (1973). «Соответствие для устранения предвзятости в наблюдательных исследованиях». Биометрия . 29 (1): 159–183. DOI : 10.2307 / 2529684 . JSTOR 2529684 .

[3] Андерсон, Даллас W .; Киш, Лесли; Корнелл, Ричард Г. (1980). «О стратификации, группировке и сопоставлении». Скандинавский статистический журнал . Блэквелл Паблишинг. 7 (2): 61–66. JSTOR 4615774 .

[4] Куппер, Лоуренс Л .; Карон, Джон М .; Kleinbaum, David G .; Моргенштерн, Хэл; Льюис, Дональд К. (1981). «Соответствие в эпидемиологических исследованиях: соображения достоверности и эффективности». Биометрия . 37 (2): 271–291. CiteSeerX 10.1.1.154.1197 . DOI : 10.2307 / 2530417 . JSTOR 2530417 . PMID 7272415 .

[1]