Анализ ковариации

Ковариационный анализ ( ANCOVA ) - это общая линейная модель, сочетающая ANOVA и регрессию . ANCOVA оценивает, равны ли средние значения зависимой переменной (DV) на разных уровнях категориальной независимой переменной (IV), часто называемой обработкой, при статистическом контроле влияния других непрерывных переменных, не представляющих основной интерес, известных как ковариаты.(CV) или мешающие переменные. Математически ANCOVA разлагает дисперсию DV на дисперсию, объясняемую CV, дисперсию, объясняемую категориальным IV, и остаточную дисперсию. Интуитивно ANCOVA можно рассматривать как «настройку» DV с помощью групповых средств CV. ^[1]

Модель ANCOVA предполагает линейную зависимость между ответом (DV) и ковариантой (CV):

${\ displaystyle y_ {ij} = \ mu + \ tau _ {i} + \ mathrm {B} (x_ {ij} - {\ overline {x}}) + \ epsilon _ {ij}.}$

В этом уравнении DV, ${\ displaystyle y_ {ij}}$ является j-м наблюдением в i-й категориальной группе; резюме, ${\ displaystyle x_ {ij}}$ является j- м наблюдением ковариаты в i- й группе. Переменные в модели, полученные из наблюдаемых данных: ${\ displaystyle \ mu}$ (большое среднее) и ${\ displaystyle {\ overline {x}}}$ (глобальное среднее значение ковариаты ${\ displaystyle x}$ ). Подбираемые переменные: ${\ Displaystyle \ тау _ {я}}$ (эффект i- го уровня IV), ${\ displaystyle B}$ (наклон линии) и ${\ displaystyle \ epsilon _ {ij}}$ (связанный член ненаблюдаемой ошибки для j- го наблюдения в i- й группе).

В соответствии с данной спецификацией а категориальные эффекты лечения подводить к нулю ${\ displaystyle \ left (\ sum _ {i} ^ {a} \ tau _ {i} = 0 \ right).}$ Стандартные допущения модели линейной регрессии также считаются верными, как обсуждается ниже. ^[2]

Использует

Увеличить мощность

ANCOVA может использоваться для увеличения статистической мощности (вероятность обнаружения существенной разницы между группами, если таковая существует) за счет уменьшения дисперсии ошибок внутри группы . ^[3] Чтобы понять это, необходимо понять тест, используемый для оценки различий между группами, F-тест . Р -test вычисляется путем деления объясненной дисперсии между группами (например, медицинские различиями восстановления) по необъяснимой дисперсии в пределах групп. Таким образом,

{\ displaystyle F = {\ frac {MS_ {между}} {MS_ {в пределах}}}}

Если это значение больше критического значения, мы заключаем, что существует значительная разница между группами. Необъяснимая дисперсия включает дисперсию ошибок (например, индивидуальные различия), а также влияние других факторов. Таким образом, влияние CV сгруппировано в знаменателе. Когда мы контролируем влияние CV на DV, мы удаляем его из знаменателя , увеличивая F , тем самым увеличивая вашу способность находить значительный эффект, если он вообще существует.

Корректировка ранее существовавших различий

Другое использование ANCOVA - корректировка существовавших ранее различий в неэквивалентных (интактных) группах. Это спорное приложение направлено на исправление начальных групповых различий (до группового распределения), которые существуют по DV между несколькими целыми группами. В этой ситуации участников нельзя уравнять путем случайного распределения, поэтому резюме используются для корректировки оценок и повышения сходства участников, чем без резюме. Однако даже с использованием ковариат не существует статистических методов, позволяющих приравнять неравные группы. Кроме того, CV может быть настолько тесно связан с IV, что удаление дисперсии DV, связанной с CV, устранит значительную дисперсию DV, сделав результаты бессмысленными. ^[4]

Предположения

Есть несколько ключевых предположений, которые лежат в основе использования ANCOVA и влияют на интерпретацию результатов. ^[2] Стандартные предположения линейной регрессии остаются в силе; далее мы предполагаем, что наклон ковариаты одинаков для всех групп лечения (однородность наклонов регрессии).

Предположение 1: линейность регрессии

Отношения регрессии между зависимой переменной и сопутствующими переменными должны быть линейными.

Предположение 2: однородность дисперсии ошибок

Ошибка - это случайная величина с условным нулевым средним и равными дисперсиями для разных классов лечения и наблюдений.

Предположение 3: независимость членов ошибки

Ошибки не коррелированы. То есть матрица ковариации ошибок диагональна.

Предположение 4: нормальность ошибок

Эти остатки (термины ошибок) должны быть распределены нормально ${\ displaystyle \ epsilon _ {ij}}$ ~ ${\ Displaystyle N (0, \ sigma ^ {2})}$ .

Предположение 5: однородность наклонов регрессии

Наклоны различных линий регрессии должны быть эквивалентными, т. Е. Линии регрессии должны быть параллельны между группами.

Пятый вопрос, касающийся однородности различных наклонов регрессии лечения, особенно важен при оценке соответствия модели ANCOVA. Также обратите внимание, что нам нужно только, чтобы термины ошибки были нормально распределены. Фактически, как независимая переменная, так и сопутствующие переменные в большинстве случаев не будут иметь нормального распределения.

Проведение ANCOVA

Проверить мультиколлинеарность

Если CV сильно связано с другим CV (при корреляции 0,5 или более), то оно не будет корректировать DV сверх другого CV. То или другое следует удалить, поскольку они статистически избыточны.

Проверка предположения об однородности дисперсии

Проверено тестом Левена на равенство дисперсий ошибок. Это наиболее важно после того, как были сделаны настройки, но если они были у вас до настройки, они, скорее всего, будут у вас позже.

Проверка однородности предположения об уклонах регрессии

Чтобы увидеть, взаимодействует ли CV в значительной степени с IV, запустите модель ANCOVA, включая член взаимодействия как IV, так и CVxIV. Если взаимодействие CVxIV является значительным, ANCOVA не следует выполнять. Вместо этого Green & Salkind ^[5] предлагают оценивать групповые различия по DV на определенных уровнях CV. Также рассмотрите возможность использования умеренного регрессионного анализа , рассматривая CV и его взаимодействие как еще одну IV. В качестве альтернативы можно использовать анализ посредничества, чтобы определить, учитывает ли CV влияние IV на DV.

Запустить анализ ANCOVA

Если взаимодействие CV × IV не является значимым, повторно запустите ANCOVA без члена взаимодействия CV × IV. В этом анализе нужно использовать настроенные средства и настроенный MSerror. Скорректированные средние (также называемые средними наименьшими квадратами, средними LS, оцененными предельными средними или EMM) относятся к средним группам после учета влияния CV на DV.

Простой график основных эффектов, показывающий небольшое взаимодействие между двумя уровнями независимой переменной.

Последующие анализы

Если был значительный основной эффект , это означает, что существует значительная разница между уровнями одной IV без учета всех других факторов. ^[6] Чтобы точно определить, какие уровни существенно отличаются друг от друга, можно использовать те же контрольные тесты, что и для ANOVA. Если есть две или более IV, может иметь место значительное взаимодействие , что означает, что влияние одной IV на DV изменяется в зависимости от уровня другого фактора. Можно исследовать простые основные эффекты, используя те же методы, что и в факторном дисперсионном анализе .

Соображения по питанию

В то время как включение ковариаты в ANOVA обычно увеличивает статистическую мощность за счет учета некоторой дисперсии в зависимой переменной и, таким образом, увеличения отношения дисперсии, объясняемой независимыми переменными, добавление ковариаты в ANOVA также снижает степени свободы . Соответственно, добавление ковариаты, которая учитывает очень небольшую дисперсию зависимой переменной, может фактически снизить мощность.

Смотрите также

MANCOVA (многомерный ковариационный анализ)

Внешние ссылки

Примеры всех моделей ANOVA и ANCOVA с тремя факторами обработки, включая рандомизированный блок, разделенный график, повторные измерения и латинские квадраты, и их анализ в R (Университет Саутгемптона)
Односторонний анализ ковариации для независимых выборок
Использование ковариат в рандомизированных контролируемых испытаниях, проведенных GJP Van Breukelen и KRA Van Dijk (2007)

[1] Перейти ↑ Keppel, G. (1991). Дизайн и анализ: Справочник исследователя (3-е изд.). Энглвудские скалы: Prentice-Hall, Inc.

[Montgomery,_Douglas_C_2012-2] Монтгомери, Дуглас К. «Планирование и анализ экспериментов» (8-е изд.). Джон Вили и сыновья, 2012.

[3] Tabachnick, BG; Фиделл, LS (2007). Использование многомерной статистики (5-е изд.). Бостон: образование Пирсона.

[4] Миллер, Джорджия; Чепмен, JP (2001). «Непонимание анализа ковариации». Журнал аномальной психологии . 110 (1): 40–48. DOI : 10.1037 / 0021-843X.110.1.40 . PMID 11261398 .

[Green-5] Зеленый, SB, и Залкинд, НьюДжерси (2011). Использование SPSS для Windows и Macintosh: Анализ и понимание данных (6-е изд.). Река Аппер Сэдл, штат Нью-Джерси: Prentice Hall.

[Howell-6] Хауэлл, округ Колумбия (2009) Статистические методы психологии (7-е изд.). Бельмонт: Cengage Wadsworth.

[1]