Двусторонний дисперсионный анализ

В статистике , то двусторонний дисперсионный анализ ( ANOVA ) является продолжением одностороннего ANOVA , который изучает влияние двух различных категориальных независимых переменных на одной непрерывной зависимой переменной . Двусторонний дисперсионный анализ не только направлен на оценку основного эффекта каждой независимой переменной, но и на наличие какого-либо взаимодействия между ними.

История

В 1925 году Рональд Фишер упоминает двусторонний дисперсионный анализ в своей знаменитой книге « Статистические методы для научных работников» (главы 7 и 8). В 1934 году Фрэнк Йейтс опубликовал процедуры для несбалансированного случая. ^[1] С тех пор был выпущен обширный объем литературы. Эта тема была рассмотрена в 1993 году Ясунори Фудзикоши . ^[2] В 2005 году Эндрю Гельман предложил другой подход ANOVA, рассматриваемый как многоуровневая модель . ^[3]

Набор данных

Представим себе набор данных, для которого на зависимую переменную могут влиять два фактора, которые являются потенциальными источниками вариации. Первый фактор ${\ displaystyle I}$ уровни ( ${\ displaystyle i \ in \ {1, \ ldots, I \}}$ ), а второй - ${\ displaystyle J}$ уровни ( ${\ displaystyle j \ in \ {1, \ ldots, J \}}$ ) . Каждая комбинация ${\ displaystyle (я, j)}$ определяет лечение , в общей сложности ${\ displaystyle I \ times J}$ лечения. Представляем количество повторов для лечения ${\ displaystyle (я, j)}$ от ${\ displaystyle n_ {ij}}$ , и разреши ${\ displaystyle k}$ быть индексом реплики в этой обработке ( ${\ Displaystyle к \ в \ {1, \ ldots, п_ {ij} \}}$ ) .

Из этих данных мы можем построить таблицу непредвиденных обстоятельств , где ${\ Displaystyle п_ {я +} = \ сумма _ {j = 1} ^ {J} n_ {ij}}$ а также ${\ displaystyle n _ {+ j} = \ sum _ {i = 1} ^ {I} n_ {ij}}$ , а общее количество повторов равно ${\ displaystyle n = \ sum _ {i, j} n_ {ij} = \ sum _ {i} n_ {i +} = \ sum _ {j} n _ {+ j}}$ .

Эксперимента является сбалансированным , если каждое лечение имеет одинаковое число повторов, ${\ displaystyle K}$ . В таком случае конструкция также считается ортогональной , что позволяет полностью различать влияние обоих факторов. Следовательно, мы можем написать ${\ displaystyle \ forall i, j \; n_ {ij} = K}$ , а также ${\ displaystyle \ forall i, j \; n_ {ij} = {\ frac {n_ {i +} \ cdot n _ {+ j}} {n}}}$ .

Модель

Наблюдая различия среди всех ${\ displaystyle n}$ точки данных, например, через гистограмму , « вероятность может быть использована для описания такого разброса». ^[4] Поэтому обозначим через ${\ displaystyle Y_ {ijk}}$ случайная величина , которая наблюдается значение ${\ displaystyle y_ {ijk}}$ это ${\ displaystyle k}$ -я мера лечения ${\ displaystyle (я, j)}$ . В ANOVA двухсторонние модели все эти переменные как варьируя независимо друг от друга и обычно вокруг среднего, ${\ displaystyle \ mu _ {ij}}$ , с постоянной дисперсией, ${\ displaystyle \ sigma ^ {2}}$ ( гомоскедастичность ):

${\ Displaystyle Y_ {ijk} \, | \, \ mu _ {ij}, \ sigma ^ {2} \; {\ overset {\ mathrm {iid}} {\ sim}} \; {\ mathcal {N} } (\ mu _ {ij}, \ sigma ^ {2})}$ .

В частности, среднее значение переменной отклика моделируется как линейная комбинация независимых переменных:

${\ displaystyle \ mu _ {ij} = \ mu + \ alpha _ {i} + \ beta _ {j} + \ gamma _ {ij}}$ ,

где ${\ displaystyle \ mu}$ это великая середина, ${\ displaystyle \ alpha _ {я}}$ аддитивный главный эффект уровня ${\ displaystyle i}$ от первого множителя ( i-я строка в таблице смежности), ${\ displaystyle \ beta _ {j}}$ аддитивный главный эффект уровня ${\ displaystyle j}$ из второго фактора ( j -й столбец в таблице непредвиденных обстоятельств) и ${\ displaystyle \ gamma _ {ij}}$ неаддитивный эффект взаимодействия лечения ${\ displaystyle (я, j)}$ от обоих факторов (ячейка в строке i и столбце j в таблице непредвиденных обстоятельств).

Другой эквивалентный способ описания двустороннего дисперсионного анализа - это упоминание о том, что помимо вариации, объясняемой факторами, остается некоторый статистический шум . Такое количество необъяснимых вариаций обрабатывается путем введения одной случайной переменной для каждой точки данных, ${\ displaystyle \ epsilon _ {ijk}}$ , называется ошибкой . Эти ${\ displaystyle n}$ случайные величины рассматриваются как отклонения от средних значений и считаются независимыми и нормально распределенными:

${\ displaystyle Y_ {ijk} = \ mu _ {ij} + \ epsilon _ {ijk} {\ text {with}} \ epsilon _ {ijk} {\ overset {\ mathrm {iid}} {\ sim}} { \ mathcal {N}} (0, \ sigma ^ {2})}$ .

Предположения

Следуя Гельману и Хиллу, предположения дисперсионного анализа и, в более общем плане, общей линейной модели , в порядке убывания важности следующие: ^[5]

точки данных относятся к исследуемому научному вопросу;
на среднее значение переменной отклика влияют аддитивно (если не член взаимодействия) и линейно факторы;
ошибки независимы;
ошибки имеют одинаковую дисперсию;
ошибки нормально распределяются.

Оценка параметров

Чтобы обеспечить идентифицируемость параметров, мы можем добавить следующие ограничения «сумма к нулю»:

${\ displaystyle \ sum _ {i} \ alpha _ {i} = \ sum _ {j} \ beta _ {j} = \ sum _ {i} \ gamma _ {ij} = \ sum _ {j} \ gamma _ {ij} = 0}$

Проверка гипотезы

В классическом подходе проверка нулевых гипотез (о том, что факторы не действуют) достигается через их значимость, что требует вычисления суммы квадратов .

Проверка значимости члена взаимодействия может быть затруднена из-за потенциально большого количества степеней свободы . ^[6]

Смотрите также

Дисперсионный анализ
F-тест ( включает пример одностороннего дисперсионного анализа )
Смешанная модель
Многомерный дисперсионный анализ (MANOVA)
Односторонний дисперсионный анализ
Повторные измерения ANOVA
Тест аддитивности Тьюки

Заметки

↑ Йетс, Фрэнк (март 1934 г.). «Анализ множественных классификаций с неравным числом в разных классах». Журнал Американской статистической ассоциации . 29 (185): 51–66. DOI : 10.1080 / 01621459.1934.10502686 . JSTOR 2278459 .
^ Фудзикоши, Ясунори (1993). «Двусторонние модели ANOVA с несбалансированными данными». Дискретная математика . 116 (1): 315–334. DOI : 10.1016 / 0012-365X (93) 90410-U .
^ Гельман, Андрей (февраль 2005 г.). «Дисперсионный анализ? Почему он важнее, чем когда-либо». Летопись статистики . 33 (1): 1–53. arXiv : math / 0508526 . DOI : 10.1214 / 009053604000001048 .
^ Касс, Роберт Э (1 февраля 2011 г.). «Статистический вывод: большая картина» . Статистическая наука . 26 (1): 1–9. arXiv : 1106.2895 . DOI : 10.1214 / 10-sts337 . PMC 3153074 . PMID 21841892 .
^ Гельман, Андрей; Хилл, Дженнифер (18 декабря 2006 г.). Анализ данных с использованием регрессии и многоуровневых / иерархических моделей . Издательство Кембриджского университета . С. 45–46. ISBN 978-0521867061.
^ Йи-Ань Ко; и другие. (Сентябрь 2013). «Новые тесты отношения правдоподобия для скрининга взаимодействий ген-ген и ген-среда с несбалансированными данными повторных измерений» . Генетическая эпидемиология . 37 (6): 581–591. DOI : 10.1002 / gepi.21744 . PMC 4009698 . PMID 23798480 .