В статистике , то двусторонний дисперсионный анализ ( ANOVA ) является продолжением одностороннего ANOVA , который изучает влияние двух различных категориальных независимых переменных на одной непрерывной зависимой переменной . Двусторонний дисперсионный анализ не только направлен на оценку основного эффекта каждой независимой переменной, но и на наличие какого-либо взаимодействия между ними.
История
В 1925 году Рональд Фишер упоминает двусторонний дисперсионный анализ в своей знаменитой книге « Статистические методы для научных работников» (главы 7 и 8). В 1934 году Фрэнк Йейтс опубликовал процедуры для несбалансированного случая. [1] С тех пор был выпущен обширный объем литературы. Эта тема была рассмотрена в 1993 году Ясунори Фудзикоши . [2] В 2005 году Эндрю Гельман предложил другой подход ANOVA, рассматриваемый как многоуровневая модель . [3]
Набор данных
Представим себе набор данных, для которого на зависимую переменную могут влиять два фактора, которые являются потенциальными источниками вариации. Первый факторуровни (), а второй -уровни () . Каждая комбинацияопределяет лечение , в общей сложностилечения. Представляем количество повторов для лечения от , и разреши быть индексом реплики в этой обработке () .
Из этих данных мы можем построить таблицу непредвиденных обстоятельств , где а также , а общее количество повторов равно .
Эксперимента является сбалансированным , если каждое лечение имеет одинаковое число повторов,. В таком случае конструкция также считается ортогональной , что позволяет полностью различать влияние обоих факторов. Следовательно, мы можем написать, а также .
Модель
Наблюдая различия среди всех точки данных, например, через гистограмму , « вероятность может быть использована для описания такого разброса». [4] Поэтому обозначим черезслучайная величина , которая наблюдается значение это -я мера лечения . В ANOVA двухсторонние модели все эти переменные как варьируя независимо друг от друга и обычно вокруг среднего,, с постоянной дисперсией, ( гомоскедастичность ):
.
В частности, среднее значение переменной отклика моделируется как линейная комбинация независимых переменных:
,
где это великая середина, аддитивный главный эффект уровня от первого множителя ( i-я строка в таблице смежности), аддитивный главный эффект уровня из второго фактора ( j -й столбец в таблице непредвиденных обстоятельств) и неаддитивный эффект взаимодействия лечения от обоих факторов (ячейка в строке i и столбце j в таблице непредвиденных обстоятельств).
Другой эквивалентный способ описания двустороннего дисперсионного анализа - это упоминание о том, что помимо вариации, объясняемой факторами, остается некоторый статистический шум . Такое количество необъяснимых вариаций обрабатывается путем введения одной случайной переменной для каждой точки данных,, называется ошибкой . Эти случайные величины рассматриваются как отклонения от средних значений и считаются независимыми и нормально распределенными:
.
Предположения
Следуя Гельману и Хиллу, предположения дисперсионного анализа и, в более общем плане, общей линейной модели , в порядке убывания важности следующие: [5]
- точки данных относятся к исследуемому научному вопросу;
- на среднее значение переменной отклика влияют аддитивно (если не член взаимодействия) и линейно факторы;
- ошибки независимы;
- ошибки имеют одинаковую дисперсию;
- ошибки нормально распределяются.
Оценка параметров
Чтобы обеспечить идентифицируемость параметров, мы можем добавить следующие ограничения «сумма к нулю»:
Проверка гипотезы
В классическом подходе проверка нулевых гипотез (о том, что факторы не действуют) достигается через их значимость, что требует вычисления суммы квадратов .
Проверка значимости члена взаимодействия может быть затруднена из-за потенциально большого количества степеней свободы . [6]
Смотрите также
- Дисперсионный анализ
- F-тест ( включает пример одностороннего дисперсионного анализа )
- Смешанная модель
- Многомерный дисперсионный анализ (MANOVA)
- Односторонний дисперсионный анализ
- Повторные измерения ANOVA
- Тест аддитивности Тьюки
Заметки
- ↑ Йетс, Фрэнк (март 1934 г.). «Анализ множественных классификаций с неравным числом в разных классах». Журнал Американской статистической ассоциации . 29 (185): 51–66. DOI : 10.1080 / 01621459.1934.10502686 . JSTOR 2278459 .
- ^ Фудзикоши, Ясунори (1993). «Двусторонние модели ANOVA с несбалансированными данными». Дискретная математика . 116 (1): 315–334. DOI : 10.1016 / 0012-365X (93) 90410-U .
- ^ Гельман, Андрей (февраль 2005 г.). «Дисперсионный анализ? Почему он важнее, чем когда-либо». Летопись статистики . 33 (1): 1–53. arXiv : math / 0508526 . DOI : 10.1214 / 009053604000001048 .
- ^ Касс, Роберт Э (1 февраля 2011 г.). «Статистический вывод: большая картина» . Статистическая наука . 26 (1): 1–9. arXiv : 1106.2895 . DOI : 10.1214 / 10-sts337 . PMC 3153074 . PMID 21841892 .
- ^ Гельман, Андрей; Хилл, Дженнифер (18 декабря 2006 г.). Анализ данных с использованием регрессии и многоуровневых / иерархических моделей . Издательство Кембриджского университета . С. 45–46. ISBN 978-0521867061.
- ^ Йи-Ань Ко; и другие. (Сентябрь 2013). «Новые тесты отношения правдоподобия для скрининга взаимодействий ген-ген и ген-среда с несбалансированными данными повторных измерений» . Генетическая эпидемиология . 37 (6): 581–591. DOI : 10.1002 / gepi.21744 . PMC 4009698 . PMID 23798480 .
Рекомендации
- Джордж Каселла (18 апреля 2008 г.). Статистический дизайн . Тексты Springer в статистике. Springer . ISBN 978-0-387-75965-4.