Односторонний дисперсионный анализ

В статистике , один конец дисперсионного анализ (сокращенно однофакторный дисперсионный анализ ) представляет собой метод , который может быть использован для сравнения с помощью двух или более образцов (используя распределение F ). Этот метод может использоваться только для числовых данных ответа, «Y», обычно одной переменной, и числовых или (обычно) категориальных входных данных, «X», всегда одной переменной, следовательно, «односторонний». ^[1]

ANOVA проверяет нулевую гипотезу , которая гласит, что выборки во всех группах взяты из популяций с одинаковыми средними значениями. Для этого делаются две оценки дисперсии населения. Эти оценки основаны на различных предположениях ( см. Ниже ). ANOVA дает F-статистику, отношение дисперсии, вычисленной среди средних, к дисперсии в выборках. Если средние значения группы взяты из совокупностей с одинаковыми средними значениями, дисперсия между средними значениями группы должна быть ниже, чем дисперсия выборок, в соответствии с центральной предельной теоремой . Следовательно, более высокое соотношение означает, что выборки были взяты из популяций с разными средними значениями. ^[1]

Однако обычно односторонний дисперсионный анализ используется для проверки различий между по крайней мере тремя группами, поскольку случай с двумя группами может быть покрыт t-критерием (Gosset, 1908). Когда есть только два средства для сравнения, t-тест и F-тест эквивалентны; связь между ANOVA и t определяется выражением F = t ² . Расширением одностороннего дисперсионного анализа является двухфакторный дисперсионный анализ, который исследует влияние двух различных категориальных независимых переменных на одну зависимую переменную.

Предположения [ править ]

Результаты одностороннего дисперсионного анализа можно считать надежными, если выполняются следующие допущения:

Ответные переменные остатки будут нормально распределены (или приблизительно нормально распределены).
Вариации популяций равны.
Ответы для данной группы являются независимыми и одинаково распределенными нормальными случайными величинами (а не простой случайной выборкой (SRS)).

Если данные являются порядковыми , следует использовать непараметрическую альтернативу этому тесту, такую как односторонний дисперсионный анализ Краскела – Уоллиса . Если известно, что дисперсии не равны, можно использовать t-критерий Велча с двумя выборками . ^[2]

Отклонения от нормы популяции [ править ]

ANOVA - это относительно надежная процедура в отношении нарушений предположения о нормальности. ^[3]

Односторонний дисперсионный анализ можно обобщить на факторные и многомерные схемы, а также на анализ ковариации. ^{[ требуется разъяснение ]}

В популярной литературе часто утверждается, что ни один из этих F- тестов не является надежным, когда есть серьезные нарушения предположения о том, что каждая популяция следует нормальному распределению , особенно для малых альфа-уровней и несбалансированных макетов. ^[4] Кроме того, также утверждается, что если базовое предположение о гомоскедастичности нарушается, свойства ошибок типа I вырождаются гораздо сильнее. ^[5]

Однако это заблуждение, основанное на работе, проделанной в 1950-х годах и ранее. Первым исчерпывающим исследованием проблемы с помощью моделирования методом Монте-Карло был Дональдсон (1966). ^[6] Он показал, что при обычных отклонениях (положительный перекос, неравные дисперсии) « F- тест является консервативным», и поэтому вероятность того, что переменная значима, меньше, чем должно быть. Однако по мере увеличения размера выборки или количества ячеек «кривые мощности, кажется, сходятся к кривым, основанным на нормальном распределении». Тику (1971) обнаружил, что «ненормальная теоретическая мощность F отличается от нормальной теоретической мощностью поправочным членом, который резко уменьшается с увеличением размера выборки». ^[7] Проблема ненормальности, особенно в больших выборках, гораздо менее серьезна, чем предполагают популярные статьи.

Текущее мнение состоит в том, что «исследования методом Монте-Карло широко использовались с тестами на основе нормального распределения, чтобы определить, насколько они чувствительны к нарушениям предположения о нормальном распределении анализируемых переменных в популяции. Общий вывод из этих исследований состоит в том, что последствия таких нарушений менее серьезны, чем предполагалось ранее. Хотя эти выводы не должны полностью отпугивать кого-либо от беспокойства по поводу предположения о нормальности, они повысили общую популярность статистических тестов, зависящих от распределения, во всех областях исследований ». ^[8]

Для непараметрических альтернатив в факторной схеме см. Sawilowsky. ^[9] Для получения дополнительной информации см. ANOVA по рангам .

Случай фиксированных эффектов, полностью рандомизированный эксперимент, несбалансированные данные [ править ]

Модель [ править ]

Нормальная линейная модель описывает лечебные группы с распределениями вероятностей, которые представляют собой идентичные колоколообразные (нормальные) кривые с разными средними значениями. Таким образом, для подгонки моделей требуются только средние значения для каждой группы лечения и расчет дисперсии (используется средняя дисперсия в группах лечения). Вычисления средних и дисперсии выполняются как часть проверки гипотезы.

Обычно используемые нормальные линейные модели для полностью рандомизированного эксперимента: ^[10]

{\ displaystyle y_ {я, j} = \ mu _ {j} + \ varepsilon _ {i, j}}

(модель средних)

или же

{\ displaystyle y_ {я, j} = \ mu + \ tau _ {j} + \ varepsilon _ {i, j}}

(модель эффектов)

куда

{\ Displaystyle я = 1, \ dotsc, I}

индекс экспериментальных единиц

{\ displaystyle j = 1, \ dotsc, J}

индекс по группам лечения

{\ displaystyle I_ {j}}

количество экспериментальных единиц в j-й группе лечения

{\ Displaystyle I = \ сумма _ {j} I_ {j}}

общее количество экспериментальных единиц

{\ displaystyle y_ {i, j}}

наблюдения

{\ displaystyle \ mu _ {j}}

среднее значение наблюдений для j-й группы лечения

{\ displaystyle \ mu}

это среднее значение наблюдений

{\ displaystyle \ tau _ {j}}

это j-й лечебный эффект, отклонение от общего среднего

\sum \tau _{j}=0

\mu _{j}=\mu +\tau _{j}

\varepsilon \thicksim N(0,\sigma ^{2})

, являются нормально распределенными случайными ошибками с нулевым средним.

\varepsilon _{i,j}

Индекс над экспериментальными единицами можно интерпретировать по-разному. В некоторых экспериментах одна и та же экспериментальная установка подвергается различным воздействиям; может указывать на конкретную единицу. В других случаях каждая группа лечения имеет отдельный набор экспериментальных единиц; может быть просто указателем в -й список. $i$ $i$ $i$ $j$

Данные и статистические сводки данных [ править ]

Одна из форм организации экспериментальных наблюдений - это группы в столбцы: $y_{ij}$

Организация данных ANOVA, Несбалансированный, Однофакторный
	Списки групповых наблюдений
	$I_{1}$	$I_{2}$	$I_{3}$	$\dotso$	$I_{j}$
1	$y_{11}$	$y_{12}$	$y_{13}$		$y_{1j}$
2	$y_{21}$	$y_{22}$	$y_{23}$		$y_{2j}$
3	$y_{31}$	$y_{32}$	$y_{33}$		$y_{3j}$
$\vdots$					$\vdots$
$i$	$y_{i1}$	$y_{i2}$	$y_{i3}$	$\dotso$	$y_{ij}$

	Сводная статистика группы						Общая сводная статистика
# Наблюдаемый	$I_{1}$	$I_{2}$	$\dotso$	$I_{j}$	$\dotso$	$I_{J}$	# Наблюдаемый	$I=\sum I_{j}$
Сумма				$\sum _{i}y_{ij}$			Сумма	$\sum _{j}\sum _{i}y_{ij}$
Сумма кв.				$\sum _{i}(y_{ij})^{2}$			Сумма кв.	$\sum _{j}\sum _{i}(y_{ij})^{2}$
Иметь в виду	$m_{1}$	$\dotso$		$m_{j}$	$\dotso$	$m_{J}$	Иметь в виду	$m$
Дисперсия	$s_{1}^{2}$	$\dotso$		$s_{j}^{2}$	$\dotso$	$s_{J}^{2}$	Дисперсия	$s^{2}$

Сравнение модели с аннотациями: и . Общее среднее и большое отклонение вычисляются из общих сумм, а не из групповых средних и дисперсий. $\mu =m$ $\mu _{j}=m_{j}$

Проверка гипотез [ править ]

С учетом сводной статистики расчеты проверки гипотез представлены в табличной форме. Хотя два столбца SS показаны для их пояснительного значения, для отображения результатов требуется только один столбец.

Таблица дисперсионного анализа для фиксированной модели, однофакторный, полностью рандомизированный эксперимент
Источник вариации	Суммы квадратов	Суммы квадратов	Степени свободы	Средний квадрат	F
	Пояснительная СС ^[11]	Вычислительная СС ^[12]	DF	РС
Лечение	$\sum _{Treatments}I_{j}(m_{j}-m)^{2}$	$\sum _{j}{\frac {(\sum _{i}y_{ij})^{2}}{I_{j}}}-{\frac {(\sum _{j}\sum _{i}y_{ij})^{2}}{I}}$	$J-1$	${\frac {SS_{Treatment}}{DF_{Treatment}}}$	${\frac {MS_{Treatment}}{MS_{Error}}}$
Ошибка	$\sum _{Treatments}(I_{j}-1)s_{j}^{2}$	$\sum _{j}\sum _{i}y_{ij}^{2}-\sum _{j}{\frac {(\sum _{i}y_{ij})^{2}}{I_{j}}}$	$I-J$	${\frac {SS_{Error}}{DF_{Error}}}$
Общий	$\sum _{Observations}(y_{ij}-m)^{2}$	$\sum _{j}\sum _{i}y_{ij}^{2}-{\frac {(\sum _{j}\sum _{i}y_{ij})^{2}}{I}}$	$I-1$

$MS_{Error}$ оценка дисперсии, соответствующая модели. $\sigma ^{2}$

Резюме анализа [ править ]

Основной анализ ANOVA состоит из серии вычислений. Данные собраны в табличной форме. потом

Каждая группа лечения суммируется по количеству экспериментальных единиц, двум суммам, среднему значению и дисперсии. Сводные данные по группам лечения объединяются для получения итоговых значений количества единиц и сумм. Общее среднее и большое отклонение вычисляются из больших сумм. В модели использовано лечение и грандиозные средства.
Три DF и SS рассчитываются на основе сводных данных. Затем рассчитываются MS, и отношение определяет F.
Компьютер обычно определяет p-значение из F, которое определяет, дают ли методы лечения существенно разные результаты. Если результат значительный, то модель временно действительна.

Если эксперимент сбалансирован, все члены равны, поэтому уравнения SS упрощаются. $I_{j}$

В более сложном эксперименте, где экспериментальные единицы (или воздействия окружающей среды) неоднородны, в анализе также используются статистические данные по строкам. Модель включает условия, зависящие от . Определение дополнительных членов уменьшает количество доступных степеней свободы. $i$

Пример [ править ]

Рассмотрим эксперимент по изучению влияния трех различных уровней фактора на реакцию (например, трех уровней удобрения на рост растений). Если бы мы имели 6 наблюдений для каждого уровня, мы могли бы записать результат эксперимента в таблице , как это, где ₁ , ₂ , и ₃ являются три уровня изучаемого фактора.

а ₁	а ₂	а ₃
6	8	13
8	12	9
4	9	11
5	11	8
3	6	7
4	8	12

Нулевая гипотеза, обозначенная H ₀ , для общего F- теста для этого эксперимента будет заключаться в том, что все три уровня фактора в среднем дают одинаковый ответ. Чтобы вычислить F- соотношение:

Шаг 1: Рассчитайте среднее значение в каждой группе:

{\begin{aligned}{\overline {Y}}_{1}&={\frac {1}{6}}\sum Y_{1i}={\frac {6+8+4+5+3+4}{6}}=5\\{\overline {Y}}_{2}&={\frac {1}{6}}\sum Y_{2i}={\frac {8+12+9+11+6+8}{6}}=9\\{\overline {Y}}_{3}&={\frac {1}{6}}\sum Y_{3i}={\frac {13+9+11+8+7+12}{6}}=10\end{aligned}}

Шаг 2: Рассчитайте общее среднее значение:

{\overline {Y}}={\frac {\sum _{i}{\overline {Y}}_{i}}{a}}={\frac {{\overline {Y}}_{1}+{\overline {Y}}_{2}+{\overline {Y}}_{3}}{a}}={\frac {5+9+10}{3}}=8

где а - количество групп.

Шаг 3. Вычислите сумму квадратов разностей «между группами»:

{\begin{aligned}S_{B}&=n({\overline {Y}}_{1}-{\overline {Y}})^{2}+n({\overline {Y}}_{2}-{\overline {Y}})^{2}+n({\overline {Y}}_{3}-{\overline {Y}})^{2}\\[8pt]&=6(5-8)^{2}+6(9-8)^{2}+6(10-8)^{2}=84\end{aligned}}

где n - количество значений данных в группе.

Межгрупповые степени свободы на единицу меньше количества групп.

f_{b}=3-1=2

так что межгрупповое среднеквадратическое значение

MS_{B}=84/2=42

Шаг 4: Вычислите сумму квадратов «внутри группы». Начните с центрирования данных в каждой группе

а ₁	а ₂	а ₃
6−5 = 1	8−9 = −1	13−10 = 3
8−5 = 3	12−9 = 3	9−10 = −1
4−5 = −1	9−9 = 0	11−10 = 1
5−5 = 0	11−9 = 2	8−10 = −2
3−5 = −2	6−9 = −3	7−10 = −3
4−5 = −1	8−9 = −1	12−10 = 2

Сумма квадратов внутри группы - это сумма квадратов всех 18 значений в этой таблице.

{\begin{aligned}S_{W}=&(1)^{2}+(3)^{2}+(-1)^{2}+(0)^{2}+(-2)^{2}+(-1)^{2}+\\&(-1)^{2}+(3)^{2}+(0)^{2}+(2)^{2}+(-3)^{2}+(-1)^{2}+\\&(3)^{2}+(-1)^{2}+(1)^{2}+(-2)^{2}+(-3)^{2}+(2)^{2}\\=&\ 1+9+1+0+4+1+1+9+0+4+9+1+9+1+1+4+9+4\\=&\ 68\\\end{aligned}}

Внутригрупповые степени свободы

f_{W}=a(n-1)=3(6-1)=15

Таким образом, среднеквадратичное значение внутри группы равно

MS_{W}=S_{W}/f_{W}=68/15\approx 4.5

Шаг 5: F -ratio является

F={\frac {MS_{B}}{MS_{W}}}\approx 42/4.5\approx 9.3

Критическое значение - это число, которое должна превышать статистика теста, чтобы отклонить тест. В этом случае F _крит (2,15) = 3,68 при α = 0,05. Поскольку F = 9,3> 3,68, результаты значимы на уровне значимости 5%. Можно отклонить нулевую гипотезу, заключив, что есть веские доказательства того, что ожидаемые значения в трех группах различаются. Значение p для этого теста составляет 0,002.

После выполнения F- теста обычно проводят некоторый «апостериорный» анализ групповых средних. В этом случае средние значения первых двух групп отличаются на 4 единицы, средние значения первой и третьей группы отличаются на 5 единиц, а средние значения второй и третьей группы отличаются только на 1 единицу. Стандартная ошибка каждого из этих различий . Таким образом, первая группа сильно отличается от других групп, так как средняя разница в несколько раз превышает стандартную ошибку, поэтому мы можем быть очень уверены в том, что среднее значение генеральной совокупности ${\sqrt {4.5/6+4.5/6}}=1.2$ первой группы отличается от средних значений населения других групп. Однако нет никаких доказательств того, что вторая и третья группы имеют разные средние по численности населения друг от друга, поскольку их средняя разница в одну единицу сопоставима со стандартной ошибкой.

Примечание Р ( х , у ) обозначает Р -распределение интегральной функцию распределения с й степенями свободы в числителе и у степеней свободы в знаменателе.

См. Также [ править ]

Дисперсионный анализ
F-тест ( включает пример одностороннего дисперсионного анализа )
Смешанная модель
Многомерный дисперсионный анализ (MANOVA)
Повторные измерения ANOVA
Двусторонний дисперсионный анализ
T-критерий Велча

Заметки [ править ]

^ a b Хауэлл, Дэвид (2002). Статистические методы психологии . Даксбери. С. 324–325 . ISBN 0-534-37770-X.
Перейти ↑ Welch, BL (1951). «О сравнении нескольких средних значений: альтернативный подход». Биометрика . 38 (3/4): 330–336. DOI : 10.2307 / 2332579 . JSTOR 2332579 .
^ Кирк, RE (1995). Экспериментальный дизайн: процедуры для поведенческих наук (3-е изд.). Пасифик Гроув, Калифорния, США: Брукс / Коул.
Перейти ↑ Blair, RC (1981). «Реакция на« Последствия невыполнения предположений, лежащих в основе анализа дисперсии и ковариации с фиксированными эффектами » ». Обзор образовательных исследований . 51 (4): 499–507. DOI : 10.3102 / 00346543051004499 .
^ Рэндольф, EA; Барчиковски, RS (1989). «Коэффициент ошибок типа I, когда реальные значения исследования используются в качестве параметров популяции в исследовании Монте-Карло». Документ, представленный на 11-м ежегодном собрании Ассоциации исследований в области образования Среднего Запада, Чикаго .
^ Дональдсон, Теодор С. (1966). «Мощность F-теста для ненормальных распределений и неравных отклонений ошибок» . Документ подготовлен для проекта ВВС США RAND .
^ Тику, ML (1971). «Силовая функция F- теста в нестандартных ситуациях». Журнал Американской статистической ассоциации . 66 (336): 913–916. DOI : 10.1080 / 01621459.1971.10482371 .
^ "Архивная копия" . Архивировано из оригинала на 2018-12-04 . Проверено 22 сентября 2016 .CS1 maint: archived copy as title (link)
^ Sawilowsky, С. (1990). «Непараметрические тесты взаимодействия в экспериментальном дизайне». Обзор образовательных исследований . 60 (1): 91–126. DOI : 10.3102 / 00346543060001091 .
Перейти ↑ Montgomery, Douglas C. (2001). Планирование и анализ экспериментов (5-е изд.). Нью-Йорк: Вили. п. Раздел 3–2. ISBN 9780471316497.
^ Мур, Дэвид С .; Маккейб, Джордж П. (2003). Введение в статистическую практику (4-е изд.). WH Freeman & Co. стр. 764. ISBN 0716796570.
^ Винклер, Роберт Л .; Хейс, Уильям Л. (1975). Статистика: вероятность, вывод и решение (2-е изд.). Нью-Йорк: Холт, Райнхарт и Уинстон. п. 761 .

Дальнейшее чтение [ править ]

Джордж Каселла (18 апреля 2008 г.). Статистический дизайн . Springer . ISBN 978-0-387-75965-4.

[Howell_2002_324–325-1] Хауэлл, Дэвид (2002). Статистические методы психологии . Даксбери. С. 324–325 . ISBN 0-534-37770-X.

[Welch1951-2] Перейти ↑ Welch, BL (1951). «О сравнении нескольких средних значений: альтернативный подход». Биометрика . 38 (3/4): 330–336. DOI : 10.2307 / 2332579 . JSTOR 2332579 .

[Kirk-3] Кирк, RE (1995). Экспериментальный дизайн: процедуры для поведенческих наук (3-е изд.). Пасифик Гроув, Калифорния, США: Брукс / Коул.

[4] Перейти ↑ Blair, RC (1981). «Реакция на« Последствия невыполнения предположений, лежащих в основе анализа дисперсии и ковариации с фиксированными эффектами » ». Обзор образовательных исследований . 51 (4): 499–507. DOI : 10.3102 / 00346543051004499 .

[5] Рэндольф, EA; Барчиковски, RS (1989). «Коэффициент ошибок типа I, когда реальные значения исследования используются в качестве параметров популяции в исследовании Монте-Карло». Документ, представленный на 11-м ежегодном собрании Ассоциации исследований в области образования Среднего Запада, Чикаго .

[6] Дональдсон, Теодор С. (1966). «Мощность F-теста для ненормальных распределений и неравных отклонений ошибок» . Документ подготовлен для проекта ВВС США RAND .

[7] Тику, ML (1971). «Силовая функция F- теста в нестандартных ситуациях». Журнал Американской статистической ассоциации . 66 (336): 913–916. DOI : 10.1080 / 01621459.1971.10482371 .

[8] "Архивная копия" . Архивировано из оригинала на 2018-12-04 . Проверено 22 сентября 2016 .CS1 maint: archived copy as title (link)

[9] Sawilowsky, С. (1990). «Непараметрические тесты взаимодействия в экспериментальном дизайне». Обзор образовательных исследований . 60 (1): 91–126. DOI : 10.3102 / 00346543060001091 .

[10] Перейти ↑ Montgomery, Douglas C. (2001). Планирование и анализ экспериментов (5-е изд.). Нью-Йорк: Вили. п. Раздел 3–2. ISBN 9780471316497.

[11] Мур, Дэвид С .; Маккейб, Джордж П. (2003). Введение в статистическую практику (4-е изд.). WH Freeman & Co. стр. 764. ISBN 0716796570.

[12] Винклер, Роберт Л .; Хейс, Уильям Л. (1975). Статистика: вероятность, вывод и решение (2-е изд.). Нью-Йорк: Холт, Райнхарт и Уинстон. п. 761 .

[1]