В статистике , один конец дисперсионного анализ (сокращенно однофакторный дисперсионный анализ ) представляет собой метод , который может быть использован для сравнения с помощью двух или более образцов (используя распределение F ). Этот метод может использоваться только для числовых данных ответа, «Y», обычно одной переменной, и числовых или (обычно) категориальных входных данных, «X», всегда одной переменной, следовательно, «односторонний». [1]
ANOVA проверяет нулевую гипотезу , которая гласит, что выборки во всех группах взяты из популяций с одинаковыми средними значениями. Для этого делаются две оценки дисперсии населения. Эти оценки основаны на различных предположениях ( см. Ниже ). ANOVA дает F-статистику, отношение дисперсии, вычисленной среди средних, к дисперсии в выборках. Если средние значения группы взяты из совокупностей с одинаковыми средними значениями, дисперсия между средними значениями группы должна быть ниже, чем дисперсия выборок, в соответствии с центральной предельной теоремой . Следовательно, более высокое соотношение означает, что выборки были взяты из популяций с разными средними значениями. [1]
Однако обычно односторонний дисперсионный анализ используется для проверки различий между по крайней мере тремя группами, поскольку случай с двумя группами может быть покрыт t-критерием (Gosset, 1908). Когда есть только два средства для сравнения, t-тест и F-тест эквивалентны; связь между ANOVA и t определяется выражением F = t 2 . Расширением одностороннего дисперсионного анализа является двухфакторный дисперсионный анализ, который исследует влияние двух различных категориальных независимых переменных на одну зависимую переменную.
Предположения [ править ]
Результаты одностороннего дисперсионного анализа можно считать надежными, если выполняются следующие допущения:
- Ответные переменные остатки будут нормально распределены (или приблизительно нормально распределены).
- Вариации популяций равны.
- Ответы для данной группы являются независимыми и одинаково распределенными нормальными случайными величинами (а не простой случайной выборкой (SRS)).
Если данные являются порядковыми , следует использовать непараметрическую альтернативу этому тесту, такую как односторонний дисперсионный анализ Краскела – Уоллиса . Если известно, что дисперсии не равны, можно использовать t-критерий Велча с двумя выборками . [2]
Отклонения от нормы популяции [ править ]
ANOVA - это относительно надежная процедура в отношении нарушений предположения о нормальности. [3]
Односторонний дисперсионный анализ можно обобщить на факторные и многомерные схемы, а также на анализ ковариации. [ требуется разъяснение ]
В популярной литературе часто утверждается, что ни один из этих F- тестов не является надежным, когда есть серьезные нарушения предположения о том, что каждая популяция следует нормальному распределению , особенно для малых альфа-уровней и несбалансированных макетов. [4] Кроме того, также утверждается, что если базовое предположение о гомоскедастичности нарушается, свойства ошибок типа I вырождаются гораздо сильнее. [5]
Однако это заблуждение, основанное на работе, проделанной в 1950-х годах и ранее. Первым исчерпывающим исследованием проблемы с помощью моделирования методом Монте-Карло был Дональдсон (1966). [6] Он показал, что при обычных отклонениях (положительный перекос, неравные дисперсии) « F- тест является консервативным», и поэтому вероятность того, что переменная значима, меньше, чем должно быть. Однако по мере увеличения размера выборки или количества ячеек «кривые мощности, кажется, сходятся к кривым, основанным на нормальном распределении». Тику (1971) обнаружил, что «ненормальная теоретическая мощность F отличается от нормальной теоретической мощностью поправочным членом, который резко уменьшается с увеличением размера выборки». [7] Проблема ненормальности, особенно в больших выборках, гораздо менее серьезна, чем предполагают популярные статьи.
Текущее мнение состоит в том, что «исследования методом Монте-Карло широко использовались с тестами на основе нормального распределения, чтобы определить, насколько они чувствительны к нарушениям предположения о нормальном распределении анализируемых переменных в популяции. Общий вывод из этих исследований состоит в том, что последствия таких нарушений менее серьезны, чем предполагалось ранее. Хотя эти выводы не должны полностью отпугивать кого-либо от беспокойства по поводу предположения о нормальности, они повысили общую популярность статистических тестов, зависящих от распределения, во всех областях исследований ». [8]
Для непараметрических альтернатив в факторной схеме см. Sawilowsky. [9] Для получения дополнительной информации см. ANOVA по рангам .
Случай фиксированных эффектов, полностью рандомизированный эксперимент, несбалансированные данные [ править ]
Модель [ править ]
Нормальная линейная модель описывает лечебные группы с распределениями вероятностей, которые представляют собой идентичные колоколообразные (нормальные) кривые с разными средними значениями. Таким образом, для подгонки моделей требуются только средние значения для каждой группы лечения и расчет дисперсии (используется средняя дисперсия в группах лечения). Вычисления средних и дисперсии выполняются как часть проверки гипотезы.
Обычно используемые нормальные линейные модели для полностью рандомизированного эксперимента: [10]
- (модель средних)
или же
- (модель эффектов)
куда
- индекс экспериментальных единиц
- индекс по группам лечения
- количество экспериментальных единиц в j-й группе лечения
- общее количество экспериментальных единиц
- наблюдения
- среднее значение наблюдений для j-й группы лечения
- это среднее значение наблюдений
- это j-й лечебный эффект, отклонение от общего среднего
- , являются нормально распределенными случайными ошибками с нулевым средним.
Индекс над экспериментальными единицами можно интерпретировать по-разному. В некоторых экспериментах одна и та же экспериментальная установка подвергается различным воздействиям; может указывать на конкретную единицу. В других случаях каждая группа лечения имеет отдельный набор экспериментальных единиц; может быть просто указателем в -й список.
Данные и статистические сводки данных [ править ]
Одна из форм организации экспериментальных наблюдений - это группы в столбцы:
Списки групповых наблюдений | ||||||||
---|---|---|---|---|---|---|---|---|
1 | ||||||||
2 | ||||||||
3 | ||||||||
Сводная статистика группы | Общая сводная статистика | |||||||
# Наблюдаемый | # Наблюдаемый | |||||||
Сумма | Сумма | |||||||
Сумма кв. | Сумма кв. | |||||||
Иметь в виду | Иметь в виду | |||||||
Дисперсия | Дисперсия |
Сравнение модели с аннотациями: и . Общее среднее и большое отклонение вычисляются из общих сумм, а не из групповых средних и дисперсий.
Проверка гипотез [ править ]
С учетом сводной статистики расчеты проверки гипотез представлены в табличной форме. Хотя два столбца SS показаны для их пояснительного значения, для отображения результатов требуется только один столбец.
Источник вариации | Суммы квадратов | Суммы квадратов | Степени свободы | Средний квадрат | F |
---|---|---|---|---|---|
Пояснительная СС [11] | Вычислительная СС [12] | DF | РС | ||
Лечение | |||||
Ошибка | |||||
Общий |
оценка дисперсии, соответствующая модели.
Резюме анализа [ править ]
Основной анализ ANOVA состоит из серии вычислений. Данные собраны в табличной форме. потом
- Каждая группа лечения суммируется по количеству экспериментальных единиц, двум суммам, среднему значению и дисперсии. Сводные данные по группам лечения объединяются для получения итоговых значений количества единиц и сумм. Общее среднее и большое отклонение вычисляются из больших сумм. В модели использовано лечение и грандиозные средства.
- Три DF и SS рассчитываются на основе сводных данных. Затем рассчитываются MS, и отношение определяет F.
- Компьютер обычно определяет p-значение из F, которое определяет, дают ли методы лечения существенно разные результаты. Если результат значительный, то модель временно действительна.
Если эксперимент сбалансирован, все члены равны, поэтому уравнения SS упрощаются.
В более сложном эксперименте, где экспериментальные единицы (или воздействия окружающей среды) неоднородны, в анализе также используются статистические данные по строкам. Модель включает условия, зависящие от . Определение дополнительных членов уменьшает количество доступных степеней свободы.
Пример [ править ]
Рассмотрим эксперимент по изучению влияния трех различных уровней фактора на реакцию (например, трех уровней удобрения на рост растений). Если бы мы имели 6 наблюдений для каждого уровня, мы могли бы записать результат эксперимента в таблице , как это, где 1 , 2 , и 3 являются три уровня изучаемого фактора.
а 1 а 2 а 3 6 8 13 8 12 9 4 9 11 5 11 8 3 6 7 4 8 12
Нулевая гипотеза, обозначенная H 0 , для общего F- теста для этого эксперимента будет заключаться в том, что все три уровня фактора в среднем дают одинаковый ответ. Чтобы вычислить F- соотношение:
Шаг 1: Рассчитайте среднее значение в каждой группе:
Шаг 2: Рассчитайте общее среднее значение:
- где а - количество групп.
Шаг 3. Вычислите сумму квадратов разностей «между группами»:
где n - количество значений данных в группе.
Межгрупповые степени свободы на единицу меньше количества групп.
так что межгрупповое среднеквадратическое значение
Шаг 4: Вычислите сумму квадратов «внутри группы». Начните с центрирования данных в каждой группе
а 1 | а 2 | а 3 |
---|---|---|
6−5 = 1 | 8−9 = −1 | 13−10 = 3 |
8−5 = 3 | 12−9 = 3 | 9−10 = −1 |
4−5 = −1 | 9−9 = 0 | 11−10 = 1 |
5−5 = 0 | 11−9 = 2 | 8−10 = −2 |
3−5 = −2 | 6−9 = −3 | 7−10 = −3 |
4−5 = −1 | 8−9 = −1 | 12−10 = 2 |
Сумма квадратов внутри группы - это сумма квадратов всех 18 значений в этой таблице.
Внутригрупповые степени свободы
Таким образом, среднеквадратичное значение внутри группы равно
Шаг 5: F -ratio является
Критическое значение - это число, которое должна превышать статистика теста, чтобы отклонить тест. В этом случае F крит (2,15) = 3,68 при α = 0,05. Поскольку F = 9,3> 3,68, результаты значимы на уровне значимости 5%. Можно отклонить нулевую гипотезу, заключив, что есть веские доказательства того, что ожидаемые значения в трех группах различаются. Значение p для этого теста составляет 0,002.
После выполнения F- теста обычно проводят некоторый «апостериорный» анализ групповых средних. В этом случае средние значения первых двух групп отличаются на 4 единицы, средние значения первой и третьей группы отличаются на 5 единиц, а средние значения второй и третьей группы отличаются только на 1 единицу. Стандартная ошибка каждого из этих различий . Таким образом, первая группа сильно отличается от других групп, так как средняя разница в несколько раз превышает стандартную ошибку, поэтому мы можем быть очень уверены в том, что среднее значение генеральной совокупностипервой группы отличается от средних значений населения других групп. Однако нет никаких доказательств того, что вторая и третья группы имеют разные средние по численности населения друг от друга, поскольку их средняя разница в одну единицу сопоставима со стандартной ошибкой.
Примечание Р ( х , у ) обозначает Р -распределение интегральной функцию распределения с й степенями свободы в числителе и у степеней свободы в знаменателе.
См. Также [ править ]
- Дисперсионный анализ
- F-тест ( включает пример одностороннего дисперсионного анализа )
- Смешанная модель
- Многомерный дисперсионный анализ (MANOVA)
- Повторные измерения ANOVA
- Двусторонний дисперсионный анализ
- T-критерий Велча
Заметки [ править ]
- ^ a b Хауэлл, Дэвид (2002). Статистические методы психологии . Даксбери. С. 324–325 . ISBN 0-534-37770-X.
- Перейти ↑ Welch, BL (1951). «О сравнении нескольких средних значений: альтернативный подход». Биометрика . 38 (3/4): 330–336. DOI : 10.2307 / 2332579 . JSTOR 2332579 .
- ^ Кирк, RE (1995). Экспериментальный дизайн: процедуры для поведенческих наук (3-е изд.). Пасифик Гроув, Калифорния, США: Брукс / Коул.
- Перейти ↑ Blair, RC (1981). «Реакция на« Последствия невыполнения предположений, лежащих в основе анализа дисперсии и ковариации с фиксированными эффектами » ». Обзор образовательных исследований . 51 (4): 499–507. DOI : 10.3102 / 00346543051004499 .
- ^ Рэндольф, EA; Барчиковски, RS (1989). «Коэффициент ошибок типа I, когда реальные значения исследования используются в качестве параметров популяции в исследовании Монте-Карло». Документ, представленный на 11-м ежегодном собрании Ассоциации исследований в области образования Среднего Запада, Чикаго .
- ^ Дональдсон, Теодор С. (1966). «Мощность F-теста для ненормальных распределений и неравных отклонений ошибок» . Документ подготовлен для проекта ВВС США RAND .
- ^ Тику, ML (1971). «Силовая функция F- теста в нестандартных ситуациях». Журнал Американской статистической ассоциации . 66 (336): 913–916. DOI : 10.1080 / 01621459.1971.10482371 .
- ^ "Архивная копия" . Архивировано из оригинала на 2018-12-04 . Проверено 22 сентября 2016 .CS1 maint: archived copy as title (link)
- ^ Sawilowsky, С. (1990). «Непараметрические тесты взаимодействия в экспериментальном дизайне». Обзор образовательных исследований . 60 (1): 91–126. DOI : 10.3102 / 00346543060001091 .
- Перейти ↑ Montgomery, Douglas C. (2001). Планирование и анализ экспериментов (5-е изд.). Нью-Йорк: Вили. п. Раздел 3–2. ISBN 9780471316497.
- ^ Мур, Дэвид С .; Маккейб, Джордж П. (2003). Введение в статистическую практику (4-е изд.). WH Freeman & Co. стр. 764. ISBN 0716796570.
- ^ Винклер, Роберт Л .; Хейс, Уильям Л. (1975). Статистика: вероятность, вывод и решение (2-е изд.). Нью-Йорк: Холт, Райнхарт и Уинстон. п. 761 .
Дальнейшее чтение [ править ]
- Джордж Каселла (18 апреля 2008 г.). Статистический дизайн . Springer . ISBN 978-0-387-75965-4.