Ожидаемые средние квадраты

В статистике , ожидаемые средние квадраты (EMS) ожидаемые значения определенных статистических данных , возникающих в разделах сумм квадратов в дисперсионном анализе (ANOVA). Их можно использовать для определения того, какая статистика должна появиться в знаменателе в F-тесте для проверки нулевой гипотезы об отсутствии определенного эффекта.

Определение [ править ]

Когда общая скорректированная сумма квадратов в ANOVA делится на несколько компонентов, каждый из которых приписывается влиянию определенной переменной-предиктора, каждая из сумм квадратов в этом разделе является случайной величиной, имеющей ожидаемое значение . Это ожидаемое значение, деленное на соответствующее количество степеней свободы, является ожидаемым средним квадратом для этой прогнозирующей переменной.

Пример [ править ]

Следующий пример взят из анализа продольных данных Дональда Хедекера и Роберта Д. Гиббонса. ^[1]

Каждое из s процедур (одно из которых может быть плацебо) назначается выборке из (заглавных) N случайно выбранных пациентов, на которых наблюдаются определенные измерения в каждый из (строчных букв) n указанных раз, для (таким образом, числа пациентов, получающих разное лечение, могут отличаться), и мы предполагаем, что группы пациентов, получающих разное лечение, не пересекаются, поэтому пациенты вкладываются в лечение и не пересекаются с лечением. У нас есть ${\ textstyle Y_ {hij}}$ ${\ textstyle h = 1, \ ldots, s, \ quad i = 1, \ ldots, N_ {h}}$ ${\ textstyle j = 1, \ ldots, n.}$

{\ Displaystyle Y_ {hij} = \ mu + \ gamma _ {h} + \ tau _ {j} + (\ gamma \ tau) _ {hj} + \ pi _ {i (h)} + \ varepsilon _ { hij}}

где

{\begin{aligned}\mu &={\text{grand mean}},&&{\text{(fixed)}}\\\gamma _{h}&={\text{effect of treatment }}h,&&{\text{(fixed)}}\\\tau _{j}&={\text{effect of time }}j,&&{\text{(fixed)}}\\(\gamma \tau )_{hj}&={\text{interaction effect of treatment }}h{\text{ and time }}j,&&{\text{(fixed)}}\\\pi _{i(h)}&={\text{individual difference effect for patient }}i{\text{ nested within treatment }}h,&&{\text{(random)}}\\\varepsilon _{hij}&={\text{error for patient }}i{\text{ in treatment }}h{\text{ at time }}j.&&{\text{(random)}}\\\sigma _{\pi }^{2}&={\text{variance of the random effect of patients nested within treatments,}}\\\sigma _{\varepsilon }&={\text{error variance.}}\end{aligned}}

Общая скорректированная сумма квадратов равна

\sum _{hij}(Y_{hij}-{\overline {Y}})^{2}\quad {\text{where }}{\overline {Y}}={\frac {1}{n}}\sum _{hij}Y_{hij}.

Таблица ANOVA ниже разбивает сумму квадратов (где ): ${\textstyle N=\sum _{h}N_{h}}$

{\begin{array}{|r|c|l|c|l|}\hline {\begin{array}{c}{\text{source of}}\\{\text{variability}}\end{array}}&{\begin{array}{c}{\text{degrees of}}\\{\text{freedom}}\end{array}}&{\text{sum of squares}}&{\text{mean square}}&{\begin{array}{c}{\text{expected}}\\{\text{mean}}\\{\text{square}}\end{array}}\\\hline {\text{treatment}}&s-1&{\text{SS}}_{\text{Tr}}=n\sum _{h=1}^{s}N_{h}({\overline {Y}}_{h\cdot \cdot }-{\overline {Y}}_{\cdot \cdot \cdot })^{2}&{\dfrac {{\text{SS}}_{\text{Tr}}}{s-1}}&\sigma _{\varepsilon }^{2}+n\sigma _{\pi }^{2}+D_{\text{Tr}}\\[6pt]{\text{time}}&n-1&{\text{SS}}_{\text{T}}=N\sum _{j=1}^{n}({\overline {Y}}_{\cdot \cdot j}-{\overline {Y}}_{\cdot \cdot \cdot })^{2}&{\dfrac {{\text{SS}}_{\text{T}}}{n-1}}&\sigma _{\varepsilon }^{2}+D_{\text{T}}\\[6pt]{\text{treatment}}\times {\text{time}}&(s-1)(n-1)&{\text{SS}}_{\text{Tr T}}=\sum _{h=1}^{s}\sum _{j=1}^{n}N_{h}({\overline {Y}}_{h\cdot j}-{\overline {Y}}_{h\cdot \cdot }-{\overline {Y}}_{\cdot \cdot j}+{\overline {Y}}_{\cdot \cdot \cdot })^{2}&{\dfrac {{\text{SS}}_{\text{Tr T}}}{(n-1)(s-1)}}&\sigma _{\varepsilon }^{2}+D_{\text{Tr T}}\\[6pt]{\begin{array}{c}{\text{patients}}\\{\text{within}}\\{\text{treatments}}\end{array}}&N-s&{\text{SS}}_{{\text{S}}({\text{Tr}})}=n\sum _{h=1}^{s}\sum _{i=1}^{N_{h}}({\overline {Y}}_{hi\cdot }-{\overline {Y}}_{h\cdot \cdot })^{2}&{\dfrac {{\text{SS}}_{{\text{S}}({\text{Tr}})}}{N-s}}&\sigma _{\varepsilon }^{2}+n\sigma _{\pi }^{2}\\[6pt]{\text{error}}&(N-s)(n-1)&{\text{SS}}_{\text{E}}=\sum _{h=1}^{s}\sum _{i=1}^{N_{h}}\sum _{j=1}^{n}(Y_{hij}-{\overline {Y}}_{h\cdot j}-{\overline {Y}}_{hi\cdot }+{\overline {Y}}_{h\cdot \cdot })^{2}&{\dfrac {{\text{SS}}_{\text{E}}}{(N-s)(n-1)}}&\sigma _{\varepsilon }^{2}\\\hline \end{array}}

Использование в F-тестах [ править ]

Нулевая гипотеза, представляющая интерес, заключается в том, что нет никакой разницы между эффектами различных методов лечения - следовательно, нет разницы между методами лечения. Это можно выразить словами (с обозначениями, используемыми в таблице выше). Согласно этой нулевой гипотезе, ожидаемый средний квадрат эффектов лечения равен ${\textstyle D_{\text{Tr}}=0,}$ ${\textstyle \sigma _{\varepsilon }^{2}+n\sigma _{\pi }^{2}.}$

Числитель в F-статистике для проверки этой гипотезы - это средний квадрат из-за различий между видами лечения, т.е. знаменатель, однако, не равен Причина в том, что приведенная ниже случайная величина, хотя при нулевой гипотезе она имеет F- распределения , не наблюдается - это не статистика - потому что его значение зависит от ненаблюдаемых параметров и ${\textstyle \left.{\text{SS}}_{\text{Tr}}\right/(s-1).}$ ${\textstyle \left.{\text{SS}}_{\text{E}}\right/{\big (}(N-s)(n-1){\big )}.}$ ${\textstyle \sigma _{\pi }^{2}}$ ${\textstyle \sigma _{\varepsilon }^{2}.}$

{\frac {\left.{\frac {{\text{SS}}_{\text{Tr}}}{\sigma _{\varepsilon }^{2}+n\sigma _{\pi }^{2}}}\right/(s-1)}{\left.{\frac {{\text{SS}}_{\text{E}}}{\sigma _{\varepsilon }^{2}}}\right/{\big (}(N-s)(n-1){\big )}}}\neq {\frac {{\text{SS}}_{\text{Tr}}/(s-1)}{{\text{SS}}_{\text{E}}/{\big (}(N-s)(n-1){\big )}}}

Вместо этого в качестве тестовой статистики используется следующая случайная величина, которая не определяется в терминах : ${\textstyle {\text{SS}}_{\text{E}}}$

F={\frac {\left.{\frac {{\text{SS}}_{\text{Tr}}}{\sigma _{\varepsilon }^{2}+n\sigma _{\pi }^{2}}}\right/(s-1)}{\left.{\frac {{\text{SS}}_{{\text{S}}({\text{Tr}})}}{\sigma _{\varepsilon }^{2}+n\sigma _{\pi }^{2}}}\right/(N-s)}}={\frac {\left.{\text{SS}}_{\text{Tr}}\right/(s-1)}{\left.{\text{SS}}_{\text{S(Tr)}}\right/(N-s)}}

Примечания и ссылки [ править ]

^ Дональд Хедекер, Роберт Д. Гиббонс. Продольный анализ данных. Wiley Interscience. 2006. С. 21–24.

[1] Дональд Хедекер, Роберт Д. Гиббонс. Продольный анализ данных. Wiley Interscience. 2006. С. 21–24.

[1]