Отклонение (статистика)

В статистике , девиация является благость-из-припадка статистики для статистической модели ; он часто используется для проверки статистических гипотез . Это обобщение идеи использования суммы квадратов остатков в обычном методе наименьших квадратов на случаи, когда подгонка модели достигается с помощью максимального правдоподобия . Он играет важную роль в моделях экспоненциальной дисперсии и обобщенных линейных моделях .

Определение [ править ]

Единичное отклонение ^[1]^[2] является двумерной функцией, удовлетворяющей следующим условиям: ${\ Displaystyle д (у, \ му)}$

${\ displaystyle d (y, y) = 0}$
${\ displaystyle d (y, \ mu)> 0 \ quad \ forall y \ neq \ mu}$

Общее отклонение модели с прогнозами о наблюдении является суммой его единичных отклонений: . ${\ Displaystyle D (\ mathbf {y}, {\ hat {\ boldsymbol {\ mu}}})}$ ${\ displaystyle {\ hat {\ boldsymbol {\ mu}}}}$ ${\ displaystyle \ mathbf {y}}$ ${\ displaystyle D (\ mathbf {y}, {\ hat {\ boldsymbol {\ mu}}}) = \ sum _ {i} d (y_ {i}, {\ hat {\ mu}} _ {i} )}$

(Общее) отклонение для модели M ₀ с оценками , основанными на наборе данных y , может быть построено по его вероятности как: ^[3]^[4] ${\ displaystyle {\ hat {\ mu}} = E [Y | {\ hat {\ theta}} _ {0}]}$

D(y,{\hat {\mu }})=2{\Big (}\log {\big (}p(y\mid {\hat {\theta }}_{s}){\big )}-\log {\big (}p(y\mid {\hat {\theta }}_{0}){\big )}{\Big )}.\,

Здесь обозначены подогнанные значения параметров в модели M ₀ , а обозначены подогнанные параметры для насыщенной модели : оба набора подогнанных значений неявно являются функциями наблюдений y . Здесь насыщенная модель - это модель с параметром для каждого наблюдения, чтобы данные точно соответствовали. Это выражение просто в 2 раза больше логарифмического отношения правдоподобия полной модели по сравнению с сокращенной моделью. Отклонение используется для сравнения двух моделей - в частности, в случае обобщенных линейных моделей (GLM), где оно играет роль, аналогичную остаточной дисперсии ANOVA в линейных моделях ( RSS ${\hat {\theta }}_{0}$ ${\hat {\theta }}_{s}$ ).

Допустим, в рамках GLM у нас есть две вложенные модели , M ₁ и M ₂ . В частности, предположим, что M ₁ содержит параметры из M ₂ и k дополнительных параметров. Затем при нулевой гипотезе о том, что M ₂ является истинной моделью, разница между отклонениями для двух моделей следует, основываясь на теореме Уилкса , приближенном распределении хи-квадрат с k- степенями свободы. ^[4] Это можно использовать для проверки гипотез об отклонении.

Некоторое использование термина «отклонение» может сбивать с толку. Согласно Коллетту: ^[5]

«количество иногда называют отклонением . Это [...] неуместно, поскольку в отличие от отклонения, используемого в контексте обобщенного линейного моделирования, оно не измеряет отклонение от модели, которая идеально соответствует данным». Однако, поскольку основное использование заключается в разнице отклонений двух моделей, эта путаница в определении не имеет значения.

-2\log {\big (}p(y\mid {\hat {\theta }}_{0}){\big )}

-2\log {\big (}p(y\mid {\hat {\theta }}_{0}){\big )}

Примеры [ править ]

Единичное отклонение для распределения Пуассона равно , единичное отклонение для нормального распределения равно . $d(y,\mu )=2\left(y\log {\frac {y}{\mu }}-y+\mu \right)$ $d(y,\mu )=\left(y-\mu \right)^{2}$

См. Также [ править ]

Информационный критерий Акаике
Информационный критерий отклонения
Тест Хосмера – Лемешоу , статистика качества соответствия, которая может использоваться для двоичных данных.
Критерий хи-квадрат Пирсона , альтернативная статистика качества соответствия для обобщенных линейных моделей для данных подсчета
Критерий Пирса

Заметки [ править ]

Перейти ↑ Jørgensen, B. (1997). Теория дисперсионных моделей . Чепмен и Холл.
^ Песня, Петр X. -K. (2007). Коррелированный анализ данных: моделирование, аналитика и приложения . Серии Спрингера в статистике. Серии Спрингера в статистике. DOI : 10.1007 / 978-0-387-71393-9 . ISBN 978-0-387-71392-2.
^ Нелдер, JA ; Веддерберн, RWM (1972). «Обобщенные линейные модели». Журнал Королевского статистического общества. Серия А (Общие) . 135 (3): 370–384. DOI : 10.2307 / 2344614 . JSTOR 2344614 . S2CID 14154576 .
^ a b Маккаллах и Нелдер (1989): стр.17
^ Коллетт (2003): стр.76

Ссылки [ править ]

Маккаллах, Питер ; Нелдер, Джон (1989). Обобщенные линейные модели, второе издание . Чепмен и Холл / CRC. ISBN 0-412-31760-5.

Коллетт, Дэвид (2003). Моделирование данных о выживании в медицинских исследованиях, второе издание . Чепмен и Холл / CRC. ISBN 1-58488-325-1.

Внешние ссылки [ править ]

Обобщенные линейные модели - Эдвард Ф. Коннор
Заметки к лекциям по девиансам

[J1997-1] Перейти ↑ Jørgensen, B. (1997). Теория дисперсионных моделей . Чепмен и Холл.

[2] Песня, Петр X. -K. (2007). Коррелированный анализ данных: моделирование, аналитика и приложения . Серии Спрингера в статистике. Серии Спрингера в статистике. DOI : 10.1007 / 978-0-387-71393-9 . ISBN 978-0-387-71392-2.

[3] Нелдер, JA ; Веддерберн, RWM (1972). «Обобщенные линейные модели». Журнал Королевского статистического общества. Серия А (Общие) . 135 (3): 370–384. DOI : 10.2307 / 2344614 . JSTOR 2344614 . S2CID 14154576 .

[McN-4] Маккаллах и Нелдер (1989): стр.17

[5] Коллетт (2003): стр.76

[1]