Объясненная вариация

В статистике , объясненной вариации измеряет долю , в которой математическая модель учитывает вариации ( дисперсии ) данного набора данных. Часто вариацию количественно оценивают как дисперсию ; затем можно использовать более конкретный термин « объясненная дисперсия» .

Дополнительная часть общей вариации называется необъяснимой или остаточной вариацией.

Определение с точки зрения получения информации

Получение информации за счет лучшего моделирования

Следуя Кенту (1983), ^[1], мы используем информацию Фрейзера (Fraser 1965) ^[2]

{\ Displaystyle F (\ theta) = \ int {\ textrm {d}} r \, g (r) \, \ ln f (r; \ theta)}

где ${\ displaystyle g (r)}$ - плотность вероятности случайной величины ${\ Displaystyle R \,}$ , а также ${\ Displaystyle е (г; \ тета) \,}$ с участием ${\ displaystyle \ theta \ in \ Theta _ {i}}$ ( ${\ Displaystyle я = 0,1 \,}$ ) представляют собой два семейства параметрических моделей. Семейство моделей 0 является более простым с ограниченным пространством параметров ${\ displaystyle \ Theta _ {0} \ subset \ Theta _ {1}}$ .

Параметры определяются методом максимального правдоподобия ,

{\ displaystyle \ theta _ {i} = \ operatorname {argmax} _ {\ theta \ in \ Theta _ {i}} F (\ theta).}

Информационный выигрыш модели 1 по сравнению с моделью 0 записывается как

{\ Displaystyle \ Gamma (\ theta _ {1}: \ theta _ {0}) = 2 [F (\ theta _ {1}) - F (\ theta _ {0})] \,}

где для удобства включен коэффициент 2. Γ всегда неотрицательно; он измеряет степень, в которой лучшая модель семьи 1 лучше, чем лучшая модель семьи 0 в объяснении g ( r ).

Получение информации с помощью условной модели

Предположим двумерную случайную величину ${\ Displaystyle R = (X, Y)}$ где X следует рассматривать как объясняющую переменную, а Y как зависимую переменную. Модели семьи 1 «объясняют» Y через X ,

{\ Displaystyle е (у \ середина х; \ тета)}

,

тогда как в семействе 0 предполагается , что X и Y независимы. Мы определяем случайность Y как ${\ Displaystyle D (Y) = \ ехр [-2F (\ theta _ {0})]}$ , а случайность Y , заданного X , на ${\ Displaystyle D (Y \ середина X) = \ ехр [-2F (\ theta _ {1})]}$ . Потом,

{\ Displaystyle \ rho _ {C} ^ {2} = 1-D (Y \ mid X) / D (Y)}

можно интерпретировать как долю дисперсии данных , которая является «объяснено» с помощью X .

Частные случаи и обобщенное использование

Линейная регрессия

Доля необъяснимой дисперсии - это устоявшееся понятие в контексте линейной регрессии . Обычное определение коэффициента детерминации основано на фундаментальной концепции объясненной дисперсии.

Коэффициент корреляции как мера объясненной дисперсии

Пусть X - случайный вектор, а Y - случайная величина, которая моделируется нормальным распределением с центром ${\ Displaystyle \ му = \ пси ^ {\ textrm {T}} X}$ . В этом случае полученная выше доля объясненной вариации ${\ displaystyle \ rho _ {C} ^ {2}}$ равен квадрату коэффициента корреляции ${\ displaystyle R ^ {2}}$ .

Обратите внимание на сильные допущения модели: центр Y распределения должна быть линейной функцией от X , и для любых заданных х , то Y распределение должно быть нормальным. В других ситуациях толкование ${\ displaystyle R ^ {2}}$ как доля объясненной дисперсии.

В анализе главных компонент

Объясненная дисперсия обычно используется в анализе главных компонентов . Связь с получением информации Фрейзером – Кентом еще предстоит выяснить.

Критика

Поскольку доля «объясненной дисперсии» равна квадрату коэффициента корреляции ${\ displaystyle R ^ {2}}$ , он разделяет все недостатки последнего: он отражает не только качество регрессии, но и распределение независимых (обусловливающих) переменных.

По словам одного критика: «Таким образом, ${\ displaystyle R ^ {2}}$ дает «процент дисперсии, объясняемой» регрессией, выражение, которое для большинства социологов имеет сомнительный смысл, но имеет большую риторическую ценность. Если это число велико, регрессия дает хорошее соответствие, и нет смысла искать дополнительные переменные. Другие уравнения регрессии для разных наборов данных считаются менее удовлетворительными или менее эффективными, если их ${\ displaystyle R ^ {2}}$ ниже. Ничего о ${\ displaystyle R ^ {2}}$ подтверждает эти утверждения ». ^[3]^{: 58} И, построив пример, где ${\ displaystyle R ^ {2}}$ усиливается просто за счет совместного рассмотрения данных из двух разных популяций: «Объясненная дисперсия ничего не объясняет». ^[3]^{[ необходима страница ]}^[4]^{: 183}

Смотрите также

Внешние ссылки

Объясненная и необъяснимая дисперсия на графике

[1] Перейти ↑ Kent, JT (1983). «Получение информации и общая мера корреляции». Биометрика . 70 (1): 163–173. DOI : 10.1093 / Biomet / 70.1.163 . JSTOR 2335954 .

[2] Фрейзер, DAS (1965). «Об информации в статистике» . Аня. Математика. Статист . 36 (3): 890–896. DOI : 10.1214 / АОМ / 1177700061 .

[Achen_1982-3] а ^б Ахен, СН (1982). Интерпретация и использование регрессии . Беверли-Хиллз: Сейдж. С. 58–59. ISBN 0-8039-1915-8.

[4] Ахен, СН (1990). « " Что такое „Разъяснение Дисперсия“ Объяснить ?: Ответить». Политический анализ . 2 (1): 173–184. DOI : 10,1093 / панорамирование / 2.1.173 .

[1],