В статистике , объясненной вариации измеряет долю , в которой математическая модель учитывает вариации ( дисперсии ) данного набора данных. Часто вариацию количественно оценивают как дисперсию ; затем можно использовать более конкретный термин « объясненная дисперсия» .
Дополнительная часть общей вариации называется необъяснимой или остаточной вариацией.
Определение с точки зрения получения информации
Получение информации за счет лучшего моделирования
Следуя Кенту (1983), [1], мы используем информацию Фрейзера (Fraser 1965) [2]
где - плотность вероятности случайной величины , а также с участием () представляют собой два семейства параметрических моделей. Семейство моделей 0 является более простым с ограниченным пространством параметров.
Параметры определяются методом максимального правдоподобия ,
Информационный выигрыш модели 1 по сравнению с моделью 0 записывается как
где для удобства включен коэффициент 2. Γ всегда неотрицательно; он измеряет степень, в которой лучшая модель семьи 1 лучше, чем лучшая модель семьи 0 в объяснении g ( r ).
Получение информации с помощью условной модели
Предположим двумерную случайную величину где X следует рассматривать как объясняющую переменную, а Y как зависимую переменную. Модели семьи 1 «объясняют» Y через X ,
- ,
тогда как в семействе 0 предполагается , что X и Y независимы. Мы определяем случайность Y как, а случайность Y , заданного X , на. Потом,
можно интерпретировать как долю дисперсии данных , которая является «объяснено» с помощью X .
Частные случаи и обобщенное использование
Линейная регрессия
Доля необъяснимой дисперсии - это устоявшееся понятие в контексте линейной регрессии . Обычное определение коэффициента детерминации основано на фундаментальной концепции объясненной дисперсии.
Коэффициент корреляции как мера объясненной дисперсии
Пусть X - случайный вектор, а Y - случайная величина, которая моделируется нормальным распределением с центром. В этом случае полученная выше доля объясненной вариацииравен квадрату коэффициента корреляции .
Обратите внимание на сильные допущения модели: центр Y распределения должна быть линейной функцией от X , и для любых заданных х , то Y распределение должно быть нормальным. В других ситуациях толкование как доля объясненной дисперсии.
В анализе главных компонент
Объясненная дисперсия обычно используется в анализе главных компонентов . Связь с получением информации Фрейзером – Кентом еще предстоит выяснить.
Критика
Поскольку доля «объясненной дисперсии» равна квадрату коэффициента корреляции , он разделяет все недостатки последнего: он отражает не только качество регрессии, но и распределение независимых (обусловливающих) переменных.
По словам одного критика: «Таким образом, дает «процент дисперсии, объясняемой» регрессией, выражение, которое для большинства социологов имеет сомнительный смысл, но имеет большую риторическую ценность. Если это число велико, регрессия дает хорошее соответствие, и нет смысла искать дополнительные переменные. Другие уравнения регрессии для разных наборов данных считаются менее удовлетворительными или менее эффективными, если ихниже. Ничего оподтверждает эти утверждения ». [3] : 58 И, построив пример, гдеусиливается просто за счет совместного рассмотрения данных из двух разных популяций: «Объясненная дисперсия ничего не объясняет». [3] [ необходима страница ] [4] : 183
Смотрите также
Рекомендации
- Перейти ↑ Kent, JT (1983). «Получение информации и общая мера корреляции». Биометрика . 70 (1): 163–173. DOI : 10.1093 / Biomet / 70.1.163 . JSTOR 2335954 .
- ^ Фрейзер, DAS (1965). «Об информации в статистике» . Аня. Математика. Статист . 36 (3): 890–896. DOI : 10.1214 / АОМ / 1177700061 .
- ^ а б Ахен, СН (1982). Интерпретация и использование регрессии . Беверли-Хиллз: Сейдж. С. 58–59. ISBN 0-8039-1915-8.
- ^ Ахен, СН (1990). « " Что такое „Разъяснение Дисперсия“ Объяснить ?: Ответить». Политический анализ . 2 (1): 173–184. DOI : 10,1093 / панорамирование / 2.1.173 .