В статистике , смещение опущено переменное ( OVB ) происходит , когда статистическая модель уходит из одного или более соответствующих переменных. Смещение приводит к тому, что модель объясняет влияние отсутствующих переменных на те, которые были включены.
Более конкретно, OVB - это систематическая ошибка, которая появляется в оценках параметров в регрессионном анализе , когда предполагаемая спецификация неверна в том смысле, что она пропускает независимую переменную, которая является детерминантом зависимой переменной и коррелирует с одним или более включенных независимых переменные.
В линейной регрессии
Интуиция
Предположим, истинная причинно-следственная связь задается:
с параметрами a, b, c , зависимой переменной y , независимыми переменными x и z и членом ошибки u . Мы хотим знать влияние самого x на y (то есть мы хотим получить оценку b ).
Для существования смещения пропущенной переменной в линейной регрессии должны выполняться два условия :
- пропущенная переменная должна быть определителем зависимой переменной (т. е. ее истинный коэффициент регрессии не должен быть нулевым); а также
- пропущенная переменная должна быть коррелирована с независимой переменной, указанной в регрессии (т. е. cov ( z , x ) не должно равняться нулю).
Предположим, что мы опускаем z из регрессии, и предположим, что связь между x и z задается формулой
с параметрами d , f и членом ошибки e . Подставляя второе уравнение в первое, получаем
Если регрессия y проводится только по x , это последнее уравнение является оценкой, а коэффициент регрессии по x фактически является оценкой ( b + cf ), а не просто оценкой желаемого прямого воздействия x на y. (что есть b ), а скорее его сумма с косвенным эффектом (эффект f от x на z умножается на эффект c от z на y ). Таким образом, исключив переменную г из регрессии, мы оценили полную производные от у по отношению к й , а не ее частной производной по отношению к й . Они различаются, если и c, и f не равны нулю.
Направление и степень смещения оба содержатся в ср , так как эффект запрошенной б но оценки регрессии Ь + ср . Степень смещения - это абсолютное значение cf , а направление смещения - вверх (в сторону более положительного или менее отрицательного значения), если cf > 0 (если направление корреляции между y и z такое же, как и между x и z ), в противном случае - вниз.
Детальный анализ
В качестве примера рассмотрим линейную модель вида
где
- x i - вектор-строка 1 × p значений p независимых переменных, наблюдаемых в момент времени i или для i- го участника исследования;
- β - вектор-столбец p × 1 ненаблюдаемых параметров (коэффициентов отклика зависимой переменной на каждую из p независимых переменных в x i ), подлежащих оценке;
- z i - скаляр и значение другой независимой переменной, которая наблюдается в момент времени i или для i- го участника исследования;
- δ - скаляр и ненаблюдаемый параметр (коэффициент отклика зависимой переменной на z i ), подлежащий оценке;
- u i - ненаблюдаемая ошибка, возникающая в момент времени i или для i- го участника исследования; это ненаблюдаемая реализация случайной величины, имеющей ожидаемое значение 0 (условно от x i и z i );
- y i - наблюдение зависимой переменной в момент времени i или для i- го участника исследования.
Мы собираем наблюдения всех переменных с индексами i = 1, ..., n и складываем их друг под другом, чтобы получить матрицу X и векторы Y , Z и U :
а также
Если независимая переменная z исключена из регрессии, то оценочные значения параметров отклика других независимых переменных будут даны обычным вычислением методом наименьших квадратов ,
(где «простое» обозначение означает транспонирование матрицы, а верхний индекс -1 означает инверсию матрицы ).
Подставляя Y на основе предполагаемой линейной модели,
Принимая во внимание ожидания, вклад последнего члена равен нулю; это следует из того , что U является коррелируют с регрессоров X . Об упрощении остальных терминов:
Второй член после знака равенства - это смещение пропущенной переменной в этом случае, которое не равно нулю, если пропущенная переменная z коррелирует с любой из включенных переменных в матрице X (то есть, если X′Z не равно вектор нулей). Обратите внимание, что смещение равно взвешенной части z i, которая «объясняется» x i .
Эффект методом наименьших квадратов
Теорема Гаусса – Маркова утверждает, что модели регрессии, которые удовлетворяют предположениям классической модели линейной регрессии, обеспечивают наиболее эффективные , линейные и несмещенные оценки. В обычном методе наименьших квадратов соответствующее предположение классической модели линейной регрессии состоит в том, что член ошибки не коррелирует с регрессорами.
Наличие смещения пропущенной переменной нарушает это конкретное предположение. Нарушение приводит к смещению и непоследовательности оценки OLS . Направление смещения зависит от оценок, а также от ковариации между регрессорами и пропущенными переменными. Положительная ковариация пропущенной переменной как с регрессором, так и с зависимой переменной приведет к тому, что МНК-оценка коэффициента включенного регрессора будет больше истинного значения этого коэффициента. Этот эффект можно увидеть, приняв математическое ожидание параметра, как показано в предыдущем разделе.
Смотрите также
Рекомендации
- Баррето; Хауленд (2006). «Пропущенная переменная погрешность» . Вводная эконометрика: использование моделирования Монте-Карло в Microsoft Excel . Издательство Кембриджского университета.
- Кларк, Кевин А. (2005). «Призрачная угроза: пропущенные переменные предубеждения в эконометрических исследованиях». Управление конфликтами и наука о мире . 22 (4): 341–352. DOI : 10.1080 / 07388940500339183 .
- Грин, WH (1993). Эконометрический анализ (2-е изд.). Макмиллан. С. 245–246.
- Вулдридж, Джеффри М. (2009). «Пропущенная переменная предвзятость: простой случай». Вводная эконометрика: современный подход . Мейсон, Огайо: Cengage Learning. С. 89–93. ISBN 9780324660548.