Смещение пропущенной переменной

В статистике , смещение опущено переменное ( OVB ) происходит , когда статистическая модель уходит из одного или более соответствующих переменных. Смещение приводит к тому, что модель объясняет влияние отсутствующих переменных на те, которые были включены.

Более конкретно, OVB - это систематическая ошибка, которая появляется в оценках параметров в регрессионном анализе , когда предполагаемая спецификация неверна в том смысле, что она пропускает независимую переменную, которая является детерминантом зависимой переменной и коррелирует с одним или более включенных независимых переменные.

В линейной регрессии

Интуиция

Предположим, истинная причинно-следственная связь задается:

{\ displaystyle y = a + bx + cz + u}

с параметрами a, b, c , зависимой переменной y , независимыми переменными x и z и членом ошибки u . Мы хотим знать влияние самого x на y (то есть мы хотим получить оценку b ).

Для существования смещения пропущенной переменной в линейной регрессии должны выполняться два условия :

пропущенная переменная должна быть определителем зависимой переменной (т. е. ее истинный коэффициент регрессии не должен быть нулевым); а также
пропущенная переменная должна быть коррелирована с независимой переменной, указанной в регрессии (т. е. cov ( z , x ) не должно равняться нулю).

Предположим, что мы опускаем z из регрессии, и предположим, что связь между x и z задается формулой

{\ displaystyle z = d + fx + e}

с параметрами d , f и членом ошибки e . Подставляя второе уравнение в первое, получаем

{\ displaystyle y = (a + cd) + (b + cf) x + (u + ce).}

Если регрессия y проводится только по x , это последнее уравнение является оценкой, а коэффициент регрессии по x фактически является оценкой ( b + cf ), а не просто оценкой желаемого прямого воздействия x на y. (что есть b ), а скорее его сумма с косвенным эффектом (эффект f от x на z умножается на эффект c от z на y ). Таким образом, исключив переменную г из регрессии, мы оценили полную производные от у по отношению к й , а не ее частной производной по отношению к й . Они различаются, если и c, и f не равны нулю.

Направление и степень смещения оба содержатся в ср , так как эффект запрошенной б но оценки регрессии Ь + ср . Степень смещения - это абсолютное значение cf , а направление смещения - вверх (в сторону более положительного или менее отрицательного значения), если cf > 0 (если направление корреляции между y и z такое же, как и между x и z ), в противном случае - вниз.

Детальный анализ

В качестве примера рассмотрим линейную модель вида

{\ displaystyle y_ {i} = x_ {i} \ beta + z_ {i} \ delta + u_ {i}, \ qquad i = 1, \ dots, n}

где

x _i - вектор-строка 1 × p значений p независимых переменных, наблюдаемых в момент времени i или для i- ^го участника исследования;
β - вектор-столбец p × 1 ненаблюдаемых параметров (коэффициентов отклика зависимой переменной на каждую из p независимых переменных в x _i ), подлежащих оценке;
z _i - скаляр и значение другой независимой переменной, которая наблюдается в момент времени i или для i- ^го участника исследования;
δ - скаляр и ненаблюдаемый параметр (коэффициент отклика зависимой переменной на z _i ), подлежащий оценке;
u _i - ненаблюдаемая ошибка, возникающая в момент времени i или для i- ^го участника исследования; это ненаблюдаемая реализация случайной величины, имеющей ожидаемое значение 0 (условно от x _i и z _i );
y _i - наблюдение зависимой переменной в момент времени i или для i- ^го участника исследования.

Мы собираем наблюдения всех переменных с индексами i = 1, ..., n и складываем их друг под другом, чтобы получить матрицу X и векторы Y , Z и U :

{\ displaystyle X = \ left [{\ begin {array} {c} x_ {1} \\\ vdots \\ x_ {n} \ end {array}} \ right] \ in \ mathbb {R} ^ {n \ times p},}

а также

{\ displaystyle Y = \ left [{\ begin {array} {c} y_ {1} \\\ vdots \\ y_ {n} \ end {array}} \ right], \ quad Z = \ left [{\ begin {array} {c} z_ {1} \\\ vdots \\ z_ {n} \ end {array}} \ right], \ quad U = \ left [{\ begin {array} {c} u_ {1 } \\\ vdots \\ u_ {n} \ end {array}} \ right] \ in \ mathbb {R} ^ {n \ times 1}.}

Если независимая переменная z исключена из регрессии, то оценочные значения параметров отклика других независимых переменных будут даны обычным вычислением методом наименьших квадратов ,

{\ displaystyle {\ widehat {\ beta}} = (X'X) ^ {- 1} X'Y \,}

(где «простое» обозначение означает транспонирование матрицы, а верхний индекс -1 означает инверсию матрицы ).

Подставляя Y на основе предполагаемой линейной модели,

{\ displaystyle {\ begin {align} {\ widehat {\ beta}} & = (X'X) ^ {- 1} X '(X \ beta + Z \ delta + U) \\ & = (X'X ) ^ {- 1} X'X \ beta + (X'X) ^ {- 1} X'Z \ delta + (X'X) ^ {- 1} X'U \\ & = \ beta + (X 'X) ^ {- 1} X'Z \ delta + (X'X) ^ {- 1} X'U. \ End {align}}}

Принимая во внимание ожидания, вклад последнего члена равен нулю; это следует из того , что U является коррелируют с регрессоров X . Об упрощении остальных терминов:

{\ displaystyle {\ begin {align} E [{\ widehat {\ beta}} \ mid X] & = \ beta + (X'X) ^ {- 1} E [X'Z \ mid X] \ delta \ \ & = \ beta + {\ text {bias}}. \ end {align}}}

Второй член после знака равенства - это смещение пропущенной переменной в этом случае, которое не равно нулю, если пропущенная переменная z коррелирует с любой из включенных переменных в матрице X (то есть, если X′Z не равно вектор нулей). Обратите внимание, что смещение равно взвешенной части z _i, которая «объясняется» x _i .

Эффект методом наименьших квадратов

Теорема Гаусса – Маркова утверждает, что модели регрессии, которые удовлетворяют предположениям классической модели линейной регрессии, обеспечивают наиболее эффективные , линейные и несмещенные оценки. В обычном методе наименьших квадратов соответствующее предположение классической модели линейной регрессии состоит в том, что член ошибки не коррелирует с регрессорами.

Наличие смещения пропущенной переменной нарушает это конкретное предположение. Нарушение приводит к смещению и непоследовательности оценки OLS . Направление смещения зависит от оценок, а также от ковариации между регрессорами и пропущенными переменными. Положительная ковариация пропущенной переменной как с регрессором, так и с зависимой переменной приведет к тому, что МНК-оценка коэффициента включенного регрессора будет больше истинного значения этого коэффициента. Этот эффект можно увидеть, приняв математическое ожидание параметра, как показано в предыдущем разделе.

Смотрите также

Смущающая переменная