Гетероскедастичность

В статистике вектор случайных величин является гетероскедастическим (или гетероскедастическим ; ^[а] от древнегреческого гетеро «разный» и скедасис «дисперсия»), если изменчивость случайного возмущения различается по элементам вектора. Здесь изменчивость может быть определена количественно дисперсией или любой другой мерой статистической дисперсии . Таким образом, гетероскедастичность - это отсутствие гомоскедастичности . Типичный пример - совокупность наблюдений за доходами в разных городах.

График со случайными данными, показывающий гетероскедастичность

Существование гетероскедастичности является серьезной проблемой в регрессионном анализе и дисперсионном анализе , поскольку это делает недействительными статистические тесты значимости , предполагающие, что все ошибки моделирования имеют одинаковую дисперсию. Хотя обычная оценка методом наименьших квадратов все еще несмещена при наличии гетероскедастичности, она неэффективна и вместо нее следует использовать обобщенные методы наименьших квадратов . ^[5]^[6]

Поскольку гетероскедастичность касается ожиданий второго момента ошибок, ее наличие упоминается как неправильная спецификация второго порядка. ^[7]

Эконометрист Роберт Энгл выиграл 2003 премию по экономике памяти Нобеля за исследования регрессионного анализа в присутствии гетероскедастичности, что привело к его формулировке авторегрессии условной гетероскедастичности (ARCH) метод моделирования. ^[8]

Определение

Рассмотрим уравнение регрессии ${\ Displaystyle у_ {я} = х_ {я} \ бета + \ эпсилон _ {я}, \ я = 1, \ ldots, N,}$ где зависимая случайная величина ${\ displaystyle y_ {i}}$ равно детерминированной переменной ${\ displaystyle x_ {i}}$ умноженный на коэффициент ${\ displaystyle \ beta}$ плюс случайное возмущение ${\ displaystyle \ epsilon _ {я}}$ что имеет нулевое среднее значение. Нарушения гомоскедастичны, если дисперсия ${\ displaystyle \ epsilon _ {я}}$ это константа ${\ displaystyle \ sigma ^ {2}}$ ; в противном случае они гетероскедастичны. В частности, нарушения гетероскедастичны, если дисперсия ${\ displaystyle \ epsilon _ {я}}$ зависит от i или от значения ${\ displaystyle x_ {i}}$ . Они могут быть гетероскедастичными, если ${\ Displaystyle \ сигма _ {я} ^ {2} = х_ {я} \ сигма ^ {2}}$ (пример скедастической функции ), поэтому дисперсия пропорциональна значению x.

В более общем смысле, если ковариационная матрица возмущения ${\ displaystyle \ epsilon _ {я}}$ поперек i имеет непостоянную диагональ, возмущение гетероскедастично. ^[9] Приведенные ниже матрицы являются ковариациями, когда есть всего три наблюдения во времени. Возмущение в матрице A гомоскедастично; это простой случай, когда OLS - лучшая линейная несмещенная оценка. Возмущения в матрицах B и C гетероскедастичны. В матрице B дисперсия изменяется во времени, неуклонно увеличиваясь во времени; в матрице C дисперсия зависит от значения x. Нарушение в матрице D гомоскедастично, потому что диагональные дисперсии постоянны, даже если недиагональные ковариации не равны нулю, а метод наименьших квадратов неэффективен по другой причине: последовательная корреляция.

{\ displaystyle {\ begin {align} A & = \ sigma ^ {2} {\ begin {bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \\\ end {bmatrix}} & B & = \ sigma ^ {2} {\ begin { bmatrix} 1 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 3 \\\ end {bmatrix}} & C & = \ sigma ^ {2} {\ begin {bmatrix} x_ {1} & 0 & 0 \\ 0 & x_ {2} & 0 \\ 0 & 0 & x_ {3} \ \\ end {bmatrix}} & D & = \ sigma ^ {2} {\ begin {bmatrix} 1 & \ rho & \ rho ^ {2} \\\ rho & 1 & \ rho \\\ rho ^ {2} & \ rho & 1 \\\ конец {bmatrix}} \ конец {выровненный}}}

Последствия

Одно из предположений классической модели линейной регрессии - отсутствие гетероскедастичности. Нарушение этого предположения означает, что теорема Гаусса – Маркова неприменима, а это означает, что OLS- оценки не являются лучшими линейными несмещенными оценками (BLUE), и их дисперсия не является самой низкой из всех других несмещенных оценок. Гетероскедастичность не вызывает смещения обычных оценок коэффициентов методом наименьших квадратов, хотя может вызывать смещение обычных оценок дисперсии (и, следовательно, стандартных ошибок) коэффициентов методом наименьших квадратов, возможно, выше или ниже истинного значения дисперсии совокупности. Таким образом, регрессионный анализ с использованием гетероскедастических данных по-прежнему будет обеспечивать беспристрастную оценку взаимосвязи между переменной-предиктором и результатом, но стандартные ошибки и, следовательно, выводы, полученные на основе анализа данных, вызывают подозрение. Предвзятые стандартные ошибки приводят к необъективным выводам, поэтому результаты проверки гипотез могут быть неверными. Например, если OLS выполняется на гетероскедастическом наборе данных, что дает предвзятую оценку стандартной ошибки, исследователь может не отклонить нулевую гипотезу на заданном уровне значимости , когда эта нулевая гипотеза на самом деле нехарактерна для реальной популяции (что делает тип II ошибка ).

При определенных предположениях оценщик OLS имеет нормальное асимптотическое распределение при правильной нормализации и центрировании (даже если данные не получены из нормального распределения ). Этот результат используется для обоснования с использованием нормального распределения или распределения хи-квадрат (в зависимости от того, как рассчитывается статистика теста ) при проведении проверки гипотезы . Это справедливо даже при гетероскедастичности. Точнее, оценка МНК при наличии гетероскедастичности является асимптотически нормальной при правильной нормировке и центрировании с матрицей ковариации дисперсии, которая отличается от случая гомоскедастичности. В 1980 году Уайт предложил последовательную оценку для ковариационно-дисперсионной матрицы асимптотического распределения оценки МНК. ^[3] Это подтверждает использование проверки гипотез с использованием оценок МНК и оценки дисперсии-ковариации Уайта при гетероскедастичности.

Гетероскедастичность также является важной практической проблемой, возникающей в задачах ANOVA . ^[10] F тест еще может быть использован в некоторых обстоятельствах. ^[11]

Однако было сказано, что изучающие эконометрику не должны слишком остро реагировать на гетероскедастичность. ^[4] Один автор написал: «Неравномерная дисперсия ошибок заслуживает исправления только тогда, когда проблема серьезна». ^[12] Кроме того, еще одно предостережение было в форме: «гетероскедастичность никогда не была причиной для отказа от хорошей модели». ^[4]^[13] С появлением стандартных ошибок, согласующихся с гетероскедастичностью, позволяющих делать выводы без указания условного второго момента ошибки, проверка условной гомоскедастичности стала не такой важной, как в прошлом. ^{[ необходима цитата ]}

Однако для любой нелинейной модели (например, моделей Logit и Probit ) гетероскедастичность имеет более серьезные последствия: оценки максимального правдоподобия (MLE) параметров будут смещены, а также непоследовательны (если функция правдоподобия не будет правильно изменена на учитывать точную форму гетероскедастичности). ^[14] Тем не менее, в контексте моделей бинарного выбора ( Logit или Probit ) гетероскедастичность приведет только к положительному эффекту масштабирования на асимптотическое среднее значение неправильно заданной MLE (т.е. модели, игнорирующей гетероскедастичность). ^[15] В результате прогнозы, основанные на неверно заданном MLE, останутся верными. Кроме того, неправильно указанные Probit и Logit MLE будут асимптотически нормально распределены, что позволяет выполнять обычные тесты значимости (с соответствующей матрицей дисперсии-ковариации). Однако, что касается проверки общей гипотезы, как указал Грин , «простое вычисление устойчивой ковариационной матрицы для несовместимой в других отношениях оценки не дает ей оправдания. Следовательно, достоинства надежной ковариационной матрицы в этом случае неясны ». ^[16]

Обнаружение

Абсолютное значение остатков для смоделированных гетероскедастических данных первого порядка

Существует несколько методов проверки наличия гетероскедастичности. Хотя тесты на гетероскедастичность между группами формально можно рассматривать как частный случай тестирования в рамках регрессионных моделей, некоторые тесты имеют структуру, специфичную для этого случая.

Тесты в регрессии

Тест Левена
Тест Гольдфельда – Квандта
Парковый тест ^[17]
Тест Глейзера ^[18]^[19]
Тест Брауна – Форсайта
Тест Харрисона – Маккейба
Тест Бреуша – Пагана
Белый тест ^[3]
Тест Кука – Вайсберга

Тесты для сгруппированных данных

F-тест равенства дисперсий
C-тест Кохрана
Тест Хартли

Эти тесты состоят из тестовой статистики (математическое выражение, дающее числовое значение в зависимости от данных), гипотезы, которая будет проверяться ( нулевая гипотеза ), альтернативной гипотезы и утверждения о распределении статистики по нулевая гипотеза.

Во многих вводных книгах по статистике и эконометрике из педагогических соображений эти тесты представлены в предположении, что имеющиеся данные происходят из нормального распределения. Большое заблуждение заключается в том, что это предположение необходимо. Большинство описанных выше методов обнаружения гетероскедастичности можно модифицировать для использования, даже если данные получены не из нормального распределения. Во многих случаях это предположение может быть ослаблено, давая тестовую процедуру, основанную на той же или аналогичной тестовой статистике, но с распределением при нулевой гипотезе, оцениваемым альтернативными способами: например, с использованием асимптотических распределений, которые могут быть получены из асимптотической теории , ^{[ необходима цитата ]} или с помощью повторной выборки .

Исправления

Есть четыре распространенных поправки на гетероскедастичность. Они есть:

Просмотр логарифмированных данных. Нелогарифмированные ряды, которые растут экспоненциально, часто имеют увеличивающуюся изменчивость по мере того, как ряды растут с течением времени. Однако вариация в процентном отношении может быть довольно стабильной.
Используйте другую спецификацию для модели (другие переменные X или, возможно, нелинейные преобразования переменных X ).
Применение взвешенных наименьших квадратов метод оценки, в котором МНК применяется к трансформированным или взвешенных значений X и Y . Веса варьируются в зависимости от наблюдений, обычно в зависимости от изменяющейся дисперсии ошибок. В одном варианте веса напрямую связаны с величиной зависимой переменной, и это соответствует процентной регрессии наименьших квадратов. ^[20]
Стандартные ошибки, согласованные с гетероскедастичностью (HCSE), хотя и смещены, но улучшают оценки OLS. ^[3] HCSE - это последовательная оценка стандартных ошибок в моделях регрессии с гетероскедастичностью. Этот метод корректирует гетероскедастичность без изменения значений коэффициентов. Этот метод может быть лучше обычного OLS, потому что, если присутствует гетероскедастичность, он исправляет ее, однако, если данные гомоскедастичны, стандартные ошибки эквивалентны обычным стандартным ошибкам, оцененным с помощью OLS. Несколько модификаций метода Уайта для вычисления стандартных ошибок, согласующихся с гетероскедастичностью, были предложены как поправки с превосходными свойствами конечной выборки.
Используйте MINQUE или даже обычные оценки ${\ textstyle s_ {i} ^ {2} = (n_ {i} -1) ^ {- 1} \ sum _ {j} \ left (y_ {ij} - {\ bar {y}} _ {i} \ right) ^ {2}}$ (для ${\ Displaystyle я = 1,2, ..., к}$ независимые образцы с ${\ displaystyle j = 1,2, ..., n_ {i}}$ каждое наблюдение), потери эффективности которых не существенны при большом количестве наблюдений на выборку ( ${\ displaystyle n_ {i}> 5}$ ), особенно для небольшого количества независимых выборок. ^[21]

Примеры

Гетероскедастичность часто возникает, когда наблюдается большая разница в размерах наблюдений.

Классический пример гетероскедастичности - это соотношение доходов и расходов на питание. По мере увеличения дохода увеличивается и разнообразие потребления пищи. Более бедный человек будет тратить довольно постоянную сумму, всегда потребляя недорогую еду; более обеспеченный человек может иногда покупать недорогую еду, а иногда есть дорогую еду. Люди с более высокими доходами демонстрируют большую изменчивость в потреблении пищи.
Представьте, что вы наблюдаете, как поблизости взлетает ракета, и каждую секунду измеряете пройденное ею расстояние. Скажем, в первые пару секунд ваши измерения могут быть точными до ближайшего сантиметра. Однако через 5 минут, когда ракета удаляется в космос, точность ваших измерений может быть хорошей только до 100 м из-за увеличенного расстояния, атмосферных искажений и множества других факторов. Собранные вами данные будут демонстрировать гетероскедастичность.

Многомерный случай

Исследование гетероскедастичности было обобщено на многомерный случай, в котором рассматриваются ковариации векторных наблюдений, а не дисперсия скалярных наблюдений. Одним из вариантов этого является использование ковариационных матриц в качестве многомерной меры дисперсии. Несколько авторов рассматривали тесты в этом контексте как для ситуаций регрессии, так и для ситуаций с сгруппированными данными. ^[22]^[23] Тест Бартлетта на гетероскедастичность между сгруппированными данными, который чаще всего используется в одномерном случае, также был расширен для многомерного случая, но послушное решение существует только для двух групп. ^[24] Аппроксимации существуют более чем для двух групп, и обе они называются М-тестом Бокса .

Заметки

^ Написания хомос к edasticity и heteros к edasticity также часто используется. Карл Пирсон впервые использовал это слово в 1905 году снаписанием c . ^[1] Дж. Хьюстон Маккалок утверждал, что в середине слова должна быть буква «k», а не «c». Его аргумент состоял в том, что это слово было образовано в английском языке непосредственно из греческих корней, а не пришло в английский язык косвенно через французский язык. ^[2] В то время как влиятельная 1980 статья Halbert Уайт использовала орфографическую гетероскедастичности , написание гетероскедастичность является более распространенной. Оба приемлемы. ^[3]^[4]

дальнейшее чтение

Большинство учебников по статистике будут включать по крайней мере некоторые материалы по гетероскедастичности. Вот несколько примеров:

Астериу, Димитрос; Холл, Стивен Г. (2011). Прикладная эконометрика (второе изд.). Пэлгрейв Макмиллан. С. 109–147. ISBN 978-0-230-27182-1.
Дэвидсон, Рассел; Маккиннон, Джеймс Г. (1993). Оценка и вывод в эконометрике . Нью-Йорк: Издательство Оксфордского университета. С. 547–582. ISBN 978-0-19-506011-9.
Догерти, Кристофер (2011). Введение в эконометрику . Нью-Йорк: Издательство Оксфордского университета. С. 280–299. ISBN 978-0-19-956708-9.
Гуджарати, Дамодар Н .; Портер, Дон С. (2009). Основы эконометрики (Пятое изд.). Нью-Йорк: Макгроу-Хилл Ирвин. С. 365–411. ISBN 978-0-07-337577-9.
Кмента, Ян (1986). Элементы эконометрики (второе изд.). Нью-Йорк: Макмиллан. стр. 269 -298. ISBN 978-0-02-365070-3.
Маддала, GS ; Лахири, Каджал (2009). Введение в эконометрику (Четвертое изд.). Нью-Йорк: Вили. С. 211–238. ISBN 978-0-470-01512-4.

Внешние ссылки

Эконометрика лекции (тема: гетероскедастичности) на YouTube с помощью Mark Thoma

[Note_a-5] Написания хомос к edasticity и heteros к edasticity также часто используется. Карл Пирсон впервые использовал это слово в 1905 году снаписанием c . ^[1] Дж. Хьюстон Маккалок утверждал, что в середине слова должна быть буква «k», а не «c». Его аргумент состоял в том, что это слово было образовано в английском языке непосредственно из греческих корней, а не пришло в английский язык косвенно через французский язык. ^[2] В то время как влиятельная 1980 статья Halbert Уайт использовала орфографическую гетероскедастичности , написание гетероскедастичность является более распространенной. Оба приемлемы. ^[3]^[4]

[1] Пирсон, Карл (1905). «Математические вклады в теорию эволюции. XIV. Об общей теории косой корреляции и нелинейной регрессии». Мемуары исследования компании Дрейпера: биометрическая серия . II .

[2] McCulloch ", J. Huston (март 1985 г.)." Miscellanea: On Heteros * edasticity ". Econometrica . 53 (2): 483. JSTOR 1911250.

[White-3] а б в г Белый, Халберт (1980). «Средство оценки ковариационной матрицы с согласованной гетероскедастичностью и прямой тест на гетероскедастичность». Econometrica . 48 (4): 817–838. CiteSeerX 10.1.1.11.7646 . DOI : 10.2307 / 1912934 . JSTOR 1912934 .

[Gujarati-4] а б в Гуджарати, DN; Портер, округ Колумбия (2009). Основы эконометрики (Пятое изд.). Бостон: Макгроу-Хилл Ирвин. п. 400. ISBN 9780073375779.

[6] Гольдбергер, Артур С. (1964). Эконометрическая теория . Нью-Йорк: Джон Вили и сыновья. С. 238–243 .

[7] Джонстон, Дж. (1972). Эконометрические методы . Нью-Йорк: Макгроу-Хилл. С. 214–221.

[8] Лонг, Дж. Скотт ; Триведи, Правин К. (1993). «Некоторые тесты спецификации для модели линейной регрессии». В Bollen, Kenneth A .; Лонг, Дж. Скотт (ред.). Тестирование моделей структурных уравнений . Лондон: Мудрец. С. 66–110. ISBN 978-0-8039-4506-7.

[9] Энгл, Роберт Ф. (июль 1982 г.). «Авторегрессионная условная гетероскедастичность с оценками дисперсии инфляции Соединенного Королевства». Econometrica . 50 (4): 987–1007. DOI : 10.2307 / 1912773 . ISSN 0012-9682 . JSTOR 1912773 .

[10] Питер Кеннеди, Руководство по эконометрике , 5-е издание, стр. 137.

[11] Джинадаса, Гамаге; Вираханди, Сэм (1998). «Размерное исполнение некоторых тестов в односторонней аниовке». Коммуникации в статистике - моделирование и вычисления . 27 (3): 625. DOI : 10,1080 / 03610919808813500 .

[12] Батке, А (2004). «Тест ANOVA F все еще может использоваться в некоторых сбалансированных планах с неравными дисперсиями и ненормальными данными». Журнал статистического планирования и вывода . 126 (2): 413–422. DOI : 10.1016 / j.jspi.2003.09.010 .

[13] Фокс, Дж. (1997). Прикладной регрессионный анализ, линейные модели и родственные методы . Калифорния: Sage Publications. п. 306. (Цитировано по Гуджарати и др., 2009 г., стр. 400)

[14] Мэнкью, Н.Г. (1990). «Краткий курс повышения квалификации по макроэкономике» . Журнал экономической литературы . 28 (4): 1645–1660 [стр. 1648]. DOI : 10,3386 / w3256 . JSTOR 2727441 .

[15] Джайлз, Дэйв (8 мая 2013 г.). «Робастные стандартные ошибки для нелинейных моделей» . Эконометрика Beat .

[16] Гинкер, Т .; Либерман, О. (2017). «Устойчивость моделей бинарного выбора к условной гетероскедастичности». Письма по экономике . 150 : 130–134. DOI : 10.1016 / j.econlet.2016.11.024 .

[17] Грин, Уильям Х. (2012). «Оценка и вывод в моделях двоичного выбора» . Эконометрический анализ (седьмое изд.). Бостон: образование Пирсона. стр. 730–755 [стр. 733]. ISBN 978-0-273-75356-8.

[18] RE Park (1966). «Оценка с гетероскедастическими ошибками». Econometrica . 34 (4): 888. DOI : 10,2307 / 1910108 . JSTOR 1910108 .

[19] Глейзер, Х. (1969). «Новый тест на гетероскедастичность». Журнал Американской статистической ассоциации . 64 (325): 316–323. DOI : 10.1080 / 01621459.1969.10500976 .

[20] Machado, José AF; Сильва, JMC Santos (2000). «Повторный визит к тесту Глейсера». Журнал эконометрики . 97 (1): 189–202. DOI : 10.1016 / S0304-4076 (00) 00016-6 .

[21] Тофаллис, C (2008). «Процентная регрессия наименьших квадратов». Журнал современных прикладных статистических методов . 7 : 526–534. DOI : 10.2139 / ssrn.1406472 . SSRN 1406472 .

[22] JNK Rao (март 1973). «Об оценке гетероскедастических вариаций». Биометрия . 29 (1): 11–24. DOI : 10.2307 / 2529672 . JSTOR 2529672 .

[23] Хольгерссон, HET; Шукур, Г. (2004). «Тестирование многомерной гетероскедастичности». Журнал статистических вычислений и моделирования . 74 (12): 879. DOI : 10,1080 / +00949650410001646979 . hdl : 2077/24416 . S2CID 121576769 .

[24] Гупта, AK; Тан Дж. (1984). «Распределение статистики отношения правдоподобия для проверки равенства ковариационных матриц многомерных гауссовских моделей». Биометрика . 71 (3): 555–559. DOI : 10.1093 / Biomet / 71.3.555 . JSTOR 2336564 .

[25] д'Агостино, РБ; Рассел, Гонконг (2005). «Многомерный тест Бартлетта». Энциклопедия биостатистики . DOI : 10.1002 / 0470011815.b2a13048 . ISBN 978-0470849071.

[а]