Статистика Дарбина – Ватсона

В статистике , то статистика Дарбины-Уотсон является тестовой статистика используется для обнаружения присутствия автокорреляции лага 1 в невязках (ошибки предсказания) из регрессионного анализа . Он назван в честь Джеймса Дурбина и Джеффри Уотсона . Маленький образец распределение этого отношения было получено Джоном фон Нейман (фон Нейман, 1941). Дурбин и Уотсон (1950, 1951) применили эту статистику к остаткам от регрессии наименьших квадратов и разработали критерии оценки для нулевой гипотезы.что ошибки последовательно некоррелированы с альтернативой, согласно которой они следуют процессу авторегрессии первого порядка . Обратите внимание, что распределение этой тестовой статистики не зависит от оцененных коэффициентов регрессии и дисперсии ошибок. ^[1]

Подобная оценка может быть также проведена с испытанием Бреуша-Годфри и тест Ljung-Box .

Вычисление и интерпретация статистики Дарбина – Ватсона

Если e _t - невязка, определяемая ${\ Displaystyle е_ {т} = \ ро е_ {т-1} + \ ню _ {т},}$ статистика Дарбина-Ватсона утверждает, что нулевая гипотеза: ${\ displaystyle \ rho = 0}$ , Альтернативная гипотеза ${\ displaystyle \ rho \ neq 0}$ , То тестовая статистика является

{\ displaystyle d = {\ sum _ {t = 2} ^ {T} (e_ {t} -e_ {t-1}) ^ {2} \ over {\ sum _ {t = 1} ^ {T} e_ {t} ^ {2}}},}

где T - количество наблюдений. Если у вас есть длинная выборка, то ее можно линейно сопоставить с корреляцией Пирсона данных временного ряда с его лагами. ^[2] Поскольку d приблизительно равно 2 (1 - ${\ displaystyle {\ hat {\ rho}}}$ ), где ${\ displaystyle {\ hat {\ rho}}}$ - выборочная автокорреляция остатков, ^[3] d = 2 указывает на отсутствие автокорреляции. Значение d всегда находится между 0 и 4. Если статистика Дарбина – Ватсона существенно меньше 2, имеется свидетельство положительной серийной корреляции. Как правило, если значение Дарбина – Ватсона меньше 1,0, это может быть поводом для беспокойства. Маленькие значения d указывают на положительную корреляцию следующих друг за другом ошибок. Если d > 2, последовательные члены ошибки имеют отрицательную корреляцию. В регрессиях это может означать недооценку уровня статистической значимости .

Чтобы проверить положительную автокорреляцию при значимости α , статистику критерия d сравнивают с нижним и верхним критическими значениями ( d _{L, α} и d _{U, α} ):

Если d < d _{L, α} , есть статистическое свидетельство того, что члены ошибки положительно автокоррелированы.
Если d > d _{U, α} , нет статистических доказательств того, что члены ошибки положительно автокоррелированы.
Если d _{L, α} < d < d _{U, α} , проверка неубедительна.

Положительная последовательная корреляция - это последовательная корреляция, при которой положительная ошибка для одного наблюдения увеличивает шансы положительной ошибки для другого наблюдения.

Чтобы проверить отрицательную автокорреляцию при значении α , статистику теста (4 - d ) сравнивают с нижним и верхним критическими значениями ( d _{L, α} и d _{U, α} ):

Если (4 - d ) < d _{L, α} , есть статистическое свидетельство того, что члены ошибки отрицательно автокоррелированы.
Если (4 - d )> d _{U, α} , нет статистических доказательств того, что члены ошибки отрицательно автокоррелированы.
Если d _{L, α} <(4 - d ) < d _{U, α} , проверка неубедительна.

Отрицательная последовательная корреляция означает, что положительная ошибка для одного наблюдения увеличивает вероятность отрицательной ошибки для другого наблюдения, а отрицательная ошибка для одного наблюдения увеличивает шансы положительной ошибки для другого.

Критические значения d _{L, α} и d _{U, α} варьируются в зависимости от уровня значимости ( α ) и степеней свободы в уравнении регрессии. Их вывод сложен - статистики обычно получают их из приложений к статистическим текстам.

Если матрица дизайна ${\ displaystyle \ mathbf {X}}$ регрессии известны точные критические значения для распределения ${\ displaystyle d}$ при нулевой гипотезе нельзя вычислить серийную корреляцию. При нулевой гипотезе ${\ displaystyle d}$ распространяется как

{\ displaystyle {\ frac {\ sum _ {i = 1} ^ {nk} \ nu _ {i} \ xi _ {i} ^ {2}} {\ sum _ {i = 1} ^ {nk} \ xi _ {i} ^ {2}}},}

где n - количество наблюдений, а k - количество регрессионных переменных; в ${\ displaystyle \ xi _ {я}}$ - независимые стандартные нормальные случайные величины; и ${\ displaystyle \ nu _ {я}}$ ненулевые собственные значения ${\ displaystyle (\ mathbf {I} - \ mathbf {X} (\ mathbf {X} ^ {T} \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {T}) \ mathbf {A },}$ где ${\ displaystyle \ mathbf {A}}$ - матрица, преобразующая остатки в ${\ displaystyle d}$ статистика, т.е. ${\ displaystyle d = \ mathbf {e} ^ {T} \ mathbf {A} \ mathbf {e}.}$ . ^[4] Доступен ряд вычислительных алгоритмов для нахождения процентилей этого распределения. ^[5]

Хотя серийная корреляция не влияет на согласованность расчетных коэффициентов регрессии, она влияет на нашу способность проводить достоверные статистические тесты. Во-первых, F-статистика для проверки общей значимости регрессии может быть завышена при положительной серийной корреляции, потому что среднеквадратичная ошибка (MSE) будет иметь тенденцию недооценивать дисперсию ошибок генеральной совокупности. Во-вторых, положительная последовательная корреляция обычно приводит к тому, что стандартные ошибки метода наименьших квадратов (МНК) для коэффициентов регрессии занижают истинные стандартные ошибки. Как следствие, если в регрессии присутствует положительная серийная корреляция, стандартный линейный регрессионный анализ обычно приводит нас к вычислению искусственно малых стандартных ошибок для коэффициента регрессии. Эти небольшие стандартные ошибки приведут к завышению оценочной t-статистики, предполагающей значимость там, где, возможно, ее нет. Завышенная t-статистика, в свою очередь, может привести к неправильному отклонению нулевых гипотез о популяционных значениях параметров регрессионной модели чаще, чем если бы стандартные ошибки были правильно оценены.

Если статистика Дарбина – Ватсона указывает на наличие серийной корреляции остатков, это можно исправить с помощью процедуры Кокрейна – Оркатта .

Статистика Дарбина – Ватсона, отображаемая многими программами регрессионного анализа, неприменима в определенных ситуациях. Например, когда лаговые зависимые переменные включены в объясняющие переменные, тогда использовать этот тест нецелесообразно. Следует использовать h-критерий Дарбина (см. Ниже) или тесты отношения правдоподобия, которые действительны для больших выборок.

H-статистика Дарбина

Статистика Дарбина – Ватсона смещена для моделей авторегрессионного скользящего среднего , поэтому автокорреляция недооценивается. Но для больших выборок легко вычислить несмещенную нормально распределенную h-статистику:

{\ displaystyle h = \ left (1 - {\ frac {1} {2}} d \ right) {\ sqrt {\ frac {T} {1-T \ cdot {\ widehat {\ operatorname {Var}}} ({\ widehat {\ beta}} _ {1} \,)}}},}

используя статистику Дарбина – Ватсона d и оцененную дисперсию

{\ displaystyle {\ widehat {\ operatorname {Var}}} ({\ widehat {\ beta}} _ {1})}

коэффициента регрессии отстающей зависимой переменной, при условии

{\ displaystyle T \ cdot {\ widehat {\ operatorname {Var}}} ({\ widehat {\ beta}} _ {1}) <1. \,}

Реализации в статистических пакетах

R : dwtestфункция в пакете lmtest durbinWatsonTest(или сокращенно dwt ) функция в пакете car, pdwtestа pbnftestдля панельных моделей в пакете plm. ^[6]
MATLAB : функция dwtest в панели инструментов статистики.
Mathematica : статистика Дарбина – Ватсона ( d ) включена в качестве опции в функцию LinearModelFit.
SAS : стандартный вывод при использовании модели proc и опция (dw) при использовании proc reg.
EViews : автоматически рассчитывается при использовании регрессии OLS.
gretl : автоматически вычисляется при использовании регрессии OLS
Stata : команда estat dwatson, следующая regressза данными временного ряда. ^[7] Также доступны тест LM Энгла для авторегрессионной условной гетероскедастичности (ARCH), тест на изменчивость, зависящую от времени, тест Бреуша – Годфри и альтернативный тест Дурбина для серийной корреляции. Все (кроме -dwatson-) тестируют отдельно для последовательных корреляций более высокого порядка. Тест Бреуша – Годфри и альтернативный тест Дурбина также допускают регрессоры, которые не являются строго экзогенными.
Excel : хотя Microsoft Excel 2007 не имеет специальной функции Дарбина – Ватсона, d- статистика может быть рассчитана с использованием=SUMXMY2(x_array,y_array)/SUMSQ(array)
Minitab : возможность сообщения статистики в окне сеанса находится в поле «Параметры» в разделе «Регрессия» и в поле «Результаты» в разделе «Общая регрессия».
Python : функция durbin_watson включена в пакет statsmodels ( statsmodels.stats.stattools.durbin_watson), но статистические таблицы для критических значений там недоступны. Подсчет статистики и p-значения реализован в функции dwtest ( https://github.com/dima-quant/dwtest ).
SPSS : включен в качестве опции в функцию регрессии.
Юля : функция DurbinWatsonTest доступна в пакете HypothesisTests . ^[8]

Смотрите также

Заметки

^ Чаттерджи, Самприт; Симонов, Джеффри (2013). Справочник регрессионного анализа . Джон Вили и сыновья. ISBN 1118532813.
^ «Методы последовательной корреляции» . statisticsideas.blogspot.com . Проверено 3 апреля 2018 .
^ Гуджарати (2003) стр. 469
^ Durbin, J .; Уотсон, GS (1971). «Тестирование серийной корреляции в регрессии наименьших квадратов.III». Биометрика . 58 (1): 1–19. DOI : 10.2307 / 2334313 .
^ Farebrother, RW (1980). «Алгоритм AS 153: процедура Пэна для вероятностей хвоста статистики Дарбина-Ватсона». Журнал Королевского статистического общества, серия C . 29 (2): 224–227.
^ Хатека, Нирадж Р. (2010). «Тесты на обнаружение автокорреляции» . Принципы эконометрики: введение (с использованием R) . Публикации SAGE. С. 379–82. ISBN 978-81-321-0660-9.
^ «Постстестирование временных рядов регресса - Инструменты постстестирования для регрессии временных рядов» (PDF) . Руководство по Stata .
^ «Тесты временных рядов» . juliastats.org . Проверено 4 февраля 2020 .

Внешние ссылки

Таблица для высоких n и k
Эконометрика лекции (тема: Дарбина-Уотсона) на YouTube с помощью Mark Thoma

[pivotal-1] Чаттерджи, Самприт; Симонов, Джеффри (2013). Справочник регрессионного анализа . Джон Вили и сыновья. ISBN 1118532813.

[2] «Методы последовательной корреляции» . statisticsideas.blogspot.com . Проверено 3 апреля 2018 .

[Gujarati_2003-3] Гуджарати (2003) стр. 469

[Durbin_1971-4] Durbin, J .; Уотсон, GS (1971). «Тестирование серийной корреляции в регрессии наименьших квадратов.III». Биометрика . 58 (1): 1–19. DOI : 10.2307 / 2334313 .

[Farebrother_1980-5] Farebrother, RW (1980). «Алгоритм AS 153: процедура Пэна для вероятностей хвоста статистики Дарбина-Ватсона». Журнал Королевского статистического общества, серия C . 29 (2): 224–227.

[6] Хатека, Нирадж Р. (2010). «Тесты на обнаружение автокорреляции» . Принципы эконометрики: введение (с использованием R) . Публикации SAGE. С. 379–82. ISBN 978-81-321-0660-9.

[7] «Постстестирование временных рядов регресса - Инструменты постстестирования для регрессии временных рядов» (PDF) . Руководство по Stata .

[8] «Тесты временных рядов» . juliastats.org . Проверено 4 февраля 2020 .

[1]