Часть серии по |
Регрессионный анализ |
---|
Модели |
Предварительный расчет |
|
Фон |
|
|
В статистике , то теорема Гаусса-Маркова (или просто теорема Гаусса для некоторых авторов) [1] утверждает , что обычный метод наименьших квадратов (МНК) оценщик имеет наименьшую дисперсию выборки в пределах класса от линейных непредвзятых оценок , если ошибки в линейной регрессии модель являются некоррелированными , имеют равные дисперсии и ожидаемое значение , равное нулю. [2] Ошибки не обязательно должны быть нормальными , и они не должны быть независимыми и одинаково распределенными.(только некоррелированный с нулевым средним и гомоскедастический с конечной дисперсией). От требования о том, чтобы оценка была несмещенной, нельзя отказаться, поскольку существуют смещенные оценки с более низкой дисперсией. См., Например, оценку Джеймса – Стейна (которая также снижает линейность), гребневую регрессию или просто любую вырожденную оценку.
Теорема была названа в честь Карла Фридриха Гаусса и Андрея Маркова , хотя работа Гаусса значительно предшествует Маркову. [3] Но в то время как Гаусс вывел результат в предположении независимости и нормальности, Марков привел предположения к указанной выше форме. [4] Дальнейшее обобщение несферических ошибок было дано Александром Эйткеном . [5]
Заявление [ править ]
Предположим, что у нас есть матричные обозначения,
расширяясь до,
где не являются случайными , но ип наблюдаемых параметров, не являются случайными и наблюдаемыми (называемым «пояснительной переменными»), являются случайными, и так являются случайными. Случайные переменные называются «возмущением», «шумом» или просто «ошибкой» (будет противопоставлено «остатку» позже в статье; см. Ошибки и остатки в статистике ). Обратите внимание, что для включения константы в вышеприведенную модель можно выбрать введение константы как переменной с новым последним столбцом X, равным единице, т. Е. Для всех . Обратите внимание, что хотя в качестве примеров ответов можно наблюдать следующие утверждения и аргументы, включая предположения,доказательства и другие предполагают подтолько условие знания, но не
В Гаусс-Маркова предположения касаются множества ошибок случайных величин :
- У них среднее значение ноль:
- Они гомоскедастичны , то есть все имеют одинаковую конечную дисперсию: для всех и
- Определенные термины ошибки не коррелируют:
Линейная оценка из является линейной комбинацией
в котором коэффициенты не могут зависеть от лежащих в основе коэффициентов , поскольку они не наблюдаются, но могут зависеть от значений , поскольку эти данные наблюдаемы. (Зависимость коэффициентов от каждого из них обычно нелинейна; оценщик линейен в каждом и, следовательно, в каждом случайном случае, поэтому это «линейная» регрессия .) Оценщик называется несмещенным тогда и только тогда, когда
независимо от значений . Теперь позвольте быть некоторой линейной комбинацией коэффициентов. Тогда среднеквадратичная ошибка соответствующей оценки равна
другими словами, это математическое ожидание квадрата взвешенной суммы (по параметрам) различий между оценочными функциями и соответствующими параметрами, подлежащими оценке. (Поскольку мы рассматриваем случай, когда все оценки параметров несмещены, эта среднеквадратичная ошибка совпадает с дисперсией линейной комбинации.) Наилучшая линейная несмещенная оценка (СИНИЙ) вектора параметров - одна с наименьшим среднеквадратичная ошибка для каждого вектора параметров линейной комбинации. Это эквивалентно условию, что
является положительной полуопределенной матрицей для любой другой линейной несмещенной оценки .
Обычные квадраты оценка не менее (МНК) является функцией
из и (где обозначает транспонирование о ) , что минимизирует сумму квадратов остатков (misprediction суммы):
Теорема теперь утверждает, что МНК-оценка - СИНИЙ. Основная идея доказательства состоит в том, что оценка методом наименьших квадратов некоррелирована с любой линейной несмещенной оценкой нуля, т. Е. С любой линейной комбинацией , коэффициенты которой не зависят от ненаблюдаемого, но чье математическое ожидание всегда равно нулю.
Замечание [ править ]
Доказательство того, что OLS действительно МИНИМИЗИРУЕТ сумму квадратов остатков, можно проделать следующим образом с вычислением матрицы Гессе и демонстрацией ее положительной определенности.
Функция MSE, которую мы хотим минимизировать, это
для модели множественной регрессии с переменными p . Первая производная
, где X - матрица плана
Матрица Гессе вторых производных
Предполагая, что столбцы линейно независимы, так что это обратимо, пусть , тогда
Теперь позвольте быть собственным вектором .
С точки зрения умножения векторов это означает
где - собственное значение, соответствующее . Кроме того,
Наконец, поскольку собственный вектор был произвольным, это означает, что все собственные значения положительны, следовательно , положительно определен. Таким образом,
действительно местный минимум.
Доказательство [ править ]
Позвольте быть другой линейной оценки с где является ненулевой матрицей. Поскольку мы ограничиваемся несмещенными оценками, минимальная среднеквадратическая ошибка подразумевает минимальную дисперсию. Поэтому цель состоит в том, чтобы показать, что такая оценка имеет дисперсию не меньшую, чем дисперсия оценки OLS. Рассчитываем:
Поэтому, так как это ип наблюдаемой, является несмещенной , если и только если . Затем:
Поскольку DD ' является положительно полуопределенной матрицей, превосходит положительно полуопределенную матрицу.
Замечания к доказательству [ править ]
Как уже было сказано выше, условием является неотрицательно матрица эквивалентна тем свойство , что наилучшая линейная несмещенная оценкой является (лучше в том смысле , что она имеет минимальную дисперсию). Чтобы убедиться в этом, давайте рассмотрим еще одну линейную несмещенную оценку .
Более того, равенство выполняется тогда и только тогда, когда . Мы рассчитываем
Это доказывает, что равенство выполняется тогда и только тогда, когда это дает уникальность оценки OLS как СИНИЙ.
Обобщенная оценка методом наименьших квадратов [ править ]
В обобщенных наименьших квадратов (GLS), разработанный Aitken , [5] расширяет теорему Гаусса-Маркова для случая , когда вектор ошибки имеет нескалярный ковариационная матрица. [6] Оценщик Эйткена также СИНИЙ.
Теорема Гаусса – Маркова, сформулированная в эконометрике [ править ]
В большинстве обработок OLS предполагается , что регрессоры (интересующие параметры) в матрице плана фиксированы в повторяющихся выборках. Это предположение считается неприемлемым для преимущественно неэкспериментальной науки, такой как эконометрика . [7] Вместо этого условия теоремы Гаусса – Маркова сформулированы условно .
Линейность [ править ]
Предполагается, что зависимая переменная является линейной функцией переменных, указанных в модели. Спецификация должна быть линейной по своим параметрам. Это не означает, что между независимыми и зависимыми переменными должна быть линейная зависимость. Независимые переменные могут принимать нелинейные формы, если параметры являются линейными. Уравнение квалифицируется как линейное, но может быть преобразовано в линейное, например, путем замены другим параметром . Уравнение с параметром, зависящим от независимой переменной, не считается линейным, например , где - функция от .
Преобразования данных часто используются для преобразования уравнения в линейную форму. Например, функция Кобба-Дугласа, часто используемая в экономике, является нелинейной:
Но это можно выразить в линейной форме, взяв натуральный логарифм от обеих частей: [8]
Это предположение также касается вопросов спецификации: предполагается, что выбрана правильная функциональная форма и нет пропущенных переменных .
Однако следует знать, что параметры, которые минимизируют остатки преобразованного уравнения, не обязательно минимизируют остатки исходного уравнения.
Строгая экзогенность [ править ]
Для всех наблюдений математическое ожидание - обусловленное регрессорами - члена ошибки равно нулю: [9]
где - вектор данных регрессоров для i- го наблюдения и, следовательно , матрица данных или матрица плана.
Геометрически это предположение означает , что и являются ортогональными друг к другу, так что их внутренний продукт (то есть, их поперечный момент) равен нулю.
Это предположение нарушается, если объясняющие переменные являются стохастическими, например, когда они измеряются с ошибкой , или являются эндогенными . [10] Эндогенность может быть результатом одновременности , когда причинно-следственная связь течет туда и обратно как между зависимой, так и независимой переменной. Для решения этой проблемы обычно используются методы инструментальных переменных .
Полный ранг [ править ]
Матрица выборочных данных должна иметь полный ранг столбца .
В противном случае не обратима, и оценка МНК не может быть вычислена.
Нарушение этого предположения - совершенная мультиколлинеарность , т.е. некоторые объясняющие переменные линейно зависимы. Один сценарий, в котором это произойдет, называется «ловушка фиктивной переменной», когда базовая фиктивная переменная не пропущена, что приводит к идеальной корреляции между фиктивными переменными и постоянным членом. [11]
Может присутствовать мультиколлинеарность (если она не «идеальна»), что приводит к менее эффективной, но все же несмещенной оценке. Оценки будут менее точными и очень чувствительными к конкретным наборам данных. [12] Мультиколлинеарность может быть обнаружена , среди прочего, по номеру условия или коэффициенту увеличения дисперсии .
Сферические ошибки [ править ]
Внешнее произведение вектора ошибки должна быть сферической.
Это означает, что термин ошибки имеет однородную дисперсию ( гомоскедастичность ) и не имеет последовательной зависимости. [13] Если это предположение нарушается, OLS остается беспристрастным, но неэффективным. Термин «сферические ошибки» будет описывать многомерное нормальное распределение: если в многомерной нормальной плотности, то уравнение является формулой для шара с центром в μ и радиусом σ в n-мерном пространстве. [14]
Гетероскедастичность возникает, когда количество ошибок соотносится с независимой переменной. Например, в регрессии расходов на питание и доходов ошибка коррелирует с доходом. Люди с низким доходом обычно тратят на еду одинаковую сумму, в то время как люди с высоким доходом могут тратить очень большую сумму или столько же, сколько тратят люди с низким доходом. Гетероскедастичность также может быть вызвана изменениями в практике измерения. Например, по мере того, как статистические управления улучшают свои данные, ошибка измерения уменьшается, поэтому член ошибки уменьшается с течением времени.
Это предположение нарушается при наличии автокорреляции . Автокорреляция может быть визуализирована на графике данных, когда данное наблюдение с большей вероятностью находится выше подобранной линии, если соседние наблюдения также лежат выше подобранной линии регрессии. Автокорреляция часто встречается в данных временных рядов, где ряд данных может испытывать «инерцию». Если зависимой переменной требуется время, чтобы полностью поглотить шок. Пространственная автокорреляция также может возникать в географических областях, которые могут иметь аналогичные ошибки. Автокорреляция может быть результатом неправильной спецификации, например неправильного выбора функциональной формы. В этих случаях исправление спецификации - один из возможных способов борьбы с автокорреляцией.
При наличии сферических ошибок обобщенная оценка методом наименьших квадратов может отображаться СИНИМ цветом. [6]
См. Также [ править ]
- Независимые и одинаково распределенные случайные величины
- Линейная регрессия
- Погрешность измерения
Другая объективная статистика [ править ]
- Лучший линейный несмещенный прогноз (BLUP)
- Несмещенная оценка с минимальной дисперсией (MVUE)
Ссылки [ править ]
- ^ См. Главу 7 Джонсона, РА; Wichern, DW (2002). Прикладной многомерный статистический анализ . 5 . Зал Прентис.
- ^ Theil, Анри (1971). «Лучшая линейная объективная оценка и прогноз». Принципы эконометрики . Нью-Йорк: Джон Вили и сыновья. стр. 119 -124. ISBN 0-471-85845-5.
- ^ Плакетта, RL (1949). «Историческая справка о методе наименьших квадратов». Биометрика . 36 (3/4): 458–460. DOI : 10.2307 / 2332682 .
- ^ Дэвид, FN; Нейман, Дж. (1938). «Расширение теоремы Маркова о наименьших квадратах». Мемуары статистических исследований . 2 : 105–116. OCLC 4025782 .
- ^ а б Эйткен, AC (1935). «О наименьших квадратах и линейных комбинациях наблюдений». Труды Королевского общества Эдинбурга . 55 : 42–48. DOI : 10.1017 / S0370164600014346 .
- ^ a b Хуанг, Дэвид С. (1970). Регрессионные и эконометрические методы . Нью-Йорк: Джон Вили и сыновья. стр. 127 -147. ISBN 0-471-41754-8.
- ^ Hayashi, Фумио (2000). Эконометрика . Издательство Принстонского университета. п. 13. ISBN 0-691-01018-8.
- Перейти ↑ Walters, AA (1970). Введение в эконометрику . Нью-Йорк: У.В. Нортон. п. 275. ISBN 0-393-09931-8.
- ^ Hayashi, Фумио (2000). Эконометрика . Издательство Принстонского университета. п. 7. ISBN 0-691-01018-8.
- ^ Джонстон, Джон (1972). Эконометрические методы (второе изд.). Нью-Йорк: Макгроу-Хилл. С. 267–291 . ISBN 0-07-032679-7.
- ^ Вулдридж, Джеффри (2012). Вводная эконометрика (Пятое международное изд.). Юго-Западный. п. 220 . ISBN 978-1-111-53439-4.
- ^ Джонстон, Джон (1972). Эконометрические методы (второе изд.). Нью-Йорк: Макгроу-Хилл. С. 159–168 . ISBN 0-07-032679-7.
- ^ Hayashi, Фумио (2000). Эконометрика . Издательство Принстонского университета. п. 10. ISBN 0-691-01018-8.
- ^ Раманатан, Раму (1993). «Несферические возмущения». Статистические методы в эконометрике . Академическая пресса. стр. 330 -351. ISBN 0-12-576830-3.
Дальнейшее чтение [ править ]
- Дэвидсон, Джеймс (2000). «Статистический анализ регрессионной модели». Эконометрическая теория . Оксфорд: Блэквелл. С. 17–36. ISBN 0-631-17837-6.
- Гольдбергер, Артур (1991). «Классическая регрессия». Курс эконометрики . Кембридж: Издательство Гарвардского университета. стр. 160 -169. ISBN 0-674-17544-1.
- Тейл, Анри (1971). «Метод наименьших квадратов и стандартная линейная модель». Принципы эконометрики . Нью-Йорк: Джон Вили и сыновья. стр. 101 -162. ISBN 0-471-85845-5.
Внешние ссылки [ править ]
- Самые ранние известные варианты использования некоторых математических слов: G (краткая история и объяснение названия)
- Доказательство теоремы Гаусса-Маркова для множественной линейной регрессии (использует матричную алгебру)
- Доказательство теоремы Гаусса Маркова с использованием геометрии