Из Википедии, свободной энциклопедии
  (Перенаправлен с СИНИЙ )
Перейти к навигации Перейти к поиску

В статистике , то теорема Гаусса-Маркова (или просто теорема Гаусса для некоторых авторов) [1] утверждает , что обычный метод наименьших квадратов (МНК) оценщик имеет наименьшую дисперсию выборки в пределах класса от линейных непредвзятых оценок , если ошибки в линейной регрессии модель являются некоррелированными , имеют равные дисперсии и ожидаемое значение , равное нулю. [2] Ошибки не обязательно должны быть нормальными , и они не должны быть независимыми и одинаково распределенными.(только некоррелированный с нулевым средним и гомоскедастический с конечной дисперсией). От требования о том, чтобы оценка была несмещенной, нельзя отказаться, поскольку существуют смещенные оценки с более низкой дисперсией. См., Например, оценку Джеймса – Стейна (которая также снижает линейность), гребневую регрессию или просто любую вырожденную оценку.

Теорема была названа в честь Карла Фридриха Гаусса и Андрея Маркова , хотя работа Гаусса значительно предшествует Маркову. [3] Но в то время как Гаусс вывел результат в предположении независимости и нормальности, Марков привел предположения к указанной выше форме. [4] Дальнейшее обобщение несферических ошибок было дано Александром Эйткеном . [5]

Заявление [ править ]

Предположим, что у нас есть матричные обозначения,

расширяясь до,

где не являются случайными , но ип наблюдаемых параметров, не являются случайными и наблюдаемыми (называемым «пояснительной переменными»), являются случайными, и так являются случайными. Случайные переменные называются «возмущением», «шумом» или просто «ошибкой» (будет противопоставлено «остатку» позже в статье; см. Ошибки и остатки в статистике ). Обратите внимание, что для включения константы в вышеприведенную модель можно выбрать введение константы как переменной с новым последним столбцом X, равным единице, т. Е. Для всех . Обратите внимание, что хотя в качестве примеров ответов можно наблюдать следующие утверждения и аргументы, включая предположения,доказательства и другие предполагают подтолько условие знания, но не

В Гаусс-Маркова предположения касаются множества ошибок случайных величин :

  • У них среднее значение ноль:
  • Они гомоскедастичны , то есть все имеют одинаковую конечную дисперсию: для всех и
  • Определенные термины ошибки не коррелируют:

Линейная оценка из является линейной комбинацией

в котором коэффициенты не могут зависеть от лежащих в основе коэффициентов , поскольку они не наблюдаются, но могут зависеть от значений , поскольку эти данные наблюдаемы. (Зависимость коэффициентов от каждого из них обычно нелинейна; оценщик линейен в каждом и, следовательно, в каждом случайном случае, поэтому это «линейная» регрессия .) Оценщик называется несмещенным тогда и только тогда, когда

независимо от значений . Теперь позвольте быть некоторой линейной комбинацией коэффициентов. Тогда среднеквадратичная ошибка соответствующей оценки равна

другими словами, это математическое ожидание квадрата взвешенной суммы (по параметрам) различий между оценочными функциями и соответствующими параметрами, подлежащими оценке. (Поскольку мы рассматриваем случай, когда все оценки параметров несмещены, эта среднеквадратичная ошибка совпадает с дисперсией линейной комбинации.) Наилучшая линейная несмещенная оценка (СИНИЙ) вектора параметров - одна с наименьшим среднеквадратичная ошибка для каждого вектора параметров линейной комбинации. Это эквивалентно условию, что

является положительной полуопределенной матрицей для любой другой линейной несмещенной оценки .

Обычные квадраты оценка не менее (МНК) является функцией

из и (где обозначает транспонирование о ) , что минимизирует сумму квадратов остатков (misprediction суммы):

Теорема теперь утверждает, что МНК-оценка - СИНИЙ. Основная идея доказательства состоит в том, что оценка методом наименьших квадратов некоррелирована с любой линейной несмещенной оценкой нуля, т. Е. С любой линейной комбинацией , коэффициенты которой не зависят от ненаблюдаемого, но чье математическое ожидание всегда равно нулю.

Замечание [ править ]

Доказательство того, что OLS действительно МИНИМИЗИРУЕТ сумму квадратов остатков, можно проделать следующим образом с вычислением матрицы Гессе и демонстрацией ее положительной определенности.

Функция MSE, которую мы хотим минимизировать, это

для модели множественной регрессии с переменными p . Первая производная

, где X - матрица плана

Матрица Гессе вторых производных

Предполагая, что столбцы линейно независимы, так что это обратимо, пусть , тогда

Теперь позвольте быть собственным вектором .

С точки зрения умножения векторов это означает

где - собственное значение, соответствующее . Кроме того,

Наконец, поскольку собственный вектор был произвольным, это означает, что все собственные значения положительны, следовательно , положительно определен. Таким образом,

действительно местный минимум.

Доказательство [ править ]

Позвольте быть другой линейной оценки с где является ненулевой матрицей. Поскольку мы ограничиваемся несмещенными оценками, минимальная среднеквадратическая ошибка подразумевает минимальную дисперсию. Поэтому цель состоит в том, чтобы показать, что такая оценка имеет дисперсию не меньшую, чем дисперсия оценки OLS. Рассчитываем:

Поэтому, так как это ип наблюдаемой, является несмещенной , если и только если . Затем:

Поскольку DD ' является положительно полуопределенной матрицей, превосходит положительно полуопределенную матрицу.

Замечания к доказательству [ править ]

Как уже было сказано выше, условием является неотрицательно матрица эквивалентна тем свойство , что наилучшая линейная несмещенная оценкой является (лучше в том смысле , что она имеет минимальную дисперсию). Чтобы убедиться в этом, давайте рассмотрим еще одну линейную несмещенную оценку .

Более того, равенство выполняется тогда и только тогда, когда . Мы рассчитываем

Это доказывает, что равенство выполняется тогда и только тогда, когда это дает уникальность оценки OLS как СИНИЙ.

Обобщенная оценка методом наименьших квадратов [ править ]

В обобщенных наименьших квадратов (GLS), разработанный Aitken , [5] расширяет теорему Гаусса-Маркова для случая , когда вектор ошибки имеет нескалярный ковариационная матрица. [6] Оценщик Эйткена также СИНИЙ.

Теорема Гаусса – Маркова, сформулированная в эконометрике [ править ]

В большинстве обработок OLS предполагается , что регрессоры (интересующие параметры) в матрице плана фиксированы в повторяющихся выборках. Это предположение считается неприемлемым для преимущественно неэкспериментальной науки, такой как эконометрика . [7] Вместо этого условия теоремы Гаусса – Маркова сформулированы условно .

Линейность [ править ]

Предполагается, что зависимая переменная является линейной функцией переменных, указанных в модели. Спецификация должна быть линейной по своим параметрам. Это не означает, что между независимыми и зависимыми переменными должна быть линейная зависимость. Независимые переменные могут принимать нелинейные формы, если параметры являются линейными. Уравнение квалифицируется как линейное, но может быть преобразовано в линейное, например, путем замены другим параметром . Уравнение с параметром, зависящим от независимой переменной, не считается линейным, например , где - функция от .

Преобразования данных часто используются для преобразования уравнения в линейную форму. Например, функция Кобба-Дугласа, часто используемая в экономике, является нелинейной:

Но это можно выразить в линейной форме, взяв натуральный логарифм от обеих частей: [8]

Это предположение также касается вопросов спецификации: предполагается, что выбрана правильная функциональная форма и нет пропущенных переменных .

Однако следует знать, что параметры, которые минимизируют остатки преобразованного уравнения, не обязательно минимизируют остатки исходного уравнения.

Строгая экзогенность [ править ]

Для всех наблюдений математическое ожидание - обусловленное регрессорами - члена ошибки равно нулю: [9]

где - вектор данных регрессоров для i- го наблюдения и, следовательно , матрица данных или матрица плана.

Геометрически это предположение означает , что и являются ортогональными друг к другу, так что их внутренний продукт (то есть, их поперечный момент) равен нулю.

Это предположение нарушается, если объясняющие переменные являются стохастическими, например, когда они измеряются с ошибкой , или являются эндогенными . [10] Эндогенность может быть результатом одновременности , когда причинно-следственная связь течет туда и обратно как между зависимой, так и независимой переменной. Для решения этой проблемы обычно используются методы инструментальных переменных .

Полный ранг [ править ]

Матрица выборочных данных должна иметь полный ранг столбца .

В противном случае не обратима, и оценка МНК не может быть вычислена.

Нарушение этого предположения - совершенная мультиколлинеарность , т.е. некоторые объясняющие переменные линейно зависимы. Один сценарий, в котором это произойдет, называется «ловушка фиктивной переменной», когда базовая фиктивная переменная не пропущена, что приводит к идеальной корреляции между фиктивными переменными и постоянным членом. [11]

Может присутствовать мультиколлинеарность (если она не «идеальна»), что приводит к менее эффективной, но все же несмещенной оценке. Оценки будут менее точными и очень чувствительными к конкретным наборам данных. [12] Мультиколлинеарность может быть обнаружена , среди прочего, по номеру условия или коэффициенту увеличения дисперсии .

Сферические ошибки [ править ]

Внешнее произведение вектора ошибки должна быть сферической.

Это означает, что термин ошибки имеет однородную дисперсию ( гомоскедастичность ) и не имеет последовательной зависимости. [13] Если это предположение нарушается, OLS остается беспристрастным, но неэффективным. Термин «сферические ошибки» будет описывать многомерное нормальное распределение: если в многомерной нормальной плотности, то уравнение является формулой для шара с центром в μ и радиусом σ в n-мерном пространстве. [14]

Гетероскедастичность возникает, когда количество ошибок соотносится с независимой переменной. Например, в регрессии расходов на питание и доходов ошибка коррелирует с доходом. Люди с низким доходом обычно тратят на еду одинаковую сумму, в то время как люди с высоким доходом могут тратить очень большую сумму или столько же, сколько тратят люди с низким доходом. Гетероскедастичность также может быть вызвана изменениями в практике измерения. Например, по мере того, как статистические управления улучшают свои данные, ошибка измерения уменьшается, поэтому член ошибки уменьшается с течением времени.

Это предположение нарушается при наличии автокорреляции . Автокорреляция может быть визуализирована на графике данных, когда данное наблюдение с большей вероятностью находится выше подобранной линии, если соседние наблюдения также лежат выше подобранной линии регрессии. Автокорреляция часто встречается в данных временных рядов, где ряд данных может испытывать «инерцию». Если зависимой переменной требуется время, чтобы полностью поглотить шок. Пространственная автокорреляция также может возникать в географических областях, которые могут иметь аналогичные ошибки. Автокорреляция может быть результатом неправильной спецификации, например неправильного выбора функциональной формы. В этих случаях исправление спецификации - один из возможных способов борьбы с автокорреляцией.

При наличии сферических ошибок обобщенная оценка методом наименьших квадратов может отображаться СИНИМ цветом. [6]

См. Также [ править ]

  • Независимые и одинаково распределенные случайные величины
  • Линейная регрессия
  • Погрешность измерения

Другая объективная статистика [ править ]

  • Лучший линейный несмещенный прогноз (BLUP)
  • Несмещенная оценка с минимальной дисперсией (MVUE)

Ссылки [ править ]

  1. ^ См. Главу 7 Джонсона, РА; Wichern, DW (2002). Прикладной многомерный статистический анализ . 5 . Зал Прентис.
  2. ^ Theil, Анри (1971). «Лучшая линейная объективная оценка и прогноз». Принципы эконометрики . Нью-Йорк: Джон Вили и сыновья. стр.  119 -124. ISBN 0-471-85845-5.
  3. ^ Плакетта, RL (1949). «Историческая справка о методе наименьших квадратов». Биометрика . 36 (3/4): 458–460. DOI : 10.2307 / 2332682 .
  4. ^ Дэвид, FN; Нейман, Дж. (1938). «Расширение теоремы Маркова о наименьших квадратах». Мемуары статистических исследований . 2 : 105–116. OCLC 4025782 . 
  5. ^ а б Эйткен, AC (1935). «О наименьших квадратах и ​​линейных комбинациях наблюдений». Труды Королевского общества Эдинбурга . 55 : 42–48. DOI : 10.1017 / S0370164600014346 .
  6. ^ a b Хуанг, Дэвид С. (1970). Регрессионные и эконометрические методы . Нью-Йорк: Джон Вили и сыновья. стр.  127 -147. ISBN 0-471-41754-8.
  7. ^ Hayashi, Фумио (2000). Эконометрика . Издательство Принстонского университета. п. 13. ISBN 0-691-01018-8.
  8. Перейти ↑ Walters, AA (1970). Введение в эконометрику . Нью-Йорк: У.В. Нортон. п. 275. ISBN 0-393-09931-8.
  9. ^ Hayashi, Фумио (2000). Эконометрика . Издательство Принстонского университета. п. 7. ISBN 0-691-01018-8.
  10. ^ Джонстон, Джон (1972). Эконометрические методы (второе изд.). Нью-Йорк: Макгроу-Хилл. С.  267–291 . ISBN 0-07-032679-7.
  11. ^ Вулдридж, Джеффри (2012). Вводная эконометрика (Пятое международное изд.). Юго-Западный. п. 220 . ISBN 978-1-111-53439-4.
  12. ^ Джонстон, Джон (1972). Эконометрические методы (второе изд.). Нью-Йорк: Макгроу-Хилл. С.  159–168 . ISBN 0-07-032679-7.
  13. ^ Hayashi, Фумио (2000). Эконометрика . Издательство Принстонского университета. п. 10. ISBN 0-691-01018-8.
  14. ^ Раманатан, Раму (1993). «Несферические возмущения». Статистические методы в эконометрике . Академическая пресса. стр.  330 -351. ISBN 0-12-576830-3.

Дальнейшее чтение [ править ]

  • Дэвидсон, Джеймс (2000). «Статистический анализ регрессионной модели». Эконометрическая теория . Оксфорд: Блэквелл. С. 17–36. ISBN 0-631-17837-6.
  • Гольдбергер, Артур (1991). «Классическая регрессия». Курс эконометрики . Кембридж: Издательство Гарвардского университета. стр.  160 -169. ISBN 0-674-17544-1.
  • Тейл, Анри (1971). «Метод наименьших квадратов и стандартная линейная модель». Принципы эконометрики . Нью-Йорк: Джон Вили и сыновья. стр.  101 -162. ISBN 0-471-85845-5.

Внешние ссылки [ править ]

  • Самые ранние известные варианты использования некоторых математических слов: G (краткая история и объяснение названия)
  • Доказательство теоремы Гаусса-Маркова для множественной линейной регрессии (использует матричную алгебру)
  • Доказательство теоремы Гаусса Маркова с использованием геометрии