Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Закон Окуня в макроэкономике является примером простой линейной регрессии. Здесь предполагается, что зависимая переменная (рост ВВП) находится в линейной зависимости от изменений уровня безработицы.

В статистике , простой линейной регрессии является линейной регрессии модели с одной объясняющей переменной . [1] [2] [3] [4] [5] То есть, это касается двумерных точек выборки с одной независимой переменной и одной зависимой переменной (обычно координаты x и y в декартовой системе координат ) и находит линейная функция (не вертикальная прямая линия ), которая максимально точно предсказывает значения зависимой переменной как функцию независимой переменной. Прилагательное простоотносится к тому факту, что переменная результата связана с одним предиктором.

Обычно делается дополнительное условие о том, что следует использовать обычный метод наименьших квадратов (МНК): точность каждого прогнозируемого значения измеряется его квадратом остатка (расстояние по вертикали между точкой набора данных и подобранной линией), и цель - сделать сумму этих квадратов отклонений как можно меньшей. Другие методы регрессии, которые можно использовать вместо обычных наименьших квадратов, включают наименьшие абсолютные отклонения (минимизирующие сумму абсолютных значений остатков) и оценку Тейла – Сена (которая выбирает линию, наклон которой является медианным наклоном, определяемым парами точки выборки). Регрессия Деминга(метод наименьших квадратов) также находит линию, которая соответствует набору двумерных выборочных точек, но (в отличие от обычных наименьших квадратов, наименьших абсолютных отклонений и регрессии среднего наклона) на самом деле это не пример простой линейной регрессии, потому что она не разделять координаты на одну зависимую и одну независимую переменные и потенциально может возвращать вертикальную линию как подходящую.

Остальная часть статьи предполагает обычную регрессию методом наименьших квадратов. В этом случае наклон подобранной линии равен корреляции между y и x, скорректированной на отношение стандартных отклонений этих переменных. Пересечение подобранной линии таково, что линия проходит через центр масс ( x , y ) точек данных.

Подгонка линии регрессии [ править ]

Рассмотрим модельную функцию

которая описывает прямую с наклоном β и y- пересечением α . В общем, такая взаимосвязь может не соблюдаться в точности для ненаблюдаемой совокупности значений независимых и зависимых переменных; мы называем ненаблюдаемые отклонения от приведенного выше уравнения ошибками . Предположим, мы наблюдаем n пар данных и называем их {( x i , y i ), i = 1, ..., n }. Мы можем описать лежащую в основе взаимосвязь между y i и x i с использованием этого члена ошибки ε i следующим образом:

Эта взаимосвязь между истинными (но ненаблюдаемыми) базовыми параметрами α и β и точками данных называется моделью линейной регрессии.

Цель состоит в том, чтобы найти оценочные значения и параметры α и β, которые в некотором смысле обеспечили бы «наилучшее» соответствие для точек данных. Как упоминалось во введении, в этой статье «наилучшее» соответствие будет пониматься как метод наименьших квадратов : линия, которая минимизирует сумму квадратов остатков (разницы между фактическими и прогнозируемыми значениями зависимой переменной y ), каждое из который задается для любых возможных значений параметров и ,

Другими словами, и решите следующую задачу минимизации:

Расширяя, чтобы получить квадратное выражение в, и мы можем получить значения и, которые минимизируют целевую функцию Q (эти минимизирующие значения обозначаются и ): [6]

Здесь мы ввели

  • и как среднее значение x i и y i , соответственно
  • r xy как коэффициент корреляции выборки между x и y
  • ы х и с у как некорректированные образцов стандартных отклонений от й и у
  • и как выборочная дисперсия и выборочная ковариация соответственно

Подставляя приведенные выше выражения для и в

дает

Это показывает, что r xy - это наклон линии регрессии стандартизованных точек данных (и что эта линия проходит через начало координат).

Обобщая обозначение, мы можем написать горизонтальную полосу над выражением, чтобы указать среднее значение этого выражения по набору образцов. Например:

Это обозначение позволяет нам краткую формулу для r xy :

Коэффициент детерминации ( «R в квадрате») равно , когда модель является линейной с одной независимой переменной. Дополнительные сведения см. В примере коэффициента корреляции .

Интуитивное объяснение [ править ]

Умножив все элементы суммирования в числителе на: (тем самым не изменив его):

Мы можем видеть, что наклон (тангенс угла) линии регрессии - это средневзвешенное значение, которое представляет собой наклон (тангенс угла) линии, которая соединяет i-ю точку со средним значением всех точек, взвешенных по причине чем дальше точка, тем более "важна" она, поскольку небольшие ошибки в ее положении будут меньше влиять на уклон, соединяющий ее с центральной точкой.

Учитывая , с углом линия делает с положительной осью х, мы имеем

Простая линейная регрессия без члена пересечения (единственный регрессор) [ править ]

Иногда уместно заставить линию регрессии проходить через начало координат, поскольку предполагается , что x и y пропорциональны. Для модели без члена пересечения , y = βx , оценка МНК для β упрощается до

Подстановка ( x - h , y - k ) вместо ( x , y ) дает регрессию через ( h , k ) :

где Cov и Var относятся к ковариации и дисперсии выборочных данных (без поправки на смещение).

Последняя форма выше демонстрирует, как перемещение линии от центра масс точек данных влияет на наклон.

Числовые свойства [ править ]

  1. Линия регрессии проходит через точку центра масс , если модель включает член пересечения (т. Е. Не проходит через начало координат).
  2. Сумма остатков равна нулю, если модель включает член пересечения:
  3. Остатки и значения x не коррелированы (независимо от того, есть ли в модели член пересечения), что означает:

Свойства на основе модели [ править ]

Описание статистических свойств оценок на основе оценок простой линейной регрессии требует использования статистической модели . Следующее основано на предположении о применимости модели, при которой оценки являются оптимальными. Также возможно оценить свойства при других допущениях, таких как неоднородность , но это обсуждается в другом месте. [ требуется разъяснение ]

Беспристрастность [ править ]

Оценки , и являются беспристрастными .

Чтобы формализовать это утверждение, мы должны определить структуру, в которой эти оценки являются случайными величинами. Мы рассматриваем остатки ε i как случайные величины, полученные независимо от некоторого распределения с нулевым средним. Другими словами, для каждого значения x соответствующее значение y генерируется как средний отклик α + βx плюс дополнительная случайная величина ε, называемая термином ошибки , равная в среднем нулю. При такой интерпретации оценки наименьших квадратов и сами будут случайными величинами, средние значения которых будут равны «истинным значениям» α и β.. Это определение беспристрастной оценки.

Доверительные интервалы [ править ]

Формулы , приведенные в предыдущем разделе , позволяют вычислить точечные оценки из альфа и бета - то есть, коэффициенты линии регрессии для заданного набора данных. Однако эти формулы не говорят нам о том , как точны оценки, то есть, сколько оценки и варьируются от образца к образцу для указанного образца размера. Доверительные интервалы были разработаны, чтобы дать правдоподобный набор значений для оценок, которые можно было бы получить, если повторить эксперимент очень большое количество раз.

Стандартный метод построения доверительных интервалов для коэффициентов линейной регрессии основан на предположении нормальности, которое оправдано, если:

  1. ошибки в регрессии имеют нормальное распределение (так называемое допущение классической регрессии ), или
  2. количество наблюдений n достаточно велико, и в этом случае оценка приблизительно нормально распределена.

Последний случай оправдывается центральной предельной теоремой .

Предположение о нормальности [ править ]

При первом предположении, приведенном выше, а именно о нормальности членов ошибки, оценка коэффициента наклона сама будет нормально распределена со средним β и дисперсией, где σ 2 - дисперсия членов ошибки (см. Доказательства с использованием обычных наименьших квадратов ). В то же время сумма квадратов невязок Q распределяется пропорционально χ 2 с n - 2 степенями свободы и независимо от . Это позволяет нам построить t -значение

куда

это стандартная ошибка из оценки .

Это т -value имеет Стьюдент т -распределение с п - 2 степеней свободы. Используя его, мы можем построить доверительный интервал для β :

на уровне достоверности (1 - γ ) , где - квантиль распределения t n −2 . Например, если γ = 0,05, то уровень достоверности составляет 95%.

Точно так же доверительный интервал для коэффициента пересечения α определяется выражением

на уровне достоверности (1 - γ ), где

В США регрессия «изменения безработицы - рост ВВП» с доверительными интервалами 95%.

Доверительные интервалы для α и β дают нам общее представление о том, где эти коэффициенты регрессии наиболее вероятны. Например, в приведенной здесь регрессии закона Окуня точечные оценки равны

95% доверительные интервалы для этих оценок:

Чтобы представить эту информацию графически в виде доверительных полос вокруг линии регрессии, нужно действовать осторожно и учитывать совместное распределение оценок. Можно показать [7], что на уровне достоверности (1 -  γ ) доверительный интервал имеет гиперболический вид, задаваемый уравнением

Асимптотическое предположение [ править ]

Альтернативное второе предположение гласит, что когда количество точек в наборе данных «достаточно велико», закон больших чисел и центральная предельная теорема становятся применимыми, и тогда распределение оценок становится приблизительно нормальным. В этом предположении все формулы , полученные в предыдущем разделе , остаются в силе, с единственным исключением , что квантиль т * п -2 из Стьюдента т распределения заменяется квантиль д * от стандартного нормального распределения . Иногда фракция1/п −2 заменяется на 1/п. При большом n такое изменение существенно не меняет результаты.

Числовой пример[ редактировать ]

Этот набор данных дает среднюю массу тела женщин в зависимости от их роста в выборке американских женщин в возрасте 30–39 лет. Хотя в статье OLS утверждается, что для этих данных было бы более подходящим запустить квадратичную регрессию, вместо этого здесь применяется простая модель линейной регрессии.

В этом наборе данных n = 15 точек. Расчеты вручную начинаются с нахождения следующих пяти сумм:

Эти величины будут использоваться для расчета оценок коэффициентов регрессии и их стандартных ошибок.

График точек и линии наименьших квадратов в численном примере простой линейной регрессии

Квантиль t- распределения Стьюдента 0,975 с 13 степенями свободы составляет t * 13 = 2,1604 , и, таким образом, 95% доверительные интервалы для α и β равны

Коэффициент корреляции продукта момент также может быть рассчитана:

Этот пример также демонстрирует, что сложные вычисления не преодолеют использование плохо подготовленных данных. Первоначально высота была дана в дюймах и была преобразована в ближайший сантиметр. Поскольку преобразование привело к ошибке округления, это не точное преобразование. Исходные дюймы могут быть восстановлены округлением (x / 0,0254), а затем преобразованы в метрическую систему без округления: если это будет сделано, результаты станут

Таким образом, кажущиеся небольшими отклонения в данных имеют реальный эффект.

См. Также [ править ]

  • Матрица дизайна # Простая линейная регрессия
  • Линия фитинга
  • Оценка линейного тренда
  • Линейная сегментированная регрессия
  • Доказательства с использованием метода наименьших квадратов - вывод всех формул, используемых в этой статье, в общем многомерном случае.

Ссылки [ править ]

  1. ^ Seltman, Говард J. (2008-09-08). Экспериментальный дизайн и анализ (PDF) . п. 227.
  2. ^ «Статистическая выборка и регрессия: простая линейная регрессия» . Колумбийский университет . Проверено 17 октября 2016 . Когда в регрессии используется одна независимая переменная, это называется простой регрессией; (...)
  3. ^ Лейн, Дэвид М. Введение в статистику (PDF) . п. 462.
  4. ^ Zou KH; Tuncali K; Сильверман С.Г. (2003). «Корреляция и простая линейная регрессия». Радиология . 227 (3): 617–22. DOI : 10,1148 / radiol.2273011499 . ISSN 0033-8419 . OCLC 110941167 . PMID 12773666 .   
  5. ^ Альтман, Наоми; Кшивинский, Мартин (2015). «Простая линейная регрессия». Природные методы . 12 (11): 999–1000. DOI : 10.1038 / nmeth.3627 . ISSN 1548-7091 . OCLC 5912005539 . PMID 26824102 .   
  6. ^ Кенни, JF и Keeping, ES (1962) «Линейная регрессия и корреляция». Гл. 15 по математике статистики , Pt. 1, 3 изд. Принстон, Нью-Джерси: Ван Ностранд, стр. 252–285.
  7. Casella, G. и Berger, RL (2002), «Статистический вывод» (2-е издание), Cengage, ISBN 978-0-534-24312-8 , стр. 558–559. 

Внешние ссылки [ править ]

  • Объяснение Wolfram MathWorld аппроксимации методом наименьших квадратов и того, как его вычислить
  • Математика простой регрессии (Роберт Нау, Университет Дьюка)