Из Википедии, бесплатной энциклопедии
  (Перенаправлено из простой регрессии )
Перейти к навигации Перейти к поиску
Закон Окуня в макроэкономике является примером простой линейной регрессии. Здесь предполагается, что зависимая переменная (рост ВВП) находится в линейной зависимости от изменений уровня безработицы.

В статистике , простой линейной регрессии является линейной регрессии модели с одной объясняющей переменной . [1] [2] [3] [4] [5] То есть он касается двумерных точек выборки с одной независимой переменной и одной зависимой переменной (обычно координаты x и y в декартовой системе координат ) и находит линейная функция (невертикальная прямая линия ), которая максимально точно предсказывает значения зависимой переменной как функцию независимой переменной. Прилагательное просто относится к тому факту, что переменная результата связана с одним предиктором.

Обычно делается дополнительное условие о том, что следует использовать обычный метод наименьших квадратов (МНК): точность каждого прогнозируемого значения измеряется его квадратом невязки (расстояние по вертикали между точкой набора данных и подобранной линией), и цель состоит в том, чтобы как можно меньше сумма этих квадратов отклонений. Другие методы регрессии, которые можно использовать вместо обычных наименьших квадратов, включают наименьшие абсолютные отклонения (минимизирующие сумму абсолютных значений остатков) и оценку Тейла – Сена (которая выбирает линию, наклон которой является средним углом наклона, определяемым парами точки выборки). Регрессия Деминга (метод наименьших квадратов) также находит линию, которая соответствует набору двумерных точек выборки, но (в отличие от обычных наименьших квадратов, наименьших абсолютных отклонений и регрессии среднего наклона) на самом деле это не пример простой линейной регрессии, потому что она не разделять координаты на одну зависимую и одну независимую переменные и потенциально может возвращать вертикальную линию как подходящую.

В оставшейся части статьи предполагается обычная регрессия методом наименьших квадратов. В этом случае наклон подобранной линии равен корреляции между y и x, скорректированной на отношение стандартных отклонений этих переменных. Пересечение подобранной линии таково, что линия проходит через центр масс ( x , y ) точек данных.

Подгонка линии регрессии [ править ]

Рассмотрим модельную функцию

который описывает прямую с наклоном β и пересечением оси y α . В общем, такая взаимосвязь может не соблюдаться в точности для большей части ненаблюдаемой совокупности значений независимых и зависимых переменных; мы называем ненаблюдаемые отклонения от приведенного выше уравнения ошибками . Предположим, мы наблюдаем n пар данных и называем их {( x i , y i ), i = 1, ..., n }. Мы можем описать лежащую в основе взаимосвязь между y i и x i, включая этот член ошибки ε i, следующим образом:

Эта взаимосвязь между истинными (но ненаблюдаемыми) базовыми параметрами α и β и точками данных называется моделью линейной регрессии.

Цель состоит в том, чтобы найти оценочные значения и для параметров α и β, которые в некотором смысле обеспечили бы "наилучшее" соответствие для точек данных. Как упоминалось во введении, в этой статье «наилучшее» соответствие будет пониматься как метод наименьших квадратов : линия, которая минимизирует сумму квадратов остатков (разницы между фактическими и прогнозируемыми значениями зависимой переменной y ), каждое из который задается для любых возможных значений параметров и ,

Другими словами, и решить следующую задачу минимизации:

Расширяя, чтобы получить квадратное выражение в, и мы можем получить значения и, которые минимизируют целевую функцию Q (эти минимизирующие значения обозначены и ): [6]

Здесь мы ввели

  • и как среднее значение x i и y i , соответственно
  • r xy как коэффициент корреляции выборки между x и y
  • ы х и с у как некорректированные образцов стандартных отклонений от й и у
  • и как выборочная дисперсия и выборочная ковариация соответственно

Подставляя приведенные выше выражения для и в

дает

Это показывает, что r xy - это наклон линии регрессии стандартизованных точек данных (и что эта линия проходит через начало координат).

Обобщая обозначение, мы можем написать горизонтальную полосу над выражением, чтобы указать среднее значение этого выражения по набору образцов. Например:

Это обозначение позволяет нам составить краткую формулу для r xy :

Коэффициент детерминации ( «R в квадрате») равно , когда модель является линейной с одной независимой переменной. Дополнительные сведения см. В примере коэффициента корреляции .

Интуитивное объяснение [ править ]

Умножив все элементы суммирования в числителе на: (тем самым не изменив его):

Мы можем видеть, что наклон (тангенс угла) линии регрессии - это средневзвешенное значение, которое является наклоном (тангенс угла) линии, которая соединяет i-ю точку со средним значением всех точек, взвешенных, потому что чем дальше точка, тем более "важна" она, поскольку небольшие ошибки в ее положении будут меньше влиять на уклон, соединяющий ее с центральной точкой.

Учитывая , с углом линия делает с положительной осью х, мы имеем

Простая линейная регрессия без члена пересечения (единственный регрессор) [ править ]

Иногда уместно заставить линию регрессии проходить через начало координат, поскольку предполагается , что x и y пропорциональны. Для модели без члена пересечения , y = βx , МНК-оценка для β упрощается до

Подстановка ( x - h , y - k ) вместо ( x , y ) дает регрессию через ( h , k ) :

где Cov и Var относятся к ковариации и дисперсии выборочных данных (без поправки на смещение).

Последняя форма выше демонстрирует, как перемещение линии от центра масс точек данных влияет на наклон.

Числовые свойства [ править ]

  1. Линия регрессии проходит через точку центра масс , если модель включает член пересечения (т. Е. Не проходит через начало координат).
  2. Сумма остатков равна нулю, если модель включает член пересечения:
  3. Остатки и значения x не коррелированы (независимо от того, есть ли в модели член пересечения), что означает:

Свойства на основе модели [ править ]

Описание статистических свойств оценок на основе оценок простой линейной регрессии требует использования статистической модели . Следующее основано на предположении о применимости модели, при которой оценки являются оптимальными. Также возможно оценить свойства при других предположениях, таких как неоднородность , но это обсуждается в другом месте. [ требуется разъяснение ]

Беспристрастность [ править ]

Оценки , и являются беспристрастными .

Чтобы формализовать это утверждение, мы должны определить структуру, в которой эти оценки являются случайными величинами. Мы рассматриваем остатки ε i как случайные величины, полученные независимо от некоторого распределения с нулевым средним. Другими словами, для каждого значения x соответствующее значение y генерируется как средний отклик α + βx плюс дополнительная случайная величина ε, называемая членом ошибки , равная в среднем нулю. При такой интерпретации оценки методом наименьших квадратов и сами будут случайными величинами, средние значения которых будут равны «истинным значениям» α и β.. Это определение объективной оценки.

Доверительные интервалы [ править ]

Формулы , приведенные в предыдущем разделе , позволяют вычислить точечные оценки из альфа и бета - то есть, коэффициенты линии регрессии для заданного набора данных. Однако эти формулы не говорят нам о том , как точны оценки, то есть, сколько оценки и варьируются от образца к образцу для указанного образца размера. Доверительные интервалы были разработаны, чтобы дать правдоподобный набор значений для оценок, которые можно было бы получить, если повторить эксперимент очень большое количество раз.

Стандартный метод построения доверительных интервалов для коэффициентов линейной регрессии основан на предположении нормальности, которое оправдано, если:

  1. ошибки в регрессии имеют нормальное распределение (так называемое допущение классической регрессии ), или
  2. количество наблюдений n достаточно велико, и в этом случае оценка приблизительно нормально распределена.

Последний случай оправдывается центральной предельной теоремой .

Предположение о нормальности [ править ]

При первом предположении, приведенном выше, а именно о нормальности членов ошибки, оценка коэффициента наклона будет сама нормально распределена со средним β и дисперсией, где σ 2 - дисперсия членов ошибки (см. Доказательства, включающие обычные методы наименьших квадратов ). В то же время сумма квадратов невязок Q распределяется пропорционально χ 2 с n - 2 степенями свободы и независимо от . Это позволяет нам построить t -значение

куда

- стандартная ошибка оценщика .

Это т -value имеет Стьюдента т -распределение с п - 2 степенями свободы. Используя его, мы можем построить доверительный интервал для β :

на уровне достоверности (1 - γ ) , где - квантиль распределения t n −2 . Например, если γ = 0,05, то уровень достоверности составляет 95%.

Точно так же доверительный интервал для коэффициента пересечения α определяется выражением

на уровне достоверности (1 - γ ), где

В США регрессия «изменения безработицы - рост ВВП» с доверительными интервалами 95%.

Доверительные интервалы для α и β дают нам общее представление о том, где эти коэффициенты регрессии наиболее вероятны. Например, в приведенной здесь регрессии закона Окуня точечные оценки равны

95% доверительные интервалы для этих оценок равны

Чтобы представить эту информацию графически в виде доверительных полос вокруг линии регрессии, необходимо действовать осторожно и учитывать совместное распределение оценок. Можно показать [7], что на уровне достоверности (1 -  γ ) доверительный интервал имеет гиперболический вид, задаваемый уравнением

Асимптотическое предположение [ править ]

Альтернативное второе предположение гласит, что когда количество точек в наборе данных «достаточно велико», закон больших чисел и центральная предельная теорема становятся применимыми, и тогда распределение оценок становится приблизительно нормальным. В этом предположении все формулы , полученные в предыдущем разделе , остаются в силе, с единственным исключением , что квантиль т * п -2 из Стьюдента т распределения заменяется квантиль д * от стандартного нормального распределения . Иногда фракция1/п −2 заменяется на 1/п. При большом n такое изменение существенно не меняет результатов.

Числовой пример[ редактировать ]

Этот набор данных дает среднюю массу тела женщин как функцию их роста в выборке американских женщин в возрасте 30–39 лет. Хотя в статье OLS утверждается, что для этих данных было бы более подходящим запустить квадратичную регрессию, здесь вместо этого применяется простая модель линейной регрессии.

В этом наборе данных n = 15 точек. Расчеты вручную начинаются с нахождения следующих пяти сумм:

Эти величины будут использоваться для расчета оценок коэффициентов регрессии и их стандартных ошибок.

График точек и линии наименьших квадратов в численном примере простой линейной регрессии

Квантиль t- распределения Стьюдента 0,975 с 13 степенями свободы составляет t * 13 = 2,1604 , и, таким образом, 95% доверительные интервалы для α и β равны

Коэффициент корреляции продукта момент также может быть рассчитана:

Этот пример также демонстрирует, что сложные вычисления не преодолеют использование плохо подготовленных данных. Первоначально высота была дана в дюймах и была преобразована в ближайший сантиметр. Поскольку преобразование привело к ошибке округления, это не точное преобразование. Исходные дюймы могут быть восстановлены округлением (x / 0,0254), а затем преобразованы в метрические единицы без округления: если это будет сделано, результаты станут

Таким образом, кажущееся небольшое изменение данных имеет реальный эффект.

См. Также [ править ]

  • Матрица дизайна # Простая линейная регрессия
  • Линия фитинга
  • Оценка линейного тренда
  • Линейная сегментированная регрессия
  • Доказательства с использованием обычных наименьших квадратов - вывод всех формул, используемых в этой статье, в общем многомерном случае.

Ссылки [ править ]

  1. ^ Seltman, Говард J. (2008-09-08). Экспериментальный дизайн и анализ (PDF) . п. 227.
  2. ^ «Статистическая выборка и регрессия: простая линейная регрессия» . Колумбийский университет . Проверено 17 октября 2016 . Когда в регрессии используется одна независимая переменная, это называется простой регрессией; (...)
  3. ^ Лейн, Дэвид М. Введение в статистику (PDF) . п. 462.
  4. ^ Zou KH; Tuncali K; Сильверман С.Г. (2003). «Корреляция и простая линейная регрессия». Радиология . 227 (3): 617–22. DOI : 10,1148 / radiol.2273011499 . ISSN 0033-8419 . OCLC 110941167 . PMID 12773666 .   
  5. ^ Альтман, Наоми; Кшивинский, Мартин (2015). «Простая линейная регрессия». Методы природы . 12 (11): 999–1000. DOI : 10.1038 / nmeth.3627 . ISSN 1548-7091 . OCLC 5912005539 . PMID 26824102 .   
  6. ^ Кинни, ДФ и уход, Е. С. (1962) «линейная регрессия и корреляция.» Гл. 15 по математике статистики , Pt. 1, 3-е изд. Принстон, Нью-Джерси: Ван Ностранд, стр. 252–285.
  7. Casella, G. и Berger, RL (2002), «Статистический вывод» (2-е издание), Cengage, ISBN 978-0-534-24312-8 , стр. 558–559. 

Внешние ссылки [ править ]

  • Объяснение Wolfram MathWorld аппроксимации методом наименьших квадратов и того, как его вычислить
  • Математика простой регрессии (Роберт Нау, Университет Дьюка)