В статистике , линейная регрессия представляет собой линейный подход к моделированию отношения между скалярным ответом и одного или более независимым переменным (также известными как зависимым и независимым переменными ). Случай одной объясняющей переменной называется простой линейной регрессией ; для более чем одного процесс называется множественной линейной регрессией . [1] Этот термин отличается от многомерной линейной регрессии , где прогнозируются несколько коррелированных зависимых переменных, а не одна скалярная переменная. [2]
В линейной регрессии отношения моделируются с использованием функций линейного предсказания , неизвестные параметры модели которых оцениваются на основе данных . Такие модели называются линейными моделями . [3] Чаще всего предполагается , что условное среднее значение ответа при значениях независимых переменных (или предикторов) является аффинной функцией этих значений; реже используется условная медиана или какой-либо другой квантиль . Как и все формы регрессионного анализа , линейная регрессия фокусируется на условном распределении вероятностей ответа с учетом значений предикторов, а не на совместном распределении вероятностей всех этих переменных, которое является областью многомерного анализа .
Линейная регрессия была первым типом регрессионного анализа, который необходимо тщательно изучить и широко использовать в практических приложениях. [4] Это связано с тем, что модели, которые линейно зависят от их неизвестных параметров, легче подобрать, чем модели, которые нелинейно связаны с их параметрами, и потому, что статистические свойства полученных оценок легче определить.
Линейная регрессия имеет множество практических применений. Большинство приложений попадают в одну из следующих двух широких категорий:
- Если целью является прогнозирование , прогнозирование или уменьшение ошибок, [ требуется пояснение ] линейная регрессия может использоваться для подгонки модели прогнозирования к наблюдаемому набору данных значений отклика и независимых переменных. После разработки такой модели, если дополнительные значения независимых переменных собираются без сопровождающего значения ответа, подобранная модель может использоваться для прогнозирования ответа.
- Если цель состоит в том, чтобы объяснить вариацию в переменной ответа, которая может быть отнесена к вариации объясняющих переменных, можно применить линейный регрессионный анализ для количественной оценки силы взаимосвязи между ответом и объясняющими переменными и, в частности, для определения того, являются ли некоторые объясняющие переменные могут вообще не иметь линейной связи с ответом или определять, какие подмножества объясняющих переменных могут содержать избыточную информацию об ответе.
Модели линейной регрессии часто подбираются с использованием подхода наименьших квадратов , но они также могут быть приспособлены и другими способами, например, минимизируя «несоответствие» какой-либо другой норме (например, с регрессией наименьших абсолютных отклонений ) или минимизируя штрафные санкции. версия функции стоимости наименьших квадратов, как в регрессии гребня ( L 2 -нормальный штраф) и лассо ( L 1 -нормальный штраф). И наоборот, подход наименьших квадратов можно использовать для подбора моделей, которые не являются линейными моделями. Таким образом, хотя термины «наименьшие квадраты» и «линейная модель» тесно связаны, они не являются синонимами.
Вступление
Учитывая набор данныхДля n статистических единиц модель линейной регрессии предполагает, что взаимосвязь между зависимой переменной y и p -вектором регрессоров x является линейной . Эта связь моделируется с помощью параметра возмущения или переменной ошибки ε - ненаблюдаемой случайной величины, которая добавляет «шум» к линейной зависимости между зависимой переменной и регрессорами. Таким образом, модель принимает вид
где T обозначает транспонирование , так что x i T β - это скалярное произведение между векторами x i и β .
Часто эти n уравнений складываются вместе и записываются в матричной записи как
где
Несколько замечаний по обозначениям и терминологии:
- вектор наблюдаемых значений переменной, называемой регрессией , эндогенной переменной , переменной ответа , измеряемой переменной , критериальной переменной или зависимой переменной . Эта переменная также иногда называется прогнозируемой переменной , но ее не следует путать с прогнозируемыми значениями , которые обозначаются. Решение о том, какая переменная в наборе данных моделируется как зависимая переменная, а какая - как независимые, может быть основано на предположении, что значение одной из переменных вызвано или напрямую зависит от других переменных. В качестве альтернативы, может быть операционная причина для моделирования одной из переменных в терминах других, и в этом случае нет необходимости в презумпции причинной связи.
- можно рассматривать как матрицу векторов-строк или n -мерных векторов-столбцов, которые известны как регрессоры , экзогенные переменные , объясняющие переменные , ковариаты , входные переменные , переменные- предикторы или независимые переменные (не путать с концепцией независимых случайных величин ). Матрицаиногда называется матрицей дизайна .
- Обычно константа включается в качестве одного из регрессоров. В частности, для . Соответствующий элемент β называется перехватом . Многие процедуры статистического вывода для линейных моделей требуют наличия точки пересечения, поэтому ее часто включают, даже если теоретические соображения предполагают, что ее значение должно быть равно нулю.
- Иногда один из регрессоров может быть нелинейной функцией другого регрессора или данных, как в полиномиальной регрессии и сегментированной регрессии . Модель остается линейной, пока она линейна по вектору параметров β .
- Значения x ij можно рассматривать либо как наблюдаемые значения случайных величин X j, либо как фиксированные значения, выбранные до наблюдения зависимой переменной. Обе интерпретации могут быть подходящими в разных случаях и обычно приводят к одним и тем же процедурам оценки; однако в этих двух ситуациях используются разные подходы к асимптотическому анализу.
- это -мерный вектор параметров , где - член перехвата (если он включен в модель - в противном случае является р - мерным). Его элементы известны как эффекты или коэффициенты регрессии (хотя последний термин иногда используется для оценки эффектов). Статистическая оценка и вывод в линейной регрессии сосредоточены на β . Элементы этого вектора параметров интерпретируются как частные производные зависимой переменной по различным независимым переменным.
- вектор значений . Эта часть модели называется ошибкой , помехой или иногда шумом (в отличие от «сигнала», предоставляемого остальной частью модели). Эта переменная учитывает все другие факторы, влияющие на зависимую переменную y, кроме регрессоров x . Связь между членом ошибки и регрессорами, например их корреляция , является решающим фактором при формулировании модели линейной регрессии, поскольку она определяет соответствующий метод оценки.
Подгонка линейной модели к заданному набору данных обычно требует оценки коэффициентов регрессии. так что термин ошибки сводится к минимуму. Например, обычно используется сумма квадратов ошибок. как количество пригонки.
Пример . Рассмотрим ситуацию, когда маленький шарик подбрасывается в воздух, а затем мы измеряем высоту его подъема h i в различные моменты времени t i . Физика говорит нам, что, игнорируя сопротивление, отношения можно смоделировать как
где β 1 определяет начальную скорость мяча, β 2 пропорционально стандартной гравитации , а ε i обусловлено ошибками измерения. Линейная регрессия может использоваться для оценки значений β 1 и β 2 по измеренным данным. Эта модель нелинейна по временной переменной, но линейна по параметрам β 1 и β 2 ; если взять регрессоры x i = ( x i 1 , x i 2 ) = ( t i , t i 2 ), то модель приобретет стандартный вид
Предположения
Стандартные модели линейной регрессии со стандартными методами оценки делают ряд предположений относительно переменных-предикторов, переменных отклика и их взаимосвязи. Были разработаны многочисленные расширения, которые позволяют ослабить каждое из этих предположений (т.е. привести к более слабой форме), а в некоторых случаях полностью исключить. Как правило, эти расширения делают процедуру оценки более сложной и трудоемкой, а также могут потребовать больше данных для создания столь же точной модели.
Ниже приведены основные допущения, сделанные стандартными моделями линейной регрессии со стандартными методами оценки (например, обычным методом наименьших квадратов ):
- Слабая экзогенность . По сути, это означает, что переменные-предикторы x можно рассматривать как фиксированные значения, а не как случайные величины . Это означает, например, что предполагается, что переменные-предикторы не содержат ошибок, то есть не содержат ошибок измерения. Хотя это предположение нереально во многих условиях, отказ от него приводит к значительно более сложным моделям ошибок в переменных .
- Линейность . Это означает, что среднее значение переменной ответа представляет собой линейную комбинацию параметров (коэффициентов регрессии) и переменных-предикторов. Обратите внимание, что это предположение гораздо менее ограничительно, чем может показаться на первый взгляд. Поскольку переменные-предикторы обрабатываются как фиксированные значения (см. Выше), линейность на самом деле является только ограничением для параметров. Сами переменные-предикторы можно произвольно преобразовывать, и на самом деле можно добавить несколько копий одной и той же базовой переменной-предиктора, причем каждая из них будет преобразована по-разному. Этот метод используется, например, в полиномиальной регрессии , которая использует линейную регрессию для соответствия переменной ответа как произвольной полиномиальной функции (до заданного ранга) переменной-предиктора. Обладая такой гибкостью, такие модели, как полиномиальная регрессия, часто обладают «слишком большой мощностью» в том смысле , что они имеют тенденцию перегружать данные. В результате, как правило, должна использоваться какая-то регуляризация, чтобы предотвратить появление необоснованных решений в процессе оценки. Типичные примеры являются хребет регрессия и лассо регрессии . Также можно использовать байесовскую линейную регрессию , которая по своей природе более или менее защищена от проблемы переобучения. (На самом деле, гребень регрессии и лассо регрессии могут оба быть рассмотрены как частные случаи байесовской линейной регрессии, с определенными типами предшествующих распределений , помещенных на коэффициенты регрессии.)
- Постоянная дисперсия (также известная как гомоскедастичность ). Это означает, что дисперсия ошибок не зависит от значений переменных-предикторов. Таким образом, вариативность ответов для заданных фиксированных значений предикторов одинакова независимо от того, насколько велики или малы ответы. Часто это не так, поскольку переменная, среднее значение которой велико, обычно будет иметь большую дисперсию, чем переменная, среднее значение которой мало. Например, человек, прогнозируемый доход которого составляет 100 000 долларов, может легко иметь фактический доход в размере 80 000 или 120 000 долларов, т. Е. Стандартное отклонение около 20 000 долларов, в то время как другой человек с прогнозируемым доходом в 10 000 долларов вряд ли будет иметь такое же стандартное отклонение в 20 000 долларов. , поскольку это означало бы, что их реальный доход может варьироваться от -10 000 до 30 000 долларов. (Фактически, как это показывает, во многих случаях - часто в тех же случаях, когда допущение о нормально распределенных ошибках не выполняется - дисперсию или стандартное отклонение следует прогнозировать как пропорциональную среднему, а не константу.) Отсутствие гомоскедастичности является называется гетероскедастичностью . Чтобы проверить это предположение, график остатков по сравнению с прогнозируемыми значениями (или значениями каждого отдельного предиктора) может быть исследован на предмет «эффекта разветвления» (т. Е. Увеличения или уменьшения вертикального разброса при перемещении слева направо по графику) . График абсолютных или квадратичных остатков в сравнении с предсказанными значениями (или каждым предсказателем) также может быть исследован на наличие тренда или кривизны. Также можно использовать формальные тесты; см. Гетероскедастичность . Наличие гетероскедастичности приведет к использованию общей «средней» оценки дисперсии вместо той, которая учитывает истинную структуру дисперсии. Это приводит к менее точным (но в случае обычного метода наименьших квадратов , без смещения) оценкам параметров и смещенным стандартным ошибкам, что приводит к вводящим в заблуждение тестам и интервальным оценкам. Среднеквадратичная ошибка для модели также будет неправильно. Различные методы оценки, включая взвешенный метод наименьших квадратов и использование стандартных ошибок, согласующихся с гетероскедастичностью, позволяют справиться с гетероскедастичностью в довольно общем виде. Байесовские методы линейной регрессии также могут использоваться, когда предполагается, что дисперсия является функцией среднего значения. В некоторых случаях также возможно решить проблему, применив преобразование к переменной ответа (например, подгоняя логарифм переменной ответа с помощью модели линейной регрессии, которая подразумевает, что сама переменная ответа имеет логарифмически нормальное распределение, а не нормальное распределение ).
- Независимость от ошибок . Это предполагает, что ошибки переменных отклика не коррелируют друг с другом. (Фактическая статистическая независимость является более сильным условием, чем простое отсутствие корреляции, и часто не требуется, хотя ее можно использовать, если известно, что она выполняется.) Некоторые методы, такие как обобщенный метод наименьших квадратов , способны обрабатывать коррелированные ошибки, хотя обычно они требуют значительно больше данных, если не используется какая-либо регуляризация для смещения модели в сторону допущения некоррелированных ошибок. Байесовская линейная регрессия - это общий способ решения этой проблемы.
- Отсутствие идеальной мультиколлинеарности в предикторах. Для стандартных методов оценки наименьших квадратов матрица плана X должна иметь ранг полного столбца p ; в противном случае в переменных-предикторах существует совершенная мультиколлинеарность , что означает, что между двумя или более переменными-предикторами существует линейная связь. Это может быть вызвано случайным дублированием переменной в данных, использованием линейного преобразования переменной вместе с исходной (например, те же измерения температуры, выраженные в градусах Фаренгейта и Цельсия) или включением линейной комбинации нескольких переменных в модель, такие как их среднее. Это также может произойти, если доступно слишком мало данных по сравнению с количеством параметров, которые необходимо оценить (например, меньше точек данных, чем коэффициенты регрессии). Практические нарушения этого предположения, когда предикторы сильно, но не полностью коррелированы, могут снизить точность оценок параметров (см. Фактор инфляции дисперсии ). В случае идеальной мультиколлинеарности вектор параметров β будет неидентифицируемым - у него нет единственного решения. В таком случае могут быть идентифицированы только некоторые параметры (т. Е. Их значения могут быть оценены только в пределах некоторого линейного подпространства полного пространства параметров R p ). См. Частичную регрессию наименьших квадратов . Были разработаны методы аппроксимации линейных моделей с мультиколлинеарностью [5] [6] [7] [8], некоторые из которых требуют дополнительных предположений, таких как «разреженность эффекта» - что большая часть эффектов в точности равна нулю. Обратите внимание, что более затратные в вычислительном отношении итерационные алгоритмы для оценки параметров, такие как те, которые используются в обобщенных линейных моделях , не страдают от этой проблемы.
Помимо этих предположений, несколько других статистических свойств данных сильно влияют на производительность различных методов оценки:
- Статистическая взаимосвязь между ошибочными членами и регрессорами играет важную роль в определении того, имеет ли процедура оценки желательные свойства выборки, такие как объективность и непротиворечивость.
- Расположение или распределение вероятностей переменных-предикторов x имеет большое влияние на точность оценок β . Выборка и планирование экспериментов - это высокоразвитые области статистики, которые служат руководством для сбора данных таким образом, чтобы получить точную оценку β .
Интерпретация
Подобранная модель линейной регрессии может использоваться для идентификации взаимосвязи между одной переменной-предиктором x j и переменной отклика y, когда все другие переменные-предикторы в модели «фиксируются». В частности, интерпретация беты J является ожидать изменения у для изменения одного блока в х J , когда другие ковариаты проходят фиксированное, то есть ожидаемое значение частной производной от у по отношению к й J . Это иногда называют уникальный эффект от й J на у . В противоположность этому , предельный эффект от х J на у может быть оценена с помощью коэффициента корреляции или простой линейной регрессии модель , относящуюся только х J к у ; этот эффект является полной производной от у по отношению к й J .
Следует проявлять осторожность при интерпретации результатов регрессии, поскольку некоторые из регрессоров могут не допускать предельных изменений (например, фиктивные переменные или член перехвата), в то время как другие нельзя считать фиксированными (вспомните пример из введения: это было бы невозможно «удерживать t i фиксированным» и одновременно изменять значение t i 2 ).
Возможно, что уникальный эффект может быть почти нулевым, даже если предельный эффект велик. Это может означать, что некоторая другая ковариата захватывает всю информацию в x j , так что, как только эта переменная присутствует в модели, нет вклада x j в вариацию y . И наоборот, уникальный эффект x j может быть большим, в то время как его предельный эффект почти равен нулю. Это могло бы произойти, если бы другие ковариаты объяснили большую часть вариации y , но в основном они объясняют вариацию способом, который дополняет то, что фиксируется x j . В этом случае включение других переменных в модель уменьшает ту часть изменчивости y, которая не связана с x j , тем самым усиливая очевидную связь с x j .
Значение выражения «фиксируется» может зависеть от того, как возникают значения переменных-предикторов. Если экспериментатор непосредственно устанавливает значения переменных-предикторов в соответствии с планом исследования, интересующие сравнения могут буквально соответствовать сравнениям между единицами, предикторные переменные которых были «зафиксированы» экспериментатором. В качестве альтернативы выражение «фиксированный» может относиться к выбору, который имеет место в контексте анализа данных. В этом случае мы «фиксируем переменную», ограничивая наше внимание подмножествами данных, которые имеют общее значение для данной переменной-предиктора. Это единственная интерпретация термина «фиксированный», которая может быть использована в наблюдательном исследовании.
Понятие «уникальный эффект» привлекает внимание при изучении сложной системы, в которой несколько взаимосвязанных компонентов влияют на переменную отклика. В некоторых случаях это можно буквально интерпретировать как причинный эффект вмешательства, связанный со значением переменной-предиктора. Однако утверждалось, что во многих случаях множественный регрессионный анализ не может прояснить отношения между переменными-предикторами и переменной ответа, когда предикторы коррелированы друг с другом и не назначаются в соответствии с планом исследования. [9] Анализ общности может быть полезен при разделении общих и уникальных воздействий коррелированных независимых переменных. [10]
Расширения
Были разработаны многочисленные расширения линейной регрессии, которые позволяют ослабить некоторые или все допущения, лежащие в основе базовой модели.
Простая и множественная линейная регрессия
Самый простой случай единственной скалярной переменной-предиктора x и единственной скалярной переменной отклика y известен как простая линейная регрессия . Расширение до множественных и / или векторных переменных-предикторов (обозначенных с заглавной буквы X ) известно как множественная линейная регрессия , также известная как многомерная линейная регрессия (не путать с многомерной линейной регрессией [11] ).
Множественная линейная регрессия - это обобщение простой линейной регрессии на случай более чем одной независимой переменной и частный случай общих линейных моделей, ограниченных одной зависимой переменной. Базовая модель множественной линейной регрессии:
для каждого наблюдения i = 1, ..., n .
В приведенной выше формуле мы рассматриваем n наблюдений одной зависимой переменной и p независимых переменных. Таким образом, Y i - i- е наблюдение зависимой переменной, X ij - i- е наблюдение j- й независимой переменной, j = 1, 2, ..., p . Значения β j представляют параметры, которые необходимо оценить, а ε i - i- я независимая одинаково распределенная нормальная ошибка.
В более общей многомерной линейной регрессии существует одно уравнение приведенной выше формы для каждой из m > 1 зависимых переменных, которые имеют один и тот же набор независимых переменных и, следовательно, оцениваются одновременно друг с другом:
для всех наблюдений, индексированных как i = 1, ..., n, и для всех зависимых переменных, индексированных как j = 1, ..., m .
Почти все модели регрессии в реальном мире включают несколько предикторов, и базовые описания линейной регрессии часто формулируются в терминах модели множественной регрессии. Однако обратите внимание, что в этих случаях переменная отклика y по-прежнему является скаляром. Другой термин, многомерная линейная регрессия , относится к случаям, когда y является вектором, то есть аналогично общей линейной регрессии .
Общие линейные модели
Общая линейная модель рассматривается ситуация , когда переменная отклика не является скаляр (для каждого наблюдения) , но вектор, у я . Условная линейностьвсе еще предполагается, с матрицей B, заменяющей вектор β классической модели линейной регрессии. Были разработаны многомерные аналоги обыкновенных наименьших квадратов (OLS) и обобщенных наименьших квадратов (GLS). «Общие линейные модели» также называют «многомерными линейными моделями». Это не то же самое, что линейные модели с несколькими переменными (также называемые «множественными линейными моделями»).
Гетероскедастические модели
Были созданы различные модели, которые учитывают гетероскедастичность , то есть ошибки для разных переменных отклика могут иметь разные дисперсии . Например, взвешенные наименьшие квадраты - это метод оценки моделей линейной регрессии, когда переменные отклика могут иметь разные дисперсии ошибок, возможно, с коррелированными ошибками. (См. Также Взвешенный линейный метод наименьших квадратов и Обобщенный метод наименьших квадратов .) Стандартные ошибки с учетом гетероскедастичности - это улучшенный метод для использования с некоррелированными, но потенциально гетероскедастическими ошибками.
Обобщенные линейные модели
Обобщенные линейные модели (GLM) представляют собой основу для моделирования переменных отклика, которые являются ограниченными или дискретными. Это используется, например:
- при моделировании положительных величин (например, цен или численности населения), которые изменяются в большом масштабе, что лучше описать с помощью искаженного распределения, такого как логнормальное распределение или распределение Пуассона (хотя GLM не используются для логнормальных данных, вместо этого отклик переменная просто преобразуется с помощью функции логарифмирования);
- при моделировании категориальных данных , таких как выбор данного кандидата на выборах (что лучше описать с помощью распределения Бернулли / биномиального распределения для бинарных выборов или категориального распределения / полиномиального распределения для многовариантного выбора), где есть фиксированное количество вариантов, которые нельзя упорядочить;
- при моделировании порядковых данных , например рейтингов по шкале от 0 до 5, где можно упорядочить различные результаты, но где само количество не может иметь никакого абсолютного значения (например, оценка 4 не может быть «вдвое лучше» ни для одной цели смысл как оценка 2, но просто указывает, что он лучше, чем 2 или 3, но не так хорошо, как 5).
Обобщенные линейные модели позволяют для произвольной функции связи , г , что связывает среднее переменного отклика (ов) к предикторам:. Функция связи часто связана с распределением ответа, и, в частности, обычно имеет эффект преобразования между диапазон линейного предиктора и диапазон переменной ответа.
Вот некоторые распространенные примеры GLM:
- Регрессия Пуассона для данных подсчета.
- Логистическая регрессия и пробит-регрессия для двоичных данных.
- Полиномиальная логистическая регрессия и полиномиальная пробит- регрессия для категориальных данных.
- Упорядоченная логит- регрессия и упорядоченная пробит- регрессия для порядковых данных.
Модели с одним индексом [ необходимо пояснение ] допускают некоторую степень нелинейности во взаимосвязи между x и y , сохраняя при этом центральную роль линейного предиктора β ′ x, как в классической модели линейной регрессии. При определенных условиях простое применение OLS к данным из одноиндексной модели приведет к последовательной оценке β с точностью до константы пропорциональности. [12]
Иерархические линейные модели
Иерархические линейные модели (или многоуровневые регрессионный ) организуют данные в иерархию регрессий, например , где регрессируют на B и B регрессируют на C . Он часто используется там, где интересующие переменные имеют естественную иерархическую структуру, например, в статистике образования, где учащиеся вложены в классы, классы вложены в школы, а школы вложены в некоторые административные группы, такие как школьный округ. Переменная ответа может быть мерой успеваемости учащегося, например баллом за тест, и различные ковариаты будут собираться на уровне класса, школы и школьного округа.
Ошибки в переменных
Модели ошибок в переменных (или «модели ошибок измерения») расширяют традиционную модель линейной регрессии, позволяя наблюдать переменные-предикторы X с ошибкой. Эта ошибка приводит к смещению стандартных оценок β . Обычно форма смещения - это затухание, что означает, что эффекты смещены к нулю.
Другие
- В теории Демпстера – Шейфера или, в частности, в линейной функции доверия модель линейной регрессии может быть представлена как частично развернутая матрица, которую можно комбинировать с аналогичными матрицами, представляющими наблюдения и другие предполагаемые нормальные распределения и уравнения состояния. Комбинация матриц с разверткой и без развертки обеспечивает альтернативный метод оценки моделей линейной регрессии.
Методы оценки
Было разработано большое количество процедур для оценки параметров и вывода в линейной регрессии. Эти методы отличаются вычислительной простотой алгоритмов, наличием решения в замкнутой форме, надежностью по отношению к распределениям с тяжелыми хвостами и теоретическими допущениями, необходимыми для проверки желаемых статистических свойств, таких как согласованность и асимптотическая эффективность .
Ниже приведены некоторые из наиболее распространенных методов оценки линейной регрессии.
Предполагая, что независимая переменная а параметры модели равны , то прогноз модели будет . Если распространяется на тогда станет скалярным произведением параметра и независимой переменной, т. е. . В настройке наименьших квадратов оптимальный параметр определяется как такой, который минимизирует сумму среднеквадратичных потерь:
Теперь поместив независимые и зависимые переменные в матрицы а также соответственно, функцию потерь можно переписать как:
Поскольку потери являются выпуклыми, оптимальное решение лежит при нулевом градиенте. Градиент функции потерь (с использованием соглашения о компоновке знаменателя ):
Установка градиента на ноль дает оптимальный параметр:
Примечание: чтобы доказать, чтополученный действительно является локальным минимумом, нужно еще раз дифференцировать, чтобы получить матрицу Гессе и показать, что она положительно определена. Это обеспечивается теоремой Гаусса – Маркова .
Методы линейных наименьших квадратов включают в основном:
- Обычный метод наименьших квадратов
- Взвешенный метод наименьших квадратов
- Обобщенный метод наименьших квадратов
- Максимальное правдоподобие может быть выполненокогда распределение терминов ошибоккак известно, принадлежит к определенной параметрической семейству ƒ & thetas из вероятностных распределений . [14] Когда f θ является нормальным распределением с нулевым средним и дисперсией θ, результирующая оценка идентична оценке OLS. GLS-оценки являются оценками максимального правдоподобия, когда ε следует многомерному нормальному распределению с известной ковариационной матрицей .
- Ридж регрессии [15] [16] [17] и другие формы оценки наказанию, такие как Lasso регрессии , [5] намеренно ввести смещение в оценку р , с тем чтобы уменьшить изменчивость в оценке. Полученные оценки обычно имеют более низкую среднеквадратическую ошибку, чем оценки OLS, особенно когдаприсутствует мультиколлинеарность или когда переобучение является проблемой. Обычно они используются, когда цель состоит в том, чтобы предсказать значение переменной отклика y для значений предикторов x , которые еще не наблюдались. Эти методы не так часто используются, когда целью является вывод, поскольку трудно учесть предвзятость.
- Регрессия наименьшего абсолютного отклонения (LAD) - это надежный метод оценки , поскольку он менее чувствителен к наличию выбросов, чем OLS (но менее эффективен, чем OLS, когда выбросы отсутствуют). Это эквивалентно оценке максимального правдоподобия в рамкахмодели распределения Лапласа для ε . [18]
- Адаптивная оценка . Если мы предположим, что члены ошибки не зависят от регрессоров,, то оптимальной оценкой является двухэтапная MLE, где первый шаг используется для непараметрической оценки распределения члена ошибки. [19]
Другие методы оценки
- Байесовская линейная регрессия применяет структуру байесовской статистики к линейной регрессии. (См. Также байесовскую многомерную линейную регрессию .) В частности, предполагается, что коэффициенты регрессии β являются случайными величинами с заданным предварительным распределением . Априорное распределение может смещать решения для коэффициентов регрессии аналогично (но в более общем смысле) регрессии гребня или регрессии лассо . Кроме того, процесс байесовской оценки дает не единичную точечную оценку «лучших» значений коэффициентов регрессии, а полное апостериорное распределение , полностью описывающее неопределенность, окружающую величину. Это можно использовать для оценки «лучших» коэффициентов с использованием среднего значения, режима, медианы, любого квантиля (см. Квантильную регрессию ) или любой другой функции апостериорного распределения.
- Квантиль регрессия фокусируется на условных квантилей у дается X , а не условное среднее у дано X . Линейная квантильная регрессия моделирует конкретный условный квантиль, например условную медиану, как линейную функцию β T x предикторов.
- Смешанные модели широко используются для анализа отношений линейной регрессии с участием зависимых данных, когда зависимости имеют известную структуру. Общие применения смешанных моделей включают анализ данных, включающих повторные измерения, такие как продольные данные или данные, полученные в результате кластерной выборки. Обычно они подходят как параметрические модели с использованием оценки максимального правдоподобия или байесовской оценки. В случае, когда ошибки моделируются как обычные случайные величины, существует тесная связь между смешанными моделями и обобщенными методами наименьших квадратов. [20] Оценка фиксированных эффектов - это альтернативный подход к анализу этого типа данных.
- Регрессия главных компонентов (PCR) [7] [8] используется, когда количество переменных-предикторов велико или когда между переменными-предикторами существуют сильные корреляции. Эта двухэтапная процедура сначала уменьшает переменные-предикторы с помощью анализа главных компонентов, а затем использует сокращенные переменные в соответствии с регрессией OLS. Хотя это часто хорошо работает на практике, нет общей теоретической причины, по которой наиболее информативная линейная функция переменных-предикторов должна находиться среди доминирующих главных компонентов многомерного распределения переменных-предикторов. Регрессии по методу наименьших квадратов частичная является продолжением метода ПЦРкоторый не страдает от упомянутого дефицита.
- Регрессия наименьшего угла [6] - это процедура оценки для моделей линейной регрессии, которая была разработана для обработки многомерных ковариантных векторов, потенциально с большим количеством ковариат, чем наблюдений.
- Оценки Тейлей-Сен являются простой надежной оценкой метод , который выбирает наклон линии посадки , чтобы быть медианой склонов линий через пару точек выборки. Его свойства статистической эффективности аналогичны простой линейной регрессии, но он гораздо менее чувствителен к выбросам . [21]
- Были введены другие надежные методы оценки, в том числе подход с усеченным α-усреднением [ необходима цитата ] и L-, M-, S- и R-оценки . [ необходима цитата ]
Приложения
Линейная регрессия широко используется в биологических, поведенческих и социальных науках для описания возможных отношений между переменными. Он считается одним из самых важных инструментов, используемых в этих дисциплинах.
Линия тренда
Линия тренда представляет собой тренд, долгосрочное движение данных временного ряда после того, как были учтены другие компоненты. Он сообщает, увеличился или уменьшился конкретный набор данных (например, ВВП, цены на нефть или цены на акции) за период времени. Линию тренда можно просто провести на глаз через набор точек данных, но более правильно их положение и наклон рассчитываются с использованием статистических методов, таких как линейная регрессия. Линии тренда обычно являются прямыми линиями, хотя в некоторых вариантах используются полиномы более высокой степени в зависимости от желаемой степени кривизны линии.
Линии тренда иногда используются в бизнес-аналитике, чтобы показать изменения данных с течением времени. Преимущество этого заключается в простоте. Линии тренда часто используются для доказательства того, что конкретное действие или событие (например, обучение или рекламная кампания) вызвали наблюдаемые изменения в определенный момент времени. Это простой метод, не требующий контрольной группы, плана эксперимента или сложной техники анализа. Однако он страдает отсутствием научной обоснованности в тех случаях, когда другие потенциальные изменения могут повлиять на данные.
Эпидемиология
Ранние доказательства связи курения табака со смертностью и заболеваемостью были получены в результате обсервационных исследований с использованием регрессионного анализа. Чтобы уменьшить ложные корреляции при анализе данных наблюдений, исследователи обычно включают несколько переменных в свои регрессионные модели в дополнение к переменной, представляющей основной интерес. Например, в регрессионной модели, в которой курение сигарет является независимой переменной, представляющей основной интерес, а зависимой переменной является продолжительность жизни, измеряемая в годах, исследователи могут включить образование и доход в качестве дополнительных независимых переменных, чтобы гарантировать, что любое наблюдаемое влияние курения на продолжительность жизни не из-за других социально-экономических факторов . Однако никогда невозможно включить все возможные смешивающие переменные в эмпирический анализ. Например, гипотетический ген может увеличить смертность, а также заставить людей больше курить. По этой причине рандомизированные контролируемые испытания часто могут дать более убедительные доказательства причинно-следственных связей, чем можно получить с помощью регрессионного анализа данных наблюдений. Когда контролируемые эксперименты невозможны, варианты регрессионного анализа, такие как регрессия инструментальных переменных, могут использоваться для попытки оценить причинно-следственные связи на основе данных наблюдений.
Финансы
Модель ценообразования капитальных активов использует линейную регрессию, а также концепцию бета для анализа и количественной оценки систематического риска инвестиций. Это напрямую связано с коэффициентом бета модели линейной регрессии, который связывает доходность инвестиций с доходностью всех рискованных активов.
Экономика
Линейная регрессия - преобладающий эмпирический инструмент в экономике . Например, она используется для прогнозирования расходов на потребление , [22] инвестиций в основной капитал расходы, инвестиции в товарно -материальные запасы , закупки той или иной страны экспорта , [23] расходы на импорт , [23] требование иметь ликвидные активы , [24] труд спрос , [25] и предложение рабочей силы . [25]
Наука об окружающей среде
Линейная регрессия находит применение в широком спектре приложений науки об окружающей среде. В Канаде Программа мониторинга воздействия на окружающую среду использует статистический анализ рыбных и бентических исследований для измерения воздействия стоков целлюлозных заводов или металлических рудников на водную экосистему. [26]
Машинное обучение
Линейная регрессия играет важную роль в области искусственного интеллекта, известной как машинное обучение . Алгоритм линейной регрессии является одним из основных алгоритмов машинного обучения с учителем из-за его относительной простоты и хорошо известных свойств. [27]
История
Линейная регрессия методом наименьших квадратов как средство нахождения хорошей приблизительной линейной аппроксимации набора точек была выполнена Лежандром (1805 г.) и Гауссом (1809 г.) для предсказания движения планет. Кетле отвечал за то, чтобы эта процедура стала широко известной и широко использовалась в социальных науках. [28]
Смотрите также
- Дисперсионный анализ
- Разложение Блайндера – Оахаки
- Цензурированная регрессионная модель
- Поперечная регрессия
- Подгонка кривой
- Эмпирические байесовские методы
- Ошибки и остатки
- Неподходящая сумма квадратов
- Линия фитинга
- Линейный классификатор
- Линейное уравнение
- Логистическая регрессия
- М-оценка
- Многомерные сплайны адаптивной регрессии
- Нелинейная регрессия
- Непараметрическая регрессия
- Нормальные уравнения
- Прогресс в погоне за проекцией
- Методология моделирования отклика
- Сегментированная линейная регрессия
- Пошаговая регрессия
- Структурный разрыв
- Машина опорных векторов
- Модель усеченной регрессии
Рекомендации
Цитаты
- ^ Дэвид А. Фридман (2009). Статистические модели: теория и практика . Издательство Кембриджского университета . п. 26.
Простое уравнение регрессии имеет в правой части точку пересечения и независимую переменную с коэффициентом наклона. Множественная регрессия с правой стороны, каждая со своим коэффициентом наклона
- ^ Rencher, Alvin C .; Кристенсен, Уильям Ф. (2012), «Глава 10, Многомерная регрессия - Раздел 10.1, Введение», Методы многомерного анализа , Ряд Уайли в вероятностях и статистике, 709 (3-е изд.), John Wiley & Sons, p. 19, ISBN 9781118391679.
- ^ Хилари Л. Сил (1967). «Историческое развитие линейной модели Гаусса». Биометрика . 54 (1/2): 1–24. DOI : 10.1093 / Biomet / 54.1-2.1 . JSTOR 2333849 .
- ^ Ян, Синь (2009), Анализ линейной регрессии: теория и вычисления , World Scientific, стр. 1-2, ISBN 9789812834119,
Регрессионный анализ ... вероятно, одна из старейших тем математической статистики, возникшая около двухсот лет назад. Самой ранней формой линейной регрессии был метод наименьших квадратов, который был опубликован Лежандром в 1805 году и Гауссом в 1809 году ... И Лежандр, и Гаусс применили этот метод к проблеме определения орбит тел из астрономических наблюдений. о солнце.
- ^ а б Тибширани, Роберт (1996). «Регрессионное сжатие и выделение с помощью лассо». Журнал Королевского статистического общества, Series B . 58 (1): 267–288. JSTOR 2346178 .
- ^ а б Эфрон, Брэдли; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Наименьшая угловая регрессия». Летопись статистики . 32 (2): 407–451. arXiv : math / 0406456 . DOI : 10.1214 / 009053604000000067 . JSTOR 3448465 .
- ^ а б Хокинс, Дуглас М. (1973). «Об исследовании альтернативных регрессий методом главных компонент». Журнал Королевского статистического общества, серия C . 22 (3): 275–286. JSTOR 2346776 .
- ^ а б Джоллифф, Ян Т. (1982). «Примечание об использовании основных компонентов в регрессии». Журнал Королевского статистического общества, серия C . 31 (3): 300–303. JSTOR 2348005 .
- ^ Берк, Ричард А. (2007). «Регрессионный анализ: конструктивная критика». Обзор уголовного правосудия . 32 (3): 301–302. DOI : 10.1177 / 0734016807304871 .
- ^ Варн, Рассел Т. (2011). «Помимо множественной регрессии: использование анализа общности для лучшего понимания результатов R2». Ежеквартально для одаренных детей . 55 (4): 313–318. DOI : 10.1177 / 0016986211422217 .
- ^ Идальго, Берта; Гудман, Мелодия (2012-11-15). "Многомерная или многомерная регрессия?" . Американский журнал общественного здравоохранения . 103 (1): 39–40. DOI : 10,2105 / AJPH.2012.300897 . ISSN 0090-0036 . PMC 3518362 . PMID 23153131 .
- ^ Бриллинджер, Дэвид Р. (1977). «Идентификация конкретной нелинейной системы временных рядов». Биометрика . 64 (3): 509–515. DOI : 10.1093 / Biomet / 64.3.509 . JSTOR 2345326 .
- ^ Гальтон, Фрэнсис (1886). «Регресс к посредственности в наследственном росте» . Журнал Антропологического института Великобритании и Ирландии . 15 : 246–263. DOI : 10.2307 / 2841583 . ISSN 0959-5295 .
- ^ Lange, Kenneth L .; Литтл, Родерик JA; Тейлор, Джереми MG (1989). «Робастное статистическое моделирование с использованием t-распределения» (PDF) . Журнал Американской статистической ассоциации . 84 (408): 881–896. DOI : 10.2307 / 2290063 . JSTOR 2290063 .
- ^ Свиндел, Бини Ф. (1981). «Иллюстрированная геометрия хребтовой регрессии». Американский статистик . 35 (1): 12–15. DOI : 10.2307 / 2683577 . JSTOR 2683577 .
- ^ Draper, Norman R .; ван Ностранд; Р. Крейг (1979). «Регрессия Риджа и оценка Джеймса-Стейна: обзор и комментарии». Технометрика . 21 (4): 451–466. DOI : 10.2307 / 1268284 . JSTOR 1268284 .
- ^ Hoerl, Arthur E .; Кеннард, Роберт В .; Хорл, Роджер В. (1985). «Практическое использование регрессии хребта: проблема решена». Журнал Королевского статистического общества, серия C . 34 (2): 114–120. JSTOR 2347363 .
- ^ Нарула, Субхаш С .; Веллингтон, Джон Ф. (1982). «Минимальная сумма абсолютных ошибок регрессии: современное исследование». Международное статистическое обозрение . 50 (3): 317–326. DOI : 10.2307 / 1402501 . JSTOR 1402501 .
- ^ Стоун, CJ (1975). «Адаптивные оценки максимального правдоподобия параметра местоположения» . Летопись статистики . 3 (2): 267–284. DOI : 10.1214 / AOS / 1176343056 . JSTOR 2958945 .
- ^ Гольдштейн, Х. (1986). «Многоуровневый анализ смешанной линейной модели с использованием итеративного обобщенного метода наименьших квадратов». Биометрика . 73 (1): 43–56. DOI : 10.1093 / Biomet / 73.1.43 . JSTOR 2336270 .
- ^ Тейл, Х. (1950). «Рангово-инвариантный метод линейного и полиномиального регрессионного анализа. I, II, III». Nederl. Акад. Wetensch., Proc . 53 : 386–392, 521–525, 1397–1412. Руководство по ремонту 0036489 .; Сен, Пранаб Кумар (1968). «Оценки коэффициента регрессии на основе тау Кендалла». Журнал Американской статистической ассоциации . 63 (324): 1379–1389. DOI : 10.2307 / 2285891 . JSTOR 2285891 . Руководство по ремонту 0258201 ..
- ^ Дитон, Ангус (1992). Понимание потребления . Издательство Оксфордского университета. ISBN 978-0-19-828824-4.
- ^ а б Кругман, Пол Р .; Обстфельд, М .; Мелиц, Марк Дж. (2012). Международная экономика: теория и политика (9-е глобальное издание). Харлоу: Пирсон. ISBN 9780273754091.
- ^ Лайдлер, Дэвид EW (1993). Спрос на деньги: теории, доказательства и проблемы (4-е изд.). Нью-Йорк: Харпер Коллинз. ISBN 978-0065010985.
- ^ а б Эренберг; Смит (2008). Современная экономика труда (10-е международное изд.). Лондон: Аддисон-Уэсли. ISBN 9780321538963.
- ^ Веб-страница EEMP. Архивировано 11 июня 2011 г. на Wayback Machine.
- ^ «Линейная регрессия (машинное обучение)» (PDF) . Университет Питтсбурга .
- ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Кембридж: Гарвард. ISBN 0-674-40340-1.
Источники
- Коэн Дж., Коэн П., Уэст С.Г. и Эйкен Л.С. (2003). Применял множественный регрессионный / корреляционный анализ для поведенческих наук . (2-е изд.) Хиллсдейл, Нью-Джерси: Lawrence Erlbaum Associates
- Чарльз Дарвин . Изменчивость животных и растений при одомашнивании . (1868 г.) (Глава XIII описывает то, что было известно о реверсии во времена Гальтона. Дарвин использует термин «реверсия».)
- Draper, NR; Смит, Х. (1998). Прикладной регрессионный анализ (3-е изд.). Джон Вили. ISBN 978-0-471-17082-2.
- Фрэнсис Гальтон. «Регресс к посредственности в наследственном росте», журнал Антропологического института , 15: 246-263 (1886). (Факс: [1] )
- Роберт С. Пиндик и Дэниел Л. Рубинфельд (1998, 4-е изд.). Эконометрические модели и экономические прогнозы , гл. 1 (Введение, включая приложения по операторам Σ и вычислению оценочного параметра) и Приложение 4.3 (многоуровневая регрессия в матричной форме).
дальнейшее чтение
- Педхазур, Элазар Дж (1982). Множественная регрессия в поведенческих исследованиях: объяснение и прогноз (2-е изд.). Нью-Йорк: Холт, Райнхарт и Уинстон. ISBN 978-0-03-041760-3.
- Матье Руо, 2013: Вероятность, статистика и оценка Глава 2: Линейная регрессия, линейная регрессия с полосами погрешностей и нелинейная регрессия.
- Национальная физическая лаборатория (1961). «Глава 1: Линейные уравнения и матрицы: прямые методы». Современные вычислительные методы . Заметки по прикладной науке. 16 (2-е изд.). Канцелярия Ее Величества .
Внешние ссылки
- Регрессия наименьших квадратов , Интерактивное моделирование PhET , Университет Колорадо в Боулдере
- Сделай сам, линейная подгонка