Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике , линейная регрессия представляет собой линейный подход к моделированию отношения между скалярным ответом и одного или более независимым переменным (также известными как зависимым и независимым переменными ). Случай одной независимой переменной называется простой линейной регрессией ; для более чем одного этот процесс называется множественной линейной регрессией . [1] Этот термин отличается от многомерной линейной регрессии , где прогнозируются несколько коррелированных зависимых переменных, а не одна скалярная переменная. [2]

В линейной регрессии отношения моделируются с использованием функций линейного предсказания , неизвестные параметры модели которых оцениваются на основе данных . Такие модели называются линейными моделями . [3] Чаще всего предполагается , что условное среднее значение ответа с учетом значений независимых переменных (или предикторов) является аффинной функцией этих значений; реже используется условная медиана или другой квантиль . Как и все формы регрессионного анализа , линейная регрессия фокусируется на условном распределении вероятностей.отклика с учетом значений предикторов, а не совместного распределения вероятностей всех этих переменных, что является областью многомерного анализа .

Линейная регрессия была первым типом регрессионного анализа, который необходимо тщательно изучить и широко использовать в практических приложениях. [4] Это связано с тем, что модели, которые линейно зависят от их неизвестных параметров, легче подобрать, чем модели, которые нелинейно связаны с их параметрами, и потому, что статистические свойства полученных оценок легче определить.

Линейная регрессия имеет множество практических применений. Большинство приложений попадают в одну из следующих двух широких категорий:

  • Если целью является прогнозирование , прогнозирование или уменьшение ошибок, [ необходимо пояснение ] линейная регрессия может использоваться для подгонки модели прогнозирования к наблюдаемому набору данных значений отклика и независимых переменных. После разработки такой модели, если дополнительные значения независимых переменных собираются без сопутствующего значения ответа, подобранная модель может использоваться для прогнозирования ответа.
  • Если цель состоит в том, чтобы объяснить вариацию в переменной ответа, которая может быть отнесена к вариации объясняющих переменных, можно применить линейный регрессионный анализ для количественной оценки силы взаимосвязи между ответом и объясняющими переменными, и, в частности, для определения того, объясняющие переменные могут вообще не иметь линейной связи с ответом или определять, какие подмножества объясняющих переменных могут содержать избыточную информацию об ответе.

Модели линейной регрессии часто подбираются с использованием метода наименьших квадратов , но они также могут быть приспособлены и другими способами, например, минимизируя «несоответствие» какой-либо другой норме (например, с регрессией наименьших абсолютных отклонений ) или минимизируя штрафные санкции. версия функции стоимости наименьших квадратов, как в регрессии гребня ( L 2 -нормальный штраф) и лассо ( L 1 -нормальный штраф). И наоборот, подход наименьших квадратов можно использовать для подбора моделей, которые не являются линейными моделями. Таким образом, хотя термины «наименьшие квадраты» и «линейная модель» тесно связаны, они не являются синонимами.

Введение [ править ]

При линейной регрессии предполагается , что наблюдения ( красный цвет ) являются результатом случайных отклонений ( зеленый цвет ) от основной связи ( синий цвет ) между зависимой переменной ( y ) и независимой переменной ( x ).

Учитывая набор данных из n статистических единиц , модель линейной регрессии предполагает, что взаимосвязь между зависимой переменной y и p -вектором регрессоров x является линейной . Эта взаимосвязь моделируется с помощью параметра возмущения или переменной ошибки ε - ненаблюдаемой случайной величины, которая добавляет «шум» к линейной зависимости между зависимой переменной и регрессорами. Таким образом, модель принимает вид

где T обозначает транспонирование , так что x i T β - это скалярное произведение между векторами x i и β .

Часто эти n уравнений складываются вместе и записываются в матричной записи как

куда

Несколько замечаний по обозначениям и терминологии:

  • представляет собой вектор наблюдаемых значений переменной, называемой регрессией , эндогенной переменной , переменной ответа , измеряемой переменной , критериальной переменной или зависимой переменной . Эта переменная также иногда называется прогнозируемой переменной , но ее не следует путать с прогнозируемыми значениями , которые обозначаются. Решение о том, какая переменная в наборе данных моделируется как зависимая переменная, а какая - как независимые, может быть основано на предположении, что значение одной из переменных вызвано или находится под прямым влиянием других переменных. В качестве альтернативы, может быть операционная причина для моделирования одной из переменных в терминах других, и в этом случае не требуется презумпции причинной связи.
  • можно рассматривать как матрицу векторов-строк или n- мерных векторов-столбцов , которые известны как регрессоры , экзогенные переменные , объясняющие переменные , ковариаты , входные переменные , переменные-предикторы или независимые переменные (не путать с концепцией из независимых случайных величин ). Матрицу иногда называют матрицей дизайна .
    • Обычно константа включается в качестве одного из регрессоров. В частности, для . Соответствующий элемент β называется перехватом . Многие процедуры статистического вывода для линейных моделей требуют наличия точки пересечения, поэтому ее часто включают, даже если теоретические соображения предполагают, что ее значение должно быть равно нулю.
    • Иногда один из регрессоров может быть нелинейной функцией другого регрессора или данных, как в полиномиальной регрессии и сегментированной регрессии . Модель остается линейной до тех пор, пока она линейна по вектору параметров β .
    • Значения x ij можно рассматривать либо как наблюдаемые значения случайных величин X j, либо как фиксированные значения, выбранные до наблюдения зависимой переменной. Обе интерпретации могут быть уместными в разных случаях и обычно приводят к одинаковым процедурам оценки; однако в этих двух ситуациях используются разные подходы к асимптотическому анализу.
  • это - мерный вектор параметров , где это термин перехватывает (если она включена в модели, иначе это р - мерный). Его элементы известны как коэффициенты эффектов или регрессии (хотя последний термин иногда используется для оценки эффектов). Статистическая оценка и вывод в линейной регрессии сосредоточены на β . Элементы этого вектора параметров интерпретируются как частные производные зависимой переменной по различным независимым переменным.
  • - вектор значений . Эта часть модели называется ошибкой , помехой или иногда шумом (в отличие от «сигнала», предоставляемого остальной частью модели). Эта переменная учитывает все другие факторы, которые влияют на зависимую переменную y, кроме регрессоров x . Взаимосвязь между членом ошибки и регрессорами, например их корреляция , является решающим фактором при формулировании модели линейной регрессии, поскольку она определит соответствующий метод оценки.

Подгонка линейной модели к заданному набору данных обычно требует оценки коэффициентов регрессии , чтобы минимизировать член ошибки . Например, в качестве величины соответствия обычно используется сумма квадратов ошибок .

Пример . Рассмотрим ситуацию, когда маленький шарик подбрасывается в воздух, а затем мы измеряем высоту его подъема h i в различные моменты времени t i . Физика говорит нам, что, игнорируя сопротивление, взаимосвязь можно смоделировать как

где β 1 определяет начальную скорость мяча, β 2 пропорционально стандартной гравитации , а ε i обусловлено ошибками измерения. Линейная регрессия может использоваться для оценки значений β 1 и β 2 по измеренным данным. Эта модель нелинейна по временной переменной, но линейна по параметрам β 1 и β 2 ; если взять регрессоры x i  = ( x i 1 , x i 2 ) = ( t i ,t i 2 ) модель принимает стандартный вид

Предположения [ править ]

Стандартные модели линейной регрессии со стандартными методами оценки делают ряд предположений относительно переменных-предикторов, переменных отклика и их взаимосвязи. Были разработаны многочисленные расширения, которые позволяют смягчить каждое из этих предположений (то есть привести к более слабой форме), а в некоторых случаях полностью исключить. Обычно эти расширения делают процедуру оценки более сложной и трудоемкой, а также могут потребовать больше данных для создания столь же точной модели.

Пример кубической полиномиальной регрессии, которая является разновидностью линейной регрессии. Хотя полиномиальная регрессия подгоняет нелинейную модель к данным, как проблема статистической оценки она является линейной в том смысле, что функция регрессии E ( y | x ) линейна по неизвестным параметрам , которые оцениваются по данным . По этой причине полиномиальная регрессия считается частным случаем множественной линейной регрессии .

Ниже приведены основные допущения, сделанные стандартными моделями линейной регрессии со стандартными методами оценки (например, обычным методом наименьших квадратов ):

  • Слабая экзогенность . По сути, это означает, что переменные-предикторы x можно рассматривать как фиксированные значения, а не как случайные величины . Это означает, например, что предполагается, что переменные-предикторы не содержат ошибок, то есть не содержат ошибок измерения. Хотя это предположение нереально во многих ситуациях, отказ от него приводит к значительно более сложным моделям ошибок в переменных .
  • Линейность . Это означает, что среднее значение переменной ответа представляет собой линейную комбинацию параметров (коэффициентов регрессии) и переменных-предикторов. Обратите внимание, что это предположение гораздо менее ограничительно, чем может показаться на первый взгляд. Поскольку переменные-предикторы обрабатываются как фиксированные значения (см. Выше), линейность на самом деле является только ограничением для параметров. Сами переменные-предикторы можно произвольно преобразовать, и фактически можно добавить несколько копий одной и той же базовой переменной-предиктора, причем каждая из них будет преобразована по-разному. Этот метод используется, например, в полиномиальной регрессии , которая использует линейную регрессию для соответствия переменной ответа как произвольного полинома.функция (до заданного ранга) переменной-предиктора. Обладая такой большой гибкостью, такие модели, как полиномиальная регрессия, часто обладают «слишком большой мощностью» в том смысле , что они имеют тенденцию чрезмерно соответствовать данным. В результате, как правило, должна использоваться какая-то регуляризация, чтобы предотвратить появление необоснованных решений в процессе оценки. Типичные примеры являются хребет регрессия и лассо регрессии . Также может использоваться байесовская линейная регрессия , которая по своей природе более или менее защищена от проблемы переобучения. (На самом деле, хребет регрессия и лассо регрессия могут и рассматриваться как частные случаи байесовского линейной регрессии, с определенными типамипредшествующие распределения, помещенные на коэффициенты регрессии.)
  • Постоянная дисперсия (также известная как гомоскедастичность ). Это означает, что разные значения переменной ответа имеют одинаковую дисперсию своих ошибок, независимо от значений переменных-предикторов. На практике это предположение неверно (т.е. ошибки гетероскедастичны.), если переменная ответа может изменяться в широких пределах. Чтобы проверить вариацию неоднородной ошибки или когда образец остатков нарушает допущения модели о гомоскедастичности (ошибка одинаково варьируется вокруг «линии наилучшего совпадения» для всех точек x), разумно искать «эффект веером» "между остаточной ошибкой и прогнозируемыми значениями. Это означает, что будет происходить систематическое изменение абсолютных или квадратичных остатков при нанесении на график против прогнозных переменных. Ошибки не будут равномерно распределены по линии регрессии. Гетероскедастичность приведет к усреднению различимых отклонений вокруг точек, чтобы получить единственное отклонение, которое неточно представляет все отклонения линии. В результате,остатки кажутся сгруппированными и разбросанными на своих предсказанных графиках для больших и меньших значений для точек вдоль линии линейной регрессии, и среднеквадратичная ошибка для модели будет неправильной. Обычно, например, переменная ответа, среднее значение которой велико, будет иметь большую дисперсию, чем переменная, среднее значение которой мало. Например, конкретный человек, чей доход прогнозируется в размере 100 000 долларов, может легко иметь фактический доход в размере 80 000 или 120 000 долларов (стандартное отклонение около 20 000 долларов), в то время как другой человек с прогнозируемым доходом в 10 000 долларов вряд ли будет иметь такое же стандартное отклонение в 20 000 долларов, что означает, что их фактический доход будет варьироваться от -10 000 до 30 000 долларов. (Фактически, как это показывает, во многих случаях - часто в тех же случаях, когда допущение о нормально распределенных ошибках не выполняется - дисперсию или стандартное отклонение следует прогнозировать как пропорциональные среднему значению, а не константе.) Простые методы оценки линейной регрессии. дают менее точные оценки параметров и вводящие в заблуждение выводимые величины, такие как стандартные ошибки, когда присутствует значительная гетероскедастичность. Однако различные методы оценки (например, взвешенный метод наименьших квадратов и стандартные ошибки с учетом гетероскедастичности)) может справиться с гетероскедастичностью в самых общих чертах. Байесовские методы линейной регрессии также могут использоваться, когда предполагается, что дисперсия является функцией среднего. В некоторых случаях также возможно решить проблему, применив преобразование к переменной ответа (например, подгонка логарифма переменной ответа с использованием модели линейной регрессии, которая подразумевает, что переменная ответа имеет логарифмически нормальное распределение, а не нормальное распространение ).
  • Независимость от ошибок. Это предполагает, что ошибки переменных отклика не коррелируют друг с другом. (Фактическая статистическая независимость является более сильным условием, чем простое отсутствие корреляции, и часто не требуется, хотя ее можно использовать, если известно, что она выполняется.) Некоторые методы (например, обобщенные методы наименьших квадратов ) способны обрабатывать коррелированные ошибки, хотя обычно они требуется значительно больше данных, если не используется какая-то регуляризация, чтобы склонить модель к допущению некоррелированных ошибок. Байесовская линейная регрессия - это общий способ решения этой проблемы.
  • Отсутствие идеальной мультиколлинеарности в предикторах. Для стандартных методов оценки наименьших квадратов матрица плана X должна иметь ранг полного столбца p ; в противном случае мы имеем условие, известное как совершенная мультиколлинеарность в переменных-предикторах. Это может быть вызвано наличием двух или более идеально коррелированных переменных-предикторов (например, если одна и та же переменная-предиктор ошибочно задана дважды, либо без преобразования одной из копий, либо путем линейного преобразования одной из копий). Это также может произойти, если доступно слишком мало данных по сравнению с количеством параметров, которые необходимо оценить (например, меньше точек данных, чем коэффициенты регрессии). В случае идеальной мультиколлинеарности вектор параметровβ будет неидентифицируемым - у него нет единственного решения. В лучшем случае мы сможем идентифицировать некоторые из параметров, то есть сузить его значение до некоторого линейного подпространства R p . См. Частичную регрессию наименьших квадратов . Разработаны методы аппроксимации линейных моделей с мультиколлинеарностью; [5] [6] [7] [8] некоторые требуют дополнительных предположений, таких как «разреженность эффекта» - что большая часть эффектов точно равна нулю.
    Обратите внимание, что более затратные в вычислительном отношении итерационные алгоритмы для оценки параметров, такие как те, которые используются в обобщенных линейных моделях , не страдают от этой проблемы.

Помимо этих предположений, несколько других статистических свойств данных сильно влияют на производительность различных методов оценки:

  • Статистическая взаимосвязь между ошибочными членами и регрессорами играет важную роль в определении того, имеет ли процедура оценки желательные свойства выборки, такие как несмещенность и непротиворечивость.
  • Расположение или распределение вероятностей переменных-предикторов x имеет большое влияние на точность оценок β . Выборка и план экспериментов - это высокоразвитые области статистики, которые обеспечивают руководство для сбора данных таким образом, чтобы получить точную оценку β .

Интерпретация [ править ]

Наборы данных в квартете Анскомба имеют примерно одинаковую линию линейной регрессии (а также почти идентичные средние значения, стандартные отклонения и корреляции), но графически сильно отличаются. Это иллюстрирует подводные камни, если полагаться только на подобранную модель для понимания взаимосвязи между переменными.

Подобранная модель линейной регрессии может использоваться для определения взаимосвязи между одной переменной-предиктором x j и переменной отклика y, когда все другие переменные-предикторы в модели «фиксируются». В частности, интерпретация беты J является ожидать изменения у для изменения одного блока в х J , когда другие ковариаты проходят фиксированное, то есть ожидаемое значение частной производной от у по отношению к й J . Это иногда называют уникальный эффект от х J на у. В противоположность этому , предельный эффект от х J на у может быть оценена с помощью коэффициента корреляции или простой линейной регрессии модель , относящуюся только х J к у ; этот эффект является полной производной от у по отношению к й J .

Следует проявлять осторожность при интерпретации результатов регрессии, поскольку некоторые из регрессоров могут не допускать предельных изменений (например, фиктивные переменные или член перехвата), в то время как другие нельзя считать фиксированными (вспомните пример из введения: это было бы невозможно «удерживать t i фиксированным» и одновременно изменять значение t i 2 ).

Вполне возможно, что уникальный эффект может быть почти нулевым, даже если предельный эффект велик. Это может означать, что некоторая другая ковариата захватывает всю информацию в x j , так что, как только эта переменная присутствует в модели, нет вклада x j в вариацию y . И наоборот, уникальный эффект x j может быть большим, в то время как его предельный эффект почти равен нулю. Это могло бы произойти, если бы другие ковариаты объясняли большую часть вариации y , но в основном они объясняют вариацию способом, который дополняет то, что фиксируется x j . В этом случае включение других переменных в модель уменьшает часть изменчивостиy, который не связан с x j , тем самым усиливая очевидную связь с x j .

Значение выражения «фиксируется» может зависеть от того, как возникают значения переменных-предикторов. Если экспериментатор напрямую устанавливает значения переменных-предикторов в соответствии с планом исследования, интересующие сравнения могут буквально соответствовать сравнениям между единицами, предикторные переменные которых «фиксируются» экспериментатором. В качестве альтернативы выражение «фиксированный» может относиться к выбору, который имеет место в контексте анализа данных. В этом случае мы "фиксируем переменную", ограничивая наше внимание подмножествами данных, которые имеют общее значение для данной переменной-предиктора. Это единственная интерпретация термина «фиксируется», которая может быть использована в наблюдательном исследовании.

Понятие «уникальный эффект» привлекает внимание при изучении сложной системы, в которой несколько взаимосвязанных компонентов влияют на переменную отклика. В некоторых случаях его можно буквально интерпретировать как причинный эффект вмешательства, связанный со значением переменной-предиктора. Однако утверждалось, что во многих случаях множественный регрессионный анализ не может прояснить отношения между переменными-предикторами и переменной отклика, когда предикторы коррелируют друг с другом и не назначаются в соответствии с планом исследования. [9] Анализ общности может быть полезен в различении общих и уникальных воздействий коррелированных независимых переменных. [10]

Расширения [ править ]

Были разработаны многочисленные расширения линейной регрессии, которые позволяют ослабить некоторые или все допущения, лежащие в основе базовой модели.

Простая и множественная линейная регрессия [ править ]

Пример простой линейной регрессии с одной независимой переменной

Самый простой случай единственной скалярной переменной-предиктора x и единственной скалярной переменной отклика y известен как простая линейная регрессия . Расширение на несколько и / или векторных переменных-предикторов (обозначенных заглавной буквой X ) известно как множественная линейная регрессия , также известная как многомерная линейная регрессия .

Множественная линейная регрессия - это обобщение простой линейной регрессии на случай более чем одной независимой переменной и частный случай общих линейных моделей, ограниченных одной зависимой переменной. Базовая модель множественной линейной регрессии:

для каждого наблюдения i = 1, ..., n .

В приведенной выше формуле мы рассматриваем n наблюдений одной зависимой переменной и p независимых переменных. Таким образом, Y i - i- е наблюдение зависимой переменной, X ij - i- е наблюдение j- й независимой переменной, j = 1, 2, ..., p . Значения β j представляют параметры, которые необходимо оценить, а ε i - i- я независимая одинаково распределенная нормальная ошибка.

В более общей многомерной линейной регрессии существует одно уравнение указанной выше формы для каждой из m > 1 зависимых переменных, которые имеют один и тот же набор независимых переменных и, следовательно, оцениваются одновременно друг с другом:

для всех наблюдений, индексированных как i = 1, ..., n, и для всех зависимых переменных, индексированных как j = 1, ..., m .

Практически все реальные регрессионные модели включают несколько предикторов, и базовые описания линейной регрессии часто формулируются в терминах модели множественной регрессии. Однако обратите внимание, что в этих случаях переменная отклика y по-прежнему является скаляром. Другой термин, многомерная линейная регрессия , относится к случаям, когда y является вектором, то есть аналогично общей линейной регрессии .

Общие линейные модели [ править ]

Общая линейная модель рассматривается ситуация , когда переменная отклика не является скаляр (для каждого наблюдения) , но вектор, у я . По- прежнему предполагается условная линейность , при этом матрица B заменяет вектор β классической модели линейной регрессии. Были разработаны многомерные аналоги обыкновенных наименьших квадратов (OLS) и обобщенных наименьших квадратов (GLS). «Общие линейные модели» также называют «многомерными линейными моделями». Это не то же самое, что линейные модели с несколькими переменными (также называемые «множественные линейные модели»).

Гетероскедастические модели [ править ]

Были созданы различные модели, допускающие гетероскедастичность , то есть ошибки для разных переменных отклика могут иметь разные дисперсии . Например, взвешенные наименьшие квадраты - это метод оценки моделей линейной регрессии, когда переменные отклика могут иметь разные дисперсии ошибок, возможно, с коррелированными ошибками. (См. Также Взвешенный линейный метод наименьших квадратов и Обобщенный метод наименьших квадратов .) Стандартные ошибки, соответствующие гетероскедастичности, - это улучшенный метод для использования с некоррелированными, но потенциально гетероскедастическими ошибками.

Обобщенные линейные модели [ править ]

Обобщенные линейные модели (GLM) представляют собой основу для моделирования переменных отклика, которые являются ограниченными или дискретными. Это используется, например:

  • при моделировании положительных величин (например, цен или численности населения), которые изменяются в большом масштабе - которые лучше описать с использованием асимметричного распределения, такого как логнормальное распределение или распределение Пуассона (хотя GLM не используются для логнормальных данных, вместо этого отклик переменная просто преобразуется с помощью функции логарифмирования);
  • при моделировании категориальных данных , таких как выбор данного кандидата на выборах (что лучше описать с помощью распределения Бернулли / биномиального распределения для бинарных выборов или категориального распределения / полиномиального распределения для многовариантного выбора), где есть фиксированное количество вариантов, которые нельзя упорядочить;
  • при моделировании порядковых данных , например оценок по шкале от 0 до 5, где можно упорядочить различные результаты, но где само количество не может иметь никакого абсолютного значения (например, оценка 4 не может быть «вдвое лучше» ни для одной цели смысл как оценка 2, но просто указывает, что он лучше, чем 2 или 3, но не так хорошо, как 5).

Обобщенные линейные модели позволяют для произвольной функции связи , г , что связывает среднее переменного отклика (ов) к предикторам: . Функция связи часто связана с распределением отклика и, в частности, обычно имеет эффект преобразования между диапазоном линейного предсказателя и диапазоном переменной отклика.

Вот несколько распространенных примеров GLM:

  • Регрессия Пуассона для данных подсчета.
  • Логистическая регрессия и пробит-регрессия для двоичных данных.
  • Полиномиальная логистическая регрессия и полиномиальная пробит- регрессия для категориальных данных.
  • Упорядоченная логит- регрессия и упорядоченная пробит- регрессия для порядковых данных.

Модели с одним индексом [ требуется пояснение ] допускают некоторую степень нелинейности во взаимосвязи между x и y , сохраняя при этом центральную роль линейного предиктора βx, как в классической модели линейной регрессии. При определенных условиях простое применение OLS к данным из одноиндексной модели приведет к последовательной оценке β с точностью до константы пропорциональности. [11]

Иерархические линейные модели [ править ]

Иерархические линейные модели (или многоуровневые регрессионный ) организуют данные в иерархию регрессий, например , где регрессируют на B и B регрессируют на C . Он часто используется там, где интересующие переменные имеют естественную иерархическую структуру, например, в статистике образования, где учащиеся вложены в классы, классы вложены в школы, а школы вложены в некоторые административные группы, такие как школьный округ. Переменная ответа может быть мерой успеваемости учащихся, например баллом за тест, и различные ковариаты будут собираться на уровне класса, школы и школьного округа.

Ошибки в переменных [ править ]

Модели ошибок в переменных (или «модели ошибок измерения») расширяют традиционную модель линейной регрессии, позволяя наблюдать переменные-предикторы X с ошибкой. Эта ошибка приводит к смещению стандартных оценок β . Как правило, форма смещения - это затухание, что означает, что эффекты смещены к нулю.

Другое [ править ]

  • В теории Демпстера – Шейфера или, в частности, в линейной функции доверия модель линейной регрессии может быть представлена ​​как частично развернутая матрица, которую можно комбинировать с аналогичными матрицами, представляющими наблюдения и другие предполагаемые нормальные распределения и уравнения состояния. Комбинация матриц с разверткой и без развертки обеспечивает альтернативный метод оценки моделей линейной регрессии.

Методы оценки [ править ]

Было разработано большое количество процедур для оценки параметров и вывода в линейной регрессии. Эти методы отличаются вычислительной простотой алгоритмов, наличием решения в замкнутой форме, надежностью по отношению к распределениям с тяжелыми хвостами и теоретическими допущениями, необходимыми для проверки желаемых статистических свойств, таких как согласованность и асимптотическая эффективность .

Ниже приведены некоторые из наиболее распространенных методов оценки линейной регрессии.

Оценка методом наименьших квадратов и связанные методы [ править ]

Иллюстрация Фрэнсиса Гальтона 1875 года о корреляции между ростом взрослых и их родителей. Наблюдение за тем, что рост взрослых детей, как правило, меньше отклоняется от среднего роста, чем рост их родителей, предложил концепцию « регресса к среднему », давшую название регрессии. «Локус горизонтальных касательных точек» , проходящие через крайние левые и правые точки на эллипсе (который представляет собой кривой уровень из двухмерного нормального распределения , оцениваемого по данным) является МНКОМоценка регрессии роста родителей на росте детей, в то время как «геометрическое место вертикальных касательных точек» - это оценка регрессии роста детей на рост родителей с помощью метода наименьших квадратов. Большая ось эллипса - это оценка TLS .

Если предположить, что независимая переменная и параметры модели равны , то прогноз модели будет . Если распространяется на то стало бы скалярное произведение параметра и независимой переменной, то есть . В настройке наименьших квадратов оптимальный параметр определяется как такой, который минимизирует сумму среднеквадратичных потерь:

Теперь поместив независимые и зависимые переменные в матрицы и, соответственно, функцию потерь можно переписать как:

Поскольку потери являются выпуклыми, оптимальное решение лежит при нулевом градиенте. Градиент функции потерь (с использованием соглашения о компоновке знаменателя ):

Установка градиента на ноль дает оптимальный параметр:

Примечание. Чтобы доказать, что полученный результат действительно является локальным минимумом, нужно еще раз дифференцировать, чтобы получить матрицу Гессе и показать, что она положительно определена. Это обеспечивается теоремой Гаусса – Маркова .

Методы линейных наименьших квадратов включают в основном:

  • Обычный метод наименьших квадратов
  • Взвешенный метод наименьших квадратов
  • Обобщенный метод наименьших квадратов

Оценка максимального правдоподобия и связанные методы [ править ]

  • Максимальное правдоподобие может быть выполненокогда распределение терминов ошибоккак известно, принадлежит к определенной параметрической семейству ƒ & thetas из вероятностных распределений . [12] Когда f θ является нормальным распределением с нулевым средним и дисперсией θ, результирующая оценка идентична оценке OLS. GLS-оценки являются оценками максимального правдоподобия, когда ε следует многомерному нормальному распределению с известной ковариационной матрицей .
  • Регрессия гребня [13] [14] [15] и другие формы штрафных оценок, такие как регрессия Лассо , [5] намеренно вносят систематическую ошибку в оценку β , чтобы уменьшить изменчивость оценки. Полученные оценки обычно имеют более низкую среднеквадратическую ошибку, чем оценки OLS, особенно когдаприсутствует мультиколлинеарность или когдапроблема с переобучением . Они обычно используются, когда цель состоит в том, чтобы предсказать значение переменной отклика y для значений предикторов xчто еще не наблюдалось. Эти методы не так часто используются, когда целью является вывод, поскольку трудно учесть предвзятость.
  • Регрессия наименьшего абсолютного отклонения (LAD) - это надежный метод оценки , поскольку он менее чувствителен к наличию выбросов, чем OLS (но менее эффективен, чем OLS, когда выбросы отсутствуют). Это эквивалентно оценке максимального правдоподобия в рамкахмодели распределения Лапласа для ε . [16]
  • Адаптивная оценка . Если мы предположим, что члены ошибки не зависят от регрессоров, то оптимальной оценкой является двухэтапный MLE, где первый шаг используется для непараметрической оценки распределения члена ошибки. [17]

Другие методы оценки [ править ]

Сравнение оценки Тейла – Сена (черный) и простой линейной регрессии (синий) для набора точек с выбросами.
  • Байесовская линейная регрессия применяет структуру байесовской статистики к линейной регрессии. (См. Также байесовскую многомерную линейную регрессию .) В частности, предполагается, что коэффициенты регрессии β являются случайными величинами с заданным предварительным распределением . Априорное распределение может смещать решения для коэффициентов регрессии аналогично (но в более общем смысле) регрессии гребня или регрессии лассо . Кроме того, процесс байесовской оценки дает не единичную точечную оценку «лучших» значений коэффициентов регрессии, а полное апостериорное распределение., полностью описывая неопределенность, окружающую величину. Это можно использовать для оценки «лучших» коэффициентов с использованием среднего значения, режима, медианы, любого квантиля (см. Квантильную регрессию ) или любой другой функции апостериорного распределения.
  • Квантиль регрессия фокусируется на условных квантилей у дается X , а не условное среднее у дано X . Линейная квантильная регрессия моделирует конкретный условный квантиль, например условную медиану, как линейную функцию β T x предикторов.
  • Смешанные модели широко используются для анализа отношений линейной регрессии с участием зависимых данных, когда зависимости имеют известную структуру. Общие применения смешанных моделей включают анализ данных, включающих повторные измерения, такие как продольные данные или данные, полученные в результате кластерной выборки. Как правило, они подходят как параметрические модели с использованием оценки максимального правдоподобия или байесовской оценки. В случае, когда ошибки моделируются как обычные случайные величины, существует тесная связь между смешанными моделями и обобщенными методами наименьших квадратов. [18] Оценка фиксированных эффектов является альтернативным подходом к анализу этого типа данных.
  • Регрессия главных компонентов (PCR) [7] [8] используется, когда количество переменных-предикторов велико или когда между переменными-предикторами существуют сильные корреляции. Эта двухэтапная процедура сначала уменьшает переменные-предикторы с помощью анализа главных компонентов, а затем использует сокращенные переменные в соответствии с регрессией OLS. Хотя это часто хорошо работает на практике, нет общей теоретической причины, по которой наиболее информативная линейная функция переменных-предикторов должна находиться среди доминирующих главных компонентов многомерного распределения переменных-предикторов. Регрессии по методу наименьших квадратов частичная является продолжением метода ПЦРкоторый не страдает от упомянутого дефицита.
  • Регрессия наименьшего угла [6] - это процедура оценки моделей линейной регрессии, которая была разработана для обработки многомерных ковариантных векторов, потенциально с большим количеством ковариат, чем наблюдений.
  • Оценки Тейлей-Сен являются простой надежной оценкой метод , который выбирает наклон линии посадки , чтобы быть медианой склонов линий через пару точек выборки. Он имеет аналогичные свойства статистической эффективности с простой линейной регрессией, но гораздо менее чувствителен к выбросам . [19]
  • Были введены другие надежные методы оценки, в том числе подход с усеченным α-усреднением [ необходима цитата ] и L-, M-, S- и R-оценки . [ необходима цитата ]

Приложения [ править ]

Линейная регрессия широко используется в биологических, поведенческих и социальных науках для описания возможных отношений между переменными. Он считается одним из самых важных инструментов, используемых в этих дисциплинах.

Линия тренда [ править ]

Линия тренда представляет собой тренд, долгосрочное движение данных временного ряда после того, как были учтены другие компоненты. Он сообщает, увеличился или уменьшился конкретный набор данных (например, ВВП, цены на нефть или цены на акции) за период времени. Линию тренда можно просто провести на глаз через набор точек данных, но более правильно их положение и наклон рассчитываются с использованием статистических методов, таких как линейная регрессия. Линии тренда обычно являются прямыми линиями, хотя в некоторых вариантах используются полиномы более высокой степени в зависимости от желаемой степени кривизны линии.

Линии тренда иногда используются в бизнес-аналитике, чтобы показать изменения данных с течением времени. Преимущество этого заключается в простоте. Линии тренда часто используются для доказательства того, что конкретное действие или событие (например, обучение или рекламная кампания) вызвали наблюдаемые изменения в определенный момент времени. Это простой метод, не требующий контрольной группы, плана эксперимента или сложной техники анализа. Однако он страдает отсутствием научной обоснованности в случаях, когда другие потенциальные изменения могут повлиять на данные.

Эпидемиология [ править ]

Ранние доказательства связи курения табака со смертностью и заболеваемостью были получены в результате обсервационных исследований с использованием регрессионного анализа. Чтобы уменьшить ложные корреляции при анализе данных наблюдений, исследователи обычно включают в свои регрессионные модели несколько переменных в дополнение к переменной, представляющей основной интерес. Например, в регрессионной модели, в которой курение сигарет является независимой переменной, представляющей основной интерес, а зависимой переменной является продолжительность жизни, измеряемая в годах, исследователи могут включить образование и доход в качестве дополнительных независимых переменных, чтобы гарантировать, что любое наблюдаемое влияние курения на продолжительность жизни не из-за других социально-экономических факторов. Однако никогда нельзя включить все возможные смешивающие переменные в эмпирический анализ. Например, гипотетический ген может увеличить смертность, а также заставить людей больше курить. По этой причине рандомизированные контролируемые испытания часто позволяют получить более убедительные доказательства причинно-следственных связей, чем можно получить с помощью регрессионного анализа данных наблюдений. Когда контролируемые эксперименты неосуществимы, варианты регрессионного анализа, такие как регрессия инструментальных переменных, могут использоваться для попытки оценить причинно-следственные связи на основе данных наблюдений.

Финансы [ править ]

Модель ценообразования капитальных активов использует линейную регрессию, а также концепцию бета-тестирования для анализа и количественной оценки систематического риска инвестиций. Это напрямую связано с коэффициентом бета модели линейной регрессии, который связывает доходность инвестиций с доходностью всех рискованных активов.

Экономика [ править ]

Линейная регрессия - преобладающий эмпирический инструмент в экономике . Например, она используется для прогнозирования расходов на потребление , [20] инвестиций в основной капитал расходы, инвестиции в товарно -материальные запасы , закупки той или иной страны экспорта , [21] расходы на импорт , [21] требование иметь ликвидные активы , [22] спроса на рабочую силу , [23] и предложение рабочей силы . [23]

Экология [ править ]

Линейная регрессия находит применение в широком диапазоне приложений науки об окружающей среде. В Канаде Программа мониторинга воздействия на окружающую среду использует статистический анализ рыбных и бентических исследований для измерения воздействия стоков целлюлозных заводов или металлических рудников на водную экосистему. [24]

Машинное обучение [ править ]

Линейная регрессия играет важную роль в области искусственного интеллекта, такой как машинное обучение . Алгоритм линейной регрессии является одним из основных алгоритмов машинного обучения с учителем благодаря его относительной простоте и хорошо известным свойствам. [25]

История [ править ]

Линейная регрессия методом наименьших квадратов, как средство нахождения хорошей приблизительной линейной аппроксимации набора точек, была выполнена Лежандром (1805 г.) и Гауссом (1809 г.) для предсказания движения планет. Кетле отвечал за то, чтобы эта процедура стала широко известной и широко использовалась в социальных науках. [26]

См. Также [ править ]

  • Дисперсионный анализ
  • Разложение Блайндера – Оахаки
  • Цензурированная регрессионная модель
  • Поперечная регрессия
  • Подгонка кривой
  • Эмпирические байесовские методы
  • Ошибки и остатки
  • Неподходящая сумма квадратов
  • Линия фитинга
  • Линейный классификатор
  • Линейное уравнение
  • Логистическая регрессия
  • М-оценка
  • Многомерные сплайны адаптивной регрессии
  • Нелинейная регрессия
  • Непараметрическая регрессия
  • Нормальные уравнения
  • Прогресс в погоне за проекцией
  • Сегментированная линейная регрессия
  • Пошаговая регрессия
  • Структурный разрыв
  • Машина опорных векторов
  • Модель усеченной регрессии

Ссылки [ править ]

Цитаты [ править ]

  1. Дэвид А. Фридман (2009). Статистические модели: теория и практика . Издательство Кембриджского университета . п. 26. Простое уравнение регрессии имеет в правой части точку пересечения и объясняющую переменную с коэффициентом наклона. Множественная регрессия в правой части, каждая со своим коэффициентом наклона
  2. ^ Ренчер, Элвин С .; Кристенсен, Уильям Ф. (2012), «Глава 10, Многомерная регрессия - Раздел 10.1, Введение», Методы многомерного анализа , Ряд Уайли в вероятностях и статистике, 709 (3-е изд.), John Wiley & Sons, p. 19, ISBN 9781118391679.
  3. Хилари Л. Сил (1967). «Историческое развитие линейной модели Гаусса». Биометрика . 54 (1/2): 1–24. DOI : 10.1093 / Biomet / 54.1-2.1 . JSTOR 2333849 . 
  4. Ян, Синь (2009), Анализ линейной регрессии: теория и вычисления , World Scientific, стр. 1-2, ISBN 9789812834119, Регрессионный анализ ... вероятно, одна из старейших тем в математической статистике, возникшая примерно двести лет назад. Самой ранней формой линейной регрессии был метод наименьших квадратов, который был опубликован Лежандром в 1805 г. и Гауссом в 1809 г. ... И Лежандр, и Гаусс применили этот метод к проблеме определения орбит тел из астрономических наблюдений. про солнце.
  5. ^ a b Тибширани, Роберт (1996). «Регрессионное сжатие и выделение с помощью лассо». Журнал Королевского статистического общества, Series B . 58 (1): 267–288. JSTOR 2346178 . 
  6. ^ a b Эфрон, Брэдли; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Наименьший угол регрессии». Летопись статистики . 32 (2): 407–451. arXiv : math / 0406456 . DOI : 10.1214 / 009053604000000067 . JSTOR 3448465 . 
  7. ^ a b Хокинс, Дуглас М. (1973). «Об исследовании альтернативных регрессий методом главных компонент». Журнал Королевского статистического общества, серия C . 22 (3): 275–286. JSTOR 2346776 . 
  8. ^ a b Джоллифф, Ян Т. (1982). «Примечание об использовании основных компонентов в регрессии». Журнал Королевского статистического общества, серия C . 31 (3): 300–303. JSTOR 2348005 . 
  9. ^ Берк, Ричард А. (2007). «Регрессионный анализ: конструктивная критика». Обзор уголовного правосудия . 32 (3): 301–302. DOI : 10.1177 / 0734016807304871 .
  10. Перейти ↑ Warne, Russell T. (2011). «Помимо множественной регрессии: использование анализа общности для лучшего понимания результатов R2». Ежеквартально для одаренных детей . 55 (4): 313–318. DOI : 10.1177 / 0016986211422217 .
  11. ^ Бриллинджер, Дэвид Р. (1977). «Идентификация конкретной нелинейной системы временных рядов». Биометрика . 64 (3): 509–515. DOI : 10.1093 / Biomet / 64.3.509 . JSTOR 2345326 . 
  12. ^ Lange, Kenneth L .; Литтл, Родерик JA; Тейлор, Джереми MG (1989). «Робастное статистическое моделирование с использованием t-распределения» (PDF) . Журнал Американской статистической ассоциации . 84 (408): 881–896. DOI : 10.2307 / 2290063 . JSTOR 2290063 .  
  13. ^ Swindel, Benee F. (1981). «Иллюстрированная геометрия хребтовой регрессии». Американский статистик . 35 (1): 12–15. DOI : 10.2307 / 2683577 . JSTOR 2683577 . 
  14. ^ Дрейпер, Норман Р .; ван Ностранд; Р. Крейг (1979). «Регрессия Риджа и оценка Джеймса-Стейна: обзор и комментарии». Технометрика . 21 (4): 451–466. DOI : 10.2307 / 1268284 . JSTOR 1268284 . 
  15. ^ Hoerl, Артур E .; Кеннард, Роберт В .; Хорл, Роджер В. (1985). «Практическое использование регрессии хребта: проблема решена». Журнал Королевского статистического общества, серия C . 34 (2): 114–120. JSTOR 2347363 . 
  16. ^ Нарула, Субхаш С .; Веллингтон, Джон Ф. (1982). «Минимальная сумма абсолютных ошибок регрессии: современное исследование». Международное статистическое обозрение . 50 (3): 317–326. DOI : 10.2307 / 1402501 . JSTOR 1402501 . 
  17. Перейти ↑ Stone, CJ (1975). «Адаптивные оценки максимального правдоподобия параметра местоположения» . Летопись статистики . 3 (2): 267–284. DOI : 10.1214 / AOS / 1176343056 . JSTOR 2958945 . 
  18. ^ Голдштейн, Х. (1986). «Многоуровневый анализ смешанной линейной модели с использованием итеративного обобщенного метода наименьших квадратов». Биометрика . 73 (1): 43–56. DOI : 10.1093 / Biomet / 73.1.43 . JSTOR 2336270 . 
  19. ^ Тейл, Х. (1950). «Рангово-инвариантный метод линейного и полиномиального регрессионного анализа. I, II, III». Nederl. Акад. Wetensch., Proc . 53 : 386–392, 521–525, 1397–1412. Руководство по ремонту 0036489 . ; Сен, Пранаб Кумар (1968). «Оценки коэффициента регрессии на основе тау Кендалла». Журнал Американской статистической ассоциации . 63 (324): 1379–1389. DOI : 10.2307 / 2285891 . JSTOR 2285891 . Руководство по ремонту 0258201 .  .
  20. ^ Дитон, Ангус (1992). Понимание потребления . Издательство Оксфордского университета. ISBN 978-0-19-828824-4.
  21. ^ a b Кругман, Пол Р .; Обстфельд, М .; Мелиц, Марк Дж. (2012). Международная экономика: теория и политика (9-е глобальное издание). Харлоу: Пирсон. ISBN 9780273754091.
  22. ^ Laidler, Дэвид EW (1993). Спрос на деньги: теории, доказательства и проблемы (4-е изд.). Нью-Йорк: Харпер Коллинз. ISBN 978-0065010985.
  23. ^ а б Эренберг; Смит (2008). Современная экономика труда (10-е международное изд.). Лондон: Аддисон-Уэсли. ISBN 9780321538963.
  24. ^ Веб-страница EEMP. Архивировано 11 июня 2011 г. на Wayback Machine.
  25. ^ «Линейная регрессия (машинное обучение)» (PDF) . Университет Питтсбурга .
  26. ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Кембридж: Гарвард. ISBN 0-674-40340-1.

Источники [ править ]

  • Коэн, Дж., Коэн П., Уэст, С.Г., и Эйкен, Л.С. (2003). Применял множественный регрессионный / корреляционный анализ для поведенческих наук . (2-е изд.) Хиллсдейл, штат Нью-Джерси: Lawrence Erlbaum Associates
  • Чарльз Дарвин . Изменение животных и растений при одомашнивании . (1868 г.) (Глава XIII описывает то, что было известно о реверсии во времена Гальтона. Дарвин использует термин «реверсия».)
  • Draper, NR; Смит, Х. (1998). Прикладной регрессионный анализ (3-е изд.). Джон Вили. ISBN 978-0-471-17082-2.
  • Фрэнсис Гальтон. «Регресс к посредственности в наследственном росте», журнал Антропологического института , 15: 246-263 (1886). (Факс: [1] )
  • Роберт С. Пиндик и Дэниел Л. Рубинфельд (1998, 4-е изд.). Эконометрические модели и экономические прогнозы , гл. 1 (Введение, включая приложения по операторам Σ и вычислению оценочного параметра) и Приложение 4.3 (многоуровневая регрессия в матричной форме).

Дальнейшее чтение [ править ]

  • Педхазур, Элазар Дж (1982). Множественная регрессия в поведенческих исследованиях: объяснение и прогноз (2-е изд.). Нью-Йорк: Холт, Райнхарт и Уинстон. ISBN 978-0-03-041760-3.
  • Матье Руо, 2013: Вероятность, статистика и оценка Глава 2: Линейная регрессия, линейная регрессия с полосами погрешностей и нелинейная регрессия.
  • Национальная физическая лаборатория (1961). «Глава 1: Линейные уравнения и матрицы: прямые методы». Современные вычислительные методы . Заметки по прикладной науке. 16 (2-е изд.). Канцелярия Ее Величества .

Внешние ссылки [ править ]

  • Регрессия наименьших квадратов , Интерактивное моделирование PhET , Университет Колорадо в Боулдере
  • DIY Linear Fit