Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Линия регрессии для 50 случайных точек в распределении Гаусса вокруг линии y = 1,5x + 2 (не показана).

В статистическом моделировании , регрессионный анализ представляет собой набор статистических процессов для оценки соотношения между зависимой переменной (часто называемой «результат переменной») и одного или более независимых переменных (часто называемый «предикторы», «ковариаты», или «функции» ). Наиболее распространенной формой регрессионного анализа является линейная регрессия , при которой находят линию (или более сложную линейную комбинацию ), которая наиболее точно соответствует данным в соответствии с определенным математическим критерием. Например, метод обычных наименьших квадратов вычисляет уникальную линию (или гиперплоскость), который минимизирует сумму квадратов разностей между истинными данными и этой линией (или гиперплоскостью). По определенным математическим причинам (см. Линейную регрессию ) это позволяет исследователю оценить условное ожидание (или среднее значение по совокупности ) зависимой переменной, когда независимые переменные принимают заданный набор значений. Менее распространенные формы регрессии используют несколько иные процедуры для оценки альтернативных параметров местоположения (например, квантильная регрессия или анализ необходимых условий [1] ) или оценки условного ожидания по более широкому набору нелинейных моделей (например, непараметрическая регрессия ).

Регрессионный анализ в основном используется для двух концептуально различных целей. Во-первых, регрессионный анализ широко используется для прогнозирования и прогнозирования , где его использование в значительной степени совпадает с областью машинного обучения . Во-вторых, в некоторых ситуациях регрессионный анализ может использоваться для вывода причинно-следственных связей.между независимыми и зависимыми переменными. Важно отметить, что сами по себе регрессии выявляют только отношения между зависимой переменной и набором независимых переменных в фиксированном наборе данных. Чтобы использовать регрессии для прогнозирования или для вывода причинно-следственных связей, соответственно, исследователь должен тщательно обосновать, почему существующие отношения имеют предсказательную силу для нового контекста или почему отношения между двумя переменными имеют причинную интерпретацию. Последнее особенно важно, когда исследователи надеются оценить причинно-следственные связи, используя данные наблюдений . [2] [3]

История [ править ]

Самой ранней формой регрессии был метод наименьших квадратов , который был опубликован Лежандром в 1805 г. [4] и Гауссом в 1809 г. [5] Лежандр и Гаусс применили этот метод к проблеме определения на основе астрономических наблюдений величины орбиты тел вокруг Солнца (в основном кометы, но также и недавно открытые малые планеты). Гаусс опубликовал дальнейшее развитие теории наименьших квадратов в 1821 году [6], включая версию теоремы Гаусса – Маркова .

Термин «регрессия» был введен Фрэнсисом Гальтоном в девятнадцатом веке для описания биологического явления. Феномен заключался в том, что рост потомков высоких предков имеет тенденцию к понижению до нормального среднего значения (явление, также известное как регрессия к среднему ). [7] [8] Для Гальтона регрессия имела только это биологическое значение, [9] [10], но его работа позже была расширена Удни Юлом и Карлом Пирсоном на более общий статистический контекст. [11] [12] В работе Юла и Пирсона предполагается , что совместное распределение отклика и объясняющих переменных равноГауссовский . Это предположение было ослаблено Р. А. Фишером в его работах 1922 и 1925 годов. [13] [14] [15] Фишер предположил, что условное распределение переменной отклика является гауссовым, но совместное распределение не обязательно. В этом отношении предположение Фишера ближе к формулировке Гаусса 1821 года.

В 1950-х и 1960-х годах экономисты использовали электромеханические настольные «калькуляторы» для расчета регрессий. До 1970 г. получение результата одной регрессии иногда занимало до 24 часов. [16]

Методы регрессии продолжают оставаться областью активных исследований. В последние десятилетия были разработаны новые методы для надежной регрессии , регрессии, включающей коррелированные отклики, такие как временные ряды и кривые роста , регрессии, в которой предиктором (независимой переменной) или переменными отклика являются кривые, изображения, графики или другие сложные объекты данных. методы регрессии, учитывающие различные типы отсутствующих данных, непараметрическая регрессия , байесовские методы регрессии, регрессия, в которой переменные-предикторы измеряются с ошибкой, регрессия с большим количеством переменных-предикторов, чем наблюдений, и причинно-следственный вывод с регрессией.

Модель регрессии [ править ]

На практике исследователи сначала выбирают модель, которую они хотели бы оценить, а затем используют выбранный ими метод (например, обычный метод наименьших квадратов ) для оценки параметров этой модели. В регрессионные модели входят следующие компоненты:

  • Эти неизвестные параметры , часто обозначают как скаляр или вектор .
  • Эти независимые переменные , которые наблюдаются в данных и часто обозначается как вектор (где обозначает строку данных).
  • Зависимые переменные , которые наблюдаются в данном и часто обозначается с помощью скаляра .
  • Члены ошибки , которые не наблюдаются напрямую в данных и часто обозначаются с помощью скаляра .

В различных областях применения вместо зависимых и независимых переменных используются разные термины .

Большинство регрессионных моделей предполагают, что это функция и , с представлением аддитивного члена ошибки, который может заменять немоделированные детерминанты или случайный статистический шум:

Цель исследователей - оценить функцию, которая наиболее точно соответствует данным. Для проведения регрессионного анализа необходимо указать вид функции . Иногда форма этой функции основана на знании взаимосвязи между данными и не зависит от данных. Если таких знаний нет, выбирается гибкая или удобная форма для . Например, простая одномерная регрессия может предложить , предполагая, что исследователь считает разумным приближением для статистического процесса, генерирующего данные.

После того, как исследователи определят предпочтительную статистическую модель , различные формы регрессионного анализа предоставляют инструменты для оценки параметров . Например, метод наименьших квадратов (включая его наиболее распространенный вариант, обычный метод наименьших квадратов ) находит значение, которое минимизирует сумму квадратов ошибок . Данный метод регрессии в конечном итоге предоставит оценку , обычно обозначаемую для того , чтобы отличить оценку от истинного (неизвестного) значения параметра, которое сгенерировало данные. Используя эту оценку, исследователь может затем использовать подобранное значение для прогнозирования или оценки точности модели при объяснении данных. Независимо от того, действительно ли исследователь заинтересован в оценке или предсказанном значении, будет зависеть от контекста и их целей. Как описано в обычном методе наименьших квадратов, метод наименьших квадратов широко используется, поскольку оцениваемая функция приближает условное математическое ожидание . [5] Однако альтернативные варианты (например, наименьшие абсолютные отклонения или квантильная регрессия ) полезны, когда исследователи хотят моделировать другие функции .

Важно отметить, что для оценки регрессионной модели должно быть достаточно данных. Например, предположим , что исследователь имеет доступ к строкам данных с одной зависимой и двумя независимыми переменными: . Предположим далее , что исследователь хочет оценить двумерное линейную модель с помощью наименьших квадратов : . Если исследователь имеет доступ только к точкам данных, он может найти бесконечно много комбинаций, которые одинаково хорошо объясняют данные: можно выбрать любую комбинацию, которая удовлетворяет , все из которых приводят к и, следовательно, являются допустимыми решениями, минимизирующими сумму квадратов остатков . Чтобы понять, почему вариантов бесконечно много, отметим, что системауравнения должны быть решены для 3 неизвестных, что делает систему недоопределенной . Как вариант, можно визуализировать бесконечное множество трехмерных плоскостей, проходящих через фиксированные точки.

В более общем плане, чтобы оценить модель наименьших квадратов с различными параметрами, нужно иметь отдельные точки данных. Если , то обычно не существует набора параметров, который идеально подходил бы к данным. Величина часто появляется в регрессионном анализе и называется в модели степенями свободы . Кроме того, для оценки модели наименьших квадратов, независимые переменные должны быть линейно независимы : нужно не быть в состоянии восстановить любой из независимых переменных путем добавления и умножения оставшиеся независимые переменные. Как обсуждалось в обычных наименьших квадратов , это условие гарантирует , что являетсяобратимая матрица и, следовательно, единственное решение существует.

Основные предположения [ править ]

Сама по себе регрессия - это просто расчет с использованием данных. Чтобы интерпретировать результат регрессии как значимую статистическую величину, которая измеряет отношения в реальном мире, исследователи часто полагаются на ряд классических предположений . К ним часто относятся:

  • Выборка репрезентативна для населения в целом.
  • Независимые переменные измеряются без ошибок.
  • Отклонения от модели имеют ожидаемое значение, равное нулю, в зависимости от ковариат:
  • Дисперсия остатков постоянна для всех наблюдений ( гомоскедастичность ).
  • Остатки не коррелируют друг с другом. Математически ковариационная матрица ошибок диагональна .

Для того, чтобы оценка методом наименьших квадратов обладала желаемыми свойствами, достаточно нескольких условий: в частности, предположения Гаусса – Маркова подразумевают, что оценки параметров будут несмещенными , непротиворечивыми и эффективными в классе линейных несмещенных оценок. Практики разработали множество методов для поддержания некоторых или всех этих желаемых свойств в реальных условиях, поскольку эти классические допущения вряд ли будут выполняться в точности. Например, моделирование ошибок в переменных может привести к разумным оценкам, когда независимые переменные измеряются с ошибками. Стандартные ошибки, согласованные с гетероскедастичностью, допускают дисперсиюдля изменения значений . Коррелированные ошибки, которые существуют в подмножествах данных или следуют определенным шаблонам, можно обрабатывать с помощью кластеризованных стандартных ошибок, географической взвешенной регрессии или стандартных ошибок Ньюи – Уэста , среди других методов. Когда строки данных соответствуют местоположениям в пространстве, выбор способа моделирования в географических единицах может иметь важные последствия. [17] [18] Подполе эконометрики в основном сосредоточено на разработке методов, которые позволяют исследователям делать разумные выводы из реальной жизни в реальных условиях, где классические предположения не выполняются в точности.

Линейная регрессия [ править ]

В линейной регрессии, спецификация модели является то , что в качестве зависимой переменной, является линейной комбинацией из параметров (но не обязательно должен быть линейным в независимых переменных ). Например, в простой линейной регрессии для моделирования точек данных есть одна независимая переменная:, и два параметра, и :

прямая линия:

В множественной линейной регрессии есть несколько независимых переменных или функций от независимых переменных.

Добавление члена к предыдущей регрессии дает:

парабола:

Это по-прежнему линейная регрессия; хотя выражение на правой стороне квадратично по независимой переменной , оно линейно в параметрах , и

В обоих случаях это член ошибки, а нижний индекс указывает на конкретное наблюдение.

Возвращаемся к случаю прямой линии: учитывая случайную выборку из совокупности, мы оцениваем параметры совокупности и получаем модель выборочной линейной регрессии:

Остаточное , представляет собой разницу между значением зависимой переменной , предсказанной моделью, и истинным значением зависимой переменной, . Одним из методов оценки является обычный метод наименьших квадратов . Оценки параметров этого метода получается , что минимизируют сумму квадратов невязок , SSR :

Минимизация этой функции приводит к набору нормальных уравнений , набор линейных уравнений с параметрами, которые решаются с получением оценок параметров, .

Иллюстрация линейной регрессии на наборе данных.

В случае простой регрессии формулы для оценок наименьших квадратов имеют вид

где - среднее (среднее) значений, а - среднее значение.

При предположении, что член ошибки генеральной совокупности имеет постоянную дисперсию, оценка этой дисперсии определяется следующим образом:

Это называется среднеквадратичной ошибкой (MSE) регрессии. Знаменатель - это размер выборки, уменьшенный на количество параметров модели, оцененных на основе тех же данных, для регрессоров или в случае использования точки пересечения. [19] В данном случае знаменатель равен .

В стандартные ошибки оценок параметров задаются

При дополнительном предположении, что член ошибки генеральной совокупности имеет нормальное распределение, исследователь может использовать эти оцененные стандартные ошибки для создания доверительных интервалов и проведения проверки гипотез о параметрах совокупности .

Общая линейная модель [ править ]

В более общей модели множественной регрессии есть независимые переменные:

где это -м наблюдение на -м независимой переменной. Если первая независимая переменная принимает значение 1 для всех , , то называется регресс перехватывать .

Оценки параметра наименьших квадратов получают из нормальных уравнений. Остаток можно записать как

В нормальных уравнениях являются

В матричных обозначениях нормальные уравнения записываются как

где элемент is , элемент вектора-столбца is , а элемент is . Так есть , есть и есть . Решение

Диагностика [ править ]

После построения регрессионной модели может оказаться важным подтвердить ее соответствие модели и статистическую значимость оцененных параметров. Обычно используемые проверки согласия включают R-квадрат , анализ структуры остатков и проверку гипотез. Статистическую значимость можно проверить с помощью F-теста общего соответствия, за которым следуют t-тесты отдельных параметров.

Интерпретации этих диагностических тестов во многом основываются на допущениях модели. Хотя изучение остатков может использоваться для признания недействительной модели, результаты t-теста или F-теста иногда труднее интерпретировать, если предположения модели нарушаются. Например, если член ошибки не имеет нормального распределения, в небольших выборках оценочные параметры не будут следовать нормальному распределению и усложнят вывод. Однако с относительно большими выборками может быть задействована центральная предельная теорема , так что проверка гипотез может продолжаться с использованием асимптотических приближений.

Ограниченные зависимые переменные [ править ]

Ограниченные зависимые переменные , которые представляют собой переменные отклика, которые являются категориальными переменными или переменными, которые должны попадать только в определенный диапазон, часто возникают в эконометрике .

Переменная ответа может быть прерывистой («ограниченной» лежать на некотором подмножестве реальной линии). Для двоичных (ноль или единица) переменных, если анализ проводится с помощью линейной регрессии наименьших квадратов, модель называется линейной вероятностной моделью . Нелинейные модели для двоичных зависимых переменных включают пробит и логит модели . Многомерная пробита модель представляет собой стандартный метод оценки совместного отношения между несколькими бинарными зависимой переменным и некоторыми независимой переменным. Для категориальных переменных с более чем двумя значениями существует полиномиальный логит . Для порядковых переменных с более чем двумя значениями существует упорядоченный логити заказал пробит модели. Цензурированные регрессионные модели могут использоваться, когда зависимая переменная наблюдается лишь иногда, а модели типа коррекции Хекмана могут использоваться, когда выборка не выбирается случайным образом из представляющей интерес совокупности. Альтернативой таким процедурам является линейная регрессия, основанная на полихорической корреляции (или полисериальной корреляции) между категориальными переменными. Такие процедуры различаются предположениями о распределении переменных в генеральной совокупности. Если переменная положительна с низкими значениями и представляет собой повторение возникновения события, тогда подсчитайте модели, такие как регрессия Пуассона или отрицательный бином. модель может быть использована.

Нелинейная регрессия [ править ]

Если модельная функция не является линейной по параметрам, сумма квадратов должна быть минимизирована с помощью итерационной процедуры. Это приводит к возникновению многих сложностей, которые суммированы в Различиях между линейным и нелинейным методом наименьших квадратов .

Интерполяция и экстраполяция [ править ]

Посередине интерполированная прямая линия представляет собой наилучший баланс между точками выше и ниже этой линии. Пунктирные линии представляют две крайние линии. Первые кривые представляют расчетные значения. Внешние кривые представляют собой прогноз для нового измерения. [20]

Модели регрессии предсказывают значение переменной Y при известных значениях переменных X. Прогнозирование в пределах диапазона значений в наборе данных, используемом для подгонки модели, неофициально называется интерполяцией . Прогноз за пределами этого диапазона данных известен как экстраполяция . Выполнение экстраполяции сильно зависит от предположений регрессии. Чем дальше экстраполяция выходит за рамки данных, тем больше возможностей для отказа модели из-за различий между предположениями и выборочными данными или истинными значениями.

Обычно рекомендуется [ необходима цитата ], что при выполнении экстраполяции следует сопровождать оценочное значение зависимой переменной интервалом прогноза, который представляет собой неопределенность. Такие интервалы имеют тенденцию быстро расширяться по мере того, как значения независимых переменных выходят за пределы диапазона, охватываемого наблюдаемыми данными.

По этим и другим причинам некоторые склонны говорить, что было бы неразумно проводить экстраполяцию. [21]

Однако, это не распространяется на полный набор моделирования ошибок , которые могут быть сделаны: в частности, предположение о конкретной форме для связи между Y и X . Правильно проведенный регрессионный анализ будет включать оценку того, насколько хорошо предполагаемая форма соответствует наблюдаемым данным, но это возможно только в пределах диапазона значений фактически доступных независимых переменных. Это означает, что любая экстраполяция особенно зависит от предположений о структурной форме регрессионного отношения. Совет по передовой практике здесь [ необходима ссылка ]состоит в том, что отношения линейные по переменным и линейные по параметрам не следует выбирать просто для удобства вычислений, а в том, что все доступные знания должны быть использованы при построении регрессионной модели. Если это знание включает тот факт, что зависимая переменная не может выходить за пределы определенного диапазона значений, это можно использовать при выборе модели - даже если наблюдаемый набор данных не имеет значений, особенно близких к таким границам. Последствия этого шага выбора подходящей функциональной формы для регрессии могут быть большими, если рассматривать экстраполяцию. Как минимум, он может гарантировать, что любая экстраполяция, вытекающая из подобранной модели, «реалистична» (или соответствует тому, что известно).

Расчеты мощности и размера выборки [ править ]

Не существует общепринятых методов соотнесения количества наблюдений с количеством независимых переменных в модели. Гуд и Хардин выдвинули одно практическое правило: где - размер выборки, - количество независимых переменных и количество наблюдений, необходимых для достижения желаемой точности, если в модели была только одна независимая переменная. [22] Например, исследователь строит модель линейной регрессии, используя набор данных, содержащий 1000 пациентов ( ). Если исследователь решает, что для точного определения прямой линии необходимы пять наблюдений ( ), то максимальное количество независимых переменных, которые может поддерживать модель, равно 4, потому что

Другие методы [ править ]

Хотя параметры регрессионной модели обычно оцениваются с использованием метода наименьших квадратов, другие используемые методы включают:

  • Байесовские методы , например байесовская линейная регрессия
  • Процентная регрессия для ситуаций, когда уменьшение процентных ошибок считается более подходящим. [23]
  • Наименьшие абсолютные отклонения , более устойчивые при наличии выбросов, приводящие к квантильной регрессии
  • Непараметрическая регрессия , требует большого количества наблюдений и требует больших вычислительных ресурсов.
  • Оптимизация сценария , приводящая к моделям интервального прогнозирования
  • Дистанционное метрическое обучение, которое изучается путем поиска значимой дистанционной метрики в заданном входном пространстве. [24]

Программное обеспечение [ править ]

Все основные статистические программные пакеты выполняют регрессионный анализ и вывод методом наименьших квадратов . Простая линейная регрессия и множественная регрессия с использованием наименьших квадратов могут быть выполнены в некоторых приложениях для работы с электронными таблицами и на некоторых калькуляторах. Хотя многие пакеты статистического программного обеспечения могут выполнять различные типы непараметрической и устойчивой регрессии, эти методы менее стандартизированы; разные программные пакеты реализуют разные методы, и метод с данным именем может быть реализован по-разному в разных пакетах. Специальное программное обеспечение для регрессии было разработано для использования в таких областях, как анализ опросов и нейровизуализация.

См. Также [ править ]

  • Квартет анскомба
  • Подгонка кривой
  • Теория оценок
  • Прогнозирование
  • Необъяснимая доля дисперсии
  • Аппроксимация функции
  • Обобщенные линейные модели
  • Кригинг (линейный алгоритм оценки методом наименьших квадратов)
  • Локальная регрессия
  • Задача изменяемой площади
  • Многомерные сплайны адаптивной регрессии
  • Многомерное нормальное распределение
  • Коэффициент корреляции продукт-момент Пирсона
  • Квази-дисперсия
  • Интервал прогноза
  • Проверка регрессии
  • Надежная регрессия
  • Сегментированная регрессия
  • Обработка сигналов
  • Пошаговая регрессия
  • Оценка тренда

Ссылки [ править ]

  1. ^ Анализ необходимых условий
  2. Дэвид А. Фридман (27 апреля 2009 г.). Статистические модели: теория и практика . Издательство Кембриджского университета. ISBN 978-1-139-47731-4.
  3. ^ Р. Деннис Кук; Сэнфорд Вейсберг Критика и анализ влияния в регрессии , Социологическая методология , Vol. 13. (1982), стр. 313–361.
  4. ^ AM Лежандр . Новые методы определения орбиты комет , Firmin Didot, Paris, 1805. «Sur la Méthode des moindres Quarrés» появляется как приложение.
  5. ^ a b Глава 1: Angrist, JD, & Pischke, JS (2008). В основном безвредная эконометрика: компаньон эмпирика . Издательство Принстонского университета.
  6. ^ CF Gauss. Комбинированная теория наблюдения, erroribus minimis obnoxiae . (1821/1823)
  7. ^ Могулл, Роберт Г. (2004). Прикладная статистика второго семестра . Кендалл / Хант Издательская Компания. п. 59. ISBN 978-0-7575-1181-3.
  8. ^ Гальтон, Фрэнсис (1989). «Родство и корреляция (переиздано в 1989 году)» . Статистическая наука . 4 (2): 80–86. DOI : 10,1214 / сс / 1177012581 . JSTOR 2245330 . 
  9. ^ Фрэнсис Гальтон . «Типичные законы наследственности», Nature 15 (1877), 492–495, 512–514, 532–533. (Гальтон использует термин «реверсия» в этой статье, где обсуждается размер гороха.)
  10. ^ Фрэнсис Гальтон. Послание Президента, Секция H, Антропология. (1885) (Гальтон использует в этой статье термин «регрессия», в котором обсуждается рост человека.)
  11. ^ Юла, Г. Udny (1897). «К теории корреляции» . Журнал Королевского статистического общества . 60 (4): 812–54. DOI : 10.2307 / 2979746 . JSTOR 2979746 . 
  12. ^ Пирсон, Карл ; Юл, ГУ; Бланшар, Норман; Ли, Алиса (1903). «Закон родовой наследственности» . Биометрика . 2 (2): 211–236. DOI : 10.1093 / Biomet / 2.2.211 . JSTOR 2331683 . 
  13. Перейти ↑ Fisher, RA (1922). «Степень соответствия формул регрессии и распределение коэффициентов регрессии» . Журнал Королевского статистического общества . 85 (4): 597–612. DOI : 10.2307 / 2341124 . JSTOR 2341124 . PMC 1084801 .  
  14. ^ Рональд А. Фишер (1954). Статистические методы для научных работников (двенадцатое изд.). Эдинбург : Оливер и Бойд. ISBN 978-0-05-002170-5.
  15. ^ Олдрич, Джон (2005). «Фишер и регресс» . Статистическая наука . 20 (4): 401–417. DOI : 10.1214 / 088342305000000331 . JSTOR 20061201 . 
  16. ^ Родни Рамчаран. Регрессии: почему экономисты ими одержимы? Март 2006 г. Проверено 2011-12-03.
  17. ^ Фотерингем, А. Стюарт; Брансдон, Крис; Чарльтон, Мартин (2002). Географически взвешенная регрессия: анализ пространственно изменяющихся отношений (Переиздание ред.). Чичестер, Англия: Джон Вили. ISBN 978-0-471-49616-8.
  18. ^ Fotheringham, AS; Вонг, DWS (1 января 1991 г.). «Модифицируемая проблема площадных единиц в многомерном статистическом анализе». Окружающая среда и планирование . 23 (7): 1025–1044. DOI : 10.1068 / a231025 . S2CID 153979055 . 
  19. ^ Steel, RGD, и Torrie, JH, Принципы и процедуры статистики с особым упором на биологические науки. , McGraw Hill , 1960, стр. 288.
  20. ^ Rouaud, Матье (2013). Вероятность, статистика и оценка (PDF) . п. 60.
  21. ^ Чанг, CL, (2003) Статистические методы анализа , World Scientific. ISBN 981-238-310-7 - стр. 274 раздел 9.7.4 «интерполяция против экстраполяции» 
  22. ^ Хорошо, ИП ; Хардин, JW (2009). Общие ошибки в статистике (и как их избежать) (3-е изд.). Хобокен, Нью-Джерси: Wiley. п. 211. ISBN. 978-0-470-45798-6.
  23. ^ Tofallis, C. (2009). «Процентная регрессия наименьших квадратов». Журнал современных прикладных статистических методов . 7 : 526–534. DOI : 10.2139 / ssrn.1406472 . SSRN 1406472 . 
  24. ^ Yangjing Long (2009). «Оценка возраста человека с помощью метрического обучения для задач регрессии» (PDF) . Proc. Международная конференция по компьютерному анализу изображений и паттернов : 74–82. Архивировано из оригинального (PDF) 08.01.2010.

Дальнейшее чтение [ править ]

  • Уильям Х. Крускал и Джудит М. Танур , изд. (1978), «Линейные гипотезы», Международная энциклопедия статистики . Свободная пресса, т. 1,
Эван Дж. Уильямс, I. Regression, стр. 523–41.
Джулиан С. Стэнли , «II. Дисперсионный анализ», стр. 541–554.
  • Линдли, Д.В. (1987). «Регрессионный и корреляционный анализ», Нью-Палгрейв: Экономический словарь , т. 4, стр. 120–23.
  • Биркес, Дэвид и Додж, Ю. , Альтернативные методы регрессии . ISBN 0-471-56881-3 
  • Чатфилд, К. (1993) " Расчет интервальных прогнозов ", Журнал деловой и экономической статистики, 11 . С. 121–135.
  • Draper, NR; Смит, Х. (1998). Прикладной регрессионный анализ (3-е изд.). Джон Вили. ISBN 978-0-471-17082-2.
  • Фокс, Дж. (1997). Прикладной регрессионный анализ, линейные модели и родственные методы. мудрец
  • Хардл, В., Прикладная непараметрическая регрессия (1990), ISBN 0-521-42950-1 
  • Мид, Найджел; Ислам, Товидул (1995). «Интервалы прогноза для прогнозов кривой роста». Журнал прогнозирования . 14 (5): 413–430. DOI : 10.1002 / for.3980140502 .
  • А. Сен, М. Шривастава, Регрессионный анализ - теория, методы и приложения , Springer-Verlag, Берлин, 2011 (4-е издание).
  • T. Strutz: Data Fitting and Uncertainty (Практическое введение в взвешенный метод наименьших квадратов и другие аспекты) . Vieweg + Teubner, ISBN 978-3-8348-1022-9 . 
  • Малакути, Б. (2013). Операционные и производственные системы с множеством целей . Джон Вили и сыновья.

Внешние ссылки [ править ]

  • "Регрессионный анализ" , Энциклопедия математики , EMS Press , 2001 [1994]
  • Самое раннее использование: регрессия - основная история и ссылки
  • Регрессия слабо коррелированных данных - как могут появляться ошибки линейной регрессии, когда диапазон Y намного меньше диапазона X