Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике , полиномиальной регрессии является одной из форм регрессионного анализа , в котором зависимость между независимой переменной х и зависимой переменной у моделируется как п - й степени многочлена в х . Полиномиальная регрессия подходит нелинейную зависимость между величиной х и соответствующим условным средним от у , обозначаются Е ( у  | х ). Хотя полиномиальная регрессия подходит для нелинейной модели данных, в качестве статистической оценкиЗадача является линейной в том смысле, что функция регрессии E ( y  |  x ) линейна по неизвестным параметрам , которые оцениваются по данным . По этой причине полиномиальная регрессия считается частным случаем множественной линейной регрессии .

Объясняющие (независимые) переменные, полученные в результате полиномиального разложения «базовых» переменных, известны как члены более высокой степени. Такие переменные также используются в настройках классификации . [1]

История [ править ]

Модели полиномиальной регрессии обычно подбираются с использованием метода наименьших квадратов . Метод наименьших квадратов минимизирует дисперсию из несмещенных оценок коэффициентов при условиях теоремы Гаусса-Маркова . Метод наименьших квадратов был опубликован в 1805 году Лежандром и в 1809 году Гауссом . Первый дизайн из эксперимента для полиномиальной регрессии появился в 1815 году бумаг Gergonne . [2] [3] В двадцатом веке полиномиальная регрессия сыграла важную роль в развитии регрессионного анализа., с большим упором на вопросы дизайна и вывода . [4] В последнее время использование полиномиальных моделей было дополнено другими методами, при этом неполиномиальные модели имеют преимущества для некоторых классов задач. [ необходима цитата ]

Определение и пример [ править ]

Кубическая полиномиальная регрессия соответствует моделированному набору данных. Полоса уверенности - это 95% одновременная доверительная полоса, построенная с использованием подхода Scheffé .

Целью регрессионного анализа является моделирование ожидаемого значения зависимой переменной y в терминах значения независимой переменной (или вектора независимых переменных) x . В простой линейной регрессии модель

где ε - ненаблюдаемая случайная ошибка со средним нулем, обусловленная скалярной переменной x . В этой модели для каждой единицы увеличения значения x условное ожидание y увеличивается на β 1 единиц.

Во многих случаях такая линейная зависимость может не соблюдаться. Например, если мы моделируем выход химического синтеза с точки зрения температуры, при которой происходит синтез, мы можем обнаружить, что выход увеличивается за счет увеличения количества на каждую единицу увеличения температуры. В этом случае мы могли бы предложить квадратичную модель вида

В этой модели, когда температура увеличивается с x до x  + 1 единиц, ожидаемый урожай изменяется на (Это можно увидеть, заменив x в этом уравнении на x +1 и вычтя уравнение для x из уравнения для x +1 .) Для бесконечно малых изменений x , влияние на y определяется полной производной по x : тот факт, что изменение доходности зависит от x, является тем, что делает отношения между x и y нелинейная, даже если модель линейна по параметрам, которые необходимо оценить.

В общем, мы можем смоделировать ожидаемое значение y как полином n- й степени, получив общую модель полиномиальной регрессии

Удобно, что все эти модели являются линейными с точки зрения оценки , поскольку функция регрессии линейна в терминах неизвестных параметров β 0 , β 1 , .... Следовательно, для анализа наименьших квадратов вычислительные и логические задачи Полиномиальная регрессия может быть полностью решена с использованием методов множественной регрессии . Для этого xx 2 , ... рассматриваются как отдельные независимые переменные в модели множественной регрессии.

Форма матрицы и расчет сметы [ править ]

Модель полиномиальной регрессии

может быть выражено в матричной форме в терминах матрицы проекта , вектора отклика, вектора параметров и вектора случайных ошибок. Я -й строка и будет содержать й и у значения для я -й выборки данных. Тогда модель можно записать в виде системы линейных уравнений:

который при использовании чисто матричных обозначений записывается как

Вектор оцененных коэффициентов полиномиальной регрессии (с использованием обычной оценки наименьших квадратов ) равен

предполагая, что m < n, что требуется для того, чтобы матрица была обратимой; тогда, поскольку является матрицей Вандермонда , условие обратимости гарантированно выполняется, если все значения различны. Это уникальное решение методом наименьших квадратов.

Интерпретация [ править ]

Хотя полиномиальная регрессия технически является частным случаем множественной линейной регрессии, интерпретация подобранной модели полиномиальной регрессии требует несколько иной точки зрения. Часто бывает трудно интерпретировать отдельные коэффициенты при подборе полиномиальной регрессии, поскольку лежащие в основе мономы могут быть сильно коррелированы. Например, x и x 2 имеют корреляцию около 0,97, когда x равномерно распределен в интервале (0, 1). Хотя корреляцию можно уменьшить, используя ортогональные полиномы , обычно более информативно рассматривать подобранную функцию регрессии в целом. Точечные или одновременные доверительные интервалы затем можно использовать для определения неопределенности оценки функции регрессии.

Альтернативные подходы [ править ]

Полиномиальная регрессия - это один из примеров регрессионного анализа с использованием базисных функций для моделирования функциональной взаимосвязи между двумя величинами. В частности, он заменяет линейную регрессию полиномиальным базисом , например . Недостатком полиномиальных базисов является то, что базисные функции являются «нелокальными», что означает, что подогнанное значение y при заданном значении x  =  x 0 сильно зависит от значений данных с x далеко от x 0 . [5] В современной статистике полиномиальные базисные функции используются вместе с новыми базисными функциями , такими как сплайны ,радиальные базисные функции и вейвлеты . Эти семейства базисных функций подходят для многих типов данных более экономно.

Цель полиномиальной регрессии - моделировать нелинейную связь между независимыми и зависимыми переменными (технически, между независимой переменной и условным средним зависимой переменной). Это похоже на цель непараметрической регрессии , которая направлена ​​на определение отношений нелинейной регрессии. Следовательно, подходы непараметрической регрессии, такие как сглаживание, могут быть полезными альтернативами полиномиальной регрессии. Некоторые из этих методов используют локализованную форму классической полиномиальной регрессии. [6] Преимущество традиционной полиномиальной регрессии состоит в том, что можно использовать логическую структуру множественной регрессии (это также справедливо при использовании других семейств базисных функций, таких как сплайны).

Последняя альтернатива - использовать модели с ядром, такие как поддержка векторной регрессии с полиномиальным ядром .

Если остатки имеют неравную дисперсию , для учета этого может использоваться оценщик взвешенных наименьших квадратов . [7]

См. Также [ править ]

  • Подгонка кривой
  • Линейная регрессия
  • Локальная полиномиальная регрессия
  • Моделирование полиномиальных и рациональных функций
  • Полиномиальная интерполяция
  • Методология поверхности отклика
  • Сглаживающий сплайн

Заметки [ править ]

  • Microsoft Excel использует полиномиальную регрессию при подгонке линии тренда к точкам данных на графике рассеяния XY. [8]

Ссылки [ править ]

  1. ^ Инь-Вэнь Чанг; Чо-Джуй Се; Кай-Вей Чанг; Майкл Ринггаард; Чи-Джен Линь (2010). «Обучение и тестирование полиномиальных отображений данных низкой степени с помощью линейной SVM» . Журнал исследований в области машинного обучения . 11 : 1471–1490.
  2. ^ Gergonne, JD (ноябрь 1974 г.) [1815]. «Применение метода наименьших квадратов к интерполяции последовательностей». Historia Mathematica (Перевод Ральфа Сент-Джона и С.М. Стиглера из французского изд. 1815 г.). 1 (4): 439–447. DOI : 10.1016 / 0315-0860 (74) 90034-2 .
  3. Стиглер, Стивен М. (ноябрь 1974 г.). «Статья Жергонна 1815 года о дизайне и анализе экспериментов по полиномиальной регрессии». Historia Mathematica . 1 (4): 431–439. DOI : 10.1016 / 0315-0860 (74) 90033-0 .
  4. ^ Смит, Кирстин (1918). «О стандартных отклонениях скорректированных и интерполированных значений наблюдаемой полиномиальной функции и ее констант и их указаниях по правильному выбору распределения наблюдений» . Биометрика . 12 (1/2): 1–85. DOI : 10.2307 / 2331929 . JSTOR 2331929 . 
  5. ^ Такое "нелокальное" поведение является свойством аналитических функций , которые не являются постоянными (везде). Такое «нелокальное» поведение широко обсуждается в статистике:
    • Маги, Лонни (1998). «Нелокальное поведение в полиномиальных регрессиях». Американский статистик . 52 (1): 20–22. DOI : 10.2307 / 2685560 . JSTOR  2685560 .
  6. Fan, Jianqing (1996). Локальное полиномиальное моделирование и его приложения: от линейной регрессии к нелинейной регрессии . Монографии по статистике и прикладной теории вероятностей. Чепмен и Холл / CRC. ISBN 978-0-412-98321-4.
  7. ^ Конте, SD; Де Бур, К. (2018). Элементарный численный анализ: алгоритмический подход . Классика прикладной математики. Общество промышленной и прикладной математики (SIAM, 3600 Market Street, Floor 6, Philadelphia, PA 19104). п. 259. ISBN. 978-1-61197-520-8. Проверено 28 августа 2020 .
  8. ^ Стивенсон, Кристофер. «Учебник: Полиномиальная регрессия в Excel» . facultystaff.richmond.edu . Проверено 22 января 2017 года .

Внешние ссылки [ править ]

  • Подгонка кривой , интерактивное моделирование PhET , Университет Колорадо в Боулдере