Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Кривая LOESS подобрана для генеральной совокупности, взятой из синусоидальной волны с добавленным однородным шумом Кривая LOESS аппроксимирует исходную синусоидальную волну.

Локальные регрессионный или локальная полиномиальная регрессия , [1] , также известная как перемещение регрессии , [2] является обобщением скользящего среднего и полиномиальной регрессии . [3] Его наиболее распространенные методы, изначально разработанные для рассеивания сглаживания , являются ЛЕССОВО ( локально оценками рассеивания Сглаживания ) и LOWESS ( локально взвешенное сглаживание рассеивания ), оба выраженно / л oʊ ɛ с / . Это два тесно связанныхметоды непараметрической регрессии, которые объединяют несколько регрессионных моделей в метамодель на основе k- ближайших соседей . Помимо эконометрики, LOESS известен и обычно называется фильтром Савицки – Голея [4] [5] (предложен за 15 лет до LOESS).

Таким образом, LOESS и LOWESS основаны на «классических» методах , таких как линейная и нелинейная регрессия наименьших квадратов . Они касаются ситуаций, в которых классические процедуры не работают или не могут быть эффективно применены без чрезмерного труда. LOESS сочетает в себе большую часть простоты линейной регрессии наименьших квадратов с гибкостью нелинейной регрессии . Это достигается путем подгонки простых моделей к локализованным подмножествам данных для построения функции, описывающей детерминированную часть вариации данных, точка за точкой. Фактически, одна из главных достопримечательностей этого метода заключается в том, что от аналитика данных не требуется указывать глобальную функцию любой формы для соответствия модели данным, а только для соответствия сегментам данных.

Компромисс для этих функций - увеличенные вычисления. Поскольку метод LOESS требует больших вычислительных ресурсов, его было бы практически невозможно использовать в эпоху, когда развивалась регрессия наименьших квадратов. Большинство других современных методов моделирования процессов в этом отношении аналогичны LOESS. Эти методы были сознательно разработаны, чтобы использовать наши текущие вычислительные возможности в максимально возможной степени для достижения целей, которые трудно достичь с помощью традиционных подходов.

Сглаженная кривая, проходящая через набор точек данных, полученных с помощью этого статистического метода, называется кривой Лесса , особенно когда каждое сглаженное значение задается взвешенной квадратичной регрессией наименьших квадратов по диапазону значений переменной критерия диаграммы рассеяния по оси y . Когда каждое сглаженное значение задается с помощью взвешенной линейной регрессии наименьших квадратов по диапазону, это называется кривой минимума ; однако некоторые авторитеты рассматривают лёсс и лёсс как синонимы [ цитата необходима ] .

Определение модели [ править ]

В 1964 году Савицкий и Голей предложили метод, эквивалентный LOESS, который обычно называют фильтром Савицкого – Голея . Уильям С. Кливленд заново открыл этот метод в 1979 году и дал ему отличное название. Дальнейшее развитие этот метод получил Кливленд и Сьюзан Дж. Девлин (1988). LOWESS также известен как локально взвешенная полиномиальная регрессия.

В каждой точке диапазона набора данных полином низкой степени подбирается к подмножеству данных со значениями независимых переменных около точки, ответ которой оценивается. Полином подбирается с использованием взвешенных наименьших квадратов , при этом больший вес присваивается точкам рядом с точкой, ответ которой оценивается, и меньшим - точкам, находящимся дальше. Затем значение функции регрессии для точки получается путем оценки локального полинома с использованием значений объясняющих переменных для этой точки данных. Подбор LOESS завершается после того, как значения функции регрессии были вычислены для каждого източки данных. Многие детали этого метода, такие как степень полиномиальной модели и веса, являются гибкими. Далее вкратце обсуждаются диапазон вариантов для каждой части метода и типичные значения по умолчанию.

Локализованные подмножества данных [ править ]

Эти подмножества данных , используемых для каждого взвешенных наименьших квадратов вписываться в LOESS определяются ближайшего алгоритма соседей. Пользовательские входные данные для процедуры, называемые «пропускная способность» или «параметр сглаживания», определяют, какая часть данных используется для соответствия каждому локальному полиному. Параметр сглаживания - это доля от общего числа n точек данных, которые используются в каждой локальной аппроксимации. Таким образом, подмножество данных, используемых в каждой взвешенной аппроксимации методом наименьших квадратов, включает точки (округленные до следующего наибольшего целого числа), значения независимых переменных которых ближе всего к точке, в которой оценивается ответ. [6]

Поскольку полином степени k требует не менее k  + 1 точки для подгонки, параметр сглаживания должен быть между и 1, с обозначением степени локального полинома.

называется параметром сглаживания, потому что он контролирует гибкость функции регрессии LOESS. Большие значения обеспечивают наиболее плавные функции, которые меньше всего колеблются в ответ на колебания данных. Чем меньше , тем ближе функция регрессии будет соответствовать данным. Однако использование слишком малого значения параметра сглаживания нежелательно, поскольку функция регрессии в конечном итоге начнет фиксировать случайную ошибку в данных.

Степень локальных многочленов [ править ]

Локальные полиномы, подходящие для каждого подмножества данных, почти всегда имеют первую или вторую степень; то есть либо локально линейным (в смысле прямой), либо локально квадратичным. Использование полинома нулевой степени превращает LOESS в взвешенное скользящее среднее . Полиномы более высокой степени будут работать в теории, но дают модели, которые на самом деле не соответствуют духу LOESS. LOESS основан на идеях, что любая функция может быть хорошо аппроксимирована в небольшой окрестности полиномом низкого порядка и что простые модели могут быть легко подогнаны к данным. Полиномы с высокой степенью будут иметь тенденцию превосходить данные в каждом подмножестве и будут численно нестабильны, что затрудняет точные вычисления.

Функция веса [ править ]

Как упоминалось выше, весовая функция дает наибольший вес точкам данных, ближайшим к точке оценки, и наименьший вес - точкам данных, которые находятся дальше всего. Использование весов основано на идее, что точки, расположенные рядом друг с другом в пространстве объясняющих переменных, с большей вероятностью будут связаны друг с другом простым способом, чем точки, которые находятся дальше друг от друга. Следуя этой логике, точки, которые, вероятно, будут соответствовать локальной модели, больше всего влияют на оценки параметров локальной модели. Точки, которые с меньшей вероятностью фактически соответствуют локальной модели, имеют меньшее влияние на оценки параметров локальной модели .

Традиционная весовая функция, используемая для LOESS, - это весовая функция трех кубов ,

где d - расстояние данной точки данных от точки аппроксимируемой кривой, масштабируемое так, чтобы лежать в диапазоне от 0 до 1. [6]

Однако можно использовать любую другую весовую функцию, которая удовлетворяет свойствам, перечисленным в Cleveland (1979). Вес для конкретной точки в любом локализованном подмножестве данных получается путем оценки весовой функции на расстоянии между этой точкой и точкой оценки после масштабирования расстояния таким образом, чтобы максимальное абсолютное расстояние по всем точкам в подмножестве данные ровно один.

Рассмотрим следующее обобщение линейной регрессионной модели с метрикой на целевом пространстве , которое зависит от двух параметров, . Предположим, что линейная гипотеза основана на входных параметрах и что, как обычно в этих случаях, мы вставляем входное пространство в as , и рассмотрим следующую функцию потерь

Здесь - действительная матрица коэффициентов, а нижний индекс i перечисляет входные и выходные векторы из обучающего набора. Так как это метрика, это симметричная положительно определенная матрица и, как таковая, существует другая симметричная матрица, такая что . Вышеупомянутую функцию потерь можно преобразовать в след, наблюдая за этим . Располагая векторы и по столбцам матрицы и матрицы соответственно, указанная выше функция потерь может быть записана как

где - квадратная диагональная матрица, элементами которой являются s. Дифференцируя по и полагая результат равным 0, находим экстремальное матричное уравнение

Если предположить, что квадратная матрица невырожденная, функция потерь достигает минимума при

Типичный выбор для является гауссовым весом

Преимущества [ править ]

Как обсуждалось выше, самым большим преимуществом LOESS по сравнению со многими другими методами является то, что процесс подгонки модели к выборочным данным не начинается со спецификации функции. Вместо этого аналитик должен предоставить только значение параметра сглаживания и степень локального полинома. Кроме того, LOESS очень гибок, что делает его идеальным для моделирования сложных процессов, для которых не существует теоретических моделей. Эти два преимущества в сочетании с простотой метода делают LOESS одним из наиболее привлекательных из современных методов регрессии для приложений, которые соответствуют общей структуре регрессии по методу наименьших квадратов, но имеют сложную детерминированную структуру.

Хотя это менее очевидно, чем для некоторых других методов, связанных с линейной регрессией наименьших квадратов, LOESS также дает большую часть преимуществ, которые обычно присущи этим процедурам. Наиболее важным из них является теория вычисления неопределенностей для прогнозирования и калибровки. Многие другие тесты и процедуры, используемые для проверки моделей наименьших квадратов, также могут быть распространены на модели LOESS [ необходима ссылка ] .

Недостатки [ править ]

LOESS менее эффективно использует данные, чем другие методы наименьших квадратов. Для создания хороших моделей требуются довольно большие наборы данных с плотной выборкой. Это потому, что LOESS полагается на локальную структуру данных при выполнении локальной подгонки. Таким образом, LOESS обеспечивает менее сложный анализ данных в обмен на более высокие экспериментальные затраты. [6]

Еще одним недостатком LOESS является то, что он не создает функцию регрессии, которую легко представить математической формулой. Это может затруднить передачу результатов анализа другим людям. Чтобы передать функцию регрессии другому человеку, ему потребуется набор данных и программное обеспечение для вычислений LOESS. С другой стороны, в нелинейной регрессии необходимо только записать функциональную форму, чтобы обеспечить оценки неизвестных параметров и оцененную неопределенность. В зависимости от приложения это может быть серьезным или незначительным недостатком использования LOESS. В частности, простая форма LOESS не может использоваться для механистического моделирования, когда подобранные параметры определяют конкретные физические свойства системы.

Наконец, как обсуждалось выше, LOESS - это метод с большими объемами вычислений (за исключением равномерно распределенных данных, где регрессию затем можно сформулировать как беспричинный фильтр с конечной импульсной характеристикой ). LOESS также подвержен эффектам выбросов в наборе данных, как и другие методы наименьших квадратов. Существует итеративная, надежная версия LOESS [Cleveland (1979)], которую можно использовать для снижения чувствительности LOESS к выбросам , но слишком много экстремальных выбросов все же может преодолеть даже надежный метод.

См. Также [ править ]

  • Степени свободы (статистика) # В нестандартной регрессии
  • Регрессия ядра
  • Перемещение наименьших квадратов
  • Скользящее среднее
  • Многомерные сплайны адаптивной регрессии
  • Непараметрическая статистика
  • Фильтр Савицкого – Голея
  • Сегментированная регрессия

Ссылки [ править ]

Цитаты [ править ]

  1. ^ Fox & Weisberg 2018 , Приложение.
  2. ^ Харрелл 2015 , стр. 29.
  3. ^ Гаримелла 2017 .
  4. ^ "Фильтрация Савицкого – Голея - MATLAB сголайфильт" . Mathworks.com .
  5. ^ "scipy.signal.savgol_filter - Справочное руководство SciPy v0.16.1" . Docs.scipy.org .
  6. ^ a b c NIST, «LOESS (aka LOWESS)» , раздел 4.1.4.4, Электронное руководство по статистическим методам NIST / SEMATECH (по состоянию на 14 апреля 2017 г.)

Источники [ править ]

  • Кливленд, Уильям С. (1979). «Надежная локально взвешенная регрессия и сглаживающие диаграммы рассеяния». Журнал Американской статистической ассоциации . 74 (368): 829–836. DOI : 10.2307 / 2286407 . JSTOR  2286407 . Руководство по ремонту  0556476 .
  • Кливленд, Уильям С. (1981). «LOWESS: программа для сглаживания диаграмм рассеяния с помощью надежной локально взвешенной регрессии». Американский статистик . 35 (1): 54. DOI : 10,2307 / 2683591 . JSTOR  2683591 .
  • Кливленд, Уильям С .; Девлин, Сьюзан Дж. (1988). «Локально-взвешенная регрессия: подход к регрессионному анализу с помощью локальной подгонки». Журнал Американской статистической ассоциации . 83 (403): 596–610. DOI : 10.2307 / 2289282 . JSTOR  2289282 .
  • Фокс, Джон; Вайсберг, Сэнфорд (2018). «Приложение: непараметрическая регрессия в R» (PDF) . R Companion к прикладной регрессии (3-е изд.). МУДРЕЦ. ISBN 978-1-5443-3645-9.CS1 maint: ref=harv (link)
  • Фридман, Джером Х. (1984). "Устройство сглаживания переменного диапазона" (PDF) . Лаборатория вычислительной статистики. Технический отчет LCS 5, SLAC PUB-3466. Стэндфордский Университет. Cite journal requires |journal= (help)
  • Гаримелла, Рао Вирабхадра (22 июня 2017 г.). «Простое введение в метод метода наименьших квадратов и оценки локальной регрессии». DOI : 10.2172 / 1367799 . ОСТИ  1367799 . Cite journal requires |journal= (help)CS1 maint: ref=harv (link)
  • Харрелл, Фрэнк Э., младший (2015). Стратегии регрессионного моделирования: с приложениями к линейным моделям, логистической и порядковой регрессии и анализу выживаемости . Springer. ISBN 978-3-319-19425-7.CS1 maint: ref=harv (link)

Внешние ссылки [ править ]

  • Локальная регрессия и моделирование выборов
  • Сглаживание локальной регрессией: принципы и методы (документ PostScript)
  • Раздел Справочника по технической статистике NIST по LOESS
  • Программное обеспечение для местной настройки
  • Сглаживание точечной диаграммы
  • R: локальная полиномиальная регрессия, аппроксимирующая функцию Лесса в R
  • R: Сглаживание точечной диаграммы Функция Лоесса в R
  • Функция supsmu (SuperSmoother Фридмана) в R
  • Квантиль LOESS - метод для выполнения локальной регрессии на скользящем окне квантиля (с кодом R)
  • Нейт Сильвер, Как меняется мнение об однополых браках и что это означает - образец LOESS по сравнению с линейной регрессией

Реализации [ править ]

  • Реализация Fortran
  • Реализация на C (из проекта R)
  • Lowess реализация в Cython от Carl Vogel
  • Реализация Python (в Statsmodels)
  • Сглаживание LOESS в Excel
  • Реализация LOESS на чистом Julia
  • Реализация JavaScript
  • Реализация на Java

 Эта статья включает материалы, являющиеся  общественным достоянием, с веб-сайта Национального института стандартов и технологий https://www.nist.gov .