Регрессия наименьшего угла

Эта статья может быть слишком технической, чтобы ее могло понять большинство читателей . Пожалуйста, помогите улучшить его, чтобы он был понятен неспециалистам , не удаляя технические детали. ( Апрель 2018 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Регрессивный анализ
Часть серии по

Модели
Линейная регрессия Простая регрессия Полиномиальная регрессия Общая линейная модель
Обобщенная линейная модель Дискретный выбор Биномиальная регрессия Бинарная регрессия Логистическая регрессия Полиномиальный логит Смешанный логит Пробит Полиномиальный пробит Заказал логит Заказал пробит Пуассон
Многоуровневая модель Фиксированные эффекты Случайные эффекты Линейная модель смешанных эффектов Нелинейная модель смешанных эффектов
Нелинейная регрессия Непараметрический Полупараметрический Крепкий Квантиль Изотонический Основные компоненты Наименьший угол Местный Сегментированный
Ошибки в переменных
Оценка
Наименьших квадратов Линейный Нелинейный
Обычный Взвешенный Обобщенный
Частичное Общий Неотрицательный Регрессия хребта Регулярный
Наименьшие абсолютные отклонения Итеративно переназначенный Байесовский Байесовская многомерная
Фон
Проверка регрессии Средний и прогнозируемый ответ Ошибки и остатки Доброта подгонки Студентизированный остаток Теорема Гаусса – Маркова
Математический портал
v т е

Стандартизированные коэффициенты показаны как функция доли усадки.

В статистике , как минимум угол регрессия (LARS) представляет собой алгоритм для установки линейной регрессии моделей многомерных данных, разработанных Брэдли Эфрон , Тревор Гесте , Иан Джонстон и Роберт Tibshirani . ^[1]

Предположим, мы ожидаем, что переменная отклика будет определяться линейной комбинацией подмножества потенциальных ковариат. Затем алгоритм LARS предоставляет средства для оценки того, какие переменные необходимо включить, а также их коэффициенты.

Вместо того, чтобы давать векторный результат, решение LARS состоит из кривой, обозначающей решение для каждого значения нормы L1 вектора параметров. Алгоритм аналогичен пошаговой регрессии вперед , но вместо включения переменных на каждом шаге оцениваемые параметры увеличиваются в направлении, равносильном корреляциям каждого из них с остатком.

Плюсы и минусы [ править ]

Преимущества метода LARS:

В вычислительном отношении это так же быстро, как и выбор вперед.
Он создает полный кусочно-линейный путь решения, который полезен при перекрестной проверке или аналогичных попытках настройки модели.
Если две переменные почти одинаково коррелируют с ответом, то их коэффициенты должны увеличиваться примерно с одинаковой скоростью. Таким образом, алгоритм ведет себя так, как того и ожидает интуиция, а также является более стабильным.
Его легко модифицировать для создания эффективных алгоритмов для других методов, дающих аналогичные результаты, таких как лассо и прямая поэтапная регрессия.
Это эффективно в контекстах, где p >> n (т. Е. Когда количество измерений значительно больше, чем количество точек) ^{[ необходима цитата ]} .

К недостаткам метода LARS можно отнести:

При любом количестве шума в зависимой переменной и при многомерных мультиколлинеарных независимых переменных нет оснований полагать, что выбранные переменные с высокой вероятностью будут фактическими лежащими в основе причинными переменными. Эта проблема не является уникальной для LARS, поскольку это общая проблема подходов к выбору переменных, которые стремятся найти лежащие в основе детерминированные компоненты. Тем не менее, поскольку LARS основан на итеративном уточнении остатков, он может оказаться особенно чувствительным к воздействию шума. Эта проблема подробно обсуждается Вайсбергом в разделе обсуждения Efron et al. (2004) Статья Annals of Statistics. ^[2] Вайсберг приводит эмпирический пример, основанный на повторном анализе данных, первоначально использовавшихся для проверки LARS, о том, что при выборе переменных возникают проблемы с сильно коррелированными переменными.
Поскольку почти все многомерные данные в реальном мире просто случайно демонстрируют некоторую значительную степень коллинеарности по крайней мере для некоторых переменных, проблема, с которой сталкивается LARS с коррелированными переменными, может ограничить его применение к многомерным данным.

Алгоритм [ править ]

Основные шаги алгоритма регрессии наименьшего угла:

Начните со всеми коэффициентами равными нулю. ${\ displaystyle \ beta}$
Найдите предиктор, наиболее коррелирующий с ${\ displaystyle x_ {j}}$ ${\ displaystyle y}$
Увеличивайте коэффициент в сторону знака его корреляции с . Возьмите остатки по пути. Остановитесь, когда какой-то другой предсказатель будет иметь такую же корреляцию, как и есть ${\ displaystyle \ beta _ {j}}$ ${\ displaystyle y}$ ${\ Displaystyle г = у - {\ шляпа {у}}}$ ${\ displaystyle x_ {k}}$ ${\ displaystyle r}$ ${\ displaystyle x_ {j}}$
Увеличивайте ( , ) в их совместном направлении наименьших квадратов, пока какой-либо другой предиктор не будет иметь такую же корреляцию с остатком . ${\ displaystyle \ beta _ {j}}$ ${\ displaystyle \ beta _ {k}}$ ${\ displaystyle x_ {m}}$ ${\ displaystyle r}$
Увеличение ( , , ) в их совместном направлении наименьших квадратов, пока какой - нибудь другой предсказатель не имеет столько же корреляцию с остаточной . ${\ displaystyle \ beta _ {j}}$ ${\ displaystyle \ beta _ {k}}$ ${\ displaystyle \ beta _ {m}}$ ${\ displaystyle x_ {n}}$ ${\ displaystyle r}$
Продолжайте до тех пор, пока: все предикторы не будут включены в модель ^[3]

Программная реализация [ править ]

Наименее угол регрессия реализуется в R через Lars пакет в Python с scikit учиться пакет, и в SAS через GLMSELECT процедуры.

См. Также [ править ]

Многомерная статистика
Лассо (статистика)
Регрессивный анализ
Выбор модели

Ссылки [ править ]

^ Эфрон, Брэдли ; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Наименьший угол регрессии» (PDF) . Анналы статистики . 32 (2): стр. 407–499. arXiv : math / 0406456 . DOI : 10.1214 / 009053604000000067 . Руководство по ремонту 2060166 .
^ См. Обсуждение Вайсберга после Эфрона, Брэдли ; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Наименьший угол регрессии» (PDF) . Анналы статистики . 32 (2): стр. 407–499. arXiv : math / 0406456 . DOI : 10.1214 / 009053604000000067 . Руководство по ремонту 2060166 .
^ «Простое объяснение регрессии лассо и наименьшего угла» .

[1] Эфрон, Брэдли ; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Наименьший угол регрессии» (PDF) . Анналы статистики . 32 (2): стр. 407–499. arXiv : math / 0406456 . DOI : 10.1214 / 009053604000000067 . Руководство по ремонту 2060166 .

[2] См. Обсуждение Вайсберга после Эфрона, Брэдли ; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Наименьший угол регрессии» (PDF) . Анналы статистики . 32 (2): стр. 407–499. arXiv : math / 0406456 . DOI : 10.1214 / 009053604000000067 . Руководство по ремонту 2060166 .

[3] «Простое объяснение регрессии лассо и наименьшего угла» .