Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Стандартизированные коэффициенты показаны как функция доли усадки.

В статистике , как минимум угол регрессия (LARS) представляет собой алгоритм для установки линейной регрессии моделей многомерных данных, разработанных Брэдли Эфрон , Тревор Гесте , Иан Джонстон и Роберт Tibshirani . [1]

Предположим, мы ожидаем, что переменная отклика будет определяться линейной комбинацией подмножества потенциальных ковариат. Затем алгоритм LARS предоставляет средства для оценки того, какие переменные необходимо включить, а также их коэффициенты.

Вместо того, чтобы давать векторный результат, решение LARS состоит из кривой, обозначающей решение для каждого значения нормы L1 вектора параметров. Алгоритм аналогичен пошаговой регрессии вперед , но вместо включения переменных на каждом шаге оцениваемые параметры увеличиваются в направлении, равносильном корреляциям каждого из них с остатком.

Плюсы и минусы [ править ]

Преимущества метода LARS:

  1. В вычислительном отношении это так же быстро, как и выбор вперед.
  2. Он создает полный кусочно-линейный путь решения, который полезен при перекрестной проверке или аналогичных попытках настройки модели.
  3. Если две переменные почти одинаково коррелируют с ответом, то их коэффициенты должны увеличиваться примерно с одинаковой скоростью. Таким образом, алгоритм ведет себя так, как того и ожидает интуиция, а также является более стабильным.
  4. Его легко модифицировать для создания эффективных алгоритмов для других методов, дающих аналогичные результаты, таких как лассо и прямая поэтапная регрессия.
  5. Это эффективно в контекстах, где p  >>  n (т. Е. Когда количество измерений значительно больше, чем количество точек) [ необходима цитата ] .

К недостаткам метода LARS можно отнести:

  1. При любом количестве шума в зависимой переменной и при многомерных мультиколлинеарных независимых переменных нет оснований полагать, что выбранные переменные с высокой вероятностью будут фактическими лежащими в основе причинными переменными. Эта проблема не является уникальной для LARS, поскольку это общая проблема подходов к выбору переменных, которые стремятся найти лежащие в основе детерминированные компоненты. Тем не менее, поскольку LARS основан на итеративном уточнении остатков, он может оказаться особенно чувствительным к воздействию шума. Эта проблема подробно обсуждается Вайсбергом в разделе обсуждения Efron et al. (2004) Статья Annals of Statistics. [2] Вайсберг приводит эмпирический пример, основанный на повторном анализе данных, первоначально использовавшихся для проверки LARS, о ​​том, что при выборе переменных возникают проблемы с сильно коррелированными переменными.
  2. Поскольку почти все многомерные данные в реальном мире просто случайно демонстрируют некоторую значительную степень коллинеарности по крайней мере для некоторых переменных, проблема, с которой сталкивается LARS с коррелированными переменными, может ограничить его применение к многомерным данным.

Алгоритм [ править ]

Основные шаги алгоритма регрессии наименьшего угла:

  • Начните со всеми коэффициентами равными нулю.
  • Найдите предиктор, наиболее коррелирующий с
  • Увеличивайте коэффициент в сторону знака его корреляции с . Возьмите остатки по пути. Остановитесь, когда какой-то другой предсказатель будет иметь такую ​​же корреляцию, как и есть
  • Увеличивайте ( , ) в их совместном направлении наименьших квадратов, пока какой-либо другой предиктор не будет иметь такую ​​же корреляцию с остатком .
  • Увеличение ( , , ) в их совместном направлении наименьших квадратов, пока какой - нибудь другой предсказатель не имеет столько же корреляцию с остаточной .
  • Продолжайте до тех пор, пока: все предикторы не будут включены в модель [3]

Программная реализация [ править ]

Наименее угол регрессия реализуется в R через Lars пакет в Python с scikit учиться пакет, и в SAS через GLMSELECT процедуры.

См. Также [ править ]

  • Многомерная статистика
  • Лассо (статистика)
  • Регрессивный анализ
  • Выбор модели

Ссылки [ править ]

  1. ^ Эфрон, Брэдли ; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Наименьший угол регрессии» (PDF) . Анналы статистики . 32 (2): стр. 407–499. arXiv : math / 0406456 . DOI : 10.1214 / 009053604000000067 . Руководство по ремонту  2060166 .
  2. ^ См. Обсуждение Вайсберга после Эфрона, Брэдли ; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Наименьший угол регрессии» (PDF) . Анналы статистики . 32 (2): стр. 407–499. arXiv : math / 0406456 . DOI : 10.1214 / 009053604000000067 . Руководство по ремонту 2060166 .  
  3. ^ «Простое объяснение регрессии лассо и наименьшего угла» .