Эта статья может быть слишком технической, чтобы ее могло понять большинство читателей . Апрель 2018 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) ( |
Часть серии по |
Регрессивный анализ |
---|
Модели |
Оценка |
|
Фон |
|
|
В статистике , как минимум угол регрессия (LARS) представляет собой алгоритм для установки линейной регрессии моделей многомерных данных, разработанных Брэдли Эфрон , Тревор Гесте , Иан Джонстон и Роберт Tibshirani . [1]
Предположим, мы ожидаем, что переменная отклика будет определяться линейной комбинацией подмножества потенциальных ковариат. Затем алгоритм LARS предоставляет средства для оценки того, какие переменные необходимо включить, а также их коэффициенты.
Вместо того, чтобы давать векторный результат, решение LARS состоит из кривой, обозначающей решение для каждого значения нормы L1 вектора параметров. Алгоритм аналогичен пошаговой регрессии вперед , но вместо включения переменных на каждом шаге оцениваемые параметры увеличиваются в направлении, равносильном корреляциям каждого из них с остатком.
Плюсы и минусы [ править ]
Преимущества метода LARS:
- В вычислительном отношении это так же быстро, как и выбор вперед.
- Он создает полный кусочно-линейный путь решения, который полезен при перекрестной проверке или аналогичных попытках настройки модели.
- Если две переменные почти одинаково коррелируют с ответом, то их коэффициенты должны увеличиваться примерно с одинаковой скоростью. Таким образом, алгоритм ведет себя так, как того и ожидает интуиция, а также является более стабильным.
- Его легко модифицировать для создания эффективных алгоритмов для других методов, дающих аналогичные результаты, таких как лассо и прямая поэтапная регрессия.
- Это эффективно в контекстах, где p >> n (т. Е. Когда количество измерений значительно больше, чем количество точек) [ необходима цитата ] .
К недостаткам метода LARS можно отнести:
- При любом количестве шума в зависимой переменной и при многомерных мультиколлинеарных независимых переменных нет оснований полагать, что выбранные переменные с высокой вероятностью будут фактическими лежащими в основе причинными переменными. Эта проблема не является уникальной для LARS, поскольку это общая проблема подходов к выбору переменных, которые стремятся найти лежащие в основе детерминированные компоненты. Тем не менее, поскольку LARS основан на итеративном уточнении остатков, он может оказаться особенно чувствительным к воздействию шума. Эта проблема подробно обсуждается Вайсбергом в разделе обсуждения Efron et al. (2004) Статья Annals of Statistics. [2] Вайсберг приводит эмпирический пример, основанный на повторном анализе данных, первоначально использовавшихся для проверки LARS, о том, что при выборе переменных возникают проблемы с сильно коррелированными переменными.
- Поскольку почти все многомерные данные в реальном мире просто случайно демонстрируют некоторую значительную степень коллинеарности по крайней мере для некоторых переменных, проблема, с которой сталкивается LARS с коррелированными переменными, может ограничить его применение к многомерным данным.
Алгоритм [ править ]
Основные шаги алгоритма регрессии наименьшего угла:
- Начните со всеми коэффициентами равными нулю.
- Найдите предиктор, наиболее коррелирующий с
- Увеличивайте коэффициент в сторону знака его корреляции с . Возьмите остатки по пути. Остановитесь, когда какой-то другой предсказатель будет иметь такую же корреляцию, как и есть
- Увеличивайте ( , ) в их совместном направлении наименьших квадратов, пока какой-либо другой предиктор не будет иметь такую же корреляцию с остатком .
- Увеличение ( , , ) в их совместном направлении наименьших квадратов, пока какой - нибудь другой предсказатель не имеет столько же корреляцию с остаточной .
- Продолжайте до тех пор, пока: все предикторы не будут включены в модель [3]
Программная реализация [ править ]
Наименее угол регрессия реализуется в R через Lars пакет в Python с scikit учиться пакет, и в SAS через GLMSELECT процедуры.
См. Также [ править ]
- Многомерная статистика
- Лассо (статистика)
- Регрессивный анализ
- Выбор модели
Ссылки [ править ]
- ^ Эфрон, Брэдли ; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Наименьший угол регрессии» (PDF) . Анналы статистики . 32 (2): стр. 407–499. arXiv : math / 0406456 . DOI : 10.1214 / 009053604000000067 . Руководство по ремонту 2060166 .
- ^ См. Обсуждение Вайсберга после Эфрона, Брэдли ; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Наименьший угол регрессии» (PDF) . Анналы статистики . 32 (2): стр. 407–499. arXiv : math / 0406456 . DOI : 10.1214 / 009053604000000067 . Руководство по ремонту 2060166 .
- ^ «Простое объяснение регрессии лассо и наименьшего угла» .