Лассо (статистика)

В статистике и машинного обучения , Lasso ( не менее абсолютной усадки и оператора выбора ; также Lasso или Lasso ) является регрессионный анализ метод , который выполняет как выбор переменной и регуляризации для того , чтобы повысить точность прогнозирования и интерпретируемость полученной статистической модели . Первоначально он был введен в геофизике , ^[1] , а позже Роберт Tibshirani , ^[2] , который ввел термин.

Изначально лассо было разработано для моделей линейной регрессии . Этот простой случай раскрывает значительную информацию об оценщике. К ним относятся его связь с регрессией гребня и выбором лучшего подмножества, а также связи между оценками коэффициентов лассо и так называемым мягким пороговым значением. Он также показывает , что (как стандартной линейной регрессии) оценки коэффициентов не должны быть уникальными , если ковариат являются коллинеарны .

Хотя изначально она была определена для линейной регрессии, регуляризация лассо легко распространяется на другие статистические модели, включая обобщенные линейные модели , обобщенные оценочные уравнения , модели пропорциональных рисков и M-оценки . ^[2]^[3] Способность Лассо выполнять выбор подмножества зависит от формы ограничения и имеет множество интерпретаций, в том числе с точки зрения геометрии , байесовской статистики и выпуклого анализа .

LASSO тесно связан с шумоподавлением .

Мотивация [ править ]

Лассо было введено для повышения точности прогнозов и интерпретируемости регрессионных моделей. Он выбирает сокращенный набор известных ковариат для использования в модели. ^[2]^[1]

История [ править ]

Лассо было независимо разработано в геофизической литературе в 1986 году на основе предшествующей работы, в которой использовались штрафы как за подгонку, так и за штрафы коэффициентов. Статистик Роберт Тибширани независимо заново открыл и популяризировал его в 1996 году, основываясь на неотрицательной гарроте Бреймана . ^[1]^[4] ${\ displaystyle \ ell ^ {1}}$

До лассо наиболее широко используемым методом выбора ковариат был пошаговый отбор . Такой подход улучшает точность прогнозов только в определенных случаях, например, когда только несколько ковариат имеют сильную связь с результатом. Однако в других случаях это может увеличить ошибку предсказания.

В то время гребенчатая регрессия была самым популярным методом повышения точности прогнозов. Риджевая регрессия улучшает ошибку прогноза, уменьшая сумму квадратов коэффициентов регрессии до значения, меньшего фиксированного значения, чтобы уменьшить переобучение , но она не выполняет ковариативный выбор и, следовательно, не помогает сделать модель более интерпретируемой.

Лассо достигает обеих этих целей, заставляя сумму абсолютных значений коэффициентов регрессии быть меньше фиксированного значения, что приводит к обнулению определенных коэффициентов, фактически исключая их. Эта идея похожа на регрессию гребня, которая только уменьшает размер коэффициентов, не обнуляя ни один из них.

Основная форма [ править ]

Наименьшие квадраты [ править ]

Рассмотрим выборку, состоящую из N случаев, каждое из которых состоит из p ковариат и одного результата. Позвольте быть результатом и быть вектором ковариации для i- ^го случая. Тогда цель лассо - решить ${\ displaystyle y_ {i}}$ ${\ displaystyle x_ {i}: = (x_ {1}, x_ {2}, \ ldots, x_ {p}) ^ {T}}$

\min _{\beta _{0},\beta }\left\{\sum _{i=1}^{N}(y_{i}-\beta _{0}-x_{i}^{T}\beta )^{2}\right\}{\text{ subject to }}\sum _{j=1}^{p}|\beta _{j}|\leq t.

^[2]

Вот заранее заданный свободный параметр, который определяет степень регуляризации. Обозначая ковариантную матрицу, так что и является i- ^й строкой , выражение может быть записано более компактно как $t$ $X$ $X_{ij}=(x_{i})_{j}$ $x_{i}^{T}$ $X$

\min _{\beta _{0},\beta }\left\{{\frac {1}{N}}\left\|y-\beta _{0}1_{N}-X\beta \right\|_{2}^{2}\right\}{\text{ subject to }}\|\beta \|_{1}\leq t.

где - стандартная норма , - вектор единиц. $\|u\|_{p}=\left(\sum _{i=1}^{N}|u_{i}|^{p}\right)^{1/p}$ ℓ p {\displaystyle \ell ^{p}} $1_{N}$ $N\times 1$

Обозначая скалярное среднее значений точек данных через и среднее значение переменных отклика через , результирующая оценка для равна , так что $x_{i}$ ${\bar {x}}$ $y_{i}$ ${\bar {y}}$ $\beta _{0}$ ${\hat {\beta }}_{0}={\bar {y}}-{\bar {x}}^{T}\beta$

y_{i}-{\hat {\beta }}_{0}-x_{i}^{T}\beta =y_{i}-({\bar {y}}-{\bar {x}}^{T}\beta )-x_{i}^{T}\beta =(y_{i}-{\bar {y}})-(x_{i}-{\bar {x}})^{T}\beta ,

и поэтому стандартно работать с переменными с нулевым средним. Кроме того, ковариаты обычно стандартизированы, поэтому решение не зависит от шкалы измерений. $\textstyle \left(\sum _{i=1}^{N}x_{i}^{2}=1\right)$

Может быть полезно переписать

\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}\right\}{\text{ subject to }}\|\beta \|_{1}\leq t.

в так называемой лагранжевой форме

\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}+\lambda \|\beta \|_{1}\right\}

где точное соотношение между и зависит от данных. $t$ $\lambda$

Ортонормированные ковариаты [ править ]

Теперь можно рассмотреть некоторые основные свойства оценщика лассо.

Предполагая сначала, что ковариаты ортонормированы, так что , где - внутренний продукт, а - дельта Кронекера , или, что то же самое , затем, используя методы субградиента, можно показать, что $(x_{i}\mid x_{j})=\delta _{ij}$ $(\cdot \mid \cdot )$ $\delta _{ij}$ $X^{T}X=I$

{\begin{aligned}{\hat {\beta }}_{j}={}&S_{N\lambda }({\hat {\beta }}_{j}^{\text{OLS}})={\hat {\beta }}_{j}^{\text{OLS}}\max \left(0,1-{\frac {N\lambda }{|{\hat {\beta }}_{j}^{\text{OLS}}|}}\right)\\&{\text{ where }}{\hat {\beta }}^{\text{OLS}}=(X^{T}X)^{-1}X^{T}y\end{aligned}}

^[2]

$S_{\alpha }$ называется оператором мягкого определения порога, поскольку он переводит значения в сторону нуля (делая их точно равными нулю, если они достаточно малы) вместо того, чтобы устанавливать меньшие значения на ноль и оставлять более крупные нетронутыми, как часто обозначается оператор жесткого порога . $H_{\alpha }$

При регрессии гребня цель состоит в том, чтобы минимизировать

\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\|y-X\beta \|_{2}^{2}+\lambda \|\beta \|_{2}^{2}\right\}

уступающий

{\hat {\beta }}_{j}=(1+N\lambda )^{-1}{\hat {\beta }}_{j}^{\text{OLS}}.

Регрессия Риджа сжимает все коэффициенты на единый коэффициент и не обнуляет какие-либо коэффициенты. $(1+N\lambda )^{-1}$

Его также можно сравнить с регрессией с выбором лучшего подмножества , цель которого - минимизировать

\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}+\lambda \|\beta \|_{0}\right\}

где - « норма», которая определяется, как если бы ровно m компонент z отличны от нуля. В этом случае можно показать, что $\|\cdot \|_{0}$ $\ell ^{0}$ $\|z\|=m$

{\hat {\beta }}_{j}=H_{\sqrt {N\lambda }}\left({\hat {\beta }}_{j}^{\text{OLS}}\right)={\hat {\beta }}_{j}^{\text{OLS}}\mathrm {I} \left(\left|{\hat {\beta }}_{j}^{\text{OLS}}\right|\geq {\sqrt {N\lambda }}\right)

где - так называемая функция жесткого порога, а - индикаторная функция (1, если ее аргумент истинен, и 0 в противном случае). $H_{\alpha }$ $\mathrm {I}$

Следовательно, оценки лассо имеют общие черты как регрессии выбора гребня, так и регрессии выбора наилучшего подмножества, поскольку они оба сокращают величину всех коэффициентов, например регрессию гребня, и обнуляют некоторые из них, как в случае выбора наилучшего подмножества. Кроме того, в то время как регрессия гребня масштабирует все коэффициенты с постоянным коэффициентом, лассо вместо этого переводит коэффициенты в сторону нуля на постоянное значение и устанавливает их в ноль, если они достигают его.

Коррелированные ковариаты [ править ]

В одном частном случае две ковариаты, скажем j и k , идентичны для каждого наблюдения, так что , где . Тогда значения и, которые минимизируют целевую функцию лассо, не определяются однозначно. В самом деле, если кто - то , в котором , то при замене на и на , сохраняя при этом все остальные фиксированы, дает новое решение, поэтому лассо целевой функции , то есть континуум действительных минимизирующих. ^[5] Несколько вариантов лассо, включая регуляризацию эластичной сети , были разработаны для устранения этого недостатка. $x_{(j)}=x_{(k)}$ $x_{(j),i}=x_{(k),i}$ $\beta _{j}$ $\beta _{k}$ ${\hat {\beta }}$ ${\hat {\beta }}_{j}{\hat {\beta }}_{k}\geq 0$ $s\in [0,1]$ ${\hat {\beta }}_{j}$ $s({\hat {\beta }}_{j}+{\hat {\beta }}_{k})$ ${\hat {\beta }}_{k}$ $(1-s)({\hat {\beta }}_{j}+{\hat {\beta }}_{k})$ ${\hat {\beta }}_{i}$

Общая форма [ править ]

Регуляризация лассо может быть распространена на другие целевые функции, например, для обобщенных линейных моделей , обобщенных оценочных уравнений , моделей пропорциональных опасностей и M-оценок . ^[2]^[3] Учитывая целевую функцию

{\frac {1}{N}}\sum _{i=1}^{N}f(x_{i},y_{i},\alpha ,\beta )

лассо регуляризованной версии оценщик S решения

\min _{\alpha ,\beta }{\frac {1}{N}}\sum _{i=1}^{N}f(x_{i},y_{i},\alpha ,\beta ){\text{ subject to }}\|\beta \|_{1}\leq t

где только наказывается, в то время как может принимать любое разрешенное значение, точно так же, как не наказывалось в основном случае. $\beta$ $\alpha$ $\beta _{0}$

Интерпретации [ править ]

Геометрическая интерпретация [ править ]

Формы областей ограничений для регрессии лассо и гребня.

Лассо может устанавливать коэффициенты равными нулю, в то время как внешне похожая регрессия гребня - нет. Это связано с различием формы их ограничивающих границ. И лассо, и регрессию гребня можно интерпретировать как минимизацию одной и той же целевой функции.

\min _{\beta _{0},\beta }\left\{{\frac {1}{N}}\left\|y-\beta _{0}-X\beta \right\|_{2}^{2}\right\}

но с учетом разных ограничений: для лассо и для хребта. На рисунке показано, что область ограничения, определяемая нормой, представляет собой квадрат, повернутый так, чтобы его углы лежали на осях (в общем случае кросс-многогранник ), в то время как область, определяемая нормой, представляет собой круг (в общем случае n -сферу ). , который инвариантен относительно вращения и, следовательно, не имеет углов. Как видно на рисунке, выпуклый объект, касающийся границы, такой как показанная линия, скорее всего, встретит угол (или его многомерный эквивалент) гиперкуба, для которого некоторые компоненты равны нулю, а в случае n $\|\beta \|_{1}\leq t$ $\|\beta \|_{2}^{2}\leq t$ $\ell ^{1}$ $\ell ^{2}$ $\beta$ -сфера, точки на границе, для которых некоторые из компонентов равны нулю, не отличаются от других, и выпуклый объект с большей вероятностью соприкоснется с точкой, в которой некоторые компоненты равны нулю, чем с точкой, для которой ни одна из них не является . $\beta$ $\beta$

Упрощение интерпретации λ с компромиссом между точностью и простотой [ править ]

Этот раздел, возможно, содержит оригинальные исследования . Пожалуйста, улучшите его , проверяя сделанные утверждения и добавляя встроенные цитаты . Заявления, содержащие только оригинальные исследования, следует удалить. ( Март 2021 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Масштаб лассо можно изменить так, чтобы его можно было легко предвидеть и влиять на степень усадки, связанную с заданным значением . ^[6] Предполагается, что он стандартизирован с помощью z- значений и центрирован (нулевое среднее). Позвольте представить предполагаемые коэффициенты регрессии и позвольте ссылаться на оптимизированные по данным решениям обычных наименьших квадратов. Затем мы можем определить лагранжиан как компромисс между точностью данных оптимизированных решений в выборке и простотой сохранения гипотетических значений. Это приводит к $\lambda$ $X$ $y$ $\beta _{0}$ $b_{OLS}$

\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {(y-X\beta )'(y-X\beta )}{(y-X\beta _{0})'(y-X\beta _{0})}}+2\lambda \sum _{i=1}^{p}{\frac {|\beta _{i}-\beta _{0,i}|}{q_{i}}}\right\}

где указано ниже. Первая часть представляет относительную точность, вторая часть - относительную простоту и уравновешивает их. $q_{i}$ $\lambda$

Стилизованные пути решения для нормы и нормы, когда и

\ell _{1}

\ell _{2}

b_{OLS}=2

\beta _{0}=0

Для одного регрессора относительную простоту можно определить, указав as , которое является максимальной величиной отклонения от того, когда . Предполагая , что путь решения может быть определен в терминах : $q_{i}$ $|b_{OLS}-\beta _{0}|$ $\beta _{0}$ $\lambda =0$ $\beta _{0}=0$ R 2 {\displaystyle R^{2}}

b_{\ell _{1}}={\begin{cases}(1-\lambda /R^{2})b_{OLS}&{\mbox{if }}\lambda \leq R^{2},\\0&{\mbox{if }}\lambda >R^{2}.\end{cases}}

Если используется обычное решение методом наименьших квадратов (МНК). Предполагаемое значение (выбирается, если оно больше, чем . Кроме того, если , то представляет собой пропорциональное влияние . Другими словами, измеряет в процентах минимальную степень влияния гипотетического значения относительно решения OLS с оптимизацией данных. $\lambda =0$ $\beta _{0}=0$ $\lambda$ $R^{2}$ $R^{2}=1$ $\lambda$ $\beta _{0}=0$ $\lambda \times 100\%$

Если -norm используется для наказания отклонений от нуля для одного регрессора, путь решения задается как $\ell _{2}$

$b_{\ell _{2}}={\bigg (}1+{\frac {\lambda }{R^{2}(1-\lambda )}}{\bigg )}^{-1}b_{OLS}$ . Мол , движется в направлении точки, когда она близка к нулю; но, в отличие от этого , влияние уменьшается, если увеличивается (см. рисунок). При наличии нескольких регрессоров момент, когда параметр активируется (т.е. разрешено отклонение ), также определяется вкладом регрессора в точность. Первый, $b_{\ell _{1}}$ $b_{\ell _{2}}$ $(\lambda =R^{2},b=0)$ $\lambda$ $b_{\ell _{1}}$ $R^{2}$ $b_{\ell _{2}}$ $\lambda$
$\beta _{0}$ $R^{2}$

R^{2}=1-{\frac {(y-Xb)'(y-Xb)}{(y-X\beta _{0})'(y-X\beta _{0})}}.

Значение 75% означает, что точность внутри выборки улучшается на 75%, если вместо предполагаемых значений используются неограниченные решения OLS . Индивидуальный вклад отклонения от каждой гипотезы можно вычислить с помощью матрицы x $R^{2}$ $\beta _{0}$ $p$ $p$

R^{\otimes }=(X'{\tilde {y}}_{0})(X'{\tilde {y}}_{0})'(X'X)^{-1}({\tilde {y}}_{0}'{\tilde {y}}_{0})^{-1},

где . Если вычисляется when , то диагональные элементы суммы равны . Диагональные значения могут быть меньше 0 или, реже, больше 1. Если регрессоры не коррелированы, то диагональный элемент просто соответствует значению между и . ${\tilde {y}}_{0}=y-X\beta _{0}$ $b=b_{OLS}$ $R^{2}$ $R^{\otimes }$ $R^{2}$ $R^{\otimes }$ $i^{th}$ $R^{\otimes }$ $r^{2}$ $x_{i}$ $y$

Измененную версию адаптивного лассо можно получить, установив . ^[7] </ref> Если регрессоры некоррелированы, момент активации параметра задается диагональным элементом . Предполагая для удобства, что это вектор нулей, $q_{{\mbox{adaptive lasso}},i}=|b_{OLS,i}-\beta _{0,i}|$ $i^{th}$ $i^{th}$ $R^{\otimes }$ $\beta _{0}$

b_{i}={\begin{cases}(1-\lambda /R_{ii}^{\otimes })b_{OLS,i}&{\mbox{if }}\lambda \leq R_{ii}^{\otimes },\\0&{\mbox{if }}\lambda >R_{ii}^{\otimes }.\end{cases}}

То есть, если регрессоры некоррелированы, снова указывается минимальное влияние . Даже когда регрессоры коррелированы, параметр регрессии в первый раз активируется, когда он равен наивысшему диагональному элементу . $\lambda$ $\beta _{0}$ $\lambda$ $R^{\otimes }$

Эти результаты можно сравнить с масштабированной версией лассо, указав , что это среднее абсолютное отклонение от . Если предположить, что регрессоры некоррелированы, то момент активации регрессора определяется выражением $q_{{\mbox{lasso}},i}={\frac {1}{p}}\sum _{l}|b_{OLS,l}-\beta _{0,l}|$ $b_{OLS}$ $\beta _{0}$ $i^{th}$

{\tilde {\lambda }}_{{\text{lasso}},i}={\frac {1}{p}}{\sqrt {R_{i}^{\otimes }}}\sum _{l=1}^{p}{\sqrt {R_{l}^{\otimes }}}.

Для момента активации снова задается . Если - вектор нулей и подмножество соответствующих параметров в равной степени отвечает за точное соответствие , то это подмножество активируется при значении . При этом момент активации соответствующего регрессора равен . Другими словами, включение нерелевантных регрессоров задерживает момент, когда соответствующие регрессоры активируются этим измененным лассо. Адаптивное лассо и лассо являются частными случаями оценки 1ASTc. Последний группирует параметры вместе только в том случае, если абсолютная корреляция между регрессорами больше, чем значение, указанное пользователем. ^[6] $p=1$ ${\tilde {\lambda }}_{{\text{lasso}},i}=R^{2}$ $\beta _{0}$ $p_{B}$ $R^{2}=1$ $\lambda$ ${\frac {1}{p}}$ ${\frac {1}{p}}{\frac {1}{\sqrt {p_{B}}}}p_{B}{\frac {1}{\sqrt {p_{B}}}}={\frac {1}{p}}$

Байесовская интерпретация [ править ]

Распределения Лапласа имеют резкий пик на их среднем значении с большей плотностью вероятности, сосредоточенной там по сравнению с нормальным распределением.

Подобно тому, как регрессию гребня можно интерпретировать как линейную регрессию, для которой коэффициенты были назначены нормальные априорные распределения, лассо можно интерпретировать как линейную регрессию, для которой коэффициенты имеют априорные распределения Лапласа . Распределение Лапласа имеет резкий пик в нуле (его первая производная прерывистая), и оно концентрирует свою вероятностную массу ближе к нулю, чем нормальное распределение. Это дает альтернативное объяснение того, почему лассо имеет тенденцию устанавливать некоторые коэффициенты равными нулю, а регрессия гребня - нет. ^[2]

Интерпретация выпуклой релаксации [ править ]

Лассо также можно рассматривать как выпуклую релаксацию задачи регрессии выбора наилучшего подмножества, которая заключается в нахождении подмножества ковариат, которое приводит к наименьшему значению целевой функции для некоторого фиксированного значения , где n - общее количество ковариат. « Норма» (количество ненулевых элементов вектора) является предельным случаем « норм» формы (где кавычки означают, что они на самом деле не являются нормами для, поскольку не является выпуклым для , поэтому неравенство треугольника не выполняется). Следовательно, поскольку p = 1 - наименьшее значение, для которого " $\leq k$ $k\leq n$ $\ell ^{0}$ $\|\cdot \|_{0}$ $\ell ^{p}$ $\textstyle \|x\|_{p}=\left(\sum _{i=1}^{n}|x_{j}|^{p}\right)^{1/p}$ $p<1$ $\|\cdot \|_{p}$ $p<1$ $\ell ^{p}$ norm "является выпуклым (и, следовательно, фактически нормой), лассо в некотором смысле является наилучшим выпуклым приближением к задаче выбора наилучшего подмножества, поскольку область, определяемая с помощью, является выпуклой оболочкой области, определенной с помощью for . $\|x\|_{1}\leq t$ $\|x\|_{p}\leq t$ $p<1$

Обобщения [ править ]

Варианты лассо были созданы для того, чтобы устранить ограничения оригинальной техники и сделать метод более полезным для конкретных задач. Почти все они сосредоточены на уважении или использовании зависимостей между ковариатами.

Упругая сетевая регуляризация добавляет дополнительный штраф, подобный гребенчатой регрессии, который улучшает производительность, когда количество предикторов превышает размер выборки, позволяет методу выбирать сильно коррелированные переменные вместе и повышает общую точность прогнозирования. ^[5]

Групповое лассо позволяет выбирать группы связанных ковариат как единое целое, что может быть полезно в условиях, когда не имеет смысла включать одни ковариаты без других. ^[8] Дальнейшие расширения группового лассо выполняют выбор переменных внутри отдельных групп (разреженное групповое лассо) и позволяют перекрывать группы (перекрывающиеся групповые лассо). ^[9]^[10]

Слитное лассо может учитывать пространственные или временные характеристики проблемы, в результате чего получаются оценки, которые лучше соответствуют структуре системы. ^[11] Лассо-регуляризованные модели могут быть подобраны с использованием методов, включая методы субградиента , регрессию наименьшего угла (LARS) и методы проксимального градиента . Определение оптимального значения параметра регуляризации - важная часть обеспечения хорошей работы модели; обычно его выбирают с помощью перекрестной проверки .

Эластичная сетка [ править ]

В 2005 году Zou и Hastie представили эластичную сетку . ^[5] Когда p > n (количество ковариат больше, чем размер выборки), лассо может выбрать только n ковариат (даже если с результатом связано больше), и он имеет тенденцию выбирать одну ковариату из любого набора сильно коррелированных ковариат. Кроме того, даже когда n > p , регрессия гребня имеет тенденцию работать лучше при сильно коррелированных ковариатах.

Эластичная сетка удлиняет лассо, добавляя дополнительный штрафной член, дающий $\ell ^{2}$

\min _{\beta \in \mathbb {R} ^{p}}\left\{\left\|y-X\beta \right\|_{2}^{2}+\lambda _{1}\|\beta \|_{1}+\lambda _{2}\|\beta \|_{2}^{2}\right\},

что эквивалентно решению

{\begin{aligned}\min _{\beta _{0},\beta }\left\{\left\|y-\beta _{0}-X\beta \right\|_{2}^{2}\right\}&{\text{ subject to }}(1-\alpha )\|\beta \|_{1}+\alpha \|\beta \|_{2}^{2}\leq t,\\&{\text{ where }}\alpha ={\frac {\lambda _{2}}{\lambda _{1}+\lambda _{2}}}.\end{aligned}}

Эту задачу можно записать в простой форме лассо

\min _{\beta ^{*}\in \mathbb {R} ^{p}}\left\{\left\|y^{*}-X^{*}\beta ^{*}\right\|_{2}^{2}+\lambda ^{*}\|\beta ^{*}\|_{1}\right\}

позволяя

X_{(n+p)\times p}^{*}=(1+\lambda _{2})^{-1/2}{\binom {X}{\lambda _{2}^{1/2}I_{p\times p}}}

, ,

y_{(n+p)}^{*}={\binom {y}{0^{p}}},\qquad \lambda ^{*}={\frac {\lambda _{1}}{\sqrt {1+\lambda _{2}}}}

\beta ^{*}={\sqrt {1+\lambda _{2}}}\beta .

Тогда , что, когда ковариаты ортогональны друг другу, дает ${\hat {\beta }}={\frac {{\hat {\beta }}^{*}}{\sqrt {1+\lambda _{2}}}}$

{\hat {\beta }}_{j}={\frac {{\hat {\beta }}_{j}^{\text{*,OLS}}}{\sqrt {1+\lambda _{2}}}}\max \left(0,1-{\frac {\lambda ^{*}}{\left|{\hat {\beta }}_{j}^{\text{*,OLS}}\right|}}\right)={\frac {{\hat {\beta }}_{j}^{\text{OLS}}}{1+\lambda _{2}}}\max \left(0,1-{\frac {\lambda _{1}}{\left|{\hat {\beta }}_{j}^{\text{OLS}}\right|}}\right)=(1+\lambda _{2})^{-1}{\hat {\beta }}_{j}^{\text{lasso}}.

Таким образом, результат эластичного чистого штрафа - это комбинация эффектов лассо и штрафов за гребень.

Возвращаясь к общему случаю, тот факт , что штрафная функция в настоящее время строго выпуклые означает , что если , , который является переходом от лассо. ^[5] В общем, если $x_{(j)}=x_{(k)}$ ${\hat {\beta }}_{j}={\hat {\beta }}_{k}$ ${\hat {\beta }}_{j}{\hat {\beta _{k}}}>0$

{\frac {|{\hat {\beta }}_{j}-{\hat {\beta _{k}}}|}{\|y\|}}\leq \lambda _{2}^{-1}{\sqrt {2(1-\rho _{jk})}},{\text{ where }}\rho =X^{t}X,

является выборочной корреляционной матрицей, поскольку значения нормированы. $x$

Следовательно, ковариаты с высокой степенью корреляции, как правило, имеют одинаковые коэффициенты регрессии, причем степень сходства зависит от обоих и , что отличается от лассо. Это явление, при котором сильно коррелированные ковариаты имеют одинаковые коэффициенты регрессии, называется эффектом группирования. Группирование желательно, поскольку в таких приложениях, как привязка генов к болезни, предпочтительнее найти все связанные ковариаты, чем выбирать одну из каждого набора коррелированных ковариат, как это часто бывает с лассо. ^[5] Кроме того, выбор только одного из каждой группы обычно приводит к увеличению ошибки прогнозирования, поскольку модель менее надежна (вот почему регрессия гребня часто превосходит лассо). $\|y\|_{1}$ $\lambda _{2}$

Групповое лассо [ править ]

В 2006 году Юань и Линь представили групповое лассо, позволяющее совместно выбирать предопределенные группы ковариат в модели или из нее. ^[8] Это полезно во многих ситуациях, возможно, наиболее очевидно, когда категориальная переменная кодируется как набор двоичных ковариат. В этом случае групповое лассо может гарантировать, что все переменные, кодирующие категориальную ковариату, включены или исключены вместе. Еще одна среда, в которой группирование является естественным, - это биологические исследования. Поскольку гены и белки часто лежат в известных путях, то, какие пути связаны с исходом, может быть более значимым, чем наличие отдельных генов. Целевая функция для группового лассо является естественным обобщением стандартной цели лассо.

\min _{\beta \in \mathbb {R} ^{p}}\left\{\left\|y-\sum _{j=1}^{J}X_{j}\beta _{j}\right\|_{2}^{2}+\lambda \sum _{j=1}^{J}\|\beta _{j}\|_{K_{j}}\right\},\qquad \|z\|_{K_{j}}=(z^{t}K_{j}z)^{1/2}

где матрица плана и вектор ковариации были заменены набором матриц плана и векторов ковариации , по одному для каждой из J групп. Кроме того, штрафной член теперь представляет собой сумму сверх норм, определяемых положительно определенными матрицами . Если каждая ковариата находится в своей собственной группе и , тогда это сводится к стандартному лассо, а если есть только одна группа и , это сводится к регрессии гребня. Поскольку штраф сводится к $X$ $\beta$ $X_{j}$ $\beta _{j}$ $\ell ^{2}$ $K_{j}$ $K_{j}=I$ $K_{1}=I$ $\ell ^{2}$ норма на подпространствах, определенных каждой группой, она не может выбрать только некоторые ковариаты из группы, так же как и гребневая регрессия. Однако, поскольку штраф представляет собой сумму по различным нормам подпространств, как в стандартном лассо, ограничение имеет некоторые недифференциальные точки, которые соответствуют тождественным нулю некоторых подпространств. Следовательно, он может установить векторы коэффициентов, соответствующие некоторым подпространствам, равными нулю, а другие только сжимать. Однако можно расширить групповое лассо до так называемого разреженного группового лассо, которое может выбирать отдельные ковариаты внутри группы, добавляя дополнительный штраф к каждому подпространству группы. ^[9] Другое расширение, групповое лассо с перекрытием, позволяет разделять ковариаты между группами, например, если ген должен возникать в двух путях. $\ell ^{1}$ ^[10]

Fused lasso [ править ]

В некоторых случаях изучаемое явление может иметь важную пространственную или временную структуру, которую необходимо учитывать при анализе, например временные ряды или данные на основе изображений. В 2005 году Тибширани и его коллеги представили сплавленное лассо, чтобы расширить использование лассо для этого типа данных. ^[11] Целевая функция слитого лассо:

{\begin{aligned}&\min _{\beta }\left\{{\frac {1}{N}}\sum _{i=1}^{N}\left(y_{i}-x_{i}^{t}\beta \right)^{2}\right\}\\[4pt]&{\text{ subject to }}\sum _{j=1}^{p}|\beta _{j}|\leq t_{1}{\text{ and }}\sum _{j=2}^{p}|\beta _{j}-\beta _{j-1}|\leq t_{2}.\end{aligned}}

Первое ограничение - это ограничение лассо, а второе прямо наказывает большие изменения относительно временной или пространственной структуры, что заставляет коэффициенты плавно изменяться, чтобы отражать основную логику системы. Кластерное лассо ^[12] - это обобщение слитного лассо, которое идентифицирует и группирует соответствующие ковариаты на основе их эффектов (коэффициентов). Основная идея состоит в том, чтобы наказывать различия между коэффициентами так, чтобы ненулевые единицы сгруппировались. Это можно смоделировать с помощью следующей регуляризации:

\sum _{i<j}^{p}|\beta _{i}-\beta _{j}|\leq t_{2}.

Напротив, переменные можно кластеризовать в группы с высокой степенью корреляции, а затем из каждого кластера можно выделить одну репрезентативную ковариату. ^[13]

Существуют алгоритмы, решающие задачу слитного лассо и некоторые ее обобщения. Алгоритмы могут решить ее точно за конечное число операций. ^[14]

Квазинормы и мостовая регрессия [ править ]

Пример потенциальной функции PQSQ (кусочно-квадратичная функция субквадратичного роста) ; здесь мажорантная функция ; потенциал определяется с обрезкой после .

u(x)

f(x)=x

r_{3}

Пример того, как эффективная регуляризованная регрессия PQSQ работает так же, как -norm lasso. ^[15]

\ell ^{1}

Lasso, эластичная сетка, группа и сливают лассо построить штрафные функции от и норм (с весами, если это необходимо). В мостовой регрессии используются общие нормы ( ) и квазинормы ( ). ^[16] Например, для p = 1/2 аналогом цели лассо в лагранжевой форме является решение $\ell ^{1}$ $\ell ^{2}$ $\ell ^{p}$ $p\geq 1$ $0<p<1$

\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}+\lambda {\sqrt {\|\beta \|_{1/2}}}\right\},

где

\|\beta \|_{1/2}=\left(\sum _{j=1}^{p}{\sqrt {|\beta _{j}|}}\right)^{2}

Утверждается, что дробные квазинормы ( ) обеспечивают более значимые результаты при анализе данных как теоретически, так и эмпирически. ^[17] Невыпуклость этих квазинорм усложняет задачу оптимизации. Для решения этой проблемы разработана процедура минимизации математического ожидания ^[18] и реализована ^[15] для минимизации функции $\ell ^{p}$ $0<p<1$

\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}+\lambda \sum _{j=1}^{p}\vartheta (\beta _{j}^{2})\right\},

где - произвольная вогнутая монотонно возрастающая функция (например, дает штраф за лассо и дает штраф). $\vartheta (\gamma )$ $\vartheta (\gamma )={\sqrt {\gamma }}$ $\vartheta (\gamma )=\gamma ^{1/4}$ $\ell ^{1/2}$

Эффективный алгоритм минимизации основан на кусочно- квадратичной аппроксимации субквадратичного роста (PQSQ). ^[18]

Адаптивное лассо [ править ]

Адаптивное лассо было введено Цзоу в 2006 году для линейной регрессии ^[19] и Чжаном и Лу в 2007 году для регрессии пропорциональных рисков. ^[20]

Приор лассо [ править ]

Априорный лассо был введен для обобщенных линейных моделей Jiang et al. в 2016 году, чтобы включить предварительную информацию, такую как важность определенных ковариат. ^[21] В предшествующем лассо такая информация суммируется в псевдоответы (называемые априорными ответами), а затем к обычной целевой функции добавляется дополнительная функция критерия со штрафом лассо. Без ограничения общности в линейной регрессии новую целевую функцию можно записать как ${\hat {y}}^{\mathrm {p} }$

\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}+{\frac {1}{N}}\eta \left\|{\hat {y}}^{\mathrm {p} }-X\beta \right\|_{2}^{2}+\lambda \|\beta \|_{1}\right\},

что эквивалентно

\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|{\tilde {y}}-X\beta \right\|_{2}^{2}+{\frac {\lambda }{1+\eta }}\|\beta \|_{1}\right\},

обычная целевая функция лассо с ответами , замененными средневзвешенным значением наблюдаемых ответов и предшествующих ответов (называемых скорректированными значениями ответов по априорной информации). $y$ ${\tilde {y}}=(y+\eta {\hat {y}}^{\mathrm {p} })/(1+\eta )$

В предшествующем лассо параметр называется параметром балансировки, поскольку он уравновешивает относительную важность данных и предшествующей информации. В крайнем случае априорное лассо сводится к лассо. Если предварительное лассо будет полагаться исключительно на предыдущую информацию, чтобы соответствовать модели. Кроме того, у параметра балансировки есть еще одна привлекательная интерпретация: он контролирует дисперсию в своем предыдущем распределении с байесовской точки зрения. $\eta$ $\eta =0$ $\eta =\infty$ $\eta$ $\beta$

Априорное лассо более эффективно при оценке и предсказании параметров (с меньшей ошибкой оценки и ошибкой предсказания), когда априорная информация имеет высокое качество, и устойчиво к априорной информации низкого качества с хорошим выбором параметра балансировки . $\eta$

Вычисление решений лассо [ править ]

Функция потерь лассо не дифференцируема, но для вычисления пути решения лассо было разработано большое количество разнообразных методов, от выпуклого анализа до теории оптимизации. К ним относятся координатный спуск, ^[22] методы субградиента, регрессия по наименьшему углу (LARS) и методы проксимального градиента. ^[23] Субградиентные методы являются естественным обобщением традиционных методов, таких как градиентный спуск и стохастический градиентный спуск.в случае, когда целевая функция не дифференцируема во всех точках. LARS - это метод, который тесно связан с моделями лассо и во многих случаях позволяет им эффективно подбирать, хотя он может работать не во всех обстоятельствах. LARS генерирует полные пути решения. ^[23] Проксимальные методы стали популярными благодаря своей гибкости и производительности и являются областью активных исследований. Выбор метода будет зависеть от конкретного варианта лассо, данных и доступных ресурсов. Однако проксимальные методы обычно работают хорошо.

Выбор параметра регуляризации [ править ]

Выбор параметра регуляризации ( ) является фундаментальной частью лассо. Хорошее значение важно для производительности лассо, поскольку оно контролирует силу сжатия и выбор переменных, что в умеренных количествах может улучшить как точность прогнозов, так и интерпретируемость. Однако, если регуляризация становится слишком сильной, важные переменные могут быть опущены, а коэффициенты могут быть чрезмерно сжаты, что может повредить как прогнозирующей способности, так и логическому выводу. Перекрестная проверка часто используется для поиска параметра регуляризации. $\lambda$

Информационные критерии, такие как байесовский информационный критерий (BIC) и информационный критерий Акаике (AIC), могут быть предпочтительнее перекрестной проверки, потому что они быстрее вычисляются, а их производительность менее изменчива в небольших выборках. ^[24] Информационный критерий выбирает параметр регуляризации оценщика, максимизируя точность модели в выборке и снижая ее эффективное количество параметров / степеней свободы. Zou et al. предложил измерять эффективные степени свободы путем подсчета количества параметров, отклоняющихся от нуля. ^[25] Подход степеней свободы был сочтен ошибочным Кауфманом и Россетом ^[26] и Янсоном и др., ^[27]потому что степени свободы модели могут увеличиваться даже тогда, когда на нее сильнее накладывается параметр регуляризации. В качестве альтернативы, мера относительной простоты, определенная выше, может использоваться для подсчета эффективного числа параметров. ^[24] Для лассо эта мера определяется как

${\hat {\mathcal {P}}}=\sum _{i=1}^{p}{\frac {|\beta _{i}-\beta _{0,i}|}{{\frac {1}{p}}\sum _{l}|b_{OLS,l}-\beta _{0,l}|}}$ ,

который монотонно возрастает от нуля до при уменьшении параметра регуляризации от нуля до нуля. $p$ $\infty$

Выбранные приложения [ править ]

LASSO применялся в экономике и финансах, и было обнаружено, что он улучшает прогнозирование и выбирает переменные, которые иногда игнорируются, например, в литературе по прогнозированию корпоративного банкротства ^[28] или в прогнозе быстрорастущих компаний. ^[29]

См. Также [ править ]

Выбор модели
Непараметрическая регрессия
Тихоновская регуляризация

Ссылки [ править ]

^ a b c Сантоза, Фадиль; Саймс, Уильям У. (1986). «Линейная инверсия сейсмограмм ограниченного отражения». Журнал SIAM по научным и статистическим вычислениям . СИАМ. 7 (4): 1307–1330. DOI : 10.1137 / 0907087 .
^ Б с д е е г Tibshirani, Роберт (1996). «Регрессионное сжатие и выделение с помощью лассо». Журнал Королевского статистического общества . Серия Б (методическая). Вайли. 58 (1): 267–88. JSTOR 2346178 .
^ a b Тибширани, Роберт (1997). «Метод лассо для выбора переменных в модели Кокса». Статистика в медицине . 16 (4): 385–395. CiteSeerX 10.1.1.411.8024 . DOI : 10.1002 / (SICI) 1097-0258 (19970228) 16: 4 <385 :: AID-SIM380> 3.0.CO; 2-3 . PMID 9044528 .
^ Брейман, Лео (1995). «Лучшая регрессия подмножества с использованием неотрицательной гарроте». Технометрика . 37 (4): 373–84. DOI : 10.1080 / 00401706.1995.10484371 .
^ а б в г д Цзоу, Хуэй; Хасти, Тревор (2005). «Регуляризация и выбор переменных через эластичную сеть». Журнал Королевского статистического общества . Серия B (статистическая методология). Вайли. 67 (2): 301–20. DOI : 10.1111 / j.1467-9868.2005.00503.x . JSTOR 3647580 .
^ a b Хорнвег, Виктор (2018). «Глава 8» . Наука: на рассмотрении . Hoornweg Press. ISBN 978-90-829188-0-9.
Перейти ↑ Zou, Hui (2006). «Адаптивное лассо и его свойства Oracle» (PDF) .
^ а б Юань, Мин; Лин, Йи (2006). «Выбор модели и оценка в регрессии с сгруппированными переменными». Журнал Королевского статистического общества . Серия B (статистическая методология). Вайли. 68 (1): 49–67. DOI : 10.1111 / j.1467-9868.2005.00532.x . JSTOR 3647556 .
^ а б Пуиг, Арнау Тибау, Ами Визель и Альфред О. Герой III . « Многомерный оператор усадки-порога ». Труды 15-го семинара по статистической обработке сигналов, SSP'09, IEEE, стр. 113–116.
^ a b Жакоб, Лоран, Гийом Обозински и Жан-Филипп Верт. « Групповое лассо с перекрытием и графом ЛАССО ». В материалах 26-й Международной конференции по машинному обучению, Монреаль, Канада, 2009 г.
^ a b Тибширани, Роберт, Майкл Сондерс, Сахарон Россет, Джи Чжу и Кейт Найт. 2005. «Разреженность и гладкость через сплавленное лассо». Журнал Королевского статистического общества. Серия B (статистическая методология) 67 (1). Уайли: 91–108. https://www.jstor.org/stable/3647602 .
↑ Она, Юань (2010). «Редкая регрессия с точной кластеризацией» . Электронный статистический журнал . 4 : 1055–1096. DOI : 10.1214 / 10-EJS578 .
^ Рид, Стивен (2015). «Редкая регрессия и предельное тестирование с использованием кластерных прототипов» . Биостатистика . 17 (2): 364–76. arXiv : 1503.00334 . Bibcode : 2015arXiv150300334R . DOI : 10.1093 / биостатистику / kxv049 . PMC 5006118 . PMID 26614384 .
^ Бенто, Хосе (2018). «О сложности взвешенного слитного лассо». Письма IEEE в обработке сигналов . 25 (10): 1595–1599. arXiv : 1801.04987 . Bibcode : 2018ISPL ... 25.1595B . DOI : 10,1109 / LSP.2018.2867800 . S2CID 5008891 .
^ a b Mirkes EM Репозиторий регуляризованной регрессии PQSQ , GitHub.
^ Фу, Вэньцзян Дж. 1998. « Мост против лассо ». Журнал вычислительной и графической статистики 7 (3). Тейлор и Фрэнсис: 397-416.
^ Аггарваль CC, Hinneburg А., Кейм DA (2001) « О неожиданном поведении Distance Метрики в High одномерном пространстве .» В: Van den Bussche J., Vianu V. (eds) Теория баз данных - ICDT 2001. ICDT 2001. Lecture Notes in Computer Science, Vol. 1973. Springer, Berlin, Heidelberg, стр. 420-434.
^ а б Горбань АН; Миркс, Э.М.; Зиновьев, А. (2016) « Кусочно-квадратичные аппроксимации произвольных функций ошибок для быстрого и надежного машинного обучения». Нейронные сети, 84, 28-38.
↑ Zou (2006, JASA)
↑ Чжан и Лу (2007, Биометрика)
^ Цзян, Юань (2016). «Выбор переменных с априорной информацией для обобщенных линейных моделей с помощью априорного метода лассо» . Журнал Американской статистической ассоциации . 111 (513): 355–376. DOI : 10.1080 / 01621459.2015.1008363 . PMC 4874534 . PMID 27217599 .
↑ Джером Фридман, Тревор Хасти и Роберт Тибширани. 2010. «Пути регуляризации для обобщенных линейных моделей через координатный спуск». Журнал статистического программного обеспечения 33 (1): 1-21. https://www.jstatsoft.org/article/view/v033i01/v33i01.pdf .
^ a b Эфрон, Брэдли, Тревор Хасти, Иэн Джонстон и Роберт Тибширани. 2004. «Наименьшая угловая регрессия». Летопись статистики 32 (2). Институт математической статистики: 407–51. https://www.jstor.org/stable/3448465 .
^ a b Хорнвег, Виктор (2018). «Глава 9» . Наука: на рассмотрении . Hoornweg Press. ISBN 978-90-829188-0-9.
^ Цзоу, Хуэй; Хасти, Тревор; Тибширани, Роберт (2007). «О« степенях свободы »лассо» . Летопись статистики . 35 (5): 2173–2792. DOI : 10.1214 / 009053607000000127 .
^ Кауфман, S .; Россет, С. (2014). «Когда большая регуляризация подразумевает меньшее количество степеней свободы? Достаточные условия и контрпримеры». Биометрика . 101 (4): 771–784. DOI : 10.1093 / Biomet / asu034 . ISSN 0006-3444 .
^ Янсон, Лукас; Фитиан, Уильям; Хасти, Тревор Дж. (2015). «Эффективные степени свободы: ошибочная метафора» . Биометрика . 102 (2): 479–485. DOI : 10.1093 / Biomet / asv019 . ISSN 0006-3444 . PMC 4787623 . PMID 26977114 .
^ Шаонан, Тиан; Ю, Ян; Го, Хуэй (2015). «Вариативный отбор и прогнозы банкротства предприятий» . Журнал "Банковское дело и финансы" . 52 (1): 89–100. DOI : 10.1016 / j.jbankfin.2014.12.003 .
^ Coad, Алекс; Срой, Степан (2020). «Ловля газелей с помощью лассо: методы больших данных для прогнозирования быстрорастущих фирм» . Экономика малого бизнеса . 55 (1): 541–565. DOI : 10.1007 / s11187-019-00203-3 .

[Breiman_1995-1] Сантоза, Фадиль; Саймс, Уильям У. (1986). «Линейная инверсия сейсмограмм ограниченного отражения». Журнал SIAM по научным и статистическим вычислениям . СИАМ. 7 (4): 1307–1330. DOI : 10.1137 / 0907087 .

[Tibshirani_1996-2] Б с д е е г Tibshirani, Роберт (1996). «Регрессионное сжатие и выделение с помощью лассо». Журнал Королевского статистического общества . Серия Б (методическая). Вайли. 58 (1): 267–88. JSTOR 2346178 .

[Tibshirani_1997-3] Тибширани, Роберт (1997). «Метод лассо для выбора переменных в модели Кокса». Статистика в медицине . 16 (4): 385–395. CiteSeerX 10.1.1.411.8024 . DOI : 10.1002 / (SICI) 1097-0258 (19970228) 16: 4 <385 :: AID-SIM380> 3.0.CO; 2-3 . PMID 9044528 .

[4] Брейман, Лео (1995). «Лучшая регрессия подмножества с использованием неотрицательной гарроте». Технометрика . 37 (4): 373–84. DOI : 10.1080 / 00401706.1995.10484371 .

[Zou_2005-5] а б в г д Цзоу, Хуэй; Хасти, Тревор (2005). «Регуляризация и выбор переменных через эластичную сеть». Журнал Королевского статистического общества . Серия B (статистическая методология). Вайли. 67 (2): 301–20. DOI : 10.1111 / j.1467-9868.2005.00503.x . JSTOR 3647580 .

[Hoornweg2018SUS-6] Хорнвег, Виктор (2018). «Глава 8» . Наука: на рассмотрении . Hoornweg Press. ISBN 978-90-829188-0-9.

[7] Перейти ↑ Zou, Hui (2006). «Адаптивное лассо и его свойства Oracle» (PDF) .

[Yuan_2006-8] а б Юань, Мин; Лин, Йи (2006). «Выбор модели и оценка в регрессии с сгруппированными переменными». Журнал Королевского статистического общества . Серия B (статистическая методология). Вайли. 68 (1): 49–67. DOI : 10.1111 / j.1467-9868.2005.00532.x . JSTOR 3647556 .

[Puig_2009-9] а б Пуиг, Арнау Тибау, Ами Визель и Альфред О. Герой III . « Многомерный оператор усадки-порога ». Труды 15-го семинара по статистической обработке сигналов, SSP'09, IEEE, стр. 113–116.

[Jacob_2009-10] Жакоб, Лоран, Гийом Обозински и Жан-Филипп Верт. « Групповое лассо с перекрытием и графом ЛАССО ». В материалах 26-й Международной конференции по машинному обучению, Монреаль, Канада, 2009 г.

[Tibshirani_2005-11] Тибширани, Роберт, Майкл Сондерс, Сахарон Россет, Джи Чжу и Кейт Найт. 2005. «Разреженность и гладкость через сплавленное лассо». Журнал Королевского статистического общества. Серия B (статистическая методология) 67 (1). Уайли: 91–108. https://www.jstor.org/stable/3647602 .

[clusteredlasso-12] Она, Юань (2010). «Редкая регрессия с точной кластеризацией» . Электронный статистический журнал . 4 : 1055–1096. DOI : 10.1214 / 10-EJS578 .

[13] Рид, Стивен (2015). «Редкая регрессия и предельное тестирование с использованием кластерных прототипов» . Биостатистика . 17 (2): 364–76. arXiv : 1503.00334 . Bibcode : 2015arXiv150300334R . DOI : 10.1093 / биостатистику / kxv049 . PMC 5006118 . PMID 26614384 .

[14] Бенто, Хосе (2018). «О сложности взвешенного слитного лассо». Письма IEEE в обработке сигналов . 25 (10): 1595–1599. arXiv : 1801.04987 . Bibcode : 2018ISPL ... 25.1595B . DOI : 10,1109 / LSP.2018.2867800 . S2CID 5008891 .

[EMgithub-15] Mirkes EM Репозиторий регуляризованной регрессии PQSQ , GitHub.

[Fu_1998-16] Фу, Вэньцзян Дж. 1998. « Мост против лассо ». Журнал вычислительной и графической статистики 7 (3). Тейлор и Фрэнсис: 397-416.

[17] Аггарваль CC, Hinneburg А., Кейм DA (2001) « О неожиданном поведении Distance Метрики в High одномерном пространстве .» В: Van den Bussche J., Vianu V. (eds) Теория баз данных - ICDT 2001. ICDT 2001. Lecture Notes in Computer Science, Vol. 1973. Springer, Berlin, Heidelberg, стр. 420-434.

[GMZ2016-18] а б Горбань АН; Миркс, Э.М.; Зиновьев, А. (2016) « Кусочно-квадратичные аппроксимации произвольных функций ошибок для быстрого и надежного машинного обучения». Нейронные сети, 84, 28-38.

[19] Zou (2006, JASA)

[20] Чжан и Лу (2007, Биометрика)

[priorlasso-21] Цзян, Юань (2016). «Выбор переменных с априорной информацией для обобщенных линейных моделей с помощью априорного метода лассо» . Журнал Американской статистической ассоциации . 111 (513): 355–376. DOI : 10.1080 / 01621459.2015.1008363 . PMC 4874534 . PMID 27217599 .

[Friedman_20102-22] Джером Фридман, Тревор Хасти и Роберт Тибширани. 2010. «Пути регуляризации для обобщенных линейных моделей через координатный спуск». Журнал статистического программного обеспечения 33 (1): 1-21. https://www.jstatsoft.org/article/view/v033i01/v33i01.pdf .

[Efron_20042-23] Эфрон, Брэдли, Тревор Хасти, Иэн Джонстон и Роберт Тибширани. 2004. «Наименьшая угловая регрессия». Летопись статистики 32 (2). Институт математической статистики: 407–51. https://www.jstor.org/stable/3448465 .

[:0-24] Хорнвег, Виктор (2018). «Глава 9» . Наука: на рассмотрении . Hoornweg Press. ISBN 978-90-829188-0-9.

[Zou_20052-25] Цзоу, Хуэй; Хасти, Тревор; Тибширани, Роберт (2007). «О« степенях свободы »лассо» . Летопись статистики . 35 (5): 2173–2792. DOI : 10.1214 / 009053607000000127 .

[KaufmanRosset2014-26] Кауфман, S .; Россет, С. (2014). «Когда большая регуляризация подразумевает меньшее количество степеней свободы? Достаточные условия и контрпримеры». Биометрика . 101 (4): 771–784. DOI : 10.1093 / Biomet / asu034 . ISSN 0006-3444 .

[JansonFithian2015-27] Янсон, Лукас; Фитиан, Уильям; Хасти, Тревор Дж. (2015). «Эффективные степени свободы: ошибочная метафора» . Биометрика . 102 (2): 479–485. DOI : 10.1093 / Biomet / asv019 . ISSN 0006-3444 . PMC 4787623 . PMID 26977114 .

[Tian-28] Шаонан, Тиан; Ю, Ян; Го, Хуэй (2015). «Вариативный отбор и прогнозы банкротства предприятий» . Журнал "Банковское дело и финансы" . 52 (1): 89–100. DOI : 10.1016 / j.jbankfin.2014.12.003 .

[sbe-29] Coad, Алекс; Срой, Степан (2020). «Ловля газелей с помощью лассо: методы больших данных для прогнозирования быстрорастущих фирм» . Экономика малого бизнеса . 55 (1): 541–565. DOI : 10.1007 / s11187-019-00203-3 .

[1]