Гладкий максимум

В математике , А гладкая максимум из индексированного семейства х ₁ , ..., х _п чисел является гладким приближением к максимальной функции означая параметрическое семейство функций , такие , что для каждой $& alpha$ ; , функция является гладкой, и семейство сходится к максимальной функции как . Аналогично определяется понятие гладкого минимума . Во многих случаях одно семейство аппроксимирует оба: максимум, когда параметр стремится к положительной бесконечности, минимум, когда параметр стремится к отрицательной бесконечности; в символах, как ${\ Displaystyle \ макс (x_ {1}, \ ldots, x_ {n}),}$ ${\ Displaystyle м _ {\ альфа} (x_ {1}, \ ldots, x_ {n})}$ ${\ displaystyle m _ {\ alpha}}$ ${\ Displaystyle м _ {\ альфа} \ до \ макс}$ ${\ displaystyle \ alpha \ to \ infty}$ ${\ Displaystyle м _ {\ альфа} \ до \ макс}$ ${\ displaystyle \ alpha \ to \ infty}$ и как . Этот термин также можно свободно использовать для конкретной гладкой функции, которая ведет себя аналогично максимуму, не обязательно являясь частью параметризованного семейства. ${\ displaystyle m _ {\ alpha} \ to \ min}$ ${\ displaystyle \ alpha \ to - \ infty}$

Примеры [ править ]

Smoothmax применяется к функциям '-x' и x с различными коэффициентами. Очень плавный для = 0.5 и более резкий для = 8.

{\ displaystyle \ alpha}

{\ displaystyle \ alpha}

Для больших положительных значений параметра следующая формулировка представляет собой гладкую дифференцируемую аппроксимацию функции максимума. Для отрицательных значений параметра, больших по модулю, он приближается к минимуму. ${\ displaystyle \ alpha> 0}$

{\ displaystyle {\ mathcal {S}} _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} e ^ {\ alpha x_ {i}}} {\ sum _ {i = 1} ^ {n} e ^ {\ alpha x_ {i}}}}}

${\ displaystyle {\ mathcal {S}} _ {\ alpha}}$ обладает следующими свойствами:

${\mathcal {S}}_{\alpha }\to \max$ в виде $\alpha \to \infty$
${\mathcal {S}}_{0}$ это среднее арифметическое его входов
${\mathcal {S}}_{\alpha }\to \min$ в виде $\alpha \to -\infty$

Градиент тесно связан с softmax и определяется выражением ${\mathcal {S}}_{\alpha }$

\nabla _{x_{i}}{\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n})={\frac {e^{\alpha x_{i}}}{\sum _{j=1}^{n}e^{\alpha x_{j}}}}[1+\alpha (x_{i}-{\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n}))].

Это делает функцию softmax полезной для методов оптимизации, использующих градиентный спуск .

LogSumExp [ редактировать ]

Еще один плавный максимум - LogSumExp :

\mathrm {LSE} _{\alpha }(x_{1},\ldots ,x_{n})=(1/\alpha )\log(\exp(\alpha x_{1})+\ldots +\exp(\alpha x_{n}))

Это также можно нормализовать, если все неотрицательные значения, давая функцию с доменом и диапазоном : $x_{i}$ $[0,\infty )^{n}$ $[0,\infty )$

g(x_{1},\ldots ,x_{n})=\log(\exp(x_{1})+\ldots +\exp(x_{n})-(n-1))

Этот термин корректирует тот факт, что путем удаления всех экспонент, кроме одной, и если все они равны нулю. $(n-1)$ $\exp(0)=1$ $\log 1=0$ $x_{i}$

p-Norm [ править ]

Еще один гладкий максимум - это p-норма :

||(x_{1},\ldots ,x_{n})||_{p}=\left(|x_{1}|^{p}+\cdots +|x_{n}|^{p}\right)^{1/p}

который сходится к as . $||(x_{1},\ldots ,x_{n})||_{\infty }=\max _{1\leq i\leq n}|x_{i}|$ $p\to \infty$

Преимущество p-нормы в том, что это норма . Таким образом, он «масштабно инвариантен» (однороден): и удовлетворяет треугольному неравенству. $||(\lambda x_{1},\ldots ,\lambda x_{n})||_{p}=|\lambda |\times ||(x_{1},\ldots ,x_{n})||_{p}$

Использование в численных методах [ править ]

Этот раздел пуст. Вы можете помочь, добавив к нему . ( Февраль 2015 г. )

Другие варианты функции сглаживания [ править ]

{\mathcal {max}}_{\alpha }(x_{1},x_{2})=\left((x_{1}+x_{2})+{\sqrt {(x_{1}-x_{2})^{2}+\alpha }}\right)/2

Где параметр. $\alpha$

См. Также [ править ]

Ссылки [ править ]

М. Ланге, Д. Цюльке, О. Хольц и Т. Виллманн, «Приложения lp-норм и их гладкие аппроксимации для градиентного векторного квантования обучения», в Proc. ESANN , апрель 2014 г., стр. 271-276. ( https://www.elen.ucl.ac.be/Proceedings/esann/esannpdf/es2014-153.pdf )