Функция LogSumExp (LSE) (также называемая RealSoftMax [1] или многопараметрическая softplus ) представляет собой плавный максимум - плавное приближение к функции максимума , в основном используемое алгоритмами машинного обучения. [2] Он определяется как логарифм суммы экспонент аргументов:
Характеристики
Домен функции LogSumExp: , реальное координатное пространство , а его диапазон равен, настоящая линия . Это приближение к максимальному со следующими оценками
Первое неравенство строгое, если . Второе неравенство становится равенством именно тогда, когда все аргументы равны. Доказательство: Пусть. потом. Применение логарифма к неравенству дает результат.
Кроме того, мы можем масштабировать функцию, чтобы сделать границы более жесткими. Рассмотрим функцию. потом
Доказательство: заменить каждый с участием для некоторых в неравенствах выше, чтобы дать
и с тех пор
наконец, разделив на дает результат.
Кроме того, если мы вместо этого умножим на отрицательное число, мы, конечно, найдем сравнение с функция:
Функция LogSumExp является выпуклой и строго монотонно возрастает всюду в своей области определения [3] (но не строго выпуклой всюду [4] ).
Письмо частные производные:
Это означает, что градиент LogSumExp - это функция softmax
Выпуклые сопряженная из LogSumExp является отрицательной энтропией .
трюк log-sum-exp для вычислений в лог-области
Функция LSE часто встречается, когда обычные арифметические вычисления выполняются в логарифмическом масштабе , например, в логарифмической вероятности . [5]
Подобно тому, как операции умножения в линейном масштабе становятся простыми сложениями в логарифмическом масштабе, операция сложения в линейном масштабе становится LSE в логарифмическом масштабе:
Общей целью использования вычислений в лог-области является повышение точности и избежание проблем с недополнением и переполнением, когда очень маленькие или очень большие числа представляются напрямую (т. Е. В линейной области) с использованием чисел с плавающей запятой ограниченной точности. [6]
К сожалению, использование LSE напрямую в этом случае может снова вызвать проблемы переполнения / потери значимости. Следовательно, вместо этого должен использоваться следующий эквивалент (особенно, когда точность приведенного выше приближения «max» недостаточна). Поэтому многие математические библиотеки, такие как IT ++, предоставляют подпрограмму LSE по умолчанию и используют эту формулу для внутренних целей.
где
Строго выпуклая функция типа log-sum-exp
LSE выпуклый, но не строго выпуклый. Мы можем определить строго выпуклую функцию типа log-sum-exp [7] , добавив дополнительный аргумент, установленный в ноль:
Эта функция является собственным генератором Брегмана (строго выпуклой и дифференцируемой). Он встречается в машинном обучении, например, как кумулянт полиномиального / биномиального семейства.
В тропическом анализе это сумма в лог-полукольце .
Смотрите также
Рекомендации
- ^ Чжан, Астон; Липтон, Зак; Ли, Му; Смола, Алексей. «Погрузитесь в глубокое обучение, Глава 3 Упражнения» . www.d2l.ai . Проверено 27 июня 2020 . CS1 maint: обескураженный параметр ( ссылка )
- ^ Нильсен, Франк; Солнце, Кэ (2016). «Гарантированные оценки расходимости Кульбака-Лейблера одномерных смесей с использованием кусочно-логарифмических неравенств-ехр». Энтропия . 18 : 442. arXiv : 1606.05850 . Bibcode : 2016Entrp..18..442N . DOI : 10.3390 / e18120442 . S2CID 17259055 .
- ^ Эль-Гауи, Лоран (2017). Оптимизационные модели и приложения .
- ^ «выпуклый анализ - О строго выпуклости функции логарифма суммы - экспоненты - Обмен математическими стеками» . stackexchange.com .
- ^ Макэлрит, Ричард. Статистическое переосмысление . OCLC 1107423386 .
- ^ «Практические вопросы: числовая стабильность» . CS231n Сверточные нейронные сети для визуального распознавания .
- ^ Нильсен, Франк; Хаджерес, Гаэтан (2018). "Информационная геометрия Монте-Карло: двойственно плоский случай". arXiv : 1803.07225 . Bibcode : 2018arXiv180307225N . Цитировать журнал требует
|journal=
( помощь )