LogSumExp

Функция LogSumExp (LSE) (также называемая RealSoftMax ^[1] или многопараметрическая softplus ) представляет собой плавный максимум - плавное приближение к функции максимума , в основном используемое алгоритмами машинного обучения. ^[2] Он определяется как логарифм суммы экспонент аргументов:

{\ Displaystyle \ mathrm {LSE} (x_ {1}, \ dots, x_ {n}) = \ log \ left (\ exp (x_ {1}) + \ cdots + \ exp (x_ {n}) \ right )}

Характеристики

Домен функции LogSumExp: ${\ Displaystyle \ mathbb {R} ^ {п}}$ , реальное координатное пространство , а его диапазон равен ${\ Displaystyle \ mathbb {R}}$ , настоящая линия . Это приближение к максимальному ${\ Displaystyle \ макс _ {я} х_ {я}}$ со следующими оценками

{\ displaystyle \ max {\ {x_ {1}, \ dots, x_ {n} \}} <\ mathrm {LSE} (x_ {1}, \ dots, x_ {n}) \ leq \ max {\ { x_ {1}, \ dots, x_ {n} \}} + \ log (n).}

Первое неравенство строгое, если ${\ Displaystyle п = 1}$ . Второе неравенство становится равенством именно тогда, когда все аргументы равны. Доказательство: Пусть ${\ Displaystyle м = \ макс _ {я} х_ {я}}$ . потом ${\ Displaystyle \ ехр (м) \ Leq \ сумма _ {я = 1} ^ {п} \ ехр (x_ {я}) \ Leq п \ ехр (м)}$ . Применение логарифма к неравенству дает результат.

Кроме того, мы можем масштабировать функцию, чтобы сделать границы более жесткими. Рассмотрим функцию ${\ displaystyle {\ frac {1} {t}} \ mathrm {LSE} (tx)}$ . потом

{\ displaystyle \ max {\ {x_ {1}, \ dots, x_ {n} \}} <{\ frac {1} {t}} \ mathrm {LSE} (tx) \ leq \ max {\ {x_ {1}, \ dots, x_ {n} \}} + {\ frac {\ log (n)} {t}}.}

Доказательство: заменить каждый ${\ displaystyle x_ {i}}$ с участием ${\ displaystyle tx_ {i}}$ для некоторых ${\ displaystyle t> 0}$ в неравенствах выше, чтобы дать

{\ displaystyle \ max {\ {tx_ {1}, \ dots, tx_ {n} \}} <\ mathrm {LSE} (tx_ {1}, \ dots, tx_ {n}) \ leq \ max {\ { tx_ {1}, \ dots, tx_ {n} \}} + \ log (n).}

и с тех пор ${\ displaystyle t> 0}$

{\ displaystyle t \ max {\ {x_ {1}, \ dots, x_ {n} \}} <\ mathrm {LSE} (tx_ {1}, \ dots, tx_ {n}) \ leq t \ max { \ {x_ {1}, \ dots, x_ {n} \}} + \ log (n).}

наконец, разделив на ${\ displaystyle t}$ дает результат.

Кроме того, если мы вместо этого умножим на отрицательное число, мы, конечно, найдем сравнение с ${\ displaystyle \ min}$ функция:

{\ displaystyle \ min {\ {x_ {1}, \ dots, x_ {n} \}} - {\ frac {\ log (n)} {t}} \ leq {\ frac {1} {- t} } \ mathrm {LSE} (-tx) <\ min {\ {x_ {1}, \ dots, x_ {n} \}}.}

Функция LogSumExp является выпуклой и строго монотонно возрастает всюду в своей области определения ^[3] (но не строго выпуклой всюду ^[4] ).

Письмо ${\ displaystyle \ mathbf {x} = (x_ {1}, \ dots, x_ {n}),}$ частные производные:

{\ displaystyle {\ frac {\ partial} {\ partial x_ {i}}} {LSE (\ mathbf {x})} = {\ frac {\ exp x_ {i}} {\ sum _ {j} \ exp {x_ {j}}}}.}

Это означает, что градиент LogSumExp - это функция softmax

Выпуклые сопряженная из LogSumExp является отрицательной энтропией .

трюк log-sum-exp для вычислений в лог-области

Функция LSE часто встречается, когда обычные арифметические вычисления выполняются в логарифмическом масштабе , например, в логарифмической вероятности . ^[5]

Подобно тому, как операции умножения в линейном масштабе становятся простыми сложениями в логарифмическом масштабе, операция сложения в линейном масштабе становится LSE в логарифмическом масштабе:

{\ displaystyle LSE (\ log (x_ {1}), ..., \ log (x_ {n})) = \ log (x_ {1} + \ dots + x_ {n})}

Общей целью использования вычислений в лог-области является повышение точности и избежание проблем с недополнением и переполнением, когда очень маленькие или очень большие числа представляются напрямую (т. Е. В линейной области) с использованием чисел с плавающей запятой ограниченной точности. ^[6]

К сожалению, использование LSE напрямую в этом случае может снова вызвать проблемы переполнения / потери значимости. Следовательно, вместо этого должен использоваться следующий эквивалент (особенно, когда точность приведенного выше приближения «max» недостаточна). Поэтому многие математические библиотеки, такие как IT ++, предоставляют подпрограмму LSE по умолчанию и используют эту формулу для внутренних целей.

{\ displaystyle LSE (x_ {1}, \ dots, x_ {n}) = x ^ {*} + \ log \ left (\ exp (x_ {1} -x ^ {*}) + \ cdots + \ exp (x_ {n} -x ^ {*}) \ right)}

где ${\ displaystyle x ^ {*} = \ max {\ {x_ {1}, \ dots, x_ {n} \}}}$

Строго выпуклая функция типа log-sum-exp

LSE выпуклый, но не строго выпуклый. Мы можем определить строго выпуклую функцию типа log-sum-exp ^[7] , добавив дополнительный аргумент, установленный в ноль:

{\ displaystyle LSE_ {0} ^ {+} (x_ {1}, ..., x_ {n}) = LSE (0, x_ {1}, ..., x_ {n})}

Эта функция является собственным генератором Брегмана (строго выпуклой и дифференцируемой). Он встречается в машинном обучении, например, как кумулянт полиномиального / биномиального семейства.

В тропическом анализе это сумма в лог-полукольце .

LogSumExp

Характеристики

трюк log-sum-exp для вычислений в лог-области

Строго выпуклая функция типа log-sum-exp

Смотрите также

Рекомендации