Перекрестная энтропия

В теории информации , то кросс-энтропия между двумя распределениями вероятностей ${\ displaystyle p}$ а также ${\ displaystyle q}$ по одному и тому же базовому набору событий измеряет среднее количество битов, необходимых для идентификации события, извлеченного из набора, если схема кодирования, используемая для набора, оптимизирована для оцененного распределения вероятностей ${\ displaystyle q}$ , а не истинное распределение ${\ displaystyle p}$ .

Определение

Кросс-энтропия распределения ${\ displaystyle q}$ относительно распределения ${\ displaystyle p}$ над заданным набором определяется следующим образом:

{\ displaystyle H (p, q) = - \ operatorname {E} _ {p} [\ log q]}

,

где ${\ Displaystyle E_ {p} [\ cdot]}$ - оператор математического ожидания относительно распределения ${\ displaystyle p}$ .

Определение можно сформулировать с помощью расхождения Кульбака – Лейблера. ${\ Displaystyle D _ {\ mathrm {KL}} (п \ | q)}$ , расхождение ${\ displaystyle p}$ из ${\ displaystyle q}$ (также известный как относительная энтропия из ${\ displaystyle p}$ относительно ${\ displaystyle q}$ ).

{\ Displaystyle Н (п, д) = Н (р) + D _ {\ mathrm {KL}} (р \ | д)}

,

где ${\ displaystyle H (p)}$ является энтропия в ${\ displaystyle p}$ .

Для дискретных распределений вероятностей ${\ displaystyle p}$ а также ${\ displaystyle q}$ с такой же поддержкой ${\ Displaystyle {\ mathcal {X}}}$ это означает

{\ Displaystyle Н (п, д) = - \ сумма _ {х \ в {\ mathcal {X}}} р (х) \, \ журнал д (х)}

( Уравнение 1 )

Аналогичная ситуация и для непрерывных распределений. Мы должны предположить, что ${\ displaystyle p}$ а также ${\ displaystyle q}$ являются абсолютно непрерывны относительно некоторой эталонной меры ${\ displaystyle r}$ (обычно ${\ displaystyle r}$ является мерой Лебега на борелевской σ-алгебре ). Позволять ${\ displaystyle P}$ а также ${\ displaystyle Q}$ - функции плотности вероятности ${\ displaystyle p}$ а также ${\ displaystyle q}$ относительно ${\ displaystyle r}$ . потом

{\ displaystyle - \ int _ {\ mathcal {X}} P (x) \, \ log Q (x) \, dr (x) = \ operatorname {E} _ {p} [- \ log Q]}

и поэтому

{\ Displaystyle Н (p, q) = - \ int _ {\ mathcal {X}} P (x) \, \ log Q (x) \, dr (x)}

( Уравнение 2 )

NB: Обозначения ${\ Displaystyle Н (п, д)}$ также используется для другой концепции, совместная энтропия в ${\ displaystyle p}$ а также ${\ displaystyle q}$ .

Мотивация

В теории информации , то крафт-McMillan теорема устанавливает , что любые непосредственно декодируемые схемы кодирования для кодирования сообщения , чтобы определить одно значение ${\ displaystyle x_ {i}}$ из множества возможностей ${\ Displaystyle \ {х_ {1}, ..., х_ {п} \}}$ можно рассматривать как представление неявного распределения вероятностей ${\ displaystyle q (x_ {i}) = \ left ({\ frac {1} {2}} \ right) ^ {l_ {i}}}$ над ${\ Displaystyle \ {х_ {1}, ..., х_ {п} \}}$ , где ${\ displaystyle l_ {i}}$ длина кода для ${\ displaystyle x_ {i}}$ в битах. Следовательно, перекрестная энтропия может быть интерпретирована как ожидаемая длина сообщения для данных при неправильном распределении. ${\ displaystyle q}$ предполагается, в то время как данные фактически следуют распределению ${\ displaystyle p}$ . Вот почему математическое ожидание берется из истинного распределения вероятностей. ${\ displaystyle p}$ и нет ${\ displaystyle q}$ . Действительно, ожидаемая длина сообщения при истинном распределении ${\ displaystyle p}$ является,

{\ displaystyle \ operatorname {E} _ {p} [l] = - \ operatorname {E} _ {p} \ left [{\ frac {\ ln {q (x)}} {\ ln (2)}} \ right] = - \ operatorname {E} _ {p} \ left [\ log _ {2} {q (x)} \ right] = - \ sum _ {x_ {i}} p (x_ {i}) \, \ log _ {2} {q (x_ {i})} = - \ sum _ {x} p (x) \, \ log _ {2} q (x) = H (p, q)}

Оценка

Есть много ситуаций, когда необходимо измерить кросс-энтропию, но распределение ${\ displaystyle p}$ неизвестно. Примером является языковое моделирование , где модель создается на основе обучающего набора. ${\ displaystyle T}$ , а затем его перекрестная энтропия измеряется на тестовом наборе, чтобы оценить, насколько точна модель в прогнозировании тестовых данных. В этом примере ${\ displaystyle p}$ истинное распределение слов в любом корпусе, и ${\ displaystyle q}$ - это распределение слов, предсказанное моделью. Поскольку истинное распределение неизвестно, кросс-энтропию нельзя вычислить напрямую. В этих случаях оценка кросс-энтропии рассчитывается по следующей формуле:

{\ displaystyle H (T, q) = - \ sum _ {i = 1} ^ {N} {\ frac {1} {N}} \ log _ {2} q (x_ {i})}

где ${\ displaystyle N}$ - размер тестового набора, а ${\ Displaystyle д (х)}$ вероятность события ${\ displaystyle x}$ оценивается из обучающей выборки. Другими словами, ${\ displaystyle q (x_ {i})}$ оценка модели вероятности того, что i-е слово текста ${\ displaystyle x_ {i}}$ . Сумма усредняется по ${\ displaystyle N}$ слова теста. Это оценка истинной кросс-энтропии методом Монте-Карло , где набор тестов рассматривается как образцы из ${\ displaystyle p (x)}$ ^{[ необходима цитата ]} .

Отношение к логарифмической вероятности

В задачах классификации мы хотим оценить вероятность различных исходов. Пусть предполагаемая вероятность исхода ${\ displaystyle i}$ быть ${\ Displaystyle д _ {\ тета} (Х = я)}$ с параметрами, подлежащими оптимизации ${\ displaystyle \ theta}$ и пусть частота (эмпирическая вероятность) исхода ${\ displaystyle i}$ в тренировочном наборе быть ${\ Displaystyle р (Х = я)}$ . Учитывая N условно независимых выборок в обучающей выборке, вероятность параметров ${\ displaystyle \ theta}$ модели ${\ Displaystyle д _ {\ тета} (Х = х)}$ на обучающем наборе есть

{\ displaystyle {\ mathcal {L}} (\ theta) = \ prod _ {i \ in X} ({\ mbox {эст. вероятность}} i) ^ {{\ mbox {количество вхождений}} i } = \ prod _ {i} q _ {\ theta} (X = i) ^ {Np (X = i)}}

так что логарифм правдоподобия, деленный на ${\ displaystyle N}$ является

{\ displaystyle {\ frac {1} {N}} \ log ({\ mathcal {L}} (\ theta)) = {\ frac {1} {N}} \ log \ prod _ {i} q _ {\ theta} (X = i) ^ {Np (X = i)} = \ sum _ {i} p (X = i) \ log q _ {\ theta} (X = i) = - H (p, q)}

так что максимизация правдоподобия по параметрам ${\ displaystyle \ theta}$ то же самое, что минимизировать перекрестную энтропию.

Минимизация кросс-энтропии

Минимизация кросс-энтропии часто используется при оптимизации и оценке вероятности редких событий. При сравнении раздачи ${\ displaystyle q}$ против фиксированного распределения ссылок ${\ displaystyle p}$ , кросс-энтропия и KL-дивергенция идентичны с точностью до аддитивной константы (поскольку ${\ displaystyle p}$ фиксировано): оба принимают свои минимальные значения, когда ${\ displaystyle p = q}$ , который ${\ displaystyle 0}$ для расхождения KL, и ${\ displaystyle \ mathrm {H} (p)}$ для кросс-энтропии. ^{[ необходимая цитата ]} В технической литературе принцип минимизации расхождения KL (« Принцип минимальной информации о различении» Кульбака ) часто называют принципом минимальной кросс-энтропии (MCE) или Minxent .

Однако, как обсуждалось в статье о расхождении Кульбака – Лейблера , иногда распределение ${\ displaystyle q}$ - фиксированное априорное эталонное распределение, а распределение ${\ displaystyle p}$ оптимизирован, чтобы быть как можно ближе к ${\ displaystyle q}$ по возможности, с некоторыми ограничениями. В этом случае две минимизации не эквивалентны. Это привело к некоторой двусмысленности в литературе, и некоторые авторы пытались разрешить несогласованность, переопределив кросс-энтропию как ${\ Displaystyle D _ {\ mathrm {KL}} (п \ | q)}$ , скорее, чем ${\ Displaystyle Н (п, д)}$ .

Функция кросс-энтропийных потерь и логистическая регрессия

Кросс-энтропия может использоваться для определения функции потерь в машинном обучении и оптимизации . Истинная вероятность ${\ displaystyle p_ {i}}$ истинная метка, и данное распределение ${\ displaystyle q_ {i}}$ прогнозируемое значение текущей модели.

В частности, рассмотрите логистическую регрессию , которая (среди прочего) может использоваться для классификации наблюдений на два возможных класса (часто просто помеченных ${\ displaystyle 0}$ а также ${\ displaystyle 1}$ ). Выход модели для данного наблюдения с учетом вектора входных характеристик. ${\ displaystyle x}$ , можно интерпретировать как вероятность, которая служит основанием для классификации наблюдения. Вероятность моделируется с помощью логистической функции ${\ Displaystyle г (г) = 1 / (1 + е ^ {- z})}$ где ${\ displaystyle z}$ некоторая функция входного вектора ${\ displaystyle x}$ , обычно просто линейная функция. Вероятность выхода ${\ displaystyle y = 1}$ дан кем-то

{\ Displaystyle q_ {Y = 1} \ = \ {\ hat {y}} \ \ Equiv \ g (\ mathbf {w} \ cdot \ mathbf {x}) \ = 1 / (1 + e ^ {- \ mathbf {w} \ cdot \ mathbf {x}}),}

где вектор весов ${\ displaystyle \ mathbf {w}}$ оптимизируется с помощью некоторого подходящего алгоритма, такого как градиентный спуск . Точно так же дополнительная вероятность нахождения выхода ${\ displaystyle y = 0}$ просто дается

{\ displaystyle q_ {y = 0} \ = \ 1 - {\ hat {y}}}

Установив наши обозначения, ${\ displaystyle p \ in \ {y, 1-y \}}$ а также ${\ displaystyle q \ in \ {{\ hat {y}}, 1 - {\ hat {y}} \}}$ , мы можем использовать кросс-энтропию, чтобы измерить различие между ${\ displaystyle p}$ а также ${\ displaystyle q}$ :

{\ displaystyle H (p, q) \ = \ - \ sum _ {i} p_ {i} \ log q_ {i} \ = \ -y \ log {\ hat {y}} - (1-y) \ журнал (1 - {\ hat {y}})}

Логистическая регрессия обычно оптимизирует потери журнала для всех наблюдений, на которых она обучается, что аналогично оптимизации средней перекрестной энтропии в выборке. Например, предположим, что у нас есть ${\ displaystyle N}$ образцы, каждая из которых проиндексирована ${\ Displaystyle п = 1, \ точки, N}$ . Среднее функции потерь затем определяются по формуле:

{\ displaystyle {\ begin {align} J (\ mathbf {w}) \ & = \ {\ frac {1} {N}} \ sum _ {n = 1} ^ {N} H (p_ {n}, q_ {n}) \ = \ - {\ frac {1} {N}} \ sum _ {n = 1} ^ {N} \ {\ bigg [} y_ {n} \ log {\ hat {y}} _ {n} + (1-y_ {n}) \ log (1 - {\ hat {y}} _ {n}) {\ bigg]} \ ,, \ end {align}}}

где ${\ displaystyle {\ hat {y}} _ {n} \ Equiv g (\ mathbf {w} \ cdot \ mathbf {x} _ {n}) = 1 / (1 + e ^ {- \ mathbf {w} \ cdot \ mathbf {x} _ {n}})}$ , с участием ${\ displaystyle g (z)}$ логистическая функция по-прежнему.

Логистические потери иногда называют кросс-энтропийными потерями. Это также известно как потеря журнала (в этом случае двоичная метка часто обозначается {-1, + 1}). ^[1]

Примечание . Градиент потери кросс-энтропии для логистической регрессии такой же, как градиент квадрата потери ошибки для линейной регрессии . То есть определить

${\ displaystyle X ^ {T} = {\ begin {pmatrix} 1 & x_ {11} & \ dots & x_ {1p} \\ 1 & x_ {21} & \ dots & x_ {2p} \\ && \ dots \\ 1 & x_ {n1} & \ точки & x_ {np} \\\ конец {pmatrix}} \ in \ mathbb {R} ^ {n \ times (p + 1)}}$

${\ displaystyle {\ hat {y_ {i}}} = {\ hat {f}} (x_ {i1}, \ dots, x_ {ip}) = {\ frac {1} {1 + exp (- \ beta _ {0} - \ beta _ {1} x_ {i1} - \ dots - \ beta _ {p} x_ {ip})}}}$

${\ displaystyle L ({\ overrightarrow {\ beta}}) = - \ sum _ {i = 1} ^ {N} [y ^ {i} \ log {\ hat {y}} ^ {i} + (1 -y ^ {i}) \ log (1 - {\ hat {y}} ^ {i})]}$

Тогда у нас есть результат

${\ displaystyle {\ frac {\ partial} {\ partial {\ overrightarrow {\ beta}}}} L ({\ overrightarrow {\ beta}}) = X ({\ hat {Y}} - Y)}$

Доказательство таково. Для любой ${\ displaystyle {\ hat {y}} ^ {i}}$ , у нас есть

${\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {0}}} \ ln {\ frac {1} {1 + e ^ {- \ beta _ {0} + k_ {0}}}} = {\ frac {e ^ {- \ beta _ {0} + k_ {0}}} {1 + e ^ {- \ beta _ {0} + k_ {0}}}}}$

${\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {0}}} \ ln \ left (1 - {\ frac {1} {1 + e ^ {- \ beta _ {0} + k_ { 0}}}} \ right) = {\ frac {-1} {1 + e ^ {- \ beta _ {0} + k_ {0}}}}}$

${\ displaystyle {\ begin {align} {\ frac {\ partial} {\ partial \ beta _ {0}}} L ({\ overrightarrow {\ beta}}) & = - \ sum _ {i = 1} ^ {N} \ left [{\ frac {y ^ {i} \ cdot e ^ {- \ beta _ {0} + k_ {0}}} {1 + e ^ {- \ beta _ {0} + k_ { 0}}}} - (1-y ^ {i}) {\ frac {1} {1 + e ^ {- \ beta _ {0} + k_ {0}}}} \ right] \\ & = - \ sum _ {i = 1} ^ {N} [y ^ {i} - {\ hat {y}} ^ {i}] = \ sum _ {i = 1} ^ {N} ({\ hat {y }} ^ {я} -у ^ {я}) \ конец {выровнено}}}$

${\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {1}}} \ ln {\ frac {1} {1 + e ^ {- \ beta _ {1} x_ {i1} + k_ {1 }}}} = {\ frac {x_ {i1} e ^ {k_ {1}}} {e ^ {\ beta _ {1} x_ {i1}} + e ^ {k_ {1}}}}}$

${\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {1}}} \ ln \ left [1 - {\ frac {1} {1 + e ^ {- \ beta _ {1} x_ {i1 } + k_ {1}}}} \ right] = {\ frac {-x_ {i1} e ^ {\ beta _ {1} x_ {i1}}} {e ^ {\ beta _ {1} x_ {i1 }} + e ^ {k_ {1}}}}}$

${\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {1}}} L ({\ overrightarrow {\ beta}}) = - \ sum _ {i = 1} ^ {N} x_ {i1} (y ^ {i} - {\ hat {y}} ^ {i}) = \ sum _ {i = 1} ^ {N} x_ {i1} ({\ hat {y}} ^ {i} -y ^ {i})}$

Аналогичным образом в итоге получаем желаемый результат.

Смотрите также

Внешние ссылки