Кросс-энтропия распределения относительно распределения над заданным набором определяется следующим образом:
- ,
где - оператор математического ожидания относительно распределения.
Определение можно сформулировать с помощью расхождения Кульбака – Лейблера. , расхождение из (также известный как относительная энтропия из относительно ).
- ,
где является энтропия в.
Для дискретных распределений вероятностей а также с такой же поддержкой это означает
| | ( Уравнение 1 ) |
Аналогичная ситуация и для непрерывных распределений. Мы должны предположить, что а также являются абсолютно непрерывны относительно некоторой эталонной меры (обычно является мерой Лебега на борелевской σ-алгебре ). Позволять а также - функции плотности вероятности а также относительно . потом
и поэтому
| | ( Уравнение 2 ) |
NB: Обозначения также используется для другой концепции, совместная энтропия в а также .
В теории информации , то крафт-McMillan теорема устанавливает , что любые непосредственно декодируемые схемы кодирования для кодирования сообщения , чтобы определить одно значение из множества возможностей можно рассматривать как представление неявного распределения вероятностей над , где длина кода для в битах. Следовательно, перекрестная энтропия может быть интерпретирована как ожидаемая длина сообщения для данных при неправильном распределении. предполагается, в то время как данные фактически следуют распределению . Вот почему математическое ожидание берется из истинного распределения вероятностей. и нет . Действительно, ожидаемая длина сообщения при истинном распределении является,
Есть много ситуаций, когда необходимо измерить кросс-энтропию, но распределение неизвестно. Примером является языковое моделирование , где модель создается на основе обучающего набора., а затем его перекрестная энтропия измеряется на тестовом наборе, чтобы оценить, насколько точна модель в прогнозировании тестовых данных. В этом примере истинное распределение слов в любом корпусе, и - это распределение слов, предсказанное моделью. Поскольку истинное распределение неизвестно, кросс-энтропию нельзя вычислить напрямую. В этих случаях оценка кросс-энтропии рассчитывается по следующей формуле:
где - размер тестового набора, а вероятность события оценивается из обучающей выборки. Другими словами, оценка модели вероятности того, что i-е слово текста . Сумма усредняется послова теста. Это оценка истинной кросс-энтропии методом Монте-Карло , где набор тестов рассматривается как образцы из[ необходима цитата ] .
Минимизация кросс-энтропии часто используется при оптимизации и оценке вероятности редких событий. При сравнении раздачи против фиксированного распределения ссылок , кросс-энтропия и KL-дивергенция идентичны с точностью до аддитивной константы (поскольку фиксировано): оба принимают свои минимальные значения, когда , который для расхождения KL, и для кросс-энтропии. [ необходимая цитата ] В технической литературе принцип минимизации расхождения KL (« Принцип минимальной информации о различении» Кульбака ) часто называют принципом минимальной кросс-энтропии (MCE) или Minxent .
Однако, как обсуждалось в статье о расхождении Кульбака – Лейблера , иногда распределение - фиксированное априорное эталонное распределение, а распределение оптимизирован, чтобы быть как можно ближе к по возможности, с некоторыми ограничениями. В этом случае две минимизации не эквивалентны. Это привело к некоторой двусмысленности в литературе, и некоторые авторы пытались разрешить несогласованность, переопределив кросс-энтропию как, скорее, чем .
Кросс-энтропия может использоваться для определения функции потерь в машинном обучении и оптимизации . Истинная вероятность истинная метка, и данное распределение прогнозируемое значение текущей модели.
В частности, рассмотрите логистическую регрессию , которая (среди прочего) может использоваться для классификации наблюдений на два возможных класса (часто просто помеченных а также ). Выход модели для данного наблюдения с учетом вектора входных характеристик., можно интерпретировать как вероятность, которая служит основанием для классификации наблюдения. Вероятность моделируется с помощью логистической функции где некоторая функция входного вектора , обычно просто линейная функция. Вероятность выхода дан кем-то
где вектор весов оптимизируется с помощью некоторого подходящего алгоритма, такого как градиентный спуск . Точно так же дополнительная вероятность нахождения выхода просто дается
Установив наши обозначения, а также , мы можем использовать кросс-энтропию, чтобы измерить различие между а также :
Логистическая регрессия обычно оптимизирует потери журнала для всех наблюдений, на которых она обучается, что аналогично оптимизации средней перекрестной энтропии в выборке. Например, предположим, что у нас есть образцы, каждая из которых проиндексирована . Среднее функции потерь затем определяются по формуле:
где , с участием логистическая функция по-прежнему.
Логистические потери иногда называют кросс-энтропийными потерями. Это также известно как потеря журнала (в этом случае двоичная метка часто обозначается {-1, + 1}). [1]
Примечание . Градиент потери кросс-энтропии для логистической регрессии такой же, как градиент квадрата потери ошибки для линейной регрессии . То есть определить
Тогда у нас есть результат
Доказательство таково. Для любой, у нас есть
Аналогичным образом в итоге получаем желаемый результат.