Из Википедии, свободной энциклопедии
  (Перенаправлен из Variational Bayes )
Перейти к навигации Перейти к поиску

Вариационные байесовские методы - это семейство методов аппроксимации трудноразрешимых интегралов, возникающих при байесовском выводе и машинном обучении . Они обычно используются в сложных статистических моделях, состоящих из наблюдаемых переменных (обычно называемых «данными»), а также неизвестных параметров и скрытых переменных с различными видами отношений между тремя типами случайных величин , которые могут быть описаны графической моделью . Как обычно в байесовском выводе, параметры и скрытые переменные сгруппированы вместе как «ненаблюдаемые переменные». Вариационные байесовские методы в основном используются для двух целей:

  1. Обеспечить аналитическое приближение к апостериорной вероятности ненаблюдаемых переменных, чтобы сделать статистический вывод по этим переменным.
  2. Для получения оценки нижней границы для предельной вероятности (иногда называемой «доказательством») наблюдаемых данных (т.е. предельной вероятности данных , учитывая модель, с маргинализация выполняется по ненаблюдаемому переменной). Это обычно используется для выполнения выбора модели , общая идея заключается в том, что более высокая предельная вероятность для данной модели указывает на лучшее соответствие данных этой модели и, следовательно, большую вероятность того, что рассматриваемая модель была той, которая сгенерировала данные. (См. Также статью о байесовском факторе .)

В первой цели (аппроксимации апостериорной вероятности) вариационный байесовский метод является альтернативой методам выборки Монте-Карло - в частности, методам Монте-Карло с цепью Маркова, таким как выборка Гиббса - для принятия полностью байесовского подхода к статистическому выводу по сложным распределениям, которые являются трудно оценить напрямую или по образцу . В частности, в то время как методы Монте-Карло обеспечивают численное приближение к точной апостериорной оценке с использованием набора выборок, вариационный байесовский метод обеспечивает локально-оптимальное точное аналитическое решение для аппроксимации апостериорной оценки.

Вариационный байесовский алгоритм можно рассматривать как расширение алгоритма EM ( максимизация ожидания ) от максимальной апостериорной оценки ( оценка MAP) единственного наиболее вероятного значения каждого параметра до полностью байесовской оценки, которая вычисляет (приближение) всего апостериорного распределения. параметров и скрытых переменных. Как и в EM, он находит набор оптимальных значений параметров и имеет ту же чередующуюся структуру, что и EM, на основе набора взаимосвязанных (взаимозависимых) уравнений, которые не могут быть решены аналитически.

Для многих приложений вариационный байесовский метод дает решения, сопоставимые по точности с выборкой Гиббса на большей скорости. Однако вывод системы уравнений, используемых для итеративного обновления параметров, часто требует большого объема работы по сравнению с выводом сопоставимых уравнений выборки Гиббса. Это справедливо даже для многих моделей, которые концептуально довольно просты, как показано ниже в случае базовой неиерархической модели только с двумя параметрами и без скрытых переменных.

Математический вывод [ править ]

Проблема [ править ]

В вариационных умозаключениях, заднее распределение по набору ненаблюдаемых переменных данных некоторых данным аппроксимируются так называемым вариационным распределением , :

Распределение ограничиваются принадлежит к семейству распределений простой формы (например , семейство гауссовских распределений) , чем , выбранное с целью сделать аналогичны истинной задним, .

Сходство (или несходство) измеряется с помощью функции несходства, и, следовательно, вывод выполняется путем выбора распределения, которое минимизирует .

KL дивергенция [ править ]

Наиболее распространенный тип вариационного Байеса использует дивергенцию Кульбака-Лейблера (KL-дивергенции) из P от Q в качестве функции выбора несходства. Этот выбор делает эту минимизацию управляемой. KL-дивергенция определяется как

Обратите внимание, что Q и P перевернуты по сравнению с тем, что можно было ожидать. Такое использование обращенной KL-дивергенции концептуально аналогично алгоритму максимизации ожидания . (Использование KL-дивергенции другим способом дает алгоритм распространения математического ожидания .)

Несговорчивость [ править ]

Вариационные методы обычно используются для построения приближения для:

Маргинализация для вычисления в знаменателе обычно неразрешима, потому что, например, пространство поиска комбинаторно велико. Поэтому мы ищем приближение, используя .

Нижняя граница доказательств [ править ]

Учитывая это , указанная выше KL-дивергенция также может быть записана как

Поскольку является константой по отношению к распределению, и поскольку является распределением, мы имеем

которое, согласно определению математического ожидания (для дискретной случайной величины ), можно записать следующим образом

который может быть преобразован в

Поскольку свидетельство журнала фиксировано относительно , максимизация последнего члена минимизирует отклонение KL от . При соответствующем выборе , становится послушным , чтобы вычислить и максимизировать. Следовательно, у нас есть как аналитическое приближение для апостериорного , так и нижняя граница для свидетельства (поскольку KL-дивергенция неотрицательна).

Нижняя граница известна как (отрицательная) вариационная свободная энергия по аналогии с термодинамической свободной энергией , поскольку она также может быть выражена в виде отрицательной энергии плюс энтропии в . Этот термин также известен как Evidence Lower BOund , сокращенно ELBO , чтобы подчеркнуть, что это нижняя граница доказательства данных.

Доказательства [ править ]

С помощью обобщенной теоремы Пифагора о расходимости Брегмана , частным случаем которой является KL-расходимость, можно показать, что: [1] [2]

Обобщенная теорема Пифагора о расходимости Брегмана . [2]

где - выпуклое множество и равенство выполняется, если:

В этом случае глобальный минимизатор с может быть найден следующим образом: [1]

в котором нормирующая постоянная равна:

На практике этот термин часто называют доказательной нижней границей ( ELBO ), поскольку , как показано выше , [1] .

Меняя ролями и, мы можем итеративно вычислять приближенные и истинные маргиналы и соответственно. Хотя эта итерационная схема гарантирует монотонную сходимость, [1] сходимость является только локальным минимизатором .

Если ограниченное пространство ограничено независимым пространством, то есть вышеупомянутая итерационная схема станет так называемым приближением среднего поля, как показано ниже.

Приближение среднего поля [ править ]

Обычно предполагается, что вариационное распределение факторизуется по некоторому разделению скрытых переменных, то есть по некоторому разделению скрытых переменных на :

Используя вариационное исчисление (отсюда и название «вариационный байесовский»), можно показать, что «лучшее» распределение для каждого из факторов (в терминах распределения, минимизирующего расхождение KL, как описано выше) может быть выражено как:

где - математическое ожидание логарифма совместной вероятности данных и скрытых переменных, взятого по всем переменным, не входящим в раздел.

На практике мы обычно работаем в терминах логарифмов, то есть:

Константа в приведенном выше выражении связана с нормирующей константой (знаменатель в приведенном выше выражении для ) и обычно восстанавливается путем проверки, так как остальная часть выражения обычно может быть распознана как известный тип распределения (например, Гауссово , гамма , так далее.).

Используя свойства ожиданий, выражение обычно может быть упрощено в функцию фиксированных гиперпараметров этих априорных распределений более скрытых переменных и ожидания (а иногда и более высоких моментов , такие как дисперсия ) скрытых переменных не в текущем разделе (т.е. скрытые переменные не включены в ). Это создает циклические зависимости между параметрами распределений по переменным в одном разделе и ожиданиями переменных в других разделах. Это, естественно, предполагает итерационный алгоритм, очень похожий на EM (максимальное ожиданиеалгоритм), в котором ожидания (и, возможно, более высокие моменты) скрытых переменных инициализируются некоторым образом (возможно, случайным образом), а затем параметры каждого распределения вычисляются по очереди с использованием текущих значений ожиданий, после чего математическое ожидание вновь вычисленного распределения устанавливается соответствующим образом в соответствии с вычисленными параметрами. Гарантированная сходимость такого алгоритма . [3]

Другими словами, для каждого из разделов переменных, упрощая выражение для распределения по переменным раздела и исследуя функциональную зависимость распределения от рассматриваемых переменных, обычно можно определить семейство распределения (которое, в свою очередь, определяет значение константы). Формула для параметров распределения будет выражена в терминах гиперпараметров предыдущих распределений (которые являются известными константами), а также в терминах ожиданий функций переменных в других разделах. Обычно эти ожидания могут быть упрощены в функции ожидания самих переменных (то есть средства ); иногда ожидания квадратов переменных (которые могут быть связаны с дисперсиейпеременных), или ожидания более высоких степеней (то есть более высоких моментов ) также появляются. В большинстве случаев распределения других переменных будут из известных семейств, и формулы для соответствующих ожиданий можно найти. Однако эти формулы зависят от параметров этих распределений, которые, в свою очередь, зависят от ожиданий в отношении других переменных. В результате формулы для параметров распределений каждой переменной могут быть выражены в виде серии уравнений с взаимными нелинейными зависимостями между переменными. Обычно решить эту систему уравнений напрямую невозможно. Однако, как описано выше, зависимости предлагают простой итерационный алгоритм, который в большинстве случаев гарантированно сходится. Пример сделает этот процесс более понятным.

Базовый пример [ править ]

Рассмотрим простую неиерархическую байесовскую модель, состоящую из набора iid- наблюдений из гауссовского распределения с неизвестным средним значением и дисперсией . [4] Далее мы подробно проработаем эту модель, чтобы проиллюстрировать работу вариационного метода Байеса.

Для математического удобства в следующем примере мы работаем с точки зрения точности, т. Е. Обратной величиной дисперсии (или в многомерной гауссовой системе, обратной ковариационной матрице ), а не самой дисперсией. (С теоретической точки зрения точность и дисперсия эквивалентны, поскольку между ними существует взаимно однозначное соответствие .)

Математическая модель [ править ]

Мы помещаем сопряженные априорные распределения на неизвестное среднее значение и точность , т. Е. Среднее значение также следует гауссовскому распределению, а точность соответствует гамма-распределению . Другими словами:

В гиперпараметрах и в предыдущих распределениях являются фиксированными, заданными значениями. Они могут быть установлены на небольшие положительные числа, чтобы получить широкие априорные распределения, указывающие на незнание априорных распределений и .

Нам даны точки данных, и наша цель - вывести апостериорное распределение параметров и

Совместная вероятность [ править ]

Совместная вероятность всех переменных можно переписать в виде

где отдельные факторы

где

Факторизованное приближение [ править ]

Предположим, что , т.е. что апостериорное распределение разлагается на независимые факторы для и . Такое предположение лежит в основе вариационного байесовского метода. Истинное апостериорное распределение фактически не учитывается таким образом (фактически, в этом простом случае оно известно как гауссово-гамма-распределение ), и, следовательно, полученный результат будет приближенным.

Вывод q (μ) [ править ]

Затем

В приведенном выше выводе , и относятся к значениям , которые являются постоянными по отношению к . Обратите внимание, что термин не является функцией и будет иметь одно и то же значение независимо от значения . Следовательно, в строке 3 мы можем преобразовать его в постоянный член в конце. То же самое делаем в строке 7.

Последняя строка - это просто квадратичный многочлен от . Поскольку это логарифм , мы можем видеть, что само распределение является гауссовым .

С некоторым количеством нудной математики (расширение площадей внутри фигурных скобок, отделяя и группируя члены с и и завершая квадрат за кадром ), можно получить параметры распределения Гаусса:

Обратите внимание, что все вышеперечисленные шаги можно сократить, используя формулу суммы двух квадратиков .

Другими словами:

Вывод q (τ) [ править ]

Вывод аналогичен приведенному выше, хотя для краткости мы опускаем некоторые детали.

Возводя в степень обе стороны, мы видим, что это гамма-распределение . Конкретно:

Алгоритм вычисления параметров [ править ]

Подведем итоги выводов из предыдущих разделов:

и

В каждом случае параметры распределения по одной из переменных зависят от ожиданий, взятых в отношении другой переменной. Мы можем расширить ожидания, используя стандартные формулы для ожиданий моментов гауссовского и гамма-распределений:

Применение этих формул к приведенным выше уравнениям в большинстве случаев тривиально, но уравнение для требует больше работы:

Затем мы можем записать уравнения параметров следующим образом, без каких-либо ожиданий:

Обратите внимание, что есть круговые зависимости между формулами для и . Это, естественно, предполагает алгоритм, подобный EM :

  1. Вычислить и использовать эти значения для вычисления и
  2. Инициализировать произвольным значением.
  3. Для вычисления используйте текущее значение вместе с известными значениями других параметров .
  4. Для вычисления используйте текущее значение вместе с известными значениями других параметров .
  5. Повторяйте последние два шага до схождения (то есть до тех пор, пока ни одно из значений не изменится больше, чем на небольшую величину).

Затем у нас есть значения гиперпараметров аппроксимирующих распределений апостериорных параметров, которые мы можем использовать для вычисления любых необходимых нам свойств апостериорных параметров - например, его среднего значения и дисперсии, 95% области с самой высокой плотностью (наименьший интервал, который включает 95 % от общей вероятности) и т. д.

Можно показать, что этот алгоритм гарантированно сходится к локальному максимуму.

Также обратите внимание, что апостериорные распределения имеют ту же форму, что и соответствующие апостериорные распределения. Мы этого не предполагали; единственное предположение, которое мы сделали, заключалось в том, что распределения факторизуются, и форма распределений следует естественным образом. Оказывается (см. Ниже), что тот факт, что апостериорные распределения имеют ту же форму, что и априорные, не является совпадением, а является общим результатом, когда априорные распределения являются членами экспоненциального семейства , что имеет место для большинства стандартные дистрибутивы.

Дальнейшее обсуждение [ править ]

Пошаговый рецепт [ править ]

В приведенном выше примере показан метод, с помощью которого получается вариационно-байесовское приближение апостериорной плотности вероятности в данной байесовской сети :

  1. Опишите сеть с помощью графической модели , указав наблюдаемые переменные (данные) и ненаблюдаемые переменные ( параметры и скрытые переменные ) и их условные распределения вероятностей . Затем вариационный Байес построит аппроксимацию апостериорной вероятности . Аппроксимация имеет основное свойство - факторизованное распределение, то есть произведение двух или более независимых распределений по непересекающимся подмножествам ненаблюдаемых переменных.
  2. Разделите ненаблюдаемые переменные на два или более подмножества, по которым будут выведены независимые факторы. Универсальной процедуры для этого не существует; создание слишком большого количества подмножеств дает плохое приближение, в то время как создание слишком малого числа делает всю вариационную байесовскую процедуру неразрешимой. Как правило, первое разделение предназначено для разделения параметров и скрытых переменных; часто этого достаточно для получения приемлемого результата. Предположим, что разделы называются .
  3. Для данного раздела запишите формулу наилучшего аппроксимирующего распределения, используя основное уравнение .
  4. Заполните формулу совместного распределения вероятностей, используя графическую модель. Любые условные распределения компонентов, в которых не используются никакие переменные, можно игнорировать; они будут сложены в постоянный член.
  5. Упростите формулу и примените оператор математического ожидания, следуя приведенному выше примеру. В идеале это должно упростить ожидание основных функций переменных, не входящих в (например, первые или вторые необработанные моменты , математическое ожидание и т. Д.). Для того чтобы вариационная процедура Байеса работала хорошо, эти ожидания обычно должны быть выражены аналитически как функции параметров и / или гиперпараметров распределений этих переменных. Во всех случаях эти ожидаемые члены являются константами по отношению к переменным в текущем разделе.
  6. Функциональная форма формулы по отношению к переменным в текущем разделе указывает тип распределения. В частности, возведение в степень формулы генерирует функцию плотности вероятности (PDF) распределения (или, по крайней мере, что-то пропорциональное ей, с неизвестной константой нормализации.). Чтобы общий метод был управляемым, должна быть возможность распознать функциональную форму как принадлежащую известному распределению. Для преобразования формулы в форму, которая соответствует PDF известного распределения, могут потребоваться значительные математические манипуляции. Когда это может быть сделано, нормировочная константа может быть восстановлена ​​по определению, а уравнения для параметров известного распределения могут быть получены путем извлечения соответствующих частей формулы.
  7. Когда все ожидания могут быть заменены аналитически функциями переменных, не входящих в текущее разделение, и PDF преобразован в форму, позволяющую идентифицировать с известным распределением, результатом является набор уравнений, выражающих значения оптимальных параметров как функции параметры переменных в других разделах.
  8. Когда эту процедуру можно применить ко всем разделам, результатом будет набор взаимосвязанных уравнений, определяющих оптимальные значения всех параметров.
  9. Ожидания Максимизация процедура типа (ЭМ) затем применяется, выбирая начальное значение для каждого параметра и итерации через ряд шагов, где на каждом шаге цикла через уравнений, обновление каждый параметр в свою очередь. Это гарантированно сойдет.

Самые важные моменты [ править ]

Из-за всех задействованных математических манипуляций легко потерять общую картину. Важные вещи:

  1. Идея вариационного Байеса состоит в том, чтобы построить аналитическое приближение к апостериорной вероятности набора ненаблюдаемых переменных (параметров и скрытых переменных) с учетом данных. Это означает, что форма решения аналогична другим методам байесовского вывода , таким как выборка Гиббса, т. Е. Распределение, которое стремится описать все, что известно о переменных. Как и в других байесовских методах - но в отличие, например, от методов максимизации ожидания (EM) или других методов максимального правдоподобия - оба типа ненаблюдаемых переменных (т.е. параметры и скрытые переменные) обрабатываются одинаково, то есть как случайные переменные.. Затем оценки переменных могут быть получены стандартными байесовскими способами, например, вычислением среднего значения распределения для получения одноточечной оценки или вычислением вероятного интервала , области наивысшей плотности и т. Д.
  2. «Аналитическое приближение» означает, что можно записать формулу для апостериорного распределения. Формула обычно состоит из произведения хорошо известных распределений вероятностей, каждое из которых факторизуется по набору ненаблюдаемых переменных (т. Е. Оно условно не зависит от других переменных с учетом наблюдаемых данных). Эта формула не является истинным апостериорным распределением, а является приближением к нему; в частности, оно обычно будет довольно близко согласовываться в самые низкие моменты ненаблюдаемых переменных, например, среднее значение и дисперсия .
  3. Результатом всех математических манипуляций является (1) идентичность распределений вероятностей, составляющих факторы, и (2) взаимозависимые формулы для параметров этих распределений. Фактические значения этих параметров вычисляются численно с помощью чередующейся итерационной процедуры, очень похожей на EM.

По сравнению с максимизацией ожидания (EM) [ править ]

Вариационный байесовский метод (VB) часто сравнивают с максимизацией ожидания (EM). Фактическая численная процедура очень похожа, поскольку обе являются чередующимися итерационными процедурами, которые последовательно сходятся к оптимальным значениям параметров. Начальные шаги для получения соответствующих процедур также отдаленно похожи, оба начинаются с формул для плотностей вероятностей и оба требуют значительного количества математических манипуляций.

Однако есть ряд отличий. Самое важное - это то , что вычисляется.

  • EM вычисляет точечные оценки апостериорного распределения тех случайных величин, которые могут быть отнесены к категории «параметров», но только оценки фактических апостериорных распределений скрытых переменных (по крайней мере, в «мягкой EM», и часто только тогда, когда скрытые переменные дискретны. ). Вычисленные точечные оценки представляют собой режимы этих параметров; другой информации нет.
  • VB, с другой стороны, вычисляет оценки фактического апостериорного распределения всех переменных, как параметров, так и скрытых переменных. Когда необходимо получить точечные оценки, обычно используется среднее значение, а не режим, как это обычно бывает при байесовском выводе. При этом параметры, вычисленные в VB, не имеют такого же значения, как в EM. EM вычисляет оптимальные значения параметров самой байесовской сети. VB вычисляет оптимальные значения параметров распределений, используемых для аппроксимации параметров и скрытых переменных байесовской сети. Например, типичная модель гауссовой смесибудут иметь параметры для среднего и дисперсии каждого из компонентов смеси. EM будет напрямую оценивать оптимальные значения этих параметров. Однако VB сначала подгоняет распределение к этим параметрам - обычно в форме априорного распределения , например, обратного гамма-распределения с нормальным масштабированием - и затем вычисляет значения для параметров этого априорного распределения, то есть по существу гиперпараметры . В этом случае VB будет вычислять оптимальные оценки четырех параметров нормализованного обратного гамма-распределения, которое описывает совместное распределение среднего и дисперсии компонента.

Более сложный пример [ править ]

Модель байесовской гауссовской смеси с использованием пластинчатых обозначений . Меньшие квадраты обозначают фиксированные параметры; большие кружки обозначают случайные величины. Закрашенные фигуры указывают известные значения. Индикация [K] означает вектор размера K ; [ D , D ] означает матрицу размера D × D ; Только K означает категориальную переменную с K исходами. Волнистая линия, идущая от z, заканчивающаяся перекрестием, указывает на переключатель - значение этой переменной выбирает для других входящих переменных, какое значение использовать из массива возможных значений size - K.

Представьте себе байесовскую гауссовскую модель смеси, описанную следующим образом: [4]

Примечание:

  • SymDir () - это симметричное распределение размерности Дирихле с гиперпараметром для каждого компонента, установленным на . Распределение Дирихля является сопряженным перед от категориального распределения или полиномиального распределения .
  • - это распределение Уишарта , которое является сопряженным априорным значением матрицы точности (обратной ковариационной матрицы ) для многомерного распределения Гаусса .
  • Mult () - это полиномиальное распределение для одного наблюдения (эквивалентное категориальному распределению ). Пространство состояний является представлением "один из K", то есть -мерным вектором, в котором один из элементов равен 1 (определяя идентичность наблюдения), а все остальные элементы равны 0.
  • является распределением Гаусса , в данном случае многомерным распределением Гаусса .

Интерпретация вышеуказанных переменных следующая:

  • представляет собой набор точек данных, каждая из которых представляет собой -мерный вектор, распределенный согласно многомерному распределению Гаусса .
  • представляет собой набор скрытых переменных, по одной на точку данных, определяющих, к какому компоненту смеси принадлежит соответствующая точка данных, с использованием векторного представления «один из K» с компонентами для , как описано выше.
  • - пропорции смешивания компонентов смеси.
  • и укажите параметры ( среднее значение и точность ), связанные с каждым компонентом смеси.

Совместную вероятность всех переменных можно переписать как

где отдельные факторы

где

Предположим, что .

Затем

где мы определили

Возведение в степень обеих частей формулы доходности

Требование, чтобы это было нормализовано, требует, чтобы сумма до 1 по всем значениям , давая

где

Другими словами, это произведение полиномиальных распределений для одного наблюдения и факторов для каждого отдельного человека , которое распределяется как полиномиальное распределение для одного наблюдения с параметрами для .

Кроме того, отметим, что

что является стандартным результатом для категориальных распределений.

Теперь, учитывая фактор , обратите внимание, что он автоматически учитывается из-за структуры графической модели, определяющей нашу модель гауссовой смеси, которая указана выше.

Затем,

Принимая экспоненту с обеих сторон, мы понимаем , как распределение Дирихле

где

где

Ну наконец то

Группируя и считывая термины, включающие и , результатом является распределение Гаусса-Вишарта, задаваемое формулой

учитывая определения

Наконец, обратите внимание , что эти функции требуют значения , которые делают использование , которое в свою очередь определяется на основе , и . Теперь, когда мы определили распределения, по которым берутся эти ожидания, мы можем вывести для них формулы:

Эти результаты приводят к

Их можно преобразовать из пропорциональных в абсолютные значения путем нормализации таким образом, чтобы сумма соответствующих значений равнялась 1.

Обратите внимание, что:

  1. Это обновление уравнений для параметров , , и переменных и зависят от статистики , и , и эти статистические данные , в свою очередь зависят от .
  2. Уравнения обновления для параметров переменной зависят от статистики , которая, в свою очередь, зависит от .
  3. Уравнение обновления для имеет прямую зависимость от круговой , , и , а также косвенной круговой зависимости , и через и .

Это предполагает итеративную процедуру, которая чередуется между двумя этапами:

  1. E-шаг, который вычисляет значение с использованием текущих значений всех других параметров.
  2. M-шаг, который использует новое значение для вычисления новых значений всех других параметров.

Обратите внимание, что эти шаги близко соответствуют стандартному алгоритму EM для получения максимального правдоподобия или максимального апостериорного (MAP) решения для параметров модели гауссовой смеси . Ответственность в шаге Е близко соответствуют апостериорных вероятностей скрытых переменных данных данные, то есть ; вычисление статистики , и близко соответствует вычислению соответствующей статистики «мягкого подсчета» по данным; и использование этой статистики для вычисления новых значений параметров близко соответствует использованию мягких подсчетов для вычисления новых значений параметров в нормальной ЭМ по модели гауссовой смеси.

Экспоненциально-семейные распределения [ править ]

Обратите внимание, что в предыдущем примере, как только предполагалось, что распределение по ненаблюдаемым переменным факторизуется в распределения по «параметрам» и распределения по «скрытым данным», полученное «лучшее» распределение для каждой переменной находилось в том же семействе, что и соответствующее предварительное распределение по переменной. Это общий результат, справедливый для всех априорных распределений, полученных из экспоненциального семейства .

См. Также [ править ]

  • Вариационная передача сообщений : модульный алгоритм вариационного байесовского вывода.
  • Алгоритм ожидания-максимизации : родственный подход, который соответствует частному случаю вариационного байесовского вывода.
  • Обобщенная фильтрация : вариационная схема фильтрации для нелинейных моделей пространства состояний.
  • Вариационное исчисление : область математического анализа, которая занимается максимизацией или минимизацией функционалов.
  • Дискриминация максимальной энтропии : это система вариационного вывода, которая позволяет вводить и учитывать дополнительные ограничения с большой маржой [5]

Заметки [ править ]

  1. ^ а б в г Тран, Вьет Хунг (2018). «Копула Вариационный Байесовский вывод через информационную геометрию». arXiv : 1803.10998 [ cs.IT ].
  2. ^ a b Адамчик, Мартин (2014). "Информационная геометрия расхождений Брегмана и некоторые приложения в мультиэкспертном мышлении" . Энтропия . 16 (12): 6338–6381. Bibcode : 2014Entrp..16.6338A . DOI : 10.3390 / e16126338 .
  3. ^ Бойд, Стивен П .; Ванденберге, Ливен (2004). Выпуклая оптимизация (pdf) . Издательство Кембриджского университета. ISBN  978-0-521-83378-3. Проверено 15 октября 2011 года .
  4. ^ a b На основе главы 10 книги « Распознавание образов и машинное обучение » Кристофера М. Бишопа.
  5. ^ Сотириос П. Хатзис, « Бесконечные машины с максимальной энтропийной дискриминацией с марковским переключением », Proc. 30-я Международная конференция по машинному обучению (ICML). Journal of Machine Learning Research: Workshop and Conference Proceedings, vol. 28, вып. 3. С. 729–737, июнь 2013 г.

Ссылки [ править ]

  • Епископ, Кристофер М. (2006). Распознавание образов и машинное обучение . Springer. ISBN 978-0-387-31073-2.

Внешние ссылки [ править ]

  • Он-лайн учебник: Теория информации, выводы и алгоритмы обучения , написанный Дэвидом Дж. К. Маккеем, дает введение в вариационные методы (стр. 422).
  • Учебник по вариационному байесовскому протоколу . Фокс, К. и Робертс, С. 2012. Искусственный интеллект Обзор, DOI : 10.1007 / s10462-011-9236-8 .
  • Variational-Bayes Repository Репозиторий исследовательских работ, программного обеспечения и ссылок, связанных с использованием вариационных методов для приближенного байесовского обучения до 2003 года.
  • Вариационные алгоритмы для приближенного байесовского вывода , автор MJ Beal, включает сравнения EM с вариационным байесовским EM и вывод нескольких моделей, включая вариационные байесовские HMM.
  • Перед более подробным математическим анализом, возможно, стоит прочитать « Высокоуровневое объяснение вариационного вывода » Джейсона Эйснера.
  • Копула Вариационный байесовский вывод через информационную геометрию (pdf) , Тран, В.Х. 2018. Эта статья в первую очередь написана для студентов. Через дивергенцию Брегмана в статье показано, что вариационный байесовский метод - это просто обобщенная пифагорова проекция истинной модели на произвольно коррелированное (копульное) распределительное пространство, независимое пространство которого является лишь частным случаем.