Алгоритм ожидания – максимизации

В статистике , ожидание максимизации ( ЭМ ) Алгоритм представляет собой итерационный метод , чтобы найти (локальное) максимальное правдоподобие или максимальный апостериорный (MAP) оценки параметров в статистических моделях , где модель зависит от ненаблюдаемого латентных переменных . Итерация EM чередуется между выполнением этапа ожидания (E), который создает функцию для ожидания логарифмической вероятности, оцениваемой с использованием текущей оценки параметров, и этапом максимизации (M), на котором вычисляются параметры, максимизирующие ожидаемое значение log. вероятность найти наШаг E. Эти оценки параметров затем используются для определения распределения скрытых переменных на следующем этапе E.

EM-кластеризация данных об извержениях Old Faithful . Случайная исходная модель (которая из-за разных масштабов осей кажется двумя очень плоскими и широкими сферами) соответствует наблюдаемым данным. На первых итерациях модель существенно меняется, но затем сходится к двум режимам гейзера . Визуализируется с помощью ELKI .

История

Алгоритм EM был объяснен и получил свое название в классической статье 1977 года Артура Демпстера , Нэн Лэрд и Дональда Рубина . ^[1] Они указали, что этот метод «много раз предлагался при особых обстоятельствах» более ранними авторами. Одним из первых является метод подсчета генов для оценки частот аллелей Седрика Смита . ^[2] Очень подробное рассмотрение метода ЭМ для экспоненциальных семейств было опубликовано Рольфом Сундбергом в его диссертации и нескольких статьях ^[3]^[4]^[5] после его сотрудничества с Пером Мартином-Лёфом и Андерсом Мартином-Лёфом . ^[6]^[7]^[8]^[9]^[10]^[11]^[12] Статья Демпстера – Лэрда – Рубина 1977 г. обобщила метод и наметила анализ сходимости для более широкого класса проблем. В статье Демпстера – Лэрда – Рубина ЭМ-метод определен как важный инструмент статистического анализа.

Анализ сходимости алгоритма Демпстера – Лэрда – Рубина был ошибочным, и правильный анализ сходимости был опубликован CF Jeff Wu в 1983 году. ^[13] Доказательство Ву установило сходимость метода EM вне экспоненциального семейства , как утверждал Демпстер – Лейрд– Вбивать в голову. ^[13]

Вступление

Алгоритм EM используется для поиска (локальных) параметров максимального правдоподобия статистической модели в случаях, когда уравнения не могут быть решены напрямую. Обычно эти модели включают скрытые переменные в дополнение к неизвестным параметрам и известным данным наблюдений. То есть либо среди данных существуют отсутствующие значения , либо модель может быть сформулирована более просто, допуская существование дополнительных ненаблюдаемых точек данных. Например, модель смеси можно описать более просто, если предположить, что каждая наблюдаемая точка данных имеет соответствующую ненаблюдаемую точку данных или скрытую переменную, определяющую компонент смеси, которому принадлежит каждая точка данных.

Нахождение решения с максимальным правдоподобием обычно требует взятия производных от функции правдоподобия по всем неизвестным значениям, параметрам и скрытым переменным и одновременного решения полученных уравнений. В статистических моделях со скрытыми переменными это обычно невозможно. Вместо этого результатом обычно является набор взаимосвязанных уравнений, в которых решение параметров требует значений скрытых переменных и наоборот, но замена одного набора уравнений в другой дает неразрешимое уравнение.

Алгоритм EM исходит из наблюдения, что существует способ решить эти две системы уравнений численно. Можно просто выбрать произвольные значения для одного из двух наборов неизвестных, использовать их для оценки второго набора, затем использовать эти новые значения, чтобы найти лучшую оценку первого набора, а затем продолжать чередовать эти два до тех пор, пока оба результирующих значения не будут сходятся к неподвижным точкам. Не очевидно, что это сработает, но можно доказать, что в данном контексте это работает, и что производная вероятности (произвольно близка) к нулю в этой точке, что, в свою очередь, означает, что точка является либо максимумом, либо седловой точки . ^[13] Как правило, могут возникать множественные максимумы без гарантии, что глобальный максимум будет найден. У некоторых правдоподобий также есть особенности , т. Е. Бессмысленные максимумы. Например, одно из решений, которое может найти EM в смешанной модели, включает установку одного из компонентов, чтобы иметь нулевую дисперсию, и параметр среднего значения для того же компонента, равный одной из точек данных.

Описание

Учитывая статистическую модель, которая генерирует набор ${\ displaystyle \ mathbf {X}}$ наблюдаемых данных, набора скрытых ненаблюдаемых данных или отсутствующих значений ${\ displaystyle \ mathbf {Z}}$ , и вектор неизвестных параметров ${\ displaystyle {\ boldsymbol {\ theta}}}$ , вместе с функцией правдоподобия ${\ Displaystyle L ({\ boldsymbol {\ theta}}; \ mathbf {X}, \ mathbf {Z}) = p (\ mathbf {X}, \ mathbf {Z} \ mid {\ boldsymbol {\ theta}} )}$ , То оценка максимального правдоподобия (MLE) неизвестных параметры определяются путем максимизации предельной вероятности наблюдаемых данных

{\ Displaystyle L ({\ boldsymbol {\ theta}}; \ mathbf {X}) = p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}}) = \ int p (\ mathbf {X}, \ mathbf {Z} \ mid {\ boldsymbol {\ theta}}) \, d \ mathbf {Z}}

Однако с этим количеством часто трудно справиться (например, если ${\ displaystyle \ mathbf {Z}}$ представляет собой последовательность событий, поэтому количество значений растет экспоненциально с увеличением длины последовательности, точное вычисление суммы будет чрезвычайно затруднено).

Алгоритм EM пытается найти MLE предельного правдоподобия, итеративно применяя эти два шага:

Шаг ожидания (шаг E) : Определить

{\ Displaystyle Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)})}

как ожидаемое значение из журнала функции правдоподобия в

{\ displaystyle {\ boldsymbol {\ theta}}}

, По отношению к текущему условного распределения из

{\ displaystyle \ mathbf {Z}}

дано

{\ displaystyle \ mathbf {X}}

и текущие оценки параметров

{\ Displaystyle {\ boldsymbol {\ theta}} ^ {(т)}}

:

{\ displaystyle Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) = \ operatorname {E} _ {\ mathbf {Z} \ mid \ mathbf {X} , {\ boldsymbol {\ theta}} ^ {(t)}} \ left [\ log L ({\ boldsymbol {\ theta}}; \ mathbf {X}, \ mathbf {Z}) \ right] \,}

Шаг максимизации (шаг M) : найдите параметры, которые максимизируют это количество:

{\ displaystyle {\ boldsymbol {\ theta}} ^ {(t + 1)} = {\ underset {\ boldsymbol {\ theta}} {\ operatorname {arg \, max}}} \ Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) \,}

Типичные модели, к которым применяется ЭМ, используют ${\ displaystyle \ mathbf {Z}}$ как скрытая переменная, указывающая на принадлежность к одной из множества групп:

Наблюдаемые точки данных ${\ displaystyle \ mathbf {X}}$ может быть дискретным (принимающим значения в конечном или счетно бесконечном множестве) или непрерывным (принимающим значения в несчетно бесконечном множестве). С каждой точкой данных может быть связан вектор наблюдений.
В пропущенные значения ( так называемые скрытые переменные ) ${\ displaystyle \ mathbf {Z}}$ являются дискретными , взятыми из фиксированного числа значений и с одной скрытой переменной на наблюдаемую единицу.
Параметры являются непрерывными и бывают двух видов: параметры, связанные со всеми точками данных, и параметры, связанные с конкретным значением скрытой переменной (т. Е. Связанные со всеми точками данных, у которых соответствующая скрытая переменная имеет это значение).

Однако ЭМ можно применять к другим типам моделей.

Мотив таков. Если значение параметров ${\ displaystyle {\ boldsymbol {\ theta}}}$ известно, обычно значение скрытых переменных ${\ displaystyle \ mathbf {Z}}$ можно найти, максимизируя логарифмическое правдоподобие по всем возможным значениям ${\ displaystyle \ mathbf {Z}}$ , либо просто перебирая ${\ displaystyle \ mathbf {Z}}$ или с помощью такого алгоритма, как алгоритм Баума – Велча для скрытых марковских моделей . И наоборот, если мы знаем значение скрытых переменных ${\ displaystyle \ mathbf {Z}}$ , можно оценить параметры ${\ displaystyle {\ boldsymbol {\ theta}}}$ довольно легко, обычно путем простой группировки наблюдаемых точек данных в соответствии со значением связанной скрытой переменной и усреднения значений или некоторой функции значений точек в каждой группе. Это предполагает итерационный алгоритм в случае, когда оба ${\ displaystyle {\ boldsymbol {\ theta}}}$ а также ${\ displaystyle \ mathbf {Z}}$ неизвестны:

Сначала инициализируйте параметры ${\ displaystyle {\ boldsymbol {\ theta}}}$ к некоторым случайным значениям.
Вычислите вероятность каждого возможного значения ${\ displaystyle \ mathbf {Z}}$ , дано ${\ displaystyle {\ boldsymbol {\ theta}}}$ .
Затем используйте только что вычисленные значения ${\ displaystyle \ mathbf {Z}}$ чтобы вычислить лучшую оценку параметров ${\ displaystyle {\ boldsymbol {\ theta}}}$ .
Повторите шаги 2 и 3 до схождения.

Алгоритм, как только что описанный, монотонно приближается к локальному минимуму функции стоимости.

Характеристики

Говорить о шаге ожидания (E) немного неправильно . То , что вычисляются на первом этапе являются фиксированными, данные , зависящие от параметров функции Q . Как только параметры Q известны, они полностью определяются и максимизируются на втором (M) шаге алгоритма EM.

Хотя итерация EM увеличивает наблюдаемые данные (т. Е. Предельную) функцию правдоподобия, нет гарантии, что последовательность сходится к оценщику максимального правдоподобия . Для мультимодальных распределений это означает, что алгоритм EM может сходиться к локальному максимуму наблюдаемой функции правдоподобия данных в зависимости от начальных значений. Существует множество эвристических или метаэвристических подходов, позволяющих избежать локального максимума, например, восхождение на холм со случайным перезапуском (начиная с нескольких различных случайных начальных оценок θ ^{( t )} ) или применение методов моделирования отжига .

EM особенно полезен, когда вероятность является экспоненциальным семейством : шаг E становится суммой ожиданий достаточной статистики , а шаг M включает максимизацию линейной функции. В таком случае обычно можно получить обновления выражений в закрытой форме для каждого шага, используя формулу Сундберга (опубликованную Рольфом Сундбергом с использованием неопубликованных результатов Пера Мартина-Лёфа и Андерса Мартина-Лёфа ). ^[4]^[5]^[8]^[9]^[10]^[11]^[12]

Метод EM был изменен для вычисления максимальных апостериорных оценок (MAP) для байесовского вывода в исходной статье Демпстера, Лэрда и Рубина.

Существуют и другие методы для поиска оценок максимального правдоподобия, такие как градиентный спуск , сопряженный градиент или варианты алгоритма Гаусса – Ньютона . В отличие от EM, такие методы обычно требуют оценки первой и / или второй производной функции правдоподобия.

Доказательство правильности

Максимизация ожиданий работает на улучшение ${\ Displaystyle Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)})}$ вместо того, чтобы напрямую улучшать ${\ Displaystyle \ журнал р (\ mathbf {X} \ mid {\ boldsymbol {\ theta}})}$ . Здесь показано, что улучшения первого подразумевают улучшения второго. ^[14]

Для любой ${\ displaystyle \ mathbf {Z}}$ с ненулевой вероятностью ${\ displaystyle p (\ mathbf {Z} \ mid \ mathbf {X}, {\ boldsymbol {\ theta}})}$ , мы можем написать

{\ displaystyle \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}}) = \ log p (\ mathbf {X}, \ mathbf {Z} \ mid {\ boldsymbol {\ theta}}) - \ log p (\ mathbf {Z} \ mid \ mathbf {X}, {\ boldsymbol {\ theta}}).}

Мы ожидаем возможных значений неизвестных данных. ${\ displaystyle \ mathbf {Z}}$ при текущей оценке параметра ${\ Displaystyle \ theta ^ {(т)}}$ умножив обе части на ${\ displaystyle p (\ mathbf {Z} \ mid \ mathbf {X}, {\ boldsymbol {\ theta}} ^ {(t)})}$ и суммируя (или интегрируя) по ${\ displaystyle \ mathbf {Z}}$ . Левая часть - это математическое ожидание константы, поэтому мы получаем:

{\ displaystyle {\ begin {align} \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}}) & = \ sum _ {\ mathbf {Z}} p (\ mathbf {Z} \ mid \ mathbf {X}, {\ boldsymbol {\ theta}} ^ {(t)}) \ log p (\ mathbf {X}, \ mathbf {Z} \ mid {\ boldsymbol {\ theta}}) - \ sum _ {\ mathbf {Z}} p (\ mathbf {Z} \ mid \ mathbf {X}, {\ boldsymbol {\ theta}} ^ {(t)}) \ log p (\ mathbf {Z} \ mid \ mathbf {X}, {\ boldsymbol {\ theta}}) \\ & = Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) + H ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}), \ end {align}}}

где ${\ Displaystyle Н ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)})}$ определяется отрицательной суммой, которую он заменяет. Это последнее уравнение справедливо для любого значения ${\ displaystyle {\ boldsymbol {\ theta}}}$ в том числе ${\ displaystyle {\ boldsymbol {\ theta}} = {\ boldsymbol {\ theta}} ^ {(t)}}$ ,

{\ displaystyle \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) = Q ({\ boldsymbol {\ theta}} ^ {(t)} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) + H ({\ boldsymbol {\ theta}} ^ {(t)} \ mid {\ boldsymbol {\ theta}} ^ {(t)}),}

и вычитание этого последнего уравнения из предыдущего уравнения дает

{\ displaystyle \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}}) - \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) = Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) - Q ({\ boldsymbol {\ theta}} ^ {(t)} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) + H ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) - H ({\ boldsymbol {\ theta} } ^ {(t)} \ mid {\ boldsymbol {\ theta}} ^ {(t)}),}

Однако неравенство Гиббса говорит нам, что ${\ displaystyle H ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) \ geq H ({\ boldsymbol {\ theta}} ^ {(t)} \ mid {\ boldsymbol {\ theta}} ^ {(t)})}$ , поэтому мы можем заключить, что

{\ displaystyle \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}}) - \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) \ geq Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) - Q ({\ boldsymbol {\ theta}} ^ {(t)} \ mid {\ жирный символ {\ theta}} ^ {(t)}).}

На словах выбирая ${\ displaystyle {\ boldsymbol {\ theta}}}$ улучшить ${\ Displaystyle Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)})}$ причины ${\ Displaystyle \ журнал р (\ mathbf {X} \ mid {\ boldsymbol {\ theta}})}$ улучшить хотя бы на столько же.

Как процедура максимизации – максимизации

Алгоритм EM можно рассматривать как два чередующихся шага максимизации, то есть как пример спуска координат . ^[15]^[16] Рассмотрим функцию:

{\ Displaystyle F (q, \ theta): = \ operatorname {E} _ {q} [\ log L (\ theta; x, Z)] + H (q),}

где q - произвольное распределение вероятностей по ненаблюдаемым данным z, а H (q) - энтропия распределения q . Эту функцию можно записать как

{\ Displaystyle F (q, \ theta) = - D _ {\ mathrm {KL}} {\ big (} q \ parallel p_ {Z \ mid X} (\ cdot \ mid x; \ theta) {\ big)} + \ журнал L (\ theta; x),}

где ${\ displaystyle p_ {Z \ mid X} (\ cdot \ mid x; \ theta)}$ условное распределение ненаблюдаемых данных при наблюдаемых данных ${\ displaystyle x}$ а также ${\ displaystyle D_ {KL}}$ - расходимость Кульбака – Лейблера .

Тогда шаги в алгоритме EM можно рассматривать как:

Шаг ожидания : выберите

{\ displaystyle q}

максимизировать

{\ displaystyle F}

:

{\ displaystyle q ^ {(t)} = \ operatorname {arg \, max} _ {q} \ F (q, \ theta ^ {(t)})}

Шаг максимизации : выберите

{\ displaystyle \ theta}

максимизировать

{\ displaystyle F}

:

{\ displaystyle \ theta ^ {(t + 1)} = \ operatorname {arg \, max} _ {\ theta} \ F (q ^ {(t)}, \ theta)}

Приложения

ЭМ часто используются для оценивания параметров смешанных моделей , ^[17]^[18] В частности , в количественных генетиках . ^[19]

В психометрии EM - важный инструмент для оценки параметров предмета и скрытых способностей моделей теории реакции на предмет .

Благодаря способности работать с недостающими данными и наблюдать неопознанные переменные, EM становится полезным инструментом для определения цены и управления рисками портфеля. ^{[ необходима цитата ]}

Алгоритм ЭМ (и его более быстрый вариант максимизации ожидания упорядоченного подмножества ) также широко используется в реконструкции медицинских изображений , особенно в позитронно-эмиссионной томографии , однофотонной эмиссионной компьютерной томографии и рентгеновской компьютерной томографии . См. Ниже другие более быстрые варианты EM.

В проектировании конструкций алгоритм структурной идентификации с использованием максимизации ожиданий (STRIDE) ^[20] - это метод только для вывода для определения свойств естественной вибрации структурной системы с использованием данных датчиков (см. Оперативный модальный анализ ).

EM также часто используется для кластеризации данных , компьютерного зрения и машинного обучения . В обработке естественного языка два известных примера алгоритма - это алгоритм Баума – Велча для скрытых марковских моделей и алгоритм изнутри-снаружи для неконтролируемой индукции вероятностных контекстно-свободных грамматик .

Алгоритмы фильтрации и сглаживания EM

Фильтр Калмана обычно используется для оценки состояния он-лайн и минимальной дисперсией гладкой может быть использован для офф-лайн или оценки состояния пакета. Однако эти решения с минимальной дисперсией требуют оценок параметров модели в пространстве состояний. EM-алгоритмы могут использоваться для решения задач совместного оценивания состояния и параметров.

Алгоритмы фильтрации и сглаживания EM возникают при повторении этой двухэтапной процедуры:

E-шаг: Воспользуйтесь фильтром Калмана или сглаживателем с минимальной дисперсией, разработанным с текущими оценками параметров, чтобы получить обновленные оценки состояния.

M-шаг: Используйте отфильтрованные или сглаженные оценки состояния в вычислениях максимального правдоподобия, чтобы получить обновленные оценки параметров.

Предположим, что фильтр Калмана или сглаживатель с минимальной дисперсией работает с измерениями системы с одним входом и одним выходом, которая обладает аддитивным белым шумом. Обновленная оценка дисперсии шума измерения может быть получена из расчета максимального правдоподобия.

{\ displaystyle {\ widehat {\ sigma}} _ {v} ^ {2} = {\ frac {1} {N}} \ sum _ {k = 1} ^ {N} {(z_ {k} - { \ widehat {x}} _ {k})} ^ {2},}

где ${\ displaystyle {\ widehat {x}} _ {k}}$ являются скалярными выходными оценками, вычисленными фильтром или сглаживателем из N скалярных измерений ${\ displaystyle z_ {k}}$ . Вышеупомянутое обновление также можно применить для обновления интенсивности шума измерения Пуассона. Аналогично, для авторегрессивного процесса первого порядка обновленная оценка дисперсии шума процесса может быть вычислена с помощью

{\ displaystyle {\ widehat {\ sigma}} _ {w} ^ {2} = {\ frac {1} {N}} \ sum _ {k = 1} ^ {N} {({\ widehat {x} } _ {k + 1} - {\ widehat {F}} {\ widehat {x}} _ {k})} ^ {2},}

где ${\ displaystyle {\ widehat {x}} _ {k}}$ а также ${\ displaystyle {\ widehat {x}} _ {k + 1}}$ являются скалярными оценками состояния, вычисленными фильтром или сглаживателем. Обновленная оценка коэффициента модели получена через

{\ displaystyle {\ widehat {F}} = {\ frac {\ sum _ {k = 1} ^ {N} ({\ widehat {x}} _ {k + 1} - {\ widehat {F}} { \ widehat {x}} _ {k})} {\ sum _ {k = 1} ^ {N} {\ widehat {x}} _ {k} ^ {2}}}.}.

Сходимость оценок параметров, подобных приведенным выше, хорошо изучена. ^[21]^[22]^[23]^[24]

Варианты

Был предложен ряд методов для ускорения иногда медленной сходимости алгоритма EM, например, использующих сопряженный градиент и модифицированные методы Ньютона (Ньютона – Рафсона). ^[25] Также EM может использоваться с ограниченными методами оценки.

Алгоритм максимизации ожидания с расширенными параметрами (PX-EM) часто обеспечивает ускорение за счет «использования« ковариационной корректировки »для корректировки анализа шага M, извлекая выгоду из дополнительной информации, содержащейся в вмененных полных данных». ^[26]

Условная максимизация ожидания (ECM) заменяет каждый шаг M последовательностью шагов условной максимизации (CM), в которой каждый параметр θ _i максимизируется индивидуально, при условии, что другие параметры остаются фиксированными. ^[27] Сам по себе может быть расширен до алгоритма условной максимизации ожидания (ECME) . ^[28]

Эта идея получила дальнейшее развитие в алгоритме максимизации обобщенного ожидания (GEM) , в котором ищется только увеличение целевой функции F как для шага E, так и для шага M, как описано в разделе « Как процедура максимизации-максимизации ». ^[15] GEM продолжает развиваться в распределенной среде и показывает многообещающие результаты. ^[29]

Также можно рассматривать алгоритм EM как подкласс алгоритма MM (Majorize / Minimize или Minorize / Maximize, в зависимости от контекста) ^[30] и, следовательно, использовать любой механизм, разработанный в более общем случае.

алгоритм α-EM

Q-функция, используемая в алгоритме EM, основана на логарифмической вероятности. Поэтому он рассматривается как алгоритм log-EM. Использование логарифма правдоподобия может быть обобщено на использование логарифмического отношения правдоподобия. Затем, логарифмическое отношение правдоподобия наблюдаемых данных может быть точно выражено как равенство с использованием Q-функции логарифмического отношения правдоподобия и дивергенции. Получение этой Q-функции представляет собой обобщенный шаг E. Его максимизация - это обобщенный M-шаг. Эта пара называется алгоритмом α-EM ^[31], который содержит алгоритм log-EM в качестве подкласса. Таким образом, алгоритм α-EM Ясуо Мацуямы является точным обобщением алгоритма log-EM. Расчет градиента или матрицы Гессе не требуется. Α-EM показывает более быструю сходимость, чем алгоритм log-EM, при выборе подходящего α. Алгоритм α-EM приводит к более быстрой версии алгоритма оценки скрытой марковской модели α-HMM. ^[32]

Отношение к вариационным байесовским методам

EM - это частично небайесовский метод максимального правдоподобия. Его окончательный результат дает распределение вероятностей по скрытым переменным (в байесовском стиле) вместе с точечной оценкой для θ (либо оценка максимального правдоподобия, либо апостериорная мода). Может потребоваться полностью байесовская версия этого, дающая распределение вероятностей по θ и скрытым переменным. Байесовский подход к умозаключениям заключается в том, чтобы рассматривать θ как еще одну скрытую переменную. В этой парадигме исчезает различие между ступенями E и M. Если использовать факторизованное Q-приближение, как описано выше ( вариационный байесовский метод ), решение может повторяться по каждой скрытой переменной (теперь включая θ ) и оптимизировать их по очереди. Теперь требуется k шагов на итерацию, где k - количество скрытых переменных. Для графических моделей это легко сделать, поскольку новый Q каждой переменной зависит только от ее марковского покрытия , поэтому для эффективного вывода можно использовать локальную передачу сообщений .

Геометрическая интерпретация

В информационной геометрии шаг E и шаг M интерпретируются как проекции при двойных аффинных связях , называемых e-связью и m-связью; дивергенции Кульбака-Либлер также могут быть поняты в этих терминах.

Примеры

Гауссова смесь

Сравнение k-средних и EM на искусственных данных, визуализированных с помощью ELKI . Используя дисперсии, алгоритм EM может точно описывать нормальные распределения, в то время как k-means разбивает данные на ячейки Вороного . Центр кластера обозначен более светлым и большим символом.

Анимация, демонстрирующая, как алгоритм EM подбирает двухкомпонентную модель смеси Гаусса к набору данных Old Faithful . Алгоритм переходит от случайной инициализации к сходимости.

Позволять ${\ Displaystyle \ mathbf {x} = (\ mathbf {x} _ {1}, \ mathbf {x} _ {2}, \ ldots, \ mathbf {x} _ {n})}$ быть образцом ${\ displaystyle n}$ независимые наблюдения из смеси двух многомерных нормальных распределений размерности ${\ displaystyle d}$ , и разреши ${\ Displaystyle \ mathbf {z} = (z_ {1}, z_ {2}, \ ldots, z_ {n})}$ быть скрытыми переменными, которые определяют компонент, из которого происходит наблюдение. ^[16]

{\ displaystyle X_ {i} \ mid (Z_ {i} = 1) \ sim {\ mathcal {N}} _ {d} ({\ boldsymbol {\ mu}} _ {1}, \ Sigma _ {1} )}

а также

{\ displaystyle X_ {i} \ mid (Z_ {i} = 2) \ sim {\ mathcal {N}} _ {d} ({\ boldsymbol {\ mu}} _ {2}, \ Sigma _ {2} ),}

где

{\ Displaystyle \ OperatorName {P} (Z_ {я} = 1) = \ тау _ {1} \,}

а также

{\ displaystyle \ operatorname {P} (Z_ {i} = 2) = \ tau _ {2} = 1- \ tau _ {1}.}

Цель состоит в том, чтобы оценить неизвестные параметры, представляющие значение смешивания между гауссианами и средними значениями и ковариациями каждого из них:

{\ displaystyle \ theta = {\ big (} {\ boldsymbol {\ tau}}, {\ boldsymbol {\ mu}} _ {1}, {\ boldsymbol {\ mu}} _ {2}, \ Sigma _ { 1}, \ Sigma _ {2} {\ big)},}

где функция правдоподобия неполных данных

{\ Displaystyle L (\ theta; \ mathbf {x}) = \ prod _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {2} \ tau _ {j} \ f (\ mathbf {x} _ {i}; {\ boldsymbol {\ mu}} _ {j}, \ Sigma _ {j}),}

а функция правдоподобия полных данных

{\ Displaystyle L (\ theta; \ mathbf {x}, \ mathbf {z}) = p (\ mathbf {x}, \ mathbf {z} \ mid \ theta) = \ prod _ {i = 1} ^ { n} \ prod _ {j = 1} ^ {2} \ [f (\ mathbf {x} _ {i}; {\ boldsymbol {\ mu}} _ {j}, \ Sigma _ {j}) \ tau _ {j}] ^ {\ mathbb {I} (z_ {i} = j)},}

или же

{\ displaystyle L (\ theta; \ mathbf {x}, \ mathbf {z}) = \ exp \ left \ {\ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {2 } \ mathbb {I} (z_ {i} = j) {\ big [} \ log \ tau _ {j} - {\ tfrac {1} {2}} \ log | \ Sigma _ {j} | - { \ tfrac {1} {2}} (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {j}) ^ {\ top} \ Sigma _ {j} ^ {- 1} ( \ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {j}) - {\ tfrac {d} {2}} \ log (2 \ pi) {\ big]} \ right \} ,}

где ${\ displaystyle \ mathbb {I}}$ является индикаторной функцией и ${\ displaystyle f}$ - функция плотности вероятности многомерной нормали.

В последнем равенстве для каждого $i по$ одному показателю ${\ Displaystyle \ mathbb {I} (z_ {я} = j)}$ равен нулю, а один показатель равен единице. Таким образом, внутренняя сумма сводится к одному члену.

E шаг

Учитывая нашу текущую оценку параметров θ ^{( t )} , условное распределение Z _i определяется теоремой Байеса как пропорциональная высота нормальной плотности, взвешенной по τ :

{\ displaystyle T_ {j, i} ^ {(t)}: = \ operatorname {P} (Z_ {i} = j \ mid X_ {i} = \ mathbf {x} _ {i}; \ theta ^ { (t)}) = {\ frac {\ tau _ {j} ^ {(t)} \ f (\ mathbf {x} _ {i}; {\ boldsymbol {\ mu}} _ {j} ^ {( t)}, \ Sigma _ {j} ^ {(t)})} {\ tau _ {1} ^ {(t)} \ f (\ mathbf {x} _ {i}; {\ boldsymbol {\ mu }} _ {1} ^ {(t)}, \ Sigma _ {1} ^ {(t)}) + \ tau _ {2} ^ {(t)} \ f (\ mathbf {x} _ {i }; {\ boldsymbol {\ mu}} _ {2} ^ {(t)}, \ Sigma _ {2} ^ {(t)})}}.}.

Они называются «вероятностями членства», которые обычно считаются выходными данными шага E (хотя это не функция Q, описанная ниже).

Этот шаг E соответствует настройке этой функции для Q:

{\ displaystyle {\ begin {align} Q (\ theta \ mid \ theta ^ {(t)}) & = \ operatorname {E} _ {\ mathbf {Z} \ mid \ mathbf {X}, \ mathbf {\ theta} ^ {(t)}} [\ log L (\ theta; \ mathbf {x}, \ mathbf {Z})] \\ & = \ operatorname {E} _ {\ mathbf {Z} \ mid \ mathbf {X}, \ mathbf {\ theta} ^ {(t)}} [\ log \ prod _ {i = 1} ^ {n} L (\ theta; \ mathbf {x} _ {i}, Z_ {i })] \\ & = \ operatorname {E} _ {\ mathbf {Z} \ mid \ mathbf {X}, \ mathbf {\ theta} ^ {(t)}} [\ sum _ {i = 1} ^ {n} \ log L (\ theta; \ mathbf {x} _ {i}, Z_ {i})] \\ & = \ sum _ {i = 1} ^ {n} \ operatorname {E} _ {Z_ {i} \ mid \ mathbf {X}; \ mathbf {\ theta} ^ {(t)}} [\ log L (\ theta; \ mathbf {x} _ {i}, Z_ {i})] \\ & = \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {2} P (Z_ {i} = j \ mid X_ {i} = \ mathbf {x} _ {i} ; \ theta ^ {(t)}) \ log L (\ theta _ {j}; \ mathbf {x} _ {i}, j) \\ & = \ sum _ {i = 1} ^ {n} \ сумма _ {j = 1} ^ {2} T_ {j, i} ^ {(t)} {\ big [} \ log \ tau _ {j} - {\ tfrac {1} {2}} \ log | \ Sigma _ {j} | - {\ tfrac {1} {2}} (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {j}) ^ {\ top} \ Sigma _ {j} ^ {- 1} (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {j}) - {\ tfrac {d} {2}} \ log (2 \ pi) {\ big]}. \ end {выравнивается}}}

Ожидание ${\ Displaystyle \ журнал L (\ тета; \ mathbf {x} _ {я}, Z_ {я})}$ внутри сумма берется относительно функции плотности вероятности ${\ Displaystyle P (Z_ {i} \ mid X_ {i} = \ mathbf {x} _ {i}; \ theta ^ {(t)})}$ , которые могут отличаться для каждого ${\ Displaystyle \ mathbf {х} _ {я}}$ обучающего набора. Все в шаге E известно до того, как шаг будет сделан, кроме ${\ displaystyle T_ {j, i}}$ , который вычисляется в соответствии с уравнением в начале раздела шага E.

Это полное условное ожидание не нужно рассчитывать за один шаг, потому что τ и μ / Σ появляются в отдельных линейных членах и, таким образом, могут быть максимизированы независимо.

Шаг M

Q ( θ | θ ^{( t )} ) квадратичная форма означает, что определение максимальных значений θ относительно несложно. Кроме того, τ , ( μ ₁ , Σ ₁ ) и ( μ ₂ , Σ ₂ ) могут быть максимизированы независимо, поскольку все они появляются в отдельных линейных членах.

Для начала рассмотрим τ , у которого есть ограничение τ ₁ + τ ₂ = 1:

{\ displaystyle {\ begin {align} {\ boldsymbol {\ tau}} ^ {(t + 1)} & = {\ underset {\ boldsymbol {\ tau}} {\ operatorname {arg \, max}}} \ Q (\ theta \ mid \ theta ^ {(t)}) \\ & = {\ underset {\ boldsymbol {\ tau}} {\ operatorname {arg \, max}}} \ \ left \ {\ left [\ sum _ {i = 1} ^ {n} T_ {1, i} ^ {(t)} \ right] \ log \ tau _ {1} + \ left [\ sum _ {i = 1} ^ {n} T_ {2, i} ^ {(t)} \ right] \ log \ tau _ {2} \ right \}. \ End {align}}}

Он имеет ту же форму, что и MLE для биномиального распределения , поэтому

{\ displaystyle \ tau _ {j} ^ {(t + 1)} = {\ frac {\ sum _ {i = 1} ^ {n} T_ {j, i} ^ {(t)}} {\ sum _ {i = 1} ^ {n} (T_ {1, i} ^ {(t)} + T_ {2, i} ^ {(t)})}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} T_ {j, i} ^ {(t)}.}

Для следующих оценок ( μ ₁ , Σ ₁ ):

{\ displaystyle {\ begin {align} ({\ boldsymbol {\ mu}} _ {1} ^ {(t + 1)}, \ Sigma _ {1} ^ {(t + 1)}) & = {\ underset {{\ boldsymbol {\ mu}} _ {1}, \ Sigma _ {1}} {\ operatorname {arg \, max}}} Q (\ theta \ mid \ theta ^ {(t)}) \\ & = {\ underset {{\ boldsymbol {\ mu}} _ {1}, \ Sigma _ {1}} {\ operatorname {arg \, max}}} \ sum _ {i = 1} ^ {n} T_ {1, i} ^ {(t)} \ left \ {- {\ tfrac {1} {2}} \ log | \ Sigma _ {1} | - {\ tfrac {1} {2}} (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {1}) ^ {\ top} \ Sigma _ {1} ^ {- 1} (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {1}) \ right \} \ end {align}}.}

Он имеет ту же форму, что и взвешенный MLE для нормального распределения, поэтому

{\ displaystyle {\ boldsymbol {\ mu}} _ {1} ^ {(t + 1)} = {\ frac {\ sum _ {i = 1} ^ {n} T_ {1, i} ^ {(t )} \ mathbf {x} _ {i}} {\ sum _ {i = 1} ^ {n} T_ {1, i} ^ {(t)}}}}

а также

{\ displaystyle \ Sigma _ {1} ^ {(t + 1)} = {\ frac {\ sum _ {i = 1} ^ {n} T_ {1, i} ^ {(t)} (\ mathbf { x} _ {i} - {\ boldsymbol {\ mu}} _ {1} ^ {(t + 1)}) (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {1 } ^ {(t + 1)}) ^ {\ top}} {\ sum _ {i = 1} ^ {n} T_ {1, i} ^ {(t)}}}}

и по симметрии

{\ displaystyle {\ boldsymbol {\ mu}} _ {2} ^ {(t + 1)} = {\ frac {\ sum _ {i = 1} ^ {n} T_ {2, i} ^ {(t )} \ mathbf {x} _ {i}} {\ sum _ {i = 1} ^ {n} T_ {2, i} ^ {(t)}}}}}

а также

{\ displaystyle \ Sigma _ {2} ^ {(t + 1)} = {\ frac {\ sum _ {i = 1} ^ {n} T_ {2, i} ^ {(t)} (\ mathbf { x} _ {i} - {\ boldsymbol {\ mu}} _ {2} ^ {(t + 1)}) (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {2 } ^ {(t + 1)}) ^ {\ top}} {\ sum _ {i = 1} ^ {n} T_ {2, i} ^ {(t)}}}.}.}

Прекращение

Завершите итерационный процесс, если ${\ Displaystyle E_ {Z \ mid \ theta ^ {(t)}, \ mathbf {x}} [\ log L (\ theta ^ {(t)}; \ mathbf {x}, \ mathbf {Z})] \ leq E_ {Z \ mid \ theta ^ {(t-1)}, \ mathbf {x}} [\ log L (\ theta ^ {(t-1)}; \ mathbf {x}, \ mathbf {Z })] + \ varepsilon}$ для ${\ Displaystyle \ varepsilon}$ ниже некоторого предустановленного порога.

Обобщение

Алгоритм, проиллюстрированный выше, может быть обобщен для смесей более чем двух многомерных нормальных распределений .

Усеченная и цензурированная регрессия

Алгоритм EM был реализован в случае, когда существует базовая модель линейной регрессии, объясняющая изменение некоторой величины, но когда фактически наблюдаемые значения являются цензурированными или усеченными версиями представленных в модели. ^[33] Частные случаи этой модели включают цензурированные или усеченные наблюдения из одного нормального распределения . ^[33]

Альтернативы

EM обычно сходится к локальному оптимуму, не обязательно к глобальному оптимуму, без каких-либо ограничений на скорость сходимости в целом. Возможно, что он может быть сколь угодно бедным в больших размерностях и может иметь экспоненциальное число локальных оптимумов. Следовательно, существует потребность в альтернативных методах гарантированного обучения, особенно в условиях большой размерности. Существуют альтернативы ЭМ с лучшими гарантиями согласованности, которые называются подходами на основе моментов ^[34] или так называемыми спектральными методами ^[35]^[36]^{[ необходима цитата ]} . Моментные подходы к изучению параметров вероятностной модели в последнее время вызывают все больший интерес, поскольку они обладают такими гарантиями, как глобальная конвергенция при определенных условиях, в отличие от EM, который часто страдает проблемой застревания в локальных оптимумах. Алгоритмы с гарантиями обучения могут быть получены для ряда важных моделей, таких как модели смесей, HMM и т. Д. Для этих спектральных методов не возникает ложных локальных оптимумов, и истинные параметры могут быть последовательно оценены при некоторых условиях регулярности ^{[ необходима ссылка ]} .

Смотрите также

распределение смеси
составное распределение
оценка плотности
спектроскопия полного поглощения
Алгоритм EM можно рассматривать как частный случай алгоритма мажоризации-минимизации (MM) . ^[37]

дальнейшее чтение

Хогг, Роберт; Маккин, Джозеф; Крейг, Аллен (2005). Введение в математическую статистику . Река Аппер Сэдл, Нью-Джерси: Пирсон Прентис Холл. С. 359–364.
Делларт, Франк (2002). «Алгоритм максимизации ожидания». CiteSeerX 10.1.1.9.97 35 . Цитировать журнал требует |journal=( помощь ) дает более простое объяснение алгоритма EM в отношении максимизации нижней границы.
Епископ, Кристофер М. (2006). Распознавание образов и машинное обучение . Springer. ISBN 978-0-387-31073-2.CS1 maint: ref дублирует значение по умолчанию ( ссылка )
Гупта, MR; Чен, Ю. (2010). «Теория и использование алгоритма ЭМ». Основы и тенденции в обработке сигналов . 4 (3): 223–296. CiteSeerX 10.1.1.219.6830 . DOI : 10.1561 / 2000000034 . Хорошо написанная короткая книга по EM, включая подробный вывод EM для GMM, HMM и Дирихле.
Билмес, Джефф (1998). "Мягкое руководство по алгоритму ЭМ и его применению к оценке параметров для гауссовской смеси и скрытых марковских моделей". CiteSeerX 10.1.1.28.613 . Цитировать журнал требует |journal=( помощь ) включает упрощенный вывод уравнений EM для гауссовых смесей и скрытых марковских моделей гауссовской смеси.
Маклахлан, Джеффри Дж .; Кришнан, Триямбакам (2008). Алгоритм EM и расширения (2-е изд.). Хобокен: Вайли. ISBN 978-0-471-20170-0.

Внешние ссылки

Различные одномерные, двухмерные и трехмерные демонстрации ЭМ вместе со смешанным моделированием предоставляются как часть парных действий и апплетов SOCR . Эти апплеты и действия эмпирически демонстрируют свойства алгоритма EM для оценки параметров в различных условиях.
k-MLE: быстрый алгоритм для изучения моделей статистической смеси
Иерархия классов в C ++ (GPL), включая гауссовские смеси
Он-лайн учебник: Теория информации, логический вывод и алгоритмы обучения , написанный Дэвидом Дж. К. Маккеем, включает простые примеры алгоритма EM, такие как кластеризация с использованием алгоритма мягких k- средних, и подчеркивает вариационный взгляд на алгоритм EM, как описано в Глава 33.7 версии 7.2 (четвертое издание).
Вариационные алгоритмы для приближенного байесовского вывода , автор MJ Beal, включают сравнения EM с вариационным байесовским EM и вывод нескольких моделей, включая вариационные байесовские HMM ( главы ).
Алгоритм максимизации ожиданий: краткое руководство , самостоятельный вывод алгоритма EM Шона Бормана.
Алгоритм EM , Сяоцзинь Чжу.
Алгоритм и варианты EM: неформальное руководство Алексис Рош. Краткое и очень понятное описание ЭМ и множество интересных вариантов.

[Dempster1977-1] Демпстер, AP ; Лэрд, Нью-Мексико ; Рубин, ДБ (1977). «Максимальная вероятность неполных данных с помощью алгоритма EM». Журнал Королевского статистического общества, Series B . 39 (1): 1–38. JSTOR 2984875 . Руководство по ремонту 0501537 .

[2] Чеппелини, RM (1955). «Оценка частот генов в популяции случайного спаривания». Аня. Гм. Genet . 20 (2): 97–115. DOI : 10.1111 / j.1469-1809.1955.tb01360.x . PMID 13268982 . S2CID 38625779 .

[Sundberg1974-3] Сундберг, Рольф (1974). «Теория максимального правдоподобия для неполных данных из экспоненциальной семьи». Скандинавский статистический журнал . 1 (2): 49–58. JSTOR 4615553 . Руководство по ремонту 0381110 .

[Sundberg1971-4] а б Рольф Сундберг. 1971. Теория максимального правдоподобия и приложения для распределений, генерируемых при наблюдении функции экспоненциальной переменной семейства . Диссертация, Институт математической статистики, Стокгольмский университет.

[Sundberg1976-5] а б Сундберг, Рольф (1976). «Итерационный метод решения уравнений правдоподобия для неполных данных из экспоненциальных семейств». Коммуникации в статистике - моделирование и вычисления . 5 (1): 55–64. DOI : 10.1080 / 03610917608812007 . Руководство по ремонту 0443190 .

[6] См. Благодарность Демпстера, Лэрда и Рубина на страницах 3, 5 и 11.

[7] Г. Куллдорф. 1961. Вклад в теорию оценивания по сгруппированным и частично сгруппированным выборкам . Альмквист и Викселл.

[Martin-Löf1963-8] Андерс Мартин-Лёф. 1963. "Utvärdering av livslängder i subnanosekundsområdet" ("Оценка субнаносекундных времен жизни"). («Формула Сундберга»)

[Martin-Löf1966-9] а б Пер Мартин-Лёф . 1966. Статистика с точки зрения статистической механики . Конспект лекций Математического института Орхусского университета. («Формула Сундберга» приписана Андерсу Мартин-Лёфу).

[Martin-Löf1970-10] а б Пер Мартин-Лёф . 1970. Statistika Modeller (Статистические модели): Anteckningar from Seminarier läsåret 1969–1970 (Записи семинаров в 1969-1970 учебном году), при содействии Рольфа Сундберга. Стокгольмский университет. («Формула Сундберга»)

[Martin-Löf1974a-11] Мартин-Лёф, П. Понятие избыточности и его использование в качестве количественной меры отклонения между статистической гипотезой и набором данных наблюдений. С обсуждением Ф. Абильдгарда, А. П. Демпстера , Д. Басу , Д. Р. Кокса , AWF Эдвардса , Д. А. Спротта, Г. А. Барнарда , О. Барндорфф-Нильсена, Дж. Д. Калбфляйша и Г. Раша и ответом автора. Труды конференции по основополагающим вопросам статистического вывода (Орхус, 1973), стр. 1–42. Воспоминания, № 1, Теорет. Статист., Инст. Матем., Univ. Орхус, Орхус, 1974.

[Martin-Löf1974b-12] а б Мартин-Лёф, Пер (1974). «Понятие избыточности и его использование в качестве количественной меры несоответствия между статистической гипотезой и набором данных наблюдений». Сканд. J. Statist . 1 (1): 3–18.

[Wu-13] а б в Ву, К.Ф. Джефф (март 1983 г.). «О свойствах сходимости алгоритма ЭМ» . Анналы статистики . 11 (1): 95–103. DOI : 10.1214 / AOS / 1176346060 . JSTOR 2240463 . Руководство по ремонту 0684867 .

[Little1987-14] Литтл, Родерик JA; Рубин, Дональд Б. (1987). Статистический анализ с отсутствующими данными . Ряд Уайли по вероятности и математической статистике. Нью-Йорк: Джон Вили и сыновья. стр. 134 -136. ISBN 978-0-471-80254-9.

[neal1999-15] а б Нил, Рэдфорд; Хинтон, Джеффри (1999). Майкл И. Джордан (ред.). Обзор алгоритма EM, который оправдывает инкрементные, разреженные и другие варианты (PDF) . Обучение в графических моделях . Кембридж, Массачусетс: MIT Press. С. 355–368. ISBN 978-0-262-60032-3. Проверено 22 марта 2009 .

[hastie2001-16] а б Хасти, Тревор ; Тибширани, Роберт ; Фридман, Джером (2001). «8.5 Алгоритм ЭМ». Элементы статистического обучения . Нью-Йорк: Спрингер. стр. 236 -243. ISBN 978-0-387-95284-0.

[17] Линдстрем, Мэри Дж; Бейтс, Дуглас М (1988). "Алгоритмы Ньютона-Рафсона и EM для линейных моделей смешанных эффектов для данных повторяющихся измерений". Журнал Американской статистической ассоциации . 83 (404): 1014. DOI : 10.1080 / 01621459.1988.10478693 .

[18] Ван Дайк, Дэвид А (2000). «Подбор моделей со смешанными эффектами с использованием эффективных алгоритмов EM-типа». Журнал вычислительной и графической статистики . 9 (1): 78–98. DOI : 10.2307 / 1390614 . JSTOR 1390614 .

[19] Диффей, С. М; Смит, А. Б; Валлийский, A.H; Каллис, Б. Р. (2017). «Новый алгоритм ЭМ REML (расширенный параметр) для линейных смешанных моделей» . Статистический журнал Австралии и Новой Зеландии . 59 (4): 433. DOI : 10.1111 / anzs.12208 .

[20] Matarazzo, TJ, и Пакзад, SN (2016). «STRIDE для структурной идентификации с использованием максимизации ожиданий: итерационный метод только для вывода для модальной идентификации». Журнал инженерной механики. http://ascelibrary.org/doi/abs/10.1061/(ASCE)EM.1943-7889.0000951

[21] Эйнике, Джорджия; Малос, JT; Рид, округ Колумбия; Хейнсворт, DW (январь 2009 г.). «Уравнение Риккати и сходимость алгоритмов ЭМ для выравнивания инерциальной навигации». IEEE Trans. Сигнальный процесс . 57 (1): 370–375. Bibcode : 2009ITSP ... 57..370E . DOI : 10.1109 / TSP.2008.2007090 . С2ЦИД 1930004 .

[22] Эйнике, Джорджия; Falco, G .; Малос, Дж. Т. (май 2010 г.). "Матрица состояний алгоритмов ЭМ для навигации". Письма об обработке сигналов IEEE . 17 (5): 437–440. Bibcode : 2010ISPL ... 17..437E . DOI : 10,1109 / LSP.2010.2043151 . S2CID 14114266 .

[23] Эйнике, Джорджия; Falco, G .; Dunn, MT; Рид, округ Колумбия (май 2012 г.). «Итеративная сглаженная оценка дисперсии». Письма об обработке сигналов IEEE . 19 (5): 275–278. Bibcode : 2012ISPL ... 19..275E . DOI : 10,1109 / LSP.2012.2190278 . S2CID 17476971 .

[24] Эйнике, Джорджия (сентябрь 2015 г.). «Итерационная фильтрация и сглаживание измерений с пуассоновским шумом». IEEE Transactions по аэрокосмическим и электронным системам . 51 (3): 2205–2011. Bibcode : 2015ITAES..51.2205E . DOI : 10.1109 / TAES.2015.140843 . S2CID 32667132 .

[25] Джамшидиан, Мортаза; Дженнрих, Роберт И. (1997). «Ускорение алгоритма ЭМ с помощью квазиньютоновских методов». Журнал Королевского статистического общества, Series B . 59 (2): 569–587. DOI : 10.1111 / 1467-9868.00083 . Руководство по ремонту 1452026 .

[26] Лю, К. (1998). «Расширение параметров для ускорения EM: алгоритм PX-EM». Биометрика . 85 (4): 755–770. CiteSeerX 10.1.1.134.9617 . DOI : 10.1093 / Biomet / 85.4.755 .

[27] Мэн, Сяо-Ли; Рубин, Дональд Б. (1993). «Оценка максимального правдоподобия с помощью алгоритма ECM: общие рамки». Биометрика . 80 (2): 267–278. DOI : 10.1093 / Biomet / 80.2.267 . Руководство по ремонту 1243503 . S2CID 40571416 .

[28] Лю, Чуаньхай; Рубин, Дональд Б. (1994). «Алгоритм ECME: простое расширение EM и ECM с более быстрой монотонной сходимостью». Биометрика . 81 (4): 633. DOI : 10,1093 / Biomet / 81.4.633 . JSTOR 2337067 .

[29] Цзянтао Инь; Янфэн Чжан; Лисинь Гао (2012). «Ускорение ожиданий - алгоритмы максимизации с частыми обновлениями» (PDF) . Труды Международной конференции IEEE по кластерным вычислениям .

[30] Хантер Д. Р. и Ланге К. (2004), Учебное пособие по алгоритмам ММ , Американский статистик, 58: 30–37

[31] Мацуяма, Ясуо (2003). «Алгоритм α-EM: максимизация суррогатного правдоподобия с использованием мер α-логарифмической информации». IEEE Transactions по теории информации . 49 (3): 692–706. DOI : 10.1109 / TIT.2002.808105 .

[32] Мацуяма, Ясуо (2011). «Оценка скрытой марковской модели на основе альфа-EM алгоритма: дискретные и непрерывные альфа-HMM». Международная совместная конференция по нейронным сетям : 808–816.

[Wolynetz-33] а б Волынец, MS (1979). «Оценка максимального правдоподобия в линейной модели на основе ограниченных и подвергнутых цензуре нормальных данных». Журнал Королевского статистического общества, серия C . 28 (2): 195–206. DOI : 10.2307 / 2346749 . JSTOR 2346749 .

[34] Пирсон, Карл (1894). «Вклад в математическую теорию эволюции» . Философские труды Королевского общества Лондона A . 185 : 71–110. Bibcode : 1894RSPTA.185 ... 71P . DOI : 10,1098 / rsta.1894.0003 . ISSN 0264-3820 . JSTOR 90667 .

[35] Шабан, Амирреза; Мехрдад, Фараджтабар; Бо, Се; Ле, песня; Байрон, Сапоги (2015). «Изучение моделей со скрытыми переменными путем улучшения спектральных решений с помощью метода внешней точки» (PDF) . UAI : 792–801.

[36] Балле, Борха Кваттони, Ариадна Каррерас, Ксавьер (27.06.2012). Оптимизация локальных потерь в моделях операторов: новый взгляд на спектральное обучение . OCLC 815865081 .CS1 maint: несколько имен: список авторов ( ссылка )

[37] Ланге, Кеннет. «Алгоритм ММ» (PDF) .

[1]

Алгоритм ожидания – максимизации

История

Вступление

Описание

Характеристики

Доказательство правильности

Как процедура максимизации – максимизации

Приложения

Алгоритмы фильтрации и сглаживания EM

Варианты

алгоритм α-EM

Отношение к вариационным байесовским методам

Геометрическая интерпретация

Примеры

Гауссова смесь

E шаг

Шаг M

Прекращение

Обобщение

Усеченная и цензурированная регрессия

Альтернативы

Смотрите также

Рекомендации

дальнейшее чтение

Внешние ссылки