Модель смеси

В статистике смешанная модель представляет собой вероятностную модель для представления присутствия подгрупп в общей совокупности, не требуя, чтобы набор наблюдаемых данных идентифицировал подгруппу, к которой принадлежит отдельное наблюдение. Формально смешанная модель соответствует смешанному распределению , которое представляет распределение вероятностей наблюдений в генеральной совокупности. Однако, в то время как проблемы, связанные со «смешанными распределениями», относятся к получению свойств общей совокупности из свойств подгрупп, «смешанные модели» используются для получения статистических выводов.о свойствах субпопуляций даны только наблюдения за объединенной популяцией, без информации об идентичности субпопуляции.

Смешанные модели не следует путать с моделями композиционных данных , т. е. данных, компоненты которых должны суммироваться с постоянным значением (1, 100% и т. д.). Однако композиционные модели можно рассматривать как смешанные модели, в которых члены совокупности отбираются случайным образом. Наоборот, смешанные модели можно рассматривать как композиционные модели, в которых общая совокупность чтения размера нормализована до 1.

Типичная конечномерная модель смеси представляет собой иерархическую модель, состоящую из следующих компонентов:

Кроме того, в байесовской настройке веса и параметры смеси сами по себе будут случайными величинами, а априорные распределения будут размещены над переменными. В таком случае веса обычно рассматриваются как K - мерный случайный вектор, взятый из распределения Дирихле ( сопряженный априор категориального распределения), и параметры будут распределяться в соответствии с их соответствующими сопряженными априорными значениями.

Эта характеристика использует F и H для описания произвольных распределений по наблюдениям и параметрам соответственно. Обычно H будет сопряженным предшествующим F . Двумя наиболее распространенными вариантами F являются гауссовский , также известный как « нормальный » (для наблюдений с действительными значениями) и категориальный (для дискретных наблюдений). Другие распространенные возможности распределения компонентов смеси:

Байесовская смешанная модель Гаусса обычно расширяется, чтобы соответствовать вектору неизвестных параметров (выделены жирным шрифтом) или многомерным нормальным распределениям. В многомерном распределении (т. е. при моделировании вектора с N случайными величинами) можно смоделировать вектор параметров (например, несколько наблюдений сигнала или фрагментов в изображении), используя априорное распределение гауссовской смешанной модели на векторе оценок, заданном выражением ${\ Displaystyle {\boldsymbol {х}}}$

Небайесовская гауссовская модель смеси с использованием табличных обозначений . Квадраты меньшего размера обозначают фиксированные параметры; кружки большего размера обозначают случайные величины. Закрашенные фигуры обозначают известные значения. Индикация [K] означает вектор размера K.

Модель байесовской гауссовой смеси с использованием табличных обозначений . Квадраты меньшего размера обозначают фиксированные параметры; кружки большего размера обозначают случайные величины. Закрашенные фигуры обозначают известные значения. Индикация [K] означает вектор размера K.

Анимация процесса кластеризации одномерных данных с использованием смешанной байесовской гауссовой модели, в которой нормальные распределения взяты из процесса Дирихле . Гистограммы кластеров показаны разными цветами. В процессе оценки параметров создаются и растут новые кластеры данных. В легенде показаны цвета кластеров и количество точек данных, назначенных каждому кластеру.

Небайесовская категориальная модель смеси с использованием табличных обозначений . Квадраты меньшего размера обозначают фиксированные параметры; кружки большего размера обозначают случайные величины. Закрашенные фигуры обозначают известные значения. Индикация [K] означает вектор размера K ; то же самое для [V].

Байесовская категориальная модель смеси с использованием табличных обозначений . Квадраты меньшего размера обозначают фиксированные параметры; кружки большего размера обозначают случайные величины. Закрашенные фигуры обозначают известные значения. Индикация [K] означает вектор размера K ; то же самое для [V].

Нормальное распределение строится с использованием различных средних значений и дисперсий .

Пример гауссовой смеси в сегментации изображения с серой гистограммой