Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В вероятности и статистики , A распределение смеси является распределение вероятностей из случайной величины , которое получено из коллекции других случайных величин следующим образом : во- первых, случайная величина выбирается случайно из коллекции в соответствии с заданными вероятностей отбора, а затем реализуется значение выбранной случайной величины. Базовые случайные величины могут быть случайными действительными числами или случайными векторами (каждый из которых имеет одинаковую размерность), и в этом случае смешанное распределение является многомерным распределением .

В случаях, когда каждая из лежащих в основе случайных величин является непрерывной , итоговая переменная также будет непрерывной, а ее функция плотности вероятности иногда называется плотностью смеси . Интегральная функция распределенияфункция плотности вероятности , если она существует) может быть выражено в виде комбинации выпуклой (т.е. взвешенной суммы, с неотрицательными весами , что сумма в 1) других функций распределения и функции плотности. Отдельные распределения, которые объединяются для формирования распределения смеси, называются компонентами смеси , а вероятности (или веса), связанные с каждым компонентом, называютсямассы смеси . Количество компонентов в распределении смеси часто ограничивается конечным числом , хотя в некоторых случаях количество компонентов может быть бесконечным . Более общие случаи (т. Е. Бесчисленное множество распределений компонентов), а также счетный случай рассматриваются под названием составных распределений .

Необходимо проводить различие между случайной величиной , функция распределения или плотность которой является суммой набора компонентов (т. Е. Смешанным распределением), и случайной величиной, значение которой является суммой значений двух или более основных случайных величин, в в этом случае распределение задается оператором свертки . Например, сумма двух совместно нормально распределенных случайных величин, каждая с разными средними значениями, по-прежнему будет иметь нормальное распределение. С другой стороны, плотность смеси, созданная как смесь двух нормальных распределений с разными средними значениями, будет иметь два пика при условии, что два средних значения достаточно далеко друг от друга, показывая, что это распределение радикально отличается от нормального распределения.

Смешанные распределения возникают во многих контекстах в литературе и возникают естественным образом, когда статистическая совокупность содержит две или более субпопуляции . Они также иногда используются как средство представления ненормальных распределений. Анализ данных, касающихся статистических моделей, включающих распределения смесей, обсуждается под названием « модели смесей» , в то время как в данной статье основное внимание уделяется простым вероятностным и статистическим свойствам распределений смесей и их соотношению со свойствами лежащих в основе распределений.

Конечные и счетные смеси [ править ]

Плотность смеси трех нормальных распределений ( μ  = 5, 10, 15, σ  = 2) с равными весами. Каждый компонент показан как взвешенная плотность (каждый интегрируется с точностью до 1/3).

Дан конечный набор функций плотности вероятности p 1 ( x ),…, p n ( x ) или соответствующих кумулятивных функций распределения P 1 ( x ),…, P n ( x ) и весов w 1 ,…, w n, таких что w i ≥ 0 и w i = 1, распределение смеси можно представить, записав либо плотность, f , либо функцию распределения, F, в виде суммы (которая в обоих случаях представляет собой выпуклую комбинацию):

Этот тип смеси, являющейся конечной суммой, называется конечной смесью, и в приложениях безоговорочная ссылка на «плотность смеси» обычно означает конечную смесь. Случай счетно бесконечного множества компонентов формально покрывается разрешением .

Бесчисленные смеси [ править ]

Если набор распределений компонентов неисчислим , результат часто называют составным распределением вероятностей . Построение таких распределений имеет формальное сходство с построением распределений смесей: либо бесконечные суммирования, либо интегралы заменяют конечные суммирования, используемые для конечных смесей.

Рассмотрим функцию плотности вероятности p ( x ; a ) для переменной x , параметризованной a . То есть, для каждого значения в некотором множестве А , р ( х ; а ) представляет собой функцию плотности вероятности относительно х . Учитывая функцию плотности вероятности w (что означает, что w неотрицательна и интегрируется с 1), функция

снова является функцией плотности вероятности для x . Аналогичный интеграл можно записать для интегральной функции распределения. Обратите внимание, что формулы здесь сводятся к случаю конечной или бесконечной смеси, если плотности w разрешено быть обобщенной функцией, представляющей «производную» кумулятивной функции распределения дискретного распределения .

Смеси в параметрическом семействе [ править ]

Компоненты смеси часто не являются произвольными распределениями вероятностей, а вместо этого являются членами параметрического семейства (например, нормального распределения) с разными значениями параметра или параметров. В таких случаях, предполагая, что она существует, плотность может быть записана в виде суммы как:

для одного параметра, или

для двух параметров и так далее.

Свойства [ править ]

Выпуклость [ править ]

Общая линейная комбинация функций плотности вероятности не обязательно является плотностью вероятности, поскольку она может быть отрицательной или может интегрироваться с чем-то отличным от 1. Однако выпуклая комбинация функций плотности вероятности сохраняет оба этих свойства (неотрицательность и интеграцию 1), и, таким образом, плотности смеси сами являются функциями плотности вероятности.

Моменты [ править ]

Пусть X 1 , ..., X n обозначают случайные величины из n распределений компонентов, и пусть X обозначает случайную величину из распределения смеси. Тогда для любой функции H (·), для которой существует, и предполагая, что существуют плотности компонентов p i ( x ),

J - й момента около нуля (т.е. выбора Н ( х ) = х J ) является просто взвешенным средним J - й минуты компонентов. Моменты относительно среднего H ( x ) = ( x - μ ) j связаны с биномиальным расширением: [1]

где μ i обозначает среднее значение i- го компонента.

В случае смеси одномерных распределений с весами w i , средними μ i и дисперсиями σ i 2 общее среднее значение и дисперсия будут:

Эти отношения подчеркивают потенциал смешанных распределений для отображения нетривиальных моментов высшего порядка, таких как асимметрия и эксцесс ( толстые хвосты ) и многомодальность, даже при отсутствии таких функций внутри самих компонентов. Маррон и Ванд (1992) дают иллюстративное описание гибкости этой структуры. [2]

Режимы [ править ]

Вопрос о мультимодальности прост для некоторых случаев, например для смесей экспоненциальных распределений : все такие смеси унимодальны . [3] Однако для случая смесей нормальных распределений это сложный вопрос. Условия для количества мод в многомерной нормальной смеси исследуются Рэем и Линдси [4], расширяя более раннюю работу по одномерным [5] [6] и многомерным распределениям (Carreira-Perpinan and Williams, 2003 [7] ).

Здесь проблема оценки режимов n- компонентной смеси в D- мерном пространстве сводится к выявлению критических точек (локальных минимумов, максимумов и седловых точек) на многообразии, называемом поверхностью гребня, которое является изображением функция линии гребня

где α принадлежит n - 1 мерному единичному симплексу, а Σ iR D × D , μ iR D соответствуют ковариации и среднему значению i- го компонента. Ray и Lindsay [4] рассматривают случай, когда n - 1 < D, демонстрируя взаимно однозначное соответствие режимов смеси и режимов на функции возвышения h ( α ) = q ( x * ( α )) таким образом, можно идентифицировать режимы путем решения относительно α и определения значения x * ( α ).

Используя графические инструменты, демонстрируется потенциальная мультимодальность смесей n = {2, 3 }; в частности, показано, что количество режимов может превышать n и что режимы могут не совпадать со средствами компонента. Для двух компонентов они разрабатывают графический инструмент для анализа, вместо этого решая вышеупомянутый дифференциал относительно w 1 и выражая решения как функцию Π ( α ), α ∈ [0, 1], так что количество и расположение мод для заданное значение w 1 соответствует количеству пересечений графика на прямой Π ( α ) = w 1. Это, в свою очередь, может быть связано с количеством колебаний графика и, следовательно, с решениями, приводящими к явному решению для двухкомпонентной гомоскедастической смеси, задаваемой формулой

где d M ( μ 1 , μ 2 , Σ) = ( μ 2 - μ 1 ) T Σ −1 ( μ 2 - μ 1 ) - расстояние Махаланобиса .

Поскольку приведенное выше является квадратичным, в этом случае существует не более двух режимов независимо от размера или веса.

Примеры [ править ]

Два нормальных распределения [ править ]

Простые примеры могут быть даны смесью двух нормальных распределений. (Подробнее см. Мультимодальное распределение # Смесь двух нормальных распределений .)

При равной (50/50) смеси двух нормальных распределений с одинаковым стандартным отклонением и разными средними значениями ( гомоскедастический ) общее распределение будет демонстрировать низкий эксцесс по сравнению с одним нормальным распределением - средние значения субпопуляций ложатся на плечи общее распространение. Если они достаточно разделены, а именно двойным (общим) стандартным отклонением, то они образуют бимодальное распределение , в противном случае оно просто имеет широкий пик. [8] Вариация общей популяции также будет больше, чем вариация двух субпопуляций (из-за разброса от разных средств), и, таким образом, демонстрирует избыточную дисперсию по сравнению с нормальным распределением с фиксированной вариацией. хотя он не будет чрезмерно диспергирован относительно нормального распределения с вариацией, равной вариации всего населения.

В качестве альтернативы, учитывая две субпопуляции с одним и тем же средним значением и разными стандартными отклонениями, общая популяция будет демонстрировать высокий эксцесс, с более резким пиком и более тяжелыми хвостами (и, соответственно, более мелкими плечами), чем в одном распределении.

  • Одномерное распределение смеси, показывающее бимодальное распределение

  • Многомерное распределение смеси, показывающее четыре режима

Нормальное распределение и распределение Коши [ править ]

Следующий пример заимствован из Хэмпела [9], который верит в Джона Тьюки .

Рассмотрим распределение смеси, определяемое формулой

F ( x ) = (1-10 −10 ) ( стандартная норма ) + l0 −10 ( стандартная норма Коши ) .

Среднее значение iid наблюдений из F ( x ) ведет себя «нормально», за исключением непомерно больших выборок, хотя среднее значение F ( x ) даже не существует.

Приложения [ править ]

Плотности смеси - это сложные плотности, которые можно выразить в терминах более простых плотностей (компонентов смеси), и они используются как потому, что они обеспечивают хорошую модель для определенных наборов данных (где разные подмножества данных демонстрируют разные характеристики и их лучше всего моделировать отдельно), так и потому что они могут быть более математически понятными, потому что отдельные компоненты смеси могут быть более легко изучены, чем общая плотность смеси.

Плотность смеси можно использовать для моделирования статистической совокупности с субпопуляциями , где компоненты смеси - это плотности субпопуляций, а веса - это доли каждой субпопуляции в общей популяции.

Плотность смеси также может использоваться для моделирования экспериментальной ошибки или загрязнения - предполагается, что большинство образцов измеряют желаемое явление,

Параметрическая статистика, предполагающая отсутствие ошибок, часто терпит неудачу при такой плотности смеси - например, статистика, предполагающая нормальность, часто терпит неудачу при наличии даже нескольких выбросов - и вместо этого используется надежная статистика .

В метаанализе отдельных исследований неоднородность исследований приводит к тому, что распределение результатов является смешанным , что приводит к чрезмерному разбросу результатов относительно предсказанной ошибки. Например, в статистическом обследовании , то погрешность (определяется размером выборки) предсказывает ошибку выборки и , следовательно , дисперсию результатов на повторных обследованиях. Наличие неоднородности исследования (исследования имеют разную систематическую ошибку выборки ) увеличивает разброс относительно предела погрешности.

См. Также [ править ]

  • Составное распределение
  • Выпуклая комбинация
  • Алгоритм ожидания-максимизации (EM)
  • Не путать со списком сверток вероятностных распределений
  • Распространение продукции

Смесь [ править ]

  • Смесь (вероятность)
  • Модель смеси

Иерархические модели [ править ]

  • Графическая модель
  • Иерархическая байесовская модель

Примечания [ править ]

  1. ^ Frühwirth-Schnatter (2006, Ch.1.2.4)
  2. ^ Маррон, JS; Жезл, депутат (1992). «Точная средняя интегрированная квадратичная ошибка» . Летопись статистики . 20 (2): 712–736. DOI : 10.1214 / AOS / 1176348653 ., http://projecteuclid.org/euclid.aos/1176348653
  3. ^ Frühwirth-Schnatter (2006, гл.1)
  4. ^ a b Ray, R .; Линдси, Б. (2005), «Топография многомерных нормальных смесей», «Анналы статистики» , 33 (5): 2042–2065, arXiv : math / 0602238 , doi : 10.1214 / 009053605000000417
  5. ^ Робертсон CA, Фрайер JG (1969) Некоторые описательные свойства нормальных смесей. Skand Aktuarietidskr 137–146
  6. ^ Behboodian, J (1970). «О режимах смеси двух нормальных распределений». Технометрика . 12 : 131–139. DOI : 10.2307 / 1267357 . JSTOR 1267357 . 
  7. ^ http://faculty2.ucmerced.edu/mcarreira-perpinan/papers/EDI-INF-RR-0159.pdf
  8. ^ Шиллинг, Марк Ф .; Уоткинс, Энн Э .; Уоткинс, Уильям (2002). «Рост человека бимодален?». Американский статистик . 56 (3): 223–229. DOI : 10.1198 / 00031300265 .
  9. ^ Хампел, Frank (1998), "? Является ли статистика слишком сложно", Canadian Journal статистики , 26 : 497-513, DOI : 10,2307 / 3315772 , ЛВП : 20.500.11850 / 145503

Ссылки [ править ]

  • Фрювирт-Шнаттер, Сильвия (2006), Конечная смесь и модели марковского переключения , Springer, ISBN 978-1-4419-2194-9
  • Линдси, Брюс Г. (1995), Модели смесей: теория, геометрия и приложения , Серия региональных конференций NSF-CBMS по вероятности и статистике, 5 , Хейворд, Калифорния, США: Институт математической статистики, ISBN 0-940600-32-3, JSTOR  4153184
  • Зайдель, Вильфрид (2010), «Модели смесей», в Lovric, M. (ed.), International Encyclopedia of Statistical Science , Heidelberg: Springer, pp. 827–829, arXiv : 0909.0389 , doi : 10.1007 / 978-3- 642-04898-2 , ISBN 978-3-642-04898-2