Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Рисует из процесса Дирихле . В четырех строках используются разные альфы (сверху вниз: 1, 10, 100 и 1000), и каждая строка содержит три повторения одного и того же эксперимента. Как видно из графиков, отрисовки процесса Дирихле представляют собой дискретные распределения, и с увеличением они становятся менее концентрированными (более разбросанными) . Графики были сгенерированы с использованием представления процесса Дирихле с точки зрения процесса ломки стержня.

В теории вероятностей , процессы Дирихля (после Дирихля ) представляют собой семейство случайных процессов , чьи реализации являются распределением вероятностей . Другими словами, процесс Дирихле - это распределение вероятностей, диапазон которого сам является набором распределений вероятностей. Он часто используется в байесовском выводе для описания предшествующих знаний о распределении случайных величин - насколько вероятно, что случайные величины распределены согласно тому или иному конкретному распределению.

Процесс Дирихле задается базовым распределением и положительным действительным числом, называемым параметром концентрации (также известным как параметр масштабирования). Базовое распределение - это ожидаемая ценность процесса, т. Е. Процесс Дирихле рисует распределения «вокруг» базового распределения так же, как нормальное распределение рисует действительные числа вокруг своего среднего значения. Однако, даже если базовое распределение является непрерывным , распределения, полученные из процесса Дирихле, почти наверняка дискретны . Параметр масштабирования указывает, насколько сильна эта дискретизация: в пределе все реализации сосредоточены на одном значении, а в пределе реализации становятся непрерывными. Между двумя крайностями реализации представляют собой дискретные распределения с все меньшей и меньшей концентрацией по мере увеличения.

Процесс Дирихле также можно рассматривать как бесконечномерное обобщение распределения Дирихле . Точно так же, как распределение Дирихле является сопряженным априорным для категориального распределения , процесс Дирихле является сопряженным априорным для бесконечных непараметрических дискретных распределений. Особенно важным применением процессов Дирихле является априорное распределение вероятностей в моделях с бесконечной смесью .

Процесс Дирихле был официально представлен Томасом Фергюсоном в 1973 году. [1] С тех пор он применяется в интеллектуальном анализе данных и машинном обучении , в том числе для обработки естественного языка , компьютерного зрения и биоинформатики .

Введение [ править ]

Процессы Дирихле обычно используются при моделировании данных, которые имеют тенденцию повторять предыдущие значения в так называемой манере «богатые становятся богатыми». В частности, предположим, что создание значений можно смоделировать с помощью следующего алгоритма.

Входные данные: (распределение вероятностей, называемое базовым распределением), (положительное действительное число, называемое параметром масштабирования ).
Для :

а) С вероятностью извлечь из .

б) С установленной вероятностью , где - количество предыдущих наблюдений .
(Формально, где обозначает количество элементов в наборе.)

В то же время другая распространенная модель данных состоит в том, что наблюдения считаются независимыми и одинаково распределенными (iid) согласно некоторому (случайному) распределению . Цель введения процессов Дирихле - дать возможность описать описанную выше процедуру в этой модели ИИД.

Эти наблюдения в алгоритме не независимы , так как мы должны учитывать предыдущие результаты при генерации следующего значения. Однако их можно обменять . Этот факт можно показать, вычислив совместное распределение вероятностей наблюдений и заметив, что результирующая формула зависит только от того, какие значения встречаются среди наблюдений и сколько повторений они имеют. Из - за этого взаимозаменяемость, де представления Finetti в теореме относится и это означает , что наблюдения являются условно независимыми дан (латентное) распределение . Этотявляется случайной величиной и имеет распределение. Это распределение (по распределениям) называется процессом Дирихле ( ). Таким образом, это означает, что мы получаем процедуру, эквивалентную описанному выше алгоритму:

  1. Нарисуйте раздачу из
  2. Проводите наблюдения независимо от .

Однако на практике нарисовать конкретное распределение невозможно, поскольку для его задания требуется бесконечное количество информации. Это обычное явление в контексте байесовской непараметрической статистики, где типичной задачей является изучение распределений в функциональных пространствах, которые включают фактически бесконечно много параметров. Ключевой вывод состоит в том, что во многих приложениях бесконечномерные распределения появляются только как промежуточное вычислительное устройство и не требуются ни для первоначальной спецификации предшествующих убеждений, ни для утверждения окончательного вывода.

Формальное определение [ править ]

Учитывая измеримое множество S , базовое распределение вероятностей H и положительное действительное число , процесс Дирихле представляет собой случайный процесс , путь выборки которого (или реализация , т. Е. Бесконечная последовательность случайных величин, взятых из процесса) является распределением вероятностей по S , такое, что имеет место следующее. Для любого измеримого конечного разбиения на S , обозначается ,

где обозначает распределение Дирихле, а обозначение означает, что случайная величина имеет распределение .

Альтернативные взгляды [ править ]

Существует несколько эквивалентных взглядов на процесс Дирихле. Помимо формального определения выше, процесс Дирихле может быть определен неявно с помощью теоремы де Финетти, как описано в первом разделе; это часто называют китайским ресторанным процессом . Третья альтернатива - это процесс разрушения палки , который конструктивно определяет процесс Дирихле путем записи распределения, взятого из процесса, как , где - выборки из базового распределения , - это индикаторная функция с центром (ноль везде, кроме ) и определены по рекурсивной схеме, которая многократно выбирает из бета-распределения .

Китайский ресторанный процесс [ править ]

Анимация процесса китайского ресторана с параметром масштабирования . Таблицы скрываются, когда клиенты столика больше не могут отображаться; однако за каждым столом бесконечно много мест. (Запись интерактивной анимации. [2] )

Широко используемая метафора процесса Дирихле основана на так называемом китайском ресторанном процессе . Метафора выглядит следующим образом:

Представьте себе китайский ресторан, в который входят клиенты. Новый клиент садится за стол с вероятностью, пропорциональной количеству уже сидящих клиентов. Кроме того, покупатель открывает новую таблицу с вероятностью, пропорциональной параметру масштабирования . После того, как введено бесконечно много клиентов, получается распределение вероятностей по бесконечно большому количеству выбираемых таблиц. Это распределение вероятностей по таблицам представляет собой случайную выборку вероятностей наблюдений, полученных из процесса Дирихле с параметром масштабирования .

Если кто-то связывает извлечение из базовой меры с каждой таблицей, результирующее распределение по пространству выборки является случайной выборкой процесса Дирихле. Китайский ресторанный процесс связан со схемой выборки урны Полиа, которая дает выборки из конечных распределений Дирихле.

Поскольку клиенты сидят за столом с вероятностью, пропорциональной количеству клиентов, уже сидящих за столом, можно вывести два свойства DP:

  1. Процесс Дирихле проявляет самоусиливающееся свойство: чем чаще выборка данного значения производилась в прошлом, тем выше вероятность повторной выборки.
  2. Даже если это распределение по бесчисленному набору , существует ненулевая вероятность того, что две выборки будут иметь точно такое же значение, потому что масса вероятности будет сосредоточена на небольшом количестве таблиц.

Процесс ломки палки [ править ]

Третий подход к процессу Дирихле - это так называемая точка зрения на процесс разрушения палки. Помните, что результаты процесса Дирихле - это распределения по множеству . Как отмечалось ранее, полученное распределение является дискретным с вероятностью 1. В представлении процесса ломки палки мы явно используем дискретность и даем функцию массы вероятности этого (случайного) дискретного распределения как:

где - индикаторная функция, которая везде, кроме . Поскольку это распределение само по себе является случайным, его функция масс параметризуется двумя наборами случайных величин: местоположениями и соответствующими вероятностями . Ниже мы приводим без доказательства, что это за случайные величины.

Локации независимы и одинаково распределены в соответствии с базовым распределением процесса Дирихле. Вероятности задаются процедурой, напоминающей ломку палки единичной длины (отсюда и название):

где - независимые случайные величины с бета-распределением . Сходство с «ломкой палки» можно увидеть, если принять во внимание длину куска палки. Мы начинаем с палки единичной длины и на каждом шаге отламываем часть оставшейся палки в соответствии с и назначаем этот отломанный кусок . Формулу можно понять, отметив, что после того, как первые значения k  - 1 имеют свои части, длина оставшейся части палки равна, и эта часть разбивается в соответствии с и получает присвоение .

Чем меньше , тем меньше стика будет оставлено для последующих значений (в среднем), что даст более концентрированные распределения.

Процесс прерывания палки аналогичен построению, в котором производится последовательная выборка из предельных бета-распределений , чтобы сгенерировать выборку из распределения Дирихле . См. Доказательство в [3] .

Схема урны Pólya [ править ]

Еще один способ визуализировать процесс Дирихле и процесс китайского ресторана - это модифицированная схема урны Полиа, которую иногда называют схемой выборки Блэквелла-Маккуина . Представьте, что мы начинаем с урны, заполненной черными шарами. Далее поступаем следующим образом:

  1. Каждый раз, когда нам нужно наблюдение, мы вытаскиваем шар из урны.
  2. Если шар черный, мы равномерно генерируем новый (не черный) цвет, маркируем новый шар этим цветом, бросаем новый шар в урну вместе с нарисованным шаром и возвращаем сгенерированный нами цвет.
  3. В противном случае пометьте новый шар цветом нарисованного нами шара, бросьте новый шар в урну вместе с нарисованным шаром и верните цвет, который мы наблюдали.

Полученное распределение по цветам такое же, как распределение по столам в китайском ресторане. Кроме того, когда мы рисуем черный шар, если вместо генерации нового цвета мы выбираем случайное значение из базового распределения и используем это значение для маркировки нового шара, результирующее распределение по меткам будет таким же, как распределение по значения в процессе Дирихле.

Использовать как предварительное распространение [ править ]

Процесс Дирихле можно использовать в качестве априорного распределения для оценки распределения вероятностей, генерирующих данные. В этом разделе мы рассматриваем модель

Распределение процесса Дирихле удовлетворяет априорной сопряженности , апостериорной непротиворечивости и теореме Бернштейна – фон Мизеса . [4]

Предыдущее супружество [ править ]

В этой модели апостериорное распределение снова является процессом Дирихле. Это означает, что процесс Дирихле является сопряженным для данной модели. Заднее распределение задаются

где определено ниже.

Апостериорная согласованность [ править ]

Если мы возьмем частотный подход к вероятности, мы считаем, что существует истинное распределение вероятностей, которое привело к генерации данных. Тогда получается, что процесс Дирихля последователен в слабой топологии , что означает , что для каждых слабых окрестностей в , задней вероятности сходится к .

Теорема Бернштейна-фон Мизеса [ править ]

Чтобы интерпретировать достоверные множества как доверительные, необходима теорема Бернштейна – фон Мизеса . В случае процесса Дирихле мы сравниваем апостериорное распределение с эмпирическим процессом . Предположим, что это класс -Донскера, т.е.

для какого-то броуновского моста . Предположим также, что существует такая функция , что тогда почти наверняка

Это означает, что построенные вами достоверные наборы являются асимптотическими доверительными наборами, а байесовский вывод, основанный на процессе Дирихле, асимптотически также является правильным частотным выводом.

Использование в моделях смеси Дирихле [ править ]

Моделирование 1000 наблюдений, взятых из модели смеси Дирихле. Каждое наблюдение в кластере проводится независимо от многомерного нормального распределения . Средние кластеры берутся из распределения G, которое, в свою очередь, извлекается из процесса Дирихле с параметром концентрации и базовым распределением . Каждая строка представляет собой новую симуляцию.

Чтобы понять, что такое процессы Дирихле и какую задачу они решают, рассмотрим пример кластеризации данных . Это обычная ситуация, когда предполагается, что точки данных распределены иерархическим образом, где каждая точка данных принадлежит (случайно выбранному) кластеру, а элементы кластера далее случайным образом распределяются внутри этого кластера.

Пример 1 [ править ]

Например, нас может интересовать, как люди будут голосовать по ряду вопросов на предстоящих выборах. Разумной моделью для этой ситуации может быть классификация каждого избирателя как либерала, консерватора или умеренного, а затем моделирование события, когда избиратель говорит «да» на любой конкретный вопрос, как случайная величина Бернулли с вероятностью, зависящей от того, какой политический кластер они принадлежат. Глядя на то, как в предыдущие годы подавались голоса по аналогичным законодательным актам, можно было бы подогнать модель прогнозирования, используя простой алгоритм кластеризации, такой как k-среднее. Однако этот алгоритм требует заранее знать количество кластеров, в которых сгенерированы данные. Во многих ситуациях невозможно определить это заранее, и даже когда мы можем разумно предположить количество кластеров, мы все равно хотели бы иметь возможность проверить это предположение. Например, в приведенном выше примере голосования разделение на либералов, консерваторов и умеренных может быть недостаточно точным; Такие атрибуты, как религия, класс или раса, также могут иметь решающее значение для моделирования поведения избирателей, что приводит к увеличению количества кластеров в модели.

Пример 2 [ править ]

В качестве другого примера нас может заинтересовать моделирование скоростей галактик с использованием простой модели, предполагающей, что скорости сгруппированы, например, предполагая, что каждая скорость распределена согласно нормальному распределению , где -ое наблюдение принадлежит -ому скоплению галактик. с общей ожидаемой скоростью. В этом случае далеко не очевидно, как определить априори, сколько скоплений (с общими скоростями) должно быть, и любая модель для этого была бы очень подозрительной и должна проверяться по данным. Используя предварительный процесс Дирихле для распределения кластеров, мы избавляемся от необходимости заранее явно указывать количество кластеров, хотя параметр концентрации по-прежнему неявно управляет им.

Рассмотрим этот пример подробнее. Первая наивная модель предполагает наличие кластеров нормально распределенных скоростей с известной фиксированной дисперсией . Обозначая событие, когда -е наблюдение находится в -м кластере, мы можем записать эту модель как:

То есть мы предполагаем, что данные принадлежат разным кластерам со средними значениями, и это (неизвестная) априорная вероятность принадлежности точки данных к -ому кластеру. Мы предполагаем, что у нас нет исходной информации, различающей кластеры, которая фиксируется симметричной априорностью . Здесь обозначает распределение Дирихле и обозначает вектор длины, где каждый элемент равен 1. Далее мы назначаем независимые и идентичные априорные распределения каждому среднему кластеру, где может быть любое параметрическое распределение с параметрами, обозначенными как . Гиперпараметры исчитаются известными фиксированными константами, выбранными для отражения наших прежних представлений о системе. Чтобы понять связь с априорными процессами Дирихле, мы переписываем эту модель в эквивалентной, но более информативной форме:

Вместо того чтобы воображать, что каждой точке данных сначала назначается кластер, а затем извлекается из распределения, связанного с этим кластером, мы теперь думаем, что каждое наблюдение связано с параметром, взятым из некоторого дискретного распределения с поддержкой средств. То есть теперь мы рассматриваем как полученное из случайного распределения, и наша априорная информация включается в модель посредством распределения по распределениям .

Воспроизвести медиа
Анимация процесса кластеризации одномерных данных с использованием гауссовых распределений, полученных из процесса Дирихле. Гистограммы кластеров показаны разными цветами. В процессе оценки параметров создаются новые кластеры, которые растут на основе данных. В легенде показаны цвета кластера и количество точек данных, назначенных каждому кластеру.

Теперь мы хотели бы расширить эту модель, чтобы она работала без предварительного указания фиксированного количества кластеров . Математически это означает, что мы хотели бы выбрать случайное априорное распределение, в котором значения средних значений кластеров снова независимо распределяются согласно, а распределение по бесконечному набору кластеров является симметричным. Именно этого и добивается модель:

Имея это в руках, мы можем лучше понять вычислительные достоинства процесса Дирихле. Предположим, что мы хотели получить наблюдения из наивной модели именно с кластерами. Простым алгоритмом для этого было бы извлечение значений из , распределения из, а затем для каждого наблюдения независимо производить выборку кластера с вероятностью и значением наблюдения в соответствии с . Легко видеть, что этот алгоритм не работает в случае, когда мы разрешаем бесконечные кластеры, потому что это потребовало бы выборки бесконечномерного параметра . Тем не менее, выборочные наблюдения все еще возможны.. Можно, например, использовать представление китайского ресторана, описанное ниже, и вычислить вероятность создания использованных кластеров и нового кластера. Это позволяет избежать явного указания . Другие решения основаны на усечении кластеров: вводится (высокая) верхняя граница для истинного количества кластеров, и числа кластеров, превышающие нижнюю границу, рассматриваются как один кластер.

Подбор модели, описанной выше, на основе наблюдаемых данных означает нахождение апостериорного распределения по вероятностям кластеров и связанных с ними средних. В бесконечномерном случае явно невозможно записать апостериорную функцию. Тем не менее, можно брать образцы из этой апостериорной части, используя модифицированный сэмплер Гиббса . [5] Это критический факт, который делает априорный процесс Дирихле полезным для вывода .

Приложения процесса Дирихле [ править ]

Процессы Дирихле часто используются в байесовской непараметрической статистике . «Непараметрический» здесь не означает модель без параметров, а скорее модель, в которой представления растут по мере увеличения количества наблюдаемых данных. Байесовские непараметрические модели приобрели значительную популярность в области машинного обучения из-за вышеупомянутой гибкости, особенно при обучении без учителя . В байесовской непараметрической модели априорное и апостериорное распределения - это не параметрические распределения, а случайные процессы. [6] Тот факт, что распределение Дирихле является распределением вероятностей на симплексенаборов неотрицательных чисел, сумма которых равна единице, делает его хорошим кандидатом для моделирования распределений по распределениям или распределений по функциям. Кроме того, непараметрическая природа этой модели делает ее идеальным кандидатом для задач кластеризации, когда точное количество кластеров заранее неизвестно. Кроме того, процесс Дирихле также использовался для разработки смеси экспертных моделей в контексте контролируемых алгоритмов обучения (настройки регрессии или классификации). Например, смеси экспертов по гауссовским процессам, где количество требуемых экспертов должно быть выведено из данных. [7] [8]

Поскольку выводы из процесса Дирихле являются дискретными, важно использовать их в качестве априорной вероятности в моделях с бесконечной смесью . В данном случае - параметрический набор распределений компонентов. Таким образом, процесс генерации состоит в том, что выборка берется из процесса Дирихле, а для каждой точки данных, в свою очередь, извлекается значение из этого распределения выборки и используется в качестве распределения компонентов для этой точки данных. Тот факт, что количество отдельных компонентов, которые могут быть сгенерированы, не ограничено, делает эту модель подходящей для случая, когда количество компонентов смеси не определено заранее. Например, бесконечная смесь моделей Гаусса [9], а также связанные модели смешанной регрессии, например [10]

Бесконечная природа этих моделей также предоставляет их приложениям обработки естественного языка , где часто желательно рассматривать словарь как бесконечный дискретный набор.

Процесс Дирихле также может быть использован для непараметрического тестирования гипотез, т.е. разработать Байес непараметрических версии классических непараметрических тестов гипотез, например , тест знака , Уилкоксон тест суммы рангов , Уилкоксон-ранговый критерий , и т.д. Например, Байес непараметрических версий тест суммы рангов Вилкоксона и знаковый критерий рангов Уилкоксона были разработаны с использованием неточного процесса Дирихле , предшествующего незнанию процесса Дирихле. [ необходима цитата ]

Связанные дистрибутивы [ править ]

  • Процесс Питмана – Йорка является обобщением процесса Дирихле для учета степенных хвостов.
  • Иерархический процесс Дирихля расширяет обычный процесс Дирихля для моделирования сгруппированных данных.

Ссылки [ править ]

  1. ^ Фергюсон, Томас (1973). «Байесовский анализ некоторых непараметрических задач» . Анналы статистики . 1 (2): 209–230. DOI : 10.1214 / AOS / 1176342360 . Руководство по ремонту  0350949 .
  2. ^ http://topicmodels.west.uni-koblenz.de/ckling/tmt/crp.html?parameters=0.5&dp=1#
  3. ^ Пейсли, Джон. Простое доказательство ломающей палки конструкции процесса Дирихле. Технический отчет, Принстонский университет, факультет компьютерных наук, 2010 г.
  4. ^ Аад ван дер Ваарт , Subhashis Ghosal (2017). Основы байесовского непараметрического вывода . Издательство Кембриджского университета. ISBN 978-0-521-87826-5.
  5. ^ Sudderth, Эрик (2006). Графические модели для визуального распознавания и отслеживания объектов (PDF) (доктор философии). MIT Press.
  6. ^ Нильс Лид Хьорт , Крис Холмс, Питер Мюллер и Стивен Г. Уокер (2010). Байесовские непараметрики . Издательство Кембриджского университета. ISBN 978-0-521-51346-3.CS1 maint: multiple names: authors list (link)
  7. ^ Сотириос П. Хатзис, «Гауссовская модель процесса со скрытой переменной с априорными процессами Питмана-Йорка для мультиклассовой классификации», Нейрокомпьютинг, т. 120, pp. 482-489, ноябрь 2013 г. [1]
  8. ^ Сотириос П. Хатзис, Яннис Демирис, «Непараметрические смеси гауссовских процессов со степенным поведением», IEEE Transactions on Neural Networks and Learning Systems, vol. 23, нет. 12, pp. 1862–1871, декабрь 2012 г. [2]
  9. ^ Расмуссен, Карл (2000). "Модель бесконечной гауссовской смеси" (PDF) . Достижения в системах обработки нейронной информации . 12 : 554–560.
  10. ^ Сотириос П. Хатзис, Димитриос Коркиноф и Яннис Демирис, «Непараметрический байесовский подход к обучению роботов путем демонстрации», Робототехника и автономные системы, т. 60, нет. 6. С. 789–802, июнь 2012 г. [3]

Внешние ссылки [ править ]

  • Введение в распределение Дирихле и связанные с ним процессы Фригика, Капилы и Гупты
  • Обзор процессов Дирихле Йи Уай Тех
  • Веб-страница семинара NIPS 2003 по непараметрическим байесовским методам
  • Учебное пособие Майкла Джордана NIPS 2005: Непараметрические байесовские методы: процессы Дирихле, процессы в китайском ресторане и все такое
  • Резюме Питера Грина построения процессов Дирихле
  • Статья Питера Грина о вероятностных моделях процессов Дирихле с последствиями для статистического моделирования и анализа
  • Учебное пособие Зубина Гахрамани UAI 2005 по непараметрическим байесовским методам
  • Программное обеспечение GIMM для выполнения кластерного анализа с использованием бесконечных моделей смеси
  • Игрушечный пример кластеризации с использованием процесса Дирихле. Чжиюань Вэн