Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В вероятностной байесовской теории, если задние распределения р ( & thetas ;  |  х ) находятся в одной и ту же семье распределения вероятностей как до распределения вероятности р (q), предшествующий и задние затем называют сопряженные распределения, и до называются конъюгат до для функции правдоподобия p (x | θ ). Например, гауссовское семейство сопряжено самому себе (или самосопряжено) относительно гауссовой функции правдоподобия: если функция правдоподобия является гауссовой, выбор гауссовского априорного значения по сравнению со средним будет гарантировать, что апостериорное распределение также будет гауссовым. Это означает, что гауссово распределение является сопряженным априорным значением вероятности, которое также является гауссовым. Это понятие, а также термин «сопряженный априор » были введены Говардом Райффой и Робертом Шлайфером в их работе по теории байесовских решений . [1] Подобная концепция была независимо открыта Джорджем Альфредом Барнардом . [2]

Рассмотрим общую проблему вывода (непрерывного) распределения для параметра θ с учетом некоторой базы данных или данных x . Из теоремы Байеса , задние распределения равно произведению функции правдоподобия и до , нормализовано (разделить) на вероятности данных :

Пусть функция правдоподобия считается фиксированной; функция правдоподобия обычно хорошо определяется из описания процесса генерации данных [ необходим пример ] . Ясно, что различные варианты априорного распределения p ( θ ) могут сделать интеграл более или менее трудным для вычисления, и произведение p ( x | θ ) ×  p ( θ ) может принимать ту или иную алгебраическую форму. Для некоторых вариантов априорного выбора апостериорная имеет ту же алгебраическую форму, что и апостериорная (обычно с разными значениями параметров). Такой выбор - сопряженный апор .

Сопряженное предшествующее - это алгебраическое удобство, дающее закрытое выражение для апостериорного; в противном случае может потребоваться численное интегрирование . Кроме того, сопряженные априорные значения могут дать интуицию, более прозрачно показывая, как функция правдоподобия обновляет предыдущее распределение.

Все члены экспоненциального семейства имеют сопряженные априорные числа. [3]

Пример [ править ]

Форма сопряженной априорной вероятности обычно может быть определена путем проверки плотности вероятности или функции массы вероятности распределения. Например, рассмотрим случайную величину, которая состоит из количества успехов в испытаниях Бернулли с неизвестной вероятностью успеха в [0,1]. Эта случайная величина будет следовать биномиальному распределению с функцией массы вероятности вида

Обычное сопряженное априорное распределение - это бета-распределение с параметрами ( , ):

где и выбраны, чтобы отразить любое существующее мнение или информацию ( = 1 и = 1 дадут равномерное распределение ), а Β ( ,  ) - бета-функция, действующая как нормализующая константа .

В этом контексте и называются гиперпараметрами (параметры предшествующей модели), чтобы отличать их от параметров базовой модели (здесь q ). Типичной характеристикой сопряженных априорных значений является то, что размерность гиперпараметров на единицу больше, чем размерность параметров исходного распределения. Если все параметры являются скалярными значениями, это означает, что гиперпараметров будет на один больше, чем параметра; но это также относится к параметрам с векторными и матричными значениями. (См общей статьи о показательной семье , и рассмотрит также распределение Уишарта , сопряженная приор ковариационной матрицы из более многомерного нормального распределения, например, когда речь идет о большой размерности.)

Если мы затем выберем эту случайную величину и получим s успехов и f неудач, мы получим

что является еще одним бета-распределением с параметрами ( + s , + f ). Затем это апостериорное распределение можно было бы использовать в качестве априорного для большего количества выборок, при этом гиперпараметры просто добавляли каждую дополнительную информацию по мере ее поступления.

Псевдо-наблюдения [ править ]

Часто бывает полезно думать о гиперпараметрах сопряженного априорного распределения как соответствующих наблюдению определенного количества псевдонаблюдений со свойствами, заданными параметрами. Например, значение и из беты - распределений можно рассматривать как соответствующие успехи и неудачи , если задний режим используется , чтобы выбрать оптимальное значение параметра, или успехи иотказы, если для выбора оптимальной настройки параметра используется апостериорное среднее. В общем, почти для всех сопряженных априорных распределений гиперпараметры можно интерпретировать в терминах псевдонаблюдений. Это может помочь как в обеспечении интуиции за часто запутанными уравнениями обновления, так и в выборе разумных гиперпараметров для априорных.

Интерпретации [ править ]

Аналогия с собственными функциями [ необходима ссылка ] [ редактировать ]

Сопряженные априорные функции аналогичны собственным функциям в теории операторов в том смысле, что они представляют собой распределения, на которых "обусловливающий оператор" действует хорошо понятным образом, рассматривая процесс перехода от предшествующего к апостериорному как оператор.

И в собственных функциях, и в сопряженных априорных функциях существует конечномерное пространство, которое сохраняется оператором: выход имеет ту же форму (в том же пространстве), что и вход. Это значительно упрощает анализ, поскольку в противном случае рассматривается бесконечномерное пространство (пространство всех функций, пространство всех распределений).

Однако процессы только аналогичны, а не идентичны: обусловливание не является линейным, поскольку пространство распределений не замыкается линейной комбинацией , только выпуклой комбинацией , а апостериор имеет только ту же форму, что и предыдущий, а не скалярное кратное.

Подобно тому, как можно легко проанализировать, как линейная комбинация собственных функций эволюционирует под действием оператора (поскольку по отношению к этим функциям оператор диагонализуется ), можно легко проанализировать, как выпуклая комбинация сопряженных априорных функций эволюционирует при условии; это называется использованием hyperprior , и соответствует , используя плотность смеси сопряженных априорий, а не одного конъюгата до.

Динамическая система [ править ]

Можно думать об обусловливании сопряженных априорных значений как об определении разновидности (дискретного времени) динамической системы : из заданного набора гиперпараметров входящие данные обновляют эти гиперпараметры, поэтому можно рассматривать изменение гиперпараметров как своего рода "временную эволюцию" система, соответствующая «обучению». Начало в разных точках дает разные потоки с течением времени. Это снова аналогично динамической системе, определяемой линейным оператором, но обратите внимание, что, поскольку разные выборки приводят к разным выводам, это зависит не просто от времени, а скорее от данных с течением времени. Для связанных подходов см. Рекурсивные байесовские оценки и Ассимиляция данных .

Практический пример [ править ]

Допустим, в вашем городе работает прокат автомобилей. Водители могут выгружать и забирать автомобили в любой точке города. Найти и арендовать автомобили можно с помощью приложения.

Предположим, вы хотите найти вероятность того, что вы сможете найти арендованный автомобиль на небольшом расстоянии от вашего домашнего адреса в любое время суток.

В течение трех дней вы просматриваете приложение в случайное время дня и обнаруживаете следующее количество автомобилей недалеко от вашего домашнего адреса:

Если мы предположим, что данные поступают из распределения Пуассона , мы можем вычислить оценку максимального правдоподобия параметров модели, которая: Используя эту оценку максимального правдоподобия, мы можем вычислить вероятность того, что будет доступен хотя бы один автомобиль:

Это распределение Пуассона, которое с наибольшей вероятностью привело к наблюдаемым данным . Но данные также могли быть получены из другого распределения Пуассона, например, с , или и т. Д. На самом деле существует бесконечное количество распределений Пуассона, которые могли бы сгенерировать наблюдаемые данные, и с относительно небольшим количеством точек данных мы должны быть совершенно не уверены в том, какие Эти данные были получены с помощью точного распределения Пуассона. Интуитивно мы должны вместо этого взять средневзвешенное значение вероятности для каждого из этих распределений Пуассона, взвешенное по тому, насколько они вероятны, учитывая данные, которые мы наблюдали .

Как правило, эта величина известна как апостериорное прогнозное распределение, где - новая точка данных, это наблюдаемые данные и параметры модели. Используя теорему Байеса, мы можем расширить так , что, как правило, этот интеграл трудно вычислить. Однако, если вы выберете сопряженное предварительное распределение , можно получить выражение в закрытой форме. Это столбец апостериорного прогноза в таблицах ниже.

Возвращаясь к нашему примеру, если мы выберем гамма-распределение в качестве нашего априорного распределения по скорости распределений Пуассона, то апостериорным прогнозом будет отрицательное биномиальное распределение, как это видно из последнего столбца в таблице ниже. Гамма-распределение параметризуется двумя гиперпараметрами, которые мы должны выбрать. Глядя на графики гамма-распределения, мы выбираем , что кажется разумным априором для среднего количества автомобилей. Выбор предварительных гиперпараметров по своей сути субъективен и основан на предварительных знаниях.

Учитывая априорные гиперпараметры и мы можем вычислить апостериорные гиперпараметры и

Учитывая апостериорные гиперпараметры, мы можем, наконец, вычислить апостериорное предсказание

Эта гораздо более консервативная оценка отражает неопределенность параметров модели, которую принимает во внимание апостериорный прогноз.

Таблица сопряженных распределений [ править ]

Пусть n обозначает количество наблюдений. Во всех приведенных ниже случаях предполагается, что данные состоят из n точек (которые будут случайными векторами в многомерных случаях).

Если функция правдоподобия принадлежит экспоненциальному семейству , то существует сопряженная априорная функция , часто также в экспоненциальном семействе; см. Экспоненциальное семейство: сопряженные распределения .

Когда функция правдоподобия представляет собой дискретное распределение [ править ]

Когда функция правдоподобия является непрерывным распределением [ править ]

См. Также [ править ]

  • Бета-биномиальное распределение

Примечания [ править ]

  1. ^ a b Обозначается теми же символами, что и предыдущие гиперпараметры, с добавленными штрихами ('). Например , обозначается
  2. ^ Это апостериорное прогнозирующее распределение новой точки данных сучетом наблюдаемых точек данных с маргинальными параметрами. Переменные с штрихами указывают апостериорные значения параметров.
  3. ^ a b c d e f g Точная интерпретация параметров бета-распределения с точки зрения количества успехов и неудач зависит от того, какая функция используется для извлечения точечной оценки из распределения. Среднее значение бета-распределения соответствует успехам и неудачам, а режим соответствует успехам и неудачам. Байесовцы обычно предпочитают использовать апостериорное среднее, а не апостериорную моду в качестве точечной оценки, оправдываемой квадратичной функцией потерь, а использование и более удобно математически, в то время как использование иимеет то преимущество, что единый априор соответствует 0 успехам и 0 неудачам. Те же проблемы относятся к распределению Дирихле .
  4. ^ a b c β - ставка или обратная шкала. В параметризации гамма - распределения , θ = 1 / & beta ; и к = & alpha ; .
  5. ^ Это апостериорное прогнозирующее распределение новой точки данных сучетом наблюдаемых точек данных с маргинальными параметрами. Переменные с штрихами указывают апостериорные значения параметров. иотносятся к нормальному распределению и t-распределению Стьюдента , соответственно, или к многомерному нормальному распределению и многомерному t-распределению в многомерных случаях.
  6. ^ В терминах обратной гаммы ,является масштабным параметр
  7. ^ Другое сопряженное априорное значение для неизвестного среднего и дисперсии, но с фиксированной линейной зависимостью между ними, находится в смеси нормальных значений дисперсии и среднего с обобщенным обратным гауссовым распределением в качестве распределения сопряженного смешения.
  8. ^ - составное гамма-распределение ; вот обобщенное бета-простое распределение .

Ссылки [ править ]

  1. ^ Говард Райффа и Роберт Шлайфер . Прикладная статистическая теория принятия решений . Отдел исследований, Высшая школа делового администрирования, Гарвардский университет, 1961 год.
  2. ^ Джефф Миллер и др. Самое раннее Known Использование некоторых слов математики , «сопряженных априорных распределений» . Электронный документ, редакция от 13 ноября 2005 г., извлечена 2 декабря 2005 г.
  3. Для каталога см. Гельман, Эндрю ; Карлин, Джон Б .; Стерн, Хэл С .; Рубин, Дональд Б. (2003). Байесовский анализ данных (2-е изд.). CRC Press. ISBN 1-58488-388-X.
  4. ^ a b c Даниэль Финк (май 1997 г.). "Компендиум сопряженных приоров" (PDF) . CiteSeerX 10.1.1.157.5540 . Архивировано из оригинального (PDF) 29 мая 2009 года.  
  5. ^ a b c d e f g h i j k l m Мерфи, Кевин П. (2007), Сопряженный байесовский анализ распределения Гаусса (PDF)
  6. ^ Статистическое машинное обучение, Хан Лю и Ларри Вассерман, 2014, стр. 314: http://www.stat.cmu.edu/~larry/=sml/Bayes.pdf