Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В байесовском статистическом выводе , априорное распределение вероятностей , часто называют просто до , из неопределенного количества является распределением вероятностей , что бы выразить свои убеждения по поводу этой величины , прежде чем некоторые доказательства принято во внимание. Например, априорное может быть распределением вероятностей, представляющим относительную долю избирателей, которые проголосуют за конкретного политика на будущих выборах. Неизвестная величина может быть параметром модели или скрытой переменной, а не наблюдаемой переменной .

Теорема Байеса вычисляет перенормированное точечное произведение априорной функции и функции правдоподобия , чтобы получить апостериорное распределение вероятностей , которое является условным распределением неопределенной величины с учетом данных.

Аналогичным образом , априорная вероятность из случайного события или неопределенного предложения является безусловной вероятностью , что назначается перед любыми соответствующими доказательствами принято во внимание.

Приоры могут быть созданы несколькими способами. [1] ( стр. 27–41 ) Априорность может быть определена на основе прошлой информации, такой как предыдущие эксперименты. Априорность может быть получена из чисто субъективной оценки опытного эксперта. Неинформативные до может быть создан , чтобы отражать баланс между результатами , когда никакая информация не доступна. Априорные значения также могут быть выбраны в соответствии с некоторыми принципами, такими как симметрия или максимизация энтропии с учетом ограничений; примерами являются априор Джеффри или априор Бернардо. Когда существует семейство сопряженных априорных значений , выбор априорного числа из этого семейства упрощает вычисление апостериорного распределения.

Параметры априорных распределений являются своего рода гиперпараметром . Например, если используется бета - распределения для моделирования распределения параметра р о с распределением Бернулли , то:

  • p - параметр базовой системы (распределение Бернулли), и
  • α и β - параметры априорного распределения (бета-распределения); отсюда гиперпараметры .

Сами гиперпараметры могут иметь гиперприоритетное распределение, выражающее убеждения относительно их значений. Байесовская модель с более чем одним уровнем априорной вероятности называется иерархической байесовской моделью .

Информационные априоры [ править ]

Информативный предыдущие Выражает конкретные, определенные сведения о переменной. Примером может служить предварительное распределение температуры в полдень завтра. Разумный подход состоит в том, чтобы сделать априор нормальным распределением с ожидаемым значением, равным сегодняшней полуденной температуре, с отклонением, равным дневной изменчивости атмосферной температуры, или распределением температуры для этого дня в году.

Этот пример имеет свойство, общее со многими априорными, а именно, что апостериор для одной проблемы (сегодняшняя температура) становится апостериорным для другой проблемы (завтрашняя температура); ранее существовавшие доказательства, которые уже были приняты во внимание, являются частью предшествующих, и по мере накопления большего количества доказательств апостериор определяется в основном доказательствами, а не каким-либо исходным предположением, при условии, что исходное предположение допускало возможность того, что является свидетельством предлагая. Термины «предшествующий» и «апостериорный» обычно относятся к конкретным данным или наблюдениям.

Слабо информативные априоры [ править ]

Слабо информативны предыдущие Выражает частичную информацию о переменной. Например, при установке предварительного распределения для температуры в полдень завтра в Сент-Луисе использовать нормальное распределение со средним значением 50 градусов по Фаренгейту и стандартным отклонением 40 градусов, что очень слабо ограничивает температуру диапазоном (10 градусов, 90 градусов). градусов) с небольшой вероятностью быть ниже -30 градусов или выше 130 градусов. Цель слабо информативного априорного значения - регуляризация , то есть удержание выводов в разумном диапазоне.

Неинформативные априоры [ править ]

Неинформативные перед или диффузное предшествующие выражает расплывчатым или общую информацию о переменной. Термин «малоинформативный априор» употребляется неправильно. Такой априор можно также назвать не очень информативным априорным или объективным априорным , то есть тем, который не выявлен субъективно.

Неинформативные априорные значения могут выражать «объективную» информацию, такую ​​как «переменная положительна» или «переменная меньше некоторого предела». Самым простым и старым правилом определения неинформативности априорной точки является принцип безразличия , который приписывает равные вероятности всем возможностям. В задачах оценки параметров использование неинформативного априорного значения обычно дает результаты, которые не слишком отличаются от обычного статистического анализа, поскольку функция правдоподобия часто дает больше информации, чем неинформативное априорное значение.

Были предприняты некоторые попытки найти априорные вероятности , то есть распределения вероятностей в некотором смысле, логически требуемые природой состояния неопределенности; они являются предметом философских споров, причем байесовцы примерно делятся на две школы: «объективные байесовцы», которые считают, что такие априорные значения существуют во многих полезных ситуациях, и «субъективные байесовцы», которые полагают, что на практике априорные взгляды обычно представляют собой субъективные суждения мнения, не может быть строго оправдан (Williamson 2010). Возможно, самые сильные аргументы в пользу объективного байесовства были даны Эдвином Т. Джейнсом , основанным, главным образом, на следствиях симметрии и на принципе максимальной энтропии.

В качестве примера априорной априорной оценки, предложенной Джейнсом (2003), рассмотрим ситуацию, в которой известно, что шар был спрятан под одной из трех чашек, A, B или C, но никакой другой информации о его местонахождении не имеется. . В этом случае однородное до из р ( ) = р ( В ) = р ( С) = 1/3 интуитивно кажется единственно разумным выбором. Более формально, мы можем видеть, что проблема остается той же самой, если мы поменяем местами метки («A», «B» и «C») на чашках. Поэтому было бы странно выбирать априор, для которого перестановка меток привела бы к изменению наших прогнозов относительно того, под какой чашкой будет находиться мяч; равномерный приор - единственный, который сохраняет эту инвариантность. Если принять этот принцип инвариантности, то можно увидеть, что унифицированный априор является логически правильным до представления этого состояния знания. Этот априор является «объективным» в том смысле, что он является правильным выбором для представления определенного состояния знания, но не является объективным в том смысле, что он является независимой от наблюдателя характеристикой мира:на самом деле мяч существует под определенной чашкой, и в этой ситуации имеет смысл говорить о вероятностях, только если есть наблюдатель с ограниченными знаниями о системе.

В качестве более спорном например, Джейнз опубликовал аргумент (Джейнз 1968) , основанный на инвариантности до под изменением параметров , что наводит на мысль о том , что до , представляющий полная неопределенность относительно вероятности должна быть Халдейн до р -1 (1 -  р ) −1 . Джейнс приводит пример, когда он находит химическое вещество в лаборатории и спрашивает, растворяется ли оно в воде в повторных экспериментах. Приоры Холдейна [2] , безусловно, придают наибольшее значение и, что указывает на то, что образец либо будет растворяться каждый раз, либо никогда не растворяется с равной вероятностью. Однако, если наблюдалось, что образцы химического вещества растворяются в одном эксперименте и не растворяются в другом эксперименте, то это предварительное значение обновляется до однородного распределения в интервале [0, 1]. Это получается путем применения теоремы Байеса к набору данных, состоящему из одного наблюдения растворения и одного наблюдения отсутствия растворения, с использованием вышеупомянутого предыдущего. Априор Холдейна - это неправильное априорное распределение (это означает, что оно имеет бесконечную массу). Гарольд Джеффрис разработал систематический способ создания неинформативных априорных значений, как, например, априор Джеффриса p −1/2 (1 -  p ) −1/2 для случайной величины Бернулли.

Можно построить априорные значения, которые пропорциональны мере Хаара, если пространство параметров X несет естественную групповую структуру, которая оставляет неизменным наше байесовское состояние знаний (Jaynes, 1968). Это можно рассматривать как обобщение принципа инвариантности, используемого для обоснования априорной униформы над тремя чашками в приведенном выше примере. Например, в физике мы можем ожидать, что эксперимент даст одни и те же результаты независимо от нашего выбора начала координат системы координат. Это индуцирует групповую структуру группы трансляций на X , которая определяет априорную вероятность как постоянную несобственную априорную вероятность.. Точно так же некоторые измерения естественно инвариантны к выбору произвольного масштаба (например, используются ли сантиметры или дюймы, физические результаты должны быть одинаковыми). В таком случае масштабная группа является естественной структурой группы, и соответствующий априор на X пропорционален 1 / x . Иногда имеет значение, используем ли мы левоинвариантную или правоинвариантную меру Хаара. Например, левая и правая инвариантные меры Хаара на аффинной группе не равны. Бергер (1985, стр. 413) утверждает, что правоинвариантная мера Хаара является правильным выбором.

Другая идея, отстаиваемая Эдвином Т. Джейнсом , состоит в использовании принципа максимальной энтропии (MAXENT). Мотивация заключается в том, что энтропия Шеннона распределения вероятностей измеряет количество информации, содержащейся в распределении. Чем больше энтропия, тем меньше информации предоставляет распределение. Таким образом, максимизируя энтропию по подходящему набору вероятностных распределений на X, можно найти распределение, которое является наименее информативным в том смысле, что оно содержит наименьшее количество информации, совместимое с ограничениями, которые определяют набор. Например, максимальная априорная энтропия в дискретном пространстве, при условии, что вероятность нормализована к 1, является априорной, которая присваивает равную вероятность каждому состоянию. А в непрерывном случае максимальная энтропия при условии, что плотность нормализована со средним нулевым значением, а единичная дисперсия является стандартным нормальным распределением . Принцип минимальной кросс-энтропии обобщает MAXENT на случай «обновления» произвольного априорного распределения подходящими ограничениями в смысле максимальной энтропии.

Похожая идея, эталонные априоры , была предложена Хосе-Мигелем Бернардо . Здесь идея состоит в том, чтобы максимизировать ожидаемую дивергенцию Кульбака – Лейблера апостериорного распределения относительно априорного. Это максимизирует ожидаемую апостериорную информацию о X, когда априорная плотность равна p ( x ); таким образом, в некотором смысле, p ( x ) является «наименее информативным» априорным значением по отношению к X. Ссылочный априор определяется в асимптотическом пределе, т. е. рассматривается предел априорных значений, полученных таким образом, когда количество точек данных стремится к бесконечности. . В данном случае расхождение КЛ между априорным и апостериорным распределениями определяется выражением

Вот достаточная статистика по какому-то параметру . Внутренний интеграл - это расхождение KL между апостериорным и априорным распределениями, а результат - это средневзвешенное значение по всем значениям . Разделив логарифм на две части, изменив порядок интегралов во второй части и отметив, что это не зависит от урожайности

Внутренний интеграл во второй части - это интеграл от плотности соединения . Это предельное распределение , поэтому мы имеем

Теперь мы используем понятие энтропии, которая в случае вероятностных распределений представляет собой отрицательное математическое ожидание логарифма вероятностной массы или функции плотности. Использование этого в последнем уравнении дает

Другими словами, KL - это отрицательное ожидаемое значение энтропии условного on плюс предельная (то есть безусловная) энтропия . В предельном случае, когда размер выборки стремится к бесконечности, теорема Бернштейна-фон Мизеса утверждает, что распределение условных условий при данном наблюдаемом значении является нормальным с дисперсией, равной обратной величине информации Фишера при `` истинном '' значении . Энтропия нормальной функции плотности равна половине логарифма где - дисперсия распределения. Следовательно, в этом случае где - произвольно большой размер выборки (которому пропорциональна информация Фишера) иявляется «истинным» значением. Поскольку это не зависит от него, его можно вынуть из интеграла, и, поскольку этот интеграл по вероятностному пространству, он равен единице. Следовательно, мы можем записать асимптотику KL в виде

где пропорционально (асимптотически большому) размеру выборки. Мы не знаем ценности . Действительно, сама идея противоречит философии байесовского вывода, в котором «истинные» значения параметров заменяются априорным и апостериорным распределениями. Итак, мы удалим , заменив его на и взяв ожидаемое значение нормальной энтропии, которое мы получаем умножением на и интегрированием по . Это позволяет нам объединить логарифмы, давая

Это квази-KL-дивергенция («квази» в том смысле, что квадратный корень из информации Фишера может быть ядром неправильного распределения). Из-за знака минус нам нужно минимизировать это, чтобы максимизировать расхождение KL, с которого мы начали. Минимальное значение последнего уравнения возникает там, где два распределения логарифмического аргумента, неправильные или нет, не расходятся. Это, в свою очередь, происходит, когда априорное распределение пропорционально квадратному корню из информации Фишера функции правдоподобия. Следовательно, в случае с одним параметром, ссылочные априорные значения и априорные значения Джеффриса идентичны, хотя у Джеффриса есть совсем другое обоснование.

Справочные априорные значения часто являются объективным априорным выбором в многомерных задачах, поскольку другие правила (например, правило Джеффриса ) могут привести к априорным решениям с проблемным поведением. [ требуется уточнение . Априор Джеффриса связан с расхождением в KL? ]

Объективные априорные распределения также могут быть получены из других принципов, таких как теория информации или кодирования (см., Например, минимальная длина описания ) или частотная статистика (см. Частотное сопоставление ). Такие методы используются в теории индуктивного вывода Соломонова . Построение объективных априорных значений было недавно введено в биоинформатику и, в частности, в биологию онкологических систем, где размер выборки ограничен и доступно огромное количество априорных знаний . В этих методах используется либо критерий, основанный на теории информации, такой как дивергенция KL, либо функция логарифмического правдоподобия для двоичных задач обучения с учителем [3]и проблемы модели смеси. [4]

Философские проблемы, связанные с неинформативными априорными значениями, связаны с выбором подходящей метрики или шкалы измерения. Предположим, мы хотим получить априор для скорости бега неизвестного нам бегуна. Мы могли бы указать, скажем, нормальное распределение как априор для его скорости, но в качестве альтернативы мы могли бы указать нормальное априорное время для времени, которое ему требуется для прохождения 100 метров, которое пропорционально обратной величине первой априорной скорости. Это очень разные приоры, но не ясно, какой из них предпочесть. Джейнс часто забывают [ кем? ] метод групп преобразований может ответить на этот вопрос в некоторых ситуациях. [5]

Точно так же, если бы нас попросили оценить неизвестную пропорцию между 0 и 1, мы могли бы сказать, что все пропорции равновероятны, и использовать единый априор. В качестве альтернативы мы могли бы сказать, что все порядки величины пропорции равновероятны, логарифмическая априорная величина , которая является единообразной априорной величиной логарифма пропорции. В предыдущей Jeffreys попытки решить эту проблему путем вычисления предшествующего уровня , который не выражает то же убеждение , независимо от того , который метрики используются. Априор Джеффриса для неизвестной пропорции p равен p −1/2 (1 -  p ) −1/2 , что отличается от рекомендации Джейнса.

Априорные значения, основанные на понятиях алгоритмической вероятности , используются в индуктивном выводе в качестве основы для индукции в очень общих условиях.

Практические проблемы, связанные с неинформативными априорными числами, включают требование правильности апостериорного распределения. Обычные неинформативные априоры для непрерывных неограниченных переменных неуместны. Это не должно быть проблемой, если апостериорное распределение правильное. Еще одна важная проблема заключается в том, что если неинформативный априор будет использоваться регулярно , т. Е. С множеством различных наборов данных, он должен иметь хорошие частотные свойства. Обычно байесовец не занимается такими вопросами, но в данной ситуации это может быть важно. Например, нужно, чтобы любое решающее правило, основанное на апостериорном распределении, было допустимым.при принятой функции потерь. К сожалению, часто бывает трудно проверить допустимость, хотя некоторые результаты известны (например, Berger and Strawderman 1996). Проблема особенно остро стоит в случае иерархических байесовских моделей ; обычные априорные решения (например, априор Джеффриса) могут давать крайне недопустимые правила принятия решений, если они используются на более высоких уровнях иерархии.

Неправильные априори [ править ]

Пусть события будут взаимоисключающими и исчерпывающими. Если теорема Байеса записана как

тогда ясно, что тот же результат был бы получен, если бы все априорные вероятности P ( A i ) и P ( A j ) были умножены на заданную константу; то же самое было бы верно для непрерывной случайной величины . Если суммирование в знаменателе сходится, апостериорные вероятности все равно будут суммироваться (или интегрироваться) до 1, даже если предыдущие значения этого не делают, и поэтому априорные вероятности могут быть указаны только в правильной пропорции. Продолжая эту идею, во многих случаях сумма или интеграл априорных значений может даже не быть конечной, чтобы получить разумные ответы для апостериорных вероятностей. В этом случае априор называется неправильным априорным.. Однако апостериорное распределение не обязательно должно быть правильным, если апостериорное распределение неверно. Это ясно из случая, когда событие B не зависит от всех A j .

Статистики иногда [6] используют неправильные априорные числа как неинформативные . Например, если им нужно предварительное распределение для среднего и дисперсии случайной величины, они могут принять p ( mv ) ~ 1 / v (для v  > 0), что предполагает, что любое значение для среднего равно «равно вероятно »и что значение положительной дисперсии становится« менее вероятным »обратно пропорционально его значению. Многие авторы (Линдли, 1973; Де Гроот, 1937; Касс и Вассерман, 1996) [ необходима ссылка ]предостеречь от опасности чрезмерной интерпретации этих априорных значений, поскольку они не являются плотностями вероятностей. Единственная релевантность, которую они имеют, - это соответствующая апостериорная оценка, если она четко определена для всех наблюдений. ( Пример Холдейна - типичный контрпример. [ Требуется пояснение ] [ необходима цитата ] )

Напротив, функции правдоподобия не нужно интегрировать, а функция правдоподобия, равная единице, соответствует отсутствию данных (все модели равновероятны при отсутствии данных): правило Байеса умножает априорное значение на вероятность, и пустой продукт - это просто постоянная вероятность 1. Однако, не начав с априорного распределения вероятностей, нельзя получить апостериорное распределение вероятностей и, таким образом, невозможно интегрировать или вычислить ожидаемые значения или потери. См. Раздел " Функция правдоподобия" § Неинтегрируемость .

Примеры [ править ]

Примеры неправильных априорных порядков включают:

  • Равномерное распределение на бесконечном интервале (т.е. полуось или вся реальная линия).
  • Бета (0,0), бета-распределение для α = 0, β = 0 (равномерное распределение по логарифмической шкале шансов ).
  • Логарифмический априор положительных вещественных чисел (равномерное распределение по логарифмической шкале ). [ необходима цитата ]

Обратите внимание, что эти функции, интерпретируемые как равномерные распределения, также могут интерпретироваться как функция правдоподобия при отсутствии данных, но не являются собственно априорными.

Примечания [ править ]

  1. ^ Карлин, Брэдли П .; Луи, Томас А. (2008). Байесовские методы анализа данных (Третье изд.). CRC Press. ISBN 9781584886983.
  2. ^ Этот априор был предложен Дж. Б. С. Холдейном в «Примечании об обратной вероятности», Mathematical Proceedings of the Cambridge Philosophical Society 28, 55–61, 1932, DOI : 10.1017 / S0305004100010495 . Смотрите также Дж Халдейн, "Точность наблюдаемых значений частот малых", Biometrika, 35: 297-300, 1948, DOI : 10,2307 / 2332350 , JSTOR  2332350 .
  3. ^ Исфахани, MS; Догерти, ER (2014). «Включение знаний о биологическом пути в построение априорных значений для оптимальной байесовской классификации - журналы и журнал IEEE». Протоколы IEEE / ACM по вычислительной биологии и биоинформатике . 11 (1): 202–18. DOI : 10.1109 / TCBB.2013.143 . PMID 26355519 . 
  4. ^ Boluki Шахин; Исфахани, Мохаммад Шахрох; Цянь, Сяонин; Догерти, Эдвард Р. (декабрь 2017 г.). «Включение биологических предшествующих знаний для байесовского обучения через максимальные информационные априоры, основанные на знаниях» . BMC Bioinformatics . 18 (S14): 552. DOI : 10,1186 / s12859-017-1893-4 . ISSN 1471-2105 . PMC 5751802 . PMID 29297278 .   
  5. ^ Jaynes (1968), стр. 17, см. Также Jaynes (2003), глава 12. Обратите внимание, что глава 12 недоступна в онлайн-препринте, но ее можно предварительно просмотреть в Google Книгах.
  6. ^ Кристенсен, Рональд; Джонсон, Уэсли; Бранскум, Адам; Хэнсон, Тимоти Э. (2010). Байесовские идеи и анализ данных: введение для ученых и статистиков . Хобокен: CRC Press. п. 69. ISBN 9781439894798.

Ссылки [ править ]

  • Рубин, Дональд Б .; Гельман, Андрей ; Джон Б. Карлин; Стерн, Хэл (2003). Байесовский анализ данных (2-е изд.). Бока-Ратон: Чепмен и Холл / CRC. ISBN 978-1-58488-388-3. Руководство по ремонту  2027492 .
  • Бергер, Джеймс О. (1985). Статистическая теория принятия решений и байесовский анализ . Берлин: Springer-Verlag. ISBN 978-0-387-96098-2. Руководство по ремонту  0804611 .
  • Бергер, Джеймс О .; Strawderman, Уильям Э. (1996). «Выбор иерархических приоритетов: допустимость в оценке нормальных средств» . Анналы статистики . 24 (3): 931–951. DOI : 10.1214 / AOS / 1032526950 . Руководство по ремонту  1401831 . Zbl  0865.62004 .
  • Бернардо, Хосе М. (1979). «Справочные апостериорные распределения для байесовского вывода». Журнал Королевского статистического общества, Series B . 41 (2): 113–147. JSTOR  2985028 . Руководство по ремонту  0547240 .
  • Джеймс О. Бергер ; Хосе М. Бернардо ; Дунчу Сунь (2009). «Формальное определение ссылочных априорных точек». Анналы статистики . 37 (2): 905–938. arXiv : 0904.0156 . Bibcode : 2009arXiv0904.0156B . DOI : 10.1214 / 07-AOS587 .
  • Джейнс, Эдвин Т. (сентябрь 1968 г.). «Априорные вероятности» (PDF) . IEEE Transactions по системной науке и кибернетике . 4 (3): 227–241. DOI : 10.1109 / TSSC.1968.300117 . Проверено 27 марта 2009 .
    • Перепечатано в Rosenkrantz, Roger D. (1989). ET Jaynes: статьи по вероятности, статистике и статистической физике . Бостон: Kluwer Academic Publishers. С. 116–130. ISBN 978-90-277-1448-0.
  • Джейнс, Эдвин Т. (2003). Теория вероятностей: логика науки . Издательство Кембриджского университета. ISBN 978-0-521-59271-0.
  • Уильямсон, Джон (2010). "Обзор Бруно ди Финетти. Философские лекции о вероятности" (PDF) . Philosophia Mathematica . 18 (1): 130–135. DOI : 10.1093 / philmat / nkp019 . Архивировано из оригинального (PDF) 09.06.2011 . Проверено 2 июля 2010 .