Информационный критерий отклонения

Информационный критерий девиации ( ДВС - синдром ) представляет собой иерархическое моделирование обобщение информационного критерия Акаика (АИК). Это особенно полезно в байесовской выбора модели задач , где задние распределения этих моделей были получены с помощью цепи Маркова Монте - Карло моделирования (MCMC). DIC - это асимптотическое приближение по мере увеличения размера выборки, как и AIC. Это справедливо только тогда, когда апостериорное распределение является приблизительно многомерным нормальным .

Определение [ править ]

Определение девиантности как , где находятся данные, неизвестные параметры модели и является функцией правдоподобия . - это константа, которая сокращается во всех вычислениях, сравнивающих разные модели, и поэтому ее не нужно знать. ${\ Displaystyle D (\ theta) = - 2 \ журнал (p (y | \ theta)) + C \,}$ ${\ displaystyle y}$ ${\ displaystyle \ theta}$ ${\ Displaystyle р (у | \ тета)}$ ${\ displaystyle C}$

Обычно используются два расчета эффективного числа параметров модели. Первый, как описано в Spiegelhalter et al. (2002 , с. 587) , где находится ожидание . Второй, как описано у Gelman et al. (2004 , с. 182), есть . Чем больше эффективное количество параметров, тем легче модели подобрать данные, и поэтому отклонение необходимо штрафовать. ${\ displaystyle p_ {D} = {\ overline {D (\ theta)}} - D ({\ bar {\ theta}})}$ ${\ displaystyle {\ bar {\ theta}}}$ ${\ displaystyle \ theta}$ ${\ displaystyle p_ {D} = p_ {V} = {\ frac {1} {2}} {\ overline {\ operatorname {var} \ left (D (\ theta) \ right)}}}$

Информационный критерий отклонения рассчитывается как

\mathrm {DIC} =p_{D}+{\overline {D(\theta )}},

или эквивалентно как

\mathrm {DIC} =D({\bar {\theta }})+2p_{D}.

Из этой последней формы более очевидна связь с AIC.

Мотивация [ править ]

Идея состоит в том, что модели с меньшим DIC следует предпочесть моделям с большим DIC. Модели наказываются как значением , которое способствует хорошей подгонке, так и (аналогично AIC) эффективным количеством параметров . Поскольку будет уменьшаться по мере увеличения количества параметров в модели, этот член компенсирует этот эффект, отдавая предпочтение моделям с меньшим количеством параметров. ${\bar {D}}$ $p_{D}$ ${\bar {D}}$ $p_{D}$

Преимущество DIC по сравнению с другими критериями в случае выбора байесовской модели состоит в том, что DIC легко вычисляется из выборок, сгенерированных симуляцией цепи Маркова методом Монте-Карло. AIC требует вычисления максимального правдоподобия , которое не всегда доступно при моделировании MCMC. Но чтобы вычислить DIC, просто вычислите как среднее значение по выборкам , и как значение, оцененное как среднее значение выборок . Тогда ДИК следует непосредственно из этих приближений. Клаескенс и Хьорт (2008, гл. 3.5) показывают, что DIC эквивалентен для большой выборки естественной модельно-устойчивой версии AIC. $\theta$ ${\bar {D}}$ $D(\theta )$ $\theta$ $D({\bar {\theta }})$ $D$ $\theta$

Предположения [ править ]

При выводе DIC предполагается, что указанное параметрическое семейство вероятностных распределений, которые генерируют будущие наблюдения, включает истинную модель. Это предположение не всегда выполняется, и в этом сценарии желательно рассмотреть процедуры оценки модели.

Кроме того, наблюдаемые данные используются как для построения апостериорного распределения, так и для оценки оцененных моделей. Поэтому DIC склонен выбирать модели с избыточным подогревом .

Расширения [ править ]

Решение вышеуказанных проблем было предложено Ando (2007) с предложением байесовского критерия прогнозирующей информации (BPIC). Андо (2010, гл. 8) представил обсуждение различных критериев выбора байесовской модели. Чтобы избежать чрезмерных проблем DIC, Андо (2011) разработал критерии выбора байесовской модели с точки зрения прогнозирования. Критерий рассчитывается как

{\mathit {IC}}={\bar {D}}+2p_{D}=-2\mathbf {E} ^{\theta }[\log(p(y|\theta ))]+2p_{D}.

Первый член - это мера того, насколько хорошо модель соответствует данным, а второй член - это штраф за сложность модели. Обратите внимание, что $p$ в этом выражении - это прогнозируемое распределение, а не вероятность, указанная выше.

См. Также [ править ]

Ссылки [ править ]

Андо, Томохиро (2007). «Байесовский критерий предсказательной информации для оценки иерархических байесовских и эмпирических байесовских моделей». Биометрика . 94 (2): 443–458. DOI : 10.1093 / Biomet / asm017 .CS1 maint: ref=harv (link)
Андо, Т. (2010). Выбор байесовской модели и статистическое моделирование , CRC Press. Глава 7.
Андо, Томохиро (2011). «Прогнозирующий выбор байесовской модели» . Американский журнал математических и управленческих наук . 31 (1–2): 13–38. DOI : 10.1080 / 01966324.2011.10737798 . S2CID 123680697 .CS1 maint: ref=harv (link)
Клаескенс, Дж. , И Хьорт, Н. Л. (2008). Выбор модели и усреднение модели , Кембридж. Раздел 3.5.
Гельман, Андрей ; Карлин, Джон Б.; Стерн, Хэл С .; Рубин, Дональд Б. (2004). Байесовский анализ данных: второе издание . Тексты в статистической науке. CRC Press . ISBN 978-1-58488-388-3. LCCN 2003051474 . Руководство по ремонту 2027492 .CS1 maint: ref=harv (link)
ван дер Линде, А. (2005). «DIC в выборке переменных», Statistica Neerlandica , 59: 45-56. DOI: 10.1111 / j.1467-9574.2005.00278.x
Шпигельхальтер, Дэвид Дж .; Бест, Никола Г .; Карлин, Брэдли П.; ван дер Линде, Анжелика (2002). «Байесовские меры сложности модели и соответствия (с обсуждением)» . Журнал Королевского статистического общества, Series B . 64 (4): 583–639. DOI : 10.1111 / 1467-9868.00353 . JSTOR 3088806 . MR 1979380 .CS1 maint: ref=harv (link)
Шпигельхальтер, Дэвид Дж .; Бест, Никола Г .; Карлин, Брэдли П.; ван дер Линде, Анжелика (2014). «Критерий отклонения информации: 12 лет спустя (с обсуждением)». Журнал Королевского статистического общества, Series B . 76 (3): 485–493. DOI : 10.1111 / rssb.12062 .CS1 maint: ref=harv (link)

Внешние ссылки [ править ]

Макэлрит, Ричард (29 января 2015 г.). «Статистическое переосмысление, лекция 8 (по DIC и другим информационным критериям)» - через YouTube .