Байесовский информационный критерий

Байесовская статистика
Часть серии по

Теория
Допустимое правило принятия решения Байесовская эффективность Байесовская эпистемология Байесовская вероятность Вероятностные интерпретации Теорема Байеса Байесовский фактор Байесовский вывод Байесовская сеть Прежний Задний Вероятность Конъюгировать приор Задний прогностический Гиперпараметр Hyperprior Принцип безразличия Принцип максимальной энтропии Эмпирический метод Байеса Правило Кромвеля Теорема Бернштейна – фон Мизеса Критерий Шварца Достоверный интервал Максимальная апостериорная оценка Радикальный вероятности
Методы
Байесовская линейная регрессия Байесовская оценка Приближенное байесовское вычисление Цепь Маркова Монте-Карло
Математический портал
v т е

В статистике , то байесовский информационный критерий ( BIC ) или информационный критерий Шварца (также SIC , SBC , SBIC ) является критерием для выбора модели среди конечного множества моделей; модель с самым низким BIC является предпочтительной. Частично он основан на функции правдоподобия и тесно связан с информационным критерием Акаике (AIC).

При подгонке моделей можно увеличить вероятность, добавив параметры, но это может привести к переобучению . И BIC, и AIC пытаются решить эту проблему, вводя штрафной член для количества параметров в модели; срок штрафа в BIC больше, чем в AIC.

BIC был разработан Гидеоном Э. Шварцем и опубликован в статье 1978 года ^[1], где он привел байесовский аргумент в пользу его принятия.

Определение [ править ]

BIC формально определяется как ^[2]^[a]

{\ displaystyle \ mathrm {BIC} = k \ ln (n) -2 \ ln ({\ widehat {L}}). \}

где

${\ displaystyle {\ hat {L}}}$ = максимальное значение функции правдоподобия модели , т. е. где - значения параметров, которые максимизируют функцию правдоподобия; ${\ displaystyle M}$ ${\ displaystyle {\ hat {L}} = p (x \ mid {\ widehat {\ theta}}, M)}$ ${\ displaystyle {\ widehat {\ theta}}}$
${\ displaystyle x}$ = наблюдаемые данные;
${\ displaystyle n}$ = количество точек данных , количество наблюдений или, что эквивалентно, размер выборки; ${\ displaystyle x}$
${\ displaystyle k}$ = количество параметров, оцененных моделью. Например, при множественной линейной регрессии оцениваемыми параметрами являются точка пересечения, параметры наклона и постоянная дисперсия ошибок; Таким образом, . ${\ displaystyle q}$ ${\ Displaystyle к = д + 2}$

Кониси и Китагава ^[4]^{: 217} выводят BIC для аппроксимации распределения данных, интегрируя параметры, используя метод Лапласа , начиная со следующего модельного доказательства :

{\ Displaystyle п (х \ середина М) = \ инт р (х \ середина \ тета, М) \ пи (\ тета \ середина М) \, д \ тета}

где априор для подмодели . ${\ Displaystyle \ пи (\ тета \ середина М)}$ ${\ displaystyle \ theta}$ ${\ displaystyle M}$

Журнал (вероятность), , затем расширяется до второго порядка рядов Тейлора о MLE , , предполагая , что дважды дифференцируема следующим образом : ${\ Displaystyle \ пер (п (х | \ тета, М))}$ ${\ displaystyle {\ widehat {\ theta}}}$

\ln(p(x\mid \theta ,M))=\ln({\widehat {L}})-0.5(\theta -{\widehat {\theta }})'n{\mathcal {I}}(\theta )(\theta -{\widehat {\theta }})+R(x,\theta ),

где - средняя наблюдаемая информация для каждого наблюдения , а штрих ( ) обозначает транспонирование вектора . В той степени, в которой это незначительно и относительно линейно близко , мы можем интегрировать, чтобы получить следующее: ${\mathcal {I}}(\theta )$ $'$ $(\theta -{\widehat {\theta }})$ $R(x,\theta )$ $\pi (\theta \mid M)$ ${\widehat {\theta }}$ $\theta$

p(x\mid M)\approx {\hat {L}}(2\pi /n)^{k/2}|{\mathcal {I}}({\widehat {\theta }})|^{-1/2}\pi ({\widehat {\theta }})

По мере увеличения можно игнорировать и как они есть . Таким образом, $n$ $|{\mathcal {I}}({\widehat {\theta }})|$ $\pi ({\widehat {\theta }})$ O ( 1 ) {\displaystyle O(1)}

p(x\mid M)=\exp\{\ln {\widehat {L}}-(k/2)\ln(n)+O(1)\}=\exp(-\mathrm {BIC} /2+O(1)),

где BIC определен, как указано выше, и либо (a) - байесовский апостериорный режим, либо (b) использует MLE, а предшествующий имеет ненулевой наклон в MLE. Затем задняя ${\widehat {L}}$ $\pi (\theta \mid M)$

p(M\mid x)\propto p(x\mid M)p(M)\approx \exp(-\mathrm {BIC} /2)p(M)

Свойства [ править ]

Этот раздел требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален. ( Ноябрь 2011 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Это не зависит от приора.
Он может измерить эффективность параметризованной модели с точки зрения прогнозирования данных.
Он штрафует сложность модели, где сложность относится к количеству параметров в модели.
Это примерно равно критерию минимальной длины описания, но с отрицательным знаком.
Его можно использовать для выбора количества кластеров в соответствии с внутренней сложностью, присутствующей в конкретном наборе данных.
Он тесно связан с другими оштрафованными критериями правдоподобия , такими как критерий информации девиантности и информационный критерий Акаика .

Ограничения [ править ]

BIC страдает двумя основными ограничениями ^[5]

Приведенное выше приближение справедливо только для размера выборки, намного превышающего количество параметров в модели. $n$ $k$
BIC не может обрабатывать сложные коллекции моделей, как в задаче выбора переменных (или выбора функций ) в большой размерности. ^[5]

Особый случай Гаусса [ править ]

При предположении, что ошибки модели или возмущения независимы и одинаково распределены в соответствии с нормальным распределением и что граничное условие, заключающееся в том, что производная логарифмической вероятности относительно истинной дисперсии равна нулю, становится (с точностью до аддитивной константы , которая зависит только от n, а не от модели): ^[6]

\mathrm {BIC} =n\ln({\widehat {\sigma _{e}^{2}}})+k\ln(n)\

где - дисперсия ошибки. Дисперсия ошибки в этом случае определяется как ${\widehat {\sigma _{e}^{2}}}$

{\widehat {\sigma _{e}^{2}}}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\widehat {x_{i}}})^{2}.

что является смещенной оценкой истинной дисперсии .

В терминах остаточной суммы квадратов (RSS) BIC равен

\mathrm {BIC} =n\ln(RSS/n)+k\ln(n)\

При тестировании нескольких линейных моделей по сравнению с насыщенной моделью, BIC можно переписать с точки зрения отклонения как: ^[7] $\chi ^{2}$

\mathrm {BIC} =\chi ^{2}+k\ln(n)

где - количество параметров модели в тесте. $k$

При выборе из нескольких моделей предпочтительнее модель с наименьшим BIC. BIC является возрастающей функцией дисперсии ошибки и возрастающей функцией k . То есть необъяснимые вариации зависимой переменной и количества независимых переменных увеличивают значение BIC. Следовательно, более низкий BIC означает либо меньшее количество независимых переменных, либо лучшее соответствие, либо и то, и другое. Сила доказательств против модели с более высоким значением BIC можно резюмировать следующим образом: ^[7] $\sigma _{e}^{2}$

ΔBIC	Доказательства против более высокого BIC
От 0 до 2	Не стоит больше упоминания
От 2 до 6	Положительный
От 6 до 10	Сильный
> 10	Очень сильный

BIC обычно наказывает свободные параметры сильнее, чем информационный критерий Акаике , хотя это зависит от размера n и относительной величины n и k .

Важно помнить, что BIC можно использовать для сравнения оцениваемых моделей только в том случае, если числовые значения зависимой переменной ^[b] идентичны для всех сравниваемых моделей. Сравниваемые модели не обязательно должны быть вложенными , в отличие от случая, когда модели сравниваются с использованием F-теста или теста отношения правдоподобия . ^{[ необходима цитата ]}

См. Также [ править ]

Информационный критерий Акаике
Сравнение байесовских моделей
Информационный критерий отклонения
Информационный критерий Ханнана – Куинна
Расхождение Дженсена – Шеннона
Дивергенция Кульбака – Лейблера.
Минимальная длина сообщения

Заметки [ править ]

^ AIC, AICc и BIC, определенные Клаескенсом и Хьортом^[3], являются отрицанием тех, что определены в этой статье и в большинстве других стандартных ссылок.
^ Зависимая переменная также называется переменной ответа или переменной результата . См. Регрессионный анализ .

Ссылки [ править ]

^ Шварц, Гедеон Е. (1978), "Оценка размерности модели", Анналы статистики , 6 (2): 461-464, DOI : 10,1214 / AOS / 1176344136 , МР 0468014.
^ Вит, Эрнст; Эдвин ван ден Хеувел; Ян-Виллем Ромейн (2012). « « Все модели неверны ... »: введение в неопределенность модели» (PDF) . Statistica Neerlandica . 66 (3): 217–236. DOI : 10.1111 / j.1467-9574.2012.00530.x .
^ Claeskens, Г .; Хьорт, Н. Л. (2008), Выбор модели и усреднение модели , Cambridge University Press
↑ Кониси, Саданори; Китагава, Генширо (2008). Информационные критерии и статистическое моделирование . Springer. ISBN 978-0-387-71886-6.
^ a b Жиро, К. (2015). Введение в многомерную статистику . Чепмен и Холл / CRC. ISBN 9781482237948.
^ Пристли, МБ (1981). Спектральный анализ и временные ряды . Академическая пресса . ISBN 978-0-12-564922-3. (с. 375).
^ а б Касс, Роберт Э .; Рэфтери, Адриан Е. (1995), "Байеса факторы", журнал Американской ассоциации по статистике , 90 (430): 773-795, DOI : 10,2307 / 2291091 , ISSN 0162-1459 , JSTOR 2291091 .

Дальнейшее чтение [ править ]

Бхат, HS; Кумар, Н. (2010). «О выводе байесовского информационного критерия» (PDF) . Архивировано из оригинального (PDF) 28 марта 2012 года. Cite journal requires |journal= (help)
Финдли, Д. Ф. (1991). «Контрпримеры к бережливости и БИК». Летопись Института статистической математики . 43 (3): 505–514. DOI : 10.1007 / BF00053369 .
Касс, RE; Вассерман, Л. (1995). «Эталонный байесовский тест для вложенных гипотез и его связь с критерием Шварца». Журнал Американской статистической ассоциации . 90 (431): 928–934. DOI : 10.2307 / 2291327 . JSTOR 2291327 .
Лиддл, АР (2007). «Информационные критерии выбора астрофизической модели». Ежемесячные уведомления Королевского астрономического общества . 377 (1): L74 – L78. arXiv : astro-ph / 0701113 . Bibcode : 2007MNRAS.377L..74L . DOI : 10.1111 / j.1745-3933.2007.00306.x .
McQuarrie, ADR; Цай, К.-Л. (1998). Выбор модели регрессии и временных рядов . World Scientific .

Внешние ссылки [ править ]

Информационные критерии и выбор модели
Моделирование с разреженной векторной авторегрессией

[4] AIC, AICc и BIC, определенные Клаескенсом и Хьортом^[3], являются отрицанием тех, что определены в этой статье и в большинстве других стандартных ссылок.

[9] Зависимая переменная также называется переменной ответа или переменной результата . См. Регрессионный анализ .

[1] Шварц, Гедеон Е. (1978), "Оценка размерности модели", Анналы статистики , 6 (2): 461-464, DOI : 10,1214 / AOS / 1176344136 , МР 0468014.

[2] Вит, Эрнст; Эдвин ван ден Хеувел; Ян-Виллем Ромейн (2012). « « Все модели неверны ... »: введение в неопределенность модели» (PDF) . Statistica Neerlandica . 66 (3): 217–236. DOI : 10.1111 / j.1467-9574.2012.00530.x .

[3] Claeskens, Г .; Хьорт, Н. Л. (2008), Выбор модели и усреднение модели , Cambridge University Press

[5] Кониси, Саданори; Китагава, Генширо (2008). Информационные критерии и статистическое моделирование . Springer. ISBN 978-0-387-71886-6.

[Giraud-6] Жиро, К. (2015). Введение в многомерную статистику . Чепмен и Холл / CRC. ISBN 9781482237948.

[Priestley-7] Пристли, МБ (1981). Спектральный анализ и временные ряды . Академическая пресса . ISBN 978-0-12-564922-3. (с. 375).

[Raftery1995-8] а б Касс, Роберт Э .; Рэфтери, Адриан Е. (1995), "Байеса факторы", журнал Американской ассоциации по статистике , 90 (430): 773-795, DOI : 10,2307 / 2291091 , ISSN 0162-1459 , JSTOR 2291091 .

[1],