В статистике , то байесовский информационный критерий ( BIC ) или информационный критерий Шварца (также SIC , SBC , SBIC ) является критерием для выбора модели среди конечного множества моделей; модель с самым низким BIC является предпочтительной. Частично он основан на функции правдоподобия и тесно связан с информационным критерием Акаике (AIC).
При подгонке моделей можно увеличить вероятность, добавив параметры, но это может привести к переобучению . И BIC, и AIC пытаются решить эту проблему, вводя штрафной член для количества параметров в модели; срок штрафа в BIC больше, чем в AIC.
BIC был разработан Гидеоном Э. Шварцем и опубликован в статье 1978 года [1], где он привел байесовский аргумент в пользу его принятия.
Определение [ править ]
BIC формально определяется как [2] [a]
где
- = максимальное значение функции правдоподобия модели , т. е. где - значения параметров, которые максимизируют функцию правдоподобия;
- = наблюдаемые данные;
- = количество точек данных , количество наблюдений или, что эквивалентно, размер выборки;
- = количество параметров, оцененных моделью. Например, при множественной линейной регрессии оцениваемыми параметрами являются точка пересечения, параметры наклона и постоянная дисперсия ошибок; Таким образом, .
Кониси и Китагава [4] : 217 выводят BIC для аппроксимации распределения данных, интегрируя параметры, используя метод Лапласа , начиная со следующего модельного доказательства :
где априор для подмодели .
Журнал (вероятность), , затем расширяется до второго порядка рядов Тейлора о MLE , , предполагая , что дважды дифференцируема следующим образом :
где - средняя наблюдаемая информация для каждого наблюдения , а штрих ( ) обозначает транспонирование вектора . В той степени, в которой это незначительно и относительно линейно близко , мы можем интегрировать, чтобы получить следующее:
По мере увеличения можно игнорировать и как они есть . Таким образом, O ( 1 ) {\displaystyle O(1)}
где BIC определен, как указано выше, и либо (a) - байесовский апостериорный режим, либо (b) использует MLE, а предшествующий имеет ненулевой наклон в MLE. Затем задняя
Свойства [ править ]
Этот раздел требует дополнительных ссылок для проверки . Ноябрь 2011 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) ( |
- Это не зависит от приора.
- Он может измерить эффективность параметризованной модели с точки зрения прогнозирования данных.
- Он штрафует сложность модели, где сложность относится к количеству параметров в модели.
- Это примерно равно критерию минимальной длины описания, но с отрицательным знаком.
- Его можно использовать для выбора количества кластеров в соответствии с внутренней сложностью, присутствующей в конкретном наборе данных.
- Он тесно связан с другими оштрафованными критериями правдоподобия , такими как критерий информации девиантности и информационный критерий Акаика .
Ограничения [ править ]
BIC страдает двумя основными ограничениями [5]
- Приведенное выше приближение справедливо только для размера выборки, намного превышающего количество параметров в модели.
- BIC не может обрабатывать сложные коллекции моделей, как в задаче выбора переменных (или выбора функций ) в большой размерности. [5]
Особый случай Гаусса [ править ]
При предположении, что ошибки модели или возмущения независимы и одинаково распределены в соответствии с нормальным распределением и что граничное условие, заключающееся в том, что производная логарифмической вероятности относительно истинной дисперсии равна нулю, становится (с точностью до аддитивной константы , которая зависит только от n, а не от модели): [6]
где - дисперсия ошибки. Дисперсия ошибки в этом случае определяется как
что является смещенной оценкой истинной дисперсии .
В терминах остаточной суммы квадратов (RSS) BIC равен
При тестировании нескольких линейных моделей по сравнению с насыщенной моделью, BIC можно переписать с точки зрения отклонения как: [7]
где - количество параметров модели в тесте.
При выборе из нескольких моделей предпочтительнее модель с наименьшим BIC. BIC является возрастающей функцией дисперсии ошибки и возрастающей функцией k . То есть необъяснимые вариации зависимой переменной и количества независимых переменных увеличивают значение BIC. Следовательно, более низкий BIC означает либо меньшее количество независимых переменных, либо лучшее соответствие, либо и то, и другое. Сила доказательств против модели с более высоким значением BIC можно резюмировать следующим образом: [7]
ΔBIC | Доказательства против более высокого BIC |
---|---|
От 0 до 2 | Не стоит больше упоминания |
От 2 до 6 | Положительный |
От 6 до 10 | Сильный |
> 10 | Очень сильный |
BIC обычно наказывает свободные параметры сильнее, чем информационный критерий Акаике , хотя это зависит от размера n и относительной величины n и k .
Важно помнить, что BIC можно использовать для сравнения оцениваемых моделей только в том случае, если числовые значения зависимой переменной [b] идентичны для всех сравниваемых моделей. Сравниваемые модели не обязательно должны быть вложенными , в отличие от случая, когда модели сравниваются с использованием F-теста или теста отношения правдоподобия . [ необходима цитата ]
См. Также [ править ]
- Информационный критерий Акаике
- Сравнение байесовских моделей
- Информационный критерий отклонения
- Информационный критерий Ханнана – Куинна
- Расхождение Дженсена – Шеннона
- Дивергенция Кульбака – Лейблера.
- Минимальная длина сообщения
Заметки [ править ]
- ^ AIC, AICc и BIC, определенные Клаескенсом и Хьортом [3], являются отрицанием тех, что определены в этой статье и в большинстве других стандартных ссылок.
- ^ Зависимая переменная также называется переменной ответа или переменной результата . См. Регрессионный анализ .
Ссылки [ править ]
- ^ Шварц, Гедеон Е. (1978), "Оценка размерности модели", Анналы статистики , 6 (2): 461-464, DOI : 10,1214 / AOS / 1176344136 , МР 0468014.
- ^ Вит, Эрнст; Эдвин ван ден Хеувел; Ян-Виллем Ромейн (2012). « « Все модели неверны ... »: введение в неопределенность модели» (PDF) . Statistica Neerlandica . 66 (3): 217–236. DOI : 10.1111 / j.1467-9574.2012.00530.x .
- ^ Claeskens, Г .; Хьорт, Н. Л. (2008), Выбор модели и усреднение модели , Cambridge University Press
- ↑ Кониси, Саданори; Китагава, Генширо (2008). Информационные критерии и статистическое моделирование . Springer. ISBN 978-0-387-71886-6.
- ^ a b Жиро, К. (2015). Введение в многомерную статистику . Чепмен и Холл / CRC. ISBN 9781482237948.
- ^ Пристли, МБ (1981). Спектральный анализ и временные ряды . Академическая пресса . ISBN 978-0-12-564922-3. (с. 375).
- ^ а б Касс, Роберт Э .; Рэфтери, Адриан Е. (1995), "Байеса факторы", журнал Американской ассоциации по статистике , 90 (430): 773-795, DOI : 10,2307 / 2291091 , ISSN 0162-1459 , JSTOR 2291091 .
Дальнейшее чтение [ править ]
- Бхат, HS; Кумар, Н. (2010). «О выводе байесовского информационного критерия» (PDF) . Архивировано из оригинального (PDF) 28 марта 2012 года. Cite journal requires
|journal=
(help) - Финдли, Д. Ф. (1991). «Контрпримеры к бережливости и БИК». Летопись Института статистической математики . 43 (3): 505–514. DOI : 10.1007 / BF00053369 .
- Касс, RE; Вассерман, Л. (1995). «Эталонный байесовский тест для вложенных гипотез и его связь с критерием Шварца». Журнал Американской статистической ассоциации . 90 (431): 928–934. DOI : 10.2307 / 2291327 . JSTOR 2291327 .
- Лиддл, АР (2007). «Информационные критерии выбора астрофизической модели». Ежемесячные уведомления Королевского астрономического общества . 377 (1): L74 – L78. arXiv : astro-ph / 0701113 . Bibcode : 2007MNRAS.377L..74L . DOI : 10.1111 / j.1745-3933.2007.00306.x .
- McQuarrie, ADR; Цай, К.-Л. (1998). Выбор модели регрессии и временных рядов . World Scientific .
Внешние ссылки [ править ]
- Информационные критерии и выбор модели
- Моделирование с разреженной векторной авторегрессией