Из Википедии, свободной энциклопедии
  (Перенаправлено из критерия Шварца )
Перейти к навигации Перейти к поиску

В статистике , то байесовский информационный критерий ( BIC ) или информационный критерий Шварца (также SIC , SBC , SBIC ) является критерием для выбора модели среди конечного множества моделей; модель с самым низким BIC является предпочтительной. Частично он основан на функции правдоподобия и тесно связан с информационным критерием Акаике (AIC).

При подгонке моделей можно увеличить вероятность, добавив параметры, но это может привести к переобучению . И BIC, и AIC пытаются решить эту проблему, вводя штрафной член для количества параметров в модели; срок штрафа в BIC больше, чем в AIC.

BIC был разработан Гидеоном Э. Шварцем и опубликован в статье 1978 года [1], где он привел байесовский аргумент в пользу его принятия.

Определение [ править ]

BIC формально определяется как [2] [a]

где

  • = максимальное значение функции правдоподобия модели , т. е. где - значения параметров, которые максимизируют функцию правдоподобия;
  • = наблюдаемые данные;
  • = количество точек данных , количество наблюдений или, что эквивалентно, размер выборки;
  • = количество параметров, оцененных моделью. Например, при множественной линейной регрессии оцениваемыми параметрами являются точка пересечения, параметры наклона и постоянная дисперсия ошибок; Таким образом, .

Кониси и Китагава [4] : 217 выводят BIC для аппроксимации распределения данных, интегрируя параметры, используя метод Лапласа , начиная со следующего модельного доказательства :

где априор для подмодели .

Журнал (вероятность), , затем расширяется до второго порядка рядов Тейлора о MLE , , предполагая , что дважды дифференцируема следующим образом :

где - средняя наблюдаемая информация для каждого наблюдения , а штрих ( ) обозначает транспонирование вектора . В той степени, в которой это незначительно и относительно линейно близко , мы можем интегрировать, чтобы получить следующее:

По мере увеличения можно игнорировать и как они есть . Таким образом, O ( 1 ) {\displaystyle O(1)}

где BIC определен, как указано выше, и либо (a) - байесовский апостериорный режим, либо (b) использует MLE, а предшествующий имеет ненулевой наклон в MLE. Затем задняя

Свойства [ править ]

  • Это не зависит от приора.
  • Он может измерить эффективность параметризованной модели с точки зрения прогнозирования данных.
  • Он штрафует сложность модели, где сложность относится к количеству параметров в модели.
  • Это примерно равно критерию минимальной длины описания, но с отрицательным знаком.
  • Его можно использовать для выбора количества кластеров в соответствии с внутренней сложностью, присутствующей в конкретном наборе данных.
  • Он тесно связан с другими оштрафованными критериями правдоподобия , такими как критерий информации девиантности и информационный критерий Акаика .

Ограничения [ править ]

BIC страдает двумя основными ограничениями [5]

  1. Приведенное выше приближение справедливо только для размера выборки, намного превышающего количество параметров в модели.
  2. BIC не может обрабатывать сложные коллекции моделей, как в задаче выбора переменных (или выбора функций ) в большой размерности. [5]

Особый случай Гаусса [ править ]

При предположении, что ошибки модели или возмущения независимы и одинаково распределены в соответствии с нормальным распределением и что граничное условие, заключающееся в том, что производная логарифмической вероятности относительно истинной дисперсии равна нулю, становится (с точностью до аддитивной константы , которая зависит только от n, а не от модели): [6]

где - дисперсия ошибки. Дисперсия ошибки в этом случае определяется как

что является смещенной оценкой истинной дисперсии .

В терминах остаточной суммы квадратов (RSS) BIC равен

При тестировании нескольких линейных моделей по сравнению с насыщенной моделью, BIC можно переписать с точки зрения отклонения как: [7]

где - количество параметров модели в тесте.

При выборе из нескольких моделей предпочтительнее модель с наименьшим BIC. BIC является возрастающей функцией дисперсии ошибки и возрастающей функцией k . То есть необъяснимые вариации зависимой переменной и количества независимых переменных увеличивают значение BIC. Следовательно, более низкий BIC означает либо меньшее количество независимых переменных, либо лучшее соответствие, либо и то, и другое. Сила доказательств против модели с более высоким значением BIC можно резюмировать следующим образом: [7]

BIC обычно наказывает свободные параметры сильнее, чем информационный критерий Акаике , хотя это зависит от размера n и относительной величины n и  k .

Важно помнить, что BIC можно использовать для сравнения оцениваемых моделей только в том случае, если числовые значения зависимой переменной [b] идентичны для всех сравниваемых моделей. Сравниваемые модели не обязательно должны быть вложенными , в отличие от случая, когда модели сравниваются с использованием F-теста или теста отношения правдоподобия . [ необходима цитата ]

См. Также [ править ]

  • Информационный критерий Акаике
  • Сравнение байесовских моделей
  • Информационный критерий отклонения
  • Информационный критерий Ханнана – Куинна
  • Расхождение Дженсена – Шеннона
  • Дивергенция Кульбака – Лейблера.
  • Минимальная длина сообщения

Заметки [ править ]

  1. ^ AIC, AICc и BIC, определенные Клаескенсом и Хьортом [3], являются отрицанием тех, что определены в этой статье и в большинстве других стандартных ссылок.
  2. ^ Зависимая переменная также называется переменной ответа или переменной результата . См. Регрессионный анализ .

Ссылки [ править ]

  1. ^ Шварц, Гедеон Е. (1978), "Оценка размерности модели", Анналы статистики , 6 (2): 461-464, DOI : 10,1214 / AOS / 1176344136 , МР  0468014.
  2. ^ Вит, Эрнст; Эдвин ван ден Хеувел; Ян-Виллем Ромейн (2012). « « Все модели неверны ... »: введение в неопределенность модели» (PDF) . Statistica Neerlandica . 66 (3): 217–236. DOI : 10.1111 / j.1467-9574.2012.00530.x .
  3. ^ Claeskens, Г .; Хьорт, Н. Л. (2008), Выбор модели и усреднение модели , Cambridge University Press
  4. Кониси, Саданори; Китагава, Генширо (2008). Информационные критерии и статистическое моделирование . Springer. ISBN 978-0-387-71886-6.
  5. ^ a b Жиро, К. (2015). Введение в многомерную статистику . Чепмен и Холл / CRC. ISBN 9781482237948.
  6. ^ Пристли, МБ (1981). Спектральный анализ и временные ряды . Академическая пресса . ISBN 978-0-12-564922-3. (с. 375).
  7. ^ а б Касс, Роберт Э .; Рэфтери, Адриан Е. (1995), "Байеса факторы", журнал Американской ассоциации по статистике , 90 (430): 773-795, DOI : 10,2307 / 2291091 , ISSN 0162-1459 , JSTOR 2291091  .

Дальнейшее чтение [ править ]

  • Бхат, HS; Кумар, Н. (2010). «О выводе байесовского информационного критерия» (PDF) . Архивировано из оригинального (PDF) 28 марта 2012 года. Cite journal requires |journal= (help)
  • Финдли, Д. Ф. (1991). «Контрпримеры к бережливости и БИК». Летопись Института статистической математики . 43 (3): 505–514. DOI : 10.1007 / BF00053369 .
  • Касс, RE; Вассерман, Л. (1995). «Эталонный байесовский тест для вложенных гипотез и его связь с критерием Шварца». Журнал Американской статистической ассоциации . 90 (431): 928–934. DOI : 10.2307 / 2291327 . JSTOR  2291327 .
  • Лиддл, АР (2007). «Информационные критерии выбора астрофизической модели». Ежемесячные уведомления Королевского астрономического общества . 377 (1): L74 – L78. arXiv : astro-ph / 0701113 . Bibcode : 2007MNRAS.377L..74L . DOI : 10.1111 / j.1745-3933.2007.00306.x .
  • McQuarrie, ADR; Цай, К.-Л. (1998). Выбор модели регрессии и временных рядов . World Scientific .

Внешние ссылки [ править ]

  • Информационные критерии и выбор модели
  • Моделирование с разреженной векторной авторегрессией