Байесовская линейная регрессия

Байесовская статистика
Часть серии по

Теория
Допустимое правило принятия решения Байесовская эффективность Байесовская вероятность Вероятностные интерпретации Теорема Байеса Фактор Байеса Байесовский вывод Байесовская сеть Прежний Задний Вероятность Конъюгировать приор Задний прогностический Гиперпараметр Hyperprior Принцип безразличия Принцип максимальной энтропии Эмпирический метод Байеса Правило Кромвеля Теорема Бернштейна – фон Мизеса Критерий Шварца Достоверный интервал Максимальная апостериорная оценка Радикальный вероятности
Методы
Байесовская линейная регрессия Байесовская оценка Приближенное байесовское вычисление Цепь Маркова Монте-Карло
Математический портал
v т е

Регрессивный анализ
Часть серии по

Модели
Линейная регрессия Простая регрессия Полиномиальная регрессия Общая линейная модель
Обобщенная линейная модель Дискретный выбор Биномиальная регрессия Бинарная регрессия Логистическая регрессия Полиномиальный логит Смешанный логит Пробит Полиномиальный пробит Заказал логит Заказал пробит Пуассон
Многоуровневая модель Фиксированные эффекты Случайные эффекты Линейная модель смешанных эффектов Нелинейная модель смешанных эффектов
Нелинейная регрессия Непараметрический Полупараметрический Крепкий Квантиль Изотонический Основные компоненты Наименьший угол Местный Сегментированный
Ошибки в переменных
Оценка
Наименьших квадратов Линейный Нелинейный
Обычный Взвешенный Обобщенный
Частичное Общий Неотрицательный Регрессия хребта Регулярный
Наименьшие абсолютные отклонения Итеративно переназначенный Байесовский Байесовский многомерный
Фон
Проверка регрессии Средний и прогнозируемый ответ Ошибки и остатки Доброту соответствия Студентизованный остаток Теорема Гаусса – Маркова
Математический портал
v т е

В статистике , байесовская линейная регрессия является подходом к линейной регрессии , в которой статистический анализ осуществляется в контексте вывода байесовского . Когда в регрессионной модели есть ошибки, которые имеют нормальное распределение , и если предполагается конкретная форма априорного распределения , доступны явные результаты для апостериорных вероятностных распределений параметров модели.

Настройка модели [ править ]

Рассмотрим стандартную линейную регрессионную задачу, в которой для нас указать среднее значение условного распределения в данном виде предиктора : ${\ Displaystyle я = 1, \ ldots, п}$ ${\ displaystyle y_ {i}}$ ${\ Displaystyle к \ раз 1}$ ${\ Displaystyle \ mathbf {х} _ {я}}$

{\ displaystyle y_ {i} = \ mathbf {x} _ {i} ^ {\ rm {T}} {\ boldsymbol {\ beta}} + \ varepsilon _ {i},}

где - вектор, а - независимые и одинаково нормально распределенные случайные величины: ${\ displaystyle {\ boldsymbol {\ beta}}}$ ${\ Displaystyle к \ раз 1}$ ${\ Displaystyle \ varepsilon _ {я}}$

{\ displaystyle \ varepsilon _ {i} \ sim N (0, \ sigma ^ {2}).}

Это соответствует следующей функции правдоподобия :

{\ displaystyle \ rho (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- n / 2} \ exp \ left (- {\ frac {1} {2 \ sigma ^ {2}}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm { T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) \ right).}

Обычным методом наименьших квадратов раствор используют для оценки вектора коэффициентов с использованием Псевдообращение Мура-Пенроуза :

{\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y}

где - матрица плана , каждая строка которой является вектором предиктора ; и является столбцом -вектором . $\mathbf {X}$ $n\times k$ $\mathbf {x} _{i}^{\rm {T}}$ $\mathbf {y}$ $n$ $[y_{1}\;\cdots \;y_{n}]^{\rm {T}}$

Это частотный подход, предполагающий наличие достаточного количества измерений, чтобы сказать что-то значимое . В байесовском подходе данные дополняются дополнительной информацией в виде априорного распределения вероятностей . Априорное мнение о параметрах комбинируется с функцией правдоподобия данных согласно теореме Байеса, чтобы получить апостериорное мнение о параметрах и . Предварительная информация может принимать различные функциональные формы в зависимости от предметной области и информации, доступной априори . ${\boldsymbol {\beta }}$ ${\boldsymbol {\beta }}$ $\sigma$

С сопряженными априорными отношениями [ править ]

Сопряженное предшествующее распределение [ править ]

Для произвольного априорного распределения не может быть аналитического решения для апостериорного распределения . В этом разделе мы рассмотрим так называемое сопряженное априорное распределение, для которого апостериорное распределение может быть получено аналитически.

Предшествующая является сопряженной к этой функции правдоподобия , если она имеет такую же функциональную форму по отношению к и . Поскольку логарифм правдоподобия квадратичен по , логарифм правдоподобия переписывается так, что правдоподобие становится нормальным в . Написать $\rho ({\boldsymbol {\beta }},\sigma ^{2})$ ${\boldsymbol {\beta }}$ $\sigma$ ${\boldsymbol {\beta }}$ $({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})$

(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}}).

Вероятность теперь переписывается как

\rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\propto (\sigma ^{2})^{-{\frac {v}{2}}}\exp \left(-{\frac {vs^{2}}{2{\sigma }^{2}}}\right)(\sigma ^{2})^{-{\frac {n-v}{2}}}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})\right),

куда

vs^{2}=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})\quad {\text{ and }}\quad v=n-k,

где - количество коэффициентов регрессии. $k$

Это предполагает форму для приора:

\rho ({\boldsymbol {\beta }},\sigma ^{2})=\rho (\sigma ^{2})\rho ({\boldsymbol {\beta }}\mid \sigma ^{2}),

где - обратное гамма-распределение $\rho (\sigma ^{2})$

\rho (\sigma ^{2})\propto (\sigma ^{2})^{-{\frac {v_{0}}{2}}-1}\exp \left(-{\frac {v_{0}s_{0}^{2}}{2\sigma ^{2}}}\right).

В обозначениях, введенных в статье об обратном гамма-распределении , это плотность распределения с и с и в качестве предшествующих значений и , соответственно. Эквивалентно, это также может быть описано как масштабированное обратное распределение хи-квадрат , ${\text{Inv-Gamma}}(a_{0},b_{0})$ $a_{0}={\tfrac {v_{0}}{2}}$ $b_{0}={\tfrac {1}{2}}v_{0}s_{0}^{2}$ $v_{0}$ $s_{0}^{2}$ $v$ $s^{2}$ ${\text{Scale-inv-}}\chi ^{2}(v_{0},s_{0}^{2}).$

Кроме того, условная априорная плотность - это нормальное распределение , $\rho ({\boldsymbol {\beta }}|\sigma ^{2})$

\rho ({\boldsymbol {\beta }}\mid \sigma ^{2})\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2\sigma ^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\rm {T}}\mathbf {\Lambda } _{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right).

В обозначениях нормального распределения условное априорное распределение имеет вид ${\mathcal {N}}\left({\boldsymbol {\mu }}_{0},\sigma ^{2}\mathbf {\Lambda } _{0}^{-1}\right).$

Апостериорное распространение [ править ]

С указанием предыдущего момента апостериорное распределение может быть выражено как

{\begin{aligned}\rho ({\boldsymbol {\beta }},\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} )&\propto \rho (\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\rho ({\boldsymbol {\beta }}\mid \sigma ^{2})\rho (\sigma ^{2})\\&\propto (\sigma ^{2})^{-n/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\right)(\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2\sigma ^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\rm {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right)(\sigma ^{2})^{-(a_{0}+1)}\exp \left(-{\frac {b_{0}}{\sigma ^{2}}}\right)\end{aligned}}

При некоторой перекомпоновке ^[1] апостериорное значение можно переписать так, чтобы апостериорное среднее вектора параметров можно было выразить в терминах оценки наименьших квадратов и априорного среднего , с силой априорного значения, обозначенной априорным матрица точности ${\boldsymbol {\mu }}_{n}$ ${\boldsymbol {\beta }}$ ${\hat {\boldsymbol {\beta }}}$ ${\boldsymbol {\mu }}_{0}$ ${\boldsymbol {\Lambda }}_{0}$

{\boldsymbol {\mu }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}(\mathbf {X} ^{\rm {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}).

Чтобы обосновать, что это действительно апостериорное среднее, квадратичные члены в экспоненте могут быть преобразованы в квадратичную форму в . ^[2] ${\boldsymbol {\mu }}_{n}$ ${\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n}$

(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})+({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\rm {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})=({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})+\mathbf {y} ^{\rm {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}.

Теперь апостериорное распределение можно выразить как нормальное распределение, умноженное на обратное гамма-распределение :

\rho ({\boldsymbol {\beta }},\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} )\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +\mathbf {\Lambda } _{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})\right)(\sigma ^{2})^{-{\frac {n+2a_{0}}{2}}-1}\exp \left(-{\frac {2b_{0}+\mathbf {y} ^{\rm {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}}{2\sigma ^{2}}}\right).

Следовательно, апостериорное распределение можно параметризовать следующим образом.

\rho ({\boldsymbol {\beta }},\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} )\propto \rho ({\boldsymbol {\beta }}\mid \sigma ^{2},\mathbf {y} ,\mathbf {X} )\rho (\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} ),

где два фактора соответствуют плотностям и распределениям, параметры которых задаются выражением ${\mathcal {N}}\left({\boldsymbol {\mu }}_{n},\sigma ^{2}{\boldsymbol {\Lambda }}_{n}^{-1}\right)\,$ ${\text{Inv-Gamma}}\left(a_{n},b_{n}\right)$

{\boldsymbol {\Lambda }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +\mathbf {\Lambda } _{0}),\quad {\boldsymbol {\mu }}_{n}=({\boldsymbol {\Lambda }}_{n})^{-1}(\mathbf {X} ^{\rm {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}),

a_{n}=a_{0}+{\frac {n}{2}},\qquad b_{n}=b_{0}+{\frac {1}{2}}(\mathbf {y} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}-{\boldsymbol {\mu }}_{n}^{\rm {T}}{\boldsymbol {\Lambda }}_{n}{\boldsymbol {\mu }}_{n}).

Это можно интерпретировать как байесовское обучение, при котором параметры обновляются в соответствии со следующими уравнениями.

{\boldsymbol {\mu }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}({\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}+\mathbf {X} ^{\rm {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}),

{\boldsymbol {\Lambda }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}),

a_{n}=a_{0}+{\frac {n}{2}},

b_{n}=b_{0}+{\frac {1}{2}}(\mathbf {y} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}-{\boldsymbol {\mu }}_{n}^{\rm {T}}{\boldsymbol {\Lambda }}_{n}{\boldsymbol {\mu }}_{n}).

Образец доказательства [ править ]

Модель доказательства есть вероятность данных , приведенных в модели . Он также известен как предельная вероятность и как априорная прогнозируемая плотность . Здесь, модель определяется с помощью функции правдоподобия и априорного распределения по параметрам, то есть . Свидетельства модели фиксируют одним числом, насколько хорошо такая модель объясняет наблюдения. Модельное свидетельство модели байесовской линейной регрессии, представленное в этом разделе, может быть использовано для сравнения конкурирующих линейных моделей путем сравнения байесовских моделей. $p(\mathbf {y} \mid m)$ $m$ $p(\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma )$ $p({\boldsymbol {\beta }},\sigma )$ . Эти модели могут различаться по количеству и значениям переменных-предикторов, а также по своим априорным значениям для параметров модели. Сложность модели уже учтена в свидетельстве модели, потому что она исключает параметры путем интегрирования по всем возможным значениям и . $p(\mathbf {y} ,{\boldsymbol {\beta }},\sigma \mid \mathbf {X} )$ ${\boldsymbol {\beta }}$ $\sigma$

p(\mathbf {y} |m)=\int p(\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma )\,p({\boldsymbol {\beta }},\sigma )\,d{\boldsymbol {\beta }}\,d\sigma

Этот интеграл можно вычислить аналитически, и решение дается в следующем уравнении. ^[3]

p(\mathbf {y} \mid m)={\frac {1}{(2\pi )^{n/2}}}{\sqrt {\frac {\det({\boldsymbol {\Lambda }}_{0})}{\det({\boldsymbol {\Lambda }}_{n})}}}\cdot {\frac {b_{0}^{a_{0}}}{b_{n}^{a_{n}}}}\cdot {\frac {\Gamma (a_{n})}{\Gamma (a_{0})}}

Здесь обозначает гамма-функцию . Поскольку мы выбрали сопряженное априорное значение, предельное правдоподобие также можно легко вычислить, оценив следующее равенство для произвольных значений и . $\Gamma$ ${\boldsymbol {\beta }}$ $\sigma$

p(\mathbf {y} \mid m)={\frac {p({\boldsymbol {\beta }},\sigma |m)\,p(\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ,m)}{p({\boldsymbol {\beta }},\sigma \mid \mathbf {y} ,\mathbf {X} ,m)}}

Обратите внимание, что это уравнение - не что иное, как перестановка теоремы Байеса . Вставка формул для априорного, вероятностного и апостериорного значений и упрощение результирующего выражения приводит к аналитическому выражению, приведенному выше.

Другие случаи [ править ]

В общем, аналитический вывод апостериорного распределения может оказаться невозможным или непрактичным. Однако можно аппроксимировать апостериорную оценку с помощью приближенного метода байесовского вывода, такого как выборка Монте-Карло ^[4] или вариационный байесовский метод .

Частный случай называется регрессией гребня . ${\boldsymbol {\mu }}_{0}=0,\mathbf {\Lambda } _{0}=c\mathbf {I}$

Аналогичный анализ может быть выполнен для общего случая многомерной регрессии, и частично он обеспечивает байесовскую оценку ковариационных матриц : см. Байесовскую многомерную линейную регрессию .

См. Также [ править ]

Линейная статистика Байеса
Регуляризованный метод наименьших квадратов
Тихоновская регуляризация
Выбор переменных шипа и плиты
Байесовская интерпретация регуляризации ядра

Эта статья включает в себя список общих ссылок , но он остается в основном непроверенным, поскольку в нем отсутствуют соответствующие встроенные ссылки . Пожалуйста, помогите улучшить эту статью, добавив более точные цитаты. ( Август 2011 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Примечания [ править ]

^ Промежуточные этапы этого вычисления можно найти у О'Хагана (1994) в начале главы, посвященной линейным моделям.
^ Промежуточные шаги приведены в Fahrmeir et al. (2009) на странице 188.
^ Промежуточные этапы этого вычисления можно найти у О'Хагана (1994) на странице 257.
^ Карлин и Луи (2008) и Гельман и др. (2003) объясняют, как использовать методы выборки для байесовской линейной регрессии.

Ссылки [ править ]

Коробка, ГЭП ; Тяо, GC (1973). Байесовский вывод в статистическом анализе . Вайли. ISBN 0-471-57428-7.
Карлин, Брэдли П.; Луи, Томас А. (2008). Байесовские методы анализа данных, третье издание . Бока-Ратон, Флорида: Чепмен и Холл / CRC. ISBN 1-58488-697-8.
Fahrmeir, L .; Кнейб, Т .; Ланг, С. (2009). Регресс. Modelle, Methoden und Anwendungen (второе изд.). Гейдельберг: Springer. DOI : 10.1007 / 978-3-642-01837-4 . ISBN 978-3-642-01836-7.
Форнальски KW; Парзыч Г .; Пылак М .; Satuła D .; Добжиньски Л. (2010). «Применение байесовских рассуждений и метода максимальной энтропии к некоторым задачам реконструкции» . Acta Physica Polonica . 117 (6): 892–899. DOI : 10.12693 / APhysPolA.117.892 .
Форнальский, Кшиштоф В. (2015). «Приложения робастного байесовского регрессионного анализа». Международный журнал науки о системах общества . 7 (4): 314–333. DOI : 10.1504 / IJSSS.2015.073223 .
Гельман, Андрей ; Карлин, Джон Б .; Стерн, Хэл С .; Рубин, Дональд Б. (2003). Байесовский анализ данных, второе издание . Бока-Ратон, Флорида: Чепмен и Холл / CRC. ISBN 1-58488-388-X.
Гольдштейн, Майкл; Wooff, Дэвид (2007). Линейная статистика, теория и методы Байеса . Вайли. ISBN 978-0-470-01562-9.
Минка, Томас П. (2001) Байесовская линейная регрессия , веб-страница исследования Microsoft
Росси, Питер Э .; Алленби, Грег М .; Маккалок, Роберт (2006). Байесовская статистика и маркетинг . Джон Вили и сыновья. ISBN 0470863676.
О'Хаган, Энтони (1994). Байесовский вывод . Продвинутая теория статистики Кендалла. 2Б (Первое изд.). Холстед. ISBN 0-340-52922-9.
Сивия, DS; Скиллинг, Дж. (2006). Анализ данных - байесовский учебник (второе изд.). Издательство Оксфордского университета.
Уолтер, Геро; Августин, Томас (2009). «Байесовская линейная регрессия - различные сопряженные модели и их (не) чувствительность к конфликту предшествующих данных» (PDF) . Технический отчет № 069, Статистический факультет Мюнхенского университета .

Внешние ссылки [ править ]

Байесовское оценивание линейных моделей (вики-книга по программированию на языке R) . Байесовская линейная регрессия , как реализуются в R .

[1] Промежуточные этапы этого вычисления можно найти у О'Хагана (1994) в начале главы, посвященной линейным моделям.

[2] Промежуточные шаги приведены в Fahrmeir et al. (2009) на странице 188.

[3] Промежуточные этапы этого вычисления можно найти у О'Хагана (1994) на странице 257.

[4] Карлин и Луи (2008) и Гельман и др. (2003) объясняют, как использовать методы выборки для байесовской линейной регрессии.