Обобщенная линейная модель


В статистике обобщенная линейная модель ( GLM ) представляет собой гибкое обобщение обычной линейной регрессии . GLM обобщает линейную регрессию, позволяя связать линейную модель с переменной отклика через функцию связи и позволяя величине дисперсии каждого измерения быть функцией его прогнозируемого значения.

Обобщенные линейные модели были сформулированы Джоном Нелдером и Робертом Веддерберном как способ объединения различных других статистических моделей, включая линейную регрессию , логистическую регрессию и регрессию Пуассона . [1] Они предложили метод наименьших квадратов с повторным взвешиванием для оценки максимального правдоподобия параметров модели. Оценка максимального правдоподобия остается популярной и является методом по умолчанию во многих пакетах статистических вычислений. Другие подходы, в том числе байесовские подходы и метод наименьших квадратов для стабилизации дисперсииответы, были разработаны.

Обыкновенная линейная регрессия предсказывает ожидаемое значение данной неизвестной величины ( переменная отклика , случайная величина ) как линейную комбинацию набора наблюдаемых значений ( предикторы ). Это означает, что постоянное изменение предиктора приводит к постоянному изменению переменной отклика (т. е. модель с линейным откликом ). Это уместно, когда переменная отклика может варьироваться в хорошем приближении бесконечно в любом направлении или, в более общем смысле, для любой величины, которая изменяется лишь на относительно небольшую величину по сравнению с вариацией прогностических переменных, например роста человека.

Однако эти предположения неприемлемы для некоторых типов переменных отклика. Например, в случаях, когда ожидается, что переменная отклика всегда положительна и варьируется в широком диапазоне, постоянные изменения входных данных приводят к геометрическим (т.е. экспоненциальным) переменным, а не постоянно изменяющимся изменениям выходных данных. В качестве примера предположим, что модель линейного прогнозирования учится на некоторых данных (возможно, в первую очередь взятых с больших пляжей), что снижение температуры на 10 градусов приведет к тому, что пляж посетит на 1000 человек меньше. Эта модель вряд ли хорошо обобщает пляжи разного размера. В частности, проблема заключается в том, что если вы используете модель для прогнозирования новой посещаемости при падении температуры на 10 для пляжа, который регулярно принимает 50 посетителей, вы предскажете невозможное значение посещаемости -950. Логически,скорость увеличения посещаемости пляжей (например, повышение на 10 градусов приводит к удвоению посещаемости пляжей, а снижение на 10 градусов приводит к сокращению посещаемости вдвое). Такая модель называется моделью экспоненциального отклика (или логарифмически-линейной моделью , поскольку прогнозируется линейное изменение логарифма отклика).

Точно так же модель, предсказывающая вероятность выбора «да/нет» ( переменная Бернулли ), еще менее подходит в качестве модели с линейным откликом, поскольку вероятности ограничены с обеих сторон (они должны быть между 0 и 1). Представьте себе, например, модель, которая предсказывает вероятность того, что данный человек пойдет на пляж, в зависимости от температуры. Разумная модель могла бы предсказать, например, что изменение температуры на 10 градусов увеличивает или уменьшает вероятность того, что человек пойдет на пляж в два раза. Но что означает «удвоенная вероятность» с точки зрения вероятности? Это не может буквально означать удвоение значения вероятности (например, 50 % становится 100 %, 75 % становится 150 % и т. д.). Скорее, удваиваются шансы : от шансов 2:1 до шансов 4:1, до шансов 8:1 и т. д. Такая модель является логарифмической илилогистическая модель .