Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике , Пуассон регрессия является обобщенной линейной моделью формой регрессионного анализа , используемого для модели подсчета данных и таблиц сопряженности . Регрессия Пуассона предполагает, что переменная отклика Y имеет распределение Пуассона , и предполагает, что логарифм ее ожидаемого значения может быть смоделирован линейной комбинацией неизвестных параметров . Модель регрессии Пуассона иногда называют лог-линейной моделью , особенно когда она используется для моделирования таблиц непредвиденных обстоятельств.

Отрицательная биномиальная регрессия является популярным обобщением регрессии Пуассона, потому что она ослабляет строго ограничительное предположение о том, что дисперсия равна среднему значению, сделанному моделью Пуассона. Традиционная модель отрицательной биномиальной регрессии, широко известная как NB2, основана на распределении смеси Пуассона и гамма-излучения. Эта модель популярна, потому что она моделирует неоднородность Пуассона с помощью гамма-распределения.

Модели Пуассона регрессии обобщенные линейные модели с логарифмом в качестве (канонической) функции связи , и распределение Пуассона функции как предполагаемое распределение вероятности ответа.

Модели регрессии [ править ]

Если - вектор независимых переменных , то модель принимает вид

где и . Иногда это записывается более компактно как

где x теперь ( n  + 1) -мерный вектор, состоящий из n независимых переменных, связанных с номером один. Здесь θ просто α сцепленный с β .

Таким образом, когда задана модель регрессии Пуассона θ и входной вектор x , прогнозируемое среднее ассоциированного распределения Пуассона определяется выражением

Если Y i являются независимыми наблюдениями с соответствующими значениями x i переменных-предикторов, то θ можно оценить по максимальной вероятности . В оценках максимального правдоподобия отсутствует выражение в замкнутой форме, и они должны быть найдены численными методами. Поверхность вероятности для регрессии Пуассона максимального правдоподобия всегда вогнута, что делает методы оценки Ньютона – Рафсона или другие методы на основе градиента подходящими.

Оценка параметров на основе максимального правдоподобия [ править ]

Учитывая набор параметров θ и входной вектор x , среднее значение предсказанного распределения Пуассона , как указано выше, дается выражением

и, таким образом, функция массы вероятности распределения Пуассона определяется выражением

Теперь предположим, что нам дан набор данных, состоящий из m векторов , а также набор из m значений . Тогда для данного набора параметров θ вероятность получения этого конкретного набора данных определяется выражением

Методом максимального правдоподобия мы хотим найти набор параметров θ, который сделает эту вероятность как можно большей. Для этого уравнение сначала переписывается как функция правдоподобия через θ :

Обратите внимание, что выражение в правой части фактически не изменилось. С формулой в такой форме обычно сложно работать; вместо этого используется логарифмическая вероятность :

Обратите внимание, что параметры θ появляются только в первых двух членах каждого члена при суммировании. Поэтому, учитывая, что нас интересует только поиск наилучшего значения для θ, мы можем опустить y i ! и просто напишите

Чтобы найти максимум, нам нужно решить уравнение, которое не имеет решения в замкнутой форме. Однако отрицательное логарифмическое правдоподобие является выпуклой функцией, и поэтому стандартные методы выпуклой оптимизации , такие как градиентный спуск, могут применяться для поиска оптимального значения θ .

Пуассоновская регрессия на практике [ править ]

Регрессия Пуассона может быть подходящей, когда зависимой переменной является счетчик, например, таких событий , как поступление телефонного звонка в центр обработки вызовов. [1] События должны быть независимыми в том смысле, что поступление одного вызова не сделает другой более или менее вероятным, но считается, что вероятность в единицу времени событий связана с ковариатами, такими как время суток.

"Экспозиция" и смещение [ править ]

Пуассон регрессия может быть также подходим для данных о скорости, где скорость является подсчетом событий , деленных на каком - то мере этого устройство экспозиции (определенная единица наблюдения). Например, биологи могут подсчитать количество видов деревьев в лесу: событиями будут наблюдения за деревьями, экспозиция будет единицей площади, а норма - количеством видов на единицу площади. Демографы могут моделировать показатели смертности в географических регионах как количество смертей, разделенное на человеко-годы. В более общем смысле, частота событий может быть рассчитана как количество событий в единицу времени, что позволяет изменять окно наблюдения для каждой единицы. В этих примерах экспозиция представляет собой соответственно единицу площади, человеко-годы и единицу времени. В регрессии Пуассона это обрабатывается как смещение, где переменная экспозиции входит в правую часть уравнения, но с оценкой параметра (для log (экспозиция)), ограниченной до 1.

что подразумевает

Смещение в случае GLM в R может быть достигнуто с помощью offset()функции:

glm ( y  ~  смещение ( log ( экспозиция ))  +  x ,  family = poisson ( link = log )  )

Чрезмерная дисперсия и нулевая инфляция [ править ]

Характерной чертой распределения Пуассона является то, что его среднее значение равно его дисперсии. В определенных обстоятельствах будет обнаружено, что наблюдаемая дисперсия больше среднего; это известно как чрезмерная дисперсия и указывает на то, что модель не подходит. Распространенной причиной является отсутствие релевантных независимых переменных или зависимых наблюдений. При некоторых обстоятельствах проблема сверхдисперсии может быть решена путем использования вместо этого оценки квазиправдоподобия или отрицательного биномиального распределения . [2] [3]

Вер Хеф и Бовенг описали разницу между квазипуассоновским (также называемым сверхдисперсией с квази-правдоподобием) и отрицательным биномом (эквивалентным гамма-Пуассону) следующим образом: Если E ( Y ) = μ , квазипуассоновская модель предполагает var ( Y ) = θμ, в то время как гамма-Пуассон предполагает var ( Y ) = μ (1 +  κμ ), где θ - параметр квазипуассоновской сверхдисперсии, а κ - параметр формы отрицательного биномиального распределения . Для обеих моделей параметры оцениваются с использованием метода наименьших квадратов с повторным взвешиванием.. Для квазипуассона веса равны μ / θ . Для отрицательного бинома веса равны μ / (1 +  κμ ). При большом μ и значительном экстрапуассоновском изменении отрицательные биномиальные веса ограничиваются 1 / κ . Вер Хеф и Бовенг обсудили пример, в котором они выбирали одно из двух, нанося на график среднеквадратичные остатки против среднего. [4]

Другая распространенная проблема с регрессией Пуассона - это избыточные нули: если работают два процесса, один из которых определяет, есть ли нулевые события или какие-либо события, а процесс Пуассона определяет, сколько событий существует, нулей будет больше, чем было бы в регрессии Пуассона. предсказывать. Примером может служить раздача сигарет, выкуриваемых за час, членами группы, в которой некоторые люди не курят.

В этих случаях могут лучше работать другие обобщенные линейные модели, такие как отрицательная биномиальная модель или модель с нулевым надуванием .

Использование в анализе выживаемости [ править ]

Регрессия Пуассона создает модели пропорциональных опасностей, один класс анализа выживаемости : см. Описание моделей пропорциональных рисков для описания моделей Кокса.

Расширения [ править ]

Регуляризованная регрессия Пуассона [ править ]

При оценке параметров регрессии Пуассона обычно пытаются найти значения для θ, которые максимизируют вероятность выражения формы

где т есть число примеров в наборе данных, и является функцией вероятности массовой из распределения Пуассона со средним набором к . Регуляризация может быть добавлена ​​к этой проблеме оптимизации, вместо этого максимизируя [5]

для некоторой положительной постоянной . Этот метод, аналогичный регрессии гребня , может уменьшить переобучение .

См. Также [ править ]

  • Модель без наддува
  • распределение Пуассона
  • Модель Пуассона с фиксированным эффектом
  • Методы частичного правдоподобия для панельных данных § Пример: объединенный QMLE для моделей Пуассона
  • Функция управления (эконометрика) § Эндогенность в регрессии Пуассона

Ссылки [ править ]

  1. ^ Грин, Уильям Х. (2003). Эконометрический анализ (Пятое изд.). Прентис-Холл. стр.  740 -752. ISBN 978-0130661890.
  2. ^ Патерностеры R, Brame R (1997). «Множественные пути к правонарушению? Проверка теории развития и общей теории преступности». Криминология . 35 : 45–84. DOI : 10.1111 / j.1745-9125.1997.tb00870.x .
  3. Перейти ↑ Berk R, MacDonald J (2008). «Чрезмерная дисперсия и регрессия Пуассона». Журнал количественной криминологии . 24 (3): 269–284. DOI : 10.1007 / s10940-008-9048-4 .
  4. ^ Ver Hoef, JAY M .; Бовенг, Питер Л. (2007-01-01). «Квазипуассоновская и отрицательная биномиальная регрессия: как мы должны моделировать сверхдисперсные данные подсчета?» . Экология . 88 (11): 2766–2772. DOI : 10.1890 / 07-0043.1 . Проверено 1 сентября 2016 .
  5. ^ Perperoglou, Арис (2011-09-08). «Подгонка данных о выживаемости со штрафной регрессией Пуассона». Статистические методы и приложения . Springer Nature. 20 (4): 451–462. DOI : 10.1007 / s10260-011-0172-1 . ISSN 1618-2510 . 

Дальнейшее чтение [ править ]

  • Кэмерон, AC; Триведи, PK (1998). Регрессионный анализ данных подсчета . Издательство Кембриджского университета. ISBN 978-0-521-63201-0.
  • Кристенсен, Рональд (1997). Лог-линейные модели и логистическая регрессия . Тексты Springer в статистике (второе изд.). Нью-Йорк: Springer-Verlag. ISBN 978-0-387-98247-2. Руководство по ремонту  1633357 .
  • Гурье, Кристиан (2000). «Эконометрика дискретных положительных переменных: модель Пуассона» . Эконометрика качественных зависимых переменных . Нью-Йорк: Издательство Кембриджского университета. С. 270–83. ISBN 978-0-521-58985-7.
  • Грин, Уильям Х. (2008). «Модели для подсчета и продолжительности событий». Эконометрический анализ (8-е изд.). Река Верхнее Седл: Зал Прентис. стр.  906 -944. ISBN 978-0-13-600383-0.
  • Хильбе, JM (2007). Отрицательная биномиальная регрессия . Издательство Кембриджского университета. ISBN 978-0-521-85772-7.
  • Джонс, Эндрю М .; и другие. (2013). «Модели для подсчета данных». Прикладная экономика здравоохранения . Лондон: Рутледж. С. 295–341. ISBN 978-0-415-67682-3.