Распределение CMP было первоначально предложено Конвеем и Максвеллом в 1962 году [3] как решение для обработки систем массового обслуживания с зависящей от состояния скоростью обслуживания. Распределение CMP было введено в статистическую литературу Боутрайтом и др. 2003 [4] и Shmueli et al. (2005). [2] Первое подробное исследование вероятностных и статистических свойств распределения было опубликовано Shmueli et al. (2005). [2] Некоторые теоретические вероятностные результаты распределения COM-Пуассона изучены и рассмотрены Ли и др. (2019), [5] особенно характеристики распределения COM-Пуассона.
Функция служит нормировочной константой, поэтому функция массы вероятности в сумме равна единице. Обратите внимание, что не имеет закрытой формы.
Область допустимых параметров , а также , .
Дополнительный параметр который не появляется в распределении Пуассона, позволяет регулировать скорость затухания. Эта скорость убывания является нелинейным уменьшением отношения последовательных вероятностей, в частности
Многие важные сводные статистические данные, такие как моменты и кумулянты, распределения CMP могут быть выражены в терминах нормирующей константы. . [2] [7] Действительно, производящая функция вероятности имеет вид, а среднее и дисперсия даются как
Для целого числа , нормирующая постоянная может быть выражена [6] в виде обобщенной гипергеометрической функции:.
Поскольку нормирующая постоянная, вообще говоря, не имеет замкнутого вида, представляет интерес следующее асимптотическое разложение . Исправить. Тогда как, [8]
где однозначно определяются разложением
В частности, , , . Дополнительные коэффициенты приведены в [8]
Моменты, кумулянты и связанные результаты
Для общих значений , не существует закрытых формул для среднего, дисперсии и моментов распределения ОСМ. Однако у нас есть следующая изящная формула. [7] Пустьобозначают падающий факториал . Позволять, . потом
для .
Поскольку в общем случае формулы замкнутой формы недоступны для моментов и кумулянтов распределения CMP, представляют интерес следующие асимптотические формулы. Позволять, где . Обозначим асимметрию и избыточный эксцесс , где . Тогда как, [8]
где
Асимптотический ряд для справедливо для всех , а также .
Моменты для случая целого числа
Когда - целое число, можно получить явные формулы для моментов . Делосоответствует распределению Пуассона. Предположим теперь, что. Для, [7]
Использование соединительной формулы для моментов и факторных моментов дает
В частности, среднее значение дан кем-то
Кроме того, поскольку , дисперсия определяется выражением
Предположим теперь, что целое число. Тогда [6]
В частности,
а также
Медиана, мода и среднее отклонение
Позволять . Тогда режим из является если не является целым числом. В противном случае режимы находятся а также . [7]
Среднее отклонение о его значении дается [7]
Нет Явная формула не известен медианы из, но имеется следующий асимптотический результат. [7] Пусть быть средним из . потом
в виде .
Характеристика Штейна
Позволять , и предположим, что таково, что а также . потом
Наоборот, предположим теперь, что является случайной величиной с действительным знаком, поддерживаемой на такой, что для всех ограниченных . потом. [7]
Использовать как ограничивающее распространение
Позволять имеют биномиальное распределение Конвея – Максвелла с параметрами, а также . Исправить а также . Потом, сходится по распределению к распространение как . [7] Этот результат обобщает классическое пуассоновское приближение биномиального распределения. В более общем смысле, распределение CMP возникает как предельное распределение биномиального распределения Конвея – Максвелла – Пуассона. [7] Помимо того факта, что COM-бином приближается к COM-Poisson, Zhang et al. (2018) [9] иллюстрирует, что COM-отрицательное биномиальное распределение с функцией массы вероятности
сходится к предельному распределению, которое является COM-Пуассоном, как .
Связанные дистрибутивы
, тогда следует распределению Пуассона с параметром .
Предполагать . Тогда еслиу нас есть это следует геометрическому распределению с функцией массы вероятности , .
Последовательность случайной величины сходится по распределению как распределению Бернулли со средним .
Оценка параметров
Существует несколько методов оценки параметров распределения CMP по данным. Будут обсуждены два метода: взвешенный метод наименьших квадратов и метод максимального правдоподобия. Подход взвешенных наименьших квадратов прост и эффективен, но ему не хватает точности. С другой стороны, максимальная вероятность точна, но более сложна и требует больших вычислительных ресурсов.
Взвешенный метод наименьших квадратов
Метод взвешенных наименьших квадратов обеспечивает простой и эффективный метод получения приблизительных оценок параметров распределения CMP и определения того, будет ли это распределение подходящей моделью. После использования этого метода следует использовать альтернативный метод для вычисления более точных оценок параметров, если модель считается подходящей.
Этот метод использует отношения последовательных вероятностей, как обсуждалось выше. Логарифмируя обе части этого уравнения, возникает следующая линейная зависимость
где обозначает . При оценке параметров, вероятности могут быть заменены относительными частотами от а также . Чтобы определить, является ли распределение CMP подходящей моделью, эти значения должны быть сопоставлены сдля всех соотношений без нулевых отсчетов. Если данные кажутся линейными, то модель, скорее всего, подходит.
Как только соответствие модели определено, параметры могут быть оценены путем аппроксимации регрессии на . Однако основное предположение о гомоскедастичности нарушено, поэтому необходимо использовать взвешенную регрессию наименьших квадратов . Матрица обратных весов будет иметь дисперсии каждого отношения на диагонали с одношаговыми ковариациями на первой недиагонали, обе приведены ниже.
Максимальная вероятность
Функция правдоподобия CMP равна
где а также . Максимизация правдоподобия дает следующие два уравнения
которые не имеют аналитического решения.
Вместо этого оценки максимального правдоподобия аппроксимируются численно методом Ньютона – Рафсона . На каждой итерации ожидания, дисперсии и ковариация а также аппроксимируются с использованием оценок для а также из предыдущей итерации в выражении
Это продолжается до схождения а также .
Обобщенная линейная модель
Обсуждаемое выше базовое распределение CMP также использовалось в качестве основы для обобщенной линейной модели (GLM), использующей байесовскую формулировку. Был разработан двухканальный GLM, основанный на распределении CMP [10], и эта модель использовалась для оценки данных о дорожно-транспортных происшествиях. [11] [12] CMP GLM, разработанный Guikema и Coffelt (2008), основан на переформулировке приведенного выше распределения CMP, заменяющей с участием . Неотъемлемая частьэто тогда режим распределения. Был использован подход полной байесовской оценки с выборкой MCMC, реализованной в WinBugs с неинформативными априорными значениями для параметров регрессии. [10] [11] Этот подход требует больших вычислительных ресурсов, но он дает полные апостериорные распределения для параметров регрессии и позволяет использовать экспертные знания с помощью информативных априорных значений.
Была разработана классическая формулировка GLM для регрессии CMP, которая обобщает регрессию Пуассона и логистическую регрессию . [13] При этом используются преимущества экспоненциального семейства распределения CMP для получения элегантной оценки модели (посредством максимального правдоподобия ), вывода, диагностики и интерпретации. Этот подход требует значительно меньше вычислительного времени, чем байесовский подход, за счет того, что не позволяет включить экспертные знания в модель. [13] Кроме того, он дает стандартные ошибки для параметров регрессии (через информационную матрицу Фишера) по сравнению с полными апостериорными распределениями, полученными с помощью байесовской формулировки. Он также обеспечивает статистический тест уровня дисперсии по сравнению с моделью Пуассона. Доступен код для подгонки регрессии CMP, тестирования дисперсии и оценки соответствия. [14]
Две структуры GLM, разработанные для распределения CMP, значительно расширяют полезность этого распределения для задач анализа данных.
Рекомендации
^ «Регрессия Конвея – Максвелла – Пуассона» . Поддержка SAS . Институт САС, Инк . Проверено 2 марта 2015 года .
^ a b c d e f Шмуэли Г., Минка Т., Кадане Дж. Б., Борле С. и Боутрайт П. Б. «Полезное распределение для подгонки дискретных данных: возрождение распределения Конвея – Максвелла – Пуассона». Журнал Королевского статистического общества : Серия C (Прикладная статистика) 54.1 (2005): 127–142. [1]
^Конвей, RW; Максвелл, У.Л. (1962), "Модель организации очередей со скоростью обслуживания, зависящей от состояния", Journal of Industrial Engineering , 12 : 132–136
^ Боутрайт, П., Борле, С. и Кадан, Дж. Б. «Модель совместного распределения количества и сроков закупок». Журнал Американской статистической ассоциации 98 (2003): 564–572.
^ Ли Б., Чжан Х., Цзяо Х. «Некоторые характеристики и свойства COM-пуассоновских случайных величин». Коммуникации в статистике - теория и методы, (2019). [2]
^ a b c Надараджа, С. «Полезный момент и формулировки CDF для распределения COM – Пуассона». Статистические документы 50 (2009): 617–622.
^ a b c d e f g h i j Дали Ф. и Гонт Р. Р. "Распределение Конвея – Максвелла – Пуассона: теория распределения и приближение». Латиноамериканский журнал вероятностей и математической статистики ALEA 13 (2016): 635–658.
^ a b c Гаунт, Р. Э., Айенгар, С., Олде Даалхуис, А. Б. и Симсек, Б. «Асимптотическое разложение для нормирующей константы распределения Конвея – Максвелла – Пуассона». Появиться в Анналах Института статистической математики (2017+) DOI 10.1007 / s10463-017-0629-6
^ Чжан Х., Тан К., Ли Б. "COM-отрицательное биномиальное распределение: моделирование сверхдисперсии и сверхвысоких нулевых завышенных данных подсчета". Границы математики в Китае, 2018, 13 (4): 967–998. [3]
^ a b Гикема, С.Д. и Дж. П. Коффельт (2008) «Гибкая модель регрессии данных подсчета для анализа рисков», Анализ рисков , 28 (1), 213–223. DOI : 10.1111 / j.1539-6924.2008.01014.x
^ a b Лорд, Д., С. Д. Гикема и С. Р. Джедипали (2008) "Применение обобщенной линейной модели Конвея – Максвелла – Пуассона для анализа дорожно- транспортных происшествий", Анализ и предотвращение аварий , 40 (3), 1123–1134. DOI : 10.1016 / j.aap.2007.12.003
^ Лорд Д., SR Geedipally и SD Guikema (2010) "Расширение применения Conway-Максвелла-Пуассона модели: Анализ трафика данныхДТПпроявляющие Under-дисперсионная" Анализ риска , 30 (8), 1268-1276. DOI : 10.1111 / j.1539-6924.2010.01417.x
^ a b Селлерс, К.С. и Шмуэли, Г. (2010), «Гибкая модель регрессии для данных подсчета» , Annals of Applied Statistics , 4 (2), 943–961
^ Код для моделирования COM_Poisson , Georgetown Univ.
Внешние ссылки
Дистрибутив Конвея – Максвелла – Пуассона для R (compoisson) Джеффри Данна, часть Comprehensive R Archive Network (CRAN)
Дистрибутив Конвея – Максвелла – Пуассона для R (compoisson) Тома Минки, сторонний пакет