Сверхдисперсия

В статистике чрезмерная дисперсия — это наличие большей изменчивости ( статистической дисперсии ) в наборе данных, чем можно было бы ожидать на основе данной статистической модели .

Распространенной задачей в прикладной статистике является выбор параметрической модели , соответствующей заданному набору эмпирических наблюдений. Это требует оценки соответствия выбранной модели. Обычно можно выбрать параметры модели таким образом, чтобы теоретическое среднее значение генеральной совокупности модели было приблизительно равно выборочному среднему . Однако, особенно для простых моделей с небольшим количеством параметров, теоретические предсказания могут не совпадать с эмпирическими наблюдениями для более высоких моментов . Когда наблюдаемая дисперсия выше, чем дисперсия теоретической модели, имеет место сверхдисперсия . И наоборот, недостаточная дисперсияозначает, что вариаций данных было меньше, чем прогнозировалось. Чрезмерная дисперсия — очень распространенная черта в прикладном анализе данных, потому что на практике популяции часто бывают гетерогенными (неоднородными) вопреки предположениям, подразумеваемым в широко используемых простых параметрических моделях.

Сверхдисперсия часто встречается при подгонке очень простых параметрических моделей, например, основанных на распределении Пуассона . Распределение Пуассона имеет один свободный параметр и не позволяет корректировать дисперсию независимо от среднего значения. Выбор распределения из семейства Пуассона часто диктуется характером эмпирических данных. Например, регрессионный анализ Пуассона обычно используется для моделирования данных подсчета . Если сверхдисперсия является особенностью, альтернативная модель с дополнительными свободными параметрами может обеспечить лучшее соответствие. В случае данных подсчета модель смеси Пуассона, такая как отрицательное биномиальное распределениевместо этого можно предложить, в котором среднее значение распределения Пуассона можно рассматривать как случайную величину, взятую — в данном случае — из гамма-распределения , тем самым вводя дополнительный свободный параметр (обратите внимание, что полученное отрицательное биномиальное распределение полностью характеризуется двумя параметры).

В качестве более конкретного примера было замечено, что число мальчиков, рожденных в семьях, не совсем соответствует биномиальному распределению , как можно было бы ожидать. ^{[ править ]} Вместо этого соотношение полов в семьях, по-видимому, склоняется либо к мальчикам, либо к девочкам (см., например, гипотезу Трайверса-Уилларда для одного из возможных объяснений), т.е. достаточное количество семей, близких к населению, составляет 51:49 среднего соотношения мальчиков и девочек, чем ожидалось из биномиального распределения, и результирующая эмпирическая дисперсия больше, чем указано в биномиальной модели.

В этом случае бета-биномиальная модель распределения является популярной и поддающейся аналитической обработке альтернативной моделью биномиального распределения, поскольку она обеспечивает лучшее соответствие наблюдаемым данным. ^[1] Чтобы отразить неоднородность семей, можно представить себе, что параметр вероятности биномиальной модели (скажем, вероятность быть мальчиком) сам по себе является случайной величиной (т. е. моделью случайных эффектов ), взятой для каждой семьи из бета-распределения . как смешанное распределение. Полученное составное распределение (бета-биномиальное) имеет дополнительный свободный параметр.

Другая распространенная модель сверхдисперсии — когда некоторые наблюдения не являются бернуллиевскими — возникает из-за введения нормальной случайной величины в логистическую модель . Программное обеспечение широко доступно для подбора многоуровневой модели этого типа . В этом случае, если дисперсия нормальной переменной равна нулю, модель сводится к стандартной (нерассеянной) логистической регрессии . Эта модель имеет дополнительный свободный параметр, а именно дисперсию нормальной переменной.