Подгонка распределения вероятностей

Подгонка распределения вероятностей или просто подгонка распределения - это подгонка распределения вероятностей к ряду данных, касающихся повторных измерений переменного явления.

Целью распределения фитинга , чтобы предсказать , по вероятности или прогнозировать на частоту возникновения величины явления в определенном интервале.

Существует множество распределений вероятностей (см. Список распределений вероятностей ), некоторые из которых могут быть более точно подогнаны к наблюдаемой частоте данных, чем другие, в зависимости от характеристик явления и распределения. Предполагается, что близкое распределение дает хорошие прогнозы.

Следовательно, при подборе распределения необходимо выбрать распределение, которое хорошо подходит для данных.

Выбор раздачи [ править ]

Различные формы симметричного нормального распределения в зависимости от среднего μ и дисперсии σ ²

Выбор подходящего распределения зависит от наличия или отсутствия симметрии набора данных относительно среднего значения .

Симметричные распределения

Когда данные распределяются симметрично вокруг среднего значения, в то время как частота появления данных дальше от среднего уменьшается, можно, например, выбрать нормальное распределение , логистическое распределение или t-распределение Стьюдента . Первые два очень похожи, в то время как последний, с одной степенью свободы, имеет «более тяжелые хвосты», что означает, что значения, более удаленные от среднего, встречаются относительно чаще (т.е. эксцесс выше). Распределение Коши также симметрично.

Наклон распределения вправо

Асимметрия влево и вправо

Когда большие значения имеют тенденцию быть дальше от среднего значения, чем меньшие значения, у одного имеется асимметрия распределения вправо (т. Е. Имеется положительная асимметрия ), можно, например, выбрать логнормальное распределение (т. Е. Логарифмические значения данные нормально распределены ), то лог-логистическое распределение (т.е. значение логарифма данных следует материально - техническому распределению ), то распределение Гумбель , то экспоненциальное распределение , то распределение Парето , то распределение Вейбуллу , то распределение Барра , или распределение Фреша. Последние четыре распределения ограничены слева.

Сдвиг распределений влево

Когда меньшие значения имеют тенденцию быть дальше от среднего, чем большие значения, у одного имеется неравномерное распределение влево (т. Е. Имеется отрицательная асимметрия), можно, например, выбрать квадратно-нормальное распределение (т. Е. Нормальное распределение, применяемое к квадрат значений данных), ^[1] перевернутый (зеркально) распределение Гумбеля, ^[1] распределение Dagum (зеркально распределение Барр), или распределение Гомпертца , которая ограничена слева.

Техники примерки [ править ]

Существуют следующие методы подгонки распределения: ^[2]

Параметрические методы , с помощью которых параметры распределения рассчитываются из рядов данных. ^[3] Параметрические методы:
- метод моментов
- оценка максимального интервала
- метод L-моментов ^[4]
- Метод максимального правдоподобия ^[5]

Например, параметр ( ${\ displaystyle \ mu}$ ожидание ) можно оценить по среднему значению данных, а параметр ( дисперсию ) можно оценить по стандартному отклонению данных. Среднее значение находится как , где - значение данных и количество данных, а стандартное отклонение рассчитывается как . С помощью этих параметров полностью определяются многие распределения, например, нормальное распределение. ${\ displaystyle \ sigma ^ {2}}$ ${\ Displaystyle м = \ сумма {X} / п}$ $X$ $n$ $s={\sqrt {{\frac {1}{n-1}}\sum {(X-m)^{2}}}}$

Кумулятивное распределение Гамбеля, адаптированное к максимальным однодневным осадкам в октябре в Суринаме методом регрессии с добавленным доверительным интервалом с использованием cumfreq

Метод регрессии , использующий преобразование кумулятивной функции распределения таким образом, чтобы находилась линейная связь между кумулятивной вероятностью и значениями данных, которые также может потребоваться преобразование в зависимости от выбранного распределения вероятностей. В этом методе кумулятивная вероятность должна оцениваться по положению на графике .

Например, кумулятивное распределение Гамбеля может быть линеаризовано до , где - переменная данных и , где - кумулятивная вероятность, то есть вероятность того, что значение данных меньше . Таким образом, используя положение графика для , можно найти параметры и из линейной регрессии on , и распределение Гамбеля полностью определено.

Y=aX+b

X

Y=-\ln(-\ln P)

P

X

P

a

b

Y

X

Обобщение распределений [ править ]

Принято преобразовывать данные логарифмически для соответствия симметричным распределениям (например, нормальному и логистическому ) к данным, подчиняющимся распределению, которое имеет положительный перекос (т. Е. Наклон вправо, со средней модой > и с правым хвостом, который длиннее, чем левый хвост), см. логнормальное распределение и логистическое распределение . Подобного эффекта можно добиться, извлекая квадратный корень из данных.

Чтобы согласовать симметричное распределение с данными, подчиняющимися отрицательно искаженному распределению (то есть с перекосом влево, с режимом среднего < и с правым хвостом, который короче, чем левый хвост), можно использовать квадраты значений данных для выполнения подходит.

В более общем случае можно возвести данные в степень p , чтобы согласовать симметричные распределения с данными, подчиняющимися распределению любой асимметрии, при этом p <1, когда асимметрия положительная, и p > 1, когда асимметрия отрицательная. Оптимальное значение p должно быть найдено численным методом . Численный метод может состоять из предположения диапазона значений p , затем многократного применения процедуры аппроксимации распределения для всех предполагаемых значений p и, наконец, выбора значения p, для которого сумма квадратов отклонений вычисленных вероятностей от измеренных частот ( chi в квадрате) минимально, как это сделано в CumFreq .

Обобщение увеличивает гибкость распределений вероятностей и увеличивает их применимость при подборе распределения.

Инверсия асимметрии [ править ]

(A) Распределение вероятностей Гамбеля смещено вправо и (B) Гамбель отражено смещением влево

Перекошенные распределения можно инвертировать (или отразить), заменив в математическом выражении кумулятивной функции распределения (F) ее дополнением: F '= 1-F, получив дополнительную функцию распределения (также называемую функцией выживания ), которая дает зеркальное отображение . Таким образом, распределение, которое смещено вправо, преобразуется в распределение, которое смещено влево, и наоборот.

Пример . F-выражение положительно скошенного распределения Гамбеля: F = exp [-exp {- ( X - u ) /0,78 s }], где u - мода (т. Е. Наиболее часто встречающееся значение), а s - стандартное отклонение. . Распределение Гамбеля можно преобразовать с помощью F '= 1-exp [-exp {- ( x - u ) /0.78 s }]. Это преобразование дает обратное, зеркальное или дополнительное распределение Гамбеля, которое может соответствовать ряду данных, подчиняющемуся отрицательно искаженному распределению.

Техника инверсии асимметрии увеличивает количество распределений вероятностей, доступных для подгонки распределения, и расширяет возможности подгонки распределения.

Перенос дистрибутивов [ править ]

Некоторые распределения вероятностей, такие как экспоненциальное , не поддерживают значения данных ( X ), равные или меньшие нуля. Тем не менее, когда отрицательные данные присутствуют, такие распределения могут еще использоваться замена X на Y = X - Xm , где Xm является минимальным значением X . Эта замена представляет собой сдвиг распределения вероятностей в положительном направлении, то есть вправо, потому что Xm отрицательно. После завершения аппроксимации распределения Y соответствующие значения X находятся из X = Y + Xm, что представляет собой обратный сдвиг распределения в отрицательном направлении, то есть влево.
Техника смещения распределения увеличивает шанс найти правильно подходящее распределение вероятностей.

Составные дистрибутивы [ править ]

Составное (прерывное) распределение с поясом уверенности ^[6]

Существует возможность использовать два разных распределения вероятностей, одно для нижнего диапазона данных, а другое для более высокого, как, например, распределение Лапласа . Диапазоны разделены точкой останова. Использование таких составных (прерывистых) распределений вероятностей может быть целесообразным, когда данные изучаемого явления были получены при двух наборах различных условий. ^[7]

Неопределенность прогноза [ править ]

Анализ неопределенности с поясами уверенности с использованием биномиального распределения ^[8]

Прогнозы возникновения событий, основанные на подобранных распределениях вероятностей, подвержены неопределенности , которая возникает из-за следующих условий:

Истинное распределение вероятностей событий может отклоняться от подобранного распределения, поскольку наблюдаемые ряды данных могут не полностью отражать реальную вероятность возникновения явления из-за случайной ошибки.
Возникновение событий в другой ситуации или в будущем может отклоняться от подобранного распределения, поскольку это событие также может быть предметом случайной ошибки.
Изменение условий окружающей среды может вызвать изменение вероятности возникновения явления.

Вариации девяти кривых периодов повторяемости для 50-летних выборок от теоретической 1000-летней записи (базовая линия), данные Benson ^[9]

Оценка неопределенности в первом и втором случае может быть получена с помощью биномиального распределения вероятностей с использованием, например, вероятности превышения Pe (т. Е. Вероятности того, что событие X больше контрольного значения Xr для X ) и вероятности несоблюдения -превышение Pn (т.е. вероятность того, что событие X меньше или равно эталонному значению Xr , это также называется кумулятивной вероятностью ). В этом случае есть только две возможности: либо превышение, либо непревышение. Эта двойственность является причиной применимости биномиального распределения.

С помощью биномиального распределения можно получить интервал прогноза . Такой интервал также оценивает риск отказа, то есть вероятность того, что прогнозируемое событие все еще останется за пределами доверительного интервала. Анализ достоверности или риска может включать период повторяемости T = 1 / Pe, как это делается в гидрологии .

Список вероятностных распределений, ранжированных по степени согласия. ^[10]

Гистограмма и плотность вероятности набора данных, соответствующих распределению GEV

Качество соответствия [ править ]

По ранжирования благости приступе различных распределений можно получить впечатление того , что распределение является приемлемым и который не является.

Гистограмма и функция плотности [ править ]

Из кумулятивной функции распределения (CDF) можно получить гистограмму и функцию плотности вероятности (PDF).

См. Также [ править ]

Подгонка кривой
Оценка плотности
Распределение смеси
Распространение продукции

Ссылки [ править ]

^ a b Гистограммы частот со смещением влево (отрицательно) могут быть подогнаны к квадратным нормальным или зеркальным функциям вероятности Гамбеля. В сети: [1]
^ Частотный и регрессионный анализ . Глава 6 в: HPRitzema (изд., 1994), Принципы и применение дренажа , Publ. 16, стр. 175–224, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. ISBN 9070754339 . Бесплатная загрузка с веб-страницы [2] под номером. 12 или напрямую в формате PDF: [3]
^ Х. Крамер, "Математические методы статистики", Princeton Univ. Пресса (1946)
^ Хоскинг, JRM (1990). «L-моменты: анализ и оценка распределений с использованием линейных комбинаций порядковых статистик». Журнал Королевского статистического общества, Series B . 52 : 105–124. JSTOR 2345653 .
^ Олдрич, Джон (1997). «Р. А. Фишер и создание максимального правдоподобия 1912–1922 гг.» . Статистическая наука . 12 (3): 162–176. DOI : 10,1214 / сс / 1030037906 . Руководство по ремонту 1617519 .
^ Введение в составные распределения вероятностей
^ Программное обеспечение для обобщенных и составных распределений вероятностей . В: Международный журнал математических и вычислительных методов, январь 2019 г. Он-лайн: [4]
^ Прогнозы частоты и их биномиальные доверительные интервалы. В: Международная комиссия по ирригации и дренажу, Специальная техническая сессия: экономические аспекты борьбы с наводнениями и неструктурные меры, Дубровник, Югославия, 1988. Он-лайн
^ Бенсон, Массачусетс, 1960. Характеристики частотных кривых на основе теоретических данных за 1000 лет. В: Т.Далримпл (ред.), Анализ частоты наводнений. Бумага Геологической службы США по водоснабжению, 1543-A, стр. 51-71.
^ Программное обеспечение для аппроксимации распределения вероятностей

[skew-1] Гистограммы частот со смещением влево (отрицательно) могут быть подогнаны к квадратным нормальным или зеркальным функциям вероятности Гамбеля. В сети: [1]

[2] Частотный и регрессионный анализ . Глава 6 в: HPRitzema (изд., 1994), Принципы и применение дренажа , Publ. 16, стр. 175–224, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. ISBN 9070754339 . Бесплатная загрузка с веб-страницы [2] под номером. 12 или напрямую в формате PDF: [3]

[3] Х. Крамер, "Математические методы статистики", Princeton Univ. Пресса (1946)

[4] Хоскинг, JRM (1990). «L-моменты: анализ и оценка распределений с использованием линейных комбинаций порядковых статистик». Журнал Королевского статистического общества, Series B . 52 : 105–124. JSTOR 2345653 .

[5] Олдрич, Джон (1997). «Р. А. Фишер и создание максимального правдоподобия 1912–1922 гг.» . Статистическая наука . 12 (3): 162–176. DOI : 10,1214 / сс / 1030037906 . Руководство по ремонту 1617519 .

[6] Введение в составные распределения вероятностей

[7] Программное обеспечение для обобщенных и составных распределений вероятностей . В: Международный журнал математических и вычислительных методов, январь 2019 г. Он-лайн: [4]

[8] Прогнозы частоты и их биномиальные доверительные интервалы. В: Международная комиссия по ирригации и дренажу, Специальная техническая сессия: экономические аспекты борьбы с наводнениями и неструктурные меры, Дубровник, Югославия, 1988. Он-лайн

[9] Бенсон, Массачусетс, 1960. Характеристики частотных кривых на основе теоретических данных за 1000 лет. В: Т.Далримпл (ред.), Анализ частоты наводнений. Бумага Геологической службы США по водоснабжению, 1543-A, стр. 51-71.

[10] Программное обеспечение для аппроксимации распределения вероятностей

[1]

vтеРаспределительная арматура
Обзор и методы	График вероятности График нормальной вероятности График P – P Q – Q график Построение позиции L-момент Распределительная арматура Кумулятивный частотный анализ
Программного обеспечения	CumFreq MathWorks р StatSoft