Из Википедии, бесплатной энциклопедии
  (Перенаправлено из подгонки распределения )
Перейти к навигации Перейти к поиску

Подгонка распределения вероятностей или просто подгонка распределения - это подгонка распределения вероятностей к ряду данных, касающихся повторных измерений переменного явления.

Целью распределения фитинга , чтобы предсказать , по вероятности или прогнозировать на частоту возникновения величины явления в определенном интервале.

Существует множество распределений вероятностей (см. Список распределений вероятностей ), некоторые из которых могут быть более точно подогнаны к наблюдаемой частоте данных, чем другие, в зависимости от характеристик явления и распределения. Предполагается, что близкое распределение дает хорошие прогнозы.

Следовательно, при подборе распределения необходимо выбрать распределение, которое хорошо подходит для данных.

Выбор раздачи [ править ]

Различные формы симметричного нормального распределения в зависимости от среднего μ и дисперсии σ  2

Выбор подходящего распределения зависит от наличия или отсутствия симметрии набора данных относительно среднего значения .

Симметричные распределения

Когда данные распределяются симметрично вокруг среднего значения, в то время как частота появления данных дальше от среднего уменьшается, можно, например, выбрать нормальное распределение , логистическое распределение или t-распределение Стьюдента . Первые два очень похожи, в то время как последний, с одной степенью свободы, имеет «более тяжелые хвосты», что означает, что значения, более удаленные от среднего, встречаются относительно чаще (т.е. эксцесс выше). Распределение Коши также симметрично.

Наклон распределения вправо

Асимметрия влево и вправо

Когда большие значения имеют тенденцию быть дальше от среднего значения, чем меньшие значения, у одного имеется асимметрия распределения вправо (т. Е. Имеется положительная асимметрия ), можно, например, выбрать логнормальное распределение (т. Е. Логарифмические значения данные нормально распределены ), то лог-логистическое распределение (т.е. значение логарифма данных следует материально - техническому распределению ), то распределение Гумбель , то экспоненциальное распределение , то распределение Парето , то распределение Вейбуллу , то распределение Барра , или распределение Фреша. Последние четыре распределения ограничены слева.

Сдвиг распределений влево

Когда меньшие значения имеют тенденцию быть дальше от среднего, чем большие значения, у одного имеется неравномерное распределение влево (т. Е. Имеется отрицательная асимметрия), можно, например, выбрать квадратно-нормальное распределение (т. Е. Нормальное распределение, применяемое к квадрат значений данных), [1] перевернутый (зеркально) распределение Гумбеля, [1] распределение Dagum (зеркально распределение Барр), или распределение Гомпертца , которая ограничена слева.

Техники примерки [ править ]

Существуют следующие методы подгонки распределения: [2]

  • Параметрические методы , с помощью которых параметры распределения рассчитываются из рядов данных. [3] Параметрические методы:
    • метод моментов
    • оценка максимального интервала
    • метод L-моментов [4]
    • Метод максимального правдоподобия [5]
Кумулятивное распределение Гамбеля, адаптированное к максимальным однодневным осадкам в октябре в Суринаме методом регрессии с добавленным доверительным интервалом с использованием cumfreq
  • Метод регрессии , использующий преобразование кумулятивной функции распределения таким образом, чтобы находилась линейная связь между кумулятивной вероятностью и значениями данных, которые также может потребоваться преобразование в зависимости от выбранного распределения вероятностей. В этом методе кумулятивная вероятность должна оцениваться по положению на графике .

Обобщение распределений [ править ]

Принято преобразовывать данные логарифмически для соответствия симметричным распределениям (например, нормальному и логистическому ) к данным, подчиняющимся распределению, которое имеет положительный перекос (т. Е. Наклон вправо, со средней модой > и с правым хвостом, который длиннее, чем левый хвост), см. логнормальное распределение и логистическое распределение . Подобного эффекта можно добиться, извлекая квадратный корень из данных.

Чтобы согласовать симметричное распределение с данными, подчиняющимися отрицательно искаженному распределению (то есть с перекосом влево, с режимом среднего < и с правым хвостом, который короче, чем левый хвост), можно использовать квадраты значений данных для выполнения подходит.

В более общем случае можно возвести данные в степень p , чтобы согласовать симметричные распределения с данными, подчиняющимися распределению любой асимметрии, при этом p <1, когда асимметрия положительная, и p > 1, когда асимметрия отрицательная. Оптимальное значение p должно быть найдено численным методом . Численный метод может состоять из предположения диапазона значений p , затем многократного применения процедуры аппроксимации распределения для всех предполагаемых значений p и, наконец, выбора значения p, для которого сумма квадратов отклонений вычисленных вероятностей от измеренных частот ( chi в квадрате) минимально, как это сделано в CumFreq .

Обобщение увеличивает гибкость распределений вероятностей и увеличивает их применимость при подборе распределения.

Инверсия асимметрии [ править ]

(A) Распределение вероятностей Гамбеля смещено вправо и (B) Гамбель отражено смещением влево

Перекошенные распределения можно инвертировать (или отразить), заменив в математическом выражении кумулятивной функции распределения (F) ее дополнением: F '= 1-F, получив дополнительную функцию распределения (также называемую функцией выживания ), которая дает зеркальное отображение . Таким образом, распределение, которое смещено вправо, преобразуется в распределение, которое смещено влево, и наоборот.

Техника инверсии асимметрии увеличивает количество распределений вероятностей, доступных для подгонки распределения, и расширяет возможности подгонки распределения.

Перенос дистрибутивов [ править ]

Некоторые распределения вероятностей, такие как экспоненциальное , не поддерживают значения данных ( X ), равные или меньшие нуля. Тем не менее, когда отрицательные данные присутствуют, такие распределения могут еще использоваться замена X на Y = X - Xm , где Xm является минимальным значением X . Эта замена представляет собой сдвиг распределения вероятностей в положительном направлении, то есть вправо, потому что Xm отрицательно. После завершения аппроксимации распределения Y соответствующие значения X находятся из X = Y + Xm, что представляет собой обратный сдвиг распределения в отрицательном направлении, то есть влево.
Техника смещения распределения увеличивает шанс найти правильно подходящее распределение вероятностей.

Составные дистрибутивы [ править ]

Составное (прерывное) распределение с поясом уверенности [6]

Существует возможность использовать два разных распределения вероятностей, одно для нижнего диапазона данных, а другое для более высокого, как, например, распределение Лапласа . Диапазоны разделены точкой останова. Использование таких составных (прерывистых) распределений вероятностей может быть целесообразным, когда данные изучаемого явления были получены при двух наборах различных условий. [7]

Неопределенность прогноза [ править ]

Анализ неопределенности с поясами уверенности с использованием биномиального распределения [8]

Прогнозы возникновения событий, основанные на подобранных распределениях вероятностей, подвержены неопределенности , которая возникает из-за следующих условий:

  • Истинное распределение вероятностей событий может отклоняться от подобранного распределения, поскольку наблюдаемые ряды данных могут не полностью отражать реальную вероятность возникновения явления из-за случайной ошибки.
  • Возникновение событий в другой ситуации или в будущем может отклоняться от подобранного распределения, поскольку это событие также может быть предметом случайной ошибки.
  • Изменение условий окружающей среды может вызвать изменение вероятности возникновения явления.
Вариации девяти кривых периодов повторяемости для 50-летних выборок от теоретической 1000-летней записи (базовая линия), данные Benson [9]

Оценка неопределенности в первом и втором случае может быть получена с помощью биномиального распределения вероятностей с использованием, например, вероятности превышения Pe (т. Е. Вероятности того, что событие X больше контрольного значения Xr для X ) и вероятности несоблюдения -превышение Pn (т.е. вероятность того, что событие X меньше или равно эталонному значению Xr , это также называется кумулятивной вероятностью ). В этом случае есть только две возможности: либо превышение, либо непревышение. Эта двойственность является причиной применимости биномиального распределения.

С помощью биномиального распределения можно получить интервал прогноза . Такой интервал также оценивает риск отказа, то есть вероятность того, что прогнозируемое событие все еще останется за пределами доверительного интервала. Анализ достоверности или риска может включать период повторяемости T = 1 / Pe, как это делается в гидрологии .

Список вероятностных распределений, ранжированных по степени согласия. [10]
Гистограмма и плотность вероятности набора данных, соответствующих распределению GEV

Качество соответствия [ править ]

По ранжирования благости приступе различных распределений можно получить впечатление того , что распределение является приемлемым и который не является.

Гистограмма и функция плотности [ править ]

Из кумулятивной функции распределения (CDF) можно получить гистограмму и функцию плотности вероятности (PDF).

См. Также [ править ]

  • Подгонка кривой
  • Оценка плотности
  • Распределение смеси
  • Распространение продукции

Ссылки [ править ]

  1. ^ a b Гистограммы частот со смещением влево (отрицательно) могут быть подогнаны к квадратным нормальным или зеркальным функциям вероятности Гамбеля. В сети: [1]
  2. ^ Частотный и регрессионный анализ . Глава 6 в: HPRitzema (изд., 1994), Принципы и применение дренажа , Publ. 16, стр. 175–224, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. ISBN  9070754339 . Бесплатная загрузка с веб-страницы [2] под номером. 12 или напрямую в формате PDF: [3]
  3. ^ Х. Крамер, "Математические методы статистики", Princeton Univ. Пресса (1946)
  4. ^ Хоскинг, JRM (1990). «L-моменты: анализ и оценка распределений с использованием линейных комбинаций порядковых статистик». Журнал Королевского статистического общества, Series B . 52 : 105–124. JSTOR 2345653 . 
  5. ^ Олдрич, Джон (1997). «Р. А. Фишер и создание максимального правдоподобия 1912–1922 гг.» . Статистическая наука . 12 (3): 162–176. DOI : 10,1214 / сс / 1030037906 . Руководство по ремонту 1617519 . 
  6. ^ Введение в составные распределения вероятностей
  7. ^ Программное обеспечение для обобщенных и составных распределений вероятностей . В: Международный журнал математических и вычислительных методов, январь 2019 г. Он-лайн: [4]
  8. ^ Прогнозы частоты и их биномиальные доверительные интервалы. В: Международная комиссия по ирригации и дренажу, Специальная техническая сессия: экономические аспекты борьбы с наводнениями и неструктурные меры, Дубровник, Югославия, 1988. Он-лайн
  9. ^ Бенсон, Массачусетс, 1960. Характеристики частотных кривых на основе теоретических данных за 1000 лет. В: Т.Далримпл (ред.), Анализ частоты наводнений. Бумага Геологической службы США по водоснабжению, 1543-A, стр. 51-71.
  10. ^ Программное обеспечение для аппроксимации распределения вероятностей