Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Кумулятивное частотное распределение, адаптированное кумулятивное распределение вероятностей и доверительные интервалы

Кумулятивный частотный анализ - это анализ частоты появления значений явления меньше эталонного значения. Явление может зависеть от времени или пространства. Накопленная частота также называется частотой непревышения .

Кумулятивный частотный анализ выполняется, чтобы получить представление о том, как часто определенное явление (характеристика) оказывается ниже определенного значения. Это может помочь в описании или объяснении ситуации, в которой задействовано данное явление, или в планировании мероприятий, например, в защите от наводнений. [1]

Этот статистический метод можно использовать для определения вероятности повторения такого события, как наводнение, в будущем, исходя из того, как часто оно происходило в прошлом. Его можно адаптировать к таким вещам, как изменение климата, вызывающее более влажную зиму и более сухое лето.

Принципы [ править ]

Определения [ править ]

Частотный анализ [2] - это анализ того, как часто или как часто наблюдаемое явление происходит в определенном диапазоне.

Частотный анализ применяется к записи длиной N наблюдаемых данных X 1 , X 2 , X 3 . . . Х Н на переменном явление X . Запись может зависеть от времени (например, количество осадков, измеренных в одном месте) или от площади (например, урожайность в области) или иным образом.

Накопленная частота М ХГ опорного значения Xr является частота , с которой наблюдаемые значения Х меньше или равна Xr .

Относительная накопленная частота Fc , может быть рассчитана следующим образом :

Fc = M Xr / N

где N - количество данных

Кратко это выражение можно обозначить так:

Fc = M / N

Когда Xr = Xmin , где Xmin - единственное наблюдаемое минимальное значение, оказывается, что Fc = 1 / N , потому что M = 1. С другой стороны, когда Xr = Xmax , где Xmax - единственное наблюдаемое максимальное значение, оно равно обнаружено , что Fc = 1, потому что M = N . Следовательно, когда Fc = 1, это означает, что Xr является значением, при котором все данные меньше или равны Xr .

В процентах уравнение гласит:

Fc (%) = 100 M / N

Оценка вероятности [ править ]

От совокупной частоты [ править ]

Кумулятивная вероятность Рс из X , чтобы быть меньше или равна Xr может быть оценена несколькими способами на основе накопленной частоты M .

Один из способов - использовать относительную накопленную частоту Fc в качестве оценки.

Другой способ - принять во внимание возможность того, что в редких случаях X может принимать значения, превышающие наблюдаемый максимум Xmax . Это может быть сделано делением накапливаемых частот M на N + 1 вместо N . Тогда оценка становится:

Pc = M / ( N +1)

Существуют также другие предложения по знаменателю (см. Позиции построения ).

По технике ранжирования [ править ]

Ранжированные кумулятивные вероятности

Оценка вероятности упрощается за счет ранжирования данных.

Когда наблюдаемые данные X расположены в порядке возрастания ( X 1X 2X 3 ≤ ... ≤ X N , минимальное первое и максимальное последнее), а Ri - номер ранга наблюдения Xi , где adfix i указывает порядковый номер в диапазоне восходящих данных, тогда кумулятивная вероятность может быть оценена следующим образом:

Pc = Ri / ( N + 1)

Когда, с другой стороны, наблюдаемые данные из X расположены в порядке убывания , максимальное первое и минимальное последнее, а Rj - номер ранга наблюдения Xj , совокупная вероятность может быть оценена следующим образом:

Pc = 1 - Rj / ( N + 1)

Подбор вероятностных распределений [ править ]

Непрерывное распространение [ править ]

Различные кумулятивные нормальные распределения вероятностей с их параметрами

Чтобы представить совокупное частотное распределение в виде непрерывного математического уравнения вместо дискретного набора данных, можно попытаться подогнать совокупное частотное распределение к известному совокупному распределению вероятностей. [2] [3] В
случае успеха известного уравнения будет достаточно, чтобы сообщить о распределении частот, и таблица данных не потребуется. Кроме того, уравнение помогает интерполяции и экстраполяции. Однако следует проявлять осторожность при экстраполяции совокупного частотного распределения, поскольку это может быть источником ошибок. Одна из возможных ошибок состоит в том, что распределение частот больше не следует выбранному распределению вероятностей за пределами диапазона наблюдаемых данных.

Любое уравнение, которое дает значение 1 при интегрировании от нижнего предела до верхнего предела, хорошо согласующегося с диапазоном данных, может использоваться в качестве распределения вероятностей для подгонки. Образец распределений вероятностей, которые можно использовать, можно найти в распределениях вероятностей .

Распределения вероятностей можно аппроксимировать несколькими способами, например [2] :

  • параметрический метод, определяющий такие параметры, как среднее значение и стандартное отклонение от данных X, используя метод моментов , метод максимального правдоподобия и метод моментов, взвешенных по вероятности .
  • метод регрессии, линеаризующий распределение вероятностей посредством преобразования и определение параметров из линейной регрессии преобразованного Pc (полученного в результате ранжирования) на преобразованных данных X.

Применение обоих типов методов с использованием, например,

часто показывает, что ряд распределений хорошо соответствует данным и не дает существенно различающихся результатов, в то время как различия между ними могут быть небольшими по сравнению с шириной доверительного интервала. [2] Это показывает, что может быть трудно определить, какое распределение дает лучшие результаты. Например, приблизительно нормально распределенные наборы данных могут быть приспособлены к большому количеству различных распределений вероятностей. [4], в то время как отрицательно искаженные распределения могут быть подогнаны к квадратно-нормальным и зеркальным распределениям Гамбеля. [5]

Кумулятивное частотное распределение с разрывом

Прерывистые распределения [ править ]

Иногда можно подогнать один тип распределения вероятностей к нижней части диапазона данных, а другой тип - к более высокой части, разделенных точкой останова, в результате чего общее соответствие улучшается.

На рисунке показан пример полезного введения такого прерывистого распределения для данных об осадках в северной части Перу, где климат зависит от поведения течения Эль-Ниньо в Тихом океане . Когда Ниньо простирается на юг Эквадора и впадает в океан вдоль побережья Перу, климат в северном Перу становится тропическим и влажным. Когда Ниньо не достигает Перу, климат здесь полузасушливый. По этой причине более высокие осадки имеют другое частотное распределение, чем более низкие осадки. [6]

Прогноз [ править ]

Неопределенность [ править ]

Когда кумулятивное частотное распределение выводится из записи данных, можно задаться вопросом, можно ли его использовать для прогнозов. [7] Например, учитывая распределение речного стока за 1950–2000 годы, можно ли это распределение использовать для прогнозирования того, как часто будет превышаться определенный речной сток в 2000–50 годах? Ответ - да, при условии, что условия окружающей среды не изменятся. Если условия окружающей среды действительно меняются, например, изменения инфраструктуры водосбора реки или режима выпадения дождя из-за климатических изменений, прогноз на основе исторических данных может быть систематическим с ошибкой . Даже если систематической ошибки нет, может быть случайная ошибка., потому что случайно наблюдаемые разряды в период 1950–2000 годов могли быть выше или ниже нормы, в то время как, с другой стороны, разряды с 2000 по 2050 год могут случайно оказаться ниже или выше нормы. Проблемы, связанные с этим, были исследованы в книге «Черный лебедь» .

Доверительные интервалы [ править ]

Биномиальные распределения для Pc = 0,1 (синий), 0,5 (зеленый) и 0,8 (красный) в выборке размером N = 20. Распределение симметрично только при Pc = 0,5.
90% биномиальные пояса достоверности в логарифмической шкале.

Теория вероятностей может помочь оценить диапазон, в котором может находиться случайная ошибка. В случае кумулятивной частоты есть только две возможности: определенное опорное значение Х превышается или не превышается. Сумма частоты превышения и совокупной частоты составляет 1 или 100%. Следовательно, биномиальное распределение можно использовать для оценки диапазона случайной ошибки.

Согласно нормальной теории, биномиальное распределение можно аппроксимировать, а для больших N стандартное отклонение Sd можно рассчитать следующим образом:

  • Sd  = Pc (1 - Pc ) / N

где Pc - кумулятивная вероятность, а N - количество данных. Видно , что стандартное отклонение Сд уменьшает при увеличении числа наблюдений N .

Определение доверительного интервала от ПК позволяет использовать Т-критерий Стьюдента ( т ). Значение t зависит от количества данных и уровня достоверности оценки доверительного интервала. Затем нижний ( L ) и верхний ( U ) пределы достоверности Pc в симметричном распределении находятся по формуле:

  • L  =  Pc  -  tSd
  • U  =  Pc  +  tSd

Это известно как интервал Вальда . [8] Однако биномиальное распределение симметрично относительно среднего только при Pc  = 0,5, но оно становится асимметричным и все более и более перекосом, когда Pc приближается к 0 или 1. Следовательно, путем аппроксимации Pc и 1− Pc могут использоваться в качестве веса. факторы в передаче имущества t.Sd к L и U  :

  • L  =  Pc  - 2⋅ PctSd
  • U  =  Pc  + 2⋅ (1 - Pc ) ⋅ tSd

где видно, что эти выражения для Pc = 0,5 совпадают с предыдущими.

Заметки

  • Известно, что интервал Вальда работает плохо. [9] [10] [11]
  • Wilson забить интервал [12] обеспечивает доверительный интервал для биномиальных распределений на основе количественных показателей тестов и имеет лучший образец покрытия, см [13] и биномиальное интервал доли доверия для более детального обзора.
  • Вместо «интервала оценки Вильсона» можно также использовать «интервал Вальда» при условии, что включены вышеуказанные весовые коэффициенты.

Период возврата [ править ]

Периоды возврата и пояс уверенности. Кривая периодов доходности растет экспоненциально.

Кумулятивная вероятность Pc также может быть названа вероятностью непревышения . Вероятность превышения Пе (также называется функцией выживания ) определяется из:

  • Pe  = 1 -  ПК

Период повторяемости T определяется как:

  • Т  = 1 / Ре

и указывает на ожидаемое число наблюдений, которые предстоит сделать еще раз , чтобы найти значение переменной в исследовании больше , чем значение , используемое для T .
Верхний ( T U ) и нижний ( T L ) пределы достоверности периодов повторяемости можно найти соответственно как:

  • Т U = 1 / (1 - U )
  • Т L = 1 / (1 - L )

Для экстремальных значений переменной в исследовании, U близка к 1 и небольшие изменения в U происходят большие изменения в T U . Следовательно, предполагаемый период повторяемости экстремальных значений подвержен большой случайной ошибке. Более того, найденные доверительные интервалы сохраняются для долгосрочного прогноза. Для прогнозов с более коротким периодом доверительные интервалы U - L и T U - T L могут быть шире. Вместе с ограниченной достоверностью (менее 100%), использованной в t-тесте , это объясняет, почему, например, 100-летние осадки могут выпадать дважды за 10 лет.

Девять возврата периода кривые образцов 50-летних от теоретической 1000 года записи (базовой линии)

Строгое понятие периода повторяемости имеет смысл только тогда, когда оно касается явления, зависящего от времени, например точечных осадков. Период возврата тогда соответствует ожидаемому времени ожидания, пока превышение не произойдет снова. Период повторяемости имеет то же измерение, что и время, для которого репрезентативно каждое наблюдение. Например, когда наблюдения касаются ежедневных осадков, период повторяемости выражается в днях, а для годовых осадков - в годах.

Потребность в поясах уверенности [ править ]

На рисунке показано изменение, которое может возникнуть при получении выборок переменной, соответствующей определенному распределению вероятностей. Данные были предоставлены Бенсоном. [1]

Полоса уверенности вокруг экспериментальной кривой накопленной частоты или периода повторяемости дает представление о регионе, в котором может быть найдено истинное распределение.

Кроме того, он поясняет, что экспериментально найденное наиболее подходящее распределение вероятностей может отклоняться от истинного распределения.

Гистограмма [ править ]

Гистограмма, полученная из адаптированного кумулятивного распределения вероятностей
Гистограмма и функция плотности вероятности, полученные из кумулятивного распределения вероятностей, для логистического распределения .

Наблюдаемые данные могут быть сгруппированы по классам или группам с порядковым номером k . Каждая группа имеет нижний предел ( L k ) и верхний предел ( U k ). Когда класс ( k ) содержит m k данных, а общее количество данных равно N , тогда относительная частота класса или группы находится из:

  • Fg ( L k < XU k )  =  m k / N

или кратко:

  • Fg k  =  m / N

или в процентах:

  • Fg (%) = 100 м / Н

Представление частот всех классов дает частотное распределение или гистограмму . Гистограммы, даже если они сделаны из одной и той же записи, различаются для разных классов.

Гистограмма также может быть получена из подобранного кумулятивного распределения вероятностей:

  • Pg k = Pc ( U k ) - Pc ( L k )

Может быть разница между Fg k и Pg k из-за отклонений наблюдаемых данных от подобранного распределения (см. Синий рисунок).

Часто желательно объединить гистограмму с функцией плотности вероятности, как показано на черно-белом изображении.

См. Также [ править ]

  • Доверительный интервал биномиальной пропорции
  • Кумулятивная функция распределения
  • Распределительная арматура
  • Частота (статистика)
  • Частота превышения
  • совокупные количества (логистика)

Ссылки [ править ]

  1. ^ a b Бенсон, Массачусетс, 1960. Характеристики частотных кривых на основе теоретических данных за 1000 лет. В: Т.Далримпл (ред.), Анализ частоты наводнений. Документ Геологической службы США по водоснабжению 1543-A, стр. 51–71
  2. ^ a b c d Частотный и регрессионный анализ . Глава 6 в: HP Ritzema (изд., 1994), Принципы и применение дренажа , Publ. 16, стр. 175–224, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. ISBN  90-70754-33-9 . Бесплатная загрузка с веб-страницы [1] под номером. 12 или напрямую в формате PDF: [2]
  3. ^ Дэвид Восе, Подгонка распределений к данным
  4. ^ Пример приблизительно нормально распределенного набора данных, к которому может быть приспособлено большое количество различных распределений вероятностей, [3]
  5. ^ Левые (отрицательно) искаженные частотные гистограммы могут быть подогнаны к квадратным нормальным или зеркальным функциям вероятности Гамбеля. [4]
  6. ^ CumFreq, программа для кумулятивного частотного анализа с доверительными диапазонами, периодами возврата и возможностью прерывания. Бесплатная загрузка с: [5]
  7. ^ Сильвия Masciocchi, 2012, Статистические методы в физике элементарных частиц, Лекция 11, Зимний семестр 2012/13, GSI Darmstadt. [6]
  8. ^ Wald, A .; Дж. Вулфовиц (1939). «Пределы уверенности для непрерывных функций распределения» . Летопись математической статистики . 10 : 105–118. DOI : 10.1214 / АОМ / 1177732209 .
  9. Перейти ↑ Ghosh, BK (1979). «Сравнение некоторых приблизительных доверительных интервалов для биномиального параметра». Журнал Американской статистической ассоциации . 74 : 894–900. DOI : 10.1080 / 01621459.1979.10481051 .
  10. ^ Блит, CR; Г.А. Стилл (1983). «Биномиальные доверительные интервалы». Журнал Американской статистической ассоциации . 78 : 108–116. DOI : 10.1080 / 01621459.1983.10477938 .
  11. ^ Agresti, A .; Б. Каффо (2000). «Простые и эффективные доверительные интервалы для пропорций и различий в пропорциях являются результатом сложения двух успехов и двух неудач». Американский статистик . 54 : 280–288. DOI : 10.1080 / 00031305.2000.10474560 .
  12. Перейти ↑ Wilson, EB (1927). «Вероятный вывод, закон последовательности и статистический вывод». Журнал Американской статистической ассоциации . 22 : 209–212. DOI : 10.1080 / 01621459.1927.10502953 .
  13. Перейти ↑ Hogg, RV (2001). Вероятность и статистический вывод (6-е изд.) . Прентис-Холл, Нью-Джерси: Верхняя Седл-Ривер.