Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Кумулятивная функция распределения для экспоненциального распределения
Кумулятивная функция распределения для нормального распределения

В теории вероятностей и статистике , то интегральная функция распределения ( CDF ) из вещественнозначной случайной величины , или просто функции распределения из , оцениваемой в , является вероятностью того, что будет принимать значение меньше или равно . [1]

В случае скалярного непрерывного распределения он дает площадь под функцией плотности вероятности от минус бесконечности до . Кумулятивные функции распределения также используются для определения распределения многомерных случайных величин .

Определение [ править ]

Кумулятивная функция распределения случайной величины с действительным знаком - это функция, заданная формулой [2] : p. 77

где правая часть представляет собой вероятность того, что случайная величина примет значение, меньшее или равное . Вероятность, которая лежит в полузакрытом интервале , где , следовательно, равна [2] : p. 84

В приведенном выше определении знак «меньше или равно», «≤», является условием, а не универсальным (например, в венгерской литературе используется «<»), но различие важно для дискретных распределений. Правильное использование таблиц биномиального распределения и распределения Пуассона зависит от этого соглашения. Более того, такие важные формулы, как формула обращения Поля Леви для характеристической функции, также основываются на формулировке «меньше или равно».

При обработке нескольких случайных величин и т. Д. Соответствующие буквы используются как нижние индексы, в то время как при обработке только одной нижний индекс обычно опускается. Обычно для кумулятивной функции распределения используется заглавная буква, в отличие от строчной буквы, используемой для функций плотности вероятности и функций массы вероятности . Это применимо при обсуждении общих распределений: некоторые конкретные распределения имеют свои собственные условные обозначения, например, нормальное распределение использует и вместо и , соответственно.

Функция плотности вероятности непрерывной случайной величины может быть определена из кумулятивной функции распределения путем дифференцирования [3] с использованием фундаментальной теоремы исчисления ; т.е. дано ,

пока существует производная.

CDF непрерывной случайной величины может быть выражен как интеграл от ее функции плотности вероятности следующим образом: [2] : p. 86

В случае случайной величины, которая имеет распределение, имеющее дискретную составляющую при значении ,

Если непрерывна в точке , она равна нулю, и дискретная составляющая в точке отсутствует .

Свойства [ править ]

Сверху вниз - кумулятивная функция распределения дискретного распределения вероятностей, непрерывного распределения вероятностей и распределения, которое имеет как непрерывную, так и дискретную части.

Каждая функция распределения является неубывающей [2] : р. 78 и непрерывной справа , [2] : с. 79, что делает его функцией càdlàg . Более того,

Каждая функция с этими четырьмя свойствами является функцией CDF, т. Е. Для каждой такой функции может быть определена случайная величина , так что функция является кумулятивной функцией распределения этой случайной величины.

Если это чисто дискретная случайная величина , то она с вероятностью принимает значения , и CDF будет разрывной в точках :

Если CDF действительной случайной величины является непрерывной , то является непрерывной случайной величиной ; если к тому же абсолютно непрерывна , то существует интегрируемая по Лебегу функция такая, что

для всех действительных чисел и . Функция равна производной от почти всюду , и это называется функция плотности вероятности распределения .

Примеры [ править ]

В качестве примера предположим, что он равномерно распределен на единичном интервале .

Тогда CDF определяется выражением

Предположим вместо этого, что принимает только дискретные значения 0 и 1 с равной вероятностью.

Тогда CDF определяется выражением

Предположим, имеет экспоненциальное распределение . Тогда CDF определяется выражением

Здесь λ> 0 - параметр распределения, часто называемый параметром скорости.

Предположим , что это нормально распределены . Тогда CDF определяется выражением

Здесь параметр  - это среднее значение или математическое ожидание распределения; и  - его стандартное отклонение.

Предположим , биномиально распределено . Тогда CDF определяется выражением

Здесь вероятность успеха, а функция обозначает дискретное распределение вероятностей числа успехов в последовательности независимых экспериментов, а также нижний предел , т.е. наибольшее целое число, меньшее или равное .

Производные функции [ править ]

Дополнительная кумулятивная функция распределения (хвостовое распределение) [ править ]

Иногда бывает полезно изучить противоположный вопрос и спросить, как часто случайная величина превышает определенный уровень. Это называется дополнительной кумулятивной функцией распределения ( ccdf ) или просто хвостовым распределением или превышением и определяется как

Это имеет применение в статистической проверке гипотез , например, потому что одностороннее p-значение - это вероятность наблюдения статистики теста, по крайней мере, такой же экстремальной, как наблюдаемая. Таким образом, при условии , что тестовая статистика , Т , имеет непрерывное распределение, односторонний р-значение просто задаются CCDF: для наблюдаемого значения тестовой статистики

В анализе выживаемости , называется функция выживания и обозначается , в то время как термин функция надежности является общим в технике .

Z-таблица:

Одним из наиболее популярных приложений кумулятивной функции распределения является стандартная нормальная таблица , также называемая единичной нормальной таблицей или Z-таблицей , [4] - это значение кумулятивной функции распределения нормального распределения. Очень полезно использовать Z-таблицу не только для вероятностей ниже значения, которое является исходным приложением кумулятивной функции распределения, но также выше и / или между значениями стандартного нормального распределения, и в дальнейшем она была расширена до любого нормального распределения.

Характеристики
  • Для неотрицательной непрерывной случайной величины, имеющей математическое ожидание, неравенство Маркова утверждает, что [5]
  • Как , так и по сути при условии, что конечно.
Доказательство: [ необходима цитата ] Предполагается, что есть функция плотности для любого
Затем, узнав и переставив термины,
как заявлено.

Свернутое совокупное распределение [ править ]

Пример свернутого кумулятивного распределения для функции нормального распределения с ожидаемым значением 0 и стандартным отклонением 1.

Хотя график кумулятивного распределения часто имеет S-образную форму, альтернативной иллюстрацией является сложенный кумулятивный график распределения или горный график , на котором складывается верхняя половина графика [6] [7], таким образом, используются две шкалы, одна для подъем и еще один спуск. Эта форма иллюстрации подчеркивает медиану и дисперсию (в частности, среднее абсолютное отклонение от медианы [8] ) распределения или эмпирических результатов.

Функция обратного распределения (функция квантиля) [ править ]

Если функция CDF F строго возрастает и непрерывна, то единственное действительное число такое, что . В таком случае это определяет обратную функцию распределения или функцию квантиля .

Некоторые дистрибутивы не имеют уникального обратного (например, в случае, когда для всех , вызывая постоянство). Эта проблема может быть решена путем определения, для , в обобщенной обратной функции распределения :

  • Пример 1: Медиана .
  • Пример 2: Положите . Затем мы называем 95-й процентиль.

Некоторые полезные свойства обратного cdf (которые также сохраняются в определении обобщенной обратной функции распределения):

  1. не убывает
  2. если и только если
  3. Если есть дистрибутив, то он распространяется как . Это используется при генерации случайных чисел с использованием метода выборки с обратным преобразованием .
  4. Если это набор независимых распределенных случайных величин, определенных в одном и том же пространстве выборки, то существуют такие случайные величины , которые распределены как и с вероятностью 1 для всех . [ необходима цитата ]

Обратное к cdf можно использовать для перевода результатов, полученных для равномерного распределения, в другие распределения.

Эмпирическая функция распределения [ править ]

Эмпирическая функция распределения является оценкой интегральной функции распределения , который генерирует точки в образце. Он сходится с вероятностью 1 к этому базовому распределению. Существует ряд результатов, позволяющих количественно оценить скорость сходимости эмпирической функции распределения к основной кумулятивной функции распределения [ необходима цитата ] .

Многовариантный случай [ править ]

Определение двух случайных величин [ править ]

При одновременной работе с более чем одной случайной величиной также можно определить совместную кумулятивную функцию распределения . Например, для пары случайных величин совместный CDF определяется как [2] : p. 89

где правая часть представляет собой вероятность того, что случайная величина принимает значение, меньшее или равное, и которое принимает значение, меньшее или равное .

Пример совместной кумулятивной функции распределения:

В течение двух непрерывных переменных X и Y : ;

Для двух дискретных случайных величин полезно создать таблицу вероятностей и определить совокупную вероятность для каждого потенциального диапазона X и Y , и вот пример: [9]

учитывая совместную функцию плотности вероятности в табличной форме, определите совместную кумулятивную функцию распределения.

Решение: используя данную таблицу вероятностей для каждого потенциального диапазона X и Y , совместная кумулятивная функция распределения может быть построена в табличной форме:


Определение более двух случайных величин [ править ]

Для случайных величин совместный CDF имеет вид

Интерпретация случайных величин как случайного вектора дает более короткую запись:

Свойства [ править ]

Каждый многомерный CDF:

  1. Монотонно неубывающая по каждой из своих переменных,
  2. Непрерывна справа по каждой из своих переменных,

Вероятность того, что точка принадлежит гипер прямоугольнику , аналогична одномерному случаю: [10]

Сложный случай [ править ]

Сложная случайная величина [ править ]

Обобщение кумулятивной функции распределения от реальных до комплексных случайных величин неочевидно, потому что выражения формы не имеют смысла. Однако выражения формы имеют смысл. Поэтому мы определяем совокупное распределение сложных случайных величин через совместное распределение их действительной и мнимой частей:

.

Сложный случайный вектор [ править ]

Обобщение уравнения 4 дает

как определение CDS комплексного случайного вектора .

Использование в статистическом анализе [ править ]

Концепция кумулятивной функции распределения явно проявляется в статистическом анализе двумя (аналогичными) способами. Кумулятивный частотный анализ - это анализ частоты появления значений явления меньше эталонного значения. Эмпирическая функция распределения является формальной непосредственной оценкой интегральной функции распределения , для которых простых статистических свойства могут быть получены , и которые могут стать основой различных тестов статистической гипотезы . Такие тесты могут оценить, есть ли свидетельства против выборки данных, полученных из данного распределения, или свидетельства против двух выборок данных, полученных из одного и того же (неизвестного) распределения населения.

Тесты Колмогорова – Смирнова и Койпера [ править ]

Тест Колмогорова – Смирнова основан на кумулятивных функциях распределения и может использоваться для проверки того, различаются ли два эмпирических распределения или эмпирическое распределение отличается от идеального распределения. Тесно связанный тест Койпера полезен, если область распределения циклична, например, по дням недели. Например, можно использовать тест Койпера, чтобы увидеть, меняется ли количество торнадо в течение года или продажи продукта меняются по дню недели или дню месяца.

См. Также [ править ]

  • Описательная статистика
  • Распределительная арматура
  • Ogive (статистика)

Ссылки [ править ]

  1. ^ Дайзенрот, Марк Питер; Фейсал, А. Альдо; Онг, Ченг Сун (2020). Математика для машинного обучения . Издательство Кембриджского университета. п. 181. ISBN. 9781108455145.
  2. ^ Б с д е е Park, Куна Il (2018). Основы вероятностных и случайных процессов с приложениями к коммуникациям . Springer. ISBN 978-3-319-68074-3.
  3. ^ Монтгомери, Дуглас С .; Рангер, Джордж К. (2003). Прикладная статистика и вероятность для инженеров (PDF) . John Wiley & Sons, Inc. стр. 104. ISBN  0-471-20454-4.
  4. ^ "Z Таблица" . Z Таблица . Проверено 11 декабря 2019 .
  5. ^ Цвиллинджер, Даниэль; Кокоска, Стивен (2010). Стандартные таблицы вероятностей и статистики CRC и формулы . CRC Press. п. 49. ISBN 978-1-58488-059-2.
  6. ^ Нежный, JE (2009). Вычислительная статистика . Springer . ISBN 978-0-387-98145-1. Проверено 6 августа 2010 .[ требуется страница ]
  7. Перейти ↑ Monti, KL (1995). «Сложенные кривые эмпирической функции распределения (горные графики)». Американский статистик . 49 (4): 342–345. DOI : 10.2307 / 2684570 . JSTOR 2684570 . 
  8. ^ Сюэ, JH; Титерингтон, DM (2011). «Кумулятивная функция распределения с p-сложением и среднее абсолютное отклонение от p-квантиля» (PDF) . Статистические и вероятностные письма . 81 (8): 1179–1182. DOI : 10.1016 / j.spl.2011.03.014 .
  9. ^ «Совместная кумулятивная функция распределения (CDF)» . math.info . Проверено 11 декабря 2019 .
  10. ^ [1]

Внешние ссылки [ править ]

  • СМИ, связанные с кумулятивными функциями распределения на Викискладе?