В теории вероятностей и статистике , в функции кумулятивного распределения ( CDF ) из вещественнозначной случайной величины Или просто функция распределения по, оценивается в , - вероятность того, что примет значение меньше или равное . [1]
Каждое распределение вероятностей, поддерживаемое действительными числами, дискретное или «смешанное», а также непрерывное, однозначно идентифицируется непрерывной вверх [2] монотонной возрастающей кумулятивной функцией распределения. удовлетворение а также .
В случае скалярного непрерывного распределения это дает площадь под функцией плотности вероятности от минус бесконечности до. Кумулятивные функции распределения также используются для определения распределения многомерных случайных величин .
Определение
Кумулятивная функция распределения случайной величины с действительным знаком - функция, заданная формулой [3] : с. 77
| ( Уравнение 1 ) |
где правая часть представляет собой вероятность того, что случайная величина принимает значение меньше или равное . Вероятность того, чтолежит в полузакрытом интервале , где , поэтому [3] : с. 84
| ( Уравнение 2 ) |
В приведенном выше определении знак «меньше или равно», «≤», является условием, а не универсальным (например, в венгерской литературе используется «<»), но различие важно для дискретных распределений. Правильное использование таблиц биномиального распределения и распределения Пуассона зависит от этого соглашения. Более того, такие важные формулы, как формула обращения Поля Леви для характеристической функции, также основываются на формулировке «меньше или равно».
При обработке нескольких случайных величин и т.д. соответствующие буквы используются как нижние индексы, в то время как, если рассматривается только один, нижний индекс обычно опускается. Принято использовать заглавную букву для кумулятивной функции распределения, в отличие от строчной используется для функций плотности вероятности и функций массы вероятности . Это применимо при обсуждении общих распределений: некоторые конкретные распределения имеют свои собственные условные обозначения, например, нормальное распределение использует а также вместо а также , соответственно.
Функция плотности вероятности непрерывной случайной величины может быть определена из кумулятивной функции распределения путем дифференцирования [4] с использованием фундаментальной теоремы исчисления ; т.е. данный,
пока существует производная.
CDF непрерывной случайной величины можно выразить как интеграл от его функции плотности вероятности следующим образом: [3] : с. 86
В случае случайной величины которое имеет распределение, имеющее дискретную составляющую при значении ,
Если непрерывно на , это равно нулю, и дискретная составляющая на .
Характеристики
Каждая кумулятивная функция распределения это не убывает [3] : р. 78 и непрерывной справа , [3] : с. 79, что делает его функцией càdlàg . Более того,
Каждая функция с этими четырьмя свойствами является функцией CDF, т. Е. Для каждой такой функции может быть определена случайная величина , так что функция является кумулятивной функцией распределения этой случайной величины.
Если является чисто дискретной случайной величиной , то она принимает значения с вероятностью , и CDF будет прерывным в точках:
Если CDF действительной случайной величины является непрерывной , то- непрерывная случайная величина ; если к тому жеэто абсолютно непрерывна , то существует интегрируемой по Лебегу функции такой, что
для всех действительных чисел а также . Функцияравна производной от почти всюду , и она называется функцией плотности вероятности распределения.
Примеры
В качестве примера предположим будет равномерно распределен на единичный интервал.
Тогда CDF дан кем-то
Предположим вместо этого, что с равной вероятностью принимает только дискретные значения 0 и 1.
Тогда CDF дан кем-то
Предполагать имеет экспоненциальное распределение . Тогда CDF дан кем-то
Здесь λ> 0 - параметр распределения, часто называемый параметром скорости.
Предполагать это нормально распределены . Тогда CDF дан кем-то
Здесь параметр среднее или математическое ожидание распределения; а также это его стандартное отклонение.
Предполагать является бином распределены . Тогда CDF дан кем-то
Здесь - вероятность успеха, а функция обозначает дискретное распределение вероятностей количества успехов в последовательности независимые эксперименты и это "пол" под , т.е. наибольшее целое число, меньшее или равное.
Производные функции
Дополнительная кумулятивная функция распределения (хвостовое распределение)
Иногда полезно изучить противоположный вопрос и спросить, как часто случайная величина превышает определенный уровень. Это называется дополнительной кумулятивной функцией распределения ( ccdf ) или просто хвостовым распределением или превышением и определяется как
Это имеет применение в статистической проверке гипотез , например, потому что одностороннее p-значение - это вероятность наблюдения статистики теста, по крайней мере, такой же экстремальной, как наблюдаемая. Таким образом, при условии , что тестовая статистика , Т , имеет непрерывное распределение, односторонний р-значение просто задаются CCDF: для наблюдаемого значения тестовой статистики
В анализе выживаемости ,называется функцией выживания и обозначается, в то время как термин функция надежности широко используется в технике .
Z-таблица:
Одним из наиболее популярных приложений кумулятивной функции распределения является стандартная нормальная таблица , также называемая единичной нормальной таблицей или Z-таблицей , [5] - это значение кумулятивной функции распределения нормального распределения. Очень полезно использовать Z-таблицу не только для вероятностей ниже значения, которое является исходным применением кумулятивной функции распределения, но также выше и / или между значениями стандартного нормального распределения, и в дальнейшем она была расширена до любого нормального распределения.
- Характеристики
- Для неотрицательной непрерывной случайной величины, имеющей математическое ожидание, неравенство Маркова утверждает, что [6]
- В виде , а на самом деле при условии, что конечно.
- Доказательство: [ необходима цитата ] Предполагая имеет функцию плотности , для любой
- Затем, узнав и перестановка сроков,
- как заявлено.
Свернутое кумулятивное распределение
Хотя график кумулятивного распределения часто имеет S-образную форму, альтернативной иллюстрацией является сложенный кумулятивный график распределения или горный график , который складывает верхнюю половину графика [7] [8], таким образом, используя две шкалы, одну для подъем и еще один спуск. Эта форма иллюстрации подчеркивает медиану и дисперсию (в частности, среднее абсолютное отклонение от медианы [9] ) распределения или эмпирических результатов.
Функция обратного распределения (функция квантиля)
Если CDF F строго возрастающая и непрерывная, то это уникальное действительное число такой, что . В таком случае это определяет обратную функцию распределения или функцию квантиля .
Некоторые дистрибутивы не имеют уникального обратного (например, в случае, когда для всех , вызывая быть постоянным). Эту проблему можно решить, определив для, обобщенная обратная функция распределения :
- Пример 1: медиана .
- Пример 2: положить . Затем мы звоним 95-й процентиль.
Некоторые полезные свойства обратного cdf (которые также сохраняются в определении обобщенной обратной функции распределения):
- не убывает
- если и только если
- Если имеет распространение тогда распространяется как . Это используется при генерации случайных чисел с использованием метода выборки с обратным преобразованием .
- Если это собрание независимых -распределенные случайные величины, определенные в одном и том же пространстве выборки, тогда существуют случайные величины такой, что распространяется как а также с вероятностью 1 для всех . [ необходима цитата ]
Обратное к cdf можно использовать для перевода результатов, полученных для равномерного распределения, в другие распределения.
Эмпирическая функция распределения
Эмпирическая функция распределения является оценкой интегральной функции распределения , который генерирует точки в образце. Он сходится с вероятностью 1 к этому базовому распределению. Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к лежащей в основе кумулятивной функции распределения [ необходима цитата ] .
Многомерный случай
Определение двух случайных величин
При одновременной работе с более чем одной случайной величиной также можно определить совместную кумулятивную функцию распределения . Например, для пары случайных величин, совместный CDF приведено в [3] : с. 89
| ( Уравнение 3 ) |
где правая часть представляет собой вероятность того, что случайная величина принимает значение меньше или равное и это принимает значение меньше или равное .
Пример совместной кумулятивной функции распределения:
Для двух непрерывных переменных X и Y :;
Для двух дискретных случайных величин полезно создать таблицу вероятностей и определить кумулятивную вероятность для каждого потенциального диапазона X и Y , и вот пример: [10]
учитывая совместную функцию плотности вероятности в табличной форме, определите совместную кумулятивную функцию распределения.
Y = 2 | Y = 4 | Y = 6 | Y = 8 | |
Х = 1 | 0 | 0,1 | 0 | 0,1 |
Х = 3 | 0 | 0 | 0,2 | 0 |
Х = 5 | 0,3 | 0 | 0 | 0,15 |
Х = 7 | 0 | 0 | 0,15 | 0 |
Решение: используя данную таблицу вероятностей для каждого потенциального диапазона X и Y , совместная кумулятивная функция распределения может быть построена в табличной форме:
Y <2 | 2 ≤ Y <4 | 4 ≤ Y <6 | 6 ≤ Y <8 | Y ≤ 8 | |
Х <1 | 0 | 0 | 0 | 0 | 0 |
1 ≤ Х <3 | 0 | 0 | 0,1 | 0,1 | 0,2 |
3 ≤ Х <5 | 0 | 0 | 0,1 | 0,3 | 0,4 |
5 ≤ Х <7 | 0 | 0,3 | 0,4 | 0,6 | 0,85 |
Х ≤ 7 | 0 | 0,3 | 0,4 | 0,75 | 1 |
Определение более двух случайных величин
Для случайные переменные , совместный CDF дан кем-то
| ( Уравнение 4 ) |
Толкование случайные величины как случайный вектор дает более короткое обозначение:
Характеристики
Каждый многомерный CDF:
- Монотонно неубывающая по каждой из своих переменных,
- Непрерывна справа по каждой из своих переменных,
Вероятность того, что точка принадлежит гипер прямоугольнику , аналогична одномерному случаю: [11]
Сложный случай
Комплексная случайная величина
Обобщение кумулятивной функции распределения от реальных до комплексных случайных величин неочевидно, поскольку выражения видане имеет смысла. Однако выражения формыимеет смысл. Поэтому мы определяем кумулятивное распределение сложных случайных величин через совместное распределение их действительной и мнимой частей:
- .
Комплексный случайный вектор
Обобщение уравнения 4 дает
как определение CDS комплексного случайного вектора .
Использование в статистическом анализе
Концепция кумулятивной функции распределения явно проявляется в статистическом анализе двумя (аналогичными) способами. Кумулятивный частотный анализ - это анализ частоты появления значений явления меньше эталонного значения. Эмпирическая функция распределения является формальной непосредственной оценкой интегральной функции распределения , для которых простых статистических свойства могут быть получены , и которые могут стать основой различных тестов статистической гипотезы . Такие тесты могут оценить, есть ли свидетельства против выборки данных, полученных из данного распределения, или свидетельства против двух выборок данных, полученных из одного и того же (неизвестного) распределения населения.
Тесты Колмогорова – Смирнова и Койпера.
Тест Колмогорова – Смирнова основан на кумулятивных функциях распределения и может использоваться для проверки того, различаются ли два эмпирических распределения или эмпирическое распределение отличается от идеального распределения. Тесно связанный тест Койпера полезен, если область распределения циклична, например, по дням недели. Например, тест Койпера можно использовать, чтобы увидеть, меняется ли количество торнадо в течение года или продажи продукта меняются в зависимости от дня недели или дня месяца.
Смотрите также
- Описательная статистика
- Распределительная арматура
- Ogive (статистика)
Рекомендации
- ^ Дайзенрот, Марк Питер; Фейсал, А. Альдо; Онг, Ченг Сун (2020). Математика для машинного обучения . Издательство Кембриджского университета. п. 181. ISBN. 9781108455145.
- ^ Хусейн Чакаллы (2015). «Статистическая непрерывность вверх и вниз» . Филомат . 29 (10): 2265–2273. DOI : 10.2298 / FIL1510265C . JSTOR 24898386 . S2CID 58907979 .
- ^ а б в г д е Парк, Кун Иль (2018). Основы вероятностных и случайных процессов с приложениями к коммуникациям . Springer. ISBN 978-3-319-68074-3.
- ^ Montgomery, Douglas C .; Рангер, Джордж К. (2003). Прикладная статистика и вероятность для инженеров (PDF) . John Wiley & Sons, Inc. стр. 104. ISBN 0-471-20454-4.
- ^ «Z Таблица» . Z Таблица . Проверено 11 декабря 2019 .
- ^ Цвиллинджер, Даниэль; Кокоска, Стивен (2010). Стандартные таблицы вероятностей и статистики CRC и формулы . CRC Press. п. 49. ISBN 978-1-58488-059-2.
- ^ Нежный, JE (2009). Вычислительная статистика . Springer . ISBN 978-0-387-98145-1. Проверено 6 августа 2010 .[ требуется страница ]
- ^ Монти, KL (1995). «Сложенные кривые эмпирической функции распределения (горные графики)». Американский статистик . 49 (4): 342–345. DOI : 10.2307 / 2684570 . JSTOR 2684570 .
- ^ Сюэ, JH; Титерингтон, DM (2011). «Кумулятивная функция распределения с p-сложением и среднее абсолютное отклонение от p-квантиля» (PDF) . Статистика и вероятностные письма . 81 (8): 1179–1182. DOI : 10.1016 / j.spl.2011.03.014 .
- ^ «Совместная кумулятивная функция распределения (CDF)» . math.info . Проверено 11 декабря 2019 .
- ^ [1]
Внешние ссылки
- СМИ, связанные с кумулятивными функциями распределения на Викискладе?