Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике , то диапазон набора данных является разница между наибольшим и наименьшим значениями. Это может дать вам приблизительное представление о том, каким будет результат набора данных, прежде чем вы посмотрите на него на самом деле [1] Разница здесь специфическая, диапазон набора данных является результатом вычитания наименьшего значения из наибольшего значения.

Однако в описательной статистике это понятие диапазона имеет более сложное значение. Диапазон - это размер наименьшего интервала (статистики), который содержит все данные и указывает на статистический разброс . Он измеряется в тех же единицах, что и данные. Поскольку он зависит только от двух наблюдений, он наиболее полезен для представления разброса небольших наборов данных. [2] Диапазон - это наименьшее и вычитаемое наибольшее число.

Для непрерывных случайных величин IID [ править ]

Для n независимых и одинаково распределенных непрерывных случайных величин X 1 , X 2 , ..., X n с кумулятивной функцией распределения G ( x ) и функцией плотности вероятности g ( x ). Пусть T обозначает диапазон выборки размера n из совокупности с функцией распределения G ( x ).

Распространение [ править ]

Диапазон имеет кумулятивную функцию распределения [3] [4]

Гамбель отмечает, что «красота этой формулы полностью омрачена тем фактом, что, как правило, мы не можем выразить G ( x  +  t ) через G ( x ), и что численное интегрирование занимает много времени и утомительно». [3] : 385

Если распределение каждого X i ограничено вправо (или влево), то асимптотическое распределение диапазона равно асимптотическому распределению наибольшего (наименьшего) значения. Для более общих распределений асимптотическое распределение может быть выражено как функция Бесселя . [3]

Моменты [ править ]

Средний диапазон определяется как [5]

где x ( G ) - обратная функция. В случае, когда каждый из X i имеет стандартное нормальное распределение , средний диапазон определяется как [6]

Для непрерывных случайных величин, не относящихся к IID [ править ]

Для n неидентично распределенных независимых непрерывных случайных величин X 1 , X 2 , ..., X n с кумулятивными функциями распределения G 1 ( x ), G 2 ( x ), ..., G n ( x ) и функциями плотности вероятности g 1 ( x ), g 2 ( x ), ..., g n ( x ), диапазон имеет кумулятивную функцию распределения [4]

Для дискретных случайных величин IID [ править ]

Для n независимых и одинаково распределенных дискретных случайных величин X 1 , X 2 , ..., X n с кумулятивной функцией распределения G ( x ) и функцией массы вероятности g ( x ) диапазон X i является диапазоном выборки размер n из совокупности с функцией распределения G ( x ). Без ограничения общности можно считать, что носитель каждого X i равен {1,2,3, ...,N }, где N - целое положительное число или бесконечность. [7] [8]

Распространение [ править ]

У диапазона есть функция массы вероятности [7] [9] [10]

Пример [ править ]

Если мы предположим, что g ( x ) = 1 / N , дискретное равномерное распределение для всех x , то найдем [9] [11]

Вывод [ править ]

Вероятность наличия определенного значения диапазона, t , может быть определена путем сложения вероятностей наличия двух выборок, различающихся на t , и каждой другой выборки, имеющей значение между двумя крайними значениями. Вероятность того, что одна выборка будет иметь значение x, равна . Вероятность того, что другое значение t будет больше x, равна:

Вероятность того, что все другие значения лежат между этими двумя крайностями, равна:

Объединение трех вместе дает:

Связанные количества [ править ]

Диапазон - это простая функция максимума и минимума выборки, и это конкретные примеры статистики заказов . В частности, диапазон является линейной функцией статистики заказов, что позволяет использовать его для L-оценки .

См. Также [ править ]

  • Межквартильный размах
  • Студентизированный диапазон

Ссылки [ править ]

  1. ^ Джордж Вудбери (2001). Введение в статистику . Cengage Learning. п. 74. ISBN 0534377556.
  2. ^ Карин Viljoen (2000). Элементарная статистика: Том 2 . Пирсон, Южная Африка. С. 7–27. ISBN 186891075X.
  3. ^ a b c Э. Дж. Гамбель (1947). «Раздача ареала» . Летопись математической статистики . 18 (3): 384–412. DOI : 10.1214 / АОМ / 1177730387 . JSTOR 2235736 . 
  4. ^ а б Цимашенко, И .; Knottenbelt, W .; Харрисон, П. (2012). "Управление изменчивостью в системах разделения-слияния". Методы и приложения аналитического и стохастического моделирования (PDF) . Конспект лекций по информатике. 7314 . п. 165. DOI : 10.1007 / 978-3-642-30782-9_12 . ISBN  978-3-642-30781-2.
  5. ^ Х.О. Хартли ; HA Дэвид (1954). «Универсальные границы для средней дальности и экстремальных наблюдений» . Летопись математической статистики . 25 (1): 85–99. DOI : 10.1214 / АОМ / 1177728848 . JSTOR 2236514 . 
  6. ^ LHC Типпетт (1925). «Об экстремальных особях и диапазоне образцов, взятых из нормальной популяции». Биометрика . 17 (3/4): 364–387. DOI : 10.1093 / Biomet / 17.3-4.364 . JSTOR 2332087 . 
  7. ^ а б Эванс, DL; Leemis, LM; Дрю, JH (2006). «Распределение статистики порядка для дискретных случайных величин с приложениями для начальной загрузки». ИНФОРМС Журнал по вычислительной технике . 18 : 19. DOI : 10,1287 / ijoc.1040.0105 .
  8. ^ Ирвинг В. Берр (1955). «Расчет точного распределения выборки диапазонов от дискретной совокупности» . Летопись математической статистики . 26 (3): 530–532. DOI : 10.1214 / АОМ / 1177728500 . JSTOR 2236482 . 
  9. ^ а б Абдель-Аты, SH (1954). «Упорядоченные переменные в разрывных распределениях». Statistica Neerlandica . 8 (2): 61–82. DOI : 10.1111 / j.1467-9574.1954.tb00442.x .
  10. ^ Сиотани, М. (1956). «Порядок статистики для дискретного случая с численным приложением к биномиальному распределению». Летопись Института статистической математики . 8 : 95–96. DOI : 10.1007 / BF02863574 .
  11. Пол Р. Райдер (1951). «Распределение диапазона в выборках из дискретной прямоугольной совокупности». Журнал Американской статистической ассоциации . 46 (255): 375–378. DOI : 10.1080 / 01621459.1951.10500796 . JSTOR 2280515 .