Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Плотность вероятности нормального распределения с отображением квартилей. Площадь под красной кривой одинакова в интервалах (−∞, Q 1 ), ( Q 1 , Q 2 ), ( Q 2 , Q 3 ) и ( Q 3 , + ∞).

В статистике и вероятности , квантили разрежут точки , делящие диапазон от более распределения вероятностей в непрерывные интервалы с равными вероятностями, или разделяющие наблюдения в выборке таким же образом. На один квантиль меньше количества созданных групп. Общие квантили имеют специальные названия, например квартили (четыре группы), децили (десять групп) и процентили (100 групп). Созданные группы называются половинками, третями, четвертями и т. Д., Хотя иногда термины для квантиля используются для созданных групп, а не для точек отсечения.

Q - квантили являются значениямикоторые разбиением на конечное множество значений в д подмножества из (почти) одинакового размера. Существует q - 1 из q -квантилей, по одному для каждого целого числа k, удовлетворяющего 0 < k < q . В некоторых случаях значение квантиля не может быть определено однозначно, как это может быть в случае медианы (2-квантиль) равномерного распределения вероятностей для набора четного размера. Квантили также можно применять к непрерывным распределениям, обеспечивая способ обобщения статистики рангов.к непрерывным переменным (см. процентильный ранг ). Когда функция распределения из случайной величины известна, Q -quantiles является применением функции квантиля (The обратной функции от функции распределения ) до значений {1 / д , 2 / д , ..., ( д - 1) / q }.

Специализированные квантили [ править ]

Некоторые q- квантили имеют специальные имена: [ необходима ссылка ]

  • Единственный 2-квантиль называется медианной
  • 3-квантили называются тертили или terciles → T
  • 4-квантили называются квартилями → Q; разница между верхним и нижним квартилями также называется межквартильным размахом , средним или средним пятидесятилетием → IQR = Q 3  -  Q 1
  • 5-квантили называются квинтилями → QU
  • 6-квантили называются секстилями → S
  • 7-квантили называются септилами.
  • 8-квантили называются октилями.
  • 10-квантили называются децилями → D
  • 12-квантили называются дуо-децилями или додецилями.
  • 16-квантили называются гексадецилями → H
  • 20-квантили называются вентилями , вигинтилями или полу-децилями → V
  • 100-квантили называются процентилями → P
  • 1000-квантили были названы пермилями или миллилями, но они редки и в значительной степени устарели [1]

Квантили населения [ править ]

Как и при вычислении, например, стандартного отклонения , оценка квантиля зависит от того, работает ли человек со статистической совокупностью или с выборкой, взятой из нее. Для совокупности дискретных значений или для непрерывной плотности населения kq -квантиль представляет собой значение данных, в котором кумулятивная функция распределения пересекает k / q . То есть x является kq -квантилем для переменной X, если

Pr [ X < x ] ≤ k / q или, что то же самое, Pr [ Xx ] ≥ 1 - k / q

и

Pr [ Xx ] ≥ k / q .

Для конечной совокупности N равновероятных значений, индексированных 1,…, N от наименьшего к наибольшему, kq -квантиль этой совокупности может быть эквивалентно вычислен через значение I p = N k / q . Если I p не является целым числом, округлите до следующего целого числа, чтобы получить соответствующий индекс; соответствующее значение данных является kq -квантилем. С другой стороны, если я рявляется целым числом, тогда любое число от значения данных в этом индексе до значения данных следующего может быть принято в качестве квантиля, и обычно (хотя и произвольно) берется среднее из этих двух значений (см. Оценка квантилей из выборки ).

Если вместо использования целых чисел k и q « p- квантиль» основан на действительном числе p с 0 < p <1, тогда p заменяет k / q в приведенных выше формулах. Эта граничная терминология используется, когда квантили используются для параметризации непрерывных распределений вероятностей . Более того, некоторые программы (включая Microsoft Excel ) рассматривают минимум и максимум как 0-й и 100-й процентили, соответственно. Однако эта более широкая терминология выходит за рамки традиционных статистических определений.

Примеры [ править ]

В следующих двух примерах используется определение квантиля ближайшего ранга с округлением. Для объяснения этого определения см. Процентили .

Равномерное население [ править ]

Рассмотрим упорядоченную совокупность из 10 значений данных {3, 6, 7, 8, 8, 10, 13, 15, 16, 20}. Каковы 4-квантили («квартили») этого набора данных?

Итак, первый, второй и третий 4-квантили («квартили») набора данных {3, 6, 7, 8, 8, 10, 13, 15, 16, 20} равны {7, 9, 15}. Если также требуется, нулевой квартиль равен 3, а четвертый квартиль - 20.

Нестандартное население [ править ]

Рассмотрим упорядоченную совокупность из 11 значений данных {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20}. Каковы 4-квантили («квартили») этого набора данных?

Итак, первый, второй и третий 4-квантили ("квартили") набора данных {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20} равны {7, 9, 15} . Если также требуется, нулевой квартиль равен 3, а четвертый квартиль - 20.

Оценка квантилей по образцу [ править ]

Одна из проблем , которая часто возникает оценивание квантиля (очень больших или бесконечные) населений , основанные на конечную выборке объема N .

Асимптотическое распределение p -го квантиля выборки хорошо известно: оно асимптотически нормально вокруг -го квантиля генеральной совокупности с дисперсией, равной

где f ( x p ) - значение плотности распределения в p -м квантиле населения. [2] Однако это распределение основывается на знании распределения населения; что эквивалентно знанию квантилей населения, которые мы пытаемся оценить! Таким образом, современные статистические пакеты полагаются на другой метод - или выбор методов - для оценки квантилей.

Хайндман и Фан составили таксономию из девяти алгоритмов [3], используемых различными программными пакетами. Все методы вычисляют Q p , оценку p -квантиля ( kq -квантиль, где p = k / q ) из выборки размера N , вычисляя действительный индекс h . Когда h является целым числом, h - наименьшее из N значений, x h, - квантильная оценка. В противном случае закругления или интерполяция схема используется для вычисления оценки квантиля от ч , х ч и х ч . (Обозначения см. В функциях пола и потолка ).

Первые три являются кусочно-постоянными, резко меняющимися в каждой точке данных, в то время как последние пять используют линейную интерполяцию между точками данных и отличаются только тем, как выбирается индекс h, используемый для выбора точки вдоль кривой кусочно-линейной интерполяции.

Языки программирования Mathematica , [4] Matlab , [5] R [6] и GNU Octave [7] поддерживают все девять примеров методов квантилей. SAS включает пять примеров методов квантилей, SciPy [8] и Maple [9] - восемь, EViews [10] включает шесть кусочно-линейных функций, Stata [11] включает две, Python [12] включает две, а Microsoft Excel включает две. . Mathematica и SciPy поддерживают произвольные параметры для методов, которые допускают использование других нестандартных методов.

Используемые типы оценок и схемы интерполяции включают:

Примечания:

  • От R ‑ 1 до R ‑ 3 кусочно-постоянные, с разрывами.
  • R ‑ 4 и последующие являются кусочно линейными, без разрывов, но отличаются способом вычисления h .
  • R ‑ 3 и R ‑ 4 несимметричны в том смысле, что они не дают h = ( N + 1) / 2, когда p = 1/2 .
  • PERCENTILE.EXC в Excel и «эксклюзивный» метод Python по умолчанию эквивалентны R ‑ 6.
  • PERCENTILE и PERCENTILE.INC в Excel и необязательный «включающий» метод Python эквивалентны R ‑ 7. Это метод по умолчанию для R.
  • Пакеты отличаются тем , как они оценивают квантили за пределы самых низких и самых высоких значений в выборке, т.е. р <1 / N и р > ( N -1) / N . Возможные варианты включают возврат значения ошибки, вычисление линейной экстраполяции или принятие постоянного значения.

Из методов Хайндман и Фан рекомендуют R-8, но R-7 стал стандартным методом по умолчанию в большинстве пакетов статистического программного обеспечения. [13]

Стандартная ошибка из оценки квантильной в общем случае может быть оценена с помощью начальной загрузки . Также можно использовать метод Марица – Джарретта. [14]

Приблизительные квантили из потока [ править ]

Вычисление приблизительных квантилей из данных, поступающих из потока, может быть выполнено эффективно с использованием сжатых структур данных. Наиболее популярные методы - t-digest [15] и KLL. [16] Эти методы непрерывно считывают поток значений и в любой момент могут быть запрошены о приблизительном значении указанного квантиля.

Оба алгоритма основаны на схожей идее: сжатие потока значений путем суммирования идентичных или похожих значений с помощью веса. Если поток состоит из 100-кратного повторения v1 и 100-кратного v2, нет причин хранить отсортированный список из 200 элементов, достаточно сохранить два элемента и два счетчика, чтобы иметь возможность восстановить квантили. При большем количестве значений эти алгоритмы поддерживают компромисс между количеством сохраненных уникальных значений и точностью получаемых квантилей. Некоторые значения могут быть исключены из потока и вносить вклад в вес ближайшего значения без значительного изменения результатов квантилей. t-digest использует подход, основанный на кластеризации k-средних, для группировки похожих значений, тогда как KLL использует более сложный метод «уплотнения», который позволяет лучше контролировать границы ошибок.

Оба метода относятся к семейству набросков данных, которые являются подмножествами алгоритмов потоковой передачи с полезными свойствами: эскизы t-digest или KLL можно комбинировать. Вычисление эскиза для очень большого вектора значений можно разделить на тривиально параллельные процессы, в которых эскизы вычисляются для параллельных разделов вектора и объединяются позже.

Обсуждение [ править ]

Результаты стандартизированных тестов обычно сообщаются, например, как оценка учащегося «в 80-м процентиле». Здесь используется альтернативное значение слова «процентиль» как интервал между (в данном случае) 80-м и 81-м скалярным процентилем. [17] Это отдельное значение процентиля также используется в рецензируемых научных статьях. [18] Используемое значение может быть получено из контекста.

Если распределение является симметричным, то медиана - это среднее значение (пока последнее существует). Но в целом медиана и среднее значение могут отличаться. Например, для случайной переменной, имеющей экспоненциальное распределение , любая конкретная выборка этой случайной величины будет иметь примерно 63% шанс быть меньше среднего. Это связано с тем, что экспоненциальное распределение имеет длинный хвост для положительных значений и нулевое значение для отрицательных чисел.

Квантили являются полезными мерами, потому что они менее подвержены влиянию длиннохвостых распределений и выбросов, чем средние. Эмпирически, если анализируемые данные на самом деле не распределяются в соответствии с предполагаемым распределением, или если есть другие потенциальные источники выбросов, которые очень далеки от среднего, то квантили могут быть более полезной описательной статистикой, чем средние и другие статистические данные, связанные с моментами. .

С этим тесно связан метод наименьших абсолютных отклонений , метод регрессии, который более устойчив к выбросам, чем метод наименьших квадратов, в котором вместо квадрата ошибки используется сумма абсолютных значений наблюдаемых ошибок. Связь состоит в том, что среднее - это единственная оценка распределения, которая минимизирует ожидаемую квадратичную ошибку, а медиана минимизирует ожидаемую абсолютную ошибку. Наименьшие абсолютные отклонения обладают способностью быть относительно нечувствительными к большим отклонениям в отдаленных наблюдениях, хотя доступны даже лучшие методы надежной регрессии .

Квантили случайной величины сохраняются при возрастающих преобразованиях в том смысле, что, например, если m - медиана случайной величины X , то 2 m - медиана 2 X , если только не был сделан произвольный выбор из диапазон значений для определения определенного квантиля. (Примеры такой интерполяции см. Выше в квантильной оценке.) Квантили также можно использовать в случаях, когда доступны только порядковые данные.

См. Также [ править ]

  • Flashsort - сортировка по первому сегменту по квантилю
  • Межквартильный размах
  • Описательная статистика
  • Квартиль
  • Q – Q график
  • Квантильная функция
  • Квантильная нормализация
  • Квантильная регрессия
  • Квантование
  • Сводные статистические данные
  • Интервал допуска (« доверительные интервалы для p- го квантиля» [19] )

Ссылки [ править ]

  1. ^ Хелен Мэри Уокер, Джозеф Лев, Элементарные статистические методы , 1969, [стр. 60 https://books.google.com/books?id=ogYnAQAAIAAJ&dq=permille ]
  2. ^ Стюарт, Алан; Орд, Кейт (1994). Продвинутая теория статистики Кендалла . Лондон: Арнольд. ISBN 0340614307.
  3. ^ Гайндман, Роб Дж .; Фан, Янан (ноябрь 1996 г.). «Выборочные квантили в статистических пакетах» . Американский статистик . Американская статистическая ассоциация. 50 (4): 361–365. DOI : 10.2307 / 2684934 . JSTOR 2684934 . 
  4. ^ Документация по системе Mathematica См. Раздел «Подробности»
  5. ^ «Расчет квантилей» . uk.mathworks.com .
  6. ^ Frohne, Иван; Гайндман, Роб Дж. (2009). Выборочные квантили . Проект R. ISBN 978-3-900051-07-5.
  7. ^ «Справочник по функциям: квантиль - Octave-Forge - SourceForge» . Проверено 6 сентября 2013 года .
  8. ^ "scipy.stats.mstats.mquantiles - SciPy v1.4.1 Справочное руководство" . docs.scipy.org .
  9. ^ «Статистика - Помощь по программированию Maple» . www.maplesoft.com .
  10. ^ "Архивная копия" . Архивировано из оригинального 16 апреля 2016 года . Проверено 4 апреля 2016 года .CS1 maint: заархивированная копия как заголовок ( ссылка )
  11. ^ Документация Stata для команд pctile и xtile См. Раздел «Методы и формулы».
  12. ^ «Статистика - Функции математической статистики - Документация Python 3.8.3rc1» . docs.python.org .
  13. ^ Гайндман, Rob J. (28 марта 2016). «Выборочные квантили 20 лет спустя» . Блог Hyndsignt . Проверено 30 ноября 2020 .
  14. Перейти ↑ Wilcox, Rand R. (2010). Введение в робастную оценку и проверку гипотез . ISBN 978-0-12-751542-7.
  15. ^ Даннинг, Тед; Эртл, Отмар (февраль 2019 г.). «Вычисление чрезвычайно точных квантилей с использованием t-дайджестов». arXiv : 1902.04023 [ stat.CO ].
  16. ^ Зоар Karnin, Кевин Lang, Edo Liberty (2016). «Оптимальная квантильная аппроксимация в потоках». arXiv : 1603.05346 [ cs.DS ].CS1 maint: использует параметр авторов ( ссылка )
  17. ^ "процентиль" . Оксфордский справочник . Проверено 17 августа 2020 .
  18. ^ Kruger, J .; Даннинг, Д. (декабрь 1999 г.). «Неквалифицированный и неосведомленный: как трудности с осознанием собственной некомпетентности приводят к завышенным самооценкам» . Журнал личности и социальной психологии . 77 (6): 1121–1134. DOI : 10.1037 // 0022-3514.77.6.1121 . ISSN 0022-3514 . PMID 10626367 .  
  19. ^ Стивен Б. Вардеман (1992). «А как насчет других интервалов?». Американский статистик . 46 (3): 193–197. DOI : 10.2307 / 2685212 . JSTOR 2685212 . 

Дальнейшее чтение [ править ]

  • Серфлинг, Р. Дж. (1980). Аппроксимационные теоремы математической статистики . Джон Вили и сыновья. ISBN 0-471-02403-1.

Внешние ссылки [ править ]

  • СМИ, связанные с квантилями на Викискладе?