В статистике , процентиль (или процентиль ) является балл , ниже которого определенный процент баллов в распределении частот падает (исключительное определение) или счет на или ниже которой определенный процент падает (включая определение). Например, 50-й процентиль ( медиана ) - это балл, ниже которого (исключая) или на уровне или ниже которого (включительно) могут быть найдены 50% баллов в распределении.
Процентиль (или процентильный балл) и процентильный ранг являются взаимосвязанными терминами. Процентильный ранг балла - это процент баллов в его распределении, которые меньше его, исключительное определение, которое может быть выражено одной простой формулой. Напротив, существует множество формул или алгоритмов для оценки процентиля. Хайндман и Фан [1] определили девять и большинство статистических программ и программ для работы с электронными таблицами используют один из методов, которые они описывают. [2] Алгоритмы либо возвращают значение оценки, которая существует в наборе оценок (методы ближайшего ранга), либо интерполируют между существующими оценками и являются либо исключающими, либо включающими.
ПК: указан процентиль | 0,10 | 0,25 | 0,50 | 0,75 | 0,90 |
---|---|---|---|---|---|
N: количество баллов | 10 | 10 | 10 | 10 | 10 |
ИЛИ: порядковый номер = ПК × N | 1 | 2,5 | 5 | 7,5 | 9 |
Ранг:> ИЛИ / ≥ИЛИ | 2/1 | 3/3 | 6/5 | 8/8 | 10/9 |
Оценка в рейтинге (отлично / вкл) | 2/1 | 3/3 | 4/3 | 5/3 | 7/5 |
На рисунке показано 10-балльное распределение, показаны процентильные баллы, полученные в результате использования этих различных алгоритмов, и он служит введением в приведенные ниже примеры. Самыми простыми являются методы ближайшего ранга, которые возвращают оценку из распределения, хотя по сравнению с методами интерполяции результаты могут быть немного грубыми. В таблице методов ближайшего ранга показаны этапы вычислений для исключающих и инклюзивных методов.
ПК: указан процентиль | 0,10 | 0,25 | 0,50 | 0,75 | 0,90 |
---|---|---|---|---|---|
N: количество баллов | 10 | 10 | 10 | 10 | 10 |
ИЛИ: ПК × (N + 1) / ПК × (N − 1) +1 | 1,1 / 1,9 | 2,75 / 3,25 | 5,5 / 5,5 | 8,25 / 7,25 | 9,9 / 9,1 |
LoRank: ИЛИ усеченный | 1/1 | 2/3 | 5/5 | 8/7 | 9/9 |
HIRank: ИЛИ округлено | 2/2 | 3/4 | 6/6 | 9/8 | 10/10 |
LoScore: оценка на LoRank | 1/1 | 2/3 | 3/3 | 5/4 | 5/4 |
HiScore: оценка на HiRank | 2/2 | 3/3 | 4/4 | 5/5 | 7/7 |
Разница: HiScore - LoScore | 1/1 | 1/0 | 1/1 | 0/1 | 2/1 |
Мод: дробная часть ИЛИ | 0,1 / 0,9 | 0,75 / 0,25 | 0,5 / 0,5 | 0,25 / 0,75 | 0,9 / 0,1 |
Интерполированный результат (exc / inc) = LoScore + Mod x Разница | 1,1 / 1,9 | 2,75 / 3 | 3,5 / 3,5 | 5 / 4,75 | 6,8 / 5,2 |
Методы интерполяции, как следует из названия, могут возвращать оценку, которая находится между оценками в распределении. Алгоритмы, используемые статистическими программами, обычно используют методы интерполяции, например, функции percentile.exl и percentile.inc в Microsoft Excel. В таблице Interpolated Methods показаны этапы вычислений.
Термин « процентиль» и связанный с ним термин « процентильный ранг» часто используются при составлении отчетов о результатах тестов , основанных на нормах , но, как только что было отмечено, они не совпадают. Для процентильного ранга дается оценка и вычисляется процент. Процентильные ранги являются исключительными. Если процентильный ранг для указанного балла составляет 90%, то 90% баллов были ниже. Напротив, для процентилей указывается процент и определяется соответствующая оценка, которая может быть исключительной или включающей. Оценка для определенного процента (например, 90-е) указывает оценку, ниже которой (исключительное определение) или ниже или ниже (включительное определение) попадают другие оценки в распределении.
25-й процентиль также известен как первый квартиль ( Q 1 ), 50-й процентиль - как медиана или второй квартиль ( Q 2 ), а 75-й процентиль - как третий квартиль ( Q 3 ).
Приложения [ править ]
Когда интернет-провайдеры выставляют счет за «скачкообразную» пропускную способность интернета , 95-й или 98-й процентиль обычно отсекает верхние 5% или 2% пиков пропускной способности каждый месяц, а затем выставляет счет по ближайшей ставке. Таким образом, нечастые пики игнорируются, и покупатель получает более справедливую оплату. Причина, по которой эта статистика так полезна при измерении пропускной способности данных, заключается в том, что она дает очень точное представление о стоимости полосы пропускания. 95-й процентиль говорит о том, что 95% времени использование ниже этого количества: поэтому в оставшихся 5% времени использование превышает это количество.
Врачи часто используют вес и рост младенцев и детей для оценки их роста по сравнению со средними национальными значениями и процентилями, которые можно найти в диаграммах роста .
85-й процентиль скорости движения на дороге часто используется в качестве ориентира при установлении ограничений скорости и оценке того, является ли такой предел слишком высоким или низким. [3] [4]
В финансах стоимость, подверженная риску, является стандартной мерой для оценки (в зависимости от модели) величины, при которой не ожидается снижения стоимости портфеля в течение заданного периода времени и с учетом значения достоверности.
Нормальное распределение и процентили [ править ]
Методы, приведенные в разделе определений (ниже), являются приблизительными для использования в статистике малых выборок. В общих чертах, для очень больших популяций, следующих нормальному распределению , процентили часто могут быть представлены ссылкой на график нормальной кривой. Нормальное распределение откладывается по оси с точностью до стандартных отклонений или единиц сигма ( ). Математически нормальное распределение простирается до отрицательной бесконечности слева и положительной бесконечности справа. Обратите внимание, однако, что только очень небольшая часть людей в популяции выйдет за пределы диапазона от –3 до +3 . Например, с человеческим ростом очень мало людей выше +3 уровня роста.
Процентили представляют собой площадь под нормальной кривой, увеличивающуюся слева направо. Каждое стандартное отклонение представляет собой фиксированный процентиль. Таким образом, округляя до двух десятичных знаков, −3 - это 0,13-й процентиль, -2 - 2,28-й процентиль, -1 - 15,87-й процентиль, 0 - 50-й процентиль (как среднее, так и медиана распределения), +1 84,13-й процентиль. процентиль, +2 для 97,72-го процентиля и +3 для 99,87-го процентиля. Это связано с правилом 68–95–99,7 или правилом трех сигм. Обратите внимание, что теоретически 0-й процентиль находится на отрицательной бесконечности, а 100-й процентиль - на положительной бесконечности, хотя во многих практических приложениях, таких как результаты тестов, применяются естественные нижние и / или верхние пределы.
Определения [ править ]
Не существует стандартного определения процентиля, [1] [5] [6], однако все определения дают аналогичные результаты, когда количество наблюдений очень велико, а распределение вероятностей является непрерывным. [7] В пределе, когда размер выборки приближается к бесконечности, 100 p- й процентиль (0 < p <1) аппроксимирует обратную величину кумулятивной функции распределения (CDF), сформированной таким образом, вычисленной в p , поскольку p аппроксимирует CDF. Это можно рассматривать как следствие теоремы Гливенко – Кантелли . Некоторые методы расчета процентилей приведены ниже.
Символ [ править ]
I-й процентиль обычно записывается как . [8]
Метод ближайшего ранга [ править ]
Одно определение процентиля, часто приводимое в текстах, заключается в том, что P-й процентиль списка из N упорядоченных значений (отсортированных от наименьшего к наибольшему) является наименьшим значением в списке, так что строгое не более P процентов данных меньше значения и по крайней мере P процентов данных меньше или равно этому значению. Для этого сначала вычисляется порядковый ранг, а затем берется значение из упорядоченного списка, которое соответствует этому рангу. Порядковое ранга п вычисляется по следующей формуле
Обратите внимание на следующее:
- Использование метода ближайшего ранга в списках с менее чем 100 различными значениями может привести к тому, что одно и то же значение будет использоваться более чем для одного процентиля.
- Процентиль, рассчитанный с использованием метода ближайшего ранга, всегда будет членом исходного упорядоченного списка.
- 100-й процентиль определяется как наибольшее значение в упорядоченном списке.
Рабочие примеры метода ближайшего ранга [ править ]
- Пример 1
Рассмотрим упорядоченный список {15, 20, 35, 40, 50}, который содержит 5 значений данных. Каковы 5-й, 30-й, 40-й, 50-й и 100-й процентили этого списка с использованием метода ближайшего ранга?
Процентиль P | Номер в списке N | Порядковый номер n | Номер из упорядоченного списка с таким рангом | Процентильное значение | Заметки |
---|---|---|---|---|---|
5-й | 5 | первое число в упорядоченном списке, то есть 15 | 15 | 15 - самый маленький элемент списка; 0% данных строго меньше 15, а 20% данных меньше или равно 15. | |
30-е | 5 | 2-е число в упорядоченном списке, то есть 20 | 20 | 20 - элемент упорядоченного списка. | |
40-е | 5 | 2-е число в упорядоченном списке, то есть 20 | 20 | В этом примере это то же самое, что и 30-й процентиль. | |
50-е | 5 | 3-й номер в упорядоченном списке, то есть 35 | 35 год | 35 - элемент упорядоченного списка. | |
Сотый | 5 | последний номер в упорядоченном списке, то есть 50 | 50 | 100-й процентиль определяется как наибольшее значение в списке, равное 50. |
Таким образом, 5-й, 30-й, 40-й, 50-й и 100-й процентили упорядоченного списка {15, 20, 35, 40, 50} с использованием метода ближайшего ранга равны {15, 20, 20, 35, 50}.
- Пример 2
Рассмотрим упорядоченную совокупность из 10 значений данных {3, 6, 7, 8, 8, 10, 13, 15, 16, 20}. Каковы 25-й, 50-й, 75-й и 100-й процентили этого списка с использованием метода ближайшего ранга?
Процентиль P | Номер в списке N | Порядковый номер n | Номер из упорядоченного списка с таким рангом | Процентильное значение | Заметки |
---|---|---|---|---|---|
25-е | 10 | 3-й номер в упорядоченном списке, то есть 7 | 7 | 7 - элемент списка. | |
50-е | 10 | 5-е число в упорядоченном списке, то есть 8 | 8 | 8 - элемент списка. | |
75-я | 10 | 8-е число в упорядоченном списке, то есть 15 | 15 | 15 - элемент списка. | |
Сотый | 10 | Последний | 20, последнее число в упорядоченном списке. | 20 | 100-й процентиль определяется как наибольшее значение в списке, равное 20. |
Таким образом, 25-й, 50-й, 75-й и 100-й процентили упорядоченного списка {3, 6, 7, 8, 8, 10, 13, 15, 16, 20} с использованием метода ближайшего ранга равны {7, 8, 15, 20 }.
- Пример 3
Рассмотрим упорядоченную совокупность из 11 значений данных {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20}. Каковы 25-й, 50-й, 75-й и 100-й процентили этого списка с использованием метода ближайшего ранга?
Процентиль P | Номер в списке N | Порядковый номер n | Номер из упорядоченного списка с таким рангом | Процентильное значение | Заметки |
---|---|---|---|---|---|
25-е | 11 | 3-й номер в упорядоченном списке, то есть 7 | 7 | 7 - элемент списка. | |
50-е | 11 | шестой номер в упорядоченном списке, то есть 9 | 9 | 9 - элемент списка. | |
75-я | 11 | 9-е число в упорядоченном списке, то есть 15 | 15 | 15 - элемент списка. | |
Сотый | 11 | Последний | 20, последнее число в упорядоченном списке. | 20 | 100-й процентиль определяется как наибольшее значение в списке, равное 20. |
Таким образом, 25-й, 50-й, 75-й и 100-й процентили упорядоченного списка {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20} с использованием метода ближайшего ранга равны {7, 9, 15 , 20}.
Метод линейной интерполяции между ближайшими рангами [ править ]
Альтернативой округлению, используемым во многих приложениях, является использование линейной интерполяции между соседними рангами.
Общность вариантов этого метода [ править ]
Все следующие варианты имеют следующее общее. Учитывая статистику заказа
мы ищем линейную функцию интерполяции, которая проходит через точки . Это просто достигается
где использует функцию пола для представления целой части положительного , тогда как использует функцию mod для представления его дробной части (остаток после деления на 1). (Обратите внимание, что, хотя в конечной точке , не определено, это не обязательно, потому что оно умножается на .) Как мы видим, это непрерывная версия нижнего индекса , линейно интерполирующая между соседними узлами.
Вариантные подходы различаются двумя способами. Первый заключается в линейной зависимости между рангом , процентным рангом и константой, которая является функцией размера выборки :
Существует дополнительное требование, чтобы средняя точка диапазона , соответствующая медиане , находилась в :
и наша измененная функция теперь имеет только одну степень свободы, которая выглядит так:
Второй способ, которым варианты различаются, заключается в определении функции рядом с полями диапазона : должен давать или заставлять производить результат в диапазоне , что может означать отсутствие однозначного переписка в более широком регионе. Один автор предложил выбрать, где находится форма обобщенного распределения экстремальных значений, которое является пределом экстремальных значений выборочного распределения.
Первый вариант, [ править ]
(Источники: функция Matlab "prctile", [9] [10] )
где
Кроме того, пусть
Обратное соотношение ограничено более узкой областью:
Рабочий пример первого варианта [ править ]
Рассмотрим упорядоченный список {15, 20, 35, 40, 50}, который содержит пять значений данных. Каковы 5-й, 30-й, 40-й и 95-й процентили этого списка с использованием метода линейной интерполяции между ближайшими рангами? Сначала мы вычисляем процентный рейтинг для каждого значения списка.
Значение списка | Позиция этого значения в упорядоченном списке | Количество значений | Расчет процентного ранга | Процент ранга, | Заметки |
---|---|---|---|---|---|
15 | 1 | 5 | 10 | ||
20 | 2 | 5 | 30 | ||
35 год | 3 | 5 | 50 | ||
40 | 4 | 5 | 70 | ||
50 | 5 | 5 | 90 |
Затем мы берем эти процентные ранги и вычисляем значения процентилей следующим образом:
Процент ранга | Количество значений | Есть ? | Есть ? | Есть ли процент ранга, равный ? | Что мы используем для определения процентиля? | Процентильное значение | Заметки |
---|---|---|---|---|---|---|---|
5 | 5 | да | Нет | Нет | Мы видим, что P = 5, что меньше, чем первый процентный ранг p1 = 10, поэтому используйте первое значение списка v1, которое равно 15. | 15 | 15 входит в упорядоченный список |
30 | 5 | Нет | Нет | да | Мы видим, что P = 30 совпадает со вторым процентным рангом p2 = 30, поэтому используйте второе значение списка v2, которое равно 20. | 20 | 20 входит в упорядоченный список |
40 | 5 | Нет | Нет | Нет | Мы видим, что P = 40 находится между процентным рангом p2 = 30 и p3 = 50, поэтому мы берем k = 2, k + 1 = 3, P = 40, pk = p2 = 30, vk = v2 = 20, vk + 1. = v3 = 35, N = 5. Учитывая эти значения, мы можем вычислить v следующим образом: | 27,5 | 27.5 не входит в упорядоченный список |
95 | 5 | Нет | да | Нет | Мы видим, что P = 95, что больше, чем последний процентный ранг pN = 90, поэтому используйте последнее значение списка, равное 50. | 50 | 50 входит в упорядоченный список |
Таким образом, 5-й, 30-й, 40-й и 95-й процентили упорядоченного списка {15, 20, 35, 40, 50} с использованием метода линейной интерполяции между ближайшими рангами равны {15, 20, 27,5, 50}
Второй вариант, [ править ]
(Источник: некоторые программные пакеты, включая NumPy [11] и Microsoft Excel [6] (до версии 2013 включительно с помощью функции PERCENTILE.INC). Указано как альтернатива NIST [2] )
Обратите внимание, что связь является взаимно однозначной для единственного из трех вариантов с этим свойством; отсюда суффикс «INC» для включения в функции Excel.
Рабочие примеры второго варианта [ править ]
Пример 1:
Рассмотрим упорядоченный список {15, 20, 35, 40, 50}, который содержит пять значений данных. Каков 40-й процентиль этого списка при использовании этого вариантного метода?
Сначала мы вычисляем ранг 40-го процентиля:
Итак, x = 2,6, что дает нам и . Итак, значение 40-го процентиля равно
Пример 2:
Рассмотрим упорядоченный список {1,2,3,4}, который содержит четыре значения данных. Каков 75-й процентиль этого списка при использовании метода Microsoft Excel?
Сначала мы вычисляем ранг 75-го процентиля следующим образом:
Итак, x = 3,25, что дает нам целую часть 3 и дробную часть 0,25. Итак, значение 75-го процентиля равно
Третий вариант, [ править ]
(Основной вариант, рекомендованный NIST . [2] Принятый Microsoft Excel с 2010 года с помощью функции PERCENTIL.EXC. Однако, как указывает суффикс «EXC», версия Excel исключает обе конечные точки диапазона p , т. Е. , тогда как версия "INC", второй вариант, этого не делает; фактически, любое число меньше 1 / (N + 1) также исключается и может вызвать ошибку.)
Обратное ограничено более узкой областью:
Рабочий пример третьего варианта [ править ]
Рассмотрим упорядоченный список {15, 20, 35, 40, 50}, который содержит пять значений данных. Каков 40-й процентиль этого списка с использованием метода NIST?
Сначала мы вычисляем ранг 40-го процентиля следующим образом:
Итак, x = 2,4, что дает нам и . Таким образом, значение 40-го процентиля рассчитывается как:
Таким образом, значение 40-го процентиля упорядоченного списка {15, 20, 35, 40, 50} при использовании этого варианта метода равно 26.
Метод взвешенного процентиля [ править ]
В дополнение к функции процентиля существует также взвешенный процентиль , в котором вместо общего числа считается процент от общего веса. Стандартной функции для взвешенного процентиля не существует. Один метод естественным образом расширяет описанный выше подход.
Предположим, у нас есть положительные веса, связанные, соответственно, с нашими N отсортированными выборочными значениями. Позволять
сумма весов. Затем приведенные выше формулы обобщаются, взяв
- когда ,
или же
- для общего ,
а также
Взвешенный процентиль 50% известен как взвешенная медиана .
См. Также [ править ]
- Квантиль
- Дециль
- Сводные статистические данные
- Процентиль
Ссылки [ править ]
- ^ a b Hyndman RH, Fan Y (1996). «Выборочные квантили в статистических пакетах». Американский статистик . 50 (4): 361–365. DOI : 10.2307 / 2684934 . JSTOR 2684934 .
- ^ a b c «Справочник по инженерной статистике: процентиль» . NIST . Проверено 18 февраля 2009 .
- ^ Джонсон, Роберт; Куби, Патрисия (2007), «Прикладной пример 2.15, 85-й процентиль ограничения скорости: соблюдение 85% потока», элементарная статистика (10-е изд.), Cengage Learning, стр. 102, ISBN 9781111802493.
- ^ «Рациональные ограничения скорости и 85-й процентиль скорости» (PDF) . lsp.org . Полиция штата Луизиана. Архивировано из оригинального (PDF) 23 сентября 2018 года . Проверено 28 октября 2018 года .
- ^ Лейн, Дэвид. «Процентили» . Проверено 15 сентября 2007 .
- ^ а б Поттель, Ганс. «Статистические ошибки в Excel» (PDF) . Архивировано из оригинального (PDF) 04.06.2013 . Проверено 25 марта 2013 .
- ^ Schoonjans F, De Bacquer D, Schmid P (2011). «Оценка процентилей населения» . Эпидемиология . 22 (5): 750–751. DOI : 10.1097 / EDE.0b013e318225c1de . PMC 3171208 . PMID 21811118 .
- ^ Символ процентиля - существует он или нет? , Обмен стеками математики
- ^ "Набор инструментов статистики Matlab - процентили" . Проверено 15 сентября 2006 ., Это эквивалентно методу 5, обсуждаемому здесь
- Перейти ↑ Langford, E. (2006). «Квартили в элементарной статистике» . Журнал статистики образования . 14 (3). DOI : 10.1080 / 10691898.2006.11910589 .
- ^ "Документация NumPy 1.12" . SciPy . Проверено 19 марта 2017 .