Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Интерполированный и ближайший ранг, исключительный и включающий процентили для 10-балльного распределения

В статистике , процентиль (или процентиль ) является оценкой , ниже которой определенный процент баллов в его распределении частот падения (исключительное определение) или оценку на уровне или ниже которой определенный процент падения (включая определение). Например, 50-й процентиль ( медиана ) - это балл, ниже которого могут быть найдены 50% (без учета) или на уровне или ниже (включительно) 50% баллов в распределении.

Процентиль (или процентильный балл) и процентильный ранг являются взаимосвязанными терминами. Процентильный ранг балла - это процент баллов в его распределении, которые меньше его, исключительное определение, которое может быть выражено одной простой формулой. Напротив, существует не одна формула или алгоритм для оценки процентиля, а множество. Хайндман и Фан [1] определили девять и большинство статистических программ и программ для работы с электронными таблицами используют один из методов, которые они описывают. [2] Алгоритмы либо возвращают значение оценки, которая существует в наборе оценок (методы ближайшего ранга), либо интерполируют между существующими оценками и являются либо исключающими, либо включающими.

На рисунке показано 10-балльное распределение, показаны процентильные баллы, полученные в результате использования этих различных алгоритмов, и он служит введением в приведенные ниже примеры. Самыми простыми являются методы ближайшего ранга, которые возвращают оценку из распределения, хотя по сравнению с методами интерполяции результаты могут быть немного грубыми. В таблице методов ближайшего ранга показаны этапы вычислений для исключающих и инклюзивных методов.

Методы интерполяции, как следует из названия, могут возвращать оценку, которая находится между оценками в распределении. Алгоритмы, используемые статистическими программами, обычно используют методы интерполяции, например, функции percentile.exl и percentile.inc в Microsoft Excel. В таблице Interpolated Methods показаны этапы вычислений.

Термин « процентиль» и связанный с ним термин « процентильный ранг» часто используются при составлении отчетов о результатах тестов , основанных на нормах , но, как только что было отмечено, они не совпадают. Для процентильного ранга дается оценка и вычисляется процент. Процентильные ранги являются исключительными. Если процентильный ранг для указанного балла составляет 90%, то 90% баллов были ниже. Напротив, для процентилей указывается процент и определяется соответствующая оценка, которая может быть исключительной или включающей. Оценка для определенного процента (например, 90-е) указывает оценку, ниже которой (исключительное определение) или ниже или ниже (включительное определение) попадают другие оценки в распределении.

25-й процентиль также известен как первый квартиль ( Q 1 ), 50-й процентиль - как медиана или второй квартиль ( Q 2 ), а 75-й процентиль - как третий квартиль ( Q 3 ).

Приложения [ править ]

Когда интернет-провайдеры выставляют счет за «скачкообразную» пропускную способность интернета , 95-й или 98-й процентиль обычно отсекает верхние 5% или 2% пиков пропускной способности каждый месяц, а затем выставляет счет по ближайшей ставке. Таким образом, нечастые пики игнорируются, и покупатель получает более справедливую оплату. Причина, по которой эта статистика так полезна при измерении пропускной способности данных, заключается в том, что она дает очень точное представление о стоимости полосы пропускания. 95-й процентиль говорит о том, что 95% времени использование ниже этого количества: поэтому в оставшихся 5% времени использование превышает это количество.

Врачи часто используют вес и рост младенцев и детей для оценки их роста по сравнению со средними национальными значениями и процентилями, которые можно найти в диаграммах роста .

85-й процентиль скорости движения на дороге часто используется в качестве ориентира при установлении ограничений скорости и оценке того, является ли такой предел слишком высоким или низким. [3] [4]

В финансах стоимость, подверженная риску, является стандартной мерой для оценки (в зависимости от модели) величины, при которой не ожидается снижения стоимости портфеля в течение заданного периода времени и с учетом значения достоверности.

Нормальное распределение и процентили [ править ]

Представление правила трех сигм . Темно-синяя зона представляет наблюдения в пределах одного стандартного отклонения (σ) по обе стороны от среднего значения (μ), что составляет около 68,3% населения. Два стандартных отклонения от среднего значения (темно-синий и средний синий) составляют около 95,4%, а три стандартных отклонения (темный, средний и светло-синий) составляют около 99,7%.

Методы, приведенные в разделе определений (ниже), являются приблизительными для использования в статистике малых выборок. В общих чертах, для очень больших популяций, следующих нормальному распределению , процентили часто могут быть представлены ссылкой на график нормальной кривой. Нормальное распределение откладывается по оси с точностью до стандартных отклонений или единиц сигма ( ). Математически нормальное распределение простирается до отрицательной бесконечности слева и положительной бесконечности справа. Обратите внимание, однако, что только очень небольшая часть людей в популяции выйдет за пределы диапазона от –3 до +3 . Например, с человеческим ростом очень мало людей выше +3 уровня роста.

Процентили представляют собой площадь под нормальной кривой, увеличивающуюся слева направо. Каждое стандартное отклонение представляет собой фиксированный процентиль. Таким образом, округляя до двух десятичных знаков, −3 - это 0,13-й процентиль, -2 - 2,28-й процентиль, -1 - 15,87-й процентиль, 0 - 50-й процентиль (как среднее, так и медиана распределения), +1 84,13-й процентиль. процентиль, +2 для 97,72-го процентиля и +3 для 99,87-го процентиля. Это связано с правилом 68–95–99,7 или правилом трех сигм. Обратите внимание, что теоретически 0-й процентиль находится на отрицательной бесконечности, а 100-й процентиль - на положительной бесконечности, хотя во многих практических приложениях, таких как результаты тестов, применяются естественные нижние и / или верхние пределы.

Определения [ править ]

Не существует стандартного определения процентиля, [1] [5] [6], однако все определения дают аналогичные результаты, когда количество наблюдений очень велико, а распределение вероятностей является непрерывным. [7] В пределе, когда размер выборки приближается к бесконечности, 100 p- й процентиль (0 < p <1) аппроксимирует обратную величину кумулятивной функции распределения (CDF), сформированной таким образом, вычисленной в p , поскольку p аппроксимирует CDF. Это можно рассматривать как следствие теоремы Гливенко – Кантелли . Некоторые методы расчета процентилей приведены ниже.

Метод ближайшего ранга [ править ]

Значения процентилей для упорядоченного списка {15, 20, 35, 40, 50}

Одно определение процентиля, часто приводимое в текстах, заключается в том, что P- процентиль списка из N упорядоченных значений (отсортированных от наименьшего к наибольшему) является наименьшим значением в списке, так что строгое не более P процентов данных меньше значения и по крайней мере P процентов данных меньше или равно этому значению. Для этого сначала вычисляется порядковый ранг, а затем берется значение из упорядоченного списка, которое соответствует этому рангу. Порядковое ранга п вычисляется по следующей формуле

Обратите внимание на следующее:

  • Использование метода ближайшего ранга в списках с менее чем 100 различными значениями может привести к тому, что одно и то же значение будет использоваться более чем для одного процентиля.
  • Процентиль, рассчитанный с использованием метода ближайшего ранга, всегда будет членом исходного упорядоченного списка.
  • 100-й процентиль определяется как наибольшее значение в упорядоченном списке.

Рабочие примеры метода ближайшего ранга [ править ]

Пример 1

Рассмотрим упорядоченный список {15, 20, 35, 40, 50}, который содержит 5 значений данных. Каковы 5-й, 30-й, 40-й, 50-й и 100-й процентили этого списка с использованием метода ближайшего ранга?

Таким образом, 5-й, 30-й, 40-й, 50-й и 100-й процентили упорядоченного списка {15, 20, 35, 40, 50} с использованием метода ближайшего ранга равны {15, 20, 20, 35, 50}.

Пример 2

Рассмотрим упорядоченную совокупность из 10 значений данных {3, 6, 7, 8, 8, 10, 13, 15, 16, 20}. Каковы 25-й, 50-й, 75-й и 100-й процентили этого списка с использованием метода ближайшего ранга?

Таким образом, 25-й, 50-й, 75-й и 100-й процентили упорядоченного списка {3, 6, 7, 8, 8, 10, 13, 15, 16, 20} с использованием метода ближайшего ранга равны {7, 8, 15, 20 }.

Пример 3

Рассмотрим упорядоченную совокупность из 11 значений данных {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20}. Каковы 25-й, 50-й, 75-й и 100-й процентили этого списка с использованием метода ближайшего ранга?

Таким образом, 25-й, 50-й, 75-й и 100-й процентили упорядоченного списка {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20} с использованием метода ближайшего ранга равны {7, 9, 15 , 20}.

Метод линейной интерполяции между ближайшими рангами [ править ]

Альтернативой округлению, используемым во многих приложениях, является использование линейной интерполяции между соседними рангами.

Общность вариантов этого метода [ править ]

Все следующие варианты имеют следующее общее. Учитывая статистику заказа

мы ищем линейную функцию интерполяции, которая проходит через точки . Это просто достигается

где использует функцию пола для представления целой части положительного , тогда как использует функцию mod для представления его дробной части (остаток после деления на 1). (Обратите внимание, что, хотя в конечной точке , не определено, это не обязательно, потому что оно умножается на .) Как мы видим, это непрерывная версия нижнего индекса , линейно интерполирующая между соседними узлами.

Вариантные подходы различаются двумя способами. Первый заключается в линейной зависимости между рангом , процентным рангом и константой, которая является функцией размера выборки :

Существует дополнительное требование, чтобы средняя точка диапазона , соответствующая медиане , находилась в :

и наша измененная функция теперь имеет только одну степень свободы, которая выглядит так:

Второй способ, которым варианты различаются, заключается в определении функции рядом с полями диапазона : должен давать или заставлять производить результат в диапазоне , что может означать отсутствие однозначного переписка в более широком регионе. Один автор предложил выбрать, где находится форма обобщенного распределения экстремальных значений, которое является пределом экстремальных значений выборочного распределения.

Первый вариант, [ править ]

Результат использования каждого из трех вариантов в упорядоченном списке {15, 20, 35, 40, 50}

(Источники: функция Matlab "prctile", [8] [9] )

куда

Кроме того, пусть

Обратное соотношение ограничено более узкой областью:

Рабочий пример первого варианта [ править ]

Рассмотрим упорядоченный список {15, 20, 35, 40, 50}, который содержит пять значений данных. Каковы 5-й, 30-й, 40-й и 95-й процентили этого списка с использованием метода линейной интерполяции между ближайшими рангами? Сначала мы вычисляем процентный рейтинг для каждого значения списка.

Затем мы берем эти процентные ранги и вычисляем значения процентилей следующим образом:

Таким образом, 5-й, 30-й, 40-й и 95-й процентили упорядоченного списка {15, 20, 35, 40, 50} с использованием метода линейной интерполяции между ближайшими рангами равны {15, 20, 27,5, 50}

Второй вариант, [ править ]

(Источник: некоторые программные пакеты, включая NumPy [10] и Microsoft Excel [6] (до версии 2013 включительно с помощью функции PERCENTILE.INC). Указано как альтернатива NIST [2] )

Обратите внимание, что связь является взаимно однозначной для единственного из трех вариантов с этим свойством; отсюда суффикс «INC» для включения в функции Excel.

Рабочие примеры второго варианта [ править ]

Пример 1:

Рассмотрим упорядоченный список {15, 20, 35, 40, 50}, который содержит пять значений данных. Каков 40-й процентиль этого списка при использовании этого вариантного метода?

Сначала мы вычисляем ранг 40-го процентиля:

Итак, x = 2,6, что дает нам и . Итак, значение 40-го процентиля равно

Пример 2:

Рассмотрим упорядоченный список {1,2,3,4}, который содержит четыре значения данных. Каков 75-й процентиль этого списка при использовании метода Microsoft Excel?

Сначала мы вычисляем ранг 75-го процентиля следующим образом:

Итак, x = 3,25, что дает нам целую часть 3 и дробную часть 0,25. Итак, значение 75-го процентиля равно

Третий вариант, [ править ]

(Основной вариант, рекомендованный NIST . [2] Принятый Microsoft Excel с 2010 года с помощью функции PERCENTIL.EXC. Однако, как указывает суффикс «EXC», версия Excel исключает обе конечные точки диапазона p , т. Е. , тогда как версия "INC", второй вариант, этого не делает; фактически, любое число меньше 1 / (N + 1) также исключается и может вызвать ошибку.)

Обратное ограничено более узкой областью:

Рабочий пример третьего варианта [ править ]

Рассмотрим упорядоченный список {15, 20, 35, 40, 50}, который содержит пять значений данных. Каков 40-й процентиль этого списка с использованием метода NIST?

Сначала мы вычисляем ранг 40-го процентиля следующим образом:

Итак, x = 2,4, что дает нам и . Таким образом, значение 40-го процентиля рассчитывается как:

Таким образом, значение 40-го процентиля упорядоченного списка {15, 20, 35, 40, 50} при использовании этого варианта метода равно 26.

Метод взвешенного процентиля [ править ]

В дополнение к функции процентиля существует также взвешенный процентиль , в котором вместо общего числа считается процент от общего веса. Стандартной функции для взвешенного процентиля не существует. Один метод естественным образом расширяет описанный выше подход.

Предположим, у нас есть положительные веса, связанные, соответственно, с нашими N отсортированными выборочными значениями. Позволять

сумма весов. Затем приведенные выше формулы обобщаются, взяв

когда ,

или же

для общего ,

и

Взвешенный процентиль 50% известен как взвешенная медиана .

См. Также [ править ]

  • Квантиль
  • Дециль
  • Сводные статистические данные
  • Процентиль

Ссылки [ править ]

  1. ^ a b Hyndman RH, Fan Y (1996). «Выборочные квантили в статистических пакетах». Американский статистик . 50 (4): 361–365. DOI : 10.2307 / 2684934 . JSTOR  2684934 .
  2. ^ a b c «Справочник по инженерной статистике: процентиль» . NIST . Проверено 18 февраля 2009 .
  3. ^ Джонсон, Роберт; Куби, Патрисия (2007), «Прикладной пример 2.15, 85-й процентиль ограничения скорости: соблюдение 85% потока», элементарная статистика (10-е изд.), Cengage Learning, стр. 102, ISBN 9781111802493.
  4. ^ «Рациональные ограничения скорости и 85-й процентиль скорости» (PDF) . lsp.org . Полиция штата Луизиана. Архивировано из оригинального (PDF) 23 сентября 2018 года . Проверено 28 октября 2018 года .
  5. ^ Лейн, Дэвид. «Процентили» . Проверено 15 сентября 2007 .
  6. ^ а б Поттель, Ганс. «Статистические ошибки в Excel» (PDF) . Архивировано из оригинального (PDF) 04.06.2013 . Проверено 25 марта 2013 .
  7. ^ Schoonjans F, De Bacquer D, Schmid P (2011). «Оценка процентилей населения» . Эпидемиология . 22 (5): 750–751. DOI : 10.1097 / EDE.0b013e318225c1de . PMC 3171208 . PMID 21811118 .  
  8. ^ "Набор инструментов статистики Matlab - процентили" . Проверено 15 сентября 2006 ., Это эквивалентно методу 5, обсуждаемому здесь
  9. Перейти ↑ Langford, E. (2006). «Квартили в элементарной статистике» . Журнал статистики образования . 14 (3). DOI : 10.1080 / 10691898.2006.11910589 .
  10. ^ "Документация NumPy 1.12" . SciPy . Проверено 19 марта 2017 .