Q – Q график

В статистике график Q – Q (квантиль-квантиль) представляет собой график вероятности, который представляет собой графический метод сравнения двух распределений вероятностей путем сопоставления их квантилей друг с другом. ^[1] Сначала выбирается набор интервалов для квантилей. Точка $(x, y)$ на графике соответствует одному из квантилей второго распределения ( координата $y$ ), построенного против того же квантиля первого распределения ( координата $x$ ). Таким образом, линия представляет собой параметрическую кривую с параметром, который является номером интервала для квантиля.

Нормальный график Q – Q случайно сгенерированных независимых стандартных экспоненциальных данных (

X ~ Exp (1)

). Этот участок Q-Q сравнивает выборку из данных по вертикальной оси к статистической совокупности на горизонтальной оси. Точки следуют сильно нелинейному шаблону, предполагая, что данные не распределяются как стандартное нормальное (

X ~ N (0,1)

). Смещение между линией и точками предполагает, что среднее значение данных не равно 0. Медиана точек может быть определена как около 0,7.

Нормальный график Q – Q, сравнивающий случайно сгенерированные независимые стандартные нормальные данные на вертикальной оси со стандартной нормальной совокупностью на горизонтальной оси. Линейность точек предполагает, что данные распределены нормально.

График AQ – Q выборки данных в зависимости от распределения Вейбулла . Децили распределений показаны красным. В верхней части диапазона очевидны три выброса. В остальном данные хорошо соответствуют модели Вейбулла (1,2).

График AQ – Q, на котором сравниваются распределения стандартизированных суточных максимальных температур на 25 станциях в штате Огайо в США в марте и июле. Изогнутая модель предполагает, что центральные квантили более близко расположены в июле, чем в марте, и что июльское распределение смещено влево по сравнению с мартовским распределением. Данные охватывают период 1893–2001 гг.

Если два сравниваемых распределения похожи, точки на графике Q – Q будут приблизительно лежать на линии $y = x$ . Если распределения связаны линейно, точки на графике Q – Q будут приблизительно лежать на одной линии, но не обязательно на линии $y = x$ . Графики Q – Q также можно использовать в качестве графического средства оценки параметров в семействе распределений в масштабе местоположения .

График AQ – Q используется для сравнения форм распределений, обеспечивая графическое представление того, насколько такие свойства, как расположение , масштаб и асимметрия , схожи или различны в двух распределениях. Графики Q – Q можно использовать для сравнения наборов данных или теоретических распределений . Использование графиков Q – Q для сравнения двух выборок данных можно рассматривать как непараметрический подход к сравнению лежащих в их основе распределений. График AQ – Q, как правило, более эффективен для этого, чем обычный метод сравнения гистограмм двух выборок, но требует большего умения для интерпретации. Графики Q – Q обычно используются для сравнения набора данных с теоретической моделью. ^[2]^[3] Это может обеспечить оценку «качества соответствия», которая является графической, а не сводится к числовой сводке. Графики Q – Q также используются для сравнения двух теоретических распределений друг с другом. ^[4] Поскольку графики Q – Q сравнивают распределения, нет необходимости в том, чтобы значения наблюдались в виде пар, как на диаграмме рассеяния , или даже в том, чтобы числа значений в двух сравниваемых группах были равными.

Термин «вероятностный график» иногда относится конкретно к Q-Q участка, иногда к более общему классу участков, а иногда и к менее часто используемых P-P участка . Вероятностный график коэффициент корреляции участок (ККМП участок) является величиной , производной от идеи Q-Q участков, который измеряет согласие подогнанного распределения с наблюдаемыми данными и который иногда используются как средство подгонки распределения к данным.

Определение и конструкция

График Q – Q для дат первого открытия / последнего закрытия Маршрута 20 штата Вашингтон в сравнении с нормальным распределением. ^[5] Выбросы видны в правом верхнем углу.

Q-Q участок представляет собой участок квантилей двух распределений друг против друга, или сюжет на основе оценки квантилей. Шаблон точек на графике используется для сравнения двух распределений.

Основным этапом построения графика Q – Q является расчет или оценка квантилей, которые необходимо построить. Если одна или обе оси на графике Q – Q основаны на теоретическом распределении с непрерывной кумулятивной функцией распределения (CDF), все квантили определены однозначно и могут быть получены путем инвертирования CDF. Если теоретическое распределение вероятностей с прерывистой функцией CDF является одним из двух сравниваемых распределений, некоторые из квантилей могут не быть определены, поэтому можно построить интерполированный квантиль. Если график Q – Q основан на данных, используется несколько квантильных оценщиков. Правила построения графиков Q – Q, когда квантили должны быть оценены или интерполированы, называются позициями построения графиков .

Простой случай - это два набора данных одинакового размера. В этом случае, чтобы построить график Q – Q, нужно упорядочить каждый набор в порядке возрастания, затем объединить в пары и построить соответствующие значения. Более сложная конструкция - это случай, когда сравниваются два набора данных разного размера. Чтобы построить график Q – Q в этом случае, необходимо использовать интерполированную оценку квантилей, чтобы можно было построить квантили, соответствующие одной и той же базовой вероятности.

Говоря более абстрактно, ^[4], учитывая две кумулятивные функции распределения вероятностей $F$ и $G$ , с соответствующими функциями квантилей $F -1$ и $G -1$ (обратная функция CDF является функцией квантиля), график Q – Q рисует $q$ -й квантиль $F$ против $q$ -го квантиля $G$ для диапазона значений $q$ . Таким образом, график Q – Q представляет собой параметрическую кривую с индексом [0,1] со значениями в реальной плоскости $R 2$ .

Интерпретация

Точки на графике Q – Q всегда не убывают, если смотреть слева направо. Если два сравниваемых распределения идентичны, график Q – Q следует линии $y = x$ под углом 45 ° . Если два распределения согласуются после линейного преобразования значений в одном из распределений, то график Q – Q следует некоторой линии, но не обязательно линии $y = x$ . Если общий тренд графика Q – Q более пологий, чем линия $y = x$ , распределение, нанесенное на горизонтальную ось, более рассеяно, чем распределение, нанесенное на вертикальную ось. И наоборот, если общий тренд графика Q – Q круче, чем линия $y = x$ , распределение, нанесенное на вертикальную ось, более рассеяно, чем распределение, нанесенное на горизонтальную ось. Графики Q – Q часто имеют дугообразную или S-образную форму, что указывает на то, что одно из распределений более искажено, чем другое, или что одно из распределений имеет более тяжелые хвосты, чем другое.

Хотя график Q – Q основан на квантилях, на стандартном графике Q – Q невозможно определить, какая точка на графике Q – Q определяет данный квантиль. Например, невозможно определить медиану любого из двух сравниваемых распределений, просматривая график Q – Q. На некоторых графиках Q – Q указаны децили, позволяющие сделать такие определения возможными.

Пересечение и наклон линейной регрессии между квантилями дает меру относительного расположения и относительного масштаба выборок. Если медиана распределения, нанесенная на горизонтальную ось, равна 0, точка пересечения линии регрессии является мерой местоположения, а наклон - мерой масштаба. Расстояние между медианами - еще одна мера относительного местоположения, отраженная на графике Q – Q. « Коэффициент корреляции вероятностного графика » (график PPCC) представляет собой коэффициент корреляции между парными квантилями выборки. Чем ближе коэффициент корреляции к единице, тем ближе распределения к смещенным масштабированным версиям друг друга. Для распределений с одним параметром формы график коэффициента корреляции вероятностного графика предоставляет метод оценки параметра формы - один просто вычисляет коэффициент корреляции для разных значений параметра формы и использует наиболее подходящий, как если бы сравнивали распределения разных типов.

Другим распространенным использованием графиков Q – Q является сравнение распределения выборки с теоретическим распределением, таким как стандартное нормальное распределение $N (0,1)$ , как на графике нормальной вероятности . Как и в случае сравнения двух выборок данных, один упорядочивает данные (формально вычисляет статистику порядка), а затем строит их против определенных квантилей теоретического распределения. ^[3]

Построение позиций

Выбор квантилей из теоретического распределения может зависеть от контекста и цели. Один из вариантов выбора для выборки размера $n$ - $k / n$ для $k = 1,\dots, n$ , поскольку это квантили, которые реализует распределение выборки. Последнее из них, $n / n$ , соответствует 100-му процентилю - максимальному значению теоретического распределения, которое иногда бесконечно. Другой выбор - использование $(k - 0,5) / n$ или вместо этого для равномерного распределения точек в равномерном распределении, используя $k / (n + 1)$ . ^[6]

Было предложено множество других вариантов, как формальных, так и эвристических, на основе теории или моделирования, релевантных в контексте. В следующих подразделах обсуждаются некоторые из них. Более узкий вопрос - это выбор максимума (оценка максимума популяции), известный как проблема немецких танков , для которого существуют аналогичные решения типа «максимум выборки плюс пробел», проще всего $m + m / n - 1$ . Более формальное применение этого унифицированного интервала происходит при оценке параметров максимального интервала .

Ожидаемое значение статистики заказов для равномерного распределения

$К / (п + 1)$ подход равно , что в подготовке точек в соответствии с вероятностью , что последний из ( $п + 1$ ) случайным образом нарисованные значения не будут превышать $к$ -м наименьшим из первых $п$ произвольно составленных значений. ^[7]^[8]

Ожидаемое значение статистики порядка для стандартного нормального распределения

При использовании графика нормальной вероятности используемые квантили - это ранги , квантиль ожидаемого значения упорядоченной статистики стандартного нормального распределения.

В более общем смысле, критерий Шапиро – Уилка использует ожидаемые значения статистики порядка данного распределения; полученные график и линия дают обобщенную оценку методом наименьших квадратов для местоположения и масштаба (из точки пересечения и наклона подобранной линии). ^[9] Хотя это не слишком важно для нормального распределения (местоположение и масштаб оцениваются по среднему и стандартному отклонению соответственно), это может быть полезно для многих других распределений.

Однако это требует вычисления ожидаемых значений статистики порядка, что может быть затруднено, если распределение не является нормальным.

Медиана статистики заказа

В качестве альтернативы можно использовать оценки медианы статистики порядка, которую можно вычислить на основе оценок медианы статистики порядка равномерного распределения и функции квантиля распределения; это было предложено ( Filliben 1975 ). ^[9]

Это может быть легко сгенерировано для любого распределения, для которого может быть вычислена функция квантиля, но, наоборот, результирующие оценки местоположения и масштаба больше не являются точными оценками наименьших квадратов, хотя они значительно различаются только для малых $n$ .

Эвристика

Несколько различных формул были использованы или предложены в качестве аффинно- симметричных позиций построения графика . Такие формулы имеют вид $(k - a) / (n + 1 - 2 a)$ для некоторого значения $a$ в диапазоне от 0 до 1, что дает диапазон от $k / (n + 1)$ до $(k - 1). / (п - 1)$ .

Выражения включают:

$к / (п + 1)$
$(k - 0,3) / (n + 0,4)$ . ^[10]
$(к - 0,3175) / (п + 0,365)$ . ^[11]^{[примечание 1]}
$(k - 0,326) / (n + 0,348)$ . ^[12]
$(к - ⅓) / (п + ⅓)$ . ^{[заметка 2]}
$(к - 0,375) / (п + 0,25)$ . ^{[заметка 3]}
$(k - 0,4) / (n + 0,2)$ . ^[13]
$(к - 0,44) / (п + 0,12)$ . ^{[примечание 4]}
$(k - 0,5) / n$ . ^[15]
$(k - 0,567) / (n - 0,134)$ . ^[16]
$(к - 1) / (п - 1)$ . ^{[примечание 5]}

Для большого размера выборки $n$ между этими различными выражениями мало различий.

Оценка Филлибена

Медианы порядковой статистики - это медианы порядковой статистики распределения. Они могут быть выражены в терминах функции квантиля и медианы статистических величин порядка для непрерывного равномерного распределения :

{\ Displaystyle N (я) = G (U (я))}

где $U (i)$ - медианы статистики однородного порядка, а $G$ - функция квантиля для желаемого распределения. Функция квантиля - это обратная функция кумулятивной функции распределения (вероятность того, что $X$ меньше или равно некоторому значению). То есть, учитывая вероятность, нам нужен соответствующий квантиль кумулятивной функции распределения.

Джеймс Дж. Филлибен ( Filliben 1975 ) использует следующие оценки для статистических медиан единообразного порядка:

{\ displaystyle m (i) = {\ begin {cases} 1-0,5 ^ {1 / n} & i = 1 \\\\ {\ dfrac {i-0,3175} {n + 0,365}} & i = 2,3, \ ldots, n-1 \\\\ 0,5 ^ {1 / n} & i = n. \ end {case}}}

Причина такой оценки заключается в том, что статистические медианы порядка не имеют простой формы.

Смотрите также

Пробит- анализ был разработан Честером Иттнером Блиссом в 1934 году.

Заметки

^ Обратите внимание, что здесь также используется другое выражение для первой и последней точек. [1] цитирует оригинальную работу ( Filliben 1975 ). Это выражение является оценкой из медиан в $U (K)$ .
^ Простая (и легко запоминающаяся) формула для построения позиций; используется встатистическом пакете BMDP .
^ Этоболее раннее приближение( Блом 1958 ) и выражение, используемое в MINITAB .
^ Это положение на графике было использовано Ирвингом И. Грингортеном^[14] для построения точек в тестах на распределение Гамбеля .
^ Используется Filliben (1975) , эти точки черчения равны мод в $U (K)$ .

Внешние ссылки

График вероятности
Альтернативное описание графика QQ: http://www.stats.gla.ac.uk/steps/glossary/probability_distributions.html#qqplot

[12] Обратите внимание, что здесь также используется другое выражение для первой и последней точек. [1] цитирует оригинальную работу ( Filliben 1975 ). Это выражение является оценкой из медиан в $U (K)$ .

[14] Простая (и легко запоминающаяся) формула для построения позиций; используется встатистическом пакете BMDP .

[15] Этоболее раннее приближение( Блом 1958 ) и выражение, используемое в MINITAB .

[18] Это положение на графике было использовано Ирвингом И. Грингортеном^[14] для построения точек в тестах на распределение Гамбеля .

[21] Используется Filliben (1975) , эти точки черчения равны мод в $U (K)$ .

[1] Уилк, МБ; Gnanadesikan, Р. (1968), "Вероятность черчения методы анализа данных", Biometrika , Biometrika траст, 55 (1): 1-17, DOI : 10,1093 / Biomet / 55.1.1 , JSTOR 2334448 , PMID 5661047 .

[2] Gnanadesikan (1977) Р199.

[thode21-3] Б ( Thode 2002 , Раздел 2.2.2, квантиль-Квантильные участки, стр. 21 )

[gibbons-4] ( Гиббонс и Чакраборти, 2003 , стр.144 )

[closure-5] «SR 20 - North Cascades Highway - История открытия и закрытия» . Проходы Северных каскадов . Департамент транспорта штата Вашингтон. Октябрь 2009 . Проверено 8 февраля 2009 года .

[6] Вейбулл, Валодди (1939), «Статистическая теория прочности материалов», IVA Handlingar, Шведская королевская академия инженерных наук (151)

[7] Madsen, HO; и другие. (1986), Методы структурной безопасности

[8] Макконен, Л. (2008), " Завершение разногласий по поводу позиции при построении графика", Коммуникации в статистике - Теория и методы (37): 460–467

[thode31-9] Тестирование на нормальность , Генри С. Тод, CRC Press, 2002, ISBN 978-0-8247-9613-6 , стр. 31 год

[10] Бенара & Bos-Levenbach (1953). Нанесение наблюдений на вероятностную бумагу. Statistica Neederlandica, 7: 163-173. DOI : 10.1111 / j.1467-9574.1953.tb00821.x . (на голландском языке) }

[11] Справочник по инженерной статистике: график нормальной вероятности

[13] Распространение бесплатное графическое положение , Ю и Хуанг

[16] Cunane (1978).

[17] Грингортен, Ирвинг И. (1963). «Правило построения для бумаги с экстремальной вероятностью» . Журнал геофизических исследований . 68 (3): 813–814. DOI : 10.1029 / JZ068i003p00813 . ISSN 2156-2202 .

[19] Хазен, Аллен (1914), «Хранение в водохранилищах для муниципального водоснабжения», Труды Американского общества инженеров-строителей (77): 1547–1550

[20] Ларсен, смородина и охота (1980).

[1]