Эта статья может потребовать очистки, чтобы соответствовать стандартам качества Википедии . ( Декабрь 2010 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) |
Часть серии по |
Регрессивный анализ |
---|
Модели |
Оценка |
|
|
Фон |
|
|
Квантильная регрессия - это тип регрессионного анализа, используемый в статистике и эконометрике. В то время как метод наименьших квадратов оценивает условное среднее значение переменной ответа по значениям переменных-предикторов, квантильная регрессия оценивает условную медиану (или другие квантили ) переменной ответа. Квантильная регрессия - это расширение линейной регрессии, используемое, когда не выполняются условия линейной регрессии.
Преимущества и приложения [ править ]
Одно из преимуществ квантильной регрессии по сравнению с обычной регрессией методом наименьших квадратов состоит в том, что оценки квантильной регрессии более устойчивы к выбросам в измерениях отклика. Однако основная привлекательность квантильной регрессии выходит за рамки этого и полезна, когда интересны условные квантильные функции. Различные меры центральной тенденции и статистической дисперсии могут быть полезны для получения более полного анализа взаимосвязи между переменными. [1]
В экологии была предложена квантильная регрессия, которая использовалась как способ обнаружения более полезных прогностических взаимосвязей между переменными в случаях, когда взаимосвязь отсутствует или есть только слабая взаимосвязь между средними значениями таких переменных. Необходимость и успех квантильной регрессии в экологии объясняется сложностью взаимодействий между различными факторами, приводящими к данным с неравномерным изменением одной переменной для разных диапазонов другой переменной. [2]
Другое применение квантильной регрессии - области диаграмм роста, где процентильные кривые обычно используются для выявления аномального роста. [3] [4]
Математика [ править ]
Математические формы, возникающие при квантильной регрессии, отличаются от форм, возникающих при использовании метода наименьших квадратов . Метод наименьших квадратов приводит к рассмотрению проблем в пространстве внутреннего продукта , включая проекцию на подпространства, и, таким образом, проблема минимизации квадратов ошибок может быть сведена к задаче численной линейной алгебры . Квантильная регрессия не имеет такой структуры и вместо этого приводит к проблемам в линейном программировании, которые могут быть решены симплексным методом .
История [ править ]
Идея оценки среднего наклона регрессии, основная теорема о минимизации суммы абсолютных отклонений и геометрический алгоритм для построения медианной регрессии были предложены в 1760 году Руджером Йосипом Бошковичем , католическим священником- иезуитом из Дубровника. [1] : 4 [5] Он интересовался эллиптичностью Земли, основываясь на предположении Исаака Ньютона о том, что ее вращение может вызвать выпуклость на экваторе с соответствующим уплощением на полюсах. [6] Наконец, он создал первую геометрическую процедуру для определения экватора вращающейся планеты по трем наблюдениям.поверхностного элемента. Что еще более важно для квантильной регрессии, он смог разработать первое свидетельство наименьшего абсолютного критерия и опередил метод наименьших квадратов, введенный Лежандром в 1805 году, на пятьдесят лет. [7]
Другие мыслители начали развивать идею Бошковича, например Пьер-Симон Лаплас , который разработал так называемый «метод ситуации». Это привело к множественной медиане Фрэнсиса Эджворта [8] - геометрическому подходу к медианной регрессии - и признано предшественником симплексного метода . [7] Работы Бошковича, Лапласа и Эджворта были признаны прелюдией к вкладам Роджера Кенкера в квантильную регрессию.
Вычисления медианной регрессии для больших наборов данных довольно утомительны по сравнению с методом наименьших квадратов, по этой причине он исторически не пользовался популярностью среди статистиков до широкого распространения компьютеров во второй половине 20-го века.
Квантили [ править ]
Позвольте быть вещественной случайной величиной с кумулятивной функцией распределения . - Й квантиль Y задается
куда
Определите функцию потерь как , где - индикаторная функция .
Конкретный квантиль может быть найден путем минимизации ожидаемых потерь в отношении : [1] (стр. 5–6):
Это можно показать, вычислив производную ожидаемого убытка с помощью применения интегрального правила Лейбница , установив его равным 0 и приняв решение
Это уравнение сводится к
а затем в
Отсюда - квантиль случайной величины Y.
Пример [ править ]
Позвольте быть дискретной случайной величиной, которая принимает значения 1,2, .., 9 с равными вероятностями. Задача состоит в том, чтобы найти медиану Y, поэтому значение выбрано. Ожидаемый убыток L ( u ) равен
Поскольку является константой, его можно исключить из функции ожидаемых потерь (это верно, только если ). Тогда при u = 3
Предположим, что u увеличено на 1 единицу. Тогда ожидаемый убыток изменится на изменение u на 4. Если u = 5, ожидаемый убыток составит
и любое изменение u увеличит ожидаемый убыток. Таким образом, u = 5 - медиана. В таблице ниже показаны ожидаемые убытки (разделенные на ) для различных значений u .
ты | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
Ожидаемая потеря | 36 | 29 | 24 | 21 год | 20 | 21 год | 24 | 29 | 36 |
Интуиция [ править ]
Рассмотрим и пусть q будет первоначальным предположением для . Ожидаемый убыток, оцениваемый по q, составляет
Чтобы минимизировать ожидаемый убыток, мы немного перемещаем значение q , чтобы увидеть, будет ли ожидаемый убыток расти или падать. Предположим, мы увеличиваем q на 1 единицу. Тогда изменение ожидаемого убытка будет
Первый член уравнения равен, а второй член уравнения . Следовательно, изменение функции ожидаемых потерь является отрицательным тогда и только тогда , когда , то есть тогда и только тогда, когда q меньше медианы. Точно так же, если мы уменьшим q на 1 единицу, изменение функции ожидаемых потерь будет отрицательным тогда и только тогда, когда q больше медианы.
Чтобы минимизировать ожидаемую функцию потерь, мы должны увеличивать (уменьшать) L ( q ), если q меньше (больше) медианы, пока q не достигнет медианы. Идея минимизации состоит в том, чтобы подсчитать количество точек (взвешенных по плотности), которые больше или меньше q, а затем переместить q в точку, где q больше % точек.
Образец квантиля [ править ]
Образец квантиль может быть получен путем решения следующей задачи минимизации
- , где функция представляет собой наклонную функцию абсолютного значения. Интуиция такая же, как и для квантиля населения.
Условная квантиль и квантильная регрессия [ править ]
Предположим, что условная функция квантиля равна . Учитывая функцию распределения , можно получить, решив
Решение выборочного аналога дает оценку .
Вычисление [ править ]
Задачу минимизации можно переформулировать как задачу линейного программирования
куда
- ,
Симплекс-методы [1] : 181 или методы внутренней точки [1] : 190 могут применяться для решения задачи линейного программирования.
Асимптотические свойства [ править ]
Для при некоторых условиях регулярности, является асимптотически нормальным :
куда
- и
Прямая оценка матрицы асимптотической дисперсии-ковариации не всегда бывает удовлетворительной. Вывод о параметрах квантильной регрессии может быть сделан с помощью тестов на ранговую оценку регрессии или с помощью методов начальной загрузки. [9]
Эквивариантность [ править ]
См. Инвариантную оценку для получения информации об инвариантности или см. Эквивариантность .
Эквивалентность шкалы [ править ]
Для любого и
Эквивалентность сдвига [ править ]
Для любого и
Эквивалентность повторной параметризации дизайна [ править ]
Пусть - произвольная невырожденная матрица и
Инвариантность к монотонным преобразованиям [ править ]
Если - неубывающая функция на ' R , применяется следующее свойство инвариантности :
Пример (1):
Если и , то . Средняя регрессия не имеет того же свойства, поскольку
Байесовские методы квантильной регрессии [ править ]
Поскольку квантильная регрессия обычно не предполагает параметрического правдоподобия для условных распределений Y | X, байесовские методы работают с рабочим правдоподобием. Удобным выбором является асимметричное лапласовское правдоподобие [10], потому что мода результирующего апостериорного при плоском априорном уровне - это обычные оценки квантильной регрессии. Однако апостериорный вывод следует интерпретировать с осторожностью. Ян, Ван и Хе [11] предоставили апостериорную поправку на дисперсию для достоверного вывода. Вдобавок Ян и Хе [12] показали, что можно иметь асимптотически верный апостериорный вывод, если рабочая вероятность выбрана в качестве эмпирической вероятности.
Методы машинного обучения для квантильной регрессии [ править ]
Помимо простой линейной регрессии, существует несколько методов машинного обучения, которые можно расширить до квантильной регрессии. Переключение с квадрата ошибки на наклонную функцию потерь абсолютного значения позволяет алгоритмам обучения на основе градиентного спуска изучать указанный квантиль вместо среднего. Это означает, что мы можем применить все нейронные сети и алгоритмы глубокого обучения к квантильной регрессии. [13] [14] Древовидные алгоритмы обучения также доступны для квантильной регрессии (см., Например, Quantile Regression Forests, [15] как простое обобщение случайных лесов ).
Цензурированная квантильная регрессия [ править ]
Если переменная ответа подвергается цензуре, условное среднее не может быть идентифицировано без дополнительных предположений о распределении, но условный квантиль часто можно идентифицировать. О недавних работах по цензурированной квантильной регрессии см .: Portnoy [16] и Wang and Wang [17].
Пример (2):
Пусть и . Тогда . Это модель квантильной регрессии с цензурой: оценочные значения могут быть получены без каких-либо предположений о распределении, но за счет вычислительных трудностей [18], некоторых из которых можно избежать, используя в качестве приближения простую трехэтапную процедуру цензурированной квантильной регрессии. [19]
Для случайной цензуры переменных ответа цензурированная квантильная регрессия Portnoy (2003) [16] обеспечивает согласованные оценки всех идентифицируемых функций квантилей, основанные на соответствующем изменении веса каждой цензурированной точки.
Реализации [ править ]
Многочисленные пакеты статистического программного обеспечения включают реализации квантильной регрессии:
- Функция Matlab
quantreg
[20] - Eviews , начиная с версии 6. [ необходима ссылка ]
- У gretl есть
quantreg
команда. [21] - R предлагает несколько пакетов, реализующих квантильную регрессию, в первую очередь
quantreg
от Роджера Кенкера , [22], но такжеgbm
, [23]quantregForest
, [24]qrnn
[25] иqgam
[26] - Python , см.
Scikit-garden
[27] иstatsmodels
[28] - SAS через
proc quantreg
(версия 9.2) иproc quantselect
(версия 9.3). [29] - Stata через
qreg
команду. [30] [31] - Vowpal Wabbit , через
--loss_function quantile
. [32] - Пакет Statsmodels для Python, через
QuantReg
[33] - Пакет Mathematica
QuantileRegression.m
[34] размещен в проекте MathematicaForPrediction на GitHub.
Ссылки [ править ]
- ^ a b c d e Коенкер, Роджер (2005). Квантильная регрессия . Издательство Кембриджского университета. стр. 146 -7. ISBN 978-0-521-60827-5.
- ^ Кейд, Брайан С .; Полдень, Барри Р. (2003). «Мягкое введение в квантильную регрессию для экологов» (PDF) . Границы экологии и окружающей среды . 1 (8): 412–420. DOI : 10.2307 / 3868138 . JSTOR 3868138 .
- ^ Wei, Y .; Pere, A .; Koenker, R .; Он, X. (2006). «Методы квантильной регрессии для справочных графиков роста». Статистика в медицине . 25 (8): 1369–1382. DOI : 10.1002 / sim.2271 . PMID 16143984 .
- ^ Wei, Y .; Он, X. (2006). «Графики условного роста (с обсуждениями)». Анналы статистики . 34 (5): 2069–2097 и 2126–2131. arXiv : math / 0702634 . DOI : 10.1214 / 009053606000000623 .
- ^ Стиглер, С. (1984). «Боскович, Симпсон и заметка в рукописи 1760 года об установлении линейной зависимости». Биометрика . 71 (3): 615–620. DOI : 10.1093 / Biomet / 71.3.615 .
- ^ Koenker, Роджер (2005). Квантильная регрессия . Кембридж: Издательство Кембриджского университета. стр. 2 . ISBN 9780521845731.
- ^ а б Фурно, Марилена; Вискоко, Доменико (2018). Квантильная регрессия: оценка и моделирование . Хобокен, Нью-Джерси: Джон Уайли и сыновья. стр. xv. ISBN 9781119975281.
- ^ Koenker, Роджер (август 1998). «Гальтон, Эджворт, Фриш и перспективы квантильной регрессии в экономике» (PDF) . UIUC.edu . Проверено 22 августа 2018 года .
- ^ Кочергинский, М .; Он, X .; Му, Ю. (2005). «Практические доверительные интервалы для квантилей регрессии». Журнал вычислительной и графической статистики . 14 (1): 41–55. DOI : 10.1198 / 106186005X27563 .
- ^ Кодзуми, H .; Кобаяши, Г. (2011). «Методы выборки Гиббса для байесовской квантильной регрессии» (PDF) . Журнал статистических вычислений и моделирования . 81 (11): 1565–1578. DOI : 10.1080 / 00949655.2010.496117 .
- ^ Ян, Y .; Ван, HX; Он, X. (2016). «Апостериорный вывод в байесовской квантильной регрессии с асимметричным правдоподобием Лапласа». Международное статистическое обозрение . 84 (3): 327–344. DOI : 10.1111 / insr.12114 . ЛВП : 2027,42 / 135059 .
- ^ Ян, Y .; Он, X. (2010). «Байесовская эмпирическая вероятность квантильной регрессии». Анналы статистики . 40 (2): 1102–1131. arXiv : 1207,5378 . DOI : 10.1214 / 12-AOS1005 .
- ^ Petneházi, Габор (2019-08-21). «QCNN: квантильная сверточная нейронная сеть». arXiv : 1908.07978 [ cs.LG ].
- ^ Родригес, Филипе; Перейра, Франсиско К. (27.08.2018). «За гранью ожидания: глубокое совместное среднее и квантильная регрессия для пространственно-временных проблем». arXiv : 1808.08798 [ статистика ].
- ^ Meinshausen, Николаи (2006). «Квантильные регрессионные леса» (PDF) . Журнал исследований в области машинного обучения . 7 (6): 983–999.
- ^ а б Портной, SL (2003). «Квантили регрессии с цензурой». Журнал Американской статистической ассоциации . 98 (464): 1001–1012. DOI : 10.1198 / 016214503000000954 .
- ^ Ван, Х .; Ван, Л. (2009). «Локально взвешенная цензурированная квантильная регрессия». Журнал Американской статистической ассоциации . 104 (487): 1117–1128. CiteSeerX 10.1.1.504.796 . DOI : 10,1198 / jasa.2009.tm08230 .
- ^ Пауэлл, Джеймс Л. (1986). «Квантили регрессии с цензурой». Журнал эконометрики . 32 (1): 143–155. DOI : 10.1016 / 0304-4076 (86) 90016-3 .
- ^ Черножуков, Виктор; Хун, Хан (2002). «Трехступенчатая цензурированная квантильная регрессия и внебрачные связи». J. Amer. Статист. Доц. 97 (459): 872–882. DOI : 10.1198 / 016214502388618663 .
- ^ "Quantreg (x, y, tau, order, Nboot) - Обмен файлами - MATLAB Central" . www.mathworks.com . Проверено 1 февраля 2016 .
- ^ "Справочник команд Gretl" (PDF) . Апрель 2017 г.
- ^ "Quantreg: квантильная регрессия" . R проект . 2018-12-18.
- ^ "GBM: Обобщенные модели ускоренной регрессии" . R проект . 2019-01-14.
- ^ "QuantregForest: леса квантильной регрессии" . R проект . 2017-12-19.
- ^ "qrnn: нейронные сети квантильной регрессии" . R проект . 2018-06-26.
- ^ «qgam: модели гладкой аддитивной квантильной регрессии» . R проект . 2019-05-23.
- ^ «Леса квантильной регрессии» . Сикит-сад . Дата обращения 3 января 2019 .
- ^ «Статистические модели: квантильная регрессия» . Statsmodels . Дата обращения 15 ноября 2019 .
- ^ «Введение в квантильную регрессию и процедуру QUANTREG» (PDF) . Поддержка SAS .
- ^ «qreg - квантильная регрессия» (PDF) . Руководство по Stata .
- ^ Кэмерон, А. Колин; Триведи, Правин К. (2010). «Квантильная регрессия» . Микроэконометрика с использованием Stata (пересмотренная ред.). Колледж-Стейшн: Stata Press. С. 211–234. ISBN 978-1-59718-073-3.
- ^ "Джон Лэнгфорд / vowpal_wabbit" . GitHub . Проверено 9 июля 2016 .
- ^ «Квантильная регрессия» . statsmodels.org . Дата обращения 3 января 2019 .
- ^ "QuantileRegression.m" . MathematicaForPrediction . Дата обращения 3 января 2019 .
Дальнейшее чтение [ править ]
В Wikibook R Programming есть страница на тему: Квантильная регрессия |
- Ангрист, Джошуа Д .; Пишке, Йорн-Штеффен (2009). «Квантильная регрессия» . В основном безвредная эконометрика: компаньон эмпирика . Издательство Принстонского университета. С. 269–291. ISBN 978-0-691-12034-8.
- Кенкер, Роджер (2005). Квантильная регрессия . Издательство Кембриджского университета. ISBN 978-0-521-60827-5.