Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Квантильная регрессия - это тип регрессионного анализа, используемый в статистике и эконометрике. В то время как метод наименьших квадратов оценивает условное среднее значение переменной ответа по значениям переменных-предикторов, квантильная регрессия оценивает условную медиану (или другие квантили ) переменной ответа. Квантильная регрессия - это расширение линейной регрессии, используемое, когда не выполняются условия линейной регрессии.

Преимущества и приложения [ править ]

Одно из преимуществ квантильной регрессии по сравнению с обычной регрессией методом наименьших квадратов состоит в том, что оценки квантильной регрессии более устойчивы к выбросам в измерениях отклика. Однако основная привлекательность квантильной регрессии выходит за рамки этого и полезна, когда интересны условные квантильные функции. Различные меры центральной тенденции и статистической дисперсии могут быть полезны для получения более полного анализа взаимосвязи между переменными. [1]

В экологии была предложена квантильная регрессия, которая использовалась как способ обнаружения более полезных прогностических взаимосвязей между переменными в случаях, когда взаимосвязь отсутствует или есть только слабая взаимосвязь между средними значениями таких переменных. Необходимость и успех квантильной регрессии в экологии объясняется сложностью взаимодействий между различными факторами, приводящими к данным с неравномерным изменением одной переменной для разных диапазонов другой переменной. [2]

Другое применение квантильной регрессии - области диаграмм роста, где процентильные кривые обычно используются для выявления аномального роста. [3] [4]

Математика [ править ]

Математические формы, возникающие при квантильной регрессии, отличаются от форм, возникающих при использовании метода наименьших квадратов . Метод наименьших квадратов приводит к рассмотрению проблем в пространстве внутреннего продукта , включая проекцию на подпространства, и, таким образом, проблема минимизации квадратов ошибок может быть сведена к задаче численной линейной алгебры . Квантильная регрессия не имеет такой структуры и вместо этого приводит к проблемам в линейном программировании, которые могут быть решены симплексным методом .

История [ править ]

Идея оценки среднего наклона регрессии, основная теорема о минимизации суммы абсолютных отклонений и геометрический алгоритм для построения медианной регрессии были предложены в 1760 году Руджером Йосипом Бошковичем , католическим священником- иезуитом из Дубровника. [1] : 4 [5] Он интересовался эллиптичностью Земли, основываясь на предположении Исаака Ньютона о том, что ее вращение может вызвать выпуклость на экваторе с соответствующим уплощением на полюсах. [6] Наконец, он создал первую геометрическую процедуру для определения экватора вращающейся планеты по трем наблюдениям.поверхностного элемента. Что еще более важно для квантильной регрессии, он смог разработать первое свидетельство наименьшего абсолютного критерия и опередил метод наименьших квадратов, введенный Лежандром в 1805 году, на пятьдесят лет. [7]

Другие мыслители начали развивать идею Бошковича, например Пьер-Симон Лаплас , который разработал так называемый «метод ситуации». Это привело к множественной медиане Фрэнсиса Эджворта [8] - геометрическому подходу к медианной регрессии - и признано предшественником симплексного метода . [7] Работы Бошковича, Лапласа и Эджворта были признаны прелюдией к вкладам Роджера Кенкера в квантильную регрессию.

Вычисления медианной регрессии для больших наборов данных довольно утомительны по сравнению с методом наименьших квадратов, по этой причине он исторически не пользовался популярностью среди статистиков до широкого распространения компьютеров во второй половине 20-го века.

Квантили [ править ]

Позвольте быть вещественной случайной величиной с кумулятивной функцией распределения . - Й квантиль Y задается

куда

Определите функцию потерь как , где - индикаторная функция .

Конкретный квантиль может быть найден путем минимизации ожидаемых потерь в отношении : [1] (стр. 5–6):

Это можно показать, вычислив производную ожидаемого убытка с помощью применения интегрального правила Лейбница , установив его равным 0 и приняв решение

Это уравнение сводится к

а затем в

Отсюда - квантиль случайной величины Y.

Пример [ править ]

Позвольте быть дискретной случайной величиной, которая принимает значения 1,2, .., 9 с равными вероятностями. Задача состоит в том, чтобы найти медиану Y, поэтому значение выбрано. Ожидаемый убыток L ( u ) равен

Поскольку является константой, его можно исключить из функции ожидаемых потерь (это верно, только если ). Тогда при u = 3

Предположим, что u увеличено на 1 единицу. Тогда ожидаемый убыток изменится на изменение u на 4. Если u = 5, ожидаемый убыток составит

и любое изменение u увеличит ожидаемый убыток. Таким образом, u = 5 - медиана. В таблице ниже показаны ожидаемые убытки (разделенные на ) для различных значений u .

Интуиция [ править ]

Рассмотрим и пусть q будет первоначальным предположением для . Ожидаемый убыток, оцениваемый по q, составляет

Чтобы минимизировать ожидаемый убыток, мы немного перемещаем значение q , чтобы увидеть, будет ли ожидаемый убыток расти или падать. Предположим, мы увеличиваем q на 1 единицу. Тогда изменение ожидаемого убытка будет

Первый член уравнения равен, а второй член уравнения . Следовательно, изменение функции ожидаемых потерь является отрицательным тогда и только тогда , когда , то есть тогда и только тогда, когда q меньше медианы. Точно так же, если мы уменьшим q на 1 единицу, изменение функции ожидаемых потерь будет отрицательным тогда и только тогда, когда q больше медианы.

Чтобы минимизировать ожидаемую функцию потерь, мы должны увеличивать (уменьшать) L ( q ), если q меньше (больше) медианы, пока q не достигнет медианы. Идея минимизации состоит в том, чтобы подсчитать количество точек (взвешенных по плотности), которые больше или меньше q, а затем переместить q в точку, где q больше % точек.

Образец квантиля [ править ]

Образец квантиль может быть получен путем решения следующей задачи минимизации

, где функция представляет собой наклонную функцию абсолютного значения. Интуиция такая же, как и для квантиля населения.

Условная квантиль и квантильная регрессия [ править ]

Предположим, что условная функция квантиля равна . Учитывая функцию распределения , можно получить, решив

Решение выборочного аналога дает оценку .

Вычисление [ править ]

Задачу минимизации можно переформулировать как задачу линейного программирования

куда

,   

Симплекс-методы [1] : 181 или методы внутренней точки [1] : 190 могут применяться для решения задачи линейного программирования.

Асимптотические свойства [ править ]

Для при некоторых условиях регулярности, является асимптотически нормальным :

куда

и

Прямая оценка матрицы асимптотической дисперсии-ковариации не всегда бывает удовлетворительной. Вывод о параметрах квантильной регрессии может быть сделан с помощью тестов на ранговую оценку регрессии или с помощью методов начальной загрузки. [9]

Эквивариантность [ править ]

См. Инвариантную оценку для получения информации об инвариантности или см. Эквивариантность .

Эквивалентность шкалы [ править ]

Для любого и

Эквивалентность сдвига [ править ]

Для любого и

Эквивалентность повторной параметризации дизайна [ править ]

Пусть - произвольная невырожденная матрица и

Инвариантность к монотонным преобразованиям [ править ]

Если - неубывающая функция на ' R , применяется следующее свойство инвариантности :

Пример (1):

Если и , то . Средняя регрессия не имеет того же свойства, поскольку

Байесовские методы квантильной регрессии [ править ]

Поскольку квантильная регрессия обычно не предполагает параметрического правдоподобия для условных распределений Y | X, байесовские методы работают с рабочим правдоподобием. Удобным выбором является асимметричное лапласовское правдоподобие [10], потому что мода результирующего апостериорного при плоском априорном уровне - это обычные оценки квантильной регрессии. Однако апостериорный вывод следует интерпретировать с осторожностью. Ян, Ван и Хе [11] предоставили апостериорную поправку на дисперсию для достоверного вывода. Вдобавок Ян и Хе [12] показали, что можно иметь асимптотически верный апостериорный вывод, если рабочая вероятность выбрана в качестве эмпирической вероятности.

Методы машинного обучения для квантильной регрессии [ править ]

Помимо простой линейной регрессии, существует несколько методов машинного обучения, которые можно расширить до квантильной регрессии. Переключение с квадрата ошибки на наклонную функцию потерь абсолютного значения позволяет алгоритмам обучения на основе градиентного спуска изучать указанный квантиль вместо среднего. Это означает, что мы можем применить все нейронные сети и алгоритмы глубокого обучения к квантильной регрессии. [13] [14] Древовидные алгоритмы обучения также доступны для квантильной регрессии (см., Например, Quantile Regression Forests, [15] как простое обобщение случайных лесов ).

Цензурированная квантильная регрессия [ править ]

Если переменная ответа подвергается цензуре, условное среднее не может быть идентифицировано без дополнительных предположений о распределении, но условный квантиль часто можно идентифицировать. О недавних работах по цензурированной квантильной регрессии см .: Portnoy [16] и Wang and Wang [17].

Пример (2):

Пусть и . Тогда . Это модель квантильной регрессии с цензурой: оценочные значения могут быть получены без каких-либо предположений о распределении, но за счет вычислительных трудностей [18], некоторых из которых можно избежать, используя в качестве приближения простую трехэтапную процедуру цензурированной квантильной регрессии. [19]

Для случайной цензуры переменных ответа цензурированная квантильная регрессия Portnoy (2003) [16] обеспечивает согласованные оценки всех идентифицируемых функций квантилей, основанные на соответствующем изменении веса каждой цензурированной точки.

Реализации [ править ]

Многочисленные пакеты статистического программного обеспечения включают реализации квантильной регрессии:

  • Функция Matlab quantreg[20]
  • Eviews , начиная с версии 6. [ необходима ссылка ]
  • У gretl есть quantregкоманда. [21]
  • R предлагает несколько пакетов, реализующих квантильную регрессию, в первую очередь quantregот Роджера Кенкера , [22], но также gbm, [23] quantregForest , [24] qrnn[25] и qgam[26]
  • Python , см. Scikit-garden[27] и statsmodels[28]
  • SAS через proc quantreg(версия 9.2) и proc quantselect(версия 9.3). [29]
  • Stata через qregкоманду. [30] [31]
  • Vowpal Wabbit , через --loss_function quantile. [32]
  • Пакет Statsmodels для Python, через QuantReg[33]
  • Пакет Mathematica QuantileRegression.m[34] размещен в проекте MathematicaForPrediction на GitHub.

Ссылки [ править ]

  1. ^ a b c d e Коенкер, Роджер (2005). Квантильная регрессия . Издательство Кембриджского университета. стр.  146 -7. ISBN 978-0-521-60827-5.
  2. ^ Кейд, Брайан С .; Полдень, Барри Р. (2003). «Мягкое введение в квантильную регрессию для экологов» (PDF) . Границы экологии и окружающей среды . 1 (8): 412–420. DOI : 10.2307 / 3868138 . JSTOR 3868138 .  
  3. ^ Wei, Y .; Pere, A .; Koenker, R .; Он, X. (2006). «Методы квантильной регрессии для справочных графиков роста». Статистика в медицине . 25 (8): 1369–1382. DOI : 10.1002 / sim.2271 . PMID 16143984 . 
  4. ^ Wei, Y .; Он, X. (2006). «Графики условного роста (с обсуждениями)». Анналы статистики . 34 (5): 2069–2097 и 2126–2131. arXiv : math / 0702634 . DOI : 10.1214 / 009053606000000623 .
  5. ^ Стиглер, С. (1984). «Боскович, Симпсон и заметка в рукописи 1760 года об установлении линейной зависимости». Биометрика . 71 (3): 615–620. DOI : 10.1093 / Biomet / 71.3.615 .
  6. ^ Koenker, Роджер (2005). Квантильная регрессия . Кембридж: Издательство Кембриджского университета. стр.  2 . ISBN 9780521845731.
  7. ^ а б Фурно, Марилена; Вискоко, Доменико (2018). Квантильная регрессия: оценка и моделирование . Хобокен, Нью-Джерси: Джон Уайли и сыновья. стр. xv. ISBN 9781119975281.
  8. ^ Koenker, Роджер (август 1998). «Гальтон, Эджворт, Фриш и перспективы квантильной регрессии в экономике» (PDF) . UIUC.edu . Проверено 22 августа 2018 года .
  9. ^ Кочергинский, М .; Он, X .; Му, Ю. (2005). «Практические доверительные интервалы для квантилей регрессии». Журнал вычислительной и графической статистики . 14 (1): 41–55. DOI : 10.1198 / 106186005X27563 .
  10. ^ Кодзуми, H .; Кобаяши, Г. (2011). «Методы выборки Гиббса для байесовской квантильной регрессии» (PDF) . Журнал статистических вычислений и моделирования . 81 (11): 1565–1578. DOI : 10.1080 / 00949655.2010.496117 .
  11. ^ Ян, Y .; Ван, HX; Он, X. (2016). «Апостериорный вывод в байесовской квантильной регрессии с асимметричным правдоподобием Лапласа». Международное статистическое обозрение . 84 (3): 327–344. DOI : 10.1111 / insr.12114 . ЛВП : 2027,42 / 135059 .
  12. ^ Ян, Y .; Он, X. (2010). «Байесовская эмпирическая вероятность квантильной регрессии». Анналы статистики . 40 (2): 1102–1131. arXiv : 1207,5378 . DOI : 10.1214 / 12-AOS1005 .
  13. ^ Petneházi, Габор (2019-08-21). «QCNN: квантильная сверточная нейронная сеть». arXiv : 1908.07978 [ cs.LG ].
  14. ^ Родригес, Филипе; Перейра, Франсиско К. (27.08.2018). «За гранью ожидания: глубокое совместное среднее и квантильная регрессия для пространственно-временных проблем». arXiv : 1808.08798 [ статистика ].
  15. ^ Meinshausen, Николаи (2006). «Квантильные регрессионные леса» (PDF) . Журнал исследований в области машинного обучения . 7 (6): 983–999.
  16. ^ а б Портной, SL (2003). «Квантили регрессии с цензурой». Журнал Американской статистической ассоциации . 98 (464): 1001–1012. DOI : 10.1198 / 016214503000000954 .
  17. ^ Ван, Х .; Ван, Л. (2009). «Локально взвешенная цензурированная квантильная регрессия». Журнал Американской статистической ассоциации . 104 (487): 1117–1128. CiteSeerX 10.1.1.504.796 . DOI : 10,1198 / jasa.2009.tm08230 . 
  18. ^ Пауэлл, Джеймс Л. (1986). «Квантили регрессии с цензурой». Журнал эконометрики . 32 (1): 143–155. DOI : 10.1016 / 0304-4076 (86) 90016-3 .
  19. ^ Черножуков, Виктор; Хун, Хан (2002). «Трехступенчатая цензурированная квантильная регрессия и внебрачные связи». J. Amer. Статист. Доц. 97 (459): 872–882. DOI : 10.1198 / 016214502388618663 .
  20. ^ "Quantreg (x, y, tau, order, Nboot) - Обмен файлами - MATLAB Central" . www.mathworks.com . Проверено 1 февраля 2016 .
  21. ^ "Справочник команд Gretl" (PDF) . Апрель 2017 г.
  22. ^ "Quantreg: квантильная регрессия" . R проект . 2018-12-18.
  23. ^ "GBM: Обобщенные модели ускоренной регрессии" . R проект . 2019-01-14.
  24. ^ "QuantregForest: леса квантильной регрессии" . R проект . 2017-12-19.
  25. ^ "qrnn: нейронные сети квантильной регрессии" . R проект . 2018-06-26.
  26. ^ «qgam: модели гладкой аддитивной квантильной регрессии» . R проект . 2019-05-23.
  27. ^ «Леса квантильной регрессии» . Сикит-сад . Дата обращения 3 января 2019 .
  28. ^ «Статистические модели: квантильная регрессия» . Statsmodels . Дата обращения 15 ноября 2019 .
  29. ^ «Введение в квантильную регрессию и процедуру QUANTREG» (PDF) . Поддержка SAS .
  30. ^ «qreg - квантильная регрессия» (PDF) . Руководство по Stata .
  31. ^ Кэмерон, А. Колин; Триведи, Правин К. (2010). «Квантильная регрессия» . Микроэконометрика с использованием Stata (пересмотренная ред.). Колледж-Стейшн: Stata Press. С. 211–234. ISBN 978-1-59718-073-3.
  32. ^ "Джон Лэнгфорд / vowpal_wabbit" . GitHub . Проверено 9 июля 2016 .
  33. ^ «Квантильная регрессия» . statsmodels.org . Дата обращения 3 января 2019 .
  34. ^ "QuantileRegression.m" . MathematicaForPrediction . Дата обращения 3 января 2019 .

Дальнейшее чтение [ править ]

  • Ангрист, Джошуа Д .; Пишке, Йорн-Штеффен (2009). «Квантильная регрессия» . В основном безвредная эконометрика: компаньон эмпирика . Издательство Принстонского университета. С. 269–291. ISBN 978-0-691-12034-8.
  • Кенкер, Роджер (2005). Квантильная регрессия . Издательство Кембриджского университета. ISBN 978-0-521-60827-5.