Надежная регрессия

Регрессивный анализ
Часть серии по

Модели
Линейная регрессия Простая регрессия Полиномиальная регрессия Общая линейная модель
Обобщенная линейная модель Дискретный выбор Биномиальная регрессия Бинарная регрессия Логистическая регрессия Полиномиальный логит Смешанный логит Пробит Полиномиальный пробит Заказал логит Заказал пробит Пуассон
Многоуровневая модель Фиксированные эффекты Случайные эффекты Линейная модель смешанных эффектов Нелинейная модель смешанных эффектов
Нелинейная регрессия Непараметрический Полупараметрический Крепкий Квантиль Изотонический Основные компоненты Наименьший угол Местный Сегментированный
Ошибки в переменных
Оценка
Наименьших квадратов Линейный Нелинейный
Обычный Взвешенный Обобщенный
Частичное Общий Неотрицательный Регрессия хребта Регулярный
Наименьшие абсолютные отклонения Итеративно переназначенный Байесовский Байесовский многомерный
Фон
Проверка регрессии Средний и прогнозируемый ответ Ошибки и остатки Доброту соответствия Студентизованный остаток Теорема Гаусса – Маркова
Математический портал
v т е

В надежных статистиках , надежная регрессия является формой регрессионного анализа , предназначенным для преодоления некоторых ограничений традиционных параметрических и непараметрических методов . Регрессионный анализ пытается найти связь между одной или несколькими независимыми переменными и зависимой переменной . Некоторые широко используемые методы регрессии, такие как обычный метод наименьших квадратов , имеют благоприятные свойства, если их базовые предположения верны, но могут давать вводящие в заблуждение результаты, если эти предположения не верны; таким образом, обычный метод наименьших квадратов считается ненадежнымнарушениям его предположений. Надежные методы регрессии разработаны таким образом, чтобы на них не слишком сильно влияли нарушения предположений в базовом процессе генерации данных.

В частности, оценки методом наименьших квадратов для регрессионных моделей очень чувствительны к выбросам . Хотя нет точного определения выброса, выбросы - это наблюдения, которые не следуют шаблону других наблюдений. Обычно это не проблема, если выброс - это просто экстремальное наблюдение, извлеченное из хвоста нормального распределения, но если выброс является результатом ненормальной ошибки измерения или какого-либо другого нарушения стандартных обычных предположений наименьших квадратов, то это ставит под угрозу достоверность результатов регрессии, если используется метод ненадежной регрессии.

Приложения [ править ]

Гетероскедастические ошибки [ править ]

Одним из примеров, когда следует рассматривать робастную оценку, является сильное подозрение на гетероскедастичность . В гомоскедастической модели предполагается, что дисперсия члена ошибки постоянна для всех значений x . Гетероскедастичность позволяет дисперсии зависеть от x , что более точно для многих реальных сценариев. Например, разброс расходов часто больше для лиц с более высокими доходами, чем для лиц с более низкими доходами. Программные пакеты обычно по умолчанию используют гомоскедастическую модель, хотя такая модель может быть менее точной, чем гетероскедастическая модель. Один простой подход ( Tofallis, 2008) заключается в применении метода наименьших квадратов к процентным ошибкам, так как это уменьшает влияние больших значений зависимой переменной по сравнению с обычным методом наименьших квадратов.

Наличие выбросов [ править ]

Другая распространенная ситуация, в которой используется надежная оценка, возникает, когда данные содержат выбросы. При наличии выбросов, которые возникают не в результате того же процесса генерации данных, что и остальные данные, оценка методом наименьших квадратов неэффективна и может быть необъективной. Поскольку прогнозы методом наименьших квадратов перетаскиваются в сторону выбросов, а дисперсия оценок искусственно завышается, в результате выбросы могут быть замаскированы. (Во многих ситуациях, включая некоторые области геостатистики и медицинской статистики, интерес представляют именно выбросы.)

Хотя иногда утверждается, что методы наименьших квадратов (или классические статистические методы в целом) являются надежными, они надежны только в том смысле, что частота ошибок типа I не увеличивается при нарушениях модели. Фактически, частота ошибок типа I имеет тенденцию быть ниже номинального уровня, когда присутствуют выбросы, и часто наблюдается резкое увеличение частоты ошибок типа II . Уменьшение количества ошибок первого типа было названо консерватизмом классических методов.

История и непопулярность робастной регрессии [ править ]

Несмотря на их превосходную производительность по сравнению с оценкой методом наименьших квадратов во многих ситуациях, надежные методы регрессии до сих пор широко не используются. Несколько причин могут помочь объяснить их непопулярность ( Hampel et al. 1986, 2005 ). Одна из возможных причин состоит в том, что существует несколько конкурирующих методов ^{[ необходима цитата ],} и в этой области было много фальстартов. Кроме того, вычисление устойчивых оценок требует гораздо больших вычислительных ресурсов, чем оценка методом наименьших квадратов; Однако в последние годы это возражение стало менее актуальным, поскольку вычислительные мощности сильно выросли. Другая причина может заключаться в том, что некоторые популярные пакеты статистического программного обеспечения не смогли реализовать эти методы ( Stromberg, 2004). Вера многих статистиков в надежность классических методов может быть еще одной причиной ^{[ необходима цитата ]} .

Хотя внедрение надежных методов происходит медленно, современные основные учебники по статистике часто включают обсуждение этих методов (например, книги Себера и Ли и Фарауэя; для хорошего общего описания того, как различные надежные методы регрессии развились из одного другой см. книгу Андерсена). Кроме того, современные пакеты статистического программного обеспечения, такие как R , Statsmodels , Stata и S-PLUS, включают значительную функциональность для надежной оценки (см., Например, книги Венейбла и Рипли, а также Маронны и др.).

Методы надежной регрессии [ править ]

Альтернативы наименьших квадратов [ править ]

Самый простой метод оценки параметров регрессионной модели, которые менее чувствительны к выбросам, чем оценки методом наименьших квадратов, - это использование наименьших абсолютных отклонений . Даже в этом случае грубые выбросы по-прежнему могут оказывать значительное влияние на модель, мотивируя исследования еще более надежными подходами.

В 1964 году Хубер ввел М-оценку для регрессии. M в M-оценке означает «тип максимального правдоподобия». Метод устойчив к выбросам в переменной ответа, но оказался не устойчивым к выбросам в независимых переменных ( баллах рычага ). Фактически, когда есть выбросы в независимых переменных, метод не имеет преимущества перед методом наименьших квадратов.

В 1980-х годах было предложено несколько альтернатив М-оценке как попытки преодолеть отсутствие сопротивления. См. Книгу Руссеу и Лерой для очень практического обзора. Наименее обрезанные квадраты (LTS) - жизнеспособная альтернатива и в настоящее время (2007 г.) предпочтительный выбор Rousseeuw и Ryan (1997, 2008). Оценки Тейлей-Сен имеет более низкую температуру , чем пробивное LTS , но статистически эффективные и популярные. Другое предложенное решение - S-оценка. Этот метод находит линию (плоскость или гиперплоскость), которая минимизирует надежную оценку масштаба (из которого метод получает букву S в своем имени) остатков. Этот метод очень устойчив к точкам воздействия и устойчив к выбросам в ответе. Однако и этот метод оказался неэффективным.

MM-оценка пытается сохранить надежность и устойчивость S-оценки, в то же время повышая эффективность M-оценки. Метод продолжается путем нахождения очень надежной и устойчивой S-оценки, которая минимизирует M-оценку масштаба остатков (первая M в названии метода). Оценочный масштаб затем остается постоянным, пока находится близкая M-оценка параметров (вторая M).

Параметрические альтернативы [ править ]

Другой подход к надежной оценке регрессионных моделей состоит в замене нормального распределения распределением с тяжелыми хвостами. Т -распределение с 4-6 степенями свободы, как сообщается, будет хорошим выбором в различных практических ситуациях. Байесовская робастная регрессия, будучи полностью параметрической, во многом зависит от таких распределений.

В предположении t- распределенных остатков распределение является семейством в масштабе местоположения. То есть . Степени свободы t- распределения иногда называют параметром эксцесса . Ланге, Литтл и Тейлор (1989) обсуждают эту модель более подробно с небайесовской точки зрения. Байесовский счет представлен в Gelman et al. (2003). ${\ Displaystyle х \ leftarrow (х- \ му) / \ сигма}$

Альтернативный параметрический подход заключается в предположении, что остатки соответствуют смеси нормальных распределений ( Daemi et al. 2019 ); в частности, загрязненное нормальное распределение, в котором большинство наблюдений основано на заданном нормальном распределении, но небольшая часть - на нормальном распределении с гораздо большей дисперсией. То есть остатки имеют вероятность выхода из нормального распределения с дисперсией , где мала, и вероятность выхода из нормального распределения с дисперсией для некоторых : ${\ displaystyle 1- \ varepsilon}$ ${\ displaystyle \ sigma ^ {2}}$ ${\ displaystyle \ varepsilon}$ ${\ displaystyle \ varepsilon}$ ${\ displaystyle c \ sigma ^ {2}}$ ${\ displaystyle c> 1}$

{\ displaystyle e_ {i} \ sim (1- \ varepsilon) N (0, \ sigma ^ {2}) + \ varepsilon N (0, c \ sigma ^ {2}).}

Обычно . Иногда это называют моделью загрязнения. $\varepsilon <0.1$ $\varepsilon$

Параметрические подходы имеют то преимущество, что теория правдоподобия обеспечивает "готовый" подход к выводу (хотя для смешанных моделей, таких как модель загрязнения, обычные условия регулярности могут не применяться), и можно построить имитационные модели из подходит. Однако такие параметрические модели по-прежнему предполагают, что лежащая в их основе модель буквально верна. Как таковые, они не учитывают искаженное остаточное распределение или конечную точность наблюдения. $\varepsilon$

Вес единицы [ править ]

Другой надежный метод - это использование единичных весов ( Wainer & Thissen, 1976), метод, который может применяться, когда существует несколько предикторов одного результата. Эрнест Берджесс (1928) использовал единичные веса для предсказания успеха условно-досрочного освобождения. Он оценил 21 положительный фактор как присутствующий (например, «без предварительного ареста» = 1) или отсутствующий («предшествующий арест» = 0), затем суммировал, чтобы получить прогнозирующий балл, который, как было показано, является полезным предиктором успеха условно-досрочного освобождения. Сэмюэл С. Уилкс (1938) показал, что почти все наборы регрессионных весов суммируются в композиты, которые очень сильно коррелируют друг с другом, включая единичные веса, результат, названный теоремой Уилка (Ree, Carretta, & Earles, 1998). Робин Доус(1979) исследовали процесс принятия решений в прикладных условиях и показали, что простые модели с единичными весами часто превосходят экспертов-людей. Бобко, Рот и Бастер (2007) проанализировали литературу по единичным весам и пришли к выводу, что десятилетия эмпирических исследований показывают, что единичные веса работают аналогично обычным регрессионным весам при перекрестной проверке.

Пример: данные о печени BUPA [ править ]

Данные BUPA о печени изучались различными авторами, включая Бреймана (2001). Данные можно найти на классической странице наборов данных , а в статье о преобразовании Бокса – Кокса есть некоторые обсуждения . График логарифмов ALT по сравнению с логарифмами γGT показан ниже. Две линии регрессии оцениваются обычным методом наименьших квадратов (OLS) и надежной MM-оценкой. Анализ был выполнен в R с использованием программного обеспечения, предоставленного Venables и Ripley (2002).

Две линии регрессии кажутся очень похожими (и это не редкость для набора данных такого размера). Однако преимущество робастного подхода становится очевидным при рассмотрении оценок остаточного масштаба. Для обычного метода наименьших квадратов оценка масштаба составляет 0,420 по сравнению с 0,373 для робастного метода. Таким образом, относительная эффективность обычного метода наименьших квадратов по отношению к MM-оценке в этом примере составляет 1,266. Эта неэффективность приводит к потере мощности при проверке гипотез и к излишне широким доверительным интервалам для оцениваемых параметров.

Обнаружение выбросов [ править ]

Еще одно следствие неэффективности обычного метода наименьших квадратов состоит в том, что несколько выбросов маскируются из-за завышения оценки остаточного масштаба; масштабированные остатки приближаются к нулю, чем когда используется более подходящая оценка масштаба. Графики масштабированных остатков из двух моделей показаны ниже. Переменная на оси x - это просто номер наблюдения, как он появился в наборе данных. Rousseeuw and Leroy (1986) содержит много таких сюжетов.

Горизонтальные опорные линии находятся в точках 2 и −2, так что любой наблюдаемый масштабированный остаток за этими границами можно рассматривать как выброс. Ясно, что метод наименьших квадратов приводит к тому, что многие интересные наблюдения замаскированы.

В то время как в одном или двух измерениях обнаружение выбросов с использованием классических методов может выполняться вручную, с большими наборами данных и в больших измерениях проблема маскирования может сделать идентификацию многих выбросов невозможной. Надежные методы автоматически обнаруживают эти наблюдения, предлагая серьезное преимущество перед классическими методами при наличии выбросов.

См. Также [ править ]

Регресс

Метод наименьших квадратов с итеративным перевесом
М-оценка
Расслабленный перекресток
RANSAC
Повторная медианная регрессия
Оценка Тейла – Сена , метод робастной простой линейной регрессии

Ссылки [ править ]

Андерсен, Р. (2008). Современные методы робастной регрессии . Серия работ Университета Сейдж по количественным приложениям в социальных науках, 07–152.
Бен-Гал И., Обнаружение выбросов, В: Маймон О. и Рокач Л. (ред.) Справочник по интеллектуальному анализу данных и обнаружению знаний: полное руководство для практиков и исследователей, Kluwer Academic Publishers, 2005, ISBN 0-387-24435 -2 .
Бобко, П., Рот, П.Л., и Бастер, М.А. (2007). «Полезность единичных весов в создании составных баллов: обзор литературы, применение к валидности контента и метаанализ». Организационные методы исследования , том 10, страницы 689-709. DOI : 10,1177 / 1094428106294734
Дэми, Атефех, Харипрасад Кодамана и Бяо Хуанг. «Гауссовское моделирование процесса с вероятностью гауссовой смеси». Журнал управления процессами 81 (2019): 209-220. DOI : 10.1016 / j.jprocont.2019.06.007
Брейман, Л. (2001). «Статистическое моделирование: две культуры» . Статистическая наука . 16 (3): 199–231. DOI : 10,1214 / сс / 1009213725 . JSTOR 2676681 .
Берджесс, EW (1928). «Факторы, определяющие успех или неудачу условно-досрочного освобождения». В А. А. Брюс (ред.), Работа закона о неопределенном приговоре и условно-досрочном освобождении в Иллинойсе (стр. 205–249). Спрингфилд, Иллинойс: Совет по условно-досрочному освобождению штата Иллинойс. Книги Google
Доус, Робин М. (1979). «Надежная красота неправильных линейных моделей в принятии решений». Американский психолог , том 34, страницы 571-582. DOI : 10.1037 / 0003-066X.34.7.571 . архивный pdf
Дрейпер, Дэвид (1988). «Робастный анализ линейных моделей на основе рангов. I. Изложение и обзор» . Статистическая наука . 3 (2): 239–257. DOI : 10,1214 / сс / 1177012915 . JSTOR 2245578 .
Далеко, JJ (2004). Линейные модели с R . Чепмен и Холл / CRC.
Форнальский, KW (2015). «Приложения робастного байесовского регрессионного анализа». Международный журнал науки о системах общества . 7 (4): 314–333. DOI : 10.1504 / IJSSS.2015.073223 .
Гельман, А .; JB Carlin; HS Stern; ДБ Рубин (2003). Байесовский анализ данных (второе изд.). Чепмен и Холл / CRC.
Хампель, Франция; Э.М. Ронкетти; PJ Rousseeuw; WA Stahel (2005) [1986]. Надежная статистика: подход, основанный на функциях влияния . Вайли.
Lange, KL; RJA Little; Дж.М.Г. Тейлор (1989). «Робастное статистическое моделирование с использованием t- распределения» . Журнал Американской статистической ассоциации . 84 (408): 881–896. DOI : 10.2307 / 2290063 . JSTOR 2290063 .
Lerman, G .; Маккой, М .; Tropp, JA; Чжан Т. (2012). «Надежное вычисление линейных моделей, или как найти иголку в стоге сена» , arXiv : 1202.4044 .
Maronna, R .; Д. Мартин; В. Йохай (2006). Надежная статистика: теория и методы . Вайли.
Маккин, Джозеф В. (2004). «Робастный анализ линейных моделей» . Статистическая наука . 19 (4): 562–570. DOI : 10.1214 / 088342304000000549 . JSTOR 4144426 .
Радченко С.Г. (2005). Робастные методы оценки статистических моделей: Монография. (на русском языке) . Киев: РР «Sanspariel». п. 504. ISBN 978-966-96574-0-4.
Ри, MJ, Карретта, Т.Р. и Эрлз, JA (1998). «При принятии нисходящих решений взвешивание переменных не имеет значения: следствие теоремы Уилка. Методы организационного исследования , том 1 (4), страницы 407-420. Doi : 10.1177 / 109442819814003
Rousseeuw, PJ ; AM Leroy (2003) [1986]. Надежная регрессия и обнаружение выбросов . Вайли.
Райан, Т.П. (2008) [1997]. Современные методы регрессии . Вайли.
Себер, ГАФ; Эй Джей Ли (2003). Линейный регрессионный анализ (второе изд.). Вайли.
Стромберг, AJ (2004). «Зачем писать статистическое программное обеспечение? Случай надежных статистических методов» . Журнал статистического программного обеспечения . 10 (5). DOI : 10,18637 / jss.v010.i05 .
Струтц, Т. (2016). Подгонка данных и неопределенность (практическое введение в взвешенный метод наименьших квадратов и другие аспекты) . Springer Vieweg. ISBN 978-3-658-11455-8.
Тофаллис, Крис (2008). «Процентная регрессия наименьших квадратов». Журнал современных прикладных статистических методов . 7 : 526–534. DOI : 10.2139 / ssrn.1406472 . SSRN 1406472 .
Venables, WN; Б.Д. Рипли (2002). Современная прикладная статистика с S . Springer.
Wainer, H. , & Thissen, D. (1976). «Три шага к устойчивой регрессии». Психометрика , том 41 (1), страницы 9–34. DOI : 10.1007 / BF02291695
Уилкс, СС (1938). «Системы взвешивания для линейных функций коррелированных переменных при отсутствии зависимой переменной». Психометрика , том 3, страницы 23–40. DOI : 10.1007 / BF02287917

Внешние ссылки [ править ]

Викиучебники по программированию на R
Заметки Брайана Рипли по статистике.
Примечания к курсу Ника Филлера по статистическому моделированию и вычислениям содержат материал о надежной регрессии.
Обзор надежных статистических данных Олфы Насрауи
Обзор надежной кластеризации Олфы Насрауи
Зачем писать статистические программы? Случай робастных статистических методов, А. Дж. Стромберг
Бесплатное программное обеспечение (Fortran 95) Регрессия L1-нормы. Минимизация абсолютных отклонений вместо наименьших квадратов.
Бесплатная реализация Python с открытым исходным кодом для надежной нелинейной регрессии.