Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике , пошаговой регрессии является метод подгонки модели регрессии , в которой выбор прогнозирующих переменных осуществляется с помощью автоматической процедуры. [1] [2] [3] [4] На каждом этапе переменная рассматривается для добавления или вычитания из набора независимых переменных на основе некоторого заранее заданного критерия. Обычно это принимает форму последовательности F- тестов или t- тестов , но возможны и другие методы, такие как скорректированный R 2 , информационный критерий Акаике , байесовский информационный критерий., C p Mallows , PRESS или коэффициент ложного обнаружения .

Частая практика подгонки окончательной выбранной модели с последующим сообщением оценок и доверительных интервалов без их корректировки для учета процесса построения модели привела к призывам вообще отказаться от пошагового построения модели [5] [6] или, по крайней мере, убедиться, что неопределенность модели правильно отражена. [7] [8]

В этом примере из инженерии необходимость и достаточность обычно определяется F-тестами . Для дополнительного рассмотрения, при планировании эксперимента , компьютерное моделирование , или научное исследование для сбора данных для этой модели , следует иметь в виду ряд параметров , P , чтобы оценить и скорректировать размер выборки соответственно. Для K переменных , Р  = 1 (Старт)  +  K (этап I)  + ( К 2  -  К ) / 2(Стадия II)  + 3 К (стадия III) = 0,5 К 2  + 3,5 К  + 1. Для K  <17, эффективный дизайн экспериментов существует для этого типа модели, конструкция коробки-Бенкен , [9] дополненная с положительным и отрицательные осевые точки длиной min (2, (int (1.5 +  K / 4)) 1/2 ), плюс точка (и) в начале координат. Существуют более эффективные конструкции, требующие меньшего количества прогонов даже для K  > 16.

Основные подходы [ править ]

Основные подходы:

  • Прямой выбор , который включает в себя начало без переменных в модели, тестирование добавления каждой переменной с использованием выбранного критерия соответствия модели, добавление переменной (если есть), включение которой дает наиболее статистически значимое улучшение соответствия, и повторение этого процесса до тех пор, пока ни один из них не улучшает модель в статистически значимой степени.
  • Обратное исключение , которое включает в себя начало со всеми переменными-кандидатами, тестирование удаления каждой переменной с использованием выбранного критерия соответствия модели, удаление переменной (если таковая имеется), потеря которой приводит к наиболее статистически незначимому ухудшению соответствия модели, и повторение этого процесса до тех пор, пока нет другие переменные могут быть удалены без статистически незначимой потери соответствия.
  • Двунаправленное исключение , комбинация вышеперечисленного, проверка на каждом этапе включения или исключения переменных.

Критерий выбора [ править ]

Широко используемый алгоритм был впервые предложен Эфроймсоном (1960). [10] Это автоматическая процедура для выбора статистической модели в случаях, когда существует большое количество потенциальных объясняющих переменных и нет теории, лежащей в основе выбора модели. Процедура используется в основном в регрессионном анализе , хотя основной подход применим во многих формах выбора модели. Это вариант прямого выбора. На каждом этапе процесса, после добавления новой переменной, выполняется тест, чтобы проверить, можно ли удалить некоторые переменные без значительного увеличения остаточной суммы квадратов.(RSS). Процедура завершается, когда показатель (локально) максимален, или когда доступное улучшение падает ниже некоторого критического значения.

Одна из основных проблем пошаговой регрессии заключается в том, что она ищет большое количество возможных моделей. Следовательно, он склонен к переобучению данных. Другими словами, пошаговая регрессия часто намного лучше подходит для выборки, чем для новых данных вне выборки. Были отмечены крайние случаи, когда модели достигли статистической значимости при работе со случайными числами. [11] Эта проблема может быть смягчена, если критерий добавления (или удаления) переменной достаточно жесткий. Ключевая черта на песке - это то, что можно назвать точкой Бонферрони : а именно, насколько значимой должна быть лучшая ложная переменная, основанная только на случайности. По t- статистической шкале это происходит примерно при , где pколичество предикторов. К сожалению, это означает, что многие переменные, которые фактически несут сигнал, не будут включены. Этот забор оказывается правильным компромиссом между переоснащением и отсутствием сигнала. Если мы посмотрим на риск различных ограничений, то использование этой границы будет в пределах 2log p- фактора наилучшего возможного риска. Любая другая отсечка приведет к большей инфляции такого риска . [12] [13]

Точность модели [ править ]

Способ проверки ошибок в моделях, созданных с помощью пошаговой регрессии, заключается в том, чтобы не полагаться на F- статистику, значимость или множественные R модели, а вместо этого оценивать модель по набору данных, которые не использовались для создания модели. . [14] Это часто делается путем построения модели на основе выборки доступного набора данных (например, 70%) - « обучающего набора » - и использования оставшейся части набора данных (например, 30%) в качестве набора для проверки. оценить точность модели. Затем точность часто измеряется как фактическая стандартная ошибка (SE), MAPE ( средняя абсолютная ошибка в процентах ) или средняя ошибка между прогнозируемым значением и фактическим значением в удерживаемой выборке. [15] Этот метод особенно ценен, когда данные собираются в различных условиях (например, в разное время, в социальных или уединенных ситуациях) или когда предполагается, что модели могут быть обобщены.

Критика [ править ]

Процедуры пошаговой регрессии используются в интеллектуальном анализе данных , но вызывают споры. Было высказано несколько критических замечаний.

  • Сами тесты необъективны, поскольку основаны на одних и тех же данных. [16] [17] Уилкинсон и Даллал (1981) [18] вычислили процентные точки коэффициента множественной корреляции с помощью моделирования и показали, что окончательная регрессия, полученная прямым отбором, которая, согласно F-процедуре, значима при 0,1%, была фактически значимо только на 5%.
  • При оценке степеней свободы количество независимых переменных-кандидатов из отобранной наилучшим образом может быть меньше, чем общее количество переменных окончательной модели, в результате чего соответствие будет выглядеть лучше, чем при корректировке значения r 2 для количества степени свободы. Важно учитывать, сколько степеней свободы было использовано во всей модели, а не просто подсчитывать количество независимых переменных в результирующей подгонке. [19]
  • Создаваемые модели могут быть чрезмерно упрощенными по сравнению с реальными моделями данных. [20]

Такая критика, основанная на ограничениях взаимосвязи между моделью и процедурой и набором данных, используемых для ее соответствия, обычно устраняется путем проверки модели на независимом наборе данных, как в процедуре PRESS .

Критики рассматривают эту процедуру как парадигматический пример извлечения данных , интенсивные вычисления часто являются неадекватной заменой экспертных знаний в предметной области. Кроме того, результаты пошаговой регрессии часто используются неправильно без корректировки их для возникновения выбора модели. Особенно скандалом была названа практика подгонки окончательно выбранной модели, как если бы выбор модели не производился, и составление отчетов об оценках и доверительных интервалах, как если бы для них была применима теория наименьших квадратов. [7] Широко распространенное неправильное использование и наличие альтернатив, таких как ансамблевое обучение, оставление всех переменных в модели или использование экспертной оценки для определения релевантных переменных привело к призывам полностью избежать пошагового выбора модели. [5]

См. Также [ править ]

  • Парадокс Фридмана
  • Логистическая регрессия
  • Регрессия наименьшего угла
  • бритва Оккама
  • Проверка регрессии

Ссылки [ править ]

  1. ^ Эфроймсон, Массачусетс (1960) "Множественный регрессионный анализ", Математические методы для цифровых компьютеров, Ральстон А. и Уилф, HS (ред.), Вили, Нью-Йорк.
  2. ^ Хокинг, Р.Р. (1976) "Анализ и выбор переменных в линейной регрессии", Биометрия, 32.
  3. ^ Дрейпер, Н. и Смит, Х. (1981) Прикладной регрессионный анализ, 2-е издание, Нью-Йорк: John Wiley & Sons, Inc.
  4. ^ SAS Institute Inc. (1989) Руководство пользователя SAS / STAT, версия 6, четвертое издание, том 2, Кэри, Северная Каролина: SAS Institute Inc.
  5. ^ a b Флом, П.Л. и Касселл, Д.Л. (2007) «Пошаговая остановка: почему пошаговые и подобные методы выбора плохи и что вы должны использовать», NESUG 2007.
  6. ^ Харрелл, FE (2001) "Стратегии регрессионного моделирования: с приложениями к линейным моделям, логистической регрессии и анализу выживаемости", Springer-Verlag, Нью-Йорк.
  7. ^ a b Чатфилд, C. (1995) "Неопределенность модели, интеллектуальный анализ данных и статистический вывод", JR Statist. Soc. А 158, Часть 3, стр. 419–466.
  8. Эфрон, Б. и Тибширани, Р.Дж. (1998) «Введение в бутстрап», Chapman & Hall / CRC
  9. ^ Конструкции Бокса-Бенкена из справочника по инженерной статистике в NIST
  10. ^ Эфроймсон, Массачусетс (1960) "Множественный регрессионный анализ". В Ралстон, А. и Уилф, HS, редакторы, Математические методы для цифровых компьютеров. Вайли.
  11. ^ Knecht, WR. (2005). Готовность пилота взлететь в неблагоприятную погоду, Часть II: Предыдущее переоснащение с поступательной пошаговой логистической регрессией . (Технический отчет DOT / FAA / AM-O5 / 15 ). Федеральная авиационная администрация
  12. Перейти ↑ Foster, Dean P., & George, Edward I. (1994). Критерий инфляции риска для множественной регрессии. Анналы статистики , 22 (4). 1947–1975 гг. DOI : 10,1214 / AOS / 1176325766
  13. ^ Донохо, Дэвид Л., & Джонстон, джайнская М. (1994). Идеальная пространственная адаптация за счет вейвлет-усадки. Биометрика , 81 (3): 425–455. DOI : 10,1093 / Biomet / 81.3.425
  14. ^ Марк, Джонатан и Голдберг, Майкл А. (2001). Множественный регрессионный анализ и массовая оценка: обзор проблем. The Appraisal Journal , январь, 89–109.
  15. ^ Майерс, JH, & Forgy, EW (1963). Разработка систем числовой кредитной оценки. Журнал Американской статистической ассоциации, 58 (303; сентябрь), 799–806.
  16. ^ Rencher, AC, и Пуны, FC (1980). Инфляция R ² в регрессии наилучшего подмножества. Технометрика, 22, 49–54.
  17. ^ Copas, JB (1983). Регрессия, прогнозирование и усадка. Дж. Рой. Статист. Soc. Series B, 45, 311–354.
  18. Перейти ↑ Wilkinson, L., & Dallal, GE (1981). Критерии значимости в регрессии прямого выбора с правилом остановки F-to enter. Технометрика, 23, 377–380.
  19. ^ Гурвич, CM и CL Цай. 1990. Влияние выбора модели на вывод в линейной регрессии. Американский статистик 44: 214–217.
  20. ^ Roecker, Эллен Б. (1991). Ошибка прогноза и ее оценка для подмножества - отобранных моделей. Технометрика, 33 , 459–468.