В статистике , усадка является уменьшение эффектов дискретизации вариации. В регрессионном анализе подобранные отношения, по-видимому, работают хуже с новым набором данных, чем с набором данных, используемым для подбора. [1] В частности, «сокращается» значение коэффициента детерминации . Эта идея дополняет переоснащение и, отдельно, стандартную корректировку, сделанную в коэффициенте детерминации, чтобы компенсировать сослагательные эффекты дальнейшей выборки, например, контроль потенциала новых пояснительных терминов, случайно улучшающих модель: то есть корректировка Сама формула обеспечивает «усадку». Но формула регулировки дает искусственную усадку.
Оценщик усадки является оценщиком , который, явно или неявно, включает в себя эффекты усадки. В общих чертах это означает, что наивная или грубая оценка улучшается путем объединения ее с другой информацией. Этот термин относится к понятию, что улучшенная оценка приближается к значению, предоставленному «другой информацией», чем необработанная оценка. В этом смысле сжатие используется для упорядочения некорректно поставленных задач вывода .
Сжатие подразумевается в байесовском выводе и выводе штрафного правдоподобия и явно выражается в выводе типа Джеймса – Стейна . Напротив, простые типы процедур оценки максимального правдоподобия и наименьших квадратов не включают эффекты усадки, хотя их можно использовать в схемах оценки усадки.
Описание
Многие стандартные оценщики можно улучшить с точки зрения среднеквадратичной ошибки (MSE), уменьшив их до нуля (или любого другого фиксированного постоянного значения). Другими словами, улучшение оценки от соответствующего уменьшения ширины доверительного интервала может перевесить ухудшение оценки, вызванное смещением оценки в сторону нуля (см. Компромисс смещения и дисперсии ).
Предположим, что ожидаемое значение необработанной оценки не равно нулю, и рассмотрим другие оценки, полученные путем умножения исходной оценки на определенный параметр. Значение для этого параметра может быть указано так, чтобы минимизировать MSE новой оценки. Для этого значения параметра новая оценка будет иметь меньшую MSE, чем исходная. Таким образом он был улучшен. Эффект здесь может заключаться в преобразовании несмещенной необработанной оценки в улучшенную смещенную.
Примеры
Хорошо известный пример возникает в оценке населения дисперсии путем выборки дисперсии . Для размера выборки n использование делителя n - 1 в обычной формуле ( поправка Бесселя ) дает несмещенную оценку, в то время как другие делители имеют более низкую MSE за счет смещения. Оптимальный выбор делителя (взвешивание усадки) зависит от избыточного эксцесса популяции, как обсуждалось при среднеквадратической ошибке: дисперсия , но всегда можно добиться большего (с точки зрения MSE), чем несмещенная оценка; для нормального распределения делитель n + 1 дает тот, который имеет минимальную среднеквадратичную ошибку.
Методы
Типы регрессии, которые включают оценки усадки, включают гребневую регрессию , где коэффициенты, полученные из регулярной регрессии наименьших квадратов, приближают к нулю путем умножения на константу ( коэффициент усадки ), и регрессию лассо , где коэффициенты приближаются к нулю путем добавления или вычитание константы.
Использование оценщиков усадки в контексте регрессионного анализа, где может быть большое количество независимых переменных, было описано Копасом. [2] Здесь значения оцененных коэффициентов регрессии уменьшаются до нуля с эффектом уменьшения среднеквадратичной ошибки предсказанных значений модели при применении к новым данным. В более поздней статье Копаса [3] сжатие применяется в контексте, когда проблема состоит в том, чтобы предсказать двоичный ответ на основе двоичных независимых переменных.
Хауссер и Стриммер "разрабатывают оценку усадки типа Джеймса-Стейна, в результате чего получается процедура, которая является высокоэффективной как в статистическом, так и в вычислительном отношении. Несмотря на свою простоту, ... она превосходит восемь других процедур оценки энтропии в разнообразных сценариях выборки и модели, генерирующие данные, даже в случаях серьезной недостаточной выборки. ... метод является полностью аналитическим и, следовательно, вычислительно недорогим. Более того, ... процедура одновременно обеспечивает оценки энтропии и частот ячеек. ... Предлагаемые оценки усадки энтропия и взаимная информация, а также все другие исследованные средства оценки энтропии были реализованы в R (R Development Core Team, 2008). Соответствующий пакет R «энтропия» был помещен в архив R CRAN и доступен по URL-адресу https: //cran.r-project.org/web/packages/entropy/ под Стандартной общественной лицензией GNU ". [4]
Смотрите также
Статистическое программное обеспечение
- Хауссер, Жан. «энтропия» . Энтропия пакет для R . Проверено 23 марта 2013 .
Рекомендации
- ^ Everitt BS (2002) Кембриджский статистический словарь (2-е издание), CUP. ISBN 0-521-81099-X
- ^ Copas, JB (1983). «Регресс, прогноз и усадка». Журнал Королевского статистического общества, Series B . 45 (3): 311–354. JSTOR 2345402 . Руководство по ремонту 0737642 .
- ^ Copas, JB (1993). «Сжатие точечных методов подсчета очков». Журнал Королевского статистического общества, серия C . 42 (2): 315–331. JSTOR 2986235 .
- ^ Хауссер, Жан; Стриммер (2009). «Энтропийный вывод и оценка Джеймса-Стейна с приложением к нелинейным сетям ассоциации генов» (PDF) . Журнал исследований в области машинного обучения . 10 : 1469–1484 . Проверено 23 марта 2013 .