Студентизованный остаток

Эта статья поднимает множество проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалить эти сообщения-шаблоны )

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален.
Поиск источников: «Студенческий остаток» - новости · газеты · книги · ученый · JSTOR ( май 2015 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон )

Фактическая точность этой статьи оспаривается . Соответствующее обсуждение можно найти на странице обсуждения . Пожалуйста, помогите убедиться, что источник спорных утверждений надежный . ( Февраль 2014 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

( Узнайте, как и когда удалить этот шаблон сообщения )

Регрессивный анализ
Часть серии по

Модели
Линейная регрессия Простая регрессия Полиномиальная регрессия Общая линейная модель
Обобщенная линейная модель Дискретный выбор Биномиальная регрессия Бинарная регрессия Логистическая регрессия Полиномиальный логит Смешанный логит Пробит Полиномиальный пробит Заказал логит Заказал пробит Пуассон
Многоуровневая модель Фиксированные эффекты Случайные эффекты Линейная модель смешанных эффектов Нелинейная модель смешанных эффектов
Нелинейная регрессия Непараметрический Полупараметрический Крепкий Квантиль Изотонический Основные компоненты Наименьший угол Местный Сегментированный
Ошибки в переменных
Оценка
Наименьших квадратов Линейный Нелинейный
Обычный Взвешенный Обобщенный
Частичное Общий Неотрицательный Регрессия хребта Регулярный
Наименьшие абсолютные отклонения Итеративно переназначенный Байесовский Байесовский многомерный
Фон
Проверка регрессии Средний и прогнозируемый ответ Ошибки и остатки Доброту соответствия Студентизованный остаток Теорема Гаусса – Маркова
Математический портал
v т е

В статистике , A Стьюдентизированные остаточный является частным от деления а остаточный путем оценки его стандартного отклонения . Это форма t- статистики Стьюдента с оценкой ошибки, варьирующейся между точками.

Это важный метод обнаружения выбросов . Он входит в число нескольких, названных в честь Уильяма Сили Госсета , писавшего под псевдонимом Студент . Разделение статистики на стандартное отклонение выборки называется студентизацией по аналогии со стандартизацией и нормализацией .

Мотивация [ править ]

Основная причиной studentizing является то , что, в регрессионном анализе в виде многомерного распределения , дисперсии остатков при различных значениях входных переменных может отличаться, даже если отклонением от ошибок при различных значениях этих переменного ввода равно. Проблема заключается в разнице между ошибками и остатками в статистике , особенно в поведении остатков в регрессиях.

Рассмотрим простую модель линейной регрессии

{\ Displaystyle Y = \ alpha _ {0} + \ alpha _ {1} X + \ varepsilon. \,}

Учитывая случайную выборку ( X _i , Y _i ), i = 1, ..., n , каждая пара ( X _i , Y _i ) удовлетворяет

Y_{i}=\alpha _{0}+\alpha _{1}X_{i}+\varepsilon _{i},\,

где ошибки , являются независимыми , и все имеют одинаковую дисперсию . Эти остатки не являются истинными ошибками, но оценки , на основе наблюдаемых данных. Когда метод наименьших квадратов используется для оценки и , затем остатки , в отличие от ошибок , не могут быть независимыми , так как они удовлетворяют двум ограничениям $\varepsilon _{i}$ $\sigma ^{2}$ $\alpha _{0}$ $\alpha _{1}$ ${\widehat {\varepsilon \,}}$ $\varepsilon$

\sum _{i=1}^{n}{\widehat {\varepsilon \,}}_{i}=0

и

\sum _{i=1}^{n}{\widehat {\varepsilon \,}}_{i}x_{i}=0.

(Здесь & epsi _я это я й ошибка, и это я й остатком.) $\scriptstyle {\widehat {\varepsilon \,}}_{i}$

Остатки, в отличие от ошибок, не все имеют одинаковую дисперсию: дисперсия уменьшается по мере того, как соответствующее значение x удаляется от среднего значения x . Это не особенность самих данных, а регрессия, которая лучше соответствует значениям на концах домена. Это также отражается в функциях влияния различных точек данных на коэффициенты регрессии : конечные точки имеют большее влияние. Это также можно увидеть, потому что остатки в конечных точках сильно зависят от наклона подобранной линии, в то время как остатки в середине относительно нечувствительны к наклону. Тот факт, что дисперсии остатков различаются, хотяВсе отклонения истинных ошибок равны друг другу, что является основной причиной необходимости студенизации.

Это не просто вопрос параметров популяции (среднее значение и стандартное отклонение) неизвестность - это то , что регрессии дают различные остаточные распределения при различных точках данных, в отличии от точечных оценок из одномерных распределений , которые разделяют общее распределение для остатков.

Фон [ править ]

Для этой простой модели, дизайн матрица является

X=\left[{\begin{matrix}1&x_{1}\\\vdots &\vdots \\1&x_{n}\end{matrix}}\right]

а матрица шляпы H - это матрица ортогональной проекции на пространство столбцов матрицы плана:

H=X(X^{T}X)^{-1}X^{T}.\,

Плечо ч _II является я - й диагональный элемент матрицы шляпой. Дисперсия i- го остатка равна

\operatorname {var} ({\widehat {\varepsilon \,}}_{i})=\sigma ^{2}(1-h_{ii}).

В случае, если матрица плана X имеет только два столбца (как в приведенном выше примере), это равно

\operatorname {var} ({\widehat {\varepsilon \,}}_{i})=\sigma ^{2}\left(1-{\frac {1}{n}}-{\frac {(x_{i}-{\bar {x}})^{2}}{\sum _{j=1}^{n}(x_{j}-{\bar {x}})^{2}}}\right).

В случае среднего арифметического матрица плана X имеет только один столбец ( вектор единиц ), и это просто:

\operatorname {var} ({\widehat {\varepsilon \,}}_{i})=\sigma ^{2}\left(1-{\frac {1}{n}}\right).

Расчет [ править ]

Учитывая приведенные выше определения, студентизированная невязка тогда

t_{i}={{\widehat {\varepsilon \,}}_{i} \over {\widehat {\sigma }}{\sqrt {1-h_{ii}\ }}}

где h _ii - кредитное плечо , где - соответствующая оценка σ (см. ниже). ${\widehat {\sigma }}$

В случае среднего это равно:

t_{i}={{\widehat {\varepsilon \,}}_{i} \over {\widehat {\sigma }}{\sqrt {(n-1)/n}}}

Внутренняя и внешняя студентизация [ править ]

Обычная оценка σ ² - это внутренне стьюдентифицированная невязка.

{\widehat {\sigma }}^{2}={1 \over n-m}\sum _{j=1}^{n}{\widehat {\varepsilon \,}}_{j}^{\,2}.

где m - количество параметров в модели (в нашем примере 2).

Но если есть подозрение, что i- й случай является невероятно большим, он также не будет нормально распределен. Следовательно, разумно исключить i- е наблюдение из процесса оценки дисперсии, когда кто-то рассматривает, может ли i- й случай быть выбросом, и вместо этого использовать внешне стьюдентифицированный остаток, который равен

{\widehat {\sigma }}_{(i)}^{2}={1 \over n-m-1}\sum _{\begin{smallmatrix}j=1\\j\neq i\end{smallmatrix}}^{n}{\widehat {\varepsilon \,}}_{j}^{\,2},

на основе всех остатков, кроме подозреваемого остатка i . Здесь необходимо подчеркнуть, что для подозреваемого i вычисляется с исключением i- го случая. ${\widehat {\varepsilon \,}}_{j}^{\,2}(j\neq i)$

Если оценка σ ² включает в я - й случай, то она называется внутренне стьюдентизированной Остаточное, (также известный как стандартизированы остаточный ^[1] ). Если оценка используется вместо этого, за исключением в я - й случай, то он называется внешним стьюдентизированной , . $t_{i}$ ${\widehat {\sigma }}_{(i)}^{2}$ $t_{i(i)}$

Распространение [ править ]

Если ошибки независимы и нормально распределены с ожидаемым значением 0 и дисперсией σ ² , то распределение вероятностей из я - й извне стьюдентизированной остаточного является Распределение Стьюдента с п - т - 1 степеней свободы , и может находиться в диапазоне от до . $t_{i(i)}$ $\scriptstyle -\infty$ $\scriptstyle +\infty$

С другой стороны, внутренне стьюдентифицированные остатки находятся в диапазоне , где ν = n - m - количество остаточных степеней свободы. Если t _i представляет собой стьюдентизированный остаток, и снова предполагается, что ошибки являются независимыми одинаково распределенными гауссовскими переменными, то: ^[2] $\scriptstyle 0\,\pm \,{\sqrt {\nu }}$

t_{i}\sim {\sqrt {\nu }}{t \over {\sqrt {t^{2}+\nu -1}}}

где t - случайная величина, распределенная как t-распределение Стьюдента с ν - 1 степенями свободы. Фактически, это означает, что t _i² / ν следует бета-распределению B (1/2, ( ν - 1) / 2). Вышеуказанное распределение иногда называют тау-распределением ; ^[2] он был впервые выведен Томпсоном в 1935 году. ^[3]

Когда ν = 3, стьюдентифицированные остатки равномерно распределяются между и . Если имеется только одна остаточная степень свободы, приведенная выше формула для распределения внутренне стьюдентизированных остатков не применяется. В этом случае все t _i равны +1 или -1, с 50% вероятностью для каждого. $\scriptstyle -{\sqrt {3}}$ $\scriptstyle +{\sqrt {3}}$

Стандартное отклонение распределения стьюдентифицированных остатков всегда равно 1, но это не означает, что стандартное отклонение всех t _i конкретного эксперимента равно 1. Например, внутренне стьюдентизированные остатки при подборе прямой, проходящей через ( 0, 0) в точки (1, 4), (2, −1), (2, −1) , и их стандартное отклонение не равно 1. ${\sqrt {2}},\ -{\sqrt {5}}/5,\ -{\sqrt {5}}/5$

Обратите внимание, что любая пара стьюдентизированных остатков t _i и t _j (где ) НЕ являются iid. Они имеют одинаковое распределение, но не являются независимыми из-за ограничений на остатки, которые должны суммироваться до 0 и быть ортогональными матрице плана. . $i\neq j$

Программные реализации [ править ]

Многие программы и статистические пакеты, такие как R , Python и т. Д., Включают реализации стьюдентизированного остатка.

Язык / Программа	Функция	Примечания
р	`rstandard(model, ...)`	внутренне обучен. См. [2]
р	`rstudent(model, ...)`	внешне студентоз. См. [3]

См. Также [ править ]

Расстояние Кука - мера изменений коэффициентов регрессии при удалении наблюдения
Тест Граббса
Нормализация (статистика)
Неравенство Самуэльсона
Стандартный балл
Уильям Сили Госсет

Ссылки [ править ]

^ Документы по диагностике удаления регрессии
^ a b Аллен Дж. Поуп (1976), «Статистика остатков и обнаружение выбросов», Министерство торговли США, Национальное управление океанических и атмосферных исследований, Национальное исследование океана, Лаборатория геодезических исследований и разработок, 136 страниц, [1 ] , уравнение (6)
^ Томпсон, Уильям Р. (1935). «О критерии отказа от наблюдений и распределении отношения отклонения к стандартному отклонению выборки» . Анналы математической статистики . 6 (4): 214–219. DOI : 10.1214 / АОМ / 1177732567 .

Дальнейшее чтение [ править ]

Кук, Р. Деннис; Вайсберг, Сэнфорд (1982). Остатки и влияние в регрессии (Repr. Ed.). Нью-Йорк: Чепмен и Холл . ISBN 041224280X. Проверено 23 февраля 2013 года .

[1] Документы по диагностике удаления регрессии

[NOAA-2] Аллен Дж. Поуп (1976), «Статистика остатков и обнаружение выбросов», Министерство торговли США, Национальное управление океанических и атмосферных исследований, Национальное исследование океана, Лаборатория геодезических исследований и разработок, 136 страниц, [1 ] , уравнение (6)

[3] Томпсон, Уильям Р. (1935). «О критерии отказа от наблюдений и распределении отношения отклонения к стандартному отклонению выборки» . Анналы математической статистики . 6 (4): 214–219. DOI : 10.1214 / АОМ / 1177732567 .