Эта статья поднимает множество проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалить эти сообщения-шаблоны ) ( Узнайте, как и когда удалить этот шаблон сообщения )
|
Часть серии по |
Регрессивный анализ |
---|
Модели |
|
|
Оценка |
|
|
|
|
Фон |
|
|
В статистике , A Стьюдентизированные остаточный является частным от деления а остаточный путем оценки его стандартного отклонения . Это форма t- статистики Стьюдента с оценкой ошибки, варьирующейся между точками.
Это важный метод обнаружения выбросов . Он входит в число нескольких, названных в честь Уильяма Сили Госсета , писавшего под псевдонимом Студент . Разделение статистики на стандартное отклонение выборки называется студентизацией по аналогии со стандартизацией и нормализацией .
Мотивация [ править ]
Основная причиной studentizing является то , что, в регрессионном анализе в виде многомерного распределения , дисперсии остатков при различных значениях входных переменных может отличаться, даже если отклонением от ошибок при различных значениях этих переменного ввода равно. Проблема заключается в разнице между ошибками и остатками в статистике , особенно в поведении остатков в регрессиях.
Рассмотрим простую модель линейной регрессии
Учитывая случайную выборку ( X i , Y i ), i = 1, ..., n , каждая пара ( X i , Y i ) удовлетворяет
где ошибки , являются независимыми , и все имеют одинаковую дисперсию . Эти остатки не являются истинными ошибками, но оценки , на основе наблюдаемых данных. Когда метод наименьших квадратов используется для оценки и , затем остатки , в отличие от ошибок , не могут быть независимыми , так как они удовлетворяют двум ограничениям
и
(Здесь & epsi я это я й ошибка, и это я й остатком.)
Остатки, в отличие от ошибок, не все имеют одинаковую дисперсию: дисперсия уменьшается по мере того, как соответствующее значение x удаляется от среднего значения x . Это не особенность самих данных, а регрессия, которая лучше соответствует значениям на концах домена. Это также отражается в функциях влияния различных точек данных на коэффициенты регрессии : конечные точки имеют большее влияние. Это также можно увидеть, потому что остатки в конечных точках сильно зависят от наклона подобранной линии, в то время как остатки в середине относительно нечувствительны к наклону. Тот факт, что дисперсии остатков различаются, хотяВсе отклонения истинных ошибок равны друг другу, что является основной причиной необходимости студенизации.
Это не просто вопрос параметров популяции (среднее значение и стандартное отклонение) неизвестность - это то , что регрессии дают различные остаточные распределения при различных точках данных, в отличии от точечных оценок из одномерных распределений , которые разделяют общее распределение для остатков.
Фон [ править ]
Для этой простой модели, дизайн матрица является
а матрица шляпы H - это матрица ортогональной проекции на пространство столбцов матрицы плана:
Плечо ч II является я - й диагональный элемент матрицы шляпой. Дисперсия i- го остатка равна
В случае, если матрица плана X имеет только два столбца (как в приведенном выше примере), это равно
В случае среднего арифметического матрица плана X имеет только один столбец ( вектор единиц ), и это просто:
Расчет [ править ]
Учитывая приведенные выше определения, студентизированная невязка тогда
где h ii - кредитное плечо , где - соответствующая оценка σ (см. ниже).
В случае среднего это равно:
Внутренняя и внешняя студентизация [ править ]
Обычная оценка σ 2 - это внутренне стьюдентифицированная невязка.
где m - количество параметров в модели (в нашем примере 2).
Но если есть подозрение, что i- й случай является невероятно большим, он также не будет нормально распределен. Следовательно, разумно исключить i- е наблюдение из процесса оценки дисперсии, когда кто-то рассматривает, может ли i- й случай быть выбросом, и вместо этого использовать внешне стьюдентифицированный остаток, который равен
на основе всех остатков, кроме подозреваемого остатка i . Здесь необходимо подчеркнуть, что для подозреваемого i вычисляется с исключением i- го случая.
Если оценка σ 2 включает в я - й случай, то она называется внутренне стьюдентизированной Остаточное, (также известный как стандартизированы остаточный [1] ). Если оценка используется вместо этого, за исключением в я - й случай, то он называется внешним стьюдентизированной , .
Распространение [ править ]
Если ошибки независимы и нормально распределены с ожидаемым значением 0 и дисперсией σ 2 , то распределение вероятностей из я - й извне стьюдентизированной остаточного является Распределение Стьюдента с п - т - 1 степеней свободы , и может находиться в диапазоне от до .
С другой стороны, внутренне стьюдентифицированные остатки находятся в диапазоне , где ν = n - m - количество остаточных степеней свободы. Если t i представляет собой стьюдентизированный остаток, и снова предполагается, что ошибки являются независимыми одинаково распределенными гауссовскими переменными, то: [2]
где t - случайная величина, распределенная как t-распределение Стьюдента с ν - 1 степенями свободы. Фактически, это означает, что t i 2 / ν следует бета-распределению B (1/2, ( ν - 1) / 2). Вышеуказанное распределение иногда называют тау-распределением ; [2] он был впервые выведен Томпсоном в 1935 году. [3]
Когда ν = 3, стьюдентифицированные остатки равномерно распределяются между и . Если имеется только одна остаточная степень свободы, приведенная выше формула для распределения внутренне стьюдентизированных остатков не применяется. В этом случае все t i равны +1 или -1, с 50% вероятностью для каждого.
Стандартное отклонение распределения стьюдентифицированных остатков всегда равно 1, но это не означает, что стандартное отклонение всех t i конкретного эксперимента равно 1. Например, внутренне стьюдентизированные остатки при подборе прямой, проходящей через ( 0, 0) в точки (1, 4), (2, −1), (2, −1) , и их стандартное отклонение не равно 1.
Обратите внимание, что любая пара стьюдентизированных остатков t i и t j (где ) НЕ являются iid. Они имеют одинаковое распределение, но не являются независимыми из-за ограничений на остатки, которые должны суммироваться до 0 и быть ортогональными матрице плана. .
Программные реализации [ править ]
Многие программы и статистические пакеты, такие как R , Python и т. Д., Включают реализации стьюдентизированного остатка.
Язык / Программа | Функция | Примечания |
---|---|---|
р | rstandard(model, ...) | внутренне обучен. См. [2] |
р | rstudent(model, ...) | внешне студентоз. См. [3] |
См. Также [ править ]
- Расстояние Кука - мера изменений коэффициентов регрессии при удалении наблюдения
- Тест Граббса
- Нормализация (статистика)
- Неравенство Самуэльсона
- Стандартный балл
- Уильям Сили Госсет
Ссылки [ править ]
- ^ Документы по диагностике удаления регрессии
- ^ a b Аллен Дж. Поуп (1976), «Статистика остатков и обнаружение выбросов», Министерство торговли США, Национальное управление океанических и атмосферных исследований, Национальное исследование океана, Лаборатория геодезических исследований и разработок, 136 страниц, [1 ] , уравнение (6)
- ^ Томпсон, Уильям Р. (1935). «О критерии отказа от наблюдений и распределении отношения отклонения к стандартному отклонению выборки» . Анналы математической статистики . 6 (4): 214–219. DOI : 10.1214 / АОМ / 1177732567 .
Дальнейшее чтение [ править ]
- Кук, Р. Деннис; Вайсберг, Сэнфорд (1982). Остатки и влияние в регрессии (Repr. Ed.). Нью-Йорк: Чепмен и Холл . ISBN 041224280X. Проверено 23 февраля 2013 года .