Из Википедии, бесплатной энциклопедии
  (Перенаправлено из раздачи Тау )
Перейти к навигации Перейти к поиску

В статистике , A Стьюдентизированные остаточный является частным от деления а остаточный путем оценки его стандартного отклонения . Это форма t- статистики Стьюдента с оценкой ошибки, варьирующейся между точками.

Это важный метод обнаружения выбросов . Он входит в число нескольких, названных в честь Уильяма Сили Госсета , писавшего под псевдонимом Студент . Разделение статистики на стандартное отклонение выборки называется студентизацией по аналогии со стандартизацией и нормализацией .

Мотивация [ править ]

Основная причиной studentizing является то , что, в регрессионном анализе в виде многомерного распределения , дисперсии остатков при различных значениях входных переменных может отличаться, даже если отклонением от ошибок при различных значениях этих переменного ввода равно. Проблема заключается в разнице между ошибками и остатками в статистике , особенно в поведении остатков в регрессиях.

Рассмотрим простую модель линейной регрессии

Учитывая случайную выборку ( X iY i ), i  = 1, ...,  n , каждая пара ( X iY i ) удовлетворяет

где ошибки , являются независимыми , и все имеют одинаковую дисперсию . Эти остатки не являются истинными ошибками, но оценки , на основе наблюдаемых данных. Когда метод наименьших квадратов используется для оценки и , затем остатки , в отличие от ошибок , не могут быть независимыми , так как они удовлетворяют двум ограничениям

и

(Здесь & epsi я это я й ошибка, и это я й остатком.)

Остатки, в отличие от ошибок, не все имеют одинаковую дисперсию: дисперсия уменьшается по мере того, как соответствующее значение x удаляется от среднего значения x . Это не особенность самих данных, а регрессия, которая лучше соответствует значениям на концах домена. Это также отражается в функциях влияния различных точек данных на коэффициенты регрессии : конечные точки имеют большее влияние. Это также можно увидеть, потому что остатки в конечных точках сильно зависят от наклона подобранной линии, в то время как остатки в середине относительно нечувствительны к наклону. Тот факт, что дисперсии остатков различаются, хотяВсе отклонения истинных ошибок равны друг другу, что является основной причиной необходимости студенизации.

Это не просто вопрос параметров популяции (среднее значение и стандартное отклонение) неизвестность - это то , что регрессии дают различные остаточные распределения при различных точках данных, в отличии от точечных оценок из одномерных распределений , которые разделяют общее распределение для остатков.

Фон [ править ]

Для этой простой модели, дизайн матрица является

а матрица шляпы H - это матрица ортогональной проекции на пространство столбцов матрицы плана:

Плечо ч II является я - й диагональный элемент матрицы шляпой. Дисперсия i- го остатка равна

В случае, если матрица плана X имеет только два столбца (как в приведенном выше примере), это равно

В случае среднего арифметического матрица плана X имеет только один столбец ( вектор единиц ), и это просто:

Расчет [ править ]

Учитывая приведенные выше определения, студентизированная невязка тогда

где h ii - кредитное плечо , где - соответствующая оценка σ (см. ниже).

В случае среднего это равно:

Внутренняя и внешняя студентизация [ править ]

Обычная оценка σ 2 - это внутренне стьюдентифицированная невязка.

где m - количество параметров в модели (в нашем примере 2).

Но если  есть подозрение, что i- й случай является невероятно большим, он также не будет нормально распределен. Следовательно, разумно исключить i-  е наблюдение из процесса оценки дисперсии, когда кто-то рассматривает, может ли i-  й случай быть выбросом, и вместо этого использовать внешне стьюдентифицированный остаток, который равен

на основе всех остатков, кроме подозреваемого  остатка i . Здесь необходимо подчеркнуть, что для подозреваемого i вычисляется с  исключением i- го случая.

Если оценка σ 2 включает в я -  й случай, то она называется внутренне стьюдентизированной Остаточное, (также известный как стандартизированы остаточный [1] ). Если оценка используется вместо этого, за исключением в я -  й случай, то он называется внешним стьюдентизированной , .

Распространение [ править ]

Если ошибки независимы и нормально распределены с ожидаемым значением 0 и дисперсией σ 2 , то распределение вероятностей из я - й извне стьюдентизированной остаточного является Распределение Стьюдента с п  -  т  - 1 степеней свободы , и может находиться в диапазоне от до .

С другой стороны, внутренне стьюдентифицированные остатки находятся в диапазоне , где ν = n  -  m - количество остаточных степеней свободы. Если t i представляет собой стьюдентизированный остаток, и снова предполагается, что ошибки являются независимыми одинаково распределенными гауссовскими переменными, то: [2]

где t - случайная величина, распределенная как t-распределение Стьюдента с ν  - 1 степенями свободы. Фактически, это означает, что t i 2 / ν следует бета-распределению B (1/2, ( ν  - 1) / 2). Вышеуказанное распределение иногда называют тау-распределением ; [2] он был впервые выведен Томпсоном в 1935 году. [3]

Когда ν = 3, стьюдентифицированные остатки равномерно распределяются между и . Если имеется только одна остаточная степень свободы, приведенная выше формула для распределения внутренне стьюдентизированных остатков не применяется. В этом случае все t i равны +1 или -1, с 50% вероятностью для каждого.

Стандартное отклонение распределения стьюдентифицированных остатков всегда равно 1, но это не означает, что стандартное отклонение всех t i конкретного эксперимента равно 1. Например, внутренне стьюдентизированные остатки при подборе прямой, проходящей через ( 0, 0) в точки (1, 4), (2, −1), (2, −1) , и их стандартное отклонение не равно 1.

Обратите внимание, что любая пара стьюдентизированных остатков t i и t j (где ) НЕ являются iid. Они имеют одинаковое распределение, но не являются независимыми из-за ограничений на остатки, которые должны суммироваться до 0 и быть ортогональными матрице плана. .

Программные реализации [ править ]

Многие программы и статистические пакеты, такие как R , Python и т. Д., Включают реализации стьюдентизированного остатка.


См. Также [ править ]

  • Расстояние Кука - мера изменений коэффициентов регрессии при удалении наблюдения
  • Тест Граббса
  • Нормализация (статистика)
  • Неравенство Самуэльсона
  • Стандартный балл
  • Уильям Сили Госсет

Ссылки [ править ]

  1. ^ Документы по диагностике удаления регрессии
  2. ^ a b Аллен Дж. Поуп (1976), «Статистика остатков и обнаружение выбросов», Министерство торговли США, Национальное управление океанических и атмосферных исследований, Национальное исследование океана, Лаборатория геодезических исследований и разработок, 136 страниц, [1 ] , уравнение (6)
  3. ^ Томпсон, Уильям Р. (1935). «О критерии отказа от наблюдений и распределении отношения отклонения к стандартному отклонению выборки» . Анналы математической статистики . 6 (4): 214–219. DOI : 10.1214 / АОМ / 1177732567 .

Дальнейшее чтение [ править ]

  • Кук, Р. Деннис; Вайсберг, Сэнфорд (1982). Остатки и влияние в регрессии (Repr. Ed.). Нью-Йорк: Чепмен и Холл . ISBN 041224280X. Проверено 23 февраля 2013 года .