Ошибки и остатки


Из Википедии, свободной энциклопедии
  (Перенаправлено из классической ошибки )
Перейти к навигации Перейти к поиску

В статистике и оптимизации , ошибка и остатки два тесно связанные и легко спутать меры по отклонению от наблюдаемого значения элемента в статистическую выборке из его «теоретического значения». Ошибки (или нарушения ) от наблюдаемого значения является отклонение наблюдаемого значения от (ненаблюдаемой) истинного значения величины , представляющего интерес (например, среднее население ), а также остаточного наблюдаемого значения представляет собой разность между наблюдаемое значение и оценочноезначение интересующей величины (например, выборочное среднее ). Это различие наиболее важно в регрессионном анализе , где концепции иногда называют ошибками регрессии и остатками регрессии и где они приводят к концепции студентизированных остатков .

Введение

Предположим, есть серия наблюдений из одномерного распределения, и мы хотим оценить среднее значение этого распределения (так называемая модель местоположения ). В этом случае ошибки - это отклонения наблюдений от среднего по совокупности, а остатки - это отклонения наблюдений от среднего по выборке.

Статистическая погрешность (или нарушение ) представляет собой количество , с помощью которого наблюдение отличается от своего ожидаемого значения , причем последнего на основе всей популяции , из которой была выбрана случайным образом статистической единица. Например, если средний рост среди 21-летних мужчин составляет 1,75 метра, а рост одного случайно выбранного мужчины - 1,80 метра, то «ошибка» составляет 0,05 метра; если случайно выбранный мужчина имеет рост 1,70 метра, то «ошибка» составляет -0,05 метра. Ожидаемое значение, являющееся средним для всей генеральной совокупности, обычно ненаблюдаемо, и, следовательно, статистическая ошибка также не может быть обнаружена.

С другой стороны, невязка (или аппроксимирующее отклонение) - это наблюдаемая оценка ненаблюдаемой статистической ошибки. Рассмотрим предыдущий пример с ростом мужчин и предположим, что у нас есть случайная выборка из n человек. Выборочное среднее может служить хорошей оценкой в популяции среднего значения. Тогда у нас есть:

  • Разница между ростом каждого мужчины в выборке и ненаблюдаемым средним по совокупности является статистической ошибкой , тогда как
  • Разница между ростом каждого человека в выборке и наблюдаемым средним по выборке является невязкой .

Обратите внимание, что из-за определения выборочного среднего сумма остатков в случайной выборке обязательно равна нулю, и, таким образом, остатки обязательно не являются независимыми . С другой стороны, статистические ошибки независимы, и их сумма в пределах случайной выборки почти наверняка не равна нулю.

Можно стандартизировать статистические ошибки (особенно нормального распределения ) в z-балле (или «стандартном балле») и стандартизировать остатки в t- статистике или, в более общем смысле, студентизированных остатках .

В одномерных распределениях

Если мы предположим, что популяция нормально распределена со средним значением μ и стандартным отклонением σ, и выберем индивидуумов независимо, то мы имеем

и выборочное среднее

случайная величина, распределенная таким образом, что:

В статистических ошибках затем

с ожидаемыми значениями нуля, [1] тогда как остатки равны

Сумма квадратов статистических ошибок , деленная на σ 2 , имеет распределение хи-квадрат с n степенями свободы :

Однако это количество не наблюдается, так как среднее значение для генеральной совокупности неизвестно. Сумма квадратов остатков , с другой стороны, наблюдаема. Частное этой суммы по σ 2 имеет распределение хи-квадрат только с n  - 1 степенями свободы:

Эта разница между n и n  - 1 степенями свободы приводит к поправке Бесселя для оценки выборочной дисперсии совокупности с неизвестным средним и неизвестной дисперсией. Коррекция не требуется, если известно среднее значение для генеральной совокупности.

Замечание

Примечательно, что можно показать, что сумма квадратов остатков и выборочное среднее не зависят друг от друга, используя, например , теорему Басу . Этот факт, а также приведенные выше нормальное распределение и распределение хи-квадрат составляют основу вычислений с использованием t-статистики :

где представляет ошибки, представляет стандартное отклонение выборки для выборки размера n и неизвестного σ , а член знаменателя учитывает стандартное отклонение ошибок согласно: [2]

Распределения вероятностей числителя и знаменателя по отдельности зависят от значения ненаблюдаемого стандартного отклонения совокупности σ , но σ появляется как в числителе, так и в знаменателе и сокращается. Это к счастью, потому что это означает, что, хотя мы не знаем  σ , мы знаем распределение вероятностей этого частного: оно имеет t-распределение Стьюдента с n  - 1 степенями свободы. Таким образом, мы можем использовать это частное, чтобы найти доверительный интервал для  μ . Эту t-статистику можно интерпретировать как «количество стандартных ошибок от линии регрессии». [3]

Регрессии

В регрессионном анализе различие между ошибками и остатками является тонким и важным, что приводит к концепции студентизированных остатков . Учитывая ненаблюдаемую функцию, которая связывает независимую переменную с зависимой переменной - скажем, линию - отклонения наблюдений зависимой переменной от этой функции являются ненаблюдаемыми ошибками. Если запустить регрессию на некоторых данных, то отклонения наблюдений зависимой переменной от подобранной функции являются остатками. Если применима линейная модель, диаграмма рассеяния остатков, построенная против независимой переменной, должна быть случайной около нуля без тенденции к остаткам. [2]Если данные демонстрируют тенденцию, регрессионная модель, вероятно, неверна; например, истинная функция может быть квадратичным полиномом или полиномом более высокого порядка. Если они случайны или не имеют тенденции, но «разветвляются» - они демонстрируют явление, называемое гетероскедастичностью . Если все остатки равны или не разветвляются, они проявляют гомоскедастичность .

Однако возникает терминологическая разница в выражении среднеквадратичной ошибки (MSE). Среднеквадратичная ошибка регрессии - это число, вычисленное из суммы квадратов вычисленных остатков , а не ненаблюдаемых ошибок . Если эту сумму квадратов разделить на n , количество наблюдений, результатом будет среднее значение квадратов остатков. Поскольку это смещенная оценка дисперсии ненаблюдаемых ошибок, смещение устраняется путем деления суммы квадратов остатков на df = n  -  p  - 1 вместо n , где df - количество степеней свободы.( n минус количество оцениваемых параметров (без учета точки пересечения) p - 1). Это формирует несмещенную оценку дисперсии ненаблюдаемых ошибок и называется среднеквадратичной ошибкой. [4]

Другой метод вычисления среднего квадрата ошибки при анализе дисперсии линейной регрессии с использованием техники, подобной той, что используется в ANOVA (они такие же, потому что ANOVA - это тип регрессии), сумма квадратов остатков (также известная как сумма квадратов ошибки) делится на степени свободы (где степени свободы равны n  -  p  - 1, где p- количество параметров, оцененных в модели (по одному для каждой переменной в уравнении регрессии, не включая точку пересечения). Затем можно также вычислить средний квадрат модели, разделив сумму квадратов модели за вычетом степеней свободы, которые представляют собой просто количество параметров. Затем значение F можно рассчитать путем деления среднего квадрата модели на средний квадрат ошибки, и затем мы можем определить значимость (вот почему вы хотите, чтобы средние квадраты начинались с). [5]

Однако из-за поведения процесса регрессии распределения остатков в разных точках данных (входной переменной) могут различаться, даже если сами ошибки распределены одинаково. Конкретно, в линейной регрессии, где ошибки одинаково распределены, изменчивость остатков входных данных в середине области будет выше, чем изменчивость остатков на концах области: [6] линейные регрессии подходят для конечных точек лучше, чем середина. Это также отражается в функциях влияния различных точек данных на коэффициенты регрессии : конечные точки имеют большее влияние.

Таким образом, чтобы сравнить остатки на разных входах, необходимо скорректировать остатки на ожидаемую изменчивость остатков, что называется студентизацией . Это особенно важно в случае обнаружения выбросов , когда рассматриваемый случай каким-то образом отличается от другого в наборе данных. Например, можно ожидать большой остаток в середине домена, но он будет считаться выбросом в конце домена.

Другие варианты использования слова "ошибка" в статистике

Использование термина «ошибка», как обсуждалось в разделах выше, означает отклонение значения от гипотетического ненаблюдаемого значения. По крайней мере, два других использования также встречаются в статистике, оба относятся к наблюдаемым ошибкам прогнозирования:

Среднеквадратичная ошибка (СКО) относится к количеству , по которому значение , предсказанное с помощью оценки отличается от количества оцениваемого ( как правило , вне образца , из которого была оценена модель). Корень средний квадрат ошибки (СКО) является квадратным корнем из MSE. Сумма квадратов ошибок (SSE) является СКО , умноженное на размер выборки.

Сумма квадратов остатков (SSR) - это сумма квадратов отклонений фактических значений от прогнозируемых значений в пределах выборки, используемой для оценки. Это основа дляоценки методом наименьших квадратов , где коэффициенты регрессии выбираются так, чтобы SSR был минимальным (т. Е. Его производная равна нулю).

Аналогичным образом, сумма абсолютных ошибок (SAE) - это сумма абсолютных значений остатков, которая минимизируется в подходе к регрессии с наименьшими абсолютными отклонениями .

Средняя ошибка (ME) является смещение . Среднее остаточное (МР) всегда равна нулю для оценок наименьших квадратов.

Смотрите также

  • Абсолютное отклонение
  • Консенсус-прогнозы
  • Обнаружение и исправление ошибок
  • Объясненная сумма квадратов
  • Инновации (обработка сигналов)
  • Неподходящая сумма квадратов
  • Допустимая погрешность
  • Средняя абсолютная ошибка
  • Ошибка наблюдения
  • Распространение ошибки
  • Вероятная ошибка
  • Случайные и систематические ошибки
  • Сниженная статистика хи-квадрат
  • Разбавление регрессии
  • Среднеквадратичное отклонение
  • Ошибка выборки
  • Стандартная ошибка
  • Студентизованный остаток
  • Ошибки типа I и типа II

использованная литература

  1. ^ Wetherill, Г. Барри. (1981). Промежуточные статистические методы . Лондон: Чепмен и Холл. ISBN 0-412-16440-Х. OCLC  7779780 .
  2. ^ a b Современное введение в вероятность и статистику: понимание, почему и как . Деккинг, Мишель, 1946-. Лондон: Спрингер. 2005. ISBN 978-1-85233-896-1. OCLC  262680588 .CS1 maint: другие ( ссылка )
  3. ^ Брюс, Питер С., 1953- (2017-05-10). Практическая статистика для специалистов по данным: 50 основных концепций . Брюс, Эндрю, 1958- (Первое изд.). Севастополь, CA. ISBN 978-1-4919-5293-1. OCLC  987251007 .CS1 maint: несколько имен: список авторов ( ссылка )
  4. ^ Сталь, Роберт GD; Торри, Джеймс Х. (1960). Принципы и процедуры статистики с особым упором на биологические науки . Макгроу-Хилл. п. 288 .
  5. ^ Zelterman, Daniel (2010). Прикладные линейные модели с SAS ([Online-Ausg.]. Ред.). Кембридж: Издательство Кембриджского университета. ISBN 9780521761598.
  6. ^ «7.3: Типы выбросов в линейной регрессии» . Статистика LibreTexts . 2013-11-21 . Проверено 22 ноября 2019 .
  • Кук, Р. Деннис; Вайсберг, Сэнфорд (1982). Остатки и влияние в регрессии (Repr. Ed.). Нью-Йорк: Чепмен и Холл . ISBN 041224280X. Проверено 23 февраля 2013 года .
  • Кокс, Дэвид Р .; Снелл, Э. Джойс (1968). «Общее определение остатков». Журнал Королевского статистического общества, Series B . 30 (2): 248–275. JSTOR  2984505 .
  • Вайсберг, Сэнфорд (1985). Прикладная линейная регрессия (2-е изд.). Нью-Йорк: Вили. ISBN 9780471879572. Проверено 23 февраля 2013 года .
  • "Ошибки, теория" , Математическая энциклопедия , EMS Press , 2001 [1994]

внешняя ссылка

  • СМИ, связанные с ошибками и остатками на Викискладе?
Источник « https://en.wikipedia.org/w/index.php?title=Errors_and_residuals&oldid=1052770332 »