Из Википедии, бесплатной энциклопедии
  (Перенаправлено из RMSD )
Перейти к навигации Перейти к поиску

Среднеквадратическое отклонение ( СКО ) или корневой среднеквадратичная ошибка ( СКО ), часто используется мера различий между значениями (или выборкой значениями населения) , предсказываемые моделью или оценкой и значениями наблюдаемых. RMSD представляет собой квадратный корень из второго момента выборки разностей между предсказанными значениями и наблюдаемыми значениями или среднее квадратичное значение этих различий. Эти отклонения называются остатками, когда вычисления выполняются над выборкой данных, которая использовалась для оценки, и называются ошибками.(или ошибки предсказания) при вычислении вне выборки. RMSD служит для агрегирования величин ошибок в прогнозах для различных точек данных в единую меру предсказательной силы. RMSD - это мера точности для сравнения ошибок прогнозирования различных моделей для определенного набора данных, а не между наборами данных, поскольку она зависит от масштаба. [1]

Среднеквадратичное отклонение всегда неотрицательно, и значение 0 (почти никогда не достигается на практике) указывает на точное соответствие данным. В общем, более низкое RMSD лучше, чем более высокое. Однако сравнения различных типов данных будут недопустимыми, поскольку мера зависит от масштаба используемых чисел.

RMSD - это квадратный корень из среднего квадрата ошибок. Влияние каждой ошибки на RMSD пропорционально размеру квадратичной ошибки; таким образом, большие ошибки имеют непропорционально большое влияние на RMSD. Следовательно, RMSD чувствителен к выбросам. [2] [3]

Формула [ править ]

RMSD оценщика по отношению к оцениваемому параметру определяется как квадратный корень из среднеквадратичной ошибки :

Для несмещенной оценки RMSD - это квадратный корень из дисперсии, известный как стандартное отклонение .

СКО прогнозируемых значений для моментов времени т о наличии регрессии по зависимой переменной с переменными , наблюдаемых в течение T времени, вычисляется для T различных предсказаний , как корень квадратный из среднего значения квадратов отклонений:

(Для регрессий по поперечным данным индекс t заменяется на i, а T заменяется на n .)

В некоторых дисциплинах RMSD используется для сравнения различий между двумя вещами, которые могут различаться, ни одна из которых не принимается в качестве «стандарта». Например, при измерении средней разницы между двумя временными рядами и формула принимает вид

Нормализация [ править ]

Нормализация RMSD облегчает сравнение наборов данных или моделей с разными масштабами. Хотя в литературе нет последовательных средств нормализации, обычно выбирают среднее значение или диапазон (определяемый как максимальное значение минус минимальное значение) измеренных данных: [4]

или .

Это значение обычно называется нормализованным среднеквадратичным отклонением или ошибкой (NRMSD или NRMSE) и часто выражается в процентах, где более низкие значения указывают на меньшую остаточную дисперсию. Во многих случаях, особенно для небольших выборок, на диапазон выборки, вероятно, влияет размер выборки, что затрудняет сравнения.

Другой возможный метод сделать RMSD более полезной мерой сравнения - разделить RMSD на межквартильный размах . При делении RMSD на IQR нормализованное значение становится менее чувствительным к экстремальным значениям целевой переменной.

куда

с , и где ВПР -1 является функцией квантиля .

При нормализации на среднее значение измерений можно использовать термин « коэффициент вариации RMSD, CV (RMSD) , чтобы избежать неоднозначности. [5] Это аналогично коэффициенту вариации со среднеквадратичным отклонением вместо стандартного отклонения .

Связанные меры [ править ]

Некоторые исследователи рекомендовали использовать среднюю абсолютную ошибку (MAE) вместо среднеквадратического отклонения. MAE имеет преимущества в интерпретируемости по сравнению с RMSD. MAE - это среднее абсолютных значений ошибок. MAE принципиально легче понять, чем квадратный корень из среднего квадрата ошибок. Более того, каждая ошибка влияет на MAE прямо пропорционально абсолютному значению ошибки, что не относится к RMSD. [2]

Приложения [ править ]

  • В метеорологии , чтобы увидеть, насколько эффективно математическая модель предсказывает поведение атмосферы .
  • В биоинформатики , то среднеквадратичное отклонение атомных положений является мерой среднего расстояния между атомами наложенных друг на друга белков .
  • В структуре на основе дизайна лекарств , то СКО является мерой разности между кристаллической конформации лиганда конформации и док прогнозирования.
  • В экономике RMSD используется для определения того, соответствует ли экономическая модель экономическим показателям . Некоторые эксперты утверждают, что RMSD менее надежен, чем относительная абсолютная ошибка. [6]
  • В экспериментальной психологии RMSD используется для оценки того, насколько хорошо математические или вычислительные модели поведения объясняют эмпирически наблюдаемое поведение.
  • В ГИС RMSD является одним из показателей, используемых для оценки точности пространственного анализа и дистанционного зондирования.
  • В гидрогеологии RMSD и NRMSD используются для оценки калибровки модели подземных вод. [7]
  • В области визуализации RMSD - это часть пикового отношения сигнал / шум , мера, используемая для оценки того, насколько хорошо метод восстановления изображения работает по сравнению с исходным изображением.
  • В вычислительной нейробиологии RMSD используется для оценки того, насколько хорошо система изучает данную модель. [8]
  • В спектроскопии ядерного магнитного резонанса белков RMSD используется как мера для оценки качества полученного пучка структур.
  • Заявки на приз Netflix оценивались с использованием RMSD из нераскрытых «истинных» значений тестового набора данных.
  • При моделировании энергопотребления зданий RMSE и CV (RMSE) используются для калибровки моделей в соответствии с измеренными характеристиками здания. [9]
  • В рентгеновской кристаллографии RMSD (и RMSZ) используется для измерения отклонения внутренних координат молекул от значений библиотеки ограничений.

См. Также [ править ]

  • Среднеквадратичное значение
  • Средняя абсолютная ошибка
  • Среднее абсолютное отклонение
  • Среднее знаковое отклонение
  • Среднеквадратичное отклонение
  • Квадратные отклонения
  • Ошибки и неточности в статистике

Ссылки [ править ]

  1. ^ Hyndman, Роб Дж .; Келер, Энн Б. (2006). «Еще один взгляд на меры точности прогнозов». Международный журнал прогнозирования . 22 (4): 679–688. CiteSeerX  10.1.1.154.9771 . DOI : 10.1016 / j.ijforecast.2006.03.001 .
  2. ^ a b Понтий, Роберт; Тонттех, Олуфунмилайо; Чен, Хао (2008). «Компоненты информации для сравнения нескольких разрешений между картами, имеющими реальную переменную». Экологическая экологическая статистика . 15 (2): 111–142. DOI : 10.1007 / s10651-007-0043-у .
  3. ^ Уиллмотт, Корт; Мацуура, Кендзи (2006). «Об использовании размерных мер погрешности для оценки производительности пространственных интерполяторов». Международный журнал географической информатики . 20 : 89–102. DOI : 10.1080 / 13658810500286976 .
  4. ^ "Программа исследования прибрежных заливов (CIRP) Wiki - Статистика" . Проверено 4 февраля 2015 года .
  5. ^ "FAQ: Что такое коэффициент вариации?" . Проверено 19 февраля 2019 .
  6. ^ Армстронг, Дж. Скотт; Коллопи, Фред (1992). «Меры погрешности для обобщения методов прогнозирования: эмпирические сравнения» (PDF) . Международный журнал прогнозирования . 8 (1): 69–80. CiteSeerX 10.1.1.423.508 . DOI : 10.1016 / 0169-2070 (92) 90008-W .  
  7. ^ Андерсон, член парламента; Woessner, WW (1992). Прикладное моделирование подземных вод: моделирование потока и адвективного переноса (2-е изд.). Академическая пресса.
  8. ^ Модель ансамблевой нейронной сети
  9. ^ ANSI / BPI-2400-S-2012: Стандартная практика для стандартизированной квалификации прогнозов экономии энергии для всего дома путем калибровки по истории использования энергии