Средняя абсолютная ошибка в процентах

Средняя абсолютная процентная ошибка ( МАПО ), также известная как средний абсолютное отклонение в процентах ( МАПД ), является мерой точности предсказания методы прогнозирования в статистике . Обычно точность выражается в виде отношения, определяемого формулой:

{\ displaystyle {\ mbox {MAPE}} = {\ frac {100} {n}} \ sum _ {t = 1} ^ {n} \ left | {\ frac {A_ {t} -F_ {t}} {A_ {t}}} \ right |}

где $A t$ - фактическое значение, а $F t$ - прогнозное значение. MAPE также иногда в виде процента, который является приведенное выше уравнение , умноженное на 100. разница между $A т$ и $F т$ делится на фактическое значение $A т$ снова. Абсолютное значение в этом вычислении суммируется для каждого прогнозируемого момента времени и делится на количество подобранных точек $n$ .

MAPE в задачах регрессии

Средняя абсолютная процентная ошибка обычно используется в качестве функции потерь для задач регрессии и при оценке модели из-за ее очень интуитивной интерпретации с точки зрения относительной ошибки.

Определение

Рассмотрим стандартную настройку регрессии, в которой данные полностью описываются случайной парой. ${\ Displaystyle Z = (X, Y)}$ со значениями в ${\ Displaystyle \ mathbb {R} ^ {d} \ times \ mathbb {R}}$ , и $n$ iid копий ${\ displaystyle (X_ {1}, Y_ {1}), ..., (X_ {n}, Y_ {n})}$ из ${\ displaystyle (X, Y)}$ . Целью регрессионных моделей является поиск хорошей модели для пары, которая представляет собой измеримую функцию $g$ из ${\ Displaystyle \ mathbb {R} ^ {d}}$ к ${\ Displaystyle \ mathbb {R}}$ такой, что ${\ displaystyle g (X)}$ близка к $Y$ .

В условиях классической регрессии близость ${\ displaystyle g (X)}$ к $Y$ измеряется через риск $L 2$ , также называемый среднеквадратичной ошибкой (MSE). В контексте регрессии MAPE ^[1] близость ${\ displaystyle g (X)}$ к $Y$ измеряется с помощью MAPE, а цель регрессии MAPE - найти модель ${\ displaystyle g _ {\ text {MAPE}}}$ такой, что:

{\ displaystyle g _ {\ text {MAPE}} (x) = \ arg \ min _ {g \ in {\ mathcal {G}}} \ mathbb {E} \ left [\ left | {\ frac {g (X ) -Y} {Y}} \ right || X = x \ right]}

где ${\ Displaystyle {\ mathcal {G}}}$ - рассматриваемый класс моделей (например, линейные модели).

На практике

На практике ${\ displaystyle g _ {\ text {MAPE}} (х)}$ можно оценить с помощью стратегии минимизации эмпирического риска , что приводит к

{\ displaystyle {\ widehat {g}} _ {\ text {MAPE}} (x) = \ arg \ min _ {g \ in {\ mathcal {G}}} \ sum _ {i = 1} ^ {n } \ left | {\ frac {g (X_ {i}) - Y_ {i}} {Y_ {i}}} \ right |}

С практической точки зрения использование MAPE в качестве функции качества для регрессионной модели эквивалентно выполнению регрессии взвешенной средней абсолютной ошибки (MAE), также известной как квантильная регрессия . Это свойство тривиально, поскольку

{\ displaystyle {\ widehat {g}} _ {\ text {MAPE}} (x) = \ arg \ min _ {g \ in {\ mathcal {G}}} \ sum _ {i = 1} ^ {n } \ omega (Y_ {i}) \ left | g (X_ {i}) - Y_ {i} \ right | {\ mbox {with}} \ omega (Y_ {i}) = \ left | {\ frac { 1} {Y_ {i}}} \ right |}

Как следствие, использование MAPE очень просто на практике, например, с использованием существующих библиотек для квантильной регрессии, позволяющей использовать веса.

Последовательность

Использование MAPE в качестве функции потерь для регрессионного анализа возможно как с практической, так и с теоретической точки зрения, поскольку можно доказать существование оптимальной модели и согласованность минимизации эмпирического риска. ^[1]

Альтернативные определения MAPE

Проблемы могут возникнуть при вычислении значения MAPE с рядом малых знаменателей. Может возникнуть проблема сингулярности в форме «единица, деленная на ноль» и / или создание очень больших изменений абсолютной процентной ошибки, вызванных небольшим отклонением в ошибке.

В качестве альтернативы каждое фактическое значение ( $A t$ ) ряда в исходной формуле можно заменить средним всех фактических значений ( $Ā t$ ) этого ряда. Эта альтернатива все еще используется для измерения эффективности моделей, прогнозирующих спотовые цены на электроэнергию. ^[2]

Обратите внимание, что это эквивалентно делению суммы абсолютных разностей на сумму фактических значений и иногда называется WAPE (взвешенная абсолютная процентная ошибка) или wMAPE (взвешенная средняя абсолютная процентная ошибка) .

вопросы

Хотя концепция MAPE звучит очень просто и убедительно, она имеет серьезные недостатки в практическом применении ^[3], и существует множество исследований недостатков и вводящих в заблуждение результатов MAPE. ^[4]^[5]

Его нельзя использовать, если есть нулевые значения (что иногда бывает, например, в данных спроса), потому что будет деление на ноль.
Для слишком низких прогнозов процентная ошибка не может превышать 100%, но для слишком высоких прогнозов нет верхнего предела процентной ошибки.
MAPE накладывает более серьезные штрафы на отрицательные ошибки, ${\ displaystyle A_ {t}$ чем на положительных ошибках. ^[6] Как следствие, когда MAPE используется для сравнения точности методов прогнозирования, он систематически выбирает метод, прогнозы которого слишком занижены. Эта малоизвестная, но серьезная проблема может быть преодолена с помощью меры точности, основанной на логарифме отношения точности (отношения прогнозируемого к фактическому значению), определяемого выражением ${\ displaystyle \ log \ left ({\ frac {\ text {predicted}} {\ text {actual}}} \ right)}$ . Этот подход приводит к превосходным статистическим свойствам и прогнозам, которые можно интерпретировать с точки зрения среднего геометрического. ^[3]
Люди часто думают, что MAPE будет оптимизирован по медиане. Но, например, нормальный логарифм имеет медианное значение ${\ displaystyle e ^ {\ mu}}$ где, поскольку он оптимизирован для MAPE на ${\ Displaystyle е ^ {\ му - \ sigma}}$ .

Чтобы преодолеть эти проблемы с MAPE, в литературе предлагаются некоторые другие меры:

Средняя абсолютная масштабированная ошибка (MASE)
Симметричная средняя абсолютная ошибка в процентах (sMAPE)
Средняя направленная точность (MDA)
Средняя арктангенсная абсолютная процентная ошибка (MAAPE): MAAPE - это новый показатель абсолютной процентной ошибки, который был разработан с учетом взгляда на MAPE под другим углом. По сути, MAAPE - это наклон как угол , а MAPE - это наклон как отношение . ^[5]

Смотрите также

Внешние ссылки

Средняя абсолютная ошибка в процентах для моделей регрессии
Средняя абсолютная процентная ошибка (MAPE)
Ошибки в процентах ошибок - варианты MAPE
Абсолютная процентная ошибка среднего арктангенса (MAAPE)