Средняя абсолютная процентная ошибка ( МАПО ), также известная как средний абсолютное отклонение в процентах ( МАПД ), является мерой точности предсказания методы прогнозирования в статистике . Обычно точность выражается в виде отношения, определяемого формулой:
где A t - фактическое значение, а F t - прогнозное значение. MAPE также иногда в виде процента, который является приведенное выше уравнение , умноженное на 100. разница между A т и F т делится на фактическое значение A т снова. Абсолютное значение в этом вычислении суммируется для каждого прогнозируемого момента времени и делится на количество подобранных точек n .
MAPE в задачах регрессии
Средняя абсолютная процентная ошибка обычно используется в качестве функции потерь для задач регрессии и при оценке модели из-за ее очень интуитивной интерпретации с точки зрения относительной ошибки.
Определение
Рассмотрим стандартную настройку регрессии, в которой данные полностью описываются случайной парой. со значениями в , и n iid копий из . Целью регрессионных моделей является поиск хорошей модели для пары, которая представляет собой измеримую функцию g из к такой, что близка к Y .
В условиях классической регрессии близость к Y измеряется через риск L 2 , также называемый среднеквадратичной ошибкой (MSE). В контексте регрессии MAPE [1] близостьк Y измеряется с помощью MAPE, а цель регрессии MAPE - найти модель такой, что:
где - рассматриваемый класс моделей (например, линейные модели).
На практике
На практике можно оценить с помощью стратегии минимизации эмпирического риска , что приводит к
С практической точки зрения использование MAPE в качестве функции качества для регрессионной модели эквивалентно выполнению регрессии взвешенной средней абсолютной ошибки (MAE), также известной как квантильная регрессия . Это свойство тривиально, поскольку
Как следствие, использование MAPE очень просто на практике, например, с использованием существующих библиотек для квантильной регрессии, позволяющей использовать веса.
Последовательность
Использование MAPE в качестве функции потерь для регрессионного анализа возможно как с практической, так и с теоретической точки зрения, поскольку можно доказать существование оптимальной модели и согласованность минимизации эмпирического риска. [1]
Альтернативные определения MAPE
Проблемы могут возникнуть при вычислении значения MAPE с рядом малых знаменателей. Может возникнуть проблема сингулярности в форме «единица, деленная на ноль» и / или создание очень больших изменений абсолютной процентной ошибки, вызванных небольшим отклонением в ошибке.
В качестве альтернативы каждое фактическое значение ( A t ) ряда в исходной формуле можно заменить средним всех фактических значений ( Ā t ) этого ряда. Эта альтернатива все еще используется для измерения эффективности моделей, прогнозирующих спотовые цены на электроэнергию. [2]
Обратите внимание, что это эквивалентно делению суммы абсолютных разностей на сумму фактических значений и иногда называется WAPE (взвешенная абсолютная процентная ошибка) или wMAPE (взвешенная средняя абсолютная процентная ошибка) .
вопросы
Хотя концепция MAPE звучит очень просто и убедительно, она имеет серьезные недостатки в практическом применении [3], и существует множество исследований недостатков и вводящих в заблуждение результатов MAPE. [4] [5]
- Его нельзя использовать, если есть нулевые значения (что иногда бывает, например, в данных спроса), потому что будет деление на ноль.
- Для слишком низких прогнозов процентная ошибка не может превышать 100%, но для слишком высоких прогнозов нет верхнего предела процентной ошибки.
- MAPE накладывает более серьезные штрафы на отрицательные ошибки, чем на положительных ошибках. [6] Как следствие, когда MAPE используется для сравнения точности методов прогнозирования, он систематически выбирает метод, прогнозы которого слишком занижены. Эта малоизвестная, но серьезная проблема может быть преодолена с помощью меры точности, основанной на логарифме отношения точности (отношения прогнозируемого к фактическому значению), определяемого выражением. Этот подход приводит к превосходным статистическим свойствам и прогнозам, которые можно интерпретировать с точки зрения среднего геометрического. [3]
- Люди часто думают, что MAPE будет оптимизирован по медиане. Но, например, нормальный логарифм имеет медианное значение где, поскольку он оптимизирован для MAPE на .
Чтобы преодолеть эти проблемы с MAPE, в литературе предлагаются некоторые другие меры:
- Средняя абсолютная масштабированная ошибка (MASE)
- Симметричная средняя абсолютная ошибка в процентах (sMAPE)
- Средняя направленная точность (MDA)
- Средняя арктангенсная абсолютная процентная ошибка (MAAPE): MAAPE - это новый показатель абсолютной процентной ошибки, который был разработан с учетом взгляда на MAPE под другим углом. По сути, MAAPE - это наклон как угол , а MAPE - это наклон как отношение . [5]
Смотрите также
Внешние ссылки
Рекомендации
- ^ a b de Myttenaere, B Golden, B Le Grand, F Rossi (2015). «Средняя абсолютная процентная ошибка для регрессионных моделей», Neurocomputing 2016 arXiv : 1605.02541
- ^ Jorrit Вандер Mynsbrugge (2010). «Стратегии торгов с использованием обязательств на основе цены на единицу продукции на дерегулируемом рынке электроэнергии», KULeuven
- ^ а б Тофаллис (2015). «Лучшая мера относительной точности прогнозов для выбора модели и оценки модели», Журнал Общества операционных исследований , 66 (8): 1352-1362. архивный препринт
- ^ Гайндман, Rob J., и Энн В. Келер (2006). «Еще один взгляд на меры точности прогнозов». Международный журнал прогнозирования , 22 (4): 679-688 DOI : 10.1016 / j.ijforecast.2006.03.001 .
- ^ а б Ким, Сунгил и Хеён Ким (2016). «Новый показатель абсолютной процентной ошибки для прогнозов прерывистого спроса». Международный журнал прогнозирования , 32 (3): 669-679 DOI: 10.1016 / j.ijforecast.2015.12.003 .
- ^ Макридакис, Спирос (1993) "Меры точности: теоретические и практические вопросы". Международный журнал прогнозирования , 9 (4): 527-529 DOI: 10.1016 / 0169-2070 (93) 90079-3