Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике и эконометрике , и в частности в анализе временных рядов , авторегрессии интегрированных скользящего среднего (ARIMA) модель является обобщением авторегрессии скользящего среднего модели (АРМА). Обе эти модели приспособлены к данным временных рядов либо для лучшего понимания данных, либо для прогнозирования будущих точек ряда ( прогнозирование ). Модели ARIMA применяются в некоторых случаях, когда данные демонстрируют свидетельство нестационарности в смысле среднего (но не дисперсии / автоковариации ), когда начальный шаг дифференцирования (соответствующий «интегрированному»часть модели) можно применять один или несколько раз для устранения нестационарности функции среднего (т. е. тренда). [1] Когда сезонность проявляется во временном ряду, сезонная дифференциация [2] может применяться для исключения сезонной составляющей. Поскольку модель ARMA , согласно теореме разложения Вольда, [3] [4] [5] теоретически достаточна для описания регулярного (иначе говоря, чисто недетерминированного [5] ) стационарного временного ряда в широком смысле , мы заинтересованы в том, чтобы сделать стационарный временной ряд. нестационарные временные ряды, например, с использованием разности, прежде чем мы сможем использовать модель ARMA . [6]Обратите внимание, что если временной ряд содержит предсказуемый подпроцесс (также известный как чистый синус или комплексный экспоненциальный процесс [4] ), предсказуемый компонент обрабатывается как ненулевой средний, но периодический (т. Е. Сезонный) компонент в ARIMA. рамки так, чтобы она была исключена сезонной разницей.

AR часть ARIMA указывает на то, что эволюционирует переменная интерес регресс на своих лагом (т.е. предыдущие) значения. Часть MA указывает, что ошибка регрессии на самом деле является линейной комбинацией членов ошибки, значения которых имели место одновременно и в разное время в прошлом. [7] Я (для «интегрированный») указывает на то, что значения данных были заменены на разницу между их значениями и предыдущих значений (и этот процесс может разностного были выполнены более чем один раз). Цель каждой из этих функций - сделать модель максимально подходящей для данных.

Несезонные модели ARIMA обычно обозначаются ARIMA ( p , d , q ), где параметры p , d и q - неотрицательные целые числа, p - порядок (количество временных лагов) модели авторегрессии , d - степень разность (количество раз, когда из данных вычитались прошлые значения), а q - порядок модели скользящего среднего . Сезонные модели ARIMA обычно обозначаются ARIMA ( p , d , q ) ( P , D , Q ).m , где m обозначает количество периодов в каждом сезоне, а буквы P , D , Q в верхнем регистреотносятся к условиям авторегрессии, дифференцирования и скользящего среднего для сезонной части модели ARIMA. [8] [2]

Когда два из трех членов равны нулю, к модели можно обратиться на основе ненулевого параметра, исключив « AR », « I » или « MA » из аббревиатуры, описывающей модель. Например, это АР (1) , является I (1) , и это МО (1) .

Модели ARIMA можно оценить с помощью подхода Бокса – Дженкинса .

Определение [ править ]

Для данных временного ряда X t, где t - целочисленный индекс, а X t - действительные числа, модель задается следующим образом:

или, что эквивалентно

где - оператор запаздывания , - параметры авторегрессионной части модели, - параметры части скользящего среднего и - члены ошибки. Члены ошибки обычно считаются независимыми, одинаково распределенными переменными, выбранными из нормального распределения с нулевым средним.

Предположим теперь, что многочлен имеет единичный корень (множитель ) кратности d . Тогда его можно переписать как:

Процесс ARIMA ( p , d , q ) выражает это свойство полиномиальной факторизации с p = p'− d и задается следующим образом:

и, таким образом, его можно рассматривать как частный случай процесса ARMA ( p + d , q ), имеющего авторегрессионный многочлен с d единичными корнями. (По этой причине ни один процесс, который точно описывается моделью ARIMA с d  > 0, не является стационарным в широком смысле .)

Сказанное можно обобщить следующим образом.

Это определяет процесс ARIMA ( p , d , q ) с дрейфом .

Другие специальные формы [ править ]

Явная идентификация факторизации полинома авторегрессии на факторы, как указано выше, может быть распространена на другие случаи, во-первых, для применения к полиному скользящего среднего, а во-вторых, для включения других специальных факторов. Например, наличие фактора в модели - это один из способов включения в модель нестационарной сезонности периода s ; этот фактор имеет эффект повторного выражения данных как изменений по сравнению с периодом s назад. Другой пример - фактор , который включает (нестационарную) сезонность периода 2. [ требуется пояснение ]Эффект фактора первого типа заключается в том, что значение каждого сезона может изменяться по отдельности во времени, в то время как значения второго типа для смежных сезонов перемещаются вместе. [ требуется разъяснение ]

Идентификация и спецификация соответствующих факторов в модели ARIMA может быть важным шагом в моделировании, поскольку это может позволить уменьшить общее количество параметров, которые необходимо оценить, в то же время позволяя наложить на модель типы поведения, которые, как подсказывают логика и опыт, должны будь там.

Различия [ править ]

Свойства стационарного временного ряда не зависят от времени его наблюдения. В частности, для стационарных временных рядов в широком смысле среднее значение и дисперсия / автоковариация остаются постоянными во времени. Разностная в статистике является преобразование применяется к нестационарного временного ряда для того , чтобы сделать его стационарным в среднем смысле (то есть., Чтобы удалить непостоянный тренд), но не имеет ничего общего с нестационарности из дисперсия / автоковариация . Аналогичным образом сезонная разность применяется к сезонному временному ряду, чтобы удалить сезонную составляющую. С точки зрения обработки сигналов, особенноСогласно теории спектрального анализа Фурье , тренд - это низкочастотная часть в спектре нестационарного временного ряда, а сезон - периодическая частотная часть в его спектре. Следовательно, разность работает как фильтр верхних частот (т. Е. Низкочастотный), а сезонная разность - как гребенчатый фильтр, чтобы подавить низкочастотный тренд и сезон периодической частоты в спектральной области (а не непосредственно в спектральной области). временной области) соответственно. [6] Эта точка зрения объясняет философию, математику, силу и недостатки разности и сезонной разницы.

Чтобы различать данные, вычисляется разница между последовательными наблюдениями. Математически это показано как

Дифференцирование устраняет изменения в уровне временного ряда, устраняя тренд и сезонность и, следовательно, стабилизируя среднее значение временного ряда. [6]

Иногда может потребоваться разность данных второй раз для получения стационарного временного ряда, что называется разницей второго порядка :

Другим методом дифференцирования данных является сезонное дифференцирование, которое включает в себя вычисление разницы между наблюдением и соответствующим наблюдением в предыдущем сезоне, например, году. Это показано как:

Затем разностные данные используются для оценки модели ARMA .

Примеры [ править ]

Некоторые хорошо известные частные случаи возникают естественным образом или математически эквивалентны другим популярным моделям прогнозирования. Например:

  • Модель ARIMA (0, 1, 0) (или модель I (1) ) задается - что является просто случайным блужданием .
  • ARIMA (0, 1, 0) с константой, задаваемой -, которая представляет собой случайное блуждание со сносом.
  • Модель ARIMA (0, 0, 0) - это модель белого шума .
  • Модель ARIMA (0, 1, 2) - это модель Демпфированного Холта.
  • Модель ARIMA (0, 1, 1) без константы является базовой моделью экспоненциального сглаживания . [9]
  • Модель ARIMA (0, 2, 2) задается - что эквивалентно линейному методу Холта с аддитивными ошибками или двойному экспоненциальному сглаживанию . [9]

Выбор порядка [ править ]

Порядок p и q может быть определен с использованием функции выборочной автокорреляции (ACF), функции частичной автокорреляции (PACF) и / или метода расширенной автокорреляционной функции (EACF). [10]

Другие альтернативные методы включают AIC, BIC и т. Д. [10] Для определения порядка несезонной модели ARIMA полезным критерием является информационный критерий Акаике (AIC) . Он записывается как

где L - вероятность данных, p - порядок части авторегрессии, а q - порядок части скользящего среднего. К представляет перехватывать модели ARIMA. Для AIC, если k = 1, то есть перехват в модели ARIMA ( c ≠ 0), а если k = 0, то перехват в модели ARIMA отсутствует ( c = 0).

Скорректированный AIC для моделей ARIMA можно записать как

Информационный критерий (BIC) можно записать в виде

Цель состоит в том, чтобы минимизировать значения AIC, AICc или BIC для хорошей модели. Чем ниже значение одного из этих критериев для ряда исследуемых моделей, тем лучше модель будет соответствовать данным. AIC и BIC используются для двух совершенно разных целей. В то время как AIC пытается приблизить модели к реальности, BIC пытается найти идеальное соответствие. Подход BIC часто критикуют за то, что он никогда не идеально подходит для реальных сложных данных; тем не менее, это по-прежнему полезный метод выбора, поскольку он более серьезно наказывает модели за наличие большего количества параметров, чем в случае с AIC.

AICc можно использовать только для сравнения моделей ARIMA с одинаковыми порядками дифференцирования. Для ARIMA с разным порядком разности RMSE можно использовать для сравнения моделей.

Оценка коэффициентов [ править ]

Прогнозы с использованием моделей ARIMA [ править ]

Модель ARIMA можно рассматривать как «каскад» двух моделей. Первый нестационарный:

в то время как второй является стационарным в широком смысле :

Теперь для этого процесса можно делать прогнозы , используя обобщение метода авторегрессионного прогнозирования .

Интервалы прогнозов [ править ]

Интервалы прогнозов ( доверительные интервалы для прогнозов) для моделей ARIMA основаны на предположениях о том, что остатки некоррелированы и нормально распределены. Если какое-либо из этих предположений не выполняется, то интервалы прогноза могут быть неверными. По этой причине исследователи строят ACF и гистограмму остатков, чтобы проверить предположения перед созданием интервалов прогноза.

95% интервал прогноза:, где - дисперсия .

Для , для всех моделей ARIMA независимо от параметров и порядков.

Для ARIMA (0,0, q),

[ необходима цитата ]

Как правило, интервалы прогнозов по моделям ARIMA будут увеличиваться по мере увеличения горизонта прогноза.

Варианты и расширения [ править ]

Обычно используется ряд вариаций модели ARIMA. Если используются несколько временных рядов, их можно рассматривать как векторы, и модель VARIMA может быть подходящей. Иногда в модели подозревают сезонный эффект; в этом случае обычно считается лучше использовать модель SARIMA (сезонная ARIMA), чем увеличивать порядок частей модели AR или MA. [11] Если предполагается, что временной ряд демонстрирует долгосрочную зависимость , тогда параметру d может быть разрешено иметь нецелые значения в авторегрессионной модели дробно-интегрированного скользящего среднего , которая также называется дробной ARIMA (FARIMA или ARFIMA). ) модель.

Программные реализации [ править ]

Доступны различные пакеты, которые применяют такую ​​методологию, как оптимизация параметров Бокса – Дженкинса , чтобы найти правильные параметры для модели ARIMA.

  • EViews : имеет обширные возможности ARIMA и SARIMA.
  • Юлия : содержит реализацию ARIMA в пакете TimeModels [12]
  • Mathematica : включает функцию ARIMAProcess .
  • MATLAB : набор инструментов Econometrics Toolbox включает модели ARIMA и регрессию с ошибками ARIMA
  • NCSS : включает несколько процедур для ARIMAподгонки и прогнозирования. [13] [14] [15]
  • Python : пакет statsmodels включает модели для анализа временных рядов - одномерный анализ временных рядов: AR, ARIMA - векторные модели авторегрессии, VAR и структурный VAR - описательную статистику и модели процессов для анализа временных рядов.
  • R : стандартный пакет статистики R включает функцию arima , которая задокументирована в «Моделировании временных рядов ARIMA» . Помимо части, функция также включает сезонные факторы, член перехвата и экзогенные переменные ( xreg , называемые «внешними регрессорами»). Представление задач CRAN на временных рядах - это справочная информация со многими другими ссылками. Пакет «прогноз» в R может автоматически выбирать модель ARIMA для заданного временного ряда с помощью функции, а также может моделировать сезонные и несезонные модели ARIMA с помощью своей функции. [16]auto.arima()simulate.Arima()
  • Ruby : гем "statsample-timeseries" используется для анализа временных рядов, включая модели ARIMA и фильтрацию Калмана.
  • JavaScript : пакет "arima" включает модели для анализа и прогнозирования временных рядов (ARIMA, SARIMA, SARIMAX, AutoARIMA)
  • C : пакет ctsa включает ARIMA, SARIMA, SARIMAX, AutoARIMA и несколько методов анализа временных рядов.
  • БЕЗОПАСНЫЕ ИНСТРУМЕНТЫ : включает моделирование ARIMA и регрессию с ошибками ARIMA .
  • SAS : включает расширенную обработку ARIMA в свою систему эконометрического анализа и анализа временных рядов: SAS / ETS.
  • IBM SPSS : включает моделирование ARIMA в свои статистические пакеты Statistics и Modeler. Функция Expert Modeler по умолчанию оценивает диапазон настроек сезонной и несезонной авторегрессии ( p ), интегрированной ( d ) и скользящей средней ( q ), а также семь моделей экспоненциального сглаживания. Expert Modeler также может преобразовывать данные целевого временного ряда в их квадратный корень или натуральный логарифм. Пользователь также имеет возможность ограничить Экспертное моделирование моделями ARIMA или вручную ввести несезонный и сезонный ARIMA p , d и q.настройки без Expert Modeler. Автоматическое обнаружение выбросов доступно для семи типов выбросов, и обнаруженные выбросы будут включены в модель временных рядов, если эта функция выбрана.
  • SAP : пакет APO-FCS [17] в SAP ERP от SAP позволяет создавать и настраивать модели ARIMA с использованием методологии Бокса – Дженкинса.
  • SQL Server Analysis Services : от Microsoft включает ARIMA в качестве алгоритма интеллектуального анализа данных.
  • Stata включает моделирование ARIMA (с помощью команды arima) начиная со Stata 9.
  • StatSim : включает модели ARIMA в веб-приложение Forecast .
  • Teradata Vantage имеет функцию ARIMA как часть своего механизма машинного обучения.
  • TOL (Time Oriented Language) разработан для моделирования моделей ARIMA (включая варианты SARIMA, ARIMAX и DSARIMAX) [1] .
  • Scala : библиотека spark-timeseries содержит реализацию ARIMA для Scala, Java и Python. Реализация предназначена для работы на Apache Spark .
  • PostgreSQL / MadLib: Анализ временных рядов / ARIMA .
  • X-12-ARIMA : от Бюро переписи населения США

См. Также [ править ]

  • Автокорреляция
  • ARMA
  • Частичная автокорреляция
  • Конечный импульсный отклик
  • Бесконечный импульсный отклик

Ссылки [ править ]

  1. ^ Для получения дополнительной информации о стационарности и различиях см. Https://www.otexts.org/fpp/8/1
  2. ^ а б Гайндман, Роб Дж; Афанасопулос, Георгий. 8.9 Сезонные модели ARIMA . Прогнозирование: принципы и практика . oTexts . Дата обращения 19 мая 2015 .
  3. ^ Гамильтон, Джеймс (1994). Анализ временных рядов . Издательство Принстонского университета. ISBN 9780691042893.
  4. ^ a b Папулис, Афанасиос (2002). Вероятность, случайные величины и случайные процессы . Тата Макгроу-Хилл Образование.
  5. ^ a b Triacca, Умберто (19 февраля 2021 г.). "Теорема Вольда о разложении" (PDF) .
  6. ^ a b c Ван, Шисюн; Ли, Чуншоу; Лим, Эндрю (2019-12-18). «Почему ARIMA и SARIMA недостаточно». arXiv : 1904.07632 [ stat.AP ].
  7. ^ Коробка, Джордж EP (2015). Анализ временных рядов: прогнозирование и контроль . ВИЛИ. ISBN 978-1-118-67502-1.
  8. ^ «Обозначение для моделей ARIMA» . Система прогнозирования временных рядов . Институт САС . Дата обращения 19 мая 2015 .
  9. ^ a b «Введение в модели ARIMA» . people.duke.edu . Проверено 5 июня 2016 .
  10. ^ a b Государственный университет Миссури. «Спецификация модели, анализ временных рядов» (PDF) .
  11. ^ Свейн, S; и другие. (2018). «Разработка модели ARIMA для ежемесячного прогнозирования осадков в районе Хорда, Одиша, Индия». Последние результаты в области интеллектуальных вычислительных технологий . Последние открытия в интеллектуальной вычислительной технике (Достижения в области интеллектуальных систем и вычислительной технике . Прогресс в области интеллектуальных систем и вычислительная техника. 708 . Стр. 325-331). DOI : 10.1007 / 978-981-10-8636-6_34 . ISBN 978-981-10-8635-9.
  12. ^ TimeModels.jl www.github.com
  13. ^ ARIMA в NCSS ,
  14. ^ Автоматический ARMA в NCSS ,
  15. ^ Автокорреляции и частичные автокорреляции в NCSS
  16. ^ 8.7 Моделирование ARIMA в R | OTexts . www.otexts.org . Проверено 12 мая 2016 .
  17. ^ "Модель Box Jenkins" . SAP . Проверено 8 марта 2013 года .

Дальнейшее чтение [ править ]

  • Астериу, Димитрос; Холл, Стивен Г. (2011). «Модели ARIMA и методология Бокса – Дженкинса». Прикладная эконометрика (второе изд.). Пэлгрейв Макмиллан. С. 265–286. ISBN 978-0-230-27182-1.
  • Миллс, Теренс С. (1990). Методы временных рядов для экономистов . Издательство Кембриджского университета. ISBN 978-0-521-34339-8.
  • Персиваль, Дональд Б.; Уолден, Эндрю Т. (1993). Спектральный анализ для физических приложений . Издательство Кембриджского университета. ISBN 978-0-521-35532-2.

Внешние ссылки [ править ]

  • Бюро переписи населения США использует ARIMA для "сезонно скорректированных" данных (программы, документы и статьи здесь).
  • Конспект лекций по моделям ARIMA (Роберт Нау, Университет Дьюка)