Scientific journal
Fundamental research
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,674

APPLICATIONS OF AUTOREGRESSIVE AND INTEGRATED MOVING AVERAGE (ARIMA) MODEL IN ECONOMIC PROCESSES

Polovnikov D.S. 1 Kolpakov I.Yu. 1, 2
1 Perm National Research Polytechnic University
2 Perm State National Research University
The study of economic processes involves the creation and analysis of models of dynamic systems for which the methods used in stationary econometric models are ineffective. In the framework of the theory of Box and Jenkins, models of the analysis of time series that satisfy the stationarity conditions were proposed. For such series with a time shift, their probability density function, expectation, and variance do not change. It was also shown that the current value of the series can be represented by a linear combination of its past disturbances. To describe stochastic stationary processes, a general linear model is used, special cases with a finite number of parameters of which are moving average and autoregressive models that are more applicable in practice. A further generalization of models for time series that describe real processes and are not stationary — autoregressive and integrated moving average models — have a wide field of application. Due to the complexity of the algorithm and the need to process a large amount of statistical data, the model is implemented in mathematical and statistical software packages. The article presents the implementation of the ARIMA model in Statistica program and its application in forecasting the average salary of citizens of the Russian Federation.
time series
stationarity
autoregressive model
moving average model
ARIMA
forecasting

В стационарных эконометрических моделях значение результирующей переменной зависит от одновременных значений ее факторных признаков, то есть от текущего состояния экономической системы. В динамических системах значения переменной зависят от ее значений в предыдущие моменты времени, то есть ее значений со сдвигом по времени на один шаг назад. Это означает, что поведение системы зависит не только от ее текущего состояния, но и от траектории изменения системы. Эконометрическая модель такого типа представляет собой не функцию объясняющих переменных, а функционал от траектории экономических переменных.

Начало использования динамических эконометрических моделей можно отнести к диссертации Луи Башелье 1900 г., в которой была описана динамика поведения французских государственных облигаций, схожая с броуновским движением.

В 1987 г. Нельсон и Плоссер показали, что коэффициенты регрессии почти всех исторических макроэкономических рядов США являются статистически значимыми, то есть стандартные тесты регрессионного анализа не диагностируют нарушений предпосылок классической модели, но при этом никакой зависимости между экономическими показателями нет. Эти факты заставили пересмотреть все до тех пор полученные эконометрические результаты в области анализа экономических моделей [1; 2].

Целью работы является исследование статистических данных по средней заработной плате на территории Российской Федерации – изучаемый временной ряд не является стационарным. На данном примере покажем необходимые преобразования для использования модели АРПСС и ее применимость для прогнозирования будущих значений рядов.

Материалы и методы исследования

Для описания стационарных случайных процессов используется общая линейная модель, имеющая скорее теоретическое значение, так как ее трудно обрабатывать. На практике применяют частные модели, описываемые небольшим числом параметров.

В 1938 г. Вольд доказал, что стационарный случайный процесс может быть представлен в виде линейной комбинации прошлых возмущений, или белого шума с нулевым математическим ожиданием:

Pol01.wmf (1)

В операторной форме для обратимого процесса (1) имеем:

Pol02.wmf (2)

Из (2) следует, что для обратимой общей линейной модели текущее значение процесса является линейной комбинацией всех его прошлых значений и случайного возмущения, не коррелирующего с этими значениями, т.е. можно построить прогнозное значение Pol03.wmf по его прошлым значениям [3].

Случайный процесс называется процессом скользящего среднего (moving average) порядка q, сокращенно MA(q), если в его разложении Вольда присутствует q слагаемых. Пусть Pol04.wmf при k > q, тогда разложение (1) примет вид:

Pol05.wmf

Если известны все значения Pol06.wmf то прогнозное значение Pol07.wmf с учетом равенств Pol08.wmf при j > q примет вид:

Pol09.wmf

Таким образом, в модели скользящего среднего порядка q можно построить прогноз максимум на q шагов вперед: при этом среднеквадратическая ошибка Pol10.wmf равна Pol11.wmf

Другой класс моделей с конечным числом параметров можно получить в предположении, что обращенная форма общей линейной модели (1) содержит лишь конечное число членов. Пусть Фk = 0 при k > p, тогда (1) можно записать в следующем виде:

Pol12.wmf (3)

Конечное число членов в разложении (3) определяется порядком p модели авторегрессии, или AR(p).

За счет подбора порядков p и q в описанных моделях можно удовлетворительно описывать многие реальные процессы. На практике для получения большей гибкости в подгонке модели к исследуемым рядам бывает целесообразно объединить авторегрессию и скользящее среднее таким образом, чтобы построить наиболее простую модель, дающую хорошую аппроксимацию при малом количестве параметров. Такая модель носит название ARMA (p, q) и описывается уравнением:

Pol13.wmf (4)

Пусть требуется построить прогноз Pol14.wmf, k ≤ q по имеющимся наблюдениям Pol15.wmf. Тогда по (4)

Pol16.wmf

Далее рассмотрим модель

Pol17.wmf (5)

где φ(B) – нестационарный оператор авторегрессии порядка p + d, такой, что d корней уравнения φ(B) = 0 равны единице, а остальные p корней лежат вне единичного круга; θ(B) – оператор скользящего среднего. Тогда (5) можно записать в следующем виде:

Pol18.wmf (6)

где Ф(B) – стационарный оператор авторегрессии порядка p. Если ввести разностный оператор Pol19.wmf то φ(B) запишется как Pol20.wmf и (6) можно записать в виде

Pol21.wmf (7)

где Pol22.wmf и, следовательно, (7) уже является стационарным обратимым процессом ARMA(p,q). Если ввести обратный к ∇ оператор Pol23.wmf, называемый оператором суммирования, то из (10) следует, что

PoloVil101.wmf

Таким образом, процесс {Xt} можно получить d-кратным интегрированием стационарного процесса (7), т.е. процесс {Xt} получается из белого шума εt с помощью трех операций фильтрации: скользящего среднего θ(B), стационарной авторегрессии Ф–1(B) и суммирования Sd [3].

Для прогнозирования временных рядов с помощью моделей авторегрессии и проинтегрированного скользящего среднего воспользуемся прикладным программным пакетом Statistica 12. Для работы потребуется модуль Times Series/Forecasting, раздел ARIMA & autocorrelation functions [4].

Рассмотрим данные о среднемесячной заработной плате по РФ за период 2013–2019 гг. [5] Для анализа используем данные за 2013–2018 гг. (табл. 1), чтобы сравнить прогноз с фактическими данными за 2019 год для корректировки значений.

Таблица 1

Средние месячные заработные платы по РФ в 2013–2019 гг.

Месяц

Год

01

02

03

04

05

06

07

08

09

10

11

12

2013

26840

26620

28693

30026

29723

30986

30229

29226

29346

30069

30290

39648

2014

29535

29255

31486

32947

32272

33726

32515

30763

31929

32439

32546

42136

2015

30929

31325

32642

34377

34380

35395

33901

32176

32911

33357

33347

43408

2016

32660

33873

35501

36497

37270

38447

35888

35405

35843

35749

36195

47554

2017

34422

35497

37899

39225

39679

41454

38073

37099

38047

38333

38848

51197

2018

39017

40443

42364

43381

44076

45848

42413

41364

41774

42332

42595

55569

2019

42263

43062

46324

48030

47926

49348

46509

44961

45541

46549

46285

62239

 

polovnik1.wmf

Рис. 1. Функция автокорреляции остатков

polovnik2.wmf

Рис. 2. Функция автокорреляции остатков

Формально мы можем прогнозировать только стационарные ряды. Для того чтобы работать с представленным выше рядом, необходимо провести преобразования, суть которых заключается в том, чтобы избавиться от коррелированности остатков (стандартных ошибок). Для исходного ряда функция автокорреляции выглядит следующим образом (рис. 1).

Отметим, что остатки коррелированы, и необходимо применить разностный оператор. Кроме того, сильно коррелированы остатки с лагом 12, поэтому в модели нужно использовать сезонную компоненту с данным лагом.

Преобразуем исходный ряд: прологарифмируем и применим разностный оператор второго порядка с лагами 1 и 12. Для нового ряда функция автокорреляции примет вид (рис. 2).

Количество статистически значимых коэффициентов определяет порядок модели ARMA(p, q). Можно отметить, что по функции убывания коэффициентов автокорреляции со временем (лагом) можно судить о том, какие знаки будут принимать коэффициенты модели [6].

С учетом автокорреляции остатков для анализа ряда необходимо применять авторегрессию 2-го порядка с сезонными компонентами Ps = 1, Qs = 1. Результат выполнения алгоритма и оценки параметров представлен ниже (рис. 3).

Программный пакет Statistica автоматически проверяет статистические гипотезы для коэффициентов, поэтому выделенные красным цветом коэффициенты модели являются статистически значимыми (при α = 0,05). В пакете есть возможность построить прогноз на N шагов вперед с доверительным интервалом, а также визуализировать данные (рис. 4).

Табличные значения прогноза и фактические показатели (табл. 2).

Таблица 2

Прогноз модели и фактические данные

CaseNo.

Forecasts; Model:(2,1,0)(1,0,1) Seasonal lag: 12

Start of origin: 1 End of origin: 72

Forecast

Lower

Upper

2019

73

42008,3

40583,1

43483,5

42263,2

74

43406,0

41665,3

45219,4

43062,4

75

45623,8

43686,0

47647,5

46324,2

76

46930,3

44710,1

49260,8

48029,8

77

47599,2

45138,9

50193,7

47926,2

78

49481,7

46767,8

52353,1

49347,9

79

45868,4

43203,8

48697,4

46509,4

80

44719,5

41977,2

47640,9

44961,3

81

45371,1

42457,1

48485,1

45540,9

82

45843,7

42772,6

49135,3

46549

83

46219,3

42998,7

49681,2

46284,5

84

60320,8

55962,9

65018,1

62239,2

 

polovnik3.tif

Рис. 3. Оценка модели ARMA(2,0)

polovnik4.wmf

Рис. 4. График прогнозных значений ряда на 12 шагов вперед

Модель ARIMA позволяет строить точечный прогноз для будущих значений временного ряда. В силу того что исследуемый процесс является стохастическим, прогнозное значение также является случайной величиной. Для непрерывных случайных величин необходимо строить интервал, размер которого определяется вероятностью попадания в него реализации случайной величины. С помощью программного пакета Statistica строим доверительный интервал при заданном уровне значимости.

Далее используем данные 2019 г., чтобы сделать модель более точной, и построим прогноз на первое полугодие 2020 г. Сохраним те же настройки модели ARIMA. Полученный результат представлен в табл. 3.

Таблица 3

Прогноз модели на первое полугодие 2020 г.

CaseNo.

Forecasts; Model:(2,1,1)(1,0,1) Seasonal lag: 12

Start of origin: 1 End of origin: 83

Forecast

Lower (0,9)

Upper (0,9)

85 (01.2020)

46089.88

44384.74

47860.54

86 (02.2020)

47035.64

45181.37

48966.01

87 (03.2020)

50137.72

47861.43

52522.27

88 (04.2020)

51882.66

49325.57

54572.31

89 (05.2020)

52058.62

49337.83

54929.44

90 (06.2020)

53827.39

50816.59

57016.57

 

Результаты исследования и их обсуждение

По имеющимся данным за 2019 г. можно сравнить прогноз ARIMA и фактические значения. Как видно из рис. 1 и табл. 2, модель достаточно точно описывает исследуемый нестационарный процесс, отражая тенденцию ряда и циклические колебания (периоды меньших и больших выплат заработной платы, объясняемые летними сезонами отпусков и декабрьскими премиями). Все фактические значения находятся в пределах построенного доверительного интервала.

Полученные результаты и оценки параметров модели, прошедшие проверку на статистическую значимость, позволяют считать модель адекватной и использовать для прогнозирования исследуемого процесса – изменения среднемесячных заработных плат резидентов РФ. Прогнозные значения на первое полугодие 2020 г. приведены в табл. 3.

Дополнительно можно подбирать разные наборы параметров модели ARIMA, дающие сходные удовлетворительные аппроксимации исследуемого процесса, и использовать усредненный прогноз [7]. При этом не всегда удается найти параметры модели, при которых оценки коэффициентов были бы статистически значимыми. В частных случаях построенная модель может не иметь статистически значимых оценок, но давать адекватный прогноз на прошедшие периоды, что, однако, не позволяет считать модель надежной и использовать для прогнозирования будущих периодов.

Также существуют обобщения и их модификации и аналоги модели ARIMA(p, d, q): ARFIMA(p, d, q), ARFIMA-GARCH(p, d, q) – учитывающие фрактальную размерность исследуемого ряда. Каждый из них имеет свою специфику применения и преимущества [8].

Заключение

При исследовании процессов, описываемых временным рядом, имеющим скрытые закономерности, определяющие изменения числовых показателей процесса, необходимо учитывать их фрактальные свойства. В частных случаях для анализа применяется модель Бокса-Дженкинса, направленная на исследование нестационарных временных рядов. При преобразованиях временного ряда и подборе параметров модели можно получить удовлетворительный прогноз для изучаемого процесса на k шагов с некоторым доверительным интервалом.

Использование модели авторегрессии – проинтегрированного скользящего среднего особенно полезно при исследовании экономических процессов, которые имеют определенную тенденцию и цикличность, поскольку построение точного прогноза будущих экономических показателей необходимо при выборе экономической стратегии государства, предприятия, составления планов производства, хеджирования рисков и управления экономической активностью компаний.