Scientific journal
Fundamental research
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,674

MODIFICATION OF THE TREND – FACTOR MODEL FOR FORECASTING ON MULTIDIMENSIONAL TIME SERIES

Babeshko L.O. 1 Orlova I.V. 1
1 Financial University under the Government of the Russian Federation
The article deals with the problem of predicting an endogenous variable by multidimensional time series of exogenous variables. The construction of the model is hampered by the presence of multicollinearity of exogenous variables, if they have a time trend. In this case, the error variances of the regression coefficients become large and, accordingly, the estimates of the coefficients are inaccurate. At the same time, it is possible, by slightly changing the specification of the regression model, to obtain a classical linear regression model suitable for predicting an endogenous variable. The specification of the model in question contains a time-dependent component and deviations from the trend of exogenous variables. Deviations from the trend are free from high correlation caused by trends in the original variables, while the regression coefficients are equal to the regression coefficients for the original variables. The paper gives a quantitative estimate of the increase in forecast accuracy; it is shown that the error of the proposed trend-factor model is less than the errors of the trend model and the model for the initial time series. Building a model and estimating the forecast error for it is illustrated by the example of the dependence of the aggregate of the money supply on the gross national product and the interest rate on 6-month US government bonds. The standard error of the modified trend-factor model is less than the errors of the trend model and the regression model for the original time series. Thus, the modified trend-factor model turned out to be preferable to other models.
trend
multicollinearity
forecasting
time series
regression

В работе рассматривается задача прогнозирования эндогенной переменной по многомерным временным рядам экзогенных переменных. Построение регрессионной модели затрудняется наличием мультиколлинеарности экзогенных переменных, если у них есть временной тренд. В этом случае дисперсии коэффициентов регрессии становятся большими и, соответственно, оценки коэффициентов неточны. В настоящей работе предложена модификация трендово-факторной модели, описанной в [1], свободная от высокой коррелированности определяющих переменных xj(t) и в то же время позволяющая получить оценки коэффициентов регрессии по исходным переменным с меньшей дисперсией. Также дана количественная оценка повышения точности прогноза, показано, что ошибка модифицированной трендово-факторной модели меньше ошибок трендовой модели (модель 1) и регрессионной модели y(t) по исходным временным рядам xj(t) (модель 2).

Прогнозирование эндогенной переменной y(t) по значениям экзогенных переменных, представляющих собой временные ряды x1(t), x2(t),…xm(t), зачастую не может осуществляться с помощью классической линейной модели регрессии. Это связано с тем, что переменные xj(t) (j = 1,…,m) обычно имеют тренд fj(t), и, даже если xj(t) и xk(t) логически не связаны между собой, между ними возникает значительная корреляция (ложная корреляция), а большие значения коэффициента корреляции свидетельствуют о наличии мультиколлинеарности экзогенных переменных, что приводит к большим дисперсиям коэффициентов регрессии. В то же время можно, учтя причину ложной корреляции и несколько изменив спецификацию модели регрессии, получить модель линейной регрессии, пригодную для прогнозирования [2]. Уменьшения ошибки прогноза по сравнению с трендовой моделью или моделью регрессии y(t) по временным рядам xj(t) можно добиться, если рассматривать трендово-факторную регрессионную модель зависимости y(t) от t и отклонений определяющих переменных xj(t) от своих трендов. Оценка тренда в модифицированной таким образом трендово-факторной модели отличается от оценки тренда в трендовой модели, поскольку она строится не только с учётом зависимости y(t) от времени t, но и с учётом влияния на эндогенную переменную y(t) регрессоров xj(t).

Материалы и методы исследования

В настоящей работе были исследованы зависимости агрегата денежной массы Y (млрд долл.) от ВНП X1 (млрд долл.) и процентной ставки по 6-месячным государственным облигациям США X2 ( %) за 25 лет с помощью модифицированной трендово-факторной модели.

Результаты исследования и их обсуждение

1. Без ограничения общности, рассмотрим случай, когда тренды регрессоров xj(t) (j = 1,…,m) являются полиномами не выше второй степени. Значения j-й переменной в момент времени t имеют вид

bab01.wmf. (1)

При этом будем считать, что оценки коэффициентов ak,j получены с помощью метода наименьших квадратов (МНК) и, следовательно, bab02.wmf Спецификация классической линейной модели регрессии y(t) на xj(t) (j = 1,…,m) имеет вид

bab03.wmf, t = 1,2,…,n. (2)

Подставляя (1) в (2), получаем

bab04.wmf

bab05.wmf

bab06.wmf

где через γ0, γ1, γ2 обозначены суммарные коэффициенты при t0, t и t2, соответственно. В результате получили следующую специ- фикацию регрессионной модели:

bab07.wmf, (3)

где bab08.wmf – отклонения xj(t) от тренда bab09.wmf, (j = 1,…,m). Отметим, что если y(t) имеет линейный тренд, а хоть один из xj(t) имеет параболический тренд, то в модифицированной трендово-факторной модели (3) должен присутствовать член γ2t2. Заметим также, что коэффициенты регрессии βj в (3) те же самые, что и коэффициенты регрессии y(t) на xj(t) (j = 1,…,m) в (2).

Коэффициенты регрессии γl и βj будем оценивать с помощью МНК. Для прогнозирования y(t) по модели (3) надо иметь прогнозные значения uj(t). В практических исследованиях вектор прогнозных значений u(L), как правило, неизвестен, однако, так как среднее остатков uj(t) (t = 1,…,n) равно нулю при оценивании с помощью МНК, то логично положить прогнозные значения uj(L) равными нулю. Тогда прогнозирование будет осуществляться по формуле

bab10.wmf (4)

Параметры тренда в (4) отличаются от параметров, полученных по трендовой модели y(t), поскольку в (3) присутствуют ещё регрессоры uj(t). По этой же причине доверительные интервалы прогнозов по (4) будут меньше соответствующих интервалов при прогнозировании по трендовой модели, в которой учитывается только время t и не учитывается влияние других факторов. Ниже будет дана количественная оценка повышения точности прогноза.

2. Пусть U – матрица значений регрессоров модели (3), T – левая часть матрицы U, D – правая часть матрицы U,

bab11.wmf, bab12.wmf,

bab13.wmf, bab14.wmf.

Стандартная ошибка прогноза bab15.wmf при t = L равна [3]

bab16.wmf, (5)

где bab17.wmf – стандартная ошибка модели (3), знак Т означает транспонирование,

bab18.wmf, bab19.wmf.

Запишем U в виде блочной матрицы U = (T, D).

Тогда матрица bab20.wmf примет вид bab21.wmf.

Обратная матрица bab22.wmf равна [4] bab23.wmf, где

bab24.wmf,

bab25.wmf,

bab26.wmf,

bab27.wmf.

Обозначим: bab28.wmf; bab29.wmf; bab30.wmf bab31.wmf bab32.wmf

Тогда матрица bab33.wmf примет вид

bab34.wmf

Пусть bab35.wmf. Так как матрица bab36.wmf симметрична, то bab37.wmf. Тогда матрицу bab38.wmf можно записать в виде

bab39.wmf. (6)

В матрице D записаны uj(ti) – остатки регрессии исходных показателей xj(t) на t, t2. При этом в j-м столбце записаны остатки xj(t) (j = 1,…,m). Поскольку bab40.wmf, то в j-м столбце матрицы Βu,t записаны оценки коэффициентов регрессии uj(t) на t, t2, полученные с помощью метода наименьших квадратов.

Как отмечалось выше, естественно положить прогнозные значения uj(L) равными нулю. Подставляя bab41.wmf в (5), с учётом (6), получаем, что ошибка прогноза bab42.wmf равна

bab43.wmf. (7)

Если прогнозирование bab44.wmf осуществляется только по оценке тренда, без учёта uj(t), то, ошибку прогноза bab46.wmf, аналогично, получаем по формуле

bab47.wmf, (8)

где bab48.wmf – оценка стандартной ошибки трендовой модели.

Ниже будет показано, что матрица А близка к нулевой, и тогда формулы (7) и (8) отличаются только множителем bab49.wmf. Так как bab50.wmf, то ошибка прогноза (7) будет меньше ошибки прогноза (8). Прогнозный интервал будет меньше примерно настолько, во сколько раз bab51.wmf меньше bab52.wmf.

3. Согласно предположению, uj(t) не зависят от t, поэтому матрицы оценок коэффициентов регрессий t, t2 на uj(t), как и регрессий uj(t) на t, t2, близки к нулевой, bab53.wmf, bab54.wmf, и, следовательно, bab55.wmf. В результате получаем

bab56.wmf (9)

Подставляя (9) в (5) и учитывая, что bab57.wmf и bab58.wmf, получаем

bab59.wmf

bab60.wmf.

babehk1.wmf

Рис. 1. График динамики Y

babehk2.wmf

Рис. 2. График динамики X1

Возведя последнее равенство в квадрат, видим, что дисперсия прогноза распалась на два слагаемых, одно из которых не зависит от t, а другое – от uj(t).

bab61.wmf (10)

где bab62.wmf не зависит от остатков u(t), а bab63.wmf не зависит от t.

babehk3.wmf

Рис. 3. График динамики X2

4. Сравним оценки прогнозов, полученные по разным моделям, на примере исследования зависимости агрегата денежной массы Y (млрд долл.) от ВНП X1 (млрд долл.) и процентной ставки по 6-месячным государственным облигациям США X2 ( %) [5]. Вычисления выполнены в программе Gretl по 24 наблюдениям (n = 24, m = 2).

Как видно из рис. 1–3, y(t) и x1(t) имеют чётко выраженные параболические тренды с достаточно большим коэффициентом детерминации R2, x2(t) имеет тренд, близкий к линейному.

Построим модель 1 – трендовую модель зависимости y(t) только от t и t2:

bab64.wmf

Регрессоры t и t2 сильно коррелируют, коэффициент корреляции равен 0,97. Чтобы избавиться от возможных последствий мультиколлинеарности [6], заменим в моделях t на t-tср., где tср. - среднее арифметическое значений t. Параметр t2 заменится при этом на (t-tср.)2. Тогда коэффициент корреляции между новыми t и t2 станет равным нулю.

Оценка тренда имеет вид

bab66.wmf,

стандартная ошибка модели bab67.wmf равна 6,21; коэффициент детерминации R2 = 0,997; средняя относительная ошибка аппроксимации Еотн = 7,43; стандартная ошибка прогноза при прогнозировании на шаг вперёд равна bab68.wmf7,46.

Построим модель 2 регрессии y(t) на исходные экзогенные переменные x1(t) и x2(t):

bab69.wmf,

Оцененная модель имеет вид

bab70.wmf.

Как видно из табл. 1, все коэффициенты модели регрессии значимы на 5 % уровне.

Таблица 1

Доверительные интервалы коэффициентов модели 2

Переменная

Коэффициент

95 % доверительный интервал

const

89,78

(81,243, 98,312)

x1

0,136

(0,128, 0,144)

x2

–2,577

(–5,050, –0,104)

Коэффициент детерминации R2 равен 0,995; стандартная ошибка модели bab71.wmf равна 8,13, средняя относительная ошибка аппроксимации Еотн = 4,18, стандартная ошибка прогноза при прогнозировании на шаг вперёд равна bab72.wmf. Коэффициенты корреляции y(t) с x1(t) и x2(t) равны 0,997 и 0,856 соответственно; регрессоры мультиколлинеарны, поскольку коэффициент корреляции x1(t) с x2(t) равен 0,874. В то же время коэффициент регрессии при x2(t) отрицательный. Это следствие ложной корреляции.

Построим модель 3 регрессии y(t) на t, t2 и на u1(t), u2(t) (отклонения от тренда x1(t) и x2(t)) имеет вид

bab73.wmf

Оцененная модель имеет вид

bab74.wmf

В табл. 2 приведены доверительные интервалы коэффициентов модели 3, все коэффициенты модели значимы на 5 % уровне.

Таблица 2

Доверительные интервалы коэффициентов модели 3

Переменная

Коэффициент

95 % доверительный интервал

const

235,99

(232,496, 239,488)

t

15,495

(15,173, 15,818)

t2

0,704

(0,648, 0,759)

u1(t)

0,086

(0,0307, 0,141)

u2(t)

–2,331

(–4,428, –0,233)

Коэффициенты при t и t2 модели 3, естественно, близки к коэффициентам модели 1. Точные коэффициенты при u1(t) и u2(t) модели 3, как отмечалось, совпадают с коэффициентами при x1(t) и x2(t) в модели 2. Поэтому при больших n оценки коэффициентов должны быть близки. У нас n = 24 и оценки не очень близки, оценки коэффициентов модели 3 составляют 61 % и 90 % от оценок модели 2.

Таблица 3

Метод инфляционных факторов

 

VIFj

t

1,000

t2

1,155

u1(t)

1,877

u2(t)

2,032

В модели 3 коэффициент корреляции u1(t) и u2(t) равен 0,649 и, следовательно, мультиколлинеарность отсутствует, об этом же свидетельствуют результаты тестирования на мультиколлинеарность по методу инфляционных факторов [6] (табл. 3), все VIFj < 10.

Коэффициент детерминации R2 равен 0,998; стандартная ошибка модели bab75.wmf равна 5,23; средняя относительная ошибка аппроксимации Еотн = 7,01; ошибка прогноза при прогнозировании на шаг вперёд равна bab76.wmf.

Стандартная ошибка модели 3 оказалась в 1,2 раза меньше стандартной ошибки модели 1, bab77.wmf. Матрица A в (7), как и ожидалось, близка к нулевой,

bab78.wmf.

Полученные результаты моделирования по трем моделям приведены в табл. 4.

Таблица 4

Результаты моделирования

Модель

Cпецификация модели

R2

bab79.wmf

bab80.wmf

Еотн

1

bab81.wmf

0,997

6,21

7,46

7,43

2

bab82.wmf

0,995

8,13

10,21

4,18

3

bab83.wmf

0,998

5,23

6,37

7,01

Как видим, стандартная ошибка модели 3 меньше стандартных ошибок моделей 1 и 2 в 1,19 и в 1,55 раз, ошибки прогноза по моделям 1 и 2 больше ошибок прогноза по модели 3 в 1,17 и 1,6 раза соответственно. Модель 3 оказалась предпочтительней моделей 1 и 2.

Заключение

Модифицированная трендово-факторная модель позволяет в какой-то степени решить проблему мультиколлинеарности при моделировании многомерных временных рядов, и при этом стандартная ошибка модели заведомо меньше стандартных ошибок других моделей.