Scientific journal
Fundamental research
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,674

ECONOMETRIC MODELING OF DEMAND ON ELECTRICITY: VERIFICATION OF ADEQUACY

Babeshko L.O. 1
1 Financial University under the Government of the Russian Federation
This article focuses on the methodology for testing the adequacy of the Fisher-Kaysen model of electricity demand forecasting (F.M. Fisher, C. Kaysen) in Excel. The choice of the MS Excel spreadsheet processor is due to the fact that it is the most accessible tool for numerical processing of economic information and is especially effective at the stage of studying econometric methods. The implementation of matrix methods for constructing confidence intervals for testing the adequacy of the multiple linear regression model in Excel using the functions MMULT, MINVERSE, TRANSPOSE, takes most of the time allotted for studying the topic. The paper presents an example of the implementation of the Salkever method (Salkever), which allows to optimize the procedure for calculating standard prediction errors used to construct confidence intervals of the endogenous variable values over the forecast interval. Sulkever’s procedure is to add dummy variables to the specification of a multiple linear regression model. In the work, using the example of the model specification with a dummy variable, it is shown that the parameter estimates of dummy variables and their standard errors are prediction errors and standard errors of prediction, respectively. The Salkever method is easy to implement in Excel, for example using the LINEST function.
dummy variables
predictions
prediction errors
confidence intervals
standard errors of prediction
covariance matrix

Необходимым условием устойчивого развития государства является стабильность электроэнергетической сферы, составляющей основу функционирования экономики. Надёжное и доступное электроснабжение – неотъемлемая часть успешного конкурентного развития производства и качества жизни современного общества. Необходимость моделирования и прогнозирования спроса на электроэнергию состоит в значительных издержках, связанных с недостаточным или избыточным строительством электростанций. В условиях ужесточения экологических требований, решение о строительстве новых электростанций должно быть эмпирически обосновано [1].

Моделированию спроса на электроэнергию посвящено множество работ [2, 3]. Подробный обзор мировой эконометрической практики приведен в книге Э.Р. Берндта «Практика эконометрики: классика и современность». Автор обсуждает технику выбора инструментов эконометрических исследований на разнообразных классических и современных статистических данных. В частности, для моделирования спроса на электроэнергию приводятся данные временных рядов по США за 1951–1984 гг., заимствованные из работы Нельсона – Пека (Nelson, Peck) [4]. В книге предлагается приобрести навыки построения и исследования эконометрических моделей, опираясь на опыт авторов статьи.

Данная статья посвящена вопросам методики проверки адекватности модели прогнозирования спроса на электроэнергию Фишера – Кайсена (F.M. Fisher, C. Kaysen) в Excel. Выбор табличного процессора MS Excel обусловлен тем, что он является наиболее доступным средством для числовой обработки экономической информации и особенно эффективен на этапе изучения эконометрических методов [5].

Материалы и методы исследования

В качестве модели прогнозирования спроса на электроэнергию выбрана спецификация множественной линейной регрессии:

bab01.wmf, bab02.wmf (1)

с переменными:

bab03.wmf,

bab04.wmf,

bab05.wmf,

где KWH – общее количество электроэнергии, используемой всеми потребителями за год (в млн киловатт-часов); PELEC – средняя цена электроэнергии за 1 кВТ•час (в центах); GNP – валовой национальный продукт США (в млн долл.). Формирование переменных в форме процентных изменений позволяет решить проблему мультиколлинеарности. Уравнения наблюдений модели (1) в матричной форме:

bab06.wmf bab07.wmf

где Y – (n×1) – вектор-столбец значений эндогенной переменной, X – (n×k)-матрица регрессоров, ε – (n×1)-вектор-столбец возмущений, β – (k×1)-вектор-столбец параметров модели, σ2 – дисперсия возмущений, In – (n×n)-единичная матрица, n – объем выборки, k – число параметров модели. Модель оценивается методом наименьших квадратов (значок «Т» означает операцию транспонирования):

bab08.wmf (2)

– МНК-оценки параметров,

bab09.wmf (3)

– оценки (прогнозы) вектора значений эндогенной переменной.

Точное совпадение фактических данных и прогнозных значений – явление маловероятное. Оценки и прогнозы эндогенных переменных не совпадают с их истинными значениями в силу разных причин: ограниченность выборочных данных, ошибки спецификации (пропуск существенных регрессоров, неправильный выбор уравнения регрессии), ошибки измерений. Обозначим [6]: вектор остатков регрессии (отклонений на интервале оценивания, t ≤ n)

bab10.wmf

где bab11.wmf, bab12.wmf, bab13.wmfидемпотентная матрица, вектор ошибок прогнозов (отклонений на интервале прогнозирования, например, для t > n)

bab14.wmf

где

bab15.wmf, bab16.wmf,

p – период упреждения. Автоковариационная матрица вектора отклонений bab17.wmf для любого интервала:

bab18.wmf (4)

На интервале оценивания:

bab19.wmf (5)

поэтому автоковариационная матрица вектора остатков (4), с учетом (5), принимает вид:

bab20.wmf (6)

На интервале прогнозирования:

bab21.wmf (7)

в силу некоррелированности возмущений в различных наблюдениях, поэтому автоковариационная матрица вектора ошибок прогнозов, с учетом (4)–(7) равна

bab22.wmf (8)

где Xp – матрица регрессоров на интервале прогнозирования, Xn – матрица регрессоров на интервале оценивания. Несмещенная оценка дисперсии возмущений, вычисляемая через вектор остатков регрессионной модели

bab23.wmf, (9)

позволяет оценить автоковариационные матрицы всех случайных векторов.

Проверка адекватности модели по выборочным данным базируется на построении интервальных оценок. Для построения интервальной оценки эндогенной переменной на интервале прогнозирования, применяется процедура трансформации дроби Стьюдента

bab24.wmf

в интервальную оценку

bab25.wmf, (10)

где bab26.wαmf – прогноз значения эндогенной переменной для момента t = p > n, tα – квантиль уровня значимости α, Yp – истинное значение эндогенной переменной на момент t = p, sp – стандартная ошибка прогноза, bab27.wmf – оценка дисперсии ошибки прогноза – диагональный элемент оценки матрицы (8) (bab28.wmf – диагональный элемент матрицы):

bab29.wmf (11)

Алгоритм проверки адекватности модели состоит из следующих шагов [7]:

1) результаты наблюдений разделяют на две части: обучающую (90–95 % наблюдений) и контролирующую выборки (оставшиеся наблюдения);

2) по обучающей выборке выполняется оценка параметров модели (по формуле (2));

3) по оцененной модели строится прогноз значений эндогенной переменной из контролирующей выборки и доверительные интервалы для их истинных значений (формулы: (3), (9), (11), (10));

4) выполняется проверка: если значения эндогенной переменной из контролирующей выборки накрываются доверительными интервалами – модель признается адекватной, в противном случае подлежит доработке.

Результаты исследования и их обсуждение

Для оценки модели использованы ежегодные данные временных рядов по данным США за 1951–1984 гг. В качестве обучающей выборки в работе [4] предлагается использовать наблюдения с 1951 по 1973 г. (n = 22), контролирующей – с 1974 г. по 1984 г. (p = 11).

Результаты оценивания модели по обучающей выборке в Excel при помощи функции ЛИНЕЙН приведены в табл. 1.

Таблица 1

Результат функции ЛИНЕЙН

0,45043

–0,41043

0,049294

0,216209

0,162311

0,008312

0,473976

0,020244

#Н/Д

8,560016

19

#Н/Д

0,007016

0,007786

#Н/Д

bab30.wmf,

s = 0,02, R2 = 0,474, F = 8,560. (12)

Прогноз эндогенной переменной по значениям регрессоров из контролирующей выборки по формуле (12) приведен в табл. 2.

Таблица 2

Точечный прогноз эндогенной переменной

Год

Вектор значений эндогенной переменной Y

Матрица регрессоров Xp

Прогноз эндогенной переменной bab31.wmf

1974

–0,004

1

0,155

–0,006

–0,017

1975

0,024

1

0,071

–0,012

0,015

1976

0,060

1

0,004

0,053

0,071

1977

0,049

1

0,046

0,054

0,055

1978

0,035

1

0,004

0,049

0,070

1979

0,026

1

–0,004

0,028

0,064

1980

0,011

1

0,083

–0,004

0,014

1981

0,025

1

0,051

0,019

0,037

1982

–0,029

1

0,059

–0,015

0,018

1983

0,030

1

–0,014

0,036

0,071

1984

0,058

1

0,000

0,066

0,079

Для построения доверительных интервалов значений эндогенной переменной, необходимо вычислить стандартные ошибки прогнозов по формуле (11). Для вычисления Np в Excel используются функции ТРАНСП, МУМНОЖ и МОБР категорий «Ссылки и массивы» и «Математические» соответственно. В табл. 3 представлены значения диагональных элементов проекционной матрицы Np, значения стандартных ошибок прогнозов, левая и правая границы доверительных интервалов и истинные значения эндогенной переменной.

Таблица 3

Интервальные оценки эндогенной переменной

Год

Np

sp

Y-

Y+

Yp

1974

1,816579

0,033974

–0,08828

0,053936

–0,00409

1975

0,591807

0,025541

–0,03884

0,068078

0,023847

1976

0,162967

0,021831

0,025557

0,116943

0,060068

1977

0,481826

0,024643

0,002932

0,106088

0,048969

1978

0,14264

0,021639

0,02443

0,115013

0,035079

1979

0,067088

0,020912

0,0198

0,107338

0,026013

1980

0,678001

0,026223

–0,04112

0,068647

0,011211

1981

0,361146

0,023618

–0,01261

0,086253

0,024827

1982

0,507091

0,024852

–0,03383

0,070201

–0,02866

1983

0,053016

0,020773

0,027746

0,114705

0,030455

1984

0,237543

0,02252

0,031869

0,126139

0,057546

Как следует из табл. 3, значения эндогенных переменных из контролирующей выборки накрываются доверительными интервалами для всех рассматриваемых наблюдений. Это подтверждает адекватность модели Фишера – Кайсена спроса на электроэнергию.

Реализация матричного алгоритма в Excel затратна по времени. Поэтому для вычисления стандартных ошибок прогнозов на практических занятиях рекомендуется использовать легко реализуемый метод Салкевера (Salkever) [8, 9].

В методе Салкевера, для оценки стандартной ошибки прогноза на момент t = n + 1, в матрицу регрессоров добавляется строка значений регрессоров Xt и столбец фиктивных переменных

bab32.wmf, (13)

в вектор-столбец значений эндогенной переменной добавляется значение Yn+1. По сформированным таким способом данным, при помощи функции ЛИНЕЙН, оценивается модель, проверяемая на адекватность. Если исходная спецификация включает свободный член, то он учитывается параметром КОНС = 1. Стандартный протокол функции ЛИНЕЙН включает ошибку прогноза на момент t = n + 1 – оценка параметра при фиктивной переменной (13) и стандартную ошибку прогноза – стандартная ошибка параметра при фиктивной переменной. Справедливость этого утверждения можно показать на модели с фиктивной переменной [10]:

bab33.wmf bab34.wmf (14)

Упорядочим наблюдения таким образом, что, dt = 0 при t = 1,...,n, dt = 1, при, bab35.wmf. Обозначим

bab36.wmf bab37.wmf

В соответствии с (2)

bab38.wmf

где

bab39.wmf

Таким образом, оценка свободного члена модели (14) равна

bab40.wmf, (15)

оценка параметра при фиктивной переменной:

bab41.wmf (16)

Автоковариационная матрица оценок параметров:

bab42.wmf

С учетом структуры вектора Y в методе Салкевера, для периода упреждения p = 1:

bab43.wmf

где bab44.wmf – прогноз значения эндогенной переменной модели;

bab45.wmf

– значение эндогенной переменной на интервале прогнозирования. Таким образом, оценка параметра (16) при фиктивной переменной равна ошибке прогноза эндогенной переменной:

bab46.wmf, (17)

и, следовательно, дисперсия оценки параметра при фиктивной переменной равна дисперсии ошибки прогноза (с учетом некоррелированности ошибок):

bab47.wmf

bab48.wmf (18)

В соответствии с (11), дисперсия ошибки прогноза вычисляется по формуле

bab50.wmf (19)

где bab51.wmf, bab52.wmf. С учетом значения p = 1, формула (18) дисперсии оценки параметра при фиктивной переменной для модели (14) принимает вид (19) и совпадает с дисперсией ошибки прогноза. Этот же результат подтверждается эмпирической проверкой. Сформируем вспомогательную матрицу регрессоров с блочной структурой [11]:

bab53.wmf

где Xn – (n×k)-матрица значений регрессоров из обучающей выборки (n = 22), Xp – (p×k)-матрица значений регрессоров из контролирующей выборки (p = 3), 0 – (n×p) – нулевая матрица, I – (p×p)-единичная матрица. В табл. 4 приведены элементы вспомогательной матрицы X* для контролирующей выборки, включающей три наблюдения.

Таблица 4

Вспомогательная матрица регрессоров

t

Xt1

Xt2

Xt3

dt1

dt2

dt3

1

0,0758

–0,0097

0,0363

0

0

0

2

0,1065

–0,0262

0,0372

0

0

0

3

0,0683

–0,0134

–0,0121

0

0

0

4

0,1589

–0,0770

0,0650

0

0

0

5

0,0940

–0,0523

0,0212

0

0

0

6

0,0535

–0,0154

0,0180

0

0

0

7

0,0206

0,0078

–0,0043

0

0

0

8

0,0956

–0,0354

0,0582

0

0

0

9

0,0629

0,0583

0,0212

0

0

0

10

0,0482

–0,0076

0,0260

0

0

0

11

0,0733

–0,0309

0,0562

0

0

0

12

0,0683

–0,0319

0,0394

0

0

0

13

0,0729

–0,0371

0,0514

0

0

0

14

0,0627

–0,0385

0,0586

0

0

0

15

0,0815

–0,0584

0,0580

0

0

0

16

0,0600

–0,0329

0,0267

0

0

0

17

0,0904

–0,0591

0,0451

0

0

0

18

0,0883

–0,0468

0,0275

0

0

0

19

0,0577

–0,0270

–0,0018

0

0

0

20

0,0545

0,0054

0,0333

0

0

0

21

0,0816

0,0108

0,0550

0

0

0

22

0,0713

–0,0054

0,0561

0

0

0

23

–0,0041

0,1549

–0,0064

1

0

0

24

0,0238

0,0715

–0,0119

0

1

0

 

25

0,0601

0,0043

0,0527

0

0

1

 

В табл. 5 приводится протокол оценки модели спроса на электроэнергию (1) при помощи функции ЛИНЕЙН методом Салкевера.

Таблица 5

Вспомогательная матрица регрессоров

–0,01118

0,009226

0,013084

0,45043

–0,41043

0,049294

0,021831

0,025541

0,033974

0,216209

0,162311

0,008312

0,66172

0,020244

#Н/Д

#Н/Д

#Н/Д

#Н/Д

7,433304

19

#Н/Д

#Н/Д

#Н/Д

#Н/Д

0,015231

0,007786

#Н/Д

#Н/Д

#Н/Д

#Н/Д

Заключение

Сравнение результатов оценивания с табл. 1 и 3 (третий столбец) показывает, что оценки параметров и их стандартные ошибки при регрессорах [ ]diag исходной модели и вспомогательной модели Салкевера совпадают. Стандартные ошибки оценок параметров при фиктивных переменных (отмеченные жирным шрифтом в табл. 5) равны стандартным ошибкам прогнозов, приведенных в табл. 3, используемым для построения интервальных оценок в алгоритме проверки адекватности, но их вычисление намного эффективнее матричного метода при реализации в Excel.