Scientific journal
Fundamental research
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,674

MODELING OF GROSS REGIONAL PRODUCT IRKUTSK REGION ON THE BASIS OF METHODS OF MULTIPLE ESTIMATION OF REGRESSION PARAMETERS

Baenkhaeva A.V. 1 Bazilevskiy M.P. 2 Noskov S.I. 2
1 Baikal State University
2 Irkutsk State University of Railway Transport
The article discusses the technique of two-criterion’s estimation of parameters of linear regression. To do this, it is necessary to minimize the vector-function of loss, in which the first partial criterion corresponds to the method of least module, and the second to anti-robust estimation. The result of estimation is the set of Pareto, which is an association of polyhedron edges of the image in criterion space. We present some techniques to facilitate work with a set of estimates, including the point-characterization, based on the program of the lack of domination. Our procedure is applied to solve the problem of forecasting the volume of the gross regional product of the Irkutsk region. We thus obtained multiple estimates of regression model, which is linear by the parameters and nonlinear by the variables and explanatory factors are the amount of electric power consumption, the number of unemployed, the scale of housing construction, the retail trade turnover.
linear regression model
multicriterion optimization
set of Pareto
the gross regional product
linear programming
least absolute deviations
1. Bazilevskij M.P., Noskov S.I. Tehnologija organizacii konkursa regressionnyh modelej. Informacionnye tehnologii i problemy matematicheskogo modelirovanija slozhnyh system, Irkutsk, 2009, no. 7, pp. 77–84.
2. Demidenko E.Z. Linejnaja i nelinejnaja regressii. M.: Finansy i statistika, 1981, 302 p.
3. Drejper N., Smit G. Prikladnoj regressionnyj analiz. M.: Finansy i statistika, 1981, t.1, 366 p., t. 2, 351 p.
4. Noskov S.I. L–mnozhestvo v mnogokriterialnoj zadache ocenivanija parametrov regressionnyh uravnenij. Informacionnye tehnologii i problemy matematicheskogo modelirovanija slozhnyh system, Irkutsk, 2004, no. 1, pp. 64–71.
5. Noskov S.I. Tehnologija modelirovanija obektov s nestabilnym funkcionirovaniem i neopredelennostju v dannyh, Irkutsk: Oblinforpechat, 1996, 320 p.
6. Noskov S.I. Tochechnaja harakterizacija mnozhestva Pareto v linejnoj mnogokriterialnoj zadache. Sovremennye tehnologii. Sistemnyj analiz. Modelirovanie, Irkutsk, 2008, no. 17, pp. 99–102.
7. Noskov S.I., Bazilevskij M.P. Programmnyj kompleks avtomatizacii processa postroenija regressionnyh modelej. Mezhdunarodnyj zhurnal prikladnyh i fundamentalnyh issledovanij, Moskva, 2010, no. 1, pp. 93–94.
8. Seber Dzh. Linejnyj regressionnyj analiz, M.: Mir, 1980, 456 p.
9. Yu L., Zeleny M. The set of all nondoinated solutions in linear cases and multicriteria simplex method. J. of Math. Anal. and Applic., 1975, no. 2, pp. 430–468.

Вопросам оценивания неизвестных параметров регрессионных уравнений посвящена весьма обширная литература [2, 3, 8]. В настоящей статье рассматривается проблема двухкритериального оценивания параметров линейного уравнения регрессии. Стоит отметить, что данная работа методически основана на материале монографии [5].

Главной целью статьи является применение разработанной методики множественного оценивания параметров для решения актуальной задачи моделирования валового регионального продукта Иркутской области.

Краткое описание методики множественного оценивания параметров

Рассмотрим линейное регрессионное уравнение

Baenkhaeva01.wmf Baenkhaeva02.wmf (*)

где y – эндогенная (объясняемая, зависимая, выходная), а xi – i-ая экзогенная (объясняющая, независимая, входная) переменные; αi – i-й подлежащий оцениванию параметр; ε – ошибки аппроксимации; k – номер наблюдения; n – число наблюдений (длина выборки).

Широкий класс методов оценивания параметров уравнения (*) связан с поиском так называемых Lν-оценок [2] посредством минимизации функций потерь вида

Baenkhaeva03.wmf

Каждая из этих оценок характеризуется реакцией на так называемые выбросы, то есть наблюдения, не согласующиеся со всей выборкой в целом. При этом чем больше значение ν, тем сильнее Lν - оценка реагирует на выбросы. В регрессионном анализе методы оценивания, слабо реагирующие на выбросы или вообще их игнорирующие, называют робастными.

Методом оценивания параметров уравнения (*), соответствующим ν = 2, является всем хорошо известный и наиболее популярный в регрессионном анализе метод наименьших квадратов (МНК). При ν = 1 это метод наименьших модулей (МНМ), соответствующий городскому расстоянию, а при ν → ∞ – метод антиробастного оценивания (МАО), соответствующий расстоянию Чебышева. В упомянутых выше источниках описаны способы расчета вектора параметров α в соответствии с каждым из трех методов. Использование МНК приводит к аналитическому выражению α = (XTX)–1 XTy, а для отыскания вектора α по МНМ и МАО можно использовать аппарат линейного программирования (ЛП). При этом МНМ- и МАО-оценки являются своего рода антиподами: первая вообще игнорирует выбросы, вторая к ним тяготеет.

Это обстоятельство наталкивает на мысль оценивания параметров уравнения (*) одновременно по двум критериям – J1(α) и J(α), то есть по векторному критерию J(α) = (J1(α), J(α)). Это позволило бы максимально увеличить информативность процедуры оценивания, извлечь из выборки всю заключающуюся в ней информацию при построении уравнения (*).

Задача минимизации векторного критерия J(α) относится к классу задач многомерного линейного программирования (МЛП). Под решением такой многокритериальной задачи обычно понимают множество Парето P, которое характеризуется тем, что ни одно паретовское решение не может быть улучшено по какому-либо одному критерию без ухудшения значения другого.

Таким образом, решением задачи оценивания параметров регрессии (*) по двум критериям J1(α) и J(α) одновременно будет множество оценок. Назовем его L-множеством по аналогии с Lν-оценками [4]. Существует фундаментальная работа американских математиков P.L. Yu и M. Zeleny [9], где изложен так называемый многокритериальный симплекс-метод решения задач МЛП.

Обозначим через P* множество паретовских вершин, через J(P) – образ множества P в критериальном пространстве. В [9] описаны также два способа формирования множества P*. Первый из них имеет итерационный конструктивный характер. Второй же предполагает применение приема последовательного свертывания критериев. Рассмотрим его более подробно.

Сформируем линейную свертку критериев J1 и J:

Baenkhaeva04.wmf γ ∈ (0, 1).

Построим на интервале (0, 1) равномерную ε-сеть:

0 < γ1 < γ2 <...< γl < 1.

Для каждого узла γi, Baenkhaeva05.wmf решим обычную, со скалярной целевой функцией, задачу ЛП:

Baenkhaeva06.wmf

В [9] доказано, что ее решением является паретовская вершина. При достаточно мелкой сети, таким образом, формируется все множество P*.

Безусловно, с такой формой задания модели, в которой параметры определены неявным образом, работать трудно. Поэтому представляется целесообразным иметь какие-то конструктивные приемы, облегчающие эту работу. Рассмотрим некоторые из них.

1. В работе [6] описан способ точечной характеризации множества Парето, позволяющий оперировать не со всем множеством, а с неким его «полномочным представителем», который в какой-то степени отражает в себе свойства всего множества. Таким представителем может быть, например, центр тяжести J0 множества J(P), характеризующий его конфигурацию. Он рассматривается как выпуклая комбинация паретовских вершин многогранника J(P) с равными коэффициентами:

Baenkhaeva07.wmf

Очевидно, что J0 не будет являться паретовской точкой многогранника J(P). Для определения точки J*, максимально улучшающей J0 по обоим критериям одновременно, необходимо воспользоваться программой отсутствия мажорирования [5].

Решение этой задачи и будет являться искомой точечной характеризацией множества P. Оно может также трактоваться как компромиссное решение задачи оценивания параметров уравнения (*).

2. Рассмотрим способ повышения «осязаемости» в восприятии множества P. Это может быть сделано, в частности, посредством построения множества A

Baenkhaeva08.wmf

которому гарантированно будут принадлежать вектора α = (α1, ..., αm)T.

A представляет собой параллелепипед в m-мерном пространстве, в который вписана проекция Baenkhaeva09.wmf множества P на Rm.

Легко видеть, что справедливы равенства

Baenkhaeva10.wmf Baenkhaeva11.wmf

Здесь Baenkhaeva12.wmf Baenkhaeva13.wmf и Baenkhaeva14.wmf Baenkhaeva15.wmf – соответственно минимально и максимально возможные значения положительных и отрицательных частей компонент вектора оцениваемых параметров.

Для построения множества A необходимо для каждого параметра αi решить 2(g – 1) следующих задач ЛП:

Baenkhaeva16.wmf Baenkhaeva17.wmf

Baenkhaeva18.wmf Baenkhaeva19.wmf

Тогда Baenkhaeva20.wmf и Baenkhaeva21.wmf отыщутся по формулам

Baenkhaeva22.wmf Baenkhaeva23.wmf

Имея множество A, легко формировать вектора Baenkhaeva24.wmf для регрессии (*). Но, как правило, A содержит «лишние» параметры, являющиеся компонентами непаретовских векторов. Для того чтобы выявить такие вектора, необходимо всякий раз реализовать программу отсутствия мажорирования.

3. Рассмотрим проблему прогнозирования значений эндогенной переменной y регрессии (*) с множественной оценкой ее параметров.

Пусть заданы значения экзогенных переменных уравнения равны Baenkhaeva25.wmf Baenkhaeva26.wmf Поскольку оценка параметров имеет множественный характер, естественно считать, что соответствующее прогнозное значение переменной y также будет принадлежать множеству – отрезку Baenkhaeva27.wmf. Ниже приведен способ расчета его границ.

Решим 2(q – 1) задач ЛП:

Baenkhaeva28.wmf Baenkhaeva29.wmf

Baenkhaeva30.wmf Baenkhaeva31.wmf

Тогда получим

Baenkhaeva32.wmf Baenkhaeva33.wmf

Моделирование валового регионального продукта Иркутской области

Для построения регрессионной модели валового регионального продукта (ВРП) Иркутской области с сайта Федеральной службы государственной статистики были собраны статистические данные за период с 2005 по 2014 г. по следующим переменным:

y – валовой региональный продукт, млрд руб.;

x1 – потребление электроэнергии, млрд кВт•ч;

x2 – численность безработных, тыс. чел.;

x3 – строительство жилых домов, тыс. кв. м;

x4 – оборот розничной торговли, млрд руб.

Значения этих переменных представлены в табл. 1, а их динамика – на рис. 1 и 2.

Таблица 1

Статистические данные

Год

y

x1

x2

x3

x4

2005

258,1

52,5

127,5

303,0

104,3

2006

330,8

53,6

108,3

331,0

128,0

2007

402,7

53,3

104,9

575,0

151,3

2008

438,9

55,1

109,9

585,0

192,1

2009

458,8

52,4

137,9

602,2

191,4

2010

546,1

54,3

127,3

629,5

197,3

2011

634,6

56,7

114,9

755,2

225,8

2012

738,0

58,0

97,8

871,4

250,0

2013

805,2

56,6

104,4

829,2

266,5

2014

907,4

56,3

109,7

716,9

285,9

Корреляционная матрица переменных представлена в табл. 2.

По матрице видно, что между зависимой переменной y и каждым из объясняющих факторов x1, x3, x4 имеется сильная положительная корреляция, а между y и x2 – умеренная отрицательная, что вполне укладывается в каноны регрессионного анализа.

pic_84.wmf

Рис. 1. Динамика ВРП Иркутской области

pic_85.wmf pic_86.wmf

pic_87.wmf pic_88.wmf

Рис. 2. Динамика влияющих на ВРП показателей

Таблица 2

Корреляционная матрица

 

y

x1

x2

x3

x4

y

1

0,8248

–0,4153

0,8647

0,9780

x1

 

1

–0,6748

0,8277

0,8200

x2

   

1

–0,4069

–0,3610

x3

     

1

0,9088

x4

       

1

По корреляционной матрице также видно, что некоторые из объясняющих переменных тесно коррелируют между собой. Следствием этого будет возникновение эффекта мультиколлинеарности при попытке построения, например, линейной модели множественной регрессии. Поэтому для выбора спецификации была реализована технология «конкурса» моделей [1, 7]. В результате была выбрана и оценена по МНК следующая нелинейная по факторам, но линейная по параметрам регрессия:

Baenkhaeva34.wmf

Под коэффициентами этого уравнения записаны значения t-статистик. Для уровня значимости 10 % все коэффициенты значимы. Коэффициент детерминации этой модели R2 = 0,985, критерий Фишера F = 231. Статистика Дарбина – Уотсона DW = 1,96, что говорит об отсутствии автокорреляции в ошибках модели.

Множественное оценивание модели ВРП Иркутской области

Для реализации процедуры множественного оценивания регрессионных моделей в среде программирования Delphi был разработан специализированный программный комплекс. Все представленные ниже результаты получены с его помощью.

Множество Парето J(P*), состоящее из шести вершин, представлено в табл. 3.

Таблица 3

Паретовские вершины

J1

J∞

245,6

44,23

235,7

44,36

226,2

44,61

218,4

44,9

197,1

46,18

190,6

53,56

Множество Парето в критериальном пространстве представлено на рис. 3.

pic_89.wmf

Рис. 3. Множество Парето

1. Точечная характеризация множества P:

Baenkhaeva35.wmf

2. Множество A:

α1 ∈ [132,1; 251,1];

α2 ∈ [3,68•10–7; 4,513•10–7];

α3 ∈ [0,4096; 1,665].

3. Для получения прогноза ВРП Иркутской области на 2015 г. были использованы следующие значения объясняющих переменных: Baenkhaeva36.wmf Baenkhaeva37.wmf Baenkhaeva38.wmf Baenkhaeva39.wmf Интервальный прогноз имеет вид y ∈ [921,1; 962,6].

Выводы

1. Рассмотрена технология множественного оценивания параметров линейных регрессионных моделей.

2. С помощью технологии организации «конкурса» моделей выбрана структурная спецификация модели ВРП Иркутской области.

3. Проведена процедура множественного оценивания параметров выбранной модели регрессии, с помощью которой получен интервальный прогноз ВРП Иркутской области на 2015 г.

4. Из материала работы следует, что аппарат множественного оценивания параметров является весьма эффективным при моделировании сложных систем и более гибким (мягким) по сравнению с традиционных регрессионным анализом, в рамках которого возможно построение только так называемых точечных (жестких) оценок.