Scientific journal
Fundamental research
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,749

A BINARY LOGISTIC REGRESSION AS A MANAGEMENT MODEL ON THE EXAMPLE OF IMPROVING THE QUALITY OF LIFE OF THE POPULATION

Tyrsin A.N. 1, 2 Vasilyeva E.V. 3
1 Ural Federal University named after the first President of Russia Boris Yeltsin
2 Federal State Budgetary Institution of Science Scientific-Engineering Center Reliability and Life of Large Systems and Machines Ural Branch Russian Academy of Science
3 Federal State Budgetary Institution of Science Institute of Economics Ural Branch Russian Academy of Science
Binary logistic regression is a well-known method of multivariate statistical analysis used to classify data. In economic problems, there are situations when it is necessary to expand its scope and use it in the tasks of monitoring and developing management decisions. Such a widespread indicator as the Human Development Index is used to quantify the quality of life of the population. The purpose of the article is to develop tools for using binary logistic regression in the problems of diagnostics and management of multidimensional systems and to test it in relation to increasing the human development index of Russian regions. A mathematical model for monitoring and managing multidimensional stochastic systems based on binary logistic regression is described. Binary logistic regression as a monitoring and management model is tested on the example of improving the quality of life of regions. A set of socio-economic indicators of Russian regions is used as a vector of initial data. An approach to the development of management decisions for a region is described in the form of optimization tasks to increase the probability of classifying it as a region with a high level of quality of life. In the paper the problem of optimization is solved on the basis of the revealed correlation between the life quality of the population and socio-economic indicators of the region.
binary logical regression
optimization problem
quality of life
human development index
socio-economic indicators
region

Бинарная логистическая регрессия – известный метод многомерного статистического анализа, используемый для классификации данных в экономике [1; 2]. Она осуществляет разделение множества многомерных данных линейной границей на соответствующие заданным классам две области и прогнозирует вероятность соответствия каждой точки этим классам [3].

Достаточно часто, особенно в малоизученных приложениях, возникают ситуации, когда не удается построить качественную линейную регрессионную зависимость даже с учетом использования замен переменных. Основная причина этого состоит в неполноте модели из-за отсутствия части существенных переменных. Также существенных переменных может оказаться очень много, но они проявляются лишь эпизодически при наступлении некоторых условий и в регрессионной модели будут статистически не значимыми.

В этой ситуации причинно-следственную математическую модель можно построить на основе логистической регрессии, которая не накладывает жестких условий на переменные. Здесь лишь требуется суметь разделить наблюдения на две группы, что является значительно более простой процедурой. Затруднение, связанное с непрерывностью зависимой переменной Y, преодолимо с помощью формирования значений новой бинарной величины tirsin01.wmf где y* – некоторое пороговое значение. Но применение логистической регрессии только как классификатора будет недостаточным, необходим инструментарий для ее использования для диагностики и управления.

Рассмотрим иное возможное использование бинарной логистической регрессии как замены в некотором смысле модели линейной регрессии. Целью статьи является разработка инструментария для использования бинарной логистической регрессии в задачах мониторинга и выработки управленческих решений многомерными стохастическими системами и его апробация применительно к вопросам увеличения индекса человеческого развития регионов России. Исходные данные взяты из справочников Росстата.

Материалы и методы исследования

Дана выборка прецедентов (обучающая выборка) значений признаков X1, X2, ..., Xm

tirsin02.wmf, tirsin03.wmf, (1)

где tirsin04.wmf – вектор значений i-го объекта, tirsin05.wmf; tirsin06.wmf, tirsin07.wmf – указывающая на принадлежность i-го объекта соответствующему классу бинарная переменная (для первого класса yi = –1, для второго – yi = 1); m – количество признаков у объектов; n – число наблюдений.

Классификация выполняется с помощью логистической функции [3]

tirsin08.wmf, (2)

причем tirsin09.wmf tirsin10.wmf. Вектор tirsin11.wmf является набором коэффициентов, задающих разделяющую границу, которая представляет собой гиперплоскость

tirsin12.wmf. (3)

Введем функцию tirsin13.wmf. Зададим область D1 возможных значений x для первого класса как tirsin14.wmf, а для второго класса – как tirsin15.wmf. Тогда tirsin16.wmf tirsin17.wmf, tirsin18.wmf tirsin19.wmf, tirsin20.wmf tirsin21.wmf и tirsin22.wmf tirsin23.wmf и tirsin24.wmf. Если tirsin25.wmf, то y = –1, в противном случае y = 1.

В [4] предложен метод вычисления коэффициентов вектора b с помощью решения задачи

tirsin26.wmf. (4)

Вектор коэффициентов b оценивают разными алгоритмами, например используют алгоритм Ньютона–Рафсона [4–6]. Однако при корректной классификации всех наблюдений целевая функция Q(b) имеет нулевую нижнюю грань на бесконечности, и поэтому задача (4) не будет иметь точного решения. Увеличение компонент вектора b вызывает неограниченный рост некоторых значений tirsin27.wmf. В результате этого происходит рост вычислительных погрешностей, приводящий к переполнению памяти и к остановке алгоритма [7].

В [8] описан алгоритм нулевого порядка, использующий на каждой итерации случайный поиск с фиксацией длины вектора b. Это позволяет устранить неконтролируемый рост вычислительных погрешностей и обеспечивает устойчивость работы алгоритма.

Рассмотрим задачу классификации регионов по качеству жизни населения на два класса. Используем данные за 2013 г., так как это последний год перед усложнением внешнеполитической (ведение санкций против России из-за присоединения Крыма) и внешнеэкономической (падение цен на нефть) обстановки. Для численной оценки качества жизни населения регионов используем индекс человеческого развития (ИЧР) [9]. В качестве компонент вектора x будем использовать набор социально-экономических показателей регионов России. Регионы разделим на два класса, к первому классу D1 отнесем регионы с низким ИЧР (y = –1), а ко второму классу D2 – с высоким ИЧР (y = 1). Это разделение описано в [10].

Будем использовать вероятность tirsin28.wmf отнесения региона к классу D2 как целевую функцию. Фактически это означает, что мы стремимся повысить качество жизни населения региона посредством выработки и реализации управленческих рекомендаций, повышающих вероятность h(x) его отнесения к классу регионов с высоким ИЧР.

Как показано в [10], вероятность h(x) зависит от расстояния tirsin29.wmf от гиперплоскости (3) до точки x до и градиента grad h(x) и вектора-градиента

tirsin30.wmf

Поскольку в (3) вектор коэффициентов b задан с точностью до произвольного множителя, то введем нормировку: tirsin31.wmf, tirsin32.wmf.

Считаем tirsin33.wmf, т.е. tirsin34.wmf tirsin35.wmf, tirsin36.wmf.

Если приравнять tirsin37.wmf, то последняя формула в процентах примет вид: tirsin38.wmf. То есть значение bk показывает, на сколько процентов изменится отношение tirsin39.wmf к tirsin40.wmf при увеличении Xk на единицу при фиксации остальных показателей.

Производная функции Z(x) по Xk прямо пропорциональна коэффициенту bk. Рост (уменьшение) функции Z(x) равносилен увеличению (уменьшению) h(x). Следовательно, для увеличения значения h(x) приращения Δxk должны быть положительными для bk > 0 и отрицательными, если bk < 0.

По статистическим данным за 2013 г. были сформированы два класса регионов [10]. В класс D1 были включены регионы с уровнем ИЧР не выше 0,84. В класс D2 попали регионы с уровнем ИЧР не менее 0,85. С целью повышения достоверности результатов были удалены из рассмотрения регионы с очень низким и очень высоким уровнем ИЧР и с пропусками в данных. Используемые социально-экономические показатели и рассчитанные коэффициенты уравнения (3) для классификации регионов по ИЧР указаны в табл. 1.

Из табл. 1 видим, что для увеличения вероятности h(x) (повышения качества жизни в регионе) необходимо:

– уменьшать значения показателей X1, X6, X7, X9, X10, X12, X13 (коэффициенты bi отрицательные),

– увеличивать значения показателей X2, X3, X4, X5, X8, X11 (коэффициенты bi положительные).

Отметим, что максимальное значение коэффициента b4 = 10,004 объясняется кейнсианской теорией [11].

Коэффициенты уравнения (2) были определены по данным за 2013 г. (табл. 1). Исследуем адекватность модели на статистических данных за следующий 2014 г. на примере областей Уральского федерального округа. В табл. 2 приведены фактические значения ИЧР и оценки вероятностей h(x) за 2013–2014 гг. Отметим, что в 2013 г. вероятности h(x) находились по обучающим выборкам, а в 2014 г. – по имеющимся тестовым статистическим данным по формуле (2). При расчете количественных значений признаков X4, X5, X12, X13 за 2014 г. денежные показатели пересчитывались с учетом инфляции, оцениваемой через индекс потребительских цен.

Тюменская область имеет в обоих случаях наибольшее значение ИЧР, что соответствует максимальной вероятности h(x), практически равной 1. Росту значений ИЧР в остальных областях соответствует увеличение для всех трех регионов вероятностей h(x).

Результаты исследования и их обсуждение

В [10] был сформулирован подход к управлению регионом в виде оптимизационных задач повышения качества жизни посредством увеличения вероятности h(x) отнесения его к классу регионов с высоким ИЧР. Рассмотрим эти задачи. Первая задача – это максимизация вероятности h(x) при ограничениях на изменения социально-экономических показателей

tirsin41.wmf (5)

где x0 – вектор значений показателей; Gj и Δj – область допустимых значений изменения и изменение компоненты Xj соответственно.

В задаче (5) grad h(x) всегда ортогонален гиперплоскости (2) и не учитываются экономические ограничения и затраты, необходимые для изменения социально-экономических показателей. Поэтому ее решением будет точка пересечения вектора tirsin42.wmf (tirsin43.wmf, a > 0) с границей допустимой области.

Ниже учтем экономические ограничения и затраты на изменения Xj

tirsin44.wmf (6)

где Vj и vj(Δj) – предельная величина затрат и функция затрат на изменение Xj соответственно.

Таблица 1

Показатели и коэффициенты уравнения (3)

Показатель

Обозначение

bj

Свободный член, 1

X0

0,072

Суммарный коэффициент рождаемости, ед.

X1

–2,381

Ожидаемая продолжительность жизни при рождении, лет/100

X2

0,807

Количество ипотечных жилищных кредитов, предоставленных кредитными организациями физическим лицам-резидентам, ед. на 1000 чел.

X3

0,879

Инвестиции в основной капитал на душу населения в фактически действовавших ценах, руб./105

X4

10,004

Объем валового регионального продукта на душу населения, млн руб. на чел.

X5

3,974

Отношение объема инвестиций в основной капитал к валовому региональному продукту, ед.*10

X6

–1,911

Смертность населения от новообразований, число умерших на 1000 чел.

X7

–1,149

Отношение средней заработной платы младшего медицинского персонала к средней заработной плате по субъекту РФ, ед.*10

X8

0,165

Отношение средней заработной платы среднего медицинского персонала к средней заработной плате по субъекту РФ, ед.

X9

–1,770

Уровень общей безработицы, %/10

X10

–2,739

Обеспеченность населения врачами, чел. на 1000 чел.

X11

0,688

Консолидированный бюджет субъекта РФ и территориального государственного внебюджетного фонда на ЖКХ, тыс. руб. на 10 чел.

X12

–4,223

Консолидированный бюджет субъекта РФ и территориального внебюджетного фонда на здравоохранение, тыс. руб. на 10 чел.

X13

–0,870

 

Таблица 2

Фактические значения ИЧР и оценки вероятностей h(x) отнесения субъектов УрФО к группе регионов с высоким качеством жизни за 2013–2014 гг.

Показатель

Год

Курганская область

Свердловская область

Тюменская область

Челябинская область

ИЧР

2013

0,829

0,868

0,901

0,848

2014

0,831

0,873

0,903

0,857

h(x)

2013

0,005

0,851

1,000

0,805

2014

0,015

0,936

1,000

0,884

 

Достижение функцией h(x) заданной вероятности p0 при минимальных затратах на изменение вектора x можно представить в виде задачи

tirsin45.wmf (7)

Значение целевой функции в задачах (5)–(7) позволяет оценить прямые последствия реализации заданного воздействия на объект, а косвенные – в каждом конкретном случае можно определить на основе полученного в результате решения оптимизационной задачи значения вектора x.

Отметим, что в задачах (6) и (7) достаточно сложно задавать функции затрат vj(Dj). Обойдем это ограничение, сформулировав задачу следующим образом:

tirsin46.wmf (8)

Здесь решается вопрос перехода региона в состояние h(x) = p0 при минимальном среднеквадратическом относительном изменении значений компонент вектора социально-экономических показателей. Такая постановка не требует задавать в явном виде трудоемкость изменения показателей Xj. Весовые коэффициенты rj позволяют учесть особенности, связанные с изменением переменных. Если априорная информация о показателях Xj, включенных в (2), отсутствует, то считаем все rj равными 1.

Нулевое значение весового коэффициента можно использовать в ситуациях, когда знак коэффициента bj имеет противоположное направление по сравнению с желаемым, позволяет зафиксировать фактическое значение показателя Xj. Например, здесь b1 = –2,381 < 0, данная ситуация вызвана имеющейся закономерностью, связанной с тем, что в регионах с более высоким качеством жизни рождаемость ниже по сравнению с регионами с низким качеством жизни. Это в [12] названо обратной связью рождаемости с уровнем жизни. Поскольку вектор b определяется по обучающей выборке и отражает сложившуюся социально-экономическую ситуацию в стране, данный вопрос не может решаться в рамках рассматриваемых оптимизационных задач.

Введя в задачу (8) дополнительные ограничения на предельные изменения компонент, учитывающие особенности изменения социально-экономических показателей Xj, получим

tirsin47.wmf (9)

Апробируем логистическую регрессию как модель управления (8) на примере Курганской, Свердловской и Челябинской областей, считая ρj = 1, j = 1, 2, ..., m.

Курганская область относится к регионам с низким уровнем ИЧР. Вероятность отнесения ее к регионам с высоким уровнем ИЧР: h(x0) = 0,005. В табл. 3 представлены результаты управления с целью выхода Курганской области на пороговый уровень (h(x*) = 0,5), полученные с помощью решения задачи (8). Для сопоставления расчетных значений показателей в табл. 3 приведены фактические значения за 2013 г. (год исходных значений для проведения расчетов) и 2016 г., а также целевые значения показателей, взятые из указов Президента РФ № 596-600 и № 606 от 07.05.2012.

Расчетные (оптимальные) значения социально-экономических показателей показывают тот минимальный уровень, достижение которого позволить субъекту РФ повысить значение ИЧР. Поэтому расчетные значения показателей не могут выступать в качестве новых предлагаемых целевых ориентиров, но их следует принимать во внимание при оптимизации затрат и уточнении приоритетов дальнейшего развития.

Для Курганской области приоритетами в повышении качества жизни должны стать: а) увеличение продолжительности жизни населения (X2) до 70 лет (этот уровень в целом по России был достигнут еще в 2012 г., но для данной области при изначально его невысоком значении является оптимальным и реалистичным ориентиром); б) развитие ипотечного жилищного кредитования (X3), объемы которого в последние годы были серьезно сокращены в результате макроэкономической нестабильности; в) рост инвестиционной активности (X4) позволит увеличить производство, а также привлечь свободную рабочую силу и повысить платежеспособность населения; г) снижение уровня безработицы (X10) до 6,7 %.

Свердловская область обладает относительно высоким уровнем ИЧР. Результаты решения оптимизационной задачи, в которую было заложено достижение более высокого уровня ИЧР, соответствующее увеличению вероятности h(x) до 0,95, представлены в табл. 4.

Важным условием увеличения вероятности роста ИЧР в Свердловской области является экономический рост, невозможный без дополнительных инвестиций (X4). Развитие же ипотечного жилищного кредитования (X3) способствует привлечению инвестиций в строительную отрасль – драйвера экономического роста территории.

Таблица 3

Фактические, целевые и расчетные показатели Курганской области

Показатель

Фактические значения за 2013 г. (X0)

Фактические значения за 2016 г.

Целевые значения

Расчетные значения (X*)

X1

2,12

2,03

1,753

1,55

X2

0,68

0,69

0,74

0,70

X3

5,33

5,44

5,69**

6,66

X4

0,38

0,33

0,45

X5

0,19

0,21*

0,19

X6

1,99

1,54*

2,7

1,60

X7

2,71

2,58

1,93

2,26

X8

4,64

5,5

10,0

4,83

X9

0,92

1,03

1,00

0,84

X10

0,75

0,84

0,67

X11

2,60

2,88*

2,85

X12

0,21

0,24

0,20

X13

1,28

1,75

1,21

Примечание: * – за 2015 г.; ** – значение рассчитано, исходя из установленного целевого значения количества выдаваемых ипотечных жилищных кредитов в размере 815 тысяч в год в целом по России при сохранении численности населения на уровне 2012 г.

Таблица 4

Фактические, целевые и расчетные показатели Свердловской области

Показатель

Фактические значения за 2013 г. (X0)

Фактические значения за 2016 г.

Целевые значения

Расчетные значения (X*)

X1

1,87

1,91

1,753

1,807

X2

0,698

0,70

0,74

0,701

X3

6,153

6,22

5,69**

6,403

X4

0,817

0,799

0,868

X5

0,363

0,411*

0,371

X6

2,25

1,97*

2,7

2,154

X7

2,239

2,219

1,93

2,196

X8

5,28

6,1

10,0

5,315

X9

0,927

0,97

1,00

0,916

X10

5,9

6,2

0,583

X11

3,66

4,24*

3,729

X12

0,312

0,278

0,308

X13

1,696

1,916

1,677

Примечание: * – за 2015 г.; ** – значение рассчитано, исходя из установленного целевого значения количества выдаваемых ипотечных жилищных кредитов в размере 815 тысяч в год в целом по России при сохранении численности населения на уровне 2012 г.

Таблица 5

Фактические, целевые и расчетные показатели Челябинской области

Показатель

Фактические значения за 2013 г. (X0)

Фактические значения за 2016 г.

Целевые значения

Расчетные значения (X1)

Расчетные значения (X2)

Расчетные значения (X3)

X1

1,8

1,84

1,753

1,78

1,76

1,72

X2

0,695

0,705

0,74

0,70

0,70

0,70

X3

8,16

7,73

5,69**

8,28

8,46

8,75

X4

0,62

0,55

0,62

0,64

0,65

X5

0,25

0,33*

0,25

0,25

0,25

X6

2,44

1,86*

2,7

2,42

2,39

2,33

X7

2,32

2,39

1,93

2,31

2,29

2,26

X8

4,68

5,5

10,0

4,69

4,7

4,72

X9

0,78

0,90

1,00

0,78

0,78

0,77

X10

0,6

0,71

0,6

0,59

0,59

X11

3,67

3,94*

3,69

3,72

3,76

X12

0,25

0,19

0,25

0,25

0,25

X13

1,30

1,76

1,29

1,29

1,28

Примечание: * – за 2015 г.; ** – значение рассчитано, исходя из установленного целевого значения количества выданных ипотечных жилищных кредитов в размере 815 тысяч в год в целом по России при сохранении численности населения на уровне 2012 г.

Челябинская область отнесена к регионам со средним уровнем ИЧР с вероятностью h(x0) = 0,805. При решении оптимизационной задачи повышения ИЧР были заложены три варианта увеличения h(x). Результаты решения для трех вероятностей h(x1) = 0,85, h(x2) = 0,9, h(x3) = 0,95 приведены в табл. 5.

Можно рассматривать разные варианты развития Челябинской области в зависимости от возможностей региона. Чем благоприятнее наблюдаемая динамика по показателям, тем выше вероятность повышения качества жизни в области. Однако по отдельным показателям (X2, X5, X10, X12 и X13) разница в их значениях по трем сценариям незначительна или отсутствует, что говорит об оптимальности данных значений для анализируемой региональной системы. В Челябинской области приоритетом в повышении качества жизни населения должно стать ипотечное кредитование (X3).

Выводы

1. Показано, что бинарную логистическую регрессии можно использовать как математическую модель в задачах мониторинга и управления многомерными системами.

2. Бинарная логистическая регрессия как модель управления апробирована на примере задачи повышения качества жизни регионов.

Работа выполнена при поддержке РФФИ, грант № 20-41-660008 р_а.