Бинарная логистическая регрессия – известный метод многомерного статистического анализа, используемый для классификации данных в экономике [1; 2]. Она осуществляет разделение множества многомерных данных линейной границей на соответствующие заданным классам две области и прогнозирует вероятность соответствия каждой точки этим классам [3].
Достаточно часто, особенно в малоизученных приложениях, возникают ситуации, когда не удается построить качественную линейную регрессионную зависимость даже с учетом использования замен переменных. Основная причина этого состоит в неполноте модели из-за отсутствия части существенных переменных. Также существенных переменных может оказаться очень много, но они проявляются лишь эпизодически при наступлении некоторых условий и в регрессионной модели будут статистически не значимыми.
В этой ситуации причинно-следственную математическую модель можно построить на основе логистической регрессии, которая не накладывает жестких условий на переменные. Здесь лишь требуется суметь разделить наблюдения на две группы, что является значительно более простой процедурой. Затруднение, связанное с непрерывностью зависимой переменной Y, преодолимо с помощью формирования значений новой бинарной величины где y* – некоторое пороговое значение. Но применение логистической регрессии только как классификатора будет недостаточным, необходим инструментарий для ее использования для диагностики и управления.
Рассмотрим иное возможное использование бинарной логистической регрессии как замены в некотором смысле модели линейной регрессии. Целью статьи является разработка инструментария для использования бинарной логистической регрессии в задачах мониторинга и выработки управленческих решений многомерными стохастическими системами и его апробация применительно к вопросам увеличения индекса человеческого развития регионов России. Исходные данные взяты из справочников Росстата.
Материалы и методы исследования
Дана выборка прецедентов (обучающая выборка) значений признаков X1, X2, ..., Xm
, , (1)
где – вектор значений i-го объекта, ; , – указывающая на принадлежность i-го объекта соответствующему классу бинарная переменная (для первого класса yi = –1, для второго – yi = 1); m – количество признаков у объектов; n – число наблюдений.
Классификация выполняется с помощью логистической функции [3]
, (2)
причем . Вектор является набором коэффициентов, задающих разделяющую границу, которая представляет собой гиперплоскость
. (3)
Введем функцию . Зададим область D1 возможных значений x для первого класса как , а для второго класса – как . Тогда , , и и . Если , то y = –1, в противном случае y = 1.
В [4] предложен метод вычисления коэффициентов вектора b с помощью решения задачи
. (4)
Вектор коэффициентов b оценивают разными алгоритмами, например используют алгоритм Ньютона–Рафсона [4–6]. Однако при корректной классификации всех наблюдений целевая функция Q(b) имеет нулевую нижнюю грань на бесконечности, и поэтому задача (4) не будет иметь точного решения. Увеличение компонент вектора b вызывает неограниченный рост некоторых значений . В результате этого происходит рост вычислительных погрешностей, приводящий к переполнению памяти и к остановке алгоритма [7].
В [8] описан алгоритм нулевого порядка, использующий на каждой итерации случайный поиск с фиксацией длины вектора b. Это позволяет устранить неконтролируемый рост вычислительных погрешностей и обеспечивает устойчивость работы алгоритма.
Рассмотрим задачу классификации регионов по качеству жизни населения на два класса. Используем данные за 2013 г., так как это последний год перед усложнением внешнеполитической (ведение санкций против России из-за присоединения Крыма) и внешнеэкономической (падение цен на нефть) обстановки. Для численной оценки качества жизни населения регионов используем индекс человеческого развития (ИЧР) [9]. В качестве компонент вектора x будем использовать набор социально-экономических показателей регионов России. Регионы разделим на два класса, к первому классу D1 отнесем регионы с низким ИЧР (y = –1), а ко второму классу D2 – с высоким ИЧР (y = 1). Это разделение описано в [10].
Будем использовать вероятность отнесения региона к классу D2 как целевую функцию. Фактически это означает, что мы стремимся повысить качество жизни населения региона посредством выработки и реализации управленческих рекомендаций, повышающих вероятность h(x) его отнесения к классу регионов с высоким ИЧР.
Как показано в [10], вероятность h(x) зависит от расстояния от гиперплоскости (3) до точки x до и градиента grad h(x) и вектора-градиента
Поскольку в (3) вектор коэффициентов b задан с точностью до произвольного множителя, то введем нормировку: , .
Считаем , т.е. , .
Если приравнять , то последняя формула в процентах примет вид: . То есть значение bk показывает, на сколько процентов изменится отношение к при увеличении Xk на единицу при фиксации остальных показателей.
Производная функции Z(x) по Xk прямо пропорциональна коэффициенту bk. Рост (уменьшение) функции Z(x) равносилен увеличению (уменьшению) h(x). Следовательно, для увеличения значения h(x) приращения Δxk должны быть положительными для bk > 0 и отрицательными, если bk < 0.
По статистическим данным за 2013 г. были сформированы два класса регионов [10]. В класс D1 были включены регионы с уровнем ИЧР не выше 0,84. В класс D2 попали регионы с уровнем ИЧР не менее 0,85. С целью повышения достоверности результатов были удалены из рассмотрения регионы с очень низким и очень высоким уровнем ИЧР и с пропусками в данных. Используемые социально-экономические показатели и рассчитанные коэффициенты уравнения (3) для классификации регионов по ИЧР указаны в табл. 1.
Из табл. 1 видим, что для увеличения вероятности h(x) (повышения качества жизни в регионе) необходимо:
– уменьшать значения показателей X1, X6, X7, X9, X10, X12, X13 (коэффициенты bi отрицательные),
– увеличивать значения показателей X2, X3, X4, X5, X8, X11 (коэффициенты bi положительные).
Отметим, что максимальное значение коэффициента b4 = 10,004 объясняется кейнсианской теорией [11].
Коэффициенты уравнения (2) были определены по данным за 2013 г. (табл. 1). Исследуем адекватность модели на статистических данных за следующий 2014 г. на примере областей Уральского федерального округа. В табл. 2 приведены фактические значения ИЧР и оценки вероятностей h(x) за 2013–2014 гг. Отметим, что в 2013 г. вероятности h(x) находились по обучающим выборкам, а в 2014 г. – по имеющимся тестовым статистическим данным по формуле (2). При расчете количественных значений признаков X4, X5, X12, X13 за 2014 г. денежные показатели пересчитывались с учетом инфляции, оцениваемой через индекс потребительских цен.
Тюменская область имеет в обоих случаях наибольшее значение ИЧР, что соответствует максимальной вероятности h(x), практически равной 1. Росту значений ИЧР в остальных областях соответствует увеличение для всех трех регионов вероятностей h(x).
Результаты исследования и их обсуждение
В [10] был сформулирован подход к управлению регионом в виде оптимизационных задач повышения качества жизни посредством увеличения вероятности h(x) отнесения его к классу регионов с высоким ИЧР. Рассмотрим эти задачи. Первая задача – это максимизация вероятности h(x) при ограничениях на изменения социально-экономических показателей
(5)
где x0 – вектор значений показателей; Gj и Δj – область допустимых значений изменения и изменение компоненты Xj соответственно.
В задаче (5) grad h(x) всегда ортогонален гиперплоскости (2) и не учитываются экономические ограничения и затраты, необходимые для изменения социально-экономических показателей. Поэтому ее решением будет точка пересечения вектора (, a > 0) с границей допустимой области.
Ниже учтем экономические ограничения и затраты на изменения Xj
(6)
где Vj и vj(Δj) – предельная величина затрат и функция затрат на изменение Xj соответственно.
Таблица 1
Показатели и коэффициенты уравнения (3)
Показатель |
Обозначение |
bj |
Свободный член, 1 |
X0 |
0,072 |
Суммарный коэффициент рождаемости, ед. |
X1 |
–2,381 |
Ожидаемая продолжительность жизни при рождении, лет/100 |
X2 |
0,807 |
Количество ипотечных жилищных кредитов, предоставленных кредитными организациями физическим лицам-резидентам, ед. на 1000 чел. |
X3 |
0,879 |
Инвестиции в основной капитал на душу населения в фактически действовавших ценах, руб./105 |
X4 |
10,004 |
Объем валового регионального продукта на душу населения, млн руб. на чел. |
X5 |
3,974 |
Отношение объема инвестиций в основной капитал к валовому региональному продукту, ед.*10 |
X6 |
–1,911 |
Смертность населения от новообразований, число умерших на 1000 чел. |
X7 |
–1,149 |
Отношение средней заработной платы младшего медицинского персонала к средней заработной плате по субъекту РФ, ед.*10 |
X8 |
0,165 |
Отношение средней заработной платы среднего медицинского персонала к средней заработной плате по субъекту РФ, ед. |
X9 |
–1,770 |
Уровень общей безработицы, %/10 |
X10 |
–2,739 |
Обеспеченность населения врачами, чел. на 1000 чел. |
X11 |
0,688 |
Консолидированный бюджет субъекта РФ и территориального государственного внебюджетного фонда на ЖКХ, тыс. руб. на 10 чел. |
X12 |
–4,223 |
Консолидированный бюджет субъекта РФ и территориального внебюджетного фонда на здравоохранение, тыс. руб. на 10 чел. |
X13 |
–0,870 |
Таблица 2
Фактические значения ИЧР и оценки вероятностей h(x) отнесения субъектов УрФО к группе регионов с высоким качеством жизни за 2013–2014 гг.
Показатель |
Год |
Курганская область |
Свердловская область |
Тюменская область |
Челябинская область |
ИЧР |
2013 |
0,829 |
0,868 |
0,901 |
0,848 |
2014 |
0,831 |
0,873 |
0,903 |
0,857 |
|
h(x) |
2013 |
0,005 |
0,851 |
1,000 |
0,805 |
2014 |
0,015 |
0,936 |
1,000 |
0,884 |
Достижение функцией h(x) заданной вероятности p0 при минимальных затратах на изменение вектора x можно представить в виде задачи
(7)
Значение целевой функции в задачах (5)–(7) позволяет оценить прямые последствия реализации заданного воздействия на объект, а косвенные – в каждом конкретном случае можно определить на основе полученного в результате решения оптимизационной задачи значения вектора x.
Отметим, что в задачах (6) и (7) достаточно сложно задавать функции затрат vj(Dj). Обойдем это ограничение, сформулировав задачу следующим образом:
(8)
Здесь решается вопрос перехода региона в состояние h(x) = p0 при минимальном среднеквадратическом относительном изменении значений компонент вектора социально-экономических показателей. Такая постановка не требует задавать в явном виде трудоемкость изменения показателей Xj. Весовые коэффициенты rj позволяют учесть особенности, связанные с изменением переменных. Если априорная информация о показателях Xj, включенных в (2), отсутствует, то считаем все rj равными 1.
Нулевое значение весового коэффициента можно использовать в ситуациях, когда знак коэффициента bj имеет противоположное направление по сравнению с желаемым, позволяет зафиксировать фактическое значение показателя Xj. Например, здесь b1 = –2,381 < 0, данная ситуация вызвана имеющейся закономерностью, связанной с тем, что в регионах с более высоким качеством жизни рождаемость ниже по сравнению с регионами с низким качеством жизни. Это в [12] названо обратной связью рождаемости с уровнем жизни. Поскольку вектор b определяется по обучающей выборке и отражает сложившуюся социально-экономическую ситуацию в стране, данный вопрос не может решаться в рамках рассматриваемых оптимизационных задач.
Введя в задачу (8) дополнительные ограничения на предельные изменения компонент, учитывающие особенности изменения социально-экономических показателей Xj, получим
(9)
Апробируем логистическую регрессию как модель управления (8) на примере Курганской, Свердловской и Челябинской областей, считая ρj = 1, j = 1, 2, ..., m.
Курганская область относится к регионам с низким уровнем ИЧР. Вероятность отнесения ее к регионам с высоким уровнем ИЧР: h(x0) = 0,005. В табл. 3 представлены результаты управления с целью выхода Курганской области на пороговый уровень (h(x*) = 0,5), полученные с помощью решения задачи (8). Для сопоставления расчетных значений показателей в табл. 3 приведены фактические значения за 2013 г. (год исходных значений для проведения расчетов) и 2016 г., а также целевые значения показателей, взятые из указов Президента РФ № 596-600 и № 606 от 07.05.2012.
Расчетные (оптимальные) значения социально-экономических показателей показывают тот минимальный уровень, достижение которого позволить субъекту РФ повысить значение ИЧР. Поэтому расчетные значения показателей не могут выступать в качестве новых предлагаемых целевых ориентиров, но их следует принимать во внимание при оптимизации затрат и уточнении приоритетов дальнейшего развития.
Для Курганской области приоритетами в повышении качества жизни должны стать: а) увеличение продолжительности жизни населения (X2) до 70 лет (этот уровень в целом по России был достигнут еще в 2012 г., но для данной области при изначально его невысоком значении является оптимальным и реалистичным ориентиром); б) развитие ипотечного жилищного кредитования (X3), объемы которого в последние годы были серьезно сокращены в результате макроэкономической нестабильности; в) рост инвестиционной активности (X4) позволит увеличить производство, а также привлечь свободную рабочую силу и повысить платежеспособность населения; г) снижение уровня безработицы (X10) до 6,7 %.
Свердловская область обладает относительно высоким уровнем ИЧР. Результаты решения оптимизационной задачи, в которую было заложено достижение более высокого уровня ИЧР, соответствующее увеличению вероятности h(x) до 0,95, представлены в табл. 4.
Важным условием увеличения вероятности роста ИЧР в Свердловской области является экономический рост, невозможный без дополнительных инвестиций (X4). Развитие же ипотечного жилищного кредитования (X3) способствует привлечению инвестиций в строительную отрасль – драйвера экономического роста территории.
Таблица 3
Фактические, целевые и расчетные показатели Курганской области
Показатель |
Фактические значения за 2013 г. (X0) |
Фактические значения за 2016 г. |
Целевые значения |
Расчетные значения (X*) |
X1 |
2,12 |
2,03 |
1,753 |
1,55 |
X2 |
0,68 |
0,69 |
0,74 |
0,70 |
X3 |
5,33 |
5,44 |
5,69** |
6,66 |
X4 |
0,38 |
0,33 |
– |
0,45 |
X5 |
0,19 |
0,21* |
– |
0,19 |
X6 |
1,99 |
1,54* |
2,7 |
1,60 |
X7 |
2,71 |
2,58 |
1,93 |
2,26 |
X8 |
4,64 |
5,5 |
10,0 |
4,83 |
X9 |
0,92 |
1,03 |
1,00 |
0,84 |
X10 |
0,75 |
0,84 |
– |
0,67 |
X11 |
2,60 |
2,88* |
– |
2,85 |
X12 |
0,21 |
0,24 |
– |
0,20 |
X13 |
1,28 |
1,75 |
– |
1,21 |
Примечание: * – за 2015 г.; ** – значение рассчитано, исходя из установленного целевого значения количества выдаваемых ипотечных жилищных кредитов в размере 815 тысяч в год в целом по России при сохранении численности населения на уровне 2012 г.
Таблица 4
Фактические, целевые и расчетные показатели Свердловской области
Показатель |
Фактические значения за 2013 г. (X0) |
Фактические значения за 2016 г. |
Целевые значения |
Расчетные значения (X*) |
X1 |
1,87 |
1,91 |
1,753 |
1,807 |
X2 |
0,698 |
0,70 |
0,74 |
0,701 |
X3 |
6,153 |
6,22 |
5,69** |
6,403 |
X4 |
0,817 |
0,799 |
– |
0,868 |
X5 |
0,363 |
0,411* |
– |
0,371 |
X6 |
2,25 |
1,97* |
2,7 |
2,154 |
X7 |
2,239 |
2,219 |
1,93 |
2,196 |
X8 |
5,28 |
6,1 |
10,0 |
5,315 |
X9 |
0,927 |
0,97 |
1,00 |
0,916 |
X10 |
5,9 |
6,2 |
– |
0,583 |
X11 |
3,66 |
4,24* |
– |
3,729 |
X12 |
0,312 |
0,278 |
– |
0,308 |
X13 |
1,696 |
1,916 |
– |
1,677 |
Примечание: * – за 2015 г.; ** – значение рассчитано, исходя из установленного целевого значения количества выдаваемых ипотечных жилищных кредитов в размере 815 тысяч в год в целом по России при сохранении численности населения на уровне 2012 г.
Таблица 5
Фактические, целевые и расчетные показатели Челябинской области
Показатель |
Фактические значения за 2013 г. (X0) |
Фактические значения за 2016 г. |
Целевые значения |
Расчетные значения (X1) |
Расчетные значения (X2) |
Расчетные значения (X3) |
X1 |
1,8 |
1,84 |
1,753 |
1,78 |
1,76 |
1,72 |
X2 |
0,695 |
0,705 |
0,74 |
0,70 |
0,70 |
0,70 |
X3 |
8,16 |
7,73 |
5,69** |
8,28 |
8,46 |
8,75 |
X4 |
0,62 |
0,55 |
– |
0,62 |
0,64 |
0,65 |
X5 |
0,25 |
0,33* |
– |
0,25 |
0,25 |
0,25 |
X6 |
2,44 |
1,86* |
2,7 |
2,42 |
2,39 |
2,33 |
X7 |
2,32 |
2,39 |
1,93 |
2,31 |
2,29 |
2,26 |
X8 |
4,68 |
5,5 |
10,0 |
4,69 |
4,7 |
4,72 |
X9 |
0,78 |
0,90 |
1,00 |
0,78 |
0,78 |
0,77 |
X10 |
0,6 |
0,71 |
– |
0,6 |
0,59 |
0,59 |
X11 |
3,67 |
3,94* |
– |
3,69 |
3,72 |
3,76 |
X12 |
0,25 |
0,19 |
– |
0,25 |
0,25 |
0,25 |
X13 |
1,30 |
1,76 |
– |
1,29 |
1,29 |
1,28 |
Примечание: * – за 2015 г.; ** – значение рассчитано, исходя из установленного целевого значения количества выданных ипотечных жилищных кредитов в размере 815 тысяч в год в целом по России при сохранении численности населения на уровне 2012 г.
Челябинская область отнесена к регионам со средним уровнем ИЧР с вероятностью h(x0) = 0,805. При решении оптимизационной задачи повышения ИЧР были заложены три варианта увеличения h(x). Результаты решения для трех вероятностей h(x1) = 0,85, h(x2) = 0,9, h(x3) = 0,95 приведены в табл. 5.
Можно рассматривать разные варианты развития Челябинской области в зависимости от возможностей региона. Чем благоприятнее наблюдаемая динамика по показателям, тем выше вероятность повышения качества жизни в области. Однако по отдельным показателям (X2, X5, X10, X12 и X13) разница в их значениях по трем сценариям незначительна или отсутствует, что говорит об оптимальности данных значений для анализируемой региональной системы. В Челябинской области приоритетом в повышении качества жизни населения должно стать ипотечное кредитование (X3).
Выводы
1. Показано, что бинарную логистическую регрессии можно использовать как математическую модель в задачах мониторинга и управления многомерными системами.
2. Бинарная логистическая регрессия как модель управления апробирована на примере задачи повышения качества жизни регионов.
Работа выполнена при поддержке РФФИ, грант № 20-41-660008 р_а.