Scientific journal
Fundamental research
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,674

STUDY OF THE RELATIONSHIP BETWEEN THE BIRTH RATE AND THE PRICE INDEX IN THE SUBJECTS OF THE RUSSIAN FEDERATION USING QUANTILE REGRESSION

Orlova I.V. 1
1 Financial University under the Government of the Russian Federation
This article examines the relationship between the birth rate and the price index in the subjects of the Russian Federation using quantile regression. In addition to the usual regression analysis, quantile regression allows you to expand the range of problems to be solved and thereby obtain additional information from the analysis of the initial statistical information about the object of study. Quantile regression is less sensitive to the violation of numerous preliminary requirements for the initial statistical information in classical regression analysis. Applying it for different values of the quantile level, we can get a set of quantile regressions instead of the single one obtained using the least squares method, and thus we get a more complete picture of the behavior of the object of study. A significant advantage is also that quantile regression is not a parametric method. In addition, quantile regression is resistant to outliers in the observed regressors. It also provides an opportunity to use it for heteroscedasticity of regression errors. This allows us not to resort to various tricks to weaken the influence of heteroscedasticity on estimates, especially since this is not always possible. The study allows us to conclude that regions with a relatively high birth rate are significantly more responsive to the growth of the price index than regions with a low birth rate. At the ends of the distribution of the birth rate, the rate of change in the birth rate depending on the price index is very different from the average value, and when predicting the birth rate, it is advisable to take into account whether the region belongs to a group with a high or low birth rate.
quantile regression
birth rate
price index

Исследование взаимосвязи экономических показателей является актуальной задачей экономической науки. Ведущая роль в решении этой задачи принадлежит эконометрике. Возможности эконометрических исследований значительно расширяются с расширением возможностей вычислительной техники и развитием экономико-математических методов. В настоящее время наиболее широко применяются и развиваются методы регрессионного анализа, в котором на основе статистических данных об n наблюдениях исследуется условное среднее зависимой переменной Y от определяющих переменных X1,…, Xp, E(Y|X). В предположении, что значение Y в i-м наблюдении yi равно линейной комбинации xij значений Xj в этом наблюдении, j = 1,..,p, плюс случайный остаток εi со средним значением ноль, missing image file + εi, условное среднее E(yi|xi) равно

E(yi|xi) = missing image file, i = 1,…,n,

где xi = (1, xi1, …, xip) – i-я строка матрицы значений регрессоров X.

Вместо поиска условного среднего значения прогнозируемой переменной квантильная регрессия направлена на поиск условной медианы и любых других условных квантилей. Дополняя обычный регрессионный анализ, квантильная регрессия позволяет расширить спектр решаемых задач и тем самым получить дополнительную информацию из анализа исходной статистической информации об объекте исследования. В отличие от классической линейной регрессии, квантильная регрессия является непараметрическим методом. Она менее чувствительна к нарушению многочисленных предварительных требований, предъявляемых к исходной статистической информации в классическом регрессионном анализе [1, 2].

Цель исследования: выявление и оценка изменения степени влияния индекса цен на коэффициент рождаемости в субъектах РФ в зависимости от уровня индекса цен с помощью квантильной регрессии.

Материалы и методы исследования

В исследовании использованы данные по субъектам РФ: коэффициент рождаемости (число родившихся на 1000 человек населения) и индекс потребительских цен. Источник – Федеральная служба государственной статистики [3, 4].

Мы можем предположить наличие линейной взаимосвязи между коэффициентом рождаемости и индексом цен. При этом также можем предположить наличие гетероскедастичности в остатках, которая зачастую наблюдается в моделях, построенных по пространственным данным.

На рис. 1 приведена диаграмма рассеяния коэффициента рождаемости от индекса цен, на которой в верхней части отчетливо видны «выбросы» – наблюдения, относящиеся к регионам, имеющим аномально высокие по сравнению с другими регионами значения коэффициента рождаемости [5].

Построив линейную регрессионную модель, проверим выполнение второй предпосылки МНК, а именно, условие гомоскедастичности с помощью теста Бреуша – Пагана (функция bptest()в R).

library(lmtest)

> fm<-lm(Y~X)

> summary(fm)

> # Бреуша-Пагана

> bptest(fm, varformula = ~X, studentize = FALSE)

Breusch-Pagan test

data: fm

BP = 9.5856, df = 1, p-value = 0.001961

Тестовая статистика имеет значение 9,59; p-value = 0,002 свидетельствуют о наличии гетероскедастичности, как и можно было предположить при работе с пространственными данными.

missing image file

Рис. 1. Диаграмма рассеяния коэффициента рождаемости

Будем использовать метод квантильной регрессии, который относится к робастным методам, так как является устойчивым к отклонениям от предположений классических моделей. Метод квантильной регрессии устойчив к аномальным наблюдениям, «выбросам» и успешно применяется при неоднородности данных.

Напомним, что для любых θ, таких, что 0 < θ < 1, 100 θ-процентный квантиль qθ представляет собой пороговое значение, для которого случайная величина может принять меньшее значение с вероятностью θ. Функция распределения случайной величины в точке qθ принимает значение, равное θ, F(qθ) = θ.

Квантиль q(θ) можно представить как решение задачи оптимизации, минимизирующее взвешенную сумму модулей отклонений случайной величины Y от квантиля [6]

q(θ)= argmimissing image file, (1)

где ρθ(.) обозначает следующую функцию:

ρθ(y) = (θ – I (y < 0)) y = ((1 – θ) I (y < 0) +

+ θ I (y ≥ 0))y.

Индикаторная функция I (y < 0) принимает значение 1, если y < 0 и значение 0, если y ≥ 0, missing image file

Исходя из этого, величина ρθ(y – c) принимает значение (1 – θ) | y – с |, если y < c, и значение θ|y – с|, если y ≥ c. Функция ρθ(z) является асимметричной функцией от модуля z. При этом вес (1 – θ) присваивается отрицательным z, а вес θ присваивается положительным z.

Квантильная регрессия предполагает, что условный квантиль порядка θ случайной величины Y линейно зависит от регрессоров Xj, j = 1,…,p,

missing image file (2)

Квантильная регрессия позволяет получить иную, по сравнению с классической регрессией, информацию о поведении эндогенной переменной. Применяя её при различных значениях уровня квантиля θ, мы можем получить набор квантильных регрессий вместо единственной, получаемой с помощью метода наименьших квадратов, и тем самым мы получаем более полную картину поведения исследуемого показателя. Существенное преимущество состоит также в том, что метод квантильной регрессии не является параметрическим методом. Кроме того, квантильная регрессия устойчива к выбросам в наблюдаемых регрессорах. Она также предоставляет возможность её использования при гетероскедастичности ошибок регрессии. Это позволяет не прибегать к различным ухищрениям для ослабления влияния гетероскедастичности на оценки, тем более что это не всегда возможно.

Результаты исследования и их обсуждение

Рассмотрим задачу моделирования влияния индекса цен на коэффициент рождаемости в субъектах Российской Федерации с помощью квантильной регрессии в среде R и в Gretl.

Первая модель была получена в Gretl для квантиля 0,9 и варианта «Вычислить стандартные ошибки» при отключённом «Робастные стандартные ошибки / интервалы».

Модель 1: Квантильная оценка, использованы наблюдения 1-82

Зависимая переменная: Y

tau = 0,9

 

Коэффициент

Ст. ошибка

t-статистика

P-значение

 

const

193,497

45,9010

4,216

<0,0001

***

X

−1,74286

0,440091

−3,960

0,0002

***

Медиана зав. перемен

9,650000

 

Ст. откл. зав. перемен

2,143853

Сумма модулей ошибок

169,9286

 

Сумма кв. остатков

487,2063

Уравнение квантильной регрессии порядка τ = 0,9 имеет вид

missing image file

Все коэффициенты модели значимы. Выборочный коэффициент регрессии missing image file при xi отрицательный, missing image file. Это означает, что для 10 % регионов, в которых коэффициент рождаемости находится выше предсказанного по 90 %-му уравнению квантильной регрессии, повышение индекса цен на единицу приводит в среднем к падению коэффициента рождаемости на 1,74.

В меню Модель1 при выборе Анализ/Матрица коэффициентов ковариации была получена автоковариационная матрица, на главной диагонали которой находятся дисперсии коэффициентов регрессии:

 

const

X

const

2106,9

-20,2

X

-20,2

0,19368

Вектор оценок коэффициентов квантильной регрессии missing image file имеет асимптотически нормальное распределение. В протоколе модели 1 приведены стандартные ошибки параметров missing image file (missing image file) и соответствующие t-статистики. Далее доверительные границы параметров получаются в виде missing image file, где t* ‒ критическое значение для заданного уровня значимости. Эти доверительные границы можно получить при выборе в меню Окно модели/Анализ/Доверительные интервалы для коэффициентов:

t(80, 0,025) = 1,990

Переменная

Коэффициент

95 доверительный интервал

const

193,497

(102,151, 284,843)

X

-1,74286

(-2,61867, -0,867049)

Gretl и R предоставляют возможность получения доверительных интервалов missing image file разными способами. Коэффициенты квантильной регрессии для всех методов одинаковые. Различаются лишь 5 %-ные доверительные интервалы коэффициентов. Они получены при разных допущениях относительно отклонений от регрессии. В основном рассматриваются 3 варианта предположений относительно отклонений: независимые одинаково распределённые (i.i.d), не независимые одинаково распределённые (n.i.d), независимые неодинаково распределённые (i.ni.d). К тому же предоставляется возможность выбора робастных или неробастных методов оценки. Выбор того или иного допущения предоставляется пользователю.

В Gretl можно задать не один квантиль, а список квантилей. В этом случае будут вычислены оценки коэффициентов квантильной регрессии, их стандартные ошибки и доверительные интервалы для каждого из указанных значений.

При выдаче протокола Наблюдаемые и расчетные значения некоторые наблюдения помечаются * – это означает, что ошибка квантильной регрессии для этого наблюдения выходит за пределы 2,5 единиц стандартных ошибок. В нашем случае – это 3 наблюдения: 42 (Чеченская Республика) и 63 (Республика Тыва) имеют коэффициент рождаемости существенно выше предсказанного для данной группы регионов с высокой рождаемостью, а для 46-го наблюдения (Республика Мордовия) коэффициент рождаемости значительно ниже ожидаемого. Это явно аномальные наблюдения. Для классической регрессии они бы сильно повлияли на результаты моделирования, а для квантильной регрессии не имеет значения, насколько велико отклонение yi от ожидаемого значения, имеет значение только факт принадлежности наблюдения к данной группе.

Далее воспользуемся возможностью построения серии моделей квантильной регрессии с различными значениями квантилей, указав квантили от 0,1 до 0,9 с шагом 0,1 (Модель 3).

Модель 3: Квантильная оценка, использованы наблюдения 1-82

Зависимая переменная: Y

Асимптотические стандартные ошибки считаются независимыми и одинаково распределенными

tau Коэффициент Ст. ошибка t-статистика

-------------------------------------------------------

const 0,100 127,600 32,0240 3,98452

0,200 139,275 23,3508 5,96446

0,300 139,625 17,0092 8,20881

0,400 154,378 23,1615 6,66528

0,500 137,300 29,7506 4,61503

0,600 159,143 27,6001 5,76603

0,700 155,306 27,8035 5,58583

0,800 167,250 34,2478 4,88352

0,900 193,497 45,9010 4,21553

X 0,100 -1,14286 0,307040 -3,72218

0,200 -1,25000 0,223883 -5,58327

0,300 -1,25000 0,163081 -7,66491

0,400 -1,38889 0,222068 -6,25434

0,500 -1,22222 0,285244 -4,28483

0,600 -1,42857 0,264625 -5,39848

0,700 -1,38889 0,266575 -5,21013

0,800 -1,50000 0,328362 -4,56813

0,900 -1,74286 0,440091 -3,96022

Изменение значений коэффициента missing image file моделей в зависимости от значения квантиля τ приведено на рис. 2.

missing image file

Рис. 2. Изменение значений коэффициента missing image file

missing image file

Рис. 3. Графики квантильных регрессий при пяти различных τ и график классической регрессии

Коэффициент missing image file всех квантильных регрессий меньше нуля. Это означает, что все квантили с ростом индекса цен убывают, причём чем больше τ, тем скорость убывания больше. Для 10 % регионов, в которых коэффициент рождаемости выше 90 % условного квантиля, вычисленного по уравнению квантильной регрессии с уровнем квантиля τ = 0,9, скорость убывания границы подмножества, определяемой 90 %-ным условным квантилем коэффициента рождаемости, равна missing image file = -1,74 , а для 10 % регионов с условно низким коэффициентом рождаемости, лежащим ниже вычисленного по уравнению 10 %-ной квантильной регрессии значения, убывание квантиля при возрастании индекса цен на единицу составляет missing image file = -1,14, то есть при увеличении индекса цен на единицу 10 %-ный квантиль коэффициента рождаемости, отделяющий регионы с низкой рождаемостью от остальных регионов, уменьшится на 1,14. Это означает, что регионы с относительно высокой рождаемостью в существенно большей степени реагируют на рост индекса цен. По уравнению регрессии, полученному с помощью метода наименьших квадратов (МНК)), скорость убывания среднего значения коэффициента рождаемости составляет -1,577, то есть при увеличении индекса цен на 1 коэффициент рождаемости уменьшится в среднем на -1,577. Однако, как видим, на концах распределения коэффициента рождаемости скорость изменения коэффициента рождаемости сильно отличается от среднего значения и при прогнозировании коэффициента рождаемости целесообразно учитывать, принадлежит ли регион к группе с высокой или низкой рождаемостью.

Ниже приведены графики квантильных регрессий при τ, равных 0,1; 0,25; 0,5; 0,75; 0,9 и график классической регрессии для условного среднего Y.

С помощью такого рода графиков можно строить доверительные границы для предсказанных значений yi. Графики всех квантильных регрессий почти параллельны. Третий сверху график относится к классическому уравнению регрессии. Угловой коэффициент графика смещён, вероятно, под влиянием аномальных наблюдений, и потому этот график пересекается с графиком медианной регрессии. В данном случае прогнозировать значения yi предпочтительней по медианной регрессии.

Заключение

В заключение ещё раз подчеркнём, что квантильная и классическая регрессии не конкурируют между собой, а взаимно дополняют друг друга. Они отвечают на разные вопросы. Если в центре внимания классической регрессии лежит математическое ожидание условного среднего в зависимости от того, какое значение примет определённый набор параметров, называемых регрессорами, то в квантильной регрессии изучается математическое ожидание условных квантилей случайной величины в зависимости от того, какое значение примет набор регрессоров.