ПОДХОД К РЕШЕНИЮ ПРОБЛЕМЫ МУЛЬТИКОЛЛИНЕАРНОСТИ С ПОМОЩЬЮ ПРЕОБРАЗОВАНИЯ ПЕРЕМЕННЫХ

Орлова И.В. 1

1 Финансовый университет при Правительстве Российской Федерации» (Финансовый университет)

Построение эконометрических моделей, их анализ и прогнозирование эндогенной переменной Y по значениям экзогенных переменных X1, X2, …Xm зачастую затруднено наличием мультиколлинеарности переменных X1, X2, … Xm. Мультиколлинеарность приводит к ряду негативных последствий при построении и анализе уравнения регрессии. Это приводит к необходимости тем или иным способом избавиться от неё или ослабить степень мультиколлинеарности. В работе предлагается метод неполной ортогонализации исходных переменных путём замены переменных, приводящий к поддающимся содержательной интерпретации результатам и позволяющий, в силу взаимно-однозначного соответствия исходных и новых переменных, получать прогнозные оценки значения Y, переходить при необходимости от коэффициентов регрессии по новым переменным к коэффициентам регрессии по исходным регрессорам. При этом получены соответствующие формулы перехода для коэффициентов регрессии, ковариационных матриц коэффициентов регрессии, вычисления прогнозных значений новых переменных по прогнозным значениям исходных переменных. Предлагаемый метод замены переменных позволяет существенно уменьшить степень мультиколлинеарности регрессоров, получить интерпретируемые коэффициенты уравнения регрессии и оценить вклад каждого фактора. Применение метода иллюстрируется на примере из более ранней работы автора, продолжением которой можно считать данную работу.

Статья в формате PDF

0 KB

мультиколлинеарность

регрессия

индекс обусловленности

ортогонализация переменных

1. Айвазян С.А. Методы эконометрики. М.: Магистр: ИНФРА-М, 2010. 512 c.

2. Шитиков В.К., Мастицкий С.Э. Классификация, регрессия и другие алгоритмы Data Mining с использованием R. 2017351 с. [Электронный ресурс]. URL: https://github.com/ranalytics/data-mining (дата обращения: 12.03.2019).

3. Орлова И.В. Анализ инструментов языка R для решения проблемы мультиколлинеарности данных // Современные наукоемкие технологии. 2018. № 6. С. 129–137.

4. Проект R для статистических вычислений. [Электронный ресурс]. URL: http://www.r-project.org/ (дата обращения: 12.03.2019).

5. Орлова И.В. Подход к решению проблемы мультиколлинеарности при анализе влияния факторов на результирующую переменную в моделях регрессии // Фундаментальные исследования. 2018. № 3. С. 58–63.

6. Орлова И.В. Анализ диагностических индикаторов общей и индивидуальной коллинеарности регрессоров // Фундаментальные исследования. 2019. № 2. С. 16–20.

7. Muhammad Imdad Ullah, Muhammad Aslam Multicollinearity Diagnostic Measures. Package ‘mctest’. [Electronic resource]. URL: https: //cran.r-project.org/web/packages/mctest/mctest.pdf (date of access: 12.03.2019).

8. Muhammad Imdad Ullah, Muhammad Aslam, Saima Altaf mctest: An R Package for Detection of Collinearity among Regressors. The R. Journal. 2016. Vol. 8:2. Р. 495–505.

9. Belsley D.A., Kuh E., Welsch R.E. Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. John Wiley & Sons; N.Y., 1980. P. 297.

10. Дрейпер Норман, Смит Гарри. Прикладной регрессионный анализ. 3-е изд. Пер. с англ. М.: Издательский дом «Вильямс», 2007. 912 с.

Построение эконометрических моделей, их анализ и прогнозирование эндогенной переменной Y по значениям экзогенных переменных X1, X2, …, Xm, зачастую затруднено наличием мультиколлинеарности исходных переменных. Переменные называют мультиколлинеарными, если они связаны корреляционной связью почти линейно [1]. В практических исследованиях экзогенные переменные, как правило, в той или иной степени коррелированы. Методы обнаружения мультиколлинеарности реализованы практически во всех пакетах программ эконометрического моделирования [2–4]. Нежелательные последствия мультиколлинеарности приводят к необходимости тем или иным способом избавиться от нее или ослабить степень мультиколлинеарности [5]. Самым распространённым приёмом ослабления мультиколлинеарности является удаление из модели «виновных в мультиколлинеарности» исходных переменных. Однако это приводит к обеднению модели, к невозможности исследовать достаточно полно влияние экзогенных переменных на эндогенную переменную. Другой приём состоит в линейном преобразовании переменных, приводящем к новым, ортогональным, переменным. Обычно речь идёт о преобразовании к главным компонентам. Однако главные компоненты, являясь линейными комбинациями всех экзогенных переменных, плохо поддаются содержательной интерпретации и потому значения коэффициентов регрессии по главным компонентам мало что говорят исследователю о влиянии исходных переменных на Y. К тому же последние главные компоненты, соответствующие близким к нулю и фактически незначимым собственным числам ковариационной матрицы исходных переменных, неустойчивы к незначительным колебаниям исходных переменных и их обычно удаляют из модели. Третьим способом борьбы с мультиколлинеарностью является применение ридж-регрессии для оценки коэффициентов регрессии. Однако при этом оценки получаются смещёнными, и пользоваться этим методом надо с осторожностью.

В данной работе предлагается метод неполной ортогонализации исходных переменных путём замены переменных, приводящий к поддающимся содержательной интерпретации результатам и позволяющий, в силу взаимно-однозначного соответствия исходных и новых переменных, получать прогнозные оценки значения Y, переходить при необходимости от коэффициентов регрессии по новым переменным к коэффициентам регрессии по исходным регрессорам. При этом получены соответствующие формулы перехода для коэффициентов регрессии, ковариационных матриц коэффициентов регрессии, вычисления прогнозных значений новых переменных по прогнозным значениям исходных переменных.

Материалы и методы исследования

Суть предлагаемого метода состоит в том, что некоторые переменные, коррелированные с другими, заменяются на остатки от регрессии этих переменных на другие регрессоры, имеющие с ними корреляционную связь. При этом никаких допущений относительно этих остатков не делается. Полученные коэффициенты уравнений регрессии используются только для вычисления остатков, которые равны разности между самой заменяемой переменной и вычисленными по уравнению регрессии значениями этой переменной. Таким образом, новые переменные являются линейными комбинациями исходных переменных и константы. Предлагаемый метод замены переменных позволяет существенно уменьшить степень мультиколлинеарности.

Результаты исследования и их обсуждение

Рассмотрим линейную регрессию эндогенной переменной Y на экзогенные переменные X1, X2…., Xm. Количество наблюдений равно n. Сведём наблюдения значений независимых переменных Xj в матрицу X размерности n×(m + 1), первый столбец матрицы X состоит из единиц.

Спецификация модели линейной регрессии имеет вид

orl01.wmf (1)

где orl02.wmf – значение Xj в i-м наблюдении, ε_i – остаточный член регрессии, удовлетворяющий условиям Гаусса – Маркова.

Допустим, что регрессоры мультиколлинеарны и среди них есть группы тесно связанных между собой переменных. Выберем последовательно в каждой группе одну или несколько переменных и с помощью метода наименьших квадратов (МНК) определим коэффициенты дополнительных регрессий выбранных переменных на остальные переменные группы. Остатки этих регрессий обозначим через Uj. Далее будем называть выбранные регрессоры Xj, которые выступали в роли зависимых переменных в дополнительных регрессиях, «выбранными» переменными, а остальные регрессоры Xj – «не выбранными» переменными.

Уравнение регрессии «выбранных» Xj на «не выбранные» регрессоры группы имеет вид

orl03.wmf (2)

где orl04.wmf – остатки Uj от регрессии Xj на остальные регрессоры в i-м наблюдении, orl06.wmf – коэффициент регрессии Xj при переменной Xk. Коэффициенты регрессии в (2), как отмечалось, будем находить с помощью МНК, при этом никаких допущений относительно остатков Uj не делается.

Из (2) получаем

orl07.wmf (3)

Как видим, Uj являются линейной комбинацией исходных регрессоров X1, X2…., Xm и константы.

Обозначим через U матрицу значений новых регрессоров размерности n×(m + 1). По столбцам матрицы, соответствующим «выбранным» Xj, находятся orl08.wmf – значения остатков Uj для наблюдения i, столбцы, соответствующие «не выбранным» Xj, равны соответствующим столбцам матрицы X; элементы первого столбца orl09.wmf равны единице.

Рассмотрим матрицу A преобразования переменных Xj, представленного формулой (3). Для «выбранных» Xj элементы матрицы определяются равенством (3), для «не выбранных» Xj столбцы матрицы A равны единичному вектору с единицей на (j + 1)-ом месте, поскольку Uj = Xj. Матрица преобразования переменных A, если бы все Xj заменялись бы на остатки регрессий Xj на все остальные регрессоры, имела бы вид

	1	–		. . .	–	–
	0	1	–	. . .	–	–
A =	0		1	. . .	–	–
	0		–	. . .	–	–
	. . .	. . .	. . .	. . .	. . .	. . .
	0	–		. . .	–	1

В соответствии с (3) матрицы X и U удовлетворяют равенству

U = X·A. (4)

Остатки Uj коррелируют между собой гораздо меньше, чем Xj между собой. Поэтому, если исходные переменные Xj даже мультиколлинеарны, Uj могут быть почти ортогональны и потому вычисление коэффициентов регрессии и их интерпретация по новым переменным не связано с преодолением мультиколлинеарности регрессоров.

Матрица A является невырожденной (если только Xj не являются строго мультиколлинеарными). Отсюда получаем, что преобразование переменных, определяемое матрицей A, является взаимно-однозначным.

Обозначим через γ и β векторы коэффициентов регрессии Y на новые переменные и на Xj соответственно, orl28.wmf , orl29.wmf . Поскольку преобразование, определяемое матрицей A, является взаимно-однозначным, то минимумы суммы квадратов остатков обеих регрессий, т.е. Y-X·β и Y-U·γ, совпадают и вектор остатков регрессии Y на новые переменные совпадает с вектором остатков от регрессии Y на Xj. Очевидно, совпадают и коэффициенты детерминации обеих регрессий.

Получим формулу, описывающую взаимосвязь γ и β.

Уравнения регрессий Y на Uj и Xj можно записать в виде

Y = X·β + ε, (5)

Y = U·γ + ε. (6)

Подставим (4) в (6):

Y = X•A•γ + ε. (7)

Сравнивая (7) с (5), получаем формулу, показывающую взаимосвязь коэффициентов регрессии:

β = A·γ. (8)

Ковариационную матрицу cov(β) вектора коэффициентов регрессии β вычисляем исходя из того, что коэффициенты регрессии β_j являются, в соответствии с (8), линейными комбинациями коэффициентов γ_k (k = 0,1,…,m),

cov(β) = A·cov(γ)·AT.

Коэффициенты γ_j регрессии Y на новые переменные можно трактовать как приращение Y при изменении Xj на единицу, учитывающее соответствующие изменения остальных регрессоров, то есть при условии, что корреляционная матрица регрессоров при этом не изменяется. В этом случае мы трактуем каждую выбранную переменную как состоящую из двух частей. Одна часть формируется под влиянием корреляционных связей с другими регрессорами, а другая часть – Uj представляет собой «специфическую компоненту», не связанную или слабо связанную с остальными регрессорами Xj. Если меняем на единицу только сам этот фактор, не затрагивая его корреляционных связей с другими факторами, то меняем только его «специфическую» часть, а это и есть остаток Uj.

Для прогнозирования значения Y при значениях регрессоров, равных Xпр = ( orl30.wmf , можно воспользоваться уравнением регрессии по исходным переменным (5). Однако можно и не переходить к регрессии по Xj, а воспользоваться уравнением регрессии по Uj. Для этого надо вычислить прогнозное значение Uпр = orl31.wmf по формуле (4): Uпр = Xпр•A и далее воспользоваться оценками коэффициентов уравнения регрессии (6).

Предложенный метод уменьшения мультиколлинеарности проиллюстрируем на примере данных, описанных в работе [3, с. 130], так как данная статья является логическим ее продолжением.

Наличие межфакторных связей проверим с помощью матрицы коэффициентов парной корреляции. На рис. 1 представлена визуализация корреляционной матрицы, полученная в среде R.

На рис. 2 приведены результаты построения регрессии Y на X1, X2, X3, X4, X5 в среде R. Коэффициент детерминации достаточно высокий – 0,89; уравнение регрессии значимо, а все его коэффициенты незначимы (р = 0,01), что является признаком частичной (нестрогой) мультиколлинеарности.

Тестирование мультиколлинеарности с помощью наиболее популярного метода факторов инфляции дисперсии (VIF) в среде R [6] не только подтвердило наличие мультиколлинеарности (VIF>5), но и выявило факторы, приводящие к ней – Х1 и Х5 (рис. 3).

> library("PerformanceAnalytics")

> tabgr <- tab11[, c(1,2,3,4,5)]

> chart.Correlation(tabgr, histogram=TRUE)

orlov1.tif

Рис. 1. Матрица коэффициентов парной корреляции

orlov2.wmf

Рис. 2. Результат оценки параметров регрессионной модели по всем факторам

Результат выполнения функции eigprop [7–8] (тестирование мультиколлинеарности по методу Белсли) [9–10] приведен на рис. 4. Наибольшее значение индекса обусловленности (CI) в строке 6, равное 376,49, свидетельствует о наличии мультиколлинеарности. В этой строке наибольшие значения среди факторов имеют Х1 и Х5, значит, между этими факторами существует тесная взаимосвязь (заметим, что, по сравнению с предыдущими тестами, появилась новая информация – в пятой строке зафиксирована тесная взаимосвязь между переменными Х3 и Х4). В таких случаях рекомендуется одну из переменных, Х1 или Х5, удалить из модели. В данном случае целесообразно удалить Х1, тем более что и Р-значение t-статистики коэффициента регрессии при Х1 равно 0,225, и знак коэффициента регрессии отрицательный, в то время как коэффициент корреляции между Y и X1 положительный.

Однако мы не станем удалять Х1, а заменим Х5 на сумму слагаемых X5 = orl32.wmf + U5, где orl33.wmf . Оценивать коэффициенты orl34.wmf и orl35.wmf будем с помощью МНК. Уравнение регрессии примет вид

orl36.wmf

orl37.wmf

orl38.wmf

orl39.wmf (9)

где orl40.wmf , orl41.wmf , orl42.wmf , j = 2, 3, 4, 5; ε_i – остаточный член регрессии.

Оценим параметры модели orl43.wmf (рис. 5) и получим остатки U5 = X5 – orl44.wmf .

orlov3.wmf

Рис. 3. Факторы инфляции дисперсии параметров регрессии Y по всем переменным

orlov4.wmf

Рис. 4. Результат диагностики коллинеарности по методу Белсли [3, с. 133]

orlov5.wmf

Рис. 5. Результат оценки параметров регрессионной модели «выбранного» фактора X5

orlov6.wmf

Рис. 6. Результат оценки параметров регрессионной модели по новым переменным

Далее оценим параметры модели orl49a.wmf orl49b.wmf (рис. 6).

Коэффициент регрессии β5 при U5 оказался тем же самым, что и коэффициент регрессии при X5. Коэффициент регрессии β1 при X1 отличается от нового коэффициента регрессии при X1 на величину orl47.wmf Связь между коэффициентами регрессии β_j и γ_j можно получить и без выкладок (9) – по формуле (8): β = A·γ, где матрица A преобразования (3) в данном случае имеет вид

orl48.wmf

У нас

β^T = (-3017,4; -13,42; 6,67; -6,48; 12,24; 30,48)

γ^T = (14,80; 14,32; 6,67; -6,48; 12,24; 30,48)

Подставляя в (8) A и γ, получаем приведённый выше вектор β. Итак, получили, что уравнение регрессии на новые переменные имеет вид

orl49.wmf

В это уравнении регрессии значимо вошли X1, X2, U5 (рис. 6). Коэффициент детерминации равен 0,89.

Далее можно было бы попытаться решить проблему мультиколлинеарности, связанную с Х3, Х4. Однако эти переменные слабо коррелируют с Y и их включение в модель мало изменит коэффициент детерминации. К тому же на основании больших P-значений у нас есть все основания исключить Х3, Х4 из модели регрессии. Окончательно получаем модель с тремя переменными Х1, Х2, U5 (рис. 7). Все P-значения коэффициентов не превосходят 0,02. Коэффициент детерминации уменьшился менее чем на 0,01.

Все VIF(j) не превосходят 1,64 (рис. 8). Как видим, после выполненных преобразований мультиколлинеарность в данных практически отсутствует.

Сравним коэффициенты регрессии и их характеристики уравнений регрессии Y по X1, X2, U5 и Y по X1, X2, X5 (табл. 1) и (табл. 2).

Таблица 1

Параметры результирующей модели регрессии

	γ0	γ1	γ2	γ5
	const	X1	X2	U5
Коэффициент	121,9	13,85	7,23	30,95
t-статистика	4,01	6,40	2,72	3,01
P-значение	0,00	<0,0001	0,02	0,01

orlov7.wmf

Рис. 7. Результат оценки параметров регрессионной модели по переменным Х1, Х2, U5

orlov8.wmf

Рис. 8. Факторы инфляции дисперсии параметров регрессии Y по переменным Х1, Х2, U5

Таблица 2

Параметры модели регрессии по исходным переменным X1, X2, X5

	β0	β1	β2	β5
	const	X1	X2	X5
Коэффициент	2958	–14,32	7,23	30,95
t-статистика	2,93	–1,52	2,72	3,01
P-значение	0,01	0,15	0,02	0,01

Коэффициенты β2 и β5 и их характеристики совпадают с γ2 и γ5, а β1 не только не близок к γ1, но имеет отрицательный знак, несмотря на положительный коэффициент корреляции Y с X1. Очевидно, что по коэффициентам β уравнения регрессии Y по исходным переменным нецелесообразно анализировать степень влияния отдельных регрессоров на Y. В то же время, после замены переменных, если бы регрессоры были бы ортогональны, коэффициенты регрессии нормированного уравнения регрессии были бы равны коэффициентам корреляции регрессоров с Y. У нас же регрессоры не строго ортогональны и коэффициенты корреляции Y с X1 не строго, а приблизительно равны соответствующим коэффициентам регрессии. Коэффициент корреляции Y с X1 равен 0,678, а коэффициент нормированного уравнения регрессии при X1 равен 0,641. Это подтверждает высказанное выше утверждение относительно интерпретации коэффициентов регрессии по новым переменным, полученным после замены переменных.

Заключение

Предложенный метод неполной ортогонализации исходных переменных путём замены переменных позволяет уменьшить степень мультиколлинеарности регрессоров, получить интерпретируемые коэффициенты уравнения регрессии и оценить вклад каждого фактора в изменение эндогенной переменной.

Библиографическая ссылка

Орлова И.В. ПОДХОД К РЕШЕНИЮ ПРОБЛЕМЫ МУЛЬТИКОЛЛИНЕАРНОСТИ С ПОМОЩЬЮ ПРЕОБРАЗОВАНИЯ ПЕРЕМЕННЫХ // Фундаментальные исследования. 2019. № 5. С. 78-84;
URL: https://fundamental-research.ru/ru/article/view?id=42464 (дата обращения: 14.07.2025).

Научный журнал
Фундаментальные исследования

ISSN 1812-7339

"Перечень" ВАК

ИФ РИНЦ = 1,984

Библиографическая ссылка

Фундаментальные исследования
Научный журнал | ISSN 1812-7339 | ПИ №77-63397