Scientific journal
Fundamental research
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,222

APPROACH TO THE SOLUTION OF THE MULTICOLLINEARITY PROBLEM AT THE ANALYSIS OF THE INFLUENCE OF THE FACTORS ON THE RESULTING VARIABLE IN MODELS OF REGRESSION

Orlova I.V. 1
1 Financial University under the Government of the Russian Federation
Данная статья посвящена рассмотрению методики отбора и ранжирования информативных факторов по степени их влияния на результирующую переменную в моделях регрессионного анализа в условиях мультиколлинеарности данных. Важную роль при оценке влияния факторов играют коэффициенты регрессионной модели. Однако непосредственно с их помощью нельзя сопоставить факторы по степени их влияния на зависимую переменную из-за различия единиц измерения и разной степени колеблемости. Для устранения таких различий при интерпретации применяются средние частные коэффициенты эластичности, бета-коэффициенты и дельта-коэффициенты, которые нельзя использовать при мультиколлинеарности данных. Для решения задачи уменьшения мультиколлинеарности предлагается подход, основанный на методе Белсли, позволяющий не только выявить мультиколлинеарность среди исходных регрессоров, но и определить переменные, которые показывают наибольшую вовлеченность в зависимости. Проиллюстрировано применение метода инфляционных факторов и метода Белсли для выявления и устранения мультиколлинеарности при решении задачи анализа значимости и степени влияния ряда традиционных показателей на переменную прибыль (убыток) до налогообложения ряда предприятий, относящихся к виду деятельности «Добыча сырой нефти за 2016 г.» Применение этих методов позволило устранить мультиколлинеарность и решить задачу ранжирования факторов по степени их влияния на результирующий показатель.
This article is devoted to the consideration of the method of selection and ranking of informative factors by the degree of their influence on the resulting variable in regression analysis models in conditions of multicollinear data. The coefficients of the regression model play an important role in assessing the influence of factors. However, directly with their help, it is impossible to compare the factors by the degree of their influence on the dependent variable because of the difference in units of measure and the varying degree of variability. To eliminate such differences, the interpretation uses the average partial elasticity coefficients, beta coefficients and delta coefficients, which cannot be used for multicollinear data. To solve the problem of reducing multi-collinearity, an approach based on the Balsley method is proposed, which allows not only to show multicollinearity among the initial regressors, but also to determine the variables that show the greatest involvement in the dependence. Application of a method of inflationary factors and the Balsley method for identification and elimination of multicollinearity is illustrated at the solution of a task of the analysis of the importance and extent of influence of a number of traditional indicators on variable profit (loss) before the taxation of a number of the enterprises relating to a kind of activity Extraction of crude oil for 2016. Application of these methods has allowed to eliminate multicollinearity and to solve a problem of ranging of factors of extent of their influence on a resultant indicator.
multifactorial regression model
elasticity coefficients
delta coefficients
multicollinearity
conditionation coefficient (index)

Эконометрическое моделирование используется для решения различных прикладных задач. Но по конечным целям С.А. Айвазян выделяет две основные: «(а) прогноз экономических и социально-экономических показателей (переменных); (б) имитация различных возможных сценариев социально-экономического развития анализируемой системы, когда статистически выявленные взаимосвязи между характеристиками производства, потребления, социальной и финансовой политики и т.п. используются для прослеживания того, как планируемые (возможные) изменения тех или иных поддающихся управлению параметров производства или распределения скажутся на значениях интересующих нас «выходных» характеристик» [1]. При решении задач второго типа возможно использование многофакторных регрессионных моделей для выявления и ранжирования факторов по степени их влияния на результирующую переменную. В первую очередь при оценке влияния факторов на эндогенную переменную учитывают значения коэффициентов регрессионной модели. Однако непосредственно с их помощью нельзя сопоставить факторы по степени их влияния на зависимую переменную из-за различия единиц измерения и разной степени колеблемости [2].

Для устранения таких различий при интерпретации применяются средние частные коэффициенты эластичности, бета-коэффициенты и дельта-коэффициенты [2].

Коэффициенты эластичности orl01.wmf позволят сравнивать факторы в процентах и могут быть вычислены не только для линейной функции. Коэффициенты эластичности показывают, на сколько процентов в среднем изменится зависимая переменная при изменении объясняющей переменной на один процент при фиксированных значениях других объясняющих переменных. Коэффициент эластичности не учитывает степень колеблемости факторов.

Для решения вопроса сравнения силы влияния факторов, имеющих разную степень колеблемости, используют бета-коэффициенты, или коэффициенты регрессии в стандартизованном виде: orl02.wmf. Стандартизованные коэффициенты сравнимы между собой, поэтому с их помощью можно ранжировать факторы по силе воздействия на результирующую переменную. Бета-коэффициент показывает, на какую часть величины среднего квадратического отклонения Sy изменится эндогенная переменная с изменением соответствующей экзогенной переменной xj на величину своего среднеквадратического отклонения при фиксированном значении остальных независимых переменных.

Перечисленные коэффициенты позволяют упорядочить факторы по степени влияния факторов на эндогенную переменную. Однако еще раз обратим внимание на важный момент – коэффициенты эластичности, бета-коэффициенты, как и коэффициенты регрессии, могут интерпретироваться только при условии, что остальные переменные в модели регрессии неизменны, когда изменение одной переменной не приводит к изменению других переменных [2].

При наличии мультиколлинеарности переменных по коэффициентам регрессии нельзя судить о влиянии этих переменных на функцию [3]. Существуют различные методы, направленные на выявление мультиколлинеарности: анализ матриц коэффициентов парной и частной корреляции, метод Фаррара – Глоубера [3], метод дополнительных регрессий, тесно связанный с методом инфляционных факторов (VIF) и другие. Выявление мультиколлинеарности с помощью VIF реализовано во многих программах, в том числе в R и Gretl [4].

Фактор инфляции дисперсии VIF (Variance Inflation Factor) показывает, во сколько раз увеличивается (вздувается) дисперсия коэффициента регрессии за счёт коррелированности регрессоров X1,…,Xk по сравнению с дисперсией этого коэффициента, если бы регрессоры были некоррелированы. Фактор инфляции дисперсии вычисляется по формуле

orl03.wmf,

где orl04.wmf – коэффициент детерминации j-го регрессора Xj, (j = 1,…,k, k – число факторов модели), по всем остальным регрессорам. Если фактор инфляции дисперсии равен единице, то это свидетельствует об ортогональности вектора значений признака остальным. Высокие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных, происходящей из-за высокой корреляции данных. Принято считать, что значение от 1 до 2 (orl05.wmf от 0 до 0,5) означает, что включение Xj в модель не приводит к мультиколлинеарности.

Если VIFj = 16, то стандартная ошибка оценки параметра βj в 4 раза orl06.wmf превышает эту оценку, полученную при полном отсутствии мультиколлинеарности. Считается, что если orl07.wmf то данный регрессор приводит к мультиколлинеарности. Недостатками этого критерия мультиколлинеарности является то, что он может принимать большие значения сразу для нескольких признаков, что мешает определить, какой из признаков необходимо удалить.

В программе Gretl представлен ещё один метод, основанный на вычислении собственных значений и собственных векторов матрицы XTX, позволяющий не только выявить мультиколлинеарность среди исходных регрессоров, но и определить переменные, которые показывают наибольшую вовлеченность в зависимости. Этот метод известен как метод Белсли [5]. В Gretl метод представлен как диагностика коллинеарности Belsley-Kuh-Welsch (BKW).

Если матрица XTX обратима, то

orl08.wmf,

где orl09.wmf – матрица, обратная к диагональной матрице собственных значений матрицы XTX, расположенных в порядке убывания; U – матрица, столбцами которой являются нормированные собственные векторы, то есть сумма квадратов координат каждого вектора равна 1.

Дисперсия коэффициента регрессии orl10.wmf равна

orl11.wmf,

где orl12.wmf – выборочная дисперсия остатков.

Вычислив диагональные элементы матрицы orl13.wmf, получаем представление oценки дисперсии параметров регрессии в виде суммы p слагаемых

orl14.wmf

где λk – собственное число матрицы XTX; p – количество параметров в модели регрессии, λ1 > λ2 > … > λp,

qij – доля j-го собственного вектора в дисперсии i-го коэффициента регрессии orl15.wmf:

orl16.wmf.

Коэффициент (индекс) обусловленности ηj вычисляется по формуле

orl17.wmf,

где orl18.wmf – максимальное собственное число.

Для обнаружения мультиколлинеарности признаков в программе Gretl выдаются значения факторов инфляции дисперсии (Метод инфляционных факторов) и таблица диагностики коллинеарности Belsley-Kuh-Welsch [6] (табл. 1), в которой каждая строка соответствует своему индексу обусловленности ηj, а элементы строки – значения qij.. Сумма элементов по столбцам равна 1.

Большие величины ηj означают, что, возможно, есть зависимость между регрессорами. Большие значения qij в строках, соответствующих большим величинам ηj, относятся к регрессорам, между которыми эта зависимость существует.

Вопрос о том, какое значение коэффициента обусловленности считать большим, решается в каждом конкретном случае индивидуально, в зависимости от ценности информации, её объёма, целей и задач исследования. Часто значения коэффициента обусловленности считаются большими, если они больше 10 [7].

Относительно близкое к нулю λj приводит к большим коэффициентам обусловленности. Нулевое значение λj означает, что существует строгая мультиколлинеарность. Большие значения коэффициентов обусловленности свидетельствуют о наличии зависимостей; большие значения долевых коэффициентов qij внутри соответствующих строк указывают столбцы матрицы Х, участвующие в зависимостях.

Отметим также, что если больших коэффициентов обусловленности больше одного, то в зависимостях могут участвовать все переменные, которые имеют большие суммарные значения коэффициентов в последних строках таблицы с большими коэффициентами обусловленности.

Проиллюстрируем применение метода инфляционных факторов и метода Белсли для выявления и устранения мультиколлинеарности при решении задачи анализа значимости и степени влияния ряда традиционных показателей на переменную прибыль (убыток) до налогообложения ряда предприятий, относящихся к виду деятельности «Добыча сырой нефти» (Система СПАРК 13.12.2017 [8]). Была сделана выборка данных, представляющих финансовые показатели 186 фирм за 2016 г. В качестве регрессоров модели использованы более 20 переменных – среднесписочная численность работников, рентабельность активов, стоимость основных производственных средств и оборудования, стоимость совокупных активов, материальные активы и др.

Таблица 1

Разложение дисперсии коэффициентов регрессии

Собственные числа матрицы XTX

(lambda)

Индекс обусловленности

(cond)

Доли дисперсии

const

x1

λ1

η1

q11

q21

qp1

λ2

η2

q12

q22

qp2

λp

ηp

q1p

q2p

 

qpp

 

На основании собранных данных была построена эконометрическая линейная модель множественной регрессии. Анализ мультиколлинеарности, выполненный средствами пакета Gretl, показал наличие сильной мультиколлинеарности (табл. 2 и рис. 1). Из табл. 2 видно, что факторы Х2, Х7, Х15 имеют самые большие значения VIF, скорее всего именно эти факторы приводят к мультиколлинеарности [7].

Анализ диагностики мультиколлинеарности по методу Белсли, фрагмент которой приведен на рис. 1, показал, что наибольшему значению индекса обусловленности равному 6317,33 соответствуют факторы Х2, Х7, Х12, Х15 с большими значениями qij, между этими факторами существует тесная зависимость. Выявив с помощью метода Белсли переменные, участвующие в зависимости, удаляем из регрессионной модели одну из этих переменных. На первом шаге удаляем Х2. Затем параметры модели оцениваются заново. Если обнаружена другая зависимость, исключаем из модели одну из переменных второй группы и далее повторяем исследование на мультиколлинеарность. Через несколько шагов была получена модель, не содержащая коллинеарных факторов, все коэффициенты которой значимы (рис. 2 и 3):

orl27a.wmf

orl1.tif

Рис. 1. Фрагмент диагностики коллинеарности по методу Белсли

Таблица 2

Значения инфляционных факторов

VIF(X1)

VIF(X2)

VIF(X3)

VIF(X4)

VIF(X5)

VIF(X6)

VIF(X7)

2,05

2132100

1,11

40,81

1,78

2,77

265088,9

             

VIF(X8)

VIF(X9)

VIF(X10)

VIF(X11)

VIF(X12)

VIF(X13)

VIF(X14)

13,66

985,55

4,66

4,46

1057523

6,73

7,05

             

VIF(X15)

VIF(X16)

VIF(X17)

VIF(X18)

VIF(X19)

VIF(X20)

VIF(X21)

92723,61

7,24

3,99

258,42

248,41

1,2

1,14

             

VIF(X22)

VIF(X23)

VIF(X24)

VIF(X25)

     

18,75

7,45

3,78

1,41

     

Среднее зав. перемен

3,69e+09

 

Ст. откл. зав. перемен

1,13e+10

Сумма кв. остатков

3,20e+21

 

Ст. ошибка модели

4,23e+09

R-квадрат

0,864876

 

Испр. R-квадрат

0,860346

F(6, 179)

190,9510

 

Р-значение (F)

4,93e-75

Лог. правдоподобие

-4383,098

 

Крит. Акаике

8780,197

Крит. Шварца

8802,777

 

Крит. Хеннана – Куинна

8789,347

 

Рис. 2. Результат оценки параметров модели МНК

orl3.tif

Рис. 3. Результат теста на мультиколлинеарность

В последнюю модель вошли следующие факторы: Х5 – Денежные средства, ед. RUB; Х9 – Займы и кредиты (долгосрочные), ед. RUB; Х15 – Краткосрочные обязательства, ед. RUB; Х17 – Нематериальные активы, ед. RUB; Х18 – Оборотные активы, ед. RUB; Х20 – Рентабельность активов (ROA), %. Коэффициент детерминации 0,865 и скорректированный коэффициент детерминации свидетельствуют о хорошем приближении модели исходным данным.

Анализ теста на мультиколлинеарность последней модели показал ее отсутствие. Значение факторов инфляции от 1 до 2,4; наибольшее значение индекса обусловленности 3,2 (рис. 3).

Избавившись от мультиколлинеарности, можно использовать полученное уравнение регрессии для оценки влияния факторов на зависимую переменную с помощью бета и дельта-коэффициентов Δ (j):

orl20.wmf,

где orl21.wmf – коэффициент парной корреляции между фактором Xj и зависимой переменной, R2 – коэффициент детерминации.

Дельта-коэффициент показывает долю влияния фактора в суммарном влиянии всех факторов [3]. Полученные результаты приведены в табл. 3, из которой можно сделать вывод, что наибольшее влияние на переменную прибыль (убыток) до налогообложения предприятий, относящихся к виду деятельности «Добыча сырой нефти» оказывает фактор Х18 – Оборотные активы (50,8 %), затем Х5 – Денежные средства (19,3 %) и Х17 – Нематериальные активы (15,4 %).

Таблица 3

Бета и дельта-коэффициенты

orl22.wmf

orl23.wmf

orl24.wmf

orl25.wmf

orl26.wmf

orl27.wmf

0,363

0,060

0,149

0,203

0,538

0,070

Δ5

Δ9

Δ15

Δ7

Δ18

Δ20

0,193

0,015

0,113

0,154

0,508

0,017

 

Таким образом, была решена задача ранжирования факторов по степени их влияния на результирующий показатель.