ПОДХОД К РЕШЕНИЮ ПРОБЛЕМЫ МУЛЬТИКОЛЛИНЕАРНОСТИ ПРИ АНАЛИЗЕ ВЛИЯНИЯ ФАКТОРОВ НА РЕЗУЛЬТИРУЮЩУЮ ПЕРЕМЕННУЮ В МОДЕЛЯХ РЕГРЕССИИ

Орлова И.В. 1

1 Финансовый университет при Прав ительстве Р оссийской Федерации (Финансовый университет)

Данная статья посвящена рассмотрению методики отбора и ранжирования информативных факторов по степени их влияния на результирующую переменную в моделях регрессионного анализа в условиях мультиколлинеарности данных. Важную роль при оценке влияния факторов играют коэффициенты регрессионной модели. Однако непосредственно с их помощью нельзя сопоставить факторы по степени их влияния на зависимую переменную из-за различия единиц измерения и разной степени колеблемости. Для устранения таких различий при интерпретации применяются средние частные коэффициенты эластичности, бета-коэффициенты и дельта-коэффициенты, которые нельзя использовать при мультиколлинеарности данных. Для решения задачи уменьшения мультиколлинеарности предлагается подход, основанный на методе Белсли, позволяющий не только выявить мультиколлинеарность среди исходных регрессоров, но и определить переменные, которые показывают наибольшую вовлеченность в зависимости. Проиллюстрировано применение метода инфляционных факторов и метода Белсли для выявления и устранения мультиколлинеарности при решении задачи анализа значимости и степени влияния ряда традиционных показателей на переменную прибыль (убыток) до налогообложения ряда предприятий, относящихся к виду деятельности «Добыча сырой нефти за 2016 г.» Применение этих методов позволило устранить мультиколлинеарность и решить задачу ранжирования факторов по степени их влияния на результирующий показатель.

Статья в формате PDF

0 KB

многофакторная регрессионная модель

коэффициенты эластичности

дельта-коэффициенты

мультиколлинеарность

коэффициент (индекс) обусловленности

1. Айвазян С.А. Методы эконометрики. – М.: Магистр: ИНФРА-М, 2010. – 512 c.

2. Орлова И.В., Половников В.А. Экономико-математические методы и модели: компьютерное моделирование: учебное пособие, 3-е изд., перераб. и доп. – М.: Вузовский учебник: ИНФРА-М, 2012. – 389 с.

3. Орлова И.В., Турундаевский В.Б. Многомерный статистический анализ при исследовании экономических процессов: монография. – М.: МЭСИ, 2014. —190 c.

4. Куфель Т. Эконометрика. Решение задач с применением пакета программ Gretl. [Текст] – M.: Горячая линия – Телеком, 2007. – 200 с.

5. Regression Diagnostics – Identifying Influential Data and Sources of Collinearity / David A. Belsley, Edwin Kuh, Roy E. Welsch // John Wiley & Sons. – N.Y., 1980. – P. 297.

6. Дрейпер Норман, Смит Гарри. Прикладной регрессионный анализ, 3-е изд.: Пер. с англ. – М.: Издательский дом «Вильямс», 2007. – 912 с.

7. Орлова И.В., Филонова Е.С. Выбор экзогенных факторов в модель регрессии при мультиколлинеарности данных // Международный журнал прикладных и фундаментальных исследований. – 2015. – № 5–1. – С. 108–116.

8. СПАРК – Проверка контрагента [Электронный ресурс]. – Режим доступа: http://www.spark-interfax.ru (дата обращения 13.12.2017).

Эконометрическое моделирование используется для решения различных прикладных задач. Но по конечным целям С.А. Айвазян выделяет две основные: «(а) прогноз экономических и социально-экономических показателей (переменных); (б) имитация различных возможных сценариев социально-экономического развития анализируемой системы, когда статистически выявленные взаимосвязи между характеристиками производства, потребления, социальной и финансовой политики и т.п. используются для прослеживания того, как планируемые (возможные) изменения тех или иных поддающихся управлению параметров производства или распределения скажутся на значениях интересующих нас «выходных» характеристик» [1]. При решении задач второго типа возможно использование многофакторных регрессионных моделей для выявления и ранжирования факторов по степени их влияния на результирующую переменную. В первую очередь при оценке влияния факторов на эндогенную переменную учитывают значения коэффициентов регрессионной модели. Однако непосредственно с их помощью нельзя сопоставить факторы по степени их влияния на зависимую переменную из-за различия единиц измерения и разной степени колеблемости [2].

Для устранения таких различий при интерпретации применяются средние частные коэффициенты эластичности, бета-коэффициенты и дельта-коэффициенты [2].

Коэффициенты эластичности orl01.wmf позволят сравнивать факторы в процентах и могут быть вычислены не только для линейной функции. Коэффициенты эластичности показывают, на сколько процентов в среднем изменится зависимая переменная при изменении объясняющей переменной на один процент при фиксированных значениях других объясняющих переменных. Коэффициент эластичности не учитывает степень колеблемости факторов.

Для решения вопроса сравнения силы влияния факторов, имеющих разную степень колеблемости, используют бета-коэффициенты, или коэффициенты регрессии в стандартизованном виде: orl02.wmf . Стандартизованные коэффициенты сравнимы между собой, поэтому с их помощью можно ранжировать факторы по силе воздействия на результирующую переменную. Бета-коэффициент показывает, на какую часть величины среднего квадратического отклонения Sy изменится эндогенная переменная с изменением соответствующей экзогенной переменной xj на величину своего среднеквадратического отклонения при фиксированном значении остальных независимых переменных.

Перечисленные коэффициенты позволяют упорядочить факторы по степени влияния факторов на эндогенную переменную. Однако еще раз обратим внимание на важный момент – коэффициенты эластичности, бета-коэффициенты, как и коэффициенты регрессии, могут интерпретироваться только при условии, что остальные переменные в модели регрессии неизменны, когда изменение одной переменной не приводит к изменению других переменных [2].

При наличии мультиколлинеарности переменных по коэффициентам регрессии нельзя судить о влиянии этих переменных на функцию [3]. Существуют различные методы, направленные на выявление мультиколлинеарности: анализ матриц коэффициентов парной и частной корреляции, метод Фаррара – Глоубера [3], метод дополнительных регрессий, тесно связанный с методом инфляционных факторов (VIF) и другие. Выявление мультиколлинеарности с помощью VIF реализовано во многих программах, в том числе в R и Gretl [4].

Фактор инфляции дисперсии VIF (Variance Inflation Factor) показывает, во сколько раз увеличивается (вздувается) дисперсия коэффициента регрессии за счёт коррелированности регрессоров X1,…,Xk по сравнению с дисперсией этого коэффициента, если бы регрессоры были некоррелированы. Фактор инфляции дисперсии вычисляется по формуле

orl03.wmf ,

где orl04.wmf – коэффициент детерминации j-го регрессора Xj, (j = 1,…,k, k – число факторов модели), по всем остальным регрессорам. Если фактор инфляции дисперсии равен единице, то это свидетельствует об ортогональности вектора значений признака остальным. Высокие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных, происходящей из-за высокой корреляции данных. Принято считать, что значение от 1 до 2 ( orl05.wmf от 0 до 0,5) означает, что включение Xj в модель не приводит к мультиколлинеарности.

Если VIF_j = 16, то стандартная ошибка оценки параметра βj в 4 раза orl06.wmf превышает эту оценку, полученную при полном отсутствии мультиколлинеарности. Считается, что если orl07.wmf то данный регрессор приводит к мультиколлинеарности. Недостатками этого критерия мультиколлинеарности является то, что он может принимать большие значения сразу для нескольких признаков, что мешает определить, какой из признаков необходимо удалить.

В программе Gretl представлен ещё один метод, основанный на вычислении собственных значений и собственных векторов матрицы XTX, позволяющий не только выявить мультиколлинеарность среди исходных регрессоров, но и определить переменные, которые показывают наибольшую вовлеченность в зависимости. Этот метод известен как метод Белсли [5]. В Gretl метод представлен как диагностика коллинеарности Belsley-Kuh-Welsch (BKW).

Если матрица XTX обратима, то

orl08.wmf ,

где orl09.wmf – матрица, обратная к диагональной матрице собственных значений матрицы XTX, расположенных в порядке убывания; U – матрица, столбцами которой являются нормированные собственные векторы, то есть сумма квадратов координат каждого вектора равна 1.

Дисперсия коэффициента регрессии orl10.wmf равна

orl11.wmf ,

где orl12.wmf – выборочная дисперсия остатков.

Вычислив диагональные элементы матрицы orl13.wmf , получаем представление oценки дисперсии параметров регрессии в виде суммы p слагаемых

orl14.wmf

где λ_k – собственное число матрицы XTX; p – количество параметров в модели регрессии, λ1 > λ2 > … > λp,

q_ij – доля j-го собственного вектора в дисперсии i-го коэффициента регрессии orl15.wmf :

orl16.wmf .

Коэффициент (индекс) обусловленности η_j вычисляется по формуле

orl17.wmf ,

где orl18.wmf – максимальное собственное число.

Для обнаружения мультиколлинеарности признаков в программе Gretl выдаются значения факторов инфляции дисперсии (Метод инфляционных факторов) и таблица диагностики коллинеарности Belsley-Kuh-Welsch [6] (табл. 1), в которой каждая строка соответствует своему индексу обусловленности η_j, а элементы строки – значения q_ij.. Сумма элементов по столбцам равна 1.

Большие величины η_j означают, что, возможно, есть зависимость между регрессорами. Большие значения qij в строках, соответствующих большим величинам η_j, относятся к регрессорам, между которыми эта зависимость существует.

Вопрос о том, какое значение коэффициента обусловленности считать большим, решается в каждом конкретном случае индивидуально, в зависимости от ценности информации, её объёма, целей и задач исследования. Часто значения коэффициента обусловленности считаются большими, если они больше 10 [7].

Относительно близкое к нулю λj приводит к большим коэффициентам обусловленности. Нулевое значение λj означает, что существует строгая мультиколлинеарность. Большие значения коэффициентов обусловленности свидетельствуют о наличии зависимостей; большие значения долевых коэффициентов qij внутри соответствующих строк указывают столбцы матрицы Х, участвующие в зависимостях.

Отметим также, что если больших коэффициентов обусловленности больше одного, то в зависимостях могут участвовать все переменные, которые имеют большие суммарные значения коэффициентов в последних строках таблицы с большими коэффициентами обусловленности.

Проиллюстрируем применение метода инфляционных факторов и метода Белсли для выявления и устранения мультиколлинеарности при решении задачи анализа значимости и степени влияния ряда традиционных показателей на переменную прибыль (убыток) до налогообложения ряда предприятий, относящихся к виду деятельности «Добыча сырой нефти» (Система СПАРК 13.12.2017 [8]). Была сделана выборка данных, представляющих финансовые показатели 186 фирм за 2016 г. В качестве регрессоров модели использованы более 20 переменных – среднесписочная численность работников, рентабельность активов, стоимость основных производственных средств и оборудования, стоимость совокупных активов, материальные активы и др.

Таблица 1

Разложение дисперсии коэффициентов регрессии

Собственные числа матрицы XTX (lambda)	Индекс обусловленности (cond)	Доли дисперсии
Собственные числа матрицы XTX (lambda)	Индекс обусловленности (cond)	const	x1	…	xр
λ1	η1	q11	q21	…	qp1
λ2	η2	q12	q22	…	qp2
…	…	…	…	…	…
λp	ηp	q1p	q2p		qpp

На основании собранных данных была построена эконометрическая линейная модель множественной регрессии. Анализ мультиколлинеарности, выполненный средствами пакета Gretl, показал наличие сильной мультиколлинеарности (табл. 2 и рис. 1). Из табл. 2 видно, что факторы Х2, Х7, Х15 имеют самые большие значения VIF, скорее всего именно эти факторы приводят к мультиколлинеарности [7].

Анализ диагностики мультиколлинеарности по методу Белсли, фрагмент которой приведен на рис. 1, показал, что наибольшему значению индекса обусловленности равному 6317,33 соответствуют факторы Х2, Х7, Х12, Х15 с большими значениями qij, между этими факторами существует тесная зависимость. Выявив с помощью метода Белсли переменные, участвующие в зависимости, удаляем из регрессионной модели одну из этих переменных. На первом шаге удаляем Х2. Затем параметры модели оцениваются заново. Если обнаружена другая зависимость, исключаем из модели одну из переменных второй группы и далее повторяем исследование на мультиколлинеарность. Через несколько шагов была получена модель, не содержащая коллинеарных факторов, все коэффициенты которой значимы (рис. 2 и 3):

orl27a.wmf

orl1.tif

Рис. 1. Фрагмент диагностики коллинеарности по методу Белсли

Таблица 2

Значения инфляционных факторов

VIF(X1)	VIF(X2)	VIF(X3)	VIF(X4)	VIF(X5)	VIF(X6)	VIF(X7)
2,05	2132100	1,11	40,81	1,78	2,77	265088,9

VIF(X8)	VIF(X9)	VIF(X10)	VIF(X11)	VIF(X12)	VIF(X13)	VIF(X14)
13,66	985,55	4,66	4,46	1057523	6,73	7,05

VIF(X15)	VIF(X16)	VIF(X17)	VIF(X18)	VIF(X19)	VIF(X20)	VIF(X21)
92723,61	7,24	3,99	258,42	248,41	1,2	1,14

VIF(X22)	VIF(X23)	VIF(X24)	VIF(X25)
18,75	7,45	3,78	1,41

Среднее зав. перемен	3,69e+09	Ст. откл. зав. перемен	1,13e+10
Сумма кв. остатков	3,20e+21	Ст. ошибка модели	4,23e+09
R-квадрат	0,864876	Испр. R-квадрат	0,860346
F(6, 179)	190,9510	Р-значение (F)	4,93e-75
Лог. правдоподобие	-4383,098	Крит. Акаике	8780,197
Крит. Шварца	8802,777	Крит. Хеннана – Куинна	8789,347

Рис. 2. Результат оценки параметров модели МНК

orl3.tif

Рис. 3. Результат теста на мультиколлинеарность

В последнюю модель вошли следующие факторы: Х5 – Денежные средства, ед. RUB; Х9 – Займы и кредиты (долгосрочные), ед. RUB; Х15 – Краткосрочные обязательства, ед. RUB; Х17 – Нематериальные активы, ед. RUB; Х18 – Оборотные активы, ед. RUB; Х20 – Рентабельность активов (ROA), %. Коэффициент детерминации 0,865 и скорректированный коэффициент детерминации свидетельствуют о хорошем приближении модели исходным данным.

Анализ теста на мультиколлинеарность последней модели показал ее отсутствие. Значение факторов инфляции от 1 до 2,4; наибольшее значение индекса обусловленности 3,2 (рис. 3).

Избавившись от мультиколлинеарности, можно использовать полученное уравнение регрессии для оценки влияния факторов на зависимую переменную с помощью бета и дельта-коэффициентов Δ (j):

orl20.wmf ,

где orl21.wmf – коэффициент парной корреляции между фактором Xj и зависимой переменной, R2 – коэффициент детерминации.

Дельта-коэффициент показывает долю влияния фактора в суммарном влиянии всех факторов [3]. Полученные результаты приведены в табл. 3, из которой можно сделать вывод, что наибольшее влияние на переменную прибыль (убыток) до налогообложения предприятий, относящихся к виду деятельности «Добыча сырой нефти» оказывает фактор Х18 – Оборотные активы (50,8 %), затем Х5 – Денежные средства (19,3 %) и Х17 – Нематериальные активы (15,4 %).

Таблица 3

Бета и дельта-коэффициенты


0,363	0,060	0,149	0,203	0,538	0,070
Δ₅	Δ₉	Δ₁₅	Δ₇	Δ₁₈	Δ₂₀
0,193	0,015	0,113	0,154	0,508	0,017

Таким образом, была решена задача ранжирования факторов по степени их влияния на результирующий показатель.

Библиографическая ссылка

Орлова И.В. ПОДХОД К РЕШЕНИЮ ПРОБЛЕМЫ МУЛЬТИКОЛЛИНЕАРНОСТИ ПРИ АНАЛИЗЕ ВЛИЯНИЯ ФАКТОРОВ НА РЕЗУЛЬТИРУЮЩУЮ ПЕРЕМЕННУЮ В МОДЕЛЯХ РЕГРЕССИИ // Фундаментальные исследования. 2018. № 3. С. 58-63;
URL: https://fundamental-research.ru/ru/article/view?id=42103 (дата обращения: 02.07.2025).
DOI: https://doi.org/10.17513/fr.42103

Научный журнал
Фундаментальные исследования

ISSN 1812-7339

"Перечень" ВАК

ИФ РИНЦ = 1,984

Библиографическая ссылка

Фундаментальные исследования
Научный журнал | ISSN 1812-7339 | ПИ №77-63397