Scientific journal
Fundamental research
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,749

POINT AND INTERVAL ESTIMATION OF REGRESSION MODELS BY BAYESIAN METHOD IN THE R SOFTWARE ENVIRONMENT

Babeshko L.O. 1
1 Financial University under the Government of the Russian Federation
The article is devoted to estimation of regression models by means of Bayesian approach. The Bayesian method has found wide application in the estimation of econometric models from sample data of small volume, as well as in cases where classical methods (least squares method, maximum likelihood method) are not applicable. The Bayesian method, as a way of formalizing the degree of confidence in the truth of some statement, and its correction as new information about the phenomenon under study becomes available, allows us to significantly narrow the interval estimates of the parameters of regression models in comparison with the classical approach. Preliminary information expressed in the form of a priori probability functions of the intended outcome, converted in the posterior distribution of the probability density, taking into account the processing of the sample data. The paper presents the results of a comparative analysis of point and interval estimation of the model of multiple linear regression in the framework of Bayesian regression and the maximum likelihood method. In the quality of the tools, the software environment R is chosen, in which the Bayesian paradigm is represented in the functions of many statistical packages. The results presented in the article are obtained using the package MCMC (Monte Carlo Markov chain), the basis of which is the structure of the Markov process, the stationary distribution of which is determined by the a posteriori distribution function.
point estimates
interval estimates
Bayesian regression
a priori distribution
a posteriori distribution

Байесовский подход нашёл широкое применение при оценивании эконометрических моделей по выборочным данным малого объема, а также в случаях, когда классические методы неприменимы. В рамках классического подхода, для оценки некоторого вектора параметров модели θ по выборочным данным Y, например, методом максимального правдоподобия (ММП), выбирается целевая функция – функция правдоподобия, и находится такая оценка

bab01.wmf (1)

которая её максимизирует

bab02.wmf (2)

Вектор параметров θ – неслучаен, а ММП-оценка (1), вычисляемая по выборочным данным – случайна. Байесовский метод – это способ формализации степени разумной уверенности в некотором утверждении, и ее корректировки по мере поступления информации относительно исследуемого явления. Поэтому в байесовском подходе оцениваемый вектор параметров θ трактуется как случайный с заданным в явном виде априорным распределением P(θ). Выбор априорного распределения отражает степень незнания исследователя о неизвестных параметрах до проведения и обработки наблюдений, и задача байесовского оценивания заключается в поиске апостериорного распределения, скорректированного по результатам наблюдений:

bab03.wmf (3)

где P(θ) – плотность априорного распределения, bab04.wmf – функция правдоподобия. Поскольку P(Y) выполняет роль нормирующего множителя, и не зависит от вектора параметров, то (3) можно записать в виде

bab05.wmf (4)

где символ ~ означает пропорциональность левой и правой частей выражения (4) с точностью до нормирующей константы. Имея выборочные данные и вычислив функцию правдоподобия, можно найти условный закон распределения при данной выборке, по которому рассчитать точечные и интервальные оценки эконометрической модели.

Цель исследования: сравнительный анализ оценок параметров эконометрической модели в рамках байесовской регрессии и метода максимального правдоподобия. В качестве инструментальных средств выбрана программная среда R, в которой байесовская парадигма представлена в функциях многих статистических пакетов. Результаты, приведенные в статье, получены при помощи пакета MCMC (Monte Carlo Markov chain), основу которого составляет построение марковского процесса, стационарное распределение которого определяется апостериорной функцией распределения [1, 2].

Результаты исследования и их обсуждение

Алгоритм байесовского оценивания имеет следующую последовательность [3]:

1) выбор априорного распределения P(θ) параметра θ;

2) сбор статистических данных: Y1, Y2,..., Yn (случайная выборка из анализируемой генеральной совокупности);

3) вычисление функции правдоподобия, в предположении статистической независимости наблюдений:

bab06.wmf; (5)

4) вычисление апостериорного распределения параметра θ: bab07.wmf по формуле (4);

5) заключение о значении параметра θ: точечная или интервальная оценка.

Под байесовской точечной оценкой параметра понимается математическое ожидание или мода случайной величины, имеющей апостериорное распределение (4), например, для непрерывного случая:

bab08.wmf (6)

bab09.wmf (7)

Интервальные оценки параметров так же определяются через функцию апостериорного закона распределения вектора параметров (Highest Posterior Density, HPD – интервал высокой апостериорной плотности) [4].

При практической реализации байесовского подхода, в частности выбора априорного распределения, существенную роль играют распределения, сопряжённые с функцией правдоподобия. В этом случае общий вид априорного закона распределения известен, нужно только «уточнить» его параметры при переходе к апостериорному. Сопряженное семейство априорных распределений существует, если функцию правдоподобия можно представить в виде произведения достаточных статистик:

bab10.wmf (8)

где bab11.wmf – неотрицательная функция, зависящая от Y только через T(Y), u(Y) – положительная функция от выборочных данных, независящая от параметров [5].

В теории байесовского подхода доказывается, что если априорное распределение генеральной совокупности имеет функции сопряжённые с функцией распределения, то уже первый переход от априорного к апостериорному распределению по формуле (4) приводит к семейству распределений, сопряжённому с наблюдаемой генеральной совокупностью, даже если априорное распределение не несёт никакой информации об оцениваемых параметрах (САЗ – скудность априорных знаний [3], априорные распределения). Это позволяет упростить процедуру выбора априорного распределения для оцениваемого параметра:

bab12.wmf (9)

– для параметра, принимающего значения на конечном bab13.wmf или бесконечном bab14.wmf интервалах;

bab15.wmf (10)

– для параметра, принимающего любые положительные значения, и в качестве априорных распределений неизвестных параметров рекомендуется использовать равномерные распределения.

Выбор семейства априорных распределений, сопряженных с наблюдаемой генеральной совокупностью, осуществляется в результате следующих шагов:

1) выполняется проверка условия существования семейства априорных распределений (8), сопряженных с функцией правдоподобия для наблюдаемой генеральной совокупности;

2) выполняется вывод САЗ-апостериорного распределения, которое и определяет общий вид семейства априорных распределений, сопряженных с наблюдаемой генеральной совокупностью:

bab16.wmf (11)

Оценим параметры линейной регрессионной модели зависимости среднедушевых сбережений Y от доходов X у одинаковых по численному составу домохозяйств (по данным таблицы) в рамках ММП и байесовского подхода.

Выборочные данные переменных модели (в условных единицах) [6]

Y

X

Y

X

1

0,6

15,6

9

9,3

116

2

0,2

20

10

15

123,2

3

2

28,8

11

18,6

156

4

1,6

40

12

15

174

5

4,4

53,2

13

15,9

200,8

6

5

72

14

26,4

219,6

7

4

77,6

15

27,6

244

8

7,6

89,2

16

27,6

244

 

Спецификация оцениваемой модели bab17.wmf, t = 1,..., n, или в матричном виде

bab18.wmf (12)

где bab19.wmf – вектор-столбец значений эндогенной переменной, X – детерминированная (n×k)-матрица регрессоров, bab20.wmf – вектор-столбец возмущений, bab21.wmf – вектор-столбец параметров модели, n – объем выборки, k – число параметров, t – номер наблюдения, bab22.wmf, σ2 – дисперсия случайного возмущения, bab23.wmf – параметр точности (precision metrics), bab24.wmf – вектор эндогенной переменной, плотность (5) которого представляет собой априорную функцию распределения:

bab25.wmf (13)

ММП-оценки параметров при регрессорах совпадают с МНК-оценками, поэтому оценим их в программной среде R при помощи функции lm пакета lmtest:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -2.592462 1.088620 -2.381 0.032 *

X 0.118612 0.007747 15.310 3.88e-10 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.406 on 14 degrees of freedom

Multiple R-squared: 0.9436, Adjusted R-squared: 0.9396

F-statistic: 234.4 on 1 and 14 DF, p-value: 3.88e-10

confint(fm,level=0.90)

# интервальная оценка параметров

5 % 95 %

(Intercept) -4.5098597 -0.6750641

X 0.1049671 0.1322574

# автоковариационная матрица вектора оценок параметров

(Intercept) X

(Intercept) 1.185093948 -7.029648e-03

X -0.007029648 6.001834e-05

Для оценки параметров в рамках байесовского подхода необходимо проверить выполнение условия (8) существования семейства сопряженного априорного распределения p(β; h). Достаточной статистикой функции (13) является функции T(Y, X), которая определяется произведениями Y'Y, X'Y, X'X, что означает, что существует априорное распределение неизвестных параметров β и σ2, сопряжённое с функцией правдоподобия. Преобразуем отклонение Y – Xβ в формуле (13) следующим образом:

bab26.wmf,

тогда аргумент функции bab27.wmf принимает вид

bab28.wmf (14)

Выражая первое слагаемое в (14) через несмещенную оценку дисперсии возмущений, bab29.wmf, и подставляя (14) в (13), получим

bab30.wmf (15)

Определим САЗ-апостериорное распределение для параметров модели множественной регрессии. Так как параметр точности h принимает положительные значения, то (11), с учетом правила (10) и формулы (15), принимает вид

bab31.wmf

bab32.wmf

bab33.wmf

bab34.wmf. (16)

Перепишем (16) вводя обозначения: bab35.wmf, bab36.wmf,

bab37.wmf. (17)

Распределение (17) представляет собой (с точностью нормирующего множителя, независящего от параметров) многомерное гамма-нормальное распределение с параметром сдвига bab38.wmf, матрицей точности X'X и параметрами α и θ.

При реализации байесовского подхода необходимо знать параметры сопряженного с наблюдаемой генеральной совокупностью априорного распределения. В большинстве случаев они определяются при помощи метода моментов по оценкам их математического ожидания и среднеквадратическим ошибкам. Для этой цели обычно используется любая априорная информация, например экспертное оценивание. Воспользуемся ММП-оцениванием. Так как частное распределение параметра точности h нормальной части распределения (17) имеет гамма-распределение с параметрами α и θ, его числовые характеристики определяются по формулам

bab39.wmf (18)

Выражая из (18) параметры распределения через числовые характеристики параметра точности, получаем

bab40.wmf bab41.wmf (19)

Частное распределение параметра β есть обобщённое (k + 1)-мерное распределение Стьюдента с 2α числом степеней свободы, параметром сдвига β и матрицей точности bab42.wmf, поэтому его числовые характеристики определяются по формулам

bab43.wmf bab44.wmf

bab45.wmfbab46.wmf (20)

где bab47.wmf – заданные значения априорных дисперсий элементов вектора параметров β.

По параметрам априорного распределения (19) и (20), выборочным данным (Y, X), вычисляются точечные оценки параметров апостериорного распределения (17):

bab48.wmf, (21)

где

bab49.wmf (22)

– матрица точности; и параметры частного апостериорного гамма-распределения параметра точности h:

bab50.wmf, (23)

bab51.wmf, (24)

параметр точности:

bab52.wmf (25)

При построении интервальных оценок, в рамках байесовского подхода, используется блочная структура матрицы точности:

bab53.wmf

bab54.wmf

bab55.wmf (26)

и интервальные оценки параметров модели определяются по формулам:

bab56.wmf (27)

bab58.wmf (28)

bab60.wmf, (29)

с учетом t0,05(2•7,5) = 1,753, bab61.wmf, bab62.wmf.

Получим точечные и интервальные оценки параметров регрессионной модели зависимости среднедушевых сбережений Y от доходов X, по данным таблицы, при помощи функции MCMCregress пакета MCMCpack:

Iterations = 1001:11000

Thinning interval = 1

Number of chains = 1

Sample size per chain = 10000

1. Empirical mean and standard deviation for each variable,

plus standard error of the mean:

Mean SD Naive SE Time-series SE

(Intercept) -2.5893 0.263544 2.635e-03 2.602e-03

X 0.1186 0.001891 1.891e-05 1.891e-05

sigma2 5.8883 2.491154 2.491e-02 2.491e-02

2. Quantiles for each variable:

2.5 % 25 % 50 % 75 % 97.5 %

(Intercept) -3.1076 -2.7657 -2.5873 -2.4127 -2.0698

X 0.1148 0.1173 0.1186 0.1199 0.1224

sigma2 2.8866 4.2309 5.3662 6.9210 12.0544

Заключение

Как следует из сравнительного анализа результатов оценивания, интервальные оценки параметров регрессионной модели, полученные в рамках байесовского подхода, при непосредственном вычислении по формулам (18)–(29) уже, по сравнению с ММП-оценками: для параметра β1 – в 1,72 раза, для параметра β2 – в 1,75 раз, и при вычислении при помощи функции MCMCregress в программной среде R – для параметра β1 – в 3,7 раза, для параметра β2 – в 4 раза.