Введение
Рынок жилой недвижимости для большинства крупных городов России – это динамично развивающийся, активно функционирующий рынок. Помимо приобретения жилья с целью непосредственного улучшения жилищных условий, наблюдается активное инвестирование средств в жилую недвижимость с целью получения дополнительного дохода. С одной стороны, это обусловлено быстрым ростом цен на жилую недвижимость, с другой – достаточно низкими ставками ипотечного кредитования. В этих условиях особую актуальность приобретают как проблема получения объективных оценок стоимости недвижимости, так и проблема выявления факторов, оказывающих наибольшее влияние на рыночную стоимость жилья.
В последнее время продолжает сохраняться интерес к классическим регрессионным моделям оценки стоимости недвижимости [1–3]. Наряду с ними большую популярность приобрели методы машинного обучения, основанные, как правило, на использовании нейросетевых моделей [4–6]. Общим как для регрессионных моделей, так и для моделей машинного обучения является необходимость отбора значимых ценообразующих факторов, информация о значениях которых должна быть загружена для получения качественной оценки объекта недвижимости. Наряду с общеизвестными недостатками (такими, как проблемы мультиколлинеарности факторов и гетероскедастичности остатков) регрессионные модели имеют и существенные преимущества. Во-первых, они допускают ясную экономическую интерпретацию параметров модели и, соответственно, возможность контроля качества модели не только по тестовой выборке, но и по соответствию полученных значений параметров их экономическому содержанию. Кроме того, для построения регрессионных моделей требуется, как правило, гораздо меньший объем статистических данных, чем для качественного обучения сходных по точности моделей, основанных на методах машинного обучения.
Одной из целей массовой оценки жилой недвижимости является выявление недооцененных и переоцененных объектов недвижимости. В работе А.Б. Горобцовой, например, на основе построенной в ней регрессионной модели производился отбор существенно недооцененных и, соответственно, априори представляющих интерес для покупателя объектов недвижимости [7]. Однако использование точечных оценок вместо интервальных не позволило автору сформировать класс объективно оцененной недвижимости, и выделение недооцененных объектов производилось на основе относительно субъективной характеристики – процентного занижения выставочной цены квартиры по отношению к точечной оценке.
Цель исследования – разработка и практическая реализация механизма выявления недооцененных и переоцененных объектов жилой недвижимости, основанного на получении интервальных оценок рыночной стоимости недвижимости методами регрессионного анализа. К основным этапам исследования можно отнести отбор наиболее значимых объективных ценообразующих факторов, построение на их основе регрессионной модели оценки стоимости недвижимости, тестирование качества модели и ее апробацию.
Материалы и методы исследования
Материалы для исследования были собраны на сайте cian.ru и представляют собой статистические данные об объектах недвижимости, выставленных на вторичном рынке трехкомнатных квартир Кировского района Санкт-Петербурга. После фильтрации 3 % самых дешевых и самых дорогих объектов, для построения модели была сформирована случайная выборка объемом в 110 квартир. Дополнительная выборка из 20 квартир была составлена с целью тестирования модели. В выборку вошли квартиры с выставочной стоимостью в диапазоне от 5,8 до 25 млн руб., при этом цена их за квадратный метр варьировалась от 114 до 222 тыс. руб. В качестве ценообразующих факторов изначально были взяты практически все переменные, значения которых были указаны на сайте или могли быть определены из описания. В их число вошли 22 фактора, характеризующие местоположение дома, качество самого дома и придомовой территории, а также непосредственно квартиру.
Обработка собранных статистических данных и построение модели оценки стоимости недвижимости были выполнены на основе методов регрессионного, дисперсионного и корреляционного анализов.
Результаты исследования и их обсуждение
На первом этапе построения модели в рассмотрении участвовали 22 ценообразующих фактора, которые можно разделить на три группы. В первую группу вошли характеристики дома и придомовой территории. Из непрерывных переменных – год постройки (ГОД), бинарные индикаторные переменные: тип дома (ТД, 1 для кирпичных и монолитных домов, 0 для панельных), индикаторы домов сталинского типа (СТАЛ), домов повышенной комфортности, домов бизнес-класса (БИЗ), наличия собственной охраняемой парковки, наличия лифта, наличия собственной детской площадки во дворе.
Ко второй группе относятся индивидуальные характеристики квартиры. Непрерывные переменные: общая площадь (So), жилая площадь, площадь кухни, высота потолков. Бинарные переменные: индикатор этажности (ЭТ, 0 для первого этажа, 1 для всех остальных), индикаторы наличия балкона или лоджии, наличия второго санузла. Стоит отметить, что часто используемая в регрессионных моделях бинарная переменная этажности, в которой нулевое значение присваивается объектам, расположенным на первом или последнем этаже, в отличие от упомянутой выше, оказалась незначимой. Это связано, по-видимому, с наличием заметной доли дорогих видовых квартир, расположенных на последних этажах многоэтажных домов. Кроме того, в рассмотрение были включены индикаторы наличия внутренней отделки определенного уровня: РЕМ – наличие косметического ремонта, ЕВРО – евроремонта, ДИЗ – дизайнерского ремонта.
Наконец, в третью группу вошли факторы, характеризующие местоположение дома. Важность учета факторов, характеризующих местоположение объекта, неоднократно отмечалась в работах, посвященных оценке стоимости недвижимости [8–10]. Здесь можно выделить два основных подхода. Первый – пространственно-параметрический, основанный на использовании факторов, характеризующих удаленность объекта от некоторых «мест притяжения». Например, расстояние (или время в пути) до метро, до центра города, до зоны расположения парков, до важных объектов инфраструктуры [7, 11]. Второй подход основан на построении пространственной тепловой карты цен (точнее – остатков, то есть разниц между реальной выставочной стоимостью объекта и его оценкой по модели, не включающей в себя пространственные факторы). Здесь в качестве ценообразующих факторов выступают непосредственно географические координаты объекта [9, 12]. Данный подход в ряде случаев позволяет демонстрировать достаточно высокое качество оценки, однако имеет свои существенные недостатки. Во-первых, требуется большое число объектов, выставленных на продажу в каждой из областей населенного пункта, что имеет место далеко не всегда. Во-вторых, построение карты цен предполагает, что различие между выставочной стоимостью объекта и его оценкой по модели, не учитывающей пространственные факторы, обусловлено только расположением объекта. Поэтому наличие других неучтенных или некорректно учтенных значимых ценообразующих факторов может привести к сильному искажению ценовой карты. В настоящей работе был использован первый подход. В число пространственных ценообразующих факторов вошли lм – расстояние до метро (км), расстояние до ближайшего парка, расстояние до центра района и расстояние до въезда на ближайшую транспортную магистраль (КАД, ЗСД).
В ходе реализации пошаговой процедуры удаления незначимых на 5 %-ном уровне значимости факторов (на каждом шаге удалялся один фактор, параметр при котором был оценен с максимальным p-значением по t-статистике), был окончательно сформирован состав из 10 значимых ценообразующих факторов. Список значимых факторов, значения параметров в линейной регрессионной модели зависимости стоимости объекта недвижимости от этих факторов, их p-значения и частные коэффициенты корреляции, показывающие степень непосредственного влияния данного фактора на стоимость квартиры, приведены в табл. 1.
Таблица 1
Перечень значимых ценообразующих факторов, значения параметров и их статистические характеристики в линейной регрессионной модели оценки стоимости недвижимости
№ п/п |
Обозначение |
Значение параметра, тыс. руб. |
p-значение |
ρчастн |
Свободный член |
-102419 |
2,98576E-06 |
||
1 |
So |
145,519 |
7,27456E-16 |
0,697698858 |
2 |
lм |
-620,894 |
0,002930545 |
-0,294566241 |
3 |
ГОД |
51,34617 |
5,16807E-06 |
0,438040566 |
4 |
ТД |
1474,567 |
0,000723949 |
0,332541223 |
5 |
СТАЛ |
1932,268 |
0,001750999 |
0,30913429 |
6 |
БИЗ |
2793,339 |
0,000197385 |
0,363958567 |
7 |
РЕМ |
1538,379 |
0,000630901 |
0,336026314 |
8 |
ЕВРО |
3532,498 |
1,12305E-09 |
0,562524341 |
9 |
ДИЗ |
4400,459 |
3,65349E-10 |
0,575864049 |
10 |
ЭТ |
1075,33 |
0,020231141 |
0,231943295 |
Источник: составлено автором.
Модель имеет коэффициент детерминации R2 = 0,92, то есть на 92 % объясняет наблюдаемую вариацию рыночных цен на квартиры в основной выборке. Как можно судить по частному коэффициенту корреляции и p-значению, наибольшее влияние на стоимость трехкомнатных квартир в Кировском районе Санкт-Петербурга оказывает их общая площадь. Далее следуют наличие ремонта высокого уровня (евроремонта и дизайнерского ремонта), затем – год постройки, вид дома (кирпично-монолитный/панельный, сталинские дома и дома бизнес-класса) и косметический ремонт. Важность фактора года постройки (возраста дома) отмечалась ранее в [13]. Менее существенно, но все-таки значимо влияют на стоимость объекта недвижимости удаленность от метро и этаж. Экономическая интерпретация параметров модели представляется предельно ясной. Так, например, каждый дополнительный метр общей площади увеличивает стоимость квартиры в среднем на 146 тыс. руб., а каждый дополнительный километр удаленности от метро снижает ее стоимость в среднем на 620 тыс. руб. Квартиры в сталинских домах в среднем на 1,9 млн руб. дороже, чем в стандартных кирпично-монолитных домах, и на 3,4 млн руб. дороже, чем в панельных. Квартиры, расположенные на первом этаже, в среднем на 1,1 млн руб. дешевле остальных и т.д. Ввиду высокого коэффициента корреляции между общей площадью, жилой площадью и площадью кухни (ρSo,Sж = 0,82; ρSo,Sk = 0,63) ни в какой комбинации не удается оценить на 5 %-ном уровне значимости параметры при всех трех факторах, несмотря на то, что каждый из перечисленных факторов по отдельности оказывается значимым. В модели оставлен наиболее значимый по t-статистике фактор – So. Что касается удаленности дома от метро, центра района, парковой зоны и автомагистрали, напротив, какой-либо существенной корреляции не наблюдается. Тем не менее значимым на 5 %-ном уровне оказался только фактор удаленности от метро.
Оцененное уравнение регрессии рыночной стоимости квартиры по 10 ценообразующим факторам имеет вид
. (1)
Таблица 2
Матрица частных коэффициентов корреляции между ценообразующими факторами
So |
lм |
ГОД |
ТД |
СТАЛ |
БИЗ |
РЕМ |
ЕВРО |
ДИЗ |
ЭТ |
|
So |
1 |
-0,011 |
0,340 |
0,427 |
0,429 |
0,310 |
-0,231 |
0,066 |
-0,027 |
0,038 |
lм |
-0,011 |
1 |
0,056 |
-0,118 |
-0,184 |
0,054 |
-0,078 |
0,014 |
-0,004 |
0,044 |
ГОД |
0,340 |
0,056 |
1 |
-0,058 |
-0,563 |
0,166 |
0,012 |
0,054 |
0,163 |
0,139 |
ТД |
0,427 |
-0,118 |
-0,058 |
1 |
0,175 |
0,107 |
0,196 |
0,162 |
0,151 |
-0,170 |
СТАЛ |
0,429 |
-0,184 |
-0,563 |
0,175 |
1 |
-0,212 |
-0,156 |
-0,217 |
-0,007 |
0,125 |
БИЗ |
0,310 |
0,054 |
0,166 |
0,107 |
-0,212 |
1 |
-0,033 |
-0,049 |
0,238 |
-0,039 |
РЕМ |
-0,231 |
-0,078 |
0,012 |
0,196 |
-0,156 |
-0,033 |
1 |
-0,563 |
-0,424 |
0,037 |
ЕВРО |
0,066 |
0,014 |
0,054 |
0,162 |
-0,217 |
-0,049 |
-0,563 |
1 |
-0,455 |
-0,025 |
ДИЗ |
-0,027 |
-0,004 |
0,163 |
0,151 |
-0,007 |
0,238 |
-0,424 |
-0,455 |
1 |
0,110 |
ЭТ |
0,038 |
0,044 |
0,139 |
-0,170 |
0,125 |
-0,039 |
0,037 |
-0,025 |
0,110 |
1 |
Источник: составлено автором.
Поскольку переменная ГОД отсчитывается от начала эры, свободный член в уравнении имеет большое отрицательное значение.
Для анализа степени коррелированности ценообразующих факторов и выявления возможной мультиколлинеарности были рассчитаны коэффициенты корреляции и частные (полученные при элиминировании влияния других факторов) коэффициенты корреляции между ними. Матрица частных коэффициентов корреляции приведена в табл. 2.
Как видно из таблицы, заметная отрицательная корреляция имеет место между годом постройки и индикатором домов сталинского типа, что вполне объяснимо, а также между индикаторами ремонта различного уровня, поскольку они являются взаимоисключающими факторами. Несколько меньшая по величине положительная корреляция наблюдается между общей площадью и годом постройки, а также видом дома (кирпично-монолитный / панельный, сталинские дома и дома бизнес-класса). Последнее обстоятельство обусловлено наличием в Кировском районе заметной доли так называемых «хрущевских» домов, построенных в 1950–1980-е гг., с характерными для них малыми площадями. Матрица коэффициентов корреляции, рассчитанная непосредственно, без элиминирования влияния других факторов, демонстрирует в целом схожие значения. Максимальный по величине коэффициент корреляции ρ = 0,63 имеет место между общей площадью и типом дома (кирпично-монолитный/панельный). Что касается мультиколлинеарности, то критичные для ее заметного проявления значения, превышающие по абсолютной величине 0,8 (0,7), не наблюдаются. Отсутствие сколько-либо выраженного влияния мультиколлинеарности факторов подтверждает и тот факт, что при удалении из модели любой из перечисленных переменных значения коэффициентов при остальных переменных существенно не меняются.
Анализ остатков регрессии, как и следовало ожидать, демонстрирует наличие некоторой гетероскедастичности. Например, как видно из рисунка, при увеличении общей площади от 40 до 90 м2 абсолютная величина остатков в среднем возрастает примерно в два раза. Тем не менее, принимая во внимание умеренный характер изменения дисперсии остатков, а также несмещенность оценок обычного метода наименьших квадратов, равно как и достаточно большой объем выборки, полученные в настоящей работе оценки параметров модели, не подвергались коррекции на гетероскедастичность.
В ряде работ была отмечена целесообразность учета нелинейного характера зависимости стоимости недвижимости от непрерывных ценообразующих факторов [1, 14]. В связи с этим в настоящей работе была проанализирована логарифмическая регрессионная модель, а также были рассмотрены варианты учета влияния непрерывных ценообразующих факторов в рамках простейших нелинейных спецификаций (квадратичной, показательной, степенной). Для анализируемого рынка жилой недвижимости никаких сколько-либо заметных улучшений использование нелинейных спецификаций не принесло. Увеличение коэффициента детерминации при использовании нелинейных моделей составило не более 2 %. Ни один из факторов, незначимых в рамках линейной регрессионной модели, не удалось учесть на 5 %-ном уровне значимости и в рамках рассмотрения нелинейных спецификаций. В итоге было отдано предпочтение более простой в интерпретации и использовании линейной регрессионной модели (1).
Зависимость остатков регрессии от общей площади квартиры Источник: составлено автором
Таблица 3
Сравнение рыночной цены квартиры (тыс. руб.) с точечной и интервальной оценками ее стоимости, полученными в рамках модели (1) на 1 %-ном уровне значимости
N |
Pi |
Piпрогн |
APE |
Δут |
Δут, % |
Pmin |
Pmax |
оценка |
δPi, % |
1 |
6500 |
6530 |
0,46 |
917 |
14,0 |
5612 |
7447 |
объект |
|
2 |
6780 |
6763 |
0,23 |
897 |
13,2 |
5866 |
7660 |
объект |
|
3 |
7200 |
8534 |
18,53 |
1666 |
19,5 |
6868 |
10200 |
объект |
|
4 |
7300 |
6881 |
5,73 |
970 |
14,1 |
5910 |
7852 |
объект |
|
5 |
7800 |
6936 |
11,07 |
1179 |
16,9 |
5757 |
8115 |
объект |
|
6 |
8200 |
8024 |
2,14 |
1085 |
13,5 |
6939 |
9109 |
объект |
|
7 |
8400 |
9911 |
17,98 |
769 |
7,7 |
9141 |
10680 |
заниж |
-7,5 |
8 |
8500 |
9296 |
9,36 |
1100 |
11,8 |
8195 |
10397 |
объект |
|
9 |
10000 |
11276 |
12,76 |
1480 |
13,1 |
9795 |
12756 |
объект |
|
10 |
10100 |
10686 |
5,80 |
867 |
8,1 |
9818 |
11553 |
объект |
|
11 |
11500 |
11966 |
4,05 |
1548 |
12,9 |
10417 |
13515 |
объект |
|
12 |
13990 |
15004 |
7,24 |
1067 |
7,1 |
13936 |
16071 |
объект |
|
13 |
14500 |
14116 |
2,64 |
1150 |
8,1 |
12966 |
15266 |
объект |
|
14 |
14700 |
13690 |
6,86 |
1194 |
8,7 |
12496 |
14884 |
объект |
|
15 |
15300 |
17338 |
13,32 |
1568 |
9,0 |
15770 |
18906 |
заниж |
-2,7 |
16 |
15900 |
15708 |
1,20 |
1278 |
8,1 |
14429 |
16987 |
объект |
|
17 |
16000 |
17736 |
10,85 |
1485 |
8,3 |
16251 |
19221 |
заниж |
-1,4 |
18 |
20750 |
18138 |
12,58 |
1544 |
8,5 |
16594 |
19682 |
завыш |
5,9 |
19 |
21000 |
20692 |
1,46 |
1590 |
7,6 |
19101 |
22282 |
объект |
|
20 |
24000 |
24822 |
3,42 |
1572 |
6,3 |
23249 |
26394 |
объект |
Источник: составлено автором.
На заключительном этапе исследования было осуществлено тестирование окончательно сформированной модели по контрольной выборке из 20 случайно отобранных квартир, а также продемонстрирована состоятельность модели при выявлении недооцененных и переоцененных объектов недвижимости. Результаты сведены в табл. 3.
В ходе тестирования были рассчитаны абсолютные процентные отклонения (ошибки) рыночной цены квартиры от ее точечной оценки по модели (1):
(2)
Среднее, медианное и максимальное абсолютные процентные отклонения составили соответственно
MAPE = 7,4 %,
MedAPE = 6,3 %,
MaxAPE = 18,5 %.
Данные показатели, вместе с коэффициентом детерминации R2 = 0,92, позволяют характеризовать модель как весьма точную. Для сравнения, показатели качества регрессионных моделей для ряда ранее опубликованных работ следующие.
В работе С.И. Нестеровой
R2 = 0,77, MAPE = 14 % [2].
В работе С.В. Домниной и соавт.
R2 = 0,87 [3].
В работе А.Б. Горобцовой
MaxAPE = 33 % [7].
В работе М.А. Хлюпиной и соавт.
R2 = 0,82 [14].
При использовании моделей машинного обучения удается достичь следующей точности.
В работе Л.А. Лейфер и соавт.
MedAPE = 6 % [4].
В работе А.Л. Остриковой и соавт.
MedAPE = 13 % [5].
В работе Л.Н. Ясницкого с соавт.
MAPE = 6,2 % [9].
Как было отмечено в работе С.В. Грибовского с соавт., для экономико-математических моделей оценки стоимости недвижимости допустимой можно считать точность прогноза с MAPE < 15 % [8].
Далее, для выявления недооцененных и переоцененных квартир было произведено сравнение их выставочной стоимости с интервальными оценками ее среднего значения (Pmin, Pmax), полученными на основании t-статистики Стьюдента на 1 %-ном уровне значимости. Среднее значение полуширины интервала Δут составило 1,2 млн руб., или 11 % от оценочной стоимости квартиры. При этом 80 % квартир имели объективную оценку, 15 % оказались недооцененными и 5 % переоцененными. Максимальное процентное отклонение (недооценка) рыночной стоимости квартиры от границы интервального прогноза δPi , составило 7,5 %. Для сравнения, в работе Т.К. Богдановой с соавт., на основе математически более сложной модели, с использованием порядковой логистической регрессии, были получены интервальные оценки рыночной стоимости жилья с полуширинами от 0,5 до 2,2 млн руб. (10–20 % от рыночной стоимости), при этом 10 % квартир из тестовой выборки оказались за пределами интервального прогноза [15]. На сайте cian.ru, наряду с выставочной стоимостью квартиры, приводится ее интервальная оценка, полученная на основе собственной модели сайта (одна из разновидностей моделей машинного обучения). Средняя полуширина интервала составляет 10 % от стоимости квартиры и приблизительно 15 % квартир (по информации, размещенной на сайте) имеют заявленную стоимость вне пределов интервального прогноза.
Заключение
В ходе исследования была предложена регрессионная модель оценки рыночной стоимости жилой недвижимости, основанная на 10 ценообразующих факторах. Вошедшие в модель факторы учитывают местоположение дома, уровень его комфортности, а также непосредственно характеристики самой квартиры. В рассмотренном механизме ценообразования стоит особо отметить существенное влияние качества внутренней отделки объектов вторичного рынка жилой недвижимости на их цену. Предложенная модель демонстрирует высокую точность оценки, схожую по величине с популярными на сегодняшний день моделями, основанными на использовании методов машинного обучения. В то же время она допускает ясную экономическую интерпретацию своих параметров. Последнее обстоятельство позволяет использовать предложенную модель не только для получения объективных оценок рыночной стоимости жилой недвижимости в данном районе, но и при анализе процесса ценообразования в целом. Сравнение интервальных оценок средней стоимости, полученных на основе предложенной модели для 20 случайно отобранных квартир, с их выставочными стоимостями позволило идентифицировать 80 % квартир как объективно оцененные, 15 % оказались недооцененными и 5 % продемонстрировали завышенную заявленную стоимость. Данное процентное соотношение в целом согласуется с результатами ранее проведенных исследований как для Санкт-Петербурга, так и для других городов Российской Федерации. Несмотря на то, что объектом исследования являлся один из районов Санкт-Петербурга, некоторые из полученных в работе результатов могут быть непосредственно использованы при анализе рынка жилой недвижимости в других районах и других городах Российской Федерации. В частности, проведенное исследование подтверждает важность таких ценообразующих факторов, как уровень комфортности проживания и качество внутренней отделки объекта недвижимости.