Техника геокодирования в построении географически взвешенных регрессионных моделей при массовой оценке в условиях неопределенности и неоднородности исходных данных

Автор: Захаров Александр Владимирович, Харламов А.В.

Журнал: Имущественные отношения в Российской Федерации @iovrf

Рубрика: Оценка всех видов собственности - практический опыт

Статья в выпуске: 7 (106), 2010 года.

Бесплатный доступ

В статье рассматривается применение метода географически взвешенной регрессии (ГВР) при массовой оценке стоимости объектов на рынке недвижимости. Определяются условия, в которых применение этого метода позволяет получить адекватные модели ценообразования, плавно меня- ющиеся на обследуемой территории. Приводится пример конкретного построения ГВР для жилой недвижимости города Саратова, дается сравнительный анализ ГВР-модели и модели множествен- ной регрессии. Иллюстрируется возможность использования Г ВР для анализа динамики ценового зонирования рынка недвижимости территории.

Рынок недвижимости, географически взвешенная регрессия, гвр, модели с изменяющейся структурой, моделирование, пространственно неоднородные данные, массовая оценка, ценовое зонирование, динамика цен

Короткий адрес: https://sciup.org/170152068

IDR: 170152068

Текст научной статьи Техника геокодирования в построении географически взвешенных регрессионных моделей при массовой оценке в условиях неопределенности и неоднородности исходных данных

Применение геокодирования и ГВР через учет местоположения объектов позволяет выявить следующее:

  • 1)    специфическое влияние ценообразующих характеристик;

  • 2)    сложившиеся подрынки недвижимости (на основе анализа неоднородности данных об аналогах);

  • 3)    тенденции развития районов города.

Рассмотрим опыт применения этого подхода [2]. Техника геокодирования и ГВР были использованы для моделирования стоимости однокомнатных квартир на вторичном рынке жилья города Саратова.

Саратов имеет достаточно сложную географию и неоднородную застройку (рис. 1).

Рис. 1. Схема города Саратова

Использовались исходные данные за январь 2006 года. Измерения проводились в точках – местоположениях объектов, показанных на рисунке 2.

Х

Рис. 2. Координаты точек измерений объектов (здесь и далее X , Y – координаты долготы и широты объекта в условных единицах, условный «ноль» расположен в точке 45о восточной долготы и 51о северной широты)

При моделировании учитывались следующие показатели:

  •    Y – цена квартиры, тыс. р.;

  •    X 1 – жилая площадь, м2;

  •    X 2 – площадь кухни, м2;

  •    X 3 – дополнительная площадь, м2;

  •    X 4 – логарифм расстояния, ln( м );

  •    X 5 – расположение на первом этаже;

  •    X 6 – расположение на последнем этаже;

  •    X 7 – дом малой этажности;

  •    X 8 – пятиэтажка;

  •    X 9 – кирпичный дом;

  •    X 10 – в хорошем или отличном состоянии;

  •    X 11 – наличие балкона или лоджии.

Построенная глобальная линейная модель множественной регрессии имеет вид:

y = 1180 , 61 +13 , 04 x 1 +10 , 38 x 2 +11 , 17 x 3 -116 , 40 x 4 - 36 , 82 x 5 -

( 1 , 04 )              ( 1 , 36 )              ( 0 , 79 )               ( 2 , 62 )               ( 5 , 70 )             .

  • - 28 , 19 x 6 -122 , 10 x 7 - 30 , 43 x 8 + 20 , 88 x 9 +19 , 22 x 10 +16 , 87 x 11 ( 5 , 34 )              ( 10 , 99 )              ( 5 , 06 )              ( 5 , 03 )              ( 4 , 20 )               ( 5 , 30 )

В выражении в скобках указаны стандартные ошибки, все показатели значимы на пятипроцентном уровне.

Неоднородность исходных данных проявляется, в частности, в различиях средних цен за один квадратный метр однокомнатных квартир в городе (см. рис. 3), а также в различиях остатков глобальной модели (см. рис. 4).

Сложность территории и неоднородность объектов стали причиной применения моделирования ГВР. Так как результаты этого моделирования необозримы, можно привести только небольшой фрагмент таблицы, в которой показаны результаты ГВР-моделирования (см. табл. 1).

52        54        56        58        60        62        64

Рис. 3. Средние цены за один квадратный метр однокомнатных квартир в городе Саратове в январе 2006 года, тыс. р.

Рис. 4. Остатки глобальной модели, тыс. р.

Отметим различия в результатах глобального и локального моделирования. Для примера проанализируем поведение коэффициента при параметре «кирпичный дом».

Исходя из глобальной модели в 2006 году в среднем однокомнатная квартира в кирпичном доме стоила на 20 тысяч рублей дороже такой же квартиры в панельном доме.

Таблица 1

Результаты ГВР-моделирования

№ п/п

x

y

Остатки

β 0

β 1

β 2

1

56,432

31,575

2 403,83

868,8

8,3

17,2

2

53,003

29,028

2 021,0

1 723,0

4,5

5,0

3

55,326

36,644

1 456,4

621,4

3,8

11,3

4

53,003

29,028

2 021,0

1 723,0

4,5

5,03

5

55,419

30,586

1 436,0

2 211,4

4,3

14,5

6

55,752

35,118

1 060,0

1 330,5

5,6

13,61

7

55,884

35,224

910,2

1 379,9

5,7

14,4

8

55,262

35,31

1 621,5

1 148,1

4,6

12,6

9

58,306

32,128

2 924,8

1 222,2

7,6

14,8

10

58,306

32,128

2 924,8

1 222,2

7,6

14,8

11

58,306

32,128

2 924,8

1 222,2

7,6

14,8

12

62,473

31,964

14 737,5

-468,2

14,7

12,5

13

53,003

29,028

2 021,0

1 723,1

4,5

5,0

Результаты ГВР-моделирования показывают, что этот показатель не является значимым для всей исследуемой территории (см. табл. 2; для наглядности в таблице представлены результаты, усредненные по целочисленным значениям координат, пустые ячейки означают незастроенные территории города).

Таблица 2

Значения р-value оценок коэффициентов регрессии при переменной «кирпичный дом»

Х

53

54

55

56

57

58

59

60

61

62

63

64

Y

36

0,40

0,82

0,299

0,8

0,863

0,924

35

0,44

0,49

0,71

0,22

0,393

0,142

0,69

34

0,173

0,24

0,501

0,28

0,002

0,002

0,551

0,78

33

0,085

0,679

0,542

0,064

0,077

0,004

32

0,081

0

0,208

0,453

0,22

0,001

0

31

0,022

0,004

0

0,002

0,106

0,027

0

0

30

0,09

0,01

0,01

0,001

0,008

0,002

0

29

0,26

0,06

0,02

0,001

0,002

0,008

28

0,20

0,14

0,15

27

0,17

Можно сделать вывод, что рассматриваемый параметр является ценообразующим не на всех подрынках города. Также его значение меняется в зависимости от местоположения объекта (см. табл. 3).

Таблица 3

Х

53

54

55

56

57

58

59

60

61

62

63

64

Y

36

6

1,7

6,3

1,4

-0,3

-0,5

35

5,7

5,2

0,6

9,4

5,7

-10,9

-5,3

34

12

9,7

5

-10

-41,6

-32

-7,8

-4

33

13,1

3,3

-7,6

-28,3

-27,8

54,8

32

15,8

40,2

21

15,1

33,7

119,7

126,2

31

17,6

26,2

38

45,9

29,4

50,7

142,6

139,6

30

11,5

16,1

17,9

21,6

21,9

30,8

48,9

29

7,9

13,3

18,7

21,9

24,2

23,6

28

9,1

10,5

10,3

27

9,7

Зависимость оценок коэффициентов регрессии от координат при регрессоре «кирпичный дом»

Таким образом, было выявлено, что в одних районах города квартира в кирпичном доме стоит на 142 тысячи рублей дороже, чем в панельном, а в других – на 32 тысячи рублей дешевле. Причины такой ситуации – задача дальнейшего исследования подрынков жилой недвижимости.

Линии уровней изменения коэффициента по территории города представлены на рисунке 5.

Рис. 5. Линии уровней значений оценок коэффициентов при переменной «кирпичный дом»

Также ГВР-моделирование позволяет выявлять тенденции развития районов города. Результаты сравнения средней стоимости одного квадратного метра однокомнатных квартир в 2008 году относительно 2006 года (см. табл. 4) позволяют выявить тренды более или менее интенсивного развития районов города.

Таблица 4

Зависимость коэффициента роста стоимости одного квадратного метра площади от координат в 2008 году по сравнению с 2006 годом

Х

53

54

55

56

57

58

59

60

61

62

63

64

Y

36

2,3

2,4

2,4

2,5

2,4

2,5

35

2,5

2,3

2,9

2,5

2,5

2,3

34

2,4

2,5

2,2

2,7

2,9

33

2,4

2,4

2,4

2,4

2,3

32

2,5

2,5

2,4

2,4

2,4

2,4

2

31

1,9

3

2,4

2,2

2,5

2,3

2,3

2,3

30

2,4

2,4

2,5

2,4

1,9

2,4

29

3

2,5

2,6

2,5

2,4

28

2,5

2,5

2,6

27

2,4

Таким образом, приходим к заключению, что геокодирование и ГВР являются эффективной техникой при массовой оценке стоимости недвижимости, позволяющей через местоположение объектов учесть влияние латентных показателей, выявить ценообразующие параметры и, как следствие, специфические подрынки в пространственном смысле, а также определить тренды в развитии районов города.

С применением ГВР можно выявить структуру ценообразования в рамках населенных пунктов и административных округов в окрестности объекта недвижимого имущества. Моделирование цен с помощью ГВР позволяет строить ряды динамики по результативному признаку «стоимость недвижимости» в населенных пунктах и административных округах, формировать однородные кадастровые кварталы. В ряде случаев предпочтительнее использовать ГВР-модели, нежели чем глобальные линейные множественные модели регрессии, поскольку с помощью ГВР-моделей можно получить больший объема полезной информации при анализе влияния ценообразующих параметров на результативный признак. Помимо этого, при построении моделей ГВР возможно учитывать пространственную автокорреляцию, позволяющую в цене объекта недвижимости учесть цены соседних объектов.

Обсудим понятие пространственной автокорреляции на примере модели стоимости недвижимости. Так как цена объекта зависит от его местоположения, естественно предполагать, что цены соседних объектов коррелированны:

  • У^ k + Р У* + E i ,

где yi – цена объекта недвижимости в точке i ;

yi * – средневзвешенная цена n ближайших соседей:

Swy y =       ,

S W j j =1

где wij – весовые коэффициенты, принимающие значение, равное единице, если j является одним из n ближайших соседей, и нулю в противном случае;

k и ρ – параметры, подлежащие оценке;

εi – случайные ошибки.

Если коэффициент ρ положительный (отрицательный) и значимо отличается от нуля, то существует положительная (отрицательная) автокорреляция. Если коэффициент незначим, то автокорреляция отсутствует. В отличие от моделей временной автокорреляции в пространственном случае отсутствует порядок следования объектов и возникают сложности определения соседних элементов. При построении модели пространственной автокорреляции исходят из следующих предположений.

Объекты, которые находятся поблизости друг от друга, как правило, имеют много общего (например однородная застройка микрорайона), и в силу этого модель пространственной автокорреляции будет отличаться от классической. Если в классической регрессии матрица ковариации ошибок равна V ( ε ) = σ 2 I , то в пространственной автокорреляции – V ( ε ) = A .

При анализе регрессии с пространственной автокорреляцией используют два метода: метод условной авторегрессии и метод одновременной авторегрессии.

В модели условной авторегрессии предполагается, что зависимая переменная является функцией некоторого числа регрессоров и при этом имеет место пространственная автокорреляция.

В одновременной авторегрессионной модели рассматривается безусловное распределение зависимой переменной по нормальному закону.

Как правило, наличие автокорреляции, присутствующей в реальных данных, находит отражение в остатках построенных моделей. По этой причине анализ на наличие или отсутствие автокорреляции начинают с анализа остатков классической регрессии.

Рассмотренные модели пространственной авторегрессии применяют как вариант моделирования при наличии ненулевой автокорреляции в ошибках. Как правило, объекты недвижимости имеют положительную корреляцию. Такой подход выявляет наличие автокорреляции между объектами, не объясняя ее, и в результате получают смещенные оценки параметров.

В случае пространственной автокорреляции географически взвешенная регрессия имеет вид:

y, = k ( U i , v i) + P (P, V i ) y + £ i .

В результате оценки параметров географически взвешенным методом получают поверхность локальных оценок коэффициента автокорреляции. Использование коэффициента авторегрессии в глобальной модели не дает того эффекта, который можно получить при географическом подходе, когда распределение получаемых остатков в географической модели имеет практически случайный характер. Также следует отметить, что локальные модели с авторегрессией и без нее дают практические одинаковые результаты в оценках параметров. Более того, приходится делать вывод, что добавление авторегрессионой составляющей в локальную модель практически не объясняет местные различия и изменения параметров регрессии относительно модели без авторегрессии.

Одним из подходов при моделировании является объединение методов пространственной регрессии и географического подхода. Если пространственная зависимость вытекает из пространственной неоднородности, то географический подход представляется более предпочтительным.

До сих пор мы предполагали, что ошибки измерений имеют нормальное распределение с нулевым средним и постоянной дисперсией. Более общей ситуацией является зависимость дисперсии ошибки от местоположения точки регрессии. В этом случае ошибка подчиняется нормальному закону, но дисперсия ошибки зависит от координат. Тогда говорят о пространственной нестационарности. Такая модель называется обобщенной географической.

Метод географического взвешивания применим на всех этапах статистического исследования, в частности, для предварительного анализа данных. Так, при анализе бинарных показателей для расчета статистических характеристик в местоположении i берутся значения соседних величин с соответствующими весовыми коэффициентами. Тогда доля элементов совокупности pi , обладающая заданным признаком, исчисляется по средней взвешенной:

P i =

E x j w j

E wj

где wij – вес, рассчитанный одним из методов географической регрессии;

xj – бинарные переменные, принимающие значение, равное единице, если элемент обладает заявленным признаком, и нулю в противном случае, параметр j «пробегает» значения от 1 до n.

Аналогично (с использованием географически рассчитанных весов) вычисляют все показатели описательной статистики, например выборочную среднюю:

E xjwij x =   ---

'    e W j"

Значения таких показателей непрерывно меняются по всей области вычислений аналогично коэффициентам географической регрессии.

Если wij рассматривать как относительную частоту, то приведенные показатели можно представить в следующем виде:

x, = E xW ij , p i = E x j w ij -

при исчислении географически взвешенного стандартного отклонения s i =

E ( x j —x i)1 w j

находят отклонения для каждого местоположения относительно локальных средних, а не относительно глобального среднего значения. Например, вычисление средней цены квартиры покажет, как цена меняется в зависимости от района.

Изменение средней цены по районам города происходит случайным образом или по определенной тенденции, обусловленной пространственной неоднородностью. Если колебание средней цены возникает за счет случайных влияний, то среднее значение имеет асимптотически нормальное распределение.

Одним из способов тестирования адекватности модели ГВР является исследование взаимной корреляции остатков – пространственной автокорреляции. Ошибки классической регрессионной модели (предполагается, что наличие автокорреляционной зависимости непременно проявляется в остатках классической регрессии, а для исследуемых данных зависимость определяется даже визуально) показали наличие автокорреляционной зависимости. После проведения необходимых расчетов было получено значение коэффициента пространственной корреляции ρ = 0,79. Это соответствует общей практике и вполне согласуется со здравым смыслом: цены ближайших объектов положительно коррелируют между собой.

Сравнивая авторегрессионные модели и классическую модель регрессии, убеждаемся, что оценки коэффициентов в глобальной регрессионной модели и в моделях с пространственной корреляцией практически не различаются. Отметим, что коэффициент автокорреляции в условной модели принимает большее значение ( ρ = 0,97), чем в одновременной модели ( ρ = 0,64), что обуславливается спецификой методики их построения.

Можно сделать вывод, что применение авторегрессионных моделей не дает какого-либо преимущества по сравнению с классической регрессией. Эти модели только выявляют пространственную нестационарность, не объясняя ее. Использование коэффициента автокорреляции в глобальной модели не дает того эффекта, который можно получить при использовании географического подхода, когда распределение получаемых остатков имеет практически случайный характер.

Проанализируем оценки коэффициентов регрессии, полученные географически взвешенным методом с точки зрения пространственной автокорреляции. В полученных оценках коэффициентов просматривается явная автокорреляционная зависимость. Проведя необходимые расчеты для коэффициентов при регрессорах «жилая площадь», «логарифм расстояния», «кирпичный дом», получили следующие коэффициенты автокорреляции ρ 1 = 0,84; ρ 4 = 0,84 и ρ 9 = 0,87 соответственно. Эти результаты уже могут объяснить существование пространственной автокорреляции и свидетельствуют о том, что пространственная зависимость вытекает из пространственной неоднородности. Анализ остатков географической регрессии показывает значительное уменьшение пространственной зависимости, коэффициент автокорреляции принимает значение ρ = 0,36.

Можно отметить, что в отличие от авторегрессионных моделей, которые только определяют пространственные зависимости, географический подход позволяет находить объяснение пространственной зависимости и выявлять специфические особенности, присущие отдельным районам города.

Таким образом, мы показали, что географический подход позволяет выявить специфические особенности ценообразования жилой недвижимости, присущие отдельным районам города, которые нивелируются в глобальной модели. Географический подход аппроксимирует специфику ценообразования в конкретном местоположении, однако исследование конкретных факторов, влияющих на ценообразование в этом местоположении, выходит за рамки географического подхода. Очевидно, что на стоимость недвижимости влияет множество неучтенных в модели факторов: особенности прилегающей территории, социальная инфраструктура, транспортная доступность и т. д. Выявление влияния локальных характеристик является отдельной задачей.

Использование метода ГВР для сопоставления уровня цен за различный период времени позволяет сформулировать следующий вывод.

Несмотря на общую тенденцию роста цен за рассматриваемый период, этот процесс имел существенные особенности в различных районах города. Наибольший рост цен наблюдался в центральных районах города и районах новой застройки с более благоприятной экологической обстановкой. Динамика цен и влияние отдельных факторов на уровень цен существенно зависят от местоположения объекта на территории города. Метод ГВР позволяет выявлять эти особенности и формулировать прогнозы ценовых движений.

Статья научная