Разработка модели K-Means для выявления наиболее выгодных предложений на рынке недвижимости Москвы
Автор: М. А. Зуев, В. М. Шибаев, К. С. Баланев
Журнал: Informatics. Economics. Management - Информатика. Экономика. Управление.
Рубрика: Информатика, вычислительная техника
Статья в выпуске: 3 (2), 2024 года.
Бесплатный доступ
В статье рассматривается применение модели кластеризации K-Means для анализа рынка недвижимости Москвы. Основное внимание уделяется сегментации рынка с целью выявления наиболее выгодных предложений. Использованные данные включают параметры стоимости, площади, близости к метро, год постройки и другие характеристики объектов недвижимости. Метод "локтя" был применен для определения оптимального числа кластеров, которое впоследствии было увеличено до восьми для более точного сегментирования. Полученные результаты показали, что кластер 0 представляет собой наиболее доступные и выгодные предложения. Модель K-Means, разработанная в ходе исследования, может быть использована покупателями для оптимизации процесса выбора жилья, снижая временные и финансовые затраты.
Кластеризация данных, K-Means, анализ недвижимости, оптимизация выбора, машинное обучение, рынок недвижимости Москвы
Короткий адрес: https://sciup.org/14129610
IDR: 14129610 | DOI: 10.47813/2782-5280-2024-3-2-0212-0218
Текст статьи Разработка модели K-Means для выявления наиболее выгодных предложений на рынке недвижимости Москвы
DOI:
Рынок недвижимости Москвы является одним из наиболее динамично развивающихся и конкурентных в России. Высокая стоимость жилья, разнообразие предложений и быстрое изменение цен требуют от покупателей тщательного анализа и выбора наиболее выгодных предложений. В этих условиях необходимо использовать современные методы анализа данных, которые могут учитывать множество факторов и обеспечивать точное сегментирование рынка [1].
Традиционные методы анализа рынка недвижимости, такие как простая статистика или экспертные оценки, часто оказываются недостаточно эффективными при большом объеме данных и множестве переменных факторов. Применение методов машинного обучения, таких как кластеризация, становится особенно актуальным [2-4]. Кластеризация позволяет разделить объекты недвижимости на группы с похожими характеристиками, что упрощает анализ и принятие решений для покупателей.
МАТЕРИАЛЫ И МЕТОДЫ
Кластеризация является одной из ключевых ветвей машинного обучения без учителя. Она позволяет автоматически группировать объекты, основываясь на их сходстве, даже если у них нет явной классифицирующей характеристики. Алгоритм K-Means широко используется благодаря своей простоте и эффективности [5].
Алгоритм K-Means работает по следующему алгоритму [6]:
-
1. Инициализация центроидов: сначала случайным образом выбираются
-
2. Назначение объектов кластерам: для каждого объекта рассчитывается
-
3. Обновление центроидов: центроиды пересчитываются, основываясь на
-
4. Повторение: эти шаги повторяются до тех пор, пока центроиды не
начальные центроиды кластеров.
евклидово расстояние до каждого из центроидов, и объект присваивается к ближайшему центроиду.
среднем значении характеристик объектов, попавших в данный кластер.
перестанут изменяться или не будет достигнуто заданное количество итераций.
Основное преимущество алгоритма K-Means заключается в его способности быстро и эффективно группировать большие объемы данных, что делает его идеальным инструментом для анализа сложных и многомерных наборов данных. В результате работы алгоритма объекты, близкие по своим характеристикам, оказываются в одном кластере, а объекты с различными характеристиками — в разных [7].
Выбор набора данных
Для исследования был использован набор данных, содержащий информацию о недвижимости Москвы. В нем представлены следующие параметры: цена, время до метро, административный округ, общая площадь, жилая площадь, этаж, количество этажей в здании, год постройки, наличие статуса новостройки, классификация как апартаменты, высота потолков и количество комнат.
Предварительная обработка данных
Для корректной работы модели K-Means были предприняты следующие шаги [8]:
-
1. Заполнение пропущенных значений: пропущенные значения были
-
2. Преобразование категориальных данных: категориальные данные
заполнены медианными значениями, что позволило минимизировать влияние отсутствующих данных на модель.
(например, административный округ) были преобразованы в числовые с использованием метода LabelEncoder. Это позволило учитывать различия между районами Москвы при кластеризации.
Определение оптимального числа кластеров
Оптимальное количество кластеров было определено с помощью метода "локтя", который заключается в анализе инерции модели K-Means при разном числе кластеров и выборе числа, при котором происходит значительное уменьшение инерции [9]. На рис. 1 видно, что оптимальное количество кластеров равно 4. Однако, для более точной сегментации рынка недвижимости и учета большего количества характеристик, было принято решение увеличить количество кластеров до 8. Это позволило выделить более

специфические группы объектов, что улучшило интерпретацию результатов и выявление наиболее выгодных предложений.

Рисунок 1. Применение метода локтя для набора данных.
Figure 1. Application of the elbow method to a data set.
РЕЗУЛЬТАТЫ
На основании анализа средних значений параметров для каждого кластера, выделим кластер, который представляет собой наиболее выгодные предложения на рынке недвижимости Москвы.
Кластер 0 характеризуется следующими параметрами: средняя цена объектов составляет около 20,319,055 рублей. Среднее время до ближайшей станции метро составляет 13.02 минут, что является комфортным для большинства покупателей. Объекты недвижимости в этом кластере расположены преимущественно в южном административном округе, что указывает на доступные районы Москвы. Средняя общая площадь объектов в этом кластере составляет 56 кв.м, с жилой площадью 33 кв.м. Средний этаж, на котором расположены эти объекты, составляет 9, а среднее количество этажей в здании – 18. Большинство объектов в данном кластере были построены около 2003 года. Примерно 27.19% объектов являются новостройками. Также 13.17% объектов классифицируются как апартаменты. Средняя высота потолков в этих объектах составляет 3 м. Среднее количество комнат – 2. Таким образом, кластер 0 представляет

собой наиболее выгодные и доступные предложения на рынке недвижимости Москвы, сочетая в себе комфортные условия проживания и оптимальную стоимость.
price |
min_to_metro |
regionofmoscow |
total_area \ |
|
cluster 0 |
20,319,055 |
13.020061 |
4.524192 |
55.738995 |
1 |
198,544,946 |
18.424623 |
1.025126 |
167.736281 |
2 |
3,737,636,000 |
10.000000 |
0.000000 |
530.000000 |
3 |
481,139,633 |
7.646154 |
0.246154 |
241.860308 |
4 |
118,899,765 |
8.933333 |
1.910569 |
134.626439 |
5 |
315,637,948 |
8.083916 |
0.741259 |
202.741259 |
6 |
741,009,153 |
8.222222 |
0.000000 |
310.685556 |
7 |
57,097,160 |
14.397742 |
4.005312 |
100.058088 |
livingarea |
floor number_of_floors construction_year |
|||
cluster 0 |
33.470309 |
9.387302 |
18.437102 |
2003.104319 |
1 |
60.778894 |
11.773869 |
17.597990 |
2012.140704 |
2 |
183.000000 |
6.000000 |
7.000000 |
2003.000000 |
3 |
71.541538 |
11.738462 |
14.784615 |
2014.076923 |
4 |
58.736423 |
11.913821 |
19.988618 |
2007.338211 |
5 |
76.776923 |
8.783217 |
12.776224 |
2011.671329 |
6 |
73.505556 |
6.055556 |
7.055556 |
2019.000000 |
7 |
50.564807 |
12.918991 |
23.930279 |
2010.918991 |
isnew is_ |
apartments ce |
.lingheight number_of_rooms |
||
cluster 0 |
0.271890 |
0.131697 |
2.933219 |
2.031390 |
1 |
0.150754 |
0.195980 |
3.215201 |
3.494975 |
2 |
0.000000 |
0.000000 |
3.000000 |
4.000000 |
3 |
0.153846 |
0.230769 |
3.289846 |
3.661538 |
4 |
0.186992 |
0.232520 |
3.186699 |
3.196748 |
5 |
0.146853 |
0.209790 |
3.353846 |
3.580420 |
6 |
0.277778 |
0.055556 |
3.666667 |
3.777778 |
7 |
0.328685 |
0.174635 |
3.119900 |
3.011952 |
Рисунок 2. Средние значения полученных кластеров.
Figure 2. Mean values of the obtained clusters.
ЗАКЛЮЧЕНИЕ
В результате исследования была разработана модель на базе алгоритма K-Means, позволяющая выявлять наиболее выгодные предложения на рынке недвижимости Москвы. Модель предоставляет покупателям ценный инструмент для оптимизации процесса выбора недвижимости, что позволяет существенно сократить время и затраты на поиск оптимального варианта. Основная сложность в данной работе заключается в интерпретации полученных кластеров.