Предиктивное моделирование заработной платы ИТ-специалистов
Автор: Базарова Э.В.
Статья в выпуске: 2 (20), 2025 года.
Бесплатный доступ
В статье представлен анализ данных об оплате труда специалистов организаций разных стран в целях отбора значимых признаков для создания регрессионной модели, предсказывающей уровень заработной платы на основе таких факторов, как занимаемая должность, опыт работы, тип занятости, форма работы (удаленная, гибридная, в офисе), размер компании. Для выбора наиболее оптимальной регрессионной модели были использованы три метода машинного обучения: решающее дерево, линейная регрессия, градиентный бустинг. Рассчитанные метрики качества RMSE и MAE показали необходимость исключения модели решающего дерева ввиду наличия значительной ошибки в ее предсказаниях. Оставшиеся две модели были использованы для тестового прогноза размера заработной платы соискателя на должность ведущего специалиста по управлению данными с рандомно сгенерированными данными об опыте и условиях работы.
Предиктивное моделирование, оплата труда, прогнозирование, методы машинного обучения, регрессионное моделирование, датасет, метрики качества
Короткий адрес: https://sciup.org/142244724
IDR: 142244724
Текст научной статьи Предиктивное моделирование заработной платы ИТ-специалистов
Введение и новизна
С каждым годом объем накапливаемой информации из различных источников многократно увеличивается. Аналитик, умеющий грамотно извлекать из огромного массива данных, изучать нужную информацию и управлять ею, является очень ценным специалистом для любой организации. Качественно проведенный анализ может существенно помочь компаниям в оптимизации бизнес-процессов, увеличении производительности труда, управлении ресурсами, в том числе кадровыми.
Целью научного исследования является анализ зависимости размера заработной платы ИТ-специалистов от различных факторов и ее предиктивное моделирование методами машинного обучения.
Разработанная предиктивная модель будет полезна как для соискателей, так и для работодателей. Для соискателей она будет полезна тем, что они смогут использовать ее для оценки потенциального заработка с учетом своего опыта работы и условий труда в компании. А работодателям прогнозные данные помогут более точно спланировать бюджет, отведенный на оплату труда.
Методика исследования
В исследовании были использованы методы машинного обучения, а именно модели регрессии: решающее дерево, линейная регрессия и градиентный бустинг.
Дерево решений для регрессии — это модель с иерархической структурой, которая создается при рекурсивном делении данных по определенным правилам. Дерево строится путем разбиения признаков на подмножества, где значения целевой переменной очень близки. Модель состоит из нескольких элементов: node — узлы, branch — ветви, leaf — листья. В узлах содержатся условия проверки признака, а в листьях — среднее значение целевой переменной для всех наблюдений этой области [1].
Статистический метод моделирования линейной зависимости между одной зависимой (целевой) переменной и одним или несколькими независимыми предикторами называется линейной регрессией.
Градиентный бустинг представляет собой алгоритм последовательного обучения простых моделей, каждая из которых улучшает предыдущую модель, исправляя выявленные ошибки.
Полученные модели обязательно проверяются на статистическую значимость и наличие недообучения или переобучения с помощью метрик качества. Для моделей регрессии это чаще всего RMSE (среднеквадратическая ошибка) и MAE (средняя абсолютная ошибка).
Результаты исследования
Анализируемый датасет состоит из 11 полей и 88584 строк с информацией о начисленной заработной плате специалистам в области искусственного интеллекта, машинного обучения и анализа данных за 2020–2025 гг.
В ходе исследования был проведен анализ зависимости заработной платы от должности, уровня опыта и типа занятости, страны проживания сотрудника и месторасположения компании, общего объема удаленной работы и размера компании.
Первым этапом был рассчитан средний размер заработной платы в разрезе должностей и составлен рейтинг 10 самых высокооплачиваемых профессий с полным рабочим днем (табл. 1).
Таблица 1 — Рейтинг самых высокооплачиваемых должностей
№ |
Должность и уровень опыта |
Средний размер зарплаты, долл. |
1 |
Менеджер по аналитике и инжинирингу (SE) |
399 880 |
2 |
Ведущий специалист по науке о данных (SE) |
375 000 |
3 |
Руководитель прикладного ИИ и МО (SE) |
292 500 |
4 |
Руководитель отдела машинного обучения (EX) |
283 574 |
5 |
Инженер по эффективности машинного обучения (SE) |
262 500 |
6 |
Руководитель отдела ИИ (EX) |
261 023 |
7 |
Менеджер по инжинирингу (SE, MI) |
258 633 |
8 |
Специалист по работе с корпоративными клиентами (EX, SE) |
258 258 |
9 |
Архитектор данных AWS (MI) |
258 000 |
10 |
Директор по машинному обучению (EX, SE) |
256 479 |
Самым высокооплачиваемым специалистом является менеджер по аналитике и инжинирингу с большим опытом работы (старшего уровня), получающий в среднем 400
тыс. долл. Чуть меньше получает ведущий специалист по науке о данных — 375 тыс. долл. Остальные специалисты в области искусственного интеллекта и машинного обучения получают менее 300 тыс. долл.

Рисунок 1 — Топ-10 должностей с самой высокой заработной платой
Самыми низкооплачиваемыми профессиями оказались аналитик данных, инженер по качеству данных, менеджер по аналитике данных, инженер-исследователь по искусственному интеллекту с начальным и средним уровнем опыта. Их оплата труда варьируется от 15 тыс. до 29 тыс. долл.
Анализ зависимости заработной платы от уровня опыта и типа занятости показал, что наивысшую оплату получают специалисты, имеющие полный рабочий день, и размер их заработка напрямую коррелирует с уровнем опыта (табл. 2).
Таблица 2 — Средняя заработная плата по типу занятости и уровню опыта
Начальный уровень (EN) |
Средний уровень (MI) |
Старший уровень (SE) |
Исполнительный уровень (EX) |
|
Полный рабочий день |
101 235 |
143 003 |
173 152 |
200 239 |
Неполный рабочий день |
68 571 |
71 499 |
122 075 |
- |
Контракт |
61 705 |
107 892 |
115 943 |
190 618 |
Фриланс |
60 000 |
42 179 |
52 891 |
- |
На фрилансе наблюдается интересная тенденция: начинающие специалисты зарабатывают больше, чем представители среднего и старшего уровней.

Рисунок 2 — Средняя заработная плата по уровням опыта и типам занятости
Далее были изучены данные столбцов «Страна проживания сотрудника», «Страна месторасположения главного офиса работодателя». Большинство работников и работодателей находятся в США (90 %), Канаде (более 3 %), Великобритании (около 3 %).
Анализ зависимости размера заработной платы от общего объема удаленной работы с учетом типа занятости показал следующие результаты (табл. 3).
Таблица 3 — Средняя заработная плата по типу занятости и форме работы
FT (полный рабочий день) |
PT (неполный рабочий день) |
CT (контракт) |
FL (фриланс) |
|
0 (нет удаленной работы) |
160478 |
75436 |
117836 |
39111 |
50 (гибридная форма) |
82337 |
54244 |
84318 |
48518 |
100 (удаленная работа) |
149694 |
80956 |
73098 |
54754 |
Специалист, трудящийся полный рабочий день, получает самую высокую заработную плату, работая в офисе, немного меньшую — на удаленной работе, и вдвое меньшую — при гибридной форме работы.
На диаграмме видно, что практически при всех типах занятости гибридная форма работы оплачивается меньше всего (рис. 3).
Размер компании определяется количеством сотрудников, работающих в ней. Так в анализируемом датасете выделены три размера: S (малая) — менее 50 сотрудников, M
(средняя) — от 50 до 250 сотрудников и L (крупная) — более 250 сотрудников.

Рисунок 3 — Средняя заработная плата по типу занятости и форме работы
Итоги расчета средней зарплаты в зависимости от размера компании приведены в таблице 4.
Таблица 4 — Средняя заработная плата в зависимости от размеров компании и по типу занятости
FT (полный рабочий день) |
PT (неполный рабочий день) |
CT (контракт) |
FL (фриланс) |
|
L |
155044 |
64347 |
109985 |
20000 |
M |
158199 |
77244 |
94347 |
63841 |
S |
91250 |
59088 |
120803 |
42942 |
Специалисты средних компаний получают самую высокую плату за труд, если они работают на условиях полной или частичной занятости или занимаясь фрилансом, тогда как по контрактам наибольшие доходы получают сотрудники малых предприятий. Следовательно, можно сделать вывод, что крупная компания не всегда гарантирует высокие зарплаты.
Средняя зарплата в зависимости от размера компании и по типу занятости

Размер компании
Рисунок 4 — Средняя заработная плата в зависимости от размера компании и по типу занятости
Далее было выполнено предиктивное моделирование показателя заработной платы на основе имеющихся данных.
Целевая переменная — зарплата в долларах.
Признаки — уровень опыта работы, тип занятости, должность, общий объем удаленной работы и размер компании.
При предобработке данных из датасета были удалены столбцы с показателями, которые не влияют на уровень заработной платы — год выплаты, зарплата в валюте, валюта, страна проживания сотрудника, страна месторасположения компании. Также была проведена нормализация датасета методом Min-Max Scaling.
Поскольку целевая переменная является числовым показателем, задача машинного обучения классифицируется как задача регрессии. Использовались три модели: решающее дерево, линейная регрессия и градиентный бустинг. По итогу обучения моделей были получены следующие результаты (табл. 5).
Метрики качества моделей регрессии показали, что решающие деревья показывают большую ошибку в предсказаниях, поэтому данная модель была исключена.
Другие две модели показывают хорошие результаты в оценке качества и могут быть использованы для прогнозирования заработной платы специалистов.
Далее полученные модели были апробированы на новых данных, сгенерированных рандомно (табл. 6).
Таблица 5 — Расчет метрик качества для предиктивных моделей
RMSE (среднеквадратическая ошибка) |
MAE (средняя абсолютная ошибка) |
|||
Тестовая выборка |
Тренировочная выборка |
Тестовая выборка |
Тренировочная выборка |
|
Решающее дерево |
0,722 |
0,701 |
0,530 |
0,520 |
Линейная Регрессия |
0,089 |
0,087 |
0,066 |
0,066 |
Градиентный бустинг |
0,085 |
0,083 |
0,063 |
0,062 |
Входная информация:
-
- должность — Lead Data Management (ведущий специалист по управлению данными);
-
- уровень опыта работы — SE (старший уровень);
-
- тип занятости — FT (полный рабочий день);
-
- общий объем удаленной работы — 0 (не удаленная работа);
-
- размер компании — M (средняя компания).
Таблица 6 — Результаты тестирования моделей
Модель |
Прогнозируемый размер заработной платы, долл. |
Линейная регрессия |
91 088 |
Градиентный бустинг |
96 781 |
Результаты тестирования показали, что модель линейной регрессии предсказывает для соискателя заработную плату в размере 91088 долл., а градиентный бустинг — 96 781 долл.
Выводы и рекомендации
Разработанные предиктивные модели являются полезным инструментом для прогнозирования уровня заработной платы специалистов в области информационных технологий, учитывающие несколько факторов: должность, на которую устраивается соискатель, его опыт работы, тип занятости (полный, неполный рабочий день, контракт или фриланс), форма работы (в офисе, смешанная форма или удаленная работа), размер компании. Предиктивные модели полезны не только для соискателя, который сможет оценить перспективу своего заработка той или иной компании, но и для работодателей, которые смогут более точно планировать размер фонда оплаты труда, предлагать ценным кадрам хороший уровень заработной платы, тем самым формируя сильную команду в своей организации.
Рынок труда в ИТ-индустрии постоянно меняется: внедряются новые технологии, методологии и требования, что делает актуальными модели предсказания для оценки адекватного уровня заработной платы.