Использование открытых данных онлайн-вакансий в сравнении с данными официальной статистики для мониторинга и прогнозирования динамики рынка труда
Автор: Виталий Владиславович Алтухов, Алексей Дмитриевич Кудрявцев
Журнал: Уровень жизни населения регионов России @vcugjournal
Рубрика: Экономические исследования
Статья в выпуске: 2 т.21, 2025 года.
Бесплатный доступ
Цифровизация трудовых процессов и рост популярности онлайн-платформ открывают новые возможности для мониторинга и прогнозирования динамики рынка труда. Однако остаются нерешёнными вопросы, связанные с репрезентативностью данных онлайн-вакансий, их оперативностью и полнотой. Научный интерес исследования заключается в развитии подходов к интеграции данных онлайн-источников с официальной статистикой, что позволит повысить точность прогнозирования и оперативность оценки состояния рынка труда. При традиционном анализе ситуации на рынке труда вакансии используются для измерения напряжённости на рынке труда и могут сигнализировать о наличии дисбалансов на рынке труда, когда спрос и предложение не соответствуют друг другу (по качественным характеристикам, географически и т. д.). Целью статьи является сопоставление данных онлайн-вакансий и официальной статистики для разработки подходов к мониторингу и прогнозированию динамики рынка труда. В статье приводится пример реализации мониторинга рынка труда на основании больших данных и сопоставление данных онлайн-вакансий с источниками официальной статистики. Основными источниками данных для сопоставления стали данные Росстата и hh.ru (открытые данные вакансий). При сопоставлении использовалась авторская методология агрегации данных вакансий в группы профессиональных сфер и профессий с опорой на официальные классификаторы, а также методы вычисления и оценки уровня заработных плат. В результате исследования было выявлено, что полученные и агрегированные данные портала поиска работы онлайн hh.ru достоверно соотносятся с официальной поквартальной и помесячной статистикой относительно динамики количества открытых вакансий и заработной платы. В завершении обсуждаются методы прогнозирования динамики рынка труда с использованием методов машинного обучения с опорой на открытые большие данные. Возможность соотнесения динамики показателей онлайн-порталов с официальной статистикой предприятий, по мнению авторов, могла бы дополнить методологию мониторинга рынка труда и повысить достоверность прогнозов.
Региональный рынок труда, онлайн-вакансии, динамика вакансий, заработная плата, оценка спроса на рынке труда, отрасли экономики, большие данные
Короткий адрес: https://sciup.org/143184310
IDR: 143184310 | DOI: 10.52180/1999-9836_2025_21_2_5_233_244
Текст научной статьи Использование открытых данных онлайн-вакансий в сравнении с данными официальной статистики для мониторинга и прогнозирования динамики рынка труда
Цифровизация трудовых процессов и рост популярности онлайн-платформ открывают новые возможности для мониторинга и прогнозирования динамики рынка труда. Однако остаются нерешёнными вопросы, связанные с репрезентативностью данных онлайн-вакансий, их оперативностью и полнотой. Научный интерес исследования заключается в развитии подходов к интеграции данных онлайн-источников с официальной статистикой, что позволит повысить точность прогнозирования и оперативность оценки состояния рынка труда.
Цель исследования – сопоставление данных онлайн-вакансий и официальной статистики для разработки подходов к мониторингу и прогнозированию динамики рынка труда.
Задачи исследования:
-
1. Анализ существующих методологий мониторинга.
-
2. Разработка алгоритмов обработки данных, включающих в себя классификацию вакансий по профессиональным отраслям и обработку заработных плат.
-
3. Сравнение данных hh.ru с официальной статистикой Росстата.
-
4. Оценка результатов, выработка подходов к мониторингу и прогнозированию показателей рынка труда на основе открытых данных.
Объект исследования – показатели структуры и динамики рынка труда (вакансии и заработные платы).
Предмет исследования – данные по показателям (вакансиям и заработным платам из официальных и открытых источников), а также методы и инструменты мониторинга и прогнозирования структуры и динамики рынка труда.
Исследование вакансий представляет собой полезный срез информации и является перспективным источником данных. При традиционном анализе ситуации на рынке труда вакансии используются для измерения напряжённости на рынке труда, то есть для анализа соотношения неудовлетворённого спроса на труд и свободной рабочей силы (по данным Росстата). Таким образом, данные по вакансиям могут сигнализировать о наличии дисбалансов на рынке труда, когда спрос и предложение не соответствуют друг другу (по качественным характеристикам, географически и т. д.).
Также, согласно исследованиям [1], к 2025 году человечество начнет генерировать 175 зеттабайт данных. Такой большой объём данных мотивирует исследователей активно развивать методы анализа, основанные на анализе больших данных, не ограничиваясь только их частью или статистикой [2].
Гипотезой исследования является применимость данных онлайн-вакансий для мониторинга рынка труда. Различные данные Росстата собираются и подсчитываются помесячно или поквартально, однако с учётом развития онлайн-серви-сов поиска работы становится актуальным принимать во внимание и их, а также рассматривать возможность соотнесения динамики показателей онлайн-порталов с официальной статистикой предприятий. Такой подход мог бы дополнить методологию мониторинга рынка труда и, возможно, помочь делать достоверные прогнозы на будущее.
Изучая научное поле вопроса достоверности данных порталов по поиску работы онлайн, стоит обратить внимание на ряд исследований, посвящённых сравнению данных официальной статистики (опросов работодателей) с массивом больших данных онлайн-вакансий. На выборке сразу нескольких стран Европейского союза [3; 4] проведены сравнительные исследования распределения вакансий онлайн-платформ и вакансий в отраслевом распределении (согласно европейскому статистическому отраслевому классификатору NACE), а также в разрезе профессиональных групп (согласно международной классификации профессий ISCO-08) на базе опросов официальной статистики в различных секторах. Авторы отмечают разрывы в данных, исходя из локации (географии стран) и отраслей, – количество вакансий на онлайн-платформах может быть примерно сравнимым с данными официальных опросов, но существуют и случаи несоответствия, когда вакансий может быть больше или значительно меньше в тех или иных видах деятельности, например, как в случае с государственным управлением, где традиционно меньше онлайн-вакансий. Однако в то же время исследователи отмечают преимущество анализа онлайн-вакансий в силу более оперативного получения информации и возможности охватить различные тренды рынка труда. Исследования, проведённые на выборке данных по отдельным странам – например, по Нидерландам [5], Италии [6] или Австралии [7], – указывают на статистическую значимость сходства между полученными данными онлайн-вакансий и официальной статистикой и являются, согласно выводам, надёжными предикторами трендов на рынке труда.
Теоретические и методологические положения
Исследования репрезентативности данных онлайн-вакансий имеют определенные огра- ничения, прежде всего в силу того, что не все представители рынка труда имеют равные шансы попасть в выборку в силу разных причин. Вакансии, открытые публично, не представляют весь неудовлетворённый спрос на рабочую силу (рисунок 1). Вакансии, опубликованные в открытом доступе, могут преследовать несколько целей: сделать поиск более эффективным, если другие инструменты этого не позволяют, либо увеличить охват потенциальных кандидатов, повысив таким образом конкуренцию; в некоторых случаях государственные компании обязаны публиковать вакансии на определённых платформах. Некоторые вакансии никогда не становятся публичными, а заполняются иными способами (через внутренние каналы поиска компании, рекрутинговые агентства, неформальные связи и т. д.).
Все работодатели
Работодатели у которых есть вакантные места
Работодатели, находящиеся в поиске кандидатов
Работодатели, использующие Интернет для найма сотрудников
Работодатели, попавшие в выборку аналитической системы анализа онлайн-вакансий Cedefop-Eurostat
Рисунок 1. Схема механизма отбора онлайн-вакансий из общего количества вакансий на рынке труда в информационно-аналитической системе Cedefop
Figure 1. Scheme of the Mechanism for Selecting Online Vacancies from the Total Number of Vacancies on the Labor Market in the Cedefop Information-Analytical System
Источник: [3].
Онлайн-вакансии являются источником множества данных и содержат: название компании, описание требований, необходимых навыков и образования, заработной платы. В то же время существуют некоторые ограничения или искажения при сборе и интерпретации данных [8].
Согласно ранее изученным данным на европейском рынке труда [9], вакансии, опубликованные на порталах поиска работы онлайн, составляют порядка 80–85% от всех опубликованных вакансий. Больше всего данный способ подходит при поиске менеджеров среднего звена, специалистов разного уровня, технического и административного персонала. Однако могут отсутствовать вакансии для работников низкоквалифицированного труда или, наоборот, для специалистов высшего звена, которые чаще всего нанимаются через рекрутинговые агентства или нетворкинг.
В исследовании на основе эмпирических данных опроса 1799 российских компаний [10], проведённого в 2015 г., было выявлено, что наиболее популярным способом найма новых сотрудников является поиск через интернет и через социальные сети (знакомых, коллег, родственников). Было выявлено, что порядка 76% компаний из представительной выборки российских предприятий (на момент проведения исследования) используют интернет для поиска сотрудников, и чаще всего в финансовой сфере и трейдинге, реже – в строительстве, промышленности, добыче. Стремительный переход компаний к использованию различных интернет-сервисов и платформ подчёркивает актуальность данного исследования.
Есть подтверждения, что на сайтах вакансий недопредставлены низкоквалифицированные и низкооплачиваемые профессии в такой профессиональной группе, как, например, специалисты в сельском хозяйстве, лесной промышленности и др., и излишне представлены профессии, требующие высокой квалификации [11].
Вакансии также могут быть смещены в сторону поиска высококвалифицированных кадров, а также в сторону предложений от компаний, уже успешно зарекомендовавших себя на рынке, или быстрорастущих компаний [12]. Исследования по рынку труда США [13] также говорят о смещённости данных в сторону вакансий, требующих высшего образования (диплом бакалавра), а также о других искажениях при сравнении онлайн-данных и данных официальной статистики. Вакансии в отрасли зависят также от скорости оборота в ней: чем выше оборот, тем больше увеличивается доля представленности – например, в торговле, ресторанном или гостиничном бизнесе оборот выше.
Среди других ограничений – данные открытых вакансий могут зависеть от региональной специфики, популярных ресурсов и платформ, а также от стратегий найма. Например, от возможности открывать вакансию сразу для нескольких кандидатов или для массового найма или, открывая вакансию, задаваться целью мониторинга потенциальных кандидатов, без планов нанимать работников.
На рынок труда может влиять и особенность эволюции институтов труда. Так, стоит упомянуть уже устоявшееся понятие «российская модель рынка труда»: когда в кризисные моменты экономики адаптация происходит в том числе за счёт снижения оплаты труда и сокращения рабочего времени работников [14].
Данные онлайн-вакансий активно применяются в аналитике [15; 16], однако, российский контекст остаётся недостаточно изученным. Основные пробелы включают отсутствие детальных сопоставлений данных порталов онлайн-вакан-сий с региональной статистикой Росстата. Кроме того, необходимо изучить преимущества и ограничения использования онлайн-источников для мониторинга трудового рынка.
Таким образом, принимая во внимание различные аспекты сопоставления «больших данных» онлайн-вакансий и источников официальной статистики, мы ставим перед собой проблему и задачу выполнить сравнительный анализ этих статистик на российском рынке труда.
Данные и методы работы с ними
На данный момент технологии сбора и обработки данных онлайн-вакансий, то есть «больших данных», уже достаточно изучены и опробованы. На зарубежном рынке примечателен проект Cedefop, который посвящён сразу 27 странам, входящим в Европейский союз (ЕС), а также Великобритании: распределение вакансий и навыков в отраслевом (по видам экономической деятельности) и профессиональном разрезах1. Схожий сервис, собирающий данные по вакансиям практически в режиме онлайн, – Lightcast (бывш. Burning Glass Technologies)2 – уже зарекомендовал себя как надёжный аналитический сервис, использующийся как инструмент для проведения различных совместных исследований рынков труда США и ЕС. Также примечателен российский сервис, созданный «ВНИИ труда» Минтруда России – аналитическая система мониторинга вакансий и резюме3. В целом базовая схема работы заключается в сборе сырых данных, их обработке, преобразовании в структурированную базу данных и визуализацию полученных результатов (например, Cedefop4).
Целью нашей работы является соотнесение данных онлайн-вакансий на российском рынке труда с данными официальной статистики Росстата. Важность этой работы определяет дальнейшие шаги для проведения более фундаментальных исследовательских работ: если картина онлайн-вакансий схожа с официальной статистикой, это может в дальнейшем стать валидным инструментом при мониторинге и прогнозировании ситуации на рынке труда.
В своей работе мы будем опираться на несколько источников . Из официальной статистики Росстата будут использоваться следующие показатели :
-
1. Заявленная работодателями потребность в работниках в течение отчётного периода (количество свободных вакансий, заявленных работодателями в органы службы занятости населения в течение отчётного периода, по данным служб занятости, дост упно по РФ в целом, помесячно)5.
-
2. Численность требуемых работников списочного состава на вакантные рабочие места на конец отчётного квартала (численность работников списочного состава, которых предполагается принять на вакантные рабочие места, по состоянию на последнее число отчётного квартала, по данным отчётности сектора крупных и средних предприятий, доступна по регионам и отраслям)6.
-
3. Среднемесячная номинальная начисленная заработная плата работников по полному кругу организаций по субъектам Российской Федерации7.
Эти показатели будут сопоставлены с собранными и проанализированными «Профилум» открытыми данными платформы по найму сотрудников hh.ru, крупнейшей платформы поиска работы и найма сотрудников в России8, которая предоставляет открытый и публичный HTTP API. Период для анализа данных – с января по декабрь 2023 года.
Можно выделить следующие этапы сбора вакансий и выявления показателей заработной платы :
-
1. Обработка названий вакансий и их общего количества. Было собрано более 16 млн. вакансий по всем регионам страны. В текстах каждой вакансии проводился процесс удаления служебных частей речи и выделения лемм (начальных словарных форм слов). Затем вакансии были сгруппированы по названиям, тем самым был получен первоначальный список профессий. Также был экспертно сформирован список из двух тысяч профессий, основанный на анализе вакансий (наиболее часто встречаемые) и общероссийском
-
2. Обработка заработных плат. Анализ данных по средней заработной плате указывает на проблему некорректно низких или высоких значений (выбросов) и недостаточной заполненности данных: доля пропусков, где отсутствует хотя бы один из пределов (минимум или максимум), составляет порядка 45%. Для решения первой проблемы для каждой профессии/вакансии рассчитывается 90%-й интервал, а выбросы заменяются крайними значениями (выбросы в меньшую сторону – 5% перцентилем, в большую – 95% перцентилем). Затем для заполнения пропусков модель обучается линейной регрессии и предсказывает отсутствующие значения. Таким образом были получены значения средней заработной платы всех доступных значений в вакансиях, а также средние заработные платы, когда значения были досчитаны в случае, когда работодатель их не указывал.
классификаторе специальностей. Далее специалистами по рынку труда и профориентации были сопоставлены первоначальный и экспертный список профессий. Таким образом были классифицированы вакансии для дальнейшего анализа.
Таблица 1
Table 1
Росстат |
hh.ru |
Данные «запаса» – сколько вакансий актуально на определенную дату |
Данные «потока» – сколько вакансий открыто за определенный период |
Данные по крупным и средним предприятиям |
Все предприятия, включая малые |
Вакансии для работников списочного состава |
Включает вакансии в т. ч. по ГПХ |
Одна вакансия – одно рабочее место |
За одной вакансией может стоять несколько рабочих мест |
Источник: разработано авторами.
6 Росстат. Численность требуемых работников списочного состава на вакантные рабочие места на конец отчетного квартала с 2017 г. // Росстат: [сайт]. URL: (дата обращения: 04.11.2024).
Результаты и обсуждениеПоказатели динамики вакансий
Полученные и обработанные данные портала поиска работы hh.ru были сопоставлены с поквартальной и помесячной динамикой количества вакансий Росстата. В целом данные Росстата менее волатильны, особенно при сравнении кварталов в абсолютных и процентных значениях (например, в III квартале 2023 года, рисунок 2–3), однако при этом число вакансий, размещённых за квартал, одного порядка с числом доступных вакансий от Росстата с точки зрения восходящего/нисходящего трендов.
Проведённый корреляционный анализ поквартального распределения количества вакансий по регионам указывает на высокую положительную связь (r = 0,98, p<.001; Приложение, рисунок А ), что указывает на пропорциональные изменения во времени двух источников вакансий.

Источник: разработано авторами.
Помесячная динамика более наглядна. Мы можем наблюдать схожие тренды от месяца к месяцу. Пик спроса вакансий на портале hh.ru приходится на август 2023 года, данные Росстата сопоставимы – пик приходится на май – август. Возможно, это является следствием сезонности. В целом начиная с августа данные уже более синхронны.

Источник: разработано авторами.
Сравнение отраслевой структуры вакансий
При сравнении отраслевой структуры вакансий портала hh.ru и Росстата (численность требуемых работников списочного состава на вакант- ные рабочие места на конец отчётного квартала) можно отметить некоторые различия в отраслевой структуре вакансий: онлайн-вакансии хуже отражают (недопредставлены) деятельность в сельском хозяйстве, государственные сервисы (здравоохранение, образование, государственное управление, культура). Сверхпредставлены рыночные услуги: административные услуги, профессиональная деятельность, финансы, информация и связь, гости- ницы и общественное питание, и особенно торговля (рисунок 4). При этом сопоставимы данные в транспорте и логистике, строительстве, обрабатывающей промышленности, добыче полезных ископаемых, административной деятельности.

ИЖ
№а.
According to Rosstat, Respectively, on Average for 2023, %
Источник: разработано авторами.
Сравнение источников данных о заработных платах
При сравнении источников заработной платы в целом по регионам страны стоит уточнить, что зара- ботная плата от Росстата – это плата за стандартную продолжительность рабочего времени, фактически выплаченная, в то время как у hh.ru – предлагаемая работодателем, то есть некоторое усреднение (рисунок 5).

Источник: разработано авторами.
Скорректированная средняя заработная плата по данным портала hh.ru, то есть с учётом смоделированных значений заработной платы в вакансиях (с помощью линейной регрессии), где эта информация была пропущена, в целом достаточно близки к значениям Росстата. А корреляционный анализ квартальных и помесячных заработных плат Росстата с данными, агрегированными с hh.ru, показывает также высокую положительную связь между данными (r = 0,85, p<.001 и r = 0,82, p<.001 соответственно; Приложение, рисунок Б-В ).
Отраслевое сравнение источников данных о заработных платах
Значения заработных плат по отраслям в целом близки, но внимание привлекает существенная недооценка зарплат в высокооплачиваемых отраслях в онлайн-вакансиях: финансовая деятельность, деятельность в области информации и связи – вероятно, это связано с тем, что часть предложений по заработной плате обсуждается на финальных стадиях найма, а также большим оборотом организаций. Видны и области, где предложение выше, чем в данных Росстата, – операции с недвижимостью, транспорт и логистика, строительство. Также отмечают отрасли с наиболее близкими значениями – торговля и добыча сырья (рисунок 6).

Рисунок 6. Сравнение источников данных о заработных платах по видам экономической деятельности: средняя и средняя скорректированная заработная плата портала hh.ru и среднемесячная номинальная начисленная заработная плата работников по полному кругу организаций по всем субъектам Российской Федерации, руб., 2023 г.
Источник: разработано авторами.
Заключение
-
1. Полученные данные подтверждают, что он-лайн-вакансии могут служить полезным дополнением к официальной статистике для мониторинга рынка труда. В будущем рекомендуется провести дополнительные исследования для учёта сезонных факторов и расширить использование методов машинного обучения, чтобы включить другие источники данных и платформы.
-
2. Полученное отраслевое распределение данных hh.ru позволило получить осмысленное со-
- поставление с данными официальной статистики о вакантных рабочих местах и номинальной начисленной заработной платой.
-
3. При сопоставлении вакансий в отраслевом разрезе можно отметить лишь некоторые виды экономической деятельности, когда данные онлайн-ва-кансий соотносятся с данными Росстата (например, транспорт и логистика, строительство, обрабатывающая промышленность, добыча полезных ископаемых, административная деятельность), в других случаях мы можем отметить несовпадение.
-
4. При сопоставлении отраслевых показателей заработных плат также отмечаются зоны совпадения скорректированной заработной платы и номинальной начисленной зарплаты по Росстату: это деятельность в сфере торговли, добычи полезных ископаемых и др. В случаях, когда показатели онлайн-вакансий незначительно превышают данные Росстата, вероятно, можно предположить зоны дефицита рабочей силы, например в обрабатывающей промышленности, строительстве, транспортировке.
-
5. В отраслевом разрезе также существуют некоторые аномалии, которые требуют дополнительного исследования: высокая доля вакансий в сфере торговли (с резким скачком в мае 2024 года); заниженные заработные платы в высокодоходных отраслях (финансовая деятельность, информация и связь).
-
6. В дальнейшем необходимо провести анализ данных на более длительном временном отрезке, чтобы охватить как можно больше трендов, например явление сезонности за 2023–2024 гг.
Работа по анализу данных рынка труда с точки зрения публикуемых вакансий на порталах поиска работы в формате онлайн представляет огромный интерес, это можно отметить по возрастающему количеству проводимых исследований, а также возросшему числу таких платформ в России. Достоверность и валидность результатов сопоставления официальных статистик и данных онлайн-вакансий зависит от многих факторов и государственных политик стран: цифровизации сервисов, открытости экономики, используемых инструментов сбора и обработки данных.
Основным ограничивающим фактором, влияющим на восприятие полноты данных онлайн-вакансий, является их строгость (представлено ранее в таблице 1) – на одну вакансию может приходиться несколько открытых позиций, в то же время мы не можем достоверно знать, когда именно открываются и закрываются вакансии.
В результате в исследовательском плане не вполне ясно, какую именно часть рынка труда представляют онлайн-вакансии: более оперативно отражают рынок труда или дополняют данные официальной статистики.
Между тем динамика данных, полученная после обработки почти 16 млн онлайн-вакансий, и её сопоставление с данными Росстата говорят о схожести трендов, на это также указывает положительная корреляция при сравнении как количества вакансий, так и заработной платы. Одним из полезных результатов является перекодировка экономических отраслей и ниш портала hh.ru в систему классификатора ОКВЭД, что позволит в дальнейшем использовать данный «словарь» для последующих сопоставлений.
В качестве дальнейших исследовательских шагов становится актуальным вопрос о прогнозировании потребности в кадрах на рынке труда на основании данных онлайн-вакансий и резюме при помощи статистических методов или машинного обучения. Для решения этой задачи применимы модели с авторегрессией и интегрированным скользящим средним (ARIMA). Прогнозная модель ARIMA для стационарного временного ряда представляет собой уравнение регрессионного типа, в котором предикторы состоят из лагов зависимой переменной и/или лагов ошибок прогноза [17].
Также перспективным методологическим инструментом для прогнозирования в данном вопросе может стать использование алгоритма градиентного бустинга XGBoost, где в качестве признаков используются данные спроса и предложения на рынке труда, а также исторические данные о нехватке рабочей силы [18]. Применённый алгоритм показывает высокую эффективность (F1 до 86%) и прогностическую ценность. Данный подход, в отличие от источников официальной статистики, позволит намного быстрее выполнять прогноз, опираясь на данные в открытом доступе.