Выполнение распределенных вычислительных экспериментов на MLOps платформе НИУ ВШЭ

Автор: Антон Сергеевич Хританков, Валентин Александрович Полежаев, Георгий Александрович Жуликов, Максим Сергеевич Галынчик, Никита Андреевич Климин, Кирилл Евгеньевич Сахаров, Виктор Олегович Минченков, Иван Вячеславович Спирин, Иван Игоревич Крупнов, Софья Федоровна Якушева, Александра Сергеевна Маратканова, Вячеслав Иванович Козырев, Павел Сергеевич Костенецкий, Хади Мухаммед Салех

Журнал: Вестник Южно-Уральского государственного университета. Серия: Вычислительная математика и информатика @vestnik-susu-cmi

Статья в выпуске: 2 т.14, 2025 года.

Бесплатный доступ

Несмотря на распространение и успешные применения средств интеллектуального анализа и обработки данных для решения отдельных прикладных задач, все еще не решена проблема разработки технологии создания таких программных средств. В работе в контексте единого процесса MLOps создания технологий машинного обучения рассматриваются возникающие задачи автоматизации и выполнения распределенных вычислительных экспериментов на базе единой вычислительной платформы. Разрабатываемая в НИУ ВШЭ платформа MLOps предназначена для развертывания интеллектуальных веб-сервисов и программных средств анализа данных. Платформа должна управлять доступными локально и в облачной среде разнородными ресурсами и объединять их с ресурсами вычислительного кластера cHARISMa НИУ ВШЭ под управлением Slurm. Таким образом актуальна задача интеграции указанных ресурсов для проведения вычислительных экспериментов, реализации конвейеров настройки моделей машинного обучения, решения задач обработки и анализа данных. Особенностями решаемой задачи являются рассмотрение процесса вычислений, как составной части технологии создания интеллектуальных веб-сервисов, обусловленная этой технологией необходимость использования разнородных ресурсов и использование единой гибридной платформы для выполнения вычислений. В работе предложено решение указанной задачи интеграции вычислений и приведены результаты апробации решения для интеллектуальных веб-сервисов. Показана принципиальная возможность такой интеграции разнородных ресурсов в одном вычислительном эксперименте на базе расширяемой пользователем объектной модели эксперимента и предметно-ориентированного языка его спецификации, решены вопросы динамического управления развертыванием интеллектуальных приложений, интеграции конвейеров обработки данных, веб-сервисов и наборов данных для выполнения распределенных вычислительных экспериментов.

Еще

Распределенные вычислительные эксперименты, машинное обучение, облачные технологии, MLOps

Короткий адрес: https://sciup.org/147250999

IDR: 147250999   |   УДК: 004.4’22, 004.75, 004.85   |   DOI: 10.14529/cmse250203

Distributed Computational Experiments in the MLOps Platform of HSE University

Despite the wide spread and successful application of data mining and processing tools for solving individual applied problems, the problem of developing a technology for creating such software tools has not yet been solved. In the context of a unified MLOps process for creating machine learning technologies, this paper considers the emerging problems of automating and executing distributed computing experiments on a hybrid cloud computing platform. The MLOps platform being developed at HSE University is designed to deploy intelligent services and data analysis software. The platform shall manage heterogeneous resources available locally and in the cloud environment and combine them with the resources of the HSE cHARISMa computing cluster managed with Slurm. Thus, relevant is the problem of integrating the specified resources for conducting computational experiments, implementing pipelines for setting up machine learning models, solving problems of data processing and analysis. The features of the problem being solved are the consideration of the computation process as an integral part of the technology for creating intelligent services, the need for using heterogeneous resources for this technology, and the use of the hybrid platform for the execution of computations. The paper proposes a solution to the problem of integrating computations and presents the results of testing the solution for intelligent services. We show the feasibility of such integration of heterogeneous resources in the same computational experiment based on an object model of the experiment extended by the user and a domain-specific language for its specification, and resolve the issues of dynamic management of the deployment of intelligent applications, integration of data processing pipelines, services and data sets for performing distributed computational experiments.

Еще