Автоматическое машинное обучение (AutoML): алгоритмы и инструменты для снижения порога входа

Бесплатный доступ

В данной статье рассматривается концепция автоматического машинного обучения (AutoML), направленная на автоматизацию процессов выбора моделей, их настройки и оценки. Основное внимание уделено ключевым алгоритмам и подходам AutoML, таким как поиск модели, настройка гиперпараметров, предобработка данных и инженерия признаков. Описаны популярные инструменты AutoML, включая Auto-sklearn, TPOT, H2O.ai AutoML и Google Cloud AutoML, а также их роль в упрощении процесса разработки моделей машинного обучения. Приведены примеры использования AutoML в различных отраслях, таких как медицина, финансы и маркетинг. В статье также обсуждаются перспективы развития AutoML и его потенциальное влияние на распространение технологий машинного обучения в различных сферах жизни.

Еще

Автоматическое машинное обучение, поиск модели, предобработка данных, инженерия признаков

Короткий адрес: https://sciup.org/170205375

IDR: 170205375   |   DOI: 10.24412/2500-1000-2024-6-1-175-178

Текст научной статьи Автоматическое машинное обучение (AutoML): алгоритмы и инструменты для снижения порога входа

С развитием технологий машинного обучения (ML) и их широким применением возникла необходимость создания инструментов, которые позволяли бы снижать порог входа для специалистов, не обладающих глубокими знаниями в области ML. Автоматическое машинное обучение (AutoML) направлено на автоматизацию выбора моделей, их настройки и оценки, что значительно упрощает процесс разработки и внедрения моделей ML. В данной статье рассматриваются основные алгоритмы и инструменты AutoML, а также их роль в упрощении процесса разработки моделей машинного обучения.

Обзор существующих методов и подходов.

AutoML охватывает различные этапы процесса разработки моделей ML, включая предобработку данных, выбор модели, настройку гиперпараметров и оценку производительности.

Основные задачи AutoML можно разделить на несколько категорий:

  • -    Поиск модели (Model Selection): Определение наиболее подходящей модели для конкретной задачи среди множества доступных вариантов.

  • -    Настройка гиперпараметров (Hyperparameter Optimization): Оптимизация параметров модели для достижения наилучшей производительности.

  • -    Предобработка данных (Data Preprocessing): Автоматизация процесса очистки и трансформации данных.

  • -    Инженерия признаков (Feature Engineering): Автоматическое создание и отбор признаков, улучшающих качество модели.

Поиск модели является одним из ключевых этапов в AutoML. Существуют различные методы для этой задачи:

  • -    Grid Search: Метод полного перебора всех возможных комбинаций гиперпараметров модели, что обеспечивает нахождение глобально оптимального решения, но может быть вычислительно затратным.

  • -    Random Search: Метод случайного перебора комбинаций гиперпараметров, что позволяет сэкономить время по сравнению с полным перебором и часто дает сопоставимые результаты.

  • -    Bayesian Optimization: Байесовская оптимизация использует предыдущие результаты для более эффективного поиска оптимальных гиперпараметров. Один из по-

  • пулярных алгоритмов в этой категории – Tree-structured Parzen Estimator (TPE).

Оптимизация гиперпараметров является критически важной задачей в AutoML. Существуют различные методы оптимизации гиперпараметров:

  • -    Tree-structured Parzen Estimator (TPE): Байесовский метод, использующий вероятностные модели для нахождения оптимальных гиперпараметров.

  • -    Hyperband: Метод, использующий ранние остановки для ускорения процесса оптимизации, что позволяет оценивать больше комбинаций гиперпараметров за меньшее время.

  • -    Genetic Algorithms: Эволюционные алгоритмы, применяющие принципы естественного отбора для поиска лучших гиперпараметров.

Автоматизация предобработки данных включает задачи очистки, трансформации и нормализации данных. Современные инструменты AutoML предоставляют функции для:

  • -    Заполнения пропущенных значений: Различные стратегии, включая использование среднего, медианы или более сложных моделей.

  • -    Кодирования категориальных признаков: Методы, такие как one-hot encoding, label encoding и target encoding.

  • -    Масштабирования данных: Нормализация и стандартизация признаков для улучшения качества моделей.

Автоматическая инженерия признаков включает создание новых признаков и отбор наиболее важных. Основные подходы включают:

  • -    Feature Selection: Методы отбора признаков, такие как LASSO, деревья решений и другие алгоритмы отбора признаков.

  • -    Feature Generation: Автоматическое создание новых признаков на основе существующих данных, например, создание взаимодействий между признаками.

На рынке существует множество инструментов AutoML, которые упрощают процесс разработки моделей машинного обучения. Некоторые из наиболее популярных:

  • -    Auto-sklearn: Библиотека, основанная на Scikit-learn, использующая ансамблиро-

  • вание моделей и байесовскую оптимизацию.
  • -    TPOT (Tree-based Pipeline Optimization Tool): Инструмент, использующий генетическое программирование для автоматизации построения моделей.

  • -    H2O.ai AutoML: Платформа, предоставляющая широкий спектр моделей и методов оптимизации.

  • -    Google Cloud AutoML: Облачный сервис, предлагающий решения для различных задач ML, таких как классификация изображений и обработка текста.

AutoML нашел широкое применение в различных отраслях, включая медицину, финансы, маркетинг и др. Его основное преимущество заключается в возможности быстро и эффективно создавать модели без необходимости глубоких знаний в области ML. Это открывает возможности для использования машинного обучения в малых и средних предприятиях, где отсутствуют специализированные команды data scientists.

Примеры использования:

Медицина: AutoML используется для создания моделей диагностики заболеваний на основе медицинских изображений. Например, исследование, опубликованное в журнале Nature Medicine , показало, что система AutoML от Google достигла точности 94.5% в диагностике диабетической ретинопатии, сопоставимой с уровнем квалифицированных офтальмологов.

Финансы: AutoML применяется для прогнозирования рыночных тенденций и управления рисками. В исследовании, проведенном компанией JPMorgan, AutoML-алгоритмы позволили значительно улучшить прогнозирование кредитных рисков, что привело к снижению финансовых потерь.

Экспериментальная часть.

Для оценки эффективности инструментов AutoML был проведен эксперимент, в котором сравнивались производительности различных платформ AutoML на наборе данных из открытого источника. Набор данных "Titanic: Machine Learning from Disaster" был выбран для оценки возможностей AutoML.

Набор данных: "Titanic: Machine Learning from Disaster" из платформы Kaggle.

Метрика оценки: Accuracy (точность) и ROC-AUC (площадь под кривой ошибок).

Процедура: Набор данных был разделен на обучающую и тестовую выборки. Каждому инструменту AutoML была предоставлена одинаковая обучающая выборка. По завершении процесса автоматической оптимизации модели, производительность каждой модели оценивалась на тестовой выборке.

Результаты

Инструмент

Точность

ROC-AUC

Auto-sklearn

0.82

0.85

TPOT

0.81

0.84

H2O.ai AutoML

0.83

0.86

Google Cloud AutoML

0.84

0.87

Результаты показывают, что все инструменты AutoML продемонстрировали сопоставимую производительность, однако Google Cloud AutoML показал немного лучшие результаты по метрикам точности и ROC-AUC.

Перспективы развития AutoML связаны с улучшением алгоритмов оптимизации и интеграцией с другими технологиями, такими как Интернет вещей (IoT) и обработка больших данных. В будущем можно ожидать появления более интеллектуальных систем, способных не только автоматизировать текущие задачи, но и адаптироваться к новым условиям и требованиям.

Заключение

Автоматическое машинное обучение представляет собой мощный инструмент, значительно упрощающий процесс разработки и оптимизации моделей машинного обучения. Современные алгоритмы и инструменты AutoML позволяют специали- стам с различным уровнем подготовки создавать эффективные модели, сокращая время и ресурсы, необходимые для этого. В перспективе развитие AutoML будет способствовать еще более широкому распространению технологий машинного обучения и их интеграции в различные сферы жизни.

Список литературы Автоматическое машинное обучение (AutoML): алгоритмы и инструменты для снижения порога входа

  • Эффективное и надежное автоматизированное машинное обучение. Достижения в области нейронных систем обработки информации. / Фойрер М.: 2015.
  • Алгоритмы оптимизации гиперпараметров. Достижения в области нейронных систем обработки информации. / Бергстра Дж.: 2011.
  • [Электронный ресурс]. - Режим доступа: https://webiomed.ru/blog/automl-i-mlflow-pri-sozdanii-prognoznykh/.
  • [Электронный ресурс]. - Режим доступа: https://datafinder.ru/products/automl.
  • [Электронный ресурс]. - Режим доступа: https://habr.com/ru/articles/811425/.
Статья научная