Автоматическое машинное обучение (AutoML): алгоритмы и инструменты для снижения порога входа
Автор: Бабкина Е.А.
Журнал: Международный журнал гуманитарных и естественных наук @intjournal
Рубрика: Технические науки
Статья в выпуске: 6-1 (93), 2024 года.
Бесплатный доступ
В данной статье рассматривается концепция автоматического машинного обучения (AutoML), направленная на автоматизацию процессов выбора моделей, их настройки и оценки. Основное внимание уделено ключевым алгоритмам и подходам AutoML, таким как поиск модели, настройка гиперпараметров, предобработка данных и инженерия признаков. Описаны популярные инструменты AutoML, включая Auto-sklearn, TPOT, H2O.ai AutoML и Google Cloud AutoML, а также их роль в упрощении процесса разработки моделей машинного обучения. Приведены примеры использования AutoML в различных отраслях, таких как медицина, финансы и маркетинг. В статье также обсуждаются перспективы развития AutoML и его потенциальное влияние на распространение технологий машинного обучения в различных сферах жизни.
Автоматическое машинное обучение, поиск модели, предобработка данных, инженерия признаков
Короткий адрес: https://sciup.org/170205375
IDR: 170205375 | DOI: 10.24412/2500-1000-2024-6-1-175-178
Текст научной статьи Автоматическое машинное обучение (AutoML): алгоритмы и инструменты для снижения порога входа
С развитием технологий машинного обучения (ML) и их широким применением возникла необходимость создания инструментов, которые позволяли бы снижать порог входа для специалистов, не обладающих глубокими знаниями в области ML. Автоматическое машинное обучение (AutoML) направлено на автоматизацию выбора моделей, их настройки и оценки, что значительно упрощает процесс разработки и внедрения моделей ML. В данной статье рассматриваются основные алгоритмы и инструменты AutoML, а также их роль в упрощении процесса разработки моделей машинного обучения.
Обзор существующих методов и подходов.
AutoML охватывает различные этапы процесса разработки моделей ML, включая предобработку данных, выбор модели, настройку гиперпараметров и оценку производительности.
Основные задачи AutoML можно разделить на несколько категорий:
-
- Поиск модели (Model Selection): Определение наиболее подходящей модели для конкретной задачи среди множества доступных вариантов.
-
- Настройка гиперпараметров (Hyperparameter Optimization): Оптимизация параметров модели для достижения наилучшей производительности.
-
- Предобработка данных (Data Preprocessing): Автоматизация процесса очистки и трансформации данных.
-
- Инженерия признаков (Feature Engineering): Автоматическое создание и отбор признаков, улучшающих качество модели.
Поиск модели является одним из ключевых этапов в AutoML. Существуют различные методы для этой задачи:
-
- Grid Search: Метод полного перебора всех возможных комбинаций гиперпараметров модели, что обеспечивает нахождение глобально оптимального решения, но может быть вычислительно затратным.
-
- Random Search: Метод случайного перебора комбинаций гиперпараметров, что позволяет сэкономить время по сравнению с полным перебором и часто дает сопоставимые результаты.
-
- Bayesian Optimization: Байесовская оптимизация использует предыдущие результаты для более эффективного поиска оптимальных гиперпараметров. Один из по-
- пулярных алгоритмов в этой категории – Tree-structured Parzen Estimator (TPE).
Оптимизация гиперпараметров является критически важной задачей в AutoML. Существуют различные методы оптимизации гиперпараметров:
-
- Tree-structured Parzen Estimator (TPE): Байесовский метод, использующий вероятностные модели для нахождения оптимальных гиперпараметров.
-
- Hyperband: Метод, использующий ранние остановки для ускорения процесса оптимизации, что позволяет оценивать больше комбинаций гиперпараметров за меньшее время.
-
- Genetic Algorithms: Эволюционные алгоритмы, применяющие принципы естественного отбора для поиска лучших гиперпараметров.
Автоматизация предобработки данных включает задачи очистки, трансформации и нормализации данных. Современные инструменты AutoML предоставляют функции для:
-
- Заполнения пропущенных значений: Различные стратегии, включая использование среднего, медианы или более сложных моделей.
-
- Кодирования категориальных признаков: Методы, такие как one-hot encoding, label encoding и target encoding.
-
- Масштабирования данных: Нормализация и стандартизация признаков для улучшения качества моделей.
Автоматическая инженерия признаков включает создание новых признаков и отбор наиболее важных. Основные подходы включают:
-
- Feature Selection: Методы отбора признаков, такие как LASSO, деревья решений и другие алгоритмы отбора признаков.
-
- Feature Generation: Автоматическое создание новых признаков на основе существующих данных, например, создание взаимодействий между признаками.
На рынке существует множество инструментов AutoML, которые упрощают процесс разработки моделей машинного обучения. Некоторые из наиболее популярных:
-
- Auto-sklearn: Библиотека, основанная на Scikit-learn, использующая ансамблиро-
- вание моделей и байесовскую оптимизацию.
-
- TPOT (Tree-based Pipeline Optimization Tool): Инструмент, использующий генетическое программирование для автоматизации построения моделей.
-
- H2O.ai AutoML: Платформа, предоставляющая широкий спектр моделей и методов оптимизации.
-
- Google Cloud AutoML: Облачный сервис, предлагающий решения для различных задач ML, таких как классификация изображений и обработка текста.
AutoML нашел широкое применение в различных отраслях, включая медицину, финансы, маркетинг и др. Его основное преимущество заключается в возможности быстро и эффективно создавать модели без необходимости глубоких знаний в области ML. Это открывает возможности для использования машинного обучения в малых и средних предприятиях, где отсутствуют специализированные команды data scientists.
Примеры использования:
Медицина: AutoML используется для создания моделей диагностики заболеваний на основе медицинских изображений. Например, исследование, опубликованное в журнале Nature Medicine , показало, что система AutoML от Google достигла точности 94.5% в диагностике диабетической ретинопатии, сопоставимой с уровнем квалифицированных офтальмологов.
Финансы: AutoML применяется для прогнозирования рыночных тенденций и управления рисками. В исследовании, проведенном компанией JPMorgan, AutoML-алгоритмы позволили значительно улучшить прогнозирование кредитных рисков, что привело к снижению финансовых потерь.
Экспериментальная часть.
Для оценки эффективности инструментов AutoML был проведен эксперимент, в котором сравнивались производительности различных платформ AutoML на наборе данных из открытого источника. Набор данных "Titanic: Machine Learning from Disaster" был выбран для оценки возможностей AutoML.
Набор данных: "Titanic: Machine Learning from Disaster" из платформы Kaggle.
Метрика оценки: Accuracy (точность) и ROC-AUC (площадь под кривой ошибок).
Процедура: Набор данных был разделен на обучающую и тестовую выборки. Каждому инструменту AutoML была предоставлена одинаковая обучающая выборка. По завершении процесса автоматической оптимизации модели, производительность каждой модели оценивалась на тестовой выборке.
Результаты
Инструмент |
Точность |
ROC-AUC |
Auto-sklearn |
0.82 |
0.85 |
TPOT |
0.81 |
0.84 |
H2O.ai AutoML |
0.83 |
0.86 |
Google Cloud AutoML |
0.84 |
0.87 |
Результаты показывают, что все инструменты AutoML продемонстрировали сопоставимую производительность, однако Google Cloud AutoML показал немного лучшие результаты по метрикам точности и ROC-AUC.
Перспективы развития AutoML связаны с улучшением алгоритмов оптимизации и интеграцией с другими технологиями, такими как Интернет вещей (IoT) и обработка больших данных. В будущем можно ожидать появления более интеллектуальных систем, способных не только автоматизировать текущие задачи, но и адаптироваться к новым условиям и требованиям.
Заключение
Автоматическое машинное обучение представляет собой мощный инструмент, значительно упрощающий процесс разработки и оптимизации моделей машинного обучения. Современные алгоритмы и инструменты AutoML позволяют специали- стам с различным уровнем подготовки создавать эффективные модели, сокращая время и ресурсы, необходимые для этого. В перспективе развитие AutoML будет способствовать еще более широкому распространению технологий машинного обучения и их интеграции в различные сферы жизни.
Список литературы Автоматическое машинное обучение (AutoML): алгоритмы и инструменты для снижения порога входа
- Эффективное и надежное автоматизированное машинное обучение. Достижения в области нейронных систем обработки информации. / Фойрер М.: 2015.
- Алгоритмы оптимизации гиперпараметров. Достижения в области нейронных систем обработки информации. / Бергстра Дж.: 2011.
- [Электронный ресурс]. - Режим доступа: https://webiomed.ru/blog/automl-i-mlflow-pri-sozdanii-prognoznykh/.
- [Электронный ресурс]. - Режим доступа: https://datafinder.ru/products/automl.
- [Электронный ресурс]. - Режим доступа: https://habr.com/ru/articles/811425/.