Технологии хранения и обработки больших данных для обучения скоринговых моделей

Автор: Брюхова Е.М., Данилов А.С.

Журнал: Международный журнал гуманитарных и естественных наук @intjournal

Рубрика: Технические науки

Статья в выпуске: 12-3 (99), 2024 года.

Бесплатный доступ

В статье рассматриваются современные подходы к хранению и обработке больших данных для обучения скоринговых моделей для оценки кредитных рисков. Спроектирована модель данных, используемых для обучения скоринговых моделей, рассчитаны объемы данных в схеме. Исследование показывает эффективность использования технологий экосистемы Apache Hadoop и Nifi для распределенного хранения, записи и чтения данных, и фреймворка Apache Spark для их обработки. Разработано архитектурное решение, позволяющее управлять потоками данных, получаемых из продуктовых систем-источников. Решение позволяет хранить большие объемы данных, а используемый фреймворк - их обрабатывать и решать задачу обучения скоринговой модели для оценки кредитных рисков.

Еще

Скоринг, большие данные, база данных, машинное обучение

Короткий адрес: https://sciup.org/170208586

IDR: 170208586   |   DOI: 10.24412/2500-1000-2024-12-3-55-59

Список литературы Технологии хранения и обработки больших данных для обучения скоринговых моделей

  • Алджанов В. ИТ-архитектура от А до Я: Комплексное решение. Первое издание. - М.: Изд-во БХВ, 2018. - 503 с.
  • Уиллс Д., Тандон А. Расширенная аналитика с PySpark. Практические примеры анализа больших наборов данных с использованием Python и Spark. - М.: Манн, Иванов и Фербер, 2022. - 223 с.
  • Шапира Г., Палино Т. Apache Kafka. Потоковая обработка и анализ данных. - М.: ДМК Пресс, 2022. - 512 с.
  • White T. Hadoop: Подробное руководство. - М.: О'Рейли, 2013. - 672 с.
  • Shtoltc E. Machine Learning in Practice - From PyTorch Model to Kubeflow in the Cloud for Big Data. 2020. - 93 p.
  • Zhang X., Lin W. Big Data Analytics: From Data to Knowledge. - New York: Wiley, 2020. - 350 p.
  • HDFS Architecture Guide. - [Электронный ресурс]. - Режим доступа: https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html (дата обращения: 13.12.2024).
  • Apache Spark 3.5.1 Documentation. - [Электронный ресурс]. - Режим доступа: https://spark.apache.org/docs/3.5.1/index.html (дата обращения: 13.12.2024).
Статья научная