Научные статьи \ Математика. Естественные науки \ Математика \ Теория вероятностей и математическая статистика

Предложения по использованию больших данных для производственной компании

Автор: Павлов Е.М., Рыжов А.В., Баланев К.С., Крепков И.М.

Журнал: Бюллетень науки и практики @bulletennauki

Статья в выпуске: 12 т.9, 2023 года.

Бесплатный доступ

Рассматриваются этапы и методы работы с большими данными. Описываются задачи и проблемы в области лесозаготовок и производства продукции из древесины, решаемые с помощью анализа обработанных данных. В статье представлен алгоритм работы с большими данными и его реализация в виде программного комплекса, разработанного на языке Python. Перечисляются основные выгоды, получаемые на основе визуализации обработанной информации.

Большие данные, анализ данных, лесозаготовки, язык python

Короткий адрес: https://sciup.org/14129028

IDR: 14129028 | УДК: 519.254 | DOI: 10.33619/2414-2948/97/07

Текст научной статьи Предложения по использованию больших данных для производственной компании

Бюллетень науки и практики / Bulletin of Science and Practice

УДК 519.254

В качестве организации выступает производственная компания, занимающаяся производством деревянных плит, фанеры, ОСБ и др. Для компании такого рода одной из основных задач является снижение издержек, что, в свою очередь, возможно благодаря анализу больших данных, связанных с лесным хозяйством [3].

В качестве первого этапа работы необходимо осуществить сбор данных. Они могут включать в себя включая информацию о лесном хозяйстве, природных явлениях (экологии, засуха, ливни), миграции деревьев и других релевантных параметрах. Этот этап поможет выявить закономерности и связи между данными. Поскольку большие данные могут быть неструктурированными и содержать ошибки, после этого важно провести процедуры очистки данных, чтобы убрать дубликаты, исправить ошибки и привести данные в пригодный для анализа вид. На следующем этапе создаются предикаты, которые будут использоваться для прогнозирования и выявления возможных проблем или оптимизации процессов. Например, можно создать предикаты, связанные с ростом и зрелостью деревьев, погодными условиями, и т. д.

Завершающим этапом является построение аналитической модели на основе собранных и очищенных данных. Методы данного этапа могут включать в себя машинное обучение, статистический анализ, временные ряды и т. д. [1]. По завершению обработки больших данных возможно их дальнейшее использование для решения различных проблем и задач в области лесозаготовок и производства продукции из древесины. Среди таких задач можно выделить:

- Оптимизацию заготовки сырья. Анализ данных о лесных ресурсах позволит определить оптимальные временные интервалы и локации для заготовки древесины, учитывая природные условия и засухи.
- Управление рисками. Моделирование данных о природных явлениях позволит компании более эффективно управлять рисками, связанными с экологическими и погодными факторами.
- Оптимизацию производства. Анализ данных о производственных процессах и данных о рынке поможет оптимизировать производство и управлять запасами более эффективно.
- Снижение потерь. Предсказания и рекомендации, полученные из аналитической модели, помогут уменьшить потери материалов и снизить издержки.

Все этапы работы с большими данными представляют собой определенный алгоритм [4]. В данном случае он имеет следующий вид (Рисунок 1).

Для реализации данного алгоритма был разработан прототип программного комплекса, собирающего большие данные. Он представляет собой программу на языке Python [2].

В качестве собираемых данных были выбраны текущие (эксплуатационные) затраты на охрану окружающей среды по регионам РФ .

В процессе сбора происходит запрос к вышеуказанной витрине статистических данных на сайте и последующее извлечение всех данных.

Затем из сырых данных извлекаются лишь необходимые элементы с соответствующими классами и происходит их структуризация. В ходе этого процесса также происходит видоизменение полученных элементов. Например, удаляются лишние цифры в названии регионов (Рисунок 2). и лишние пробелы в числах (Рисунок 3).

После очистки данных на их основе создается база данных SQLite с одной таблицей (Рисунок 4), имеющая один атрибут для региона и ряд атрибутов на каждый из годов. Из таблицы видно, что данные действительно прошли очистку и были приведены к более структурированному виду.

Для визуализации хранимых в БД данных генерируются гистограммы с данными по каждому региону (Рисунок 5). Гистограммы формируются на основе различных запросов к БД. Однако перед этим также происходит преобразование данных из строкового типа к целочисленному.

Рисунок 1. Общий алгоритм

До

14000000000 Белгородская область

После

Белгородская область

Рисунок 2. Удаление лишних символов

До

125 788.99

После

125788.99

Рисунок 3. Удаление пробелов

	Region	2013	2014
.АГ Сухопутные территории Арктической зоны Рос___		NaN	NaN
Российская Федерация		498407.00	525144.0
Центральный федеральный округ		87557.00	119895.0
Белгородская	область	8556.00	10429.0
Брянская	область	166.00	2462.0
Владимирская	область	283.99	544.0
Воронежская	область	2095.00	2106.0
Ивановская	область	1461.00	1250.0
Калужская	область	2156.00	2276.0
Костромская	область	1042.00	548.0
Курская	область	976.99	2102.0
Липецкая	область	595.00	2530.0

2015 NaN	2016 NaN	2017 NaN	2018 NaN	2019 10288.00
485118.00	870629.00	475456.99	684653.00	707598.00
139091.00	125788.99	148923.00	134728.00	170869.00
10150.00	10020.00	13556.00	13033.00	13372.00
332.00	118.99	94.00	978.99	603.00
245.99	270.00	519.99	836.99	893.99
1959.00	2426.00	2348.00	3717.00	8554.00
1100.00	925.00	2470.00	554.99	775.00
2906.00	3510.00	12261.00	4049.00	11459.00
1033.00	890.99	1869.00	2275.00	1988.00
1894.00	1614.00	6483.00	5151.00	6566.00
679.00	676.00	1779.00	2322.00	2371.00

Рисунок 4. Вывод значений из базы данных

Липецкая область

голы

Рисунок 5. Визуализация данных в виде гистограммы

В ходе работы программы задействуется ряд специализированных библиотек. Среди них: matplotlib (построение графиков), pandas (структуризация данных), sqlite3 (создание и взаимодействие с базой данных), BeautifulSoup (взаимодействие с данными через классы), webdriver (взаимодействие с веб-страницами) и ряд других библиотек [5].

Полученная визуализация информации о затратах на охрану окружающей среды по регионам Российской Федерации может быть важным инструментом для производственной компании, занимающейся производством изделий из дерева, чтобы снизить издержки и улучшить свою конкурентоспособность.

Анализ затрат на охрану окружающей среды в различных регионах позволяет компании выбирать местоположение своих производственных объектов так, чтобы минимизировать затраты на соблюдение экологических нормативов и требований. Информация о затратах на охрану окружающей среды также может влиять на стоимость древесного сырья и его доступность в разных регионах. Это позволяет компании оптимизировать цепочку поставок сырья и снизить издержки на его транспортировку.

Знание различий в требованиях к охране окружающей среды в разных регионах позволяет компании эффективно планировать и внедрять меры для соблюдения местных нормативов. Это может включать в себя внедрение технологий с меньшим воздействием на окружающую среду, управление отходами и другие практики. Анализ затрат на охрану окружающей среды может помочь компании лучше взаимодействовать с местными органами власти, предлагать совместные инициативы по улучшению экологической ситуации в регионе и получать поддержку и льготы в обмен на соблюдение экологических стандартов.

Производственные компании, активно заботящиеся об охране окружающей среды, могут использовать эту информацию для маркетинга своих продуктов. Это может привести к увеличению спроса на продукцию компании и увеличению ее репутации. Знание о затратах на охрану окружающей среды также позволяет компании более точно оценивать потенциальные экологические риски в разных регионах и разрабатывать планы для их управления.

Список литературы Предложения по использованию больших данных для производственной компании

Дейтел П., Дейтел Х. Python: Искусственный интеллект, большие данные и облачные вычисления. СПб: Питер, 2020. 864 с.
Дэви С., Арно М., Мохамед А. Основы Data Science и Big Data. Python и наука о данных. СПб: Питер, 2017. 336 с.
Майер-Шенбергер В., Кукьер К. Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим. М.: Манн, Иванов и Фербер, 2014. 240 с.
Марц Н., Джеймс У. Большие данные. Принципы и практика построения масштабируемых систем обработки данных в реальном времени. М.: Вильямс, 2018. 368 с.
Митчелл Р. Современный скрапинг веб-сайтов с помощью Python. СПб: Питер, 2021. 336 с.