Предложения по использованию больших данных для производственной компании
Автор: Павлов Е.М., Рыжов А.В., Баланев К.С., Крепков И.М.
Журнал: Бюллетень науки и практики @bulletennauki
Рубрика: Физико-математические науки
Статья в выпуске: 12 т.9, 2023 года.
Бесплатный доступ
Рассматриваются этапы и методы работы с большими данными. Описываются задачи и проблемы в области лесозаготовок и производства продукции из древесины, решаемые с помощью анализа обработанных данных. В статье представлен алгоритм работы с большими данными и его реализация в виде программного комплекса, разработанного на языке Python. Перечисляются основные выгоды, получаемые на основе визуализации обработанной информации.
Большие данные, анализ данных, лесозаготовки, язык python
Короткий адрес: https://sciup.org/14129028
IDR: 14129028 | DOI: 10.33619/2414-2948/97/07
Текст научной статьи Предложения по использованию больших данных для производственной компании
Бюллетень науки и практики / Bulletin of Science and Practice
УДК 519.254
В качестве организации выступает производственная компания, занимающаяся производством деревянных плит, фанеры, ОСБ и др. Для компании такого рода одной из основных задач является снижение издержек, что, в свою очередь, возможно благодаря анализу больших данных, связанных с лесным хозяйством [3].
В качестве первого этапа работы необходимо осуществить сбор данных. Они могут включать в себя включая информацию о лесном хозяйстве, природных явлениях (экологии, засуха, ливни), миграции деревьев и других релевантных параметрах. Этот этап поможет выявить закономерности и связи между данными. Поскольку большие данные могут быть неструктурированными и содержать ошибки, после этого важно провести процедуры очистки данных, чтобы убрать дубликаты, исправить ошибки и привести данные в пригодный для анализа вид. На следующем этапе создаются предикаты, которые будут использоваться для прогнозирования и выявления возможных проблем или оптимизации процессов. Например, можно создать предикаты, связанные с ростом и зрелостью деревьев, погодными условиями, и т. д.
Завершающим этапом является построение аналитической модели на основе собранных и очищенных данных. Методы данного этапа могут включать в себя машинное обучение, статистический анализ, временные ряды и т. д. [1]. По завершению обработки больших данных возможно их дальнейшее использование для решения различных проблем и задач в области лесозаготовок и производства продукции из древесины. Среди таких задач можно выделить:
-
- Оптимизацию заготовки сырья. Анализ данных о лесных ресурсах позволит определить оптимальные временные интервалы и локации для заготовки древесины, учитывая природные условия и засухи.
-
- Управление рисками. Моделирование данных о природных явлениях позволит компании более эффективно управлять рисками, связанными с экологическими и погодными факторами.
-
- Оптимизацию производства. Анализ данных о производственных процессах и данных о рынке поможет оптимизировать производство и управлять запасами более эффективно.
-
- Снижение потерь. Предсказания и рекомендации, полученные из аналитической модели, помогут уменьшить потери материалов и снизить издержки.
Все этапы работы с большими данными представляют собой определенный алгоритм [4]. В данном случае он имеет следующий вид (Рисунок 1).
Для реализации данного алгоритма был разработан прототип программного комплекса, собирающего большие данные. Он представляет собой программу на языке Python [2].
В качестве собираемых данных были выбраны текущие (эксплуатационные) затраты на охрану окружающей среды по регионам РФ .
В процессе сбора происходит запрос к вышеуказанной витрине статистических данных на сайте и последующее извлечение всех данных.
Затем из сырых данных извлекаются лишь необходимые элементы с соответствующими классами и происходит их структуризация. В ходе этого процесса также происходит видоизменение полученных элементов. Например, удаляются лишние цифры в названии регионов (Рисунок 2). и лишние пробелы в числах (Рисунок 3).
После очистки данных на их основе создается база данных SQLite с одной таблицей (Рисунок 4), имеющая один атрибут для региона и ряд атрибутов на каждый из годов. Из таблицы видно, что данные действительно прошли очистку и были приведены к более структурированному виду.
Для визуализации хранимых в БД данных генерируются гистограммы с данными по каждому региону (Рисунок 5). Гистограммы формируются на основе различных запросов к БД. Однако перед этим также происходит преобразование данных из строкового типа к целочисленному.

Рисунок 1. Общий алгоритм
До
14000000000 Белгородская область
После
Белгородская область
Рисунок 2. Удаление лишних символов
До
125 788.99
После
125788.99
Рисунок 3. Удаление пробелов
Region |
2013 |
2014 |
|
.АГ Сухопутные территории Арктической зоны Рос___ |
NaN |
NaN |
|
Российская Федерация |
498407.00 |
525144.0 |
|
Центральный федеральный округ |
87557.00 |
119895.0 |
|
Белгородская |
область |
8556.00 |
10429.0 |
Брянская |
область |
166.00 |
2462.0 |
Владимирская |
область |
283.99 |
544.0 |
Воронежская |
область |
2095.00 |
2106.0 |
Ивановская |
область |
1461.00 |
1250.0 |
Калужская |
область |
2156.00 |
2276.0 |
Костромская |
область |
1042.00 |
548.0 |
Курская |
область |
976.99 |
2102.0 |
Липецкая |
область |
595.00 |
2530.0 |
2015 NaN |
2016 NaN |
2017 NaN |
2018 NaN |
2019 10288.00 |
485118.00 |
870629.00 |
475456.99 |
684653.00 |
707598.00 |
139091.00 |
125788.99 |
148923.00 |
134728.00 |
170869.00 |
10150.00 |
10020.00 |
13556.00 |
13033.00 |
13372.00 |
332.00 |
118.99 |
94.00 |
978.99 |
603.00 |
245.99 |
270.00 |
519.99 |
836.99 |
893.99 |
1959.00 |
2426.00 |
2348.00 |
3717.00 |
8554.00 |
1100.00 |
925.00 |
2470.00 |
554.99 |
775.00 |
2906.00 |
3510.00 |
12261.00 |
4049.00 |
11459.00 |
1033.00 |
890.99 |
1869.00 |
2275.00 |
1988.00 |
1894.00 |
1614.00 |
6483.00 |
5151.00 |
6566.00 |
679.00 |
676.00 |
1779.00 |
2322.00 |
2371.00 |
Рисунок 4. Вывод значений из базы данных
Липецкая область

голы
Рисунок 5. Визуализация данных в виде гистограммы
В ходе работы программы задействуется ряд специализированных библиотек. Среди них: matplotlib (построение графиков), pandas (структуризация данных), sqlite3 (создание и взаимодействие с базой данных), BeautifulSoup (взаимодействие с данными через классы), webdriver (взаимодействие с веб-страницами) и ряд других библиотек [5].
Полученная визуализация информации о затратах на охрану окружающей среды по регионам Российской Федерации может быть важным инструментом для производственной компании, занимающейся производством изделий из дерева, чтобы снизить издержки и улучшить свою конкурентоспособность.
Анализ затрат на охрану окружающей среды в различных регионах позволяет компании выбирать местоположение своих производственных объектов так, чтобы минимизировать затраты на соблюдение экологических нормативов и требований. Информация о затратах на охрану окружающей среды также может влиять на стоимость древесного сырья и его доступность в разных регионах. Это позволяет компании оптимизировать цепочку поставок сырья и снизить издержки на его транспортировку.
Знание различий в требованиях к охране окружающей среды в разных регионах позволяет компании эффективно планировать и внедрять меры для соблюдения местных нормативов. Это может включать в себя внедрение технологий с меньшим воздействием на окружающую среду, управление отходами и другие практики. Анализ затрат на охрану окружающей среды может помочь компании лучше взаимодействовать с местными органами власти, предлагать совместные инициативы по улучшению экологической ситуации в регионе и получать поддержку и льготы в обмен на соблюдение экологических стандартов.
Производственные компании, активно заботящиеся об охране окружающей среды, могут использовать эту информацию для маркетинга своих продуктов. Это может привести к увеличению спроса на продукцию компании и увеличению ее репутации. Знание о затратах на охрану окружающей среды также позволяет компании более точно оценивать потенциальные экологические риски в разных регионах и разрабатывать планы для их управления.
Список литературы Предложения по использованию больших данных для производственной компании
- Дейтел П., Дейтел Х. Python: Искусственный интеллект, большие данные и облачные вычисления. СПб: Питер, 2020. 864 с.
- Дэви С., Арно М., Мохамед А. Основы Data Science и Big Data. Python и наука о данных. СПб: Питер, 2017. 336 с.
- Майер-Шенбергер В., Кукьер К. Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим. М.: Манн, Иванов и Фербер, 2014. 240 с.
- Марц Н., Джеймс У. Большие данные. Принципы и практика построения масштабируемых систем обработки данных в реальном времени. М.: Вильямс, 2018. 368 с.
- Митчелл Р. Современный скрапинг веб-сайтов с помощью Python. СПб: Питер, 2021. 336 с.