Анализ данных с использованием языка программирования Python
Автор: Тайырбекова Р., Кочконбаева Б.О., Калбаева Д.И.
Журнал: Бюллетень науки и практики @bulletennauki
Рубрика: Технические науки
Статья в выпуске: 5 т.11, 2025 года.
Бесплатный доступ
Сегодня язык Python является самым мощным языком программирования для обработки и анализа больших данных. Это достигается за счет многих полезных библиотек языка, который каждый день обновляются с добавлением новых возможностей. В данной статье рассматривается анализ демографического состояния населения Кыргызстана за 2019–2023 годы с использованием языка программирования Python и его библиотек для обработки и визуализации данных. Использование Python для анализа демографических данных позволяет эффективно обработать большие массивы информации, выявить закономерности и представить результаты в наглядной форме. Такой подход может быть полезен для государственных органов и исследователей при планировании демографической политики.
Python, pandas, matplotlib, анализ данных, обработка данных, визуализация данных
Короткий адрес: https://sciup.org/14132405
IDR: 14132405 | DOI: 10.33619/2414-2948/114/20
Текст научной статьи Анализ данных с использованием языка программирования Python
Бюллетень науки и практики / Bulletin of Science and Practice
УДК 004.421
Анализ данных — это процесс обработки структурированной и неструктурированной информации с использованием статистических методов, вычислительных алгоритмов и инструментов визуализации. Его основная цель — выявление значимых закономерностей, извлечение ценной информации и прогнозирование тенденций. Процесс анализа данных
Бюллетень науки и практики / Bulletin of Science and Practice Т. 11. №5 2025 включает несколько ключевых этапов: сбор информации, её предварительная обработка и очистка, исследование и интерпретация результатов, а также визуализацию и представление выводов в удобном формате. В ходе анализа применяются различные методы, такие как описательная статистика, корреляционный и регрессионный анализ, кластеризация, классификация и другие алгоритмы интеллектуального анализа данных [1].
В современном мире анализ данных играет ключевую роль в принятии решений в различных сферах, включая бизнес, медицину, науку и технологии. Python стал одним из наиболее популярных языков программирования для работы с данными благодаря своей простоте, гибкости и мощному набору библиотек, которые позволяют эффективно обрабатывать большие массивы информации. В числе наиболее часто используемых библиотек входит:
Pandas – инструмент для работы с таблицами и структурированными данными, позволяющий загружать, очищать и анализировать данные.
NumPy – библиотека для работы с массивами и матрицами, предоставляющая инструменты для выполнения математических вычислений, таких как сложение, умножение, статистические операции и многое другое.
Scikit-learn – инструмент для машинного обучения, включающий алгоритмы классификации, кластеризации и предсказательного моделирования.
Matplotlib и Seaborn – библиотеки для визуализации данных, позволяющие строить графики, диаграммы и другие виды визуальных представлений информации. С их помощью можно создавать линейные графики, гистограммы, диаграммы рассеяния и другие аналитические визуализации.
Рассмотрим основные инструменты вышеперечисленных библиотек Python, используемые для анализа данных, и покажем их применение на примере анализа демографического состояния населения Кыргызстана. Это позволит продемонстрировать, как методы анализа данных могут быть использованы для выявления ключевых демографических тенденций и прогнозирования будущих изменений. Целесообразно показать возможность языка Python на примере анализа демографической ситуации Кыргызстана. Для этой работы разработан следующий алгоритм:
-
1. Собрать данные из открытых источников для дальнейшего анализа.
-
2. Чтение данных из файла, соответствующего определенному формату.
-
3. Чтобы не перегружать память, извлеките часть данных для обработки, создав так называемый «кадр данных».
-
4. Выбрать для анализа только необходимые столбцы, включая названия объектов и значения изучаемых факторов.
-
5. Сгруппируйте объекты с одинаковыми характеристиками и используйте правила обработки значений коэффициентов для каждой группы.
-
6. Сравните данные по столбцам, чтобы выявить закономерности.
-
7. Выберите оптимальный тип графического представления данных в зависимости от цели анализа.
-
8. Создайте выбранный график или диаграмму на основе отсортированных данных.
Мы рассмотрели открытые источники для сбора данных. В основном необходимые данные были получены из открытых источников: сайта Национального статистического комитета (opendata), годовых отчетов [2].
Собранные данные сохранялись в электронной таблице Excel в формате CSV (Рисунок 1).
Бюллетень науки и практики / Bulletin of Science and Practice Т. 11. №5 2025

Python предоставляет обширные возможности для анализа данных, начиная с их загрузки и предварительной обработки. Одним из ключевых этапов аналитического процесса является импорт данных, который в Python можно выполнять с помощью различных библиотек. Они позволяют загружать информацию из множества источников, включая CSV-и Excel-файлы, базы данных SQL, веб-страницы и другие форматы.
Одной из наиболее востребованных библиотек для работы с данными является Pandas. С её помощью были загружены данные из CSV-файла, на основе которых сформированы датафреймы с информацией о естественном приросте населения за 2019–2023 годы. Кроме того, проведён анализ численности населения (включая распределение по полу), данных о внешней миграции (количество прибывших и выбывших), а также показателей рождаемости и смертности [3].
import pandas as pd if __name__ == '__main__':
data_2019 = data[['oblast', '2019 г.']]
data_2020 = data[['oblast', '2020 г.']]
data_2021 = data[['oblast', '2021 г.']]
data_2022 = data[['oblast', '2022 г.']]
data_2023 = data[['oblast', '2023 г.']]
plt.plot(oblast, data_19, label="2019", color="blue", linestyle="-", marker="o") plt.plot(oblast, data_20, label="2020", color="red", linestyle="--", marker="s") plt.plot(oblast, data_21, label="2021", color="green", linestyle="--", marker="o") plt.plot(oblast, data_22, label="2022", color="yellow", linestyle="--", marker="s") plt.plot(oblast, data_23, label="2023", color="black", linestyle="-", marker="o") plt.legend(loc="upper left", bbox_to_anchor=(1, 1)) plt.grid(True) plt.show()
Результаты и визуализация данных
С использованием библиотек Pandas и Matplotlib в языке программирования Python был проведен анализ демографических данных. На Рисунке 2 представлена визуализация естественного прироста населения Кыргызстана за 2019–2023 годы.
Несмотря на стабильный рост численности населения, Кыргызстан остается наименее населенным государством в Центральной Азии, что во многом связано с миграционными процессами (Рисунок 3) [4]. Однако в последние годы наблюдается увеличение числа граждан, возвращающихся в страну, что обусловлено появлением новых рабочих мест (Рисунок 4).

data_2019 = data[['country','2019 г.']] data_2020 = data[['country', '2020 г.']] data_2021 = data[['country', '2021 г.']] data_2022 = data[['country', '2022 г.']] data_2023 = data[['country', '2023 г.']]

Рисунок 3. Число выбывших из страны за 2019-2023 гг.

Рисунок 4. Число прибывших в Кыргызстан за 2019-2023 гг.
Полученный график наглядно отражает результаты обработки данных о людях, прибывших в страну за последние годы.
Библиотека Matplotlib предоставляет широкие возможности для настройки внешнего вида графиков, позволяя изменять стиль отображения элементов, цветовые схемы, шрифты и другие параметры. Кроме того, результаты можно представить в табличном формате, что упрощает их дальнейший анализ и объединение с другими данными [5].
Активное и в некоторой степени хаотичное развитие экосистемы Python объясняется его открытым исходным кодом и свободным распространением. Этот фактор способствует его применению в самых разных областях науки и прикладных исследований. Благодаря этому как профессиональные программисты, так и энтузиасты вносят вклад в его развитие, расширяя функциональные возможности языка и его библиотек [6].
Процесс разработки и тестирования прикладного компьютерного приложения подтвердил доступность и простоту реализации алгоритмов обработки данных с использованием Python. Основная цель созданного алгоритма — продемонстрировать возможности библиотеки Pandas, подчеркнуть удобство её использования и наглядность получаемых результатов.
На основе разработанного алгоритма обработки и анализа массивов данных с использованием языка программирования Python и библиотек Pandas и Matplotlib можно выделить следующие преимущества данного подхода:
Весь процесс — от загрузки данных до их графической визуализации — выполняется в рамках одного приложения.
Поддержка работы с массивами данных в различных форматах.
Гибкость в выборе нужных данных из общего массива, что упрощает исследовательский процесс.
Возможность сортировки информации по любым заданным параметрам.
Удобное и наглядное представление результатов в виде графиков, диаграмм или таблиц.
Открытый исходный код, доступность и простота использования.
Учитывая перечисленные преимущества, данный алгоритм можно рекомендовать для применения в различных научных и прикладных исследованиях. В частности, авторы планируют использовать его для обработки баз данных, связанных с параметрами
Бюллетень науки и практики / Bulletin of Science and Practice Т. 11. №5 2025 солнечного излучения и потоками воздуха в атмосфере отдельных регионов. Это позволит анализировать изменения мощности солнечных и ветровых электростанций. Для реализации данной задачи потребуется подключение дополнительных библиотек, доступных на специализированных платформах.