Обзор инструментов для анализа статистических данных института информационных технологий и анализа данных
Автор: А. А. Цехмайстер, В. А. Харахинов
Журнал: Informatics. Economics. Management - Информатика. Экономика. Управление.
Статья в выпуске: 3 (4), 2024 года.
Бесплатный доступ
В статье описаны инструменты анализа и представления статистических данных, подходящие для института информационных технологий и анализа данных Иркутского национального исследовательского технического университета. Рассмотрены такие инструменты для анализа и визуализации, как языки программирования Python, R и платформа Grafana. Python обладает обширным набором библиотек и фреймворков, предлагая множество инструментов для анализа данных, включая NumPy, Pandas, Matplotlib, Seaborn, Scikit-learn и другие. Эти библиотеки упрощают работу с данными, предоставляя функции для их обработки, анализа и визуализации. R также располагает большим количеством пакетов, которые можно установить из CRAN (Comprehensive R Archive Network) или других репозиториев. Grafana - инструмент для анализа и визуализации данных, позволяющий отслеживать и анализировать метрики в режиме реального времени. Он широко применяется в различных областях, таких как DevOps, мониторинг инфраструктуры, бизнес-аналитика и др. Основные преимущества Grafana включают поддержку различных источников данных, возможность создания динамических дашбордов, а также свободную интеграцию с другими сервисами, что позволяет автоматизировать процессы мониторинга и оповещения. В статье приведен сравнительный анализ вышеперечисленных программных средств. Анализ выполнен с учетом специфики данных, относящихся к образовательному процессу. Примерами таких данных служит информация о студентах, преподавателях и образовательных программах.
Анализ данных, статистика, образовательный процесс, Python, R, Grafana
Короткий адрес: https://sciup.org/14131358
IDR: 14131358 | DOI: 10.47813/2782-5280-2024-3-4-0128-0138
Текст статьи Обзор инструментов для анализа статистических данных института информационных технологий и анализа данных
DOI:
Во многих компаниях с длительной историей деятельности используется несколько систем управления базами данных или плохо спроектированная структура хранения данных, не предусматривающая последующую оптимизацию хранения и обработки, что осложняет их анализ, управление и дальнейшую разработку. Введем понятие технического долга, технический долг – это накопленные в программном коде или архитектуре приложения проблемы, связанные с пренебрежением к качеству при разработке программного обеспечения и вызывающие дополнительные затраты труда в будущем [1]. Технический долг обычно незаметен для конечных пользователей продукта, проявляется при дальнейшей поддержке, разработке и оптимизации продукта.
Система электронного документооборота одного из институтов ИРНИТУ, а именно института информационных технологий и анализа данных (далее ИТиАД) имеет признаки технического долга. Так, например, основным инструментом для представления статистических данных института являются печатные отчёты, генерируемые программным обеспечением FastReport – который является набором компонентов для построения отчетов. ПО включает возможность дизайна (редактирования) отчёта, генератора и просмотра. Недостатки данного решения заключаются в том, что версия программы довольно устаревшая и нет возможности представления данных в графическом виде. Также FastReport плохо подходит для аналитических отчётов. FastReport является компонентом АИС «Университет», десктопного приложения, с которым работают дирекция института, приёмная комиссия, отдел практик и другие подразделения университета, которые имеют возможность вносить данные о студентах, преподавателях и мероприятиях института ИТиАД. Автоматизированный анализ статистических данных отсутствует вовсе. Система нуждается в инструменте для сбора и анализа статистических данных. Результатом чего будет являться визуализация.
МАТЕРИАЛЫ И МЕТОДЫ
Под статистическими данными института подразумеваются, например:
-
• успеваемость студентов;
-
• численность студентов и преподавателей, её изменение с течением времени и от направления к направлению;
-
• участие студентов института в научных конференциях, хакатонах, грантовых конкурсах, творческих объединениях;
-
• данные о трудоустройстве студентов и выпускников института;
-
• данные о результатах студенческой оценки преподавания.
Вся необходимая информация хранится в базе данных в неструктурированном формате.
Рассмотрим возможные решения, приведём сравнительный анализ различных инструментов для аналитики данных, а точнее какие из них наиболее удачны для аналитики статистических данных института университета.
Библиотека Pandas на языке Python
Это библиотека, предоставляющая широкие возможности для анализа данных. Она предоставляет инструменты для загрузки, обработки и анализа табличных данных с помощью кода. В связке с библиотекой Matplotlib (используется для создания любых видов графиков) и библиотекой на её основе Seaborn предоставляет возможность удобного визуального анализа табличных данных. Pandas позволяет группировать данные, генерировать сводные таблицы, вычислять статистику и строить графики [2].
Таким образом, при помощи данного набора инструментов мы сможем не только получать статистические данные, но и видеть их в простом и понятном графическом представлении.
Grafana
Платформа с открытым исходным кодом для визуализации, мониторинга и анализа данных Grafana [3], которая позволяет пользователям создавать дашборды с панелями, каждая из которых отображает определенные показатели в течение установленного периода времени, что в рамках образовательного процесса может быть полезно для отражения таких показателей как численность студентов от курса к курсу, направления к направлению и т. п. Дашборд можно настроить для конкретного показателя или с учетом любых потребностей аналитики [4].
Язык программирования R
Язык программирования, разработанный специально для анализа данных, известен как статистический язык, созданный статистиками для статистиков. Значительным преимуществом R являются надежные статистические возможности, которыми он обладает, что позволило широко использовать его как в университетах, так и в других крупных компаниях. Python, в отличие от R не имеет статистические пакеты, которые были разработаны CRAN (основным и единственным официальным репозиторием R-пакетов.), а не какой-либо третьей стороной, что делает результаты статистических тестов, вычисленных с помощью R, намного более достоверными. Также функциями R являются создание отчетов и визуализация, благодаря сложным библиотекам, такими как ggplot и plotly, которые могут создавать красивые и сложные графики. Кроме того, R позволяет пользователю легко создавать информационные панели с помощью R shiny, что делает его уникальным инструментом с низким порогом вхождения.
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
Таким образом, мы перечислили наиболее подходящие инструменты для анализа и представления статистических данных факультета. Из всех перечисленных инструментов предлагается выбрать платформу Grafana. Так как данное решение является целостным и завершенным, и обойдется минимальными финансовыми и трудовыми ресурсами на разработку и отображение статистических данных. Из преимуществ, Grafana может подключаться к хранилищу данных и выполнять над ними определённые действия. Используются только открытые данные [5]. Аналитик запрашивает данные, а Grafana представляет их в удобном для него виде – простой табличный формат, графики, распределения и другие виды отображения данных. Так, например, для анализа географии студентов института можно составить следующую диаграмму-карту (рисунок 1). Из диаграммы можно увидеть из каких регионов и областей России или стран студенты выбирают своей альма-матер – институт информационных технологий и анализа данных. Итого в институте обучаются студенты из следующих стран: Российская Федерация, Туркменистан, Монголия, Узбекистан, Конго и других.

Рисунок 1. Диаграмма-карта места жительства студентов, обучающихся института информационных технологий и анализа данных.
Figure 1. Diagram-map of the place of residence of students studying at the Institute of Information Technology and Data Analysis.
В пределах России больше всего обучающихся из регионов Сибирского и Дальневосточного федеральных округов: Иркутской области, Республики Бурятия, Забайкальского края, Республики Саха (Якутия) (рисунок 2).

Рисунок 2. Диаграмма карта, отражающая распределение места жительства студентов, обучающихся института информационных технологий и анализа данных в Сибирском федеральном округе.
Figure 2. A diagram map showing the distribution of residence of students studying at the Institute of Information Technology and Data Analysis in the Siberian Federal District.
Подобным образом в Grafana возможно проводить манипуляции с любыми открытыми данными института, в зависимости от требований руководства. Так, например, отобразим итоговую успеваемость по группам потока 2019 года набора (рисунок 3). Таким образом, из графика видно, что наиболее высокая успеваемость в группе АСУб-19-1, а низкая в группе ЭВМб-19-1.

Рисунок 3. Столбчатая диаграмма отображения успеваемости по группам.
Figure 3. Column chart displaying academic performance by groups.
Для отображения распределения студентов по практикам также удобно использовать диаграмму-карту (рисунок 4). Эти данные полезны для дирекции института и руководства университета при мониторингах [6].

Рисунок 4. Диаграмма-карта, отражающая распределение студентов института по местам практик в черте города.
Figure 4. A diagram-map reflecting the distribution of students of the institute by places of practice within the city limits.
Перед отображением данных требуется их обработать, например для отображения диаграммы карты по распределению места жительства студентов нужно узнать широту и долготу локации. Для этого используется API Yandex карт, мы отдаем адрес, а API возвращает нам геохэш, который сохраняется в базу данных и уже после используется для визуализации.
В итоге данные получаются удобными для восприятия и дальнейшего анализа, в основе построения отчётов лежат простые SQL-запросы, что облегчает техническое сопровождение, также, весомым преимуществом является то, что платформа бесплатна и имеет открытый исходный код [7].
ЗАКЛЮЧЕНИЕ
В результате проведенного исследования были рассмотрены и проанализированы различные инструменты для анализа и визуализации статистических данных, применимые в контексте института информационных технологий и анализа данных ИРНИТУ. Среди рассмотренных инструментов особое внимание было уделено языкам программирования Python и R, а также платформе Grafana.
Каждый из этих инструментов обладает своими уникальными преимуществами:
-
• Python с его библиотеками Pandas, Matplotlib и Seaborn предоставляет гибкие возможности для обработки и визуализации данных.
-
• R, являясь статистическим языком, обладает мощными возможностями для проведения статистического анализа и создания сложных визуализаций.
-
• Grafana выделяется как целостное решение для создания интерактивных дашбордов и визуализации данных в режиме реального времени.
По результатам сравнительного анализа, платформа Grafana была выбрана как наиболее подходящее решение для института. Ключевыми факторами, повлиявшими на этот выбор, стали:
-
• Целостность и завершенность решения
-
• Минимальные финансовые и трудовые затраты на внедрение и эксплуатацию
-
• Возможность прямого подключения к хранилищу данных
-
• Широкие возможности визуализации, включая создание интерактивных карт и диаграмм
-
• Простота использования и низкий порог вхождения для пользователей
-
• Открытый исходный код и бесплатность платформы
Использование Grafana позволило создать наглядные и информативные визуализации различных аспектов деятельности института, таких как география студентов, успеваемость по группам и распределение студентов по местам практик. Эти данные представляют значительную ценность для руководства института и университета при проведении мониторингов и принятии управленческих решений.
Важно отметить, что внедрение подобной системы анализа и визуализации данных способствует решению проблемы технического долга, существующей в текущей системе электронного документооборота института. Переход от устаревших методов генерации отчетов к современной платформе визуализации данных позволяет не только улучшить качество представления информации, но и открывает новые возможности для анализа и интерпретации данных.
В перспективе, использование Grafana может быть расширено для охвата других аспектов деятельности института, таких как анализ научной активности студентов и преподавателей, мониторинг трудоустройства выпускников, оценка эффективности образовательных программ и многое другое. Это позволит создать комплексную систему аналитики, способствующую повышению качества образовательного процесса и эффективности управления институтом.
Таким образом, внедрение современных инструментов анализа и визуализации данных, таких как Grafana, представляется важным шагом в развитии информационной инфраструктуры института информационных технологий и анализа данных ИРНИТУ, способствующим повышению качества принимаемых решений и общей эффективности управления образовательным процессом.