Применение инструментов визуализации для анализа данных
Автор: Серкебаева Л.Т.
Журнал: Теория и практика современной науки @modern-j
Рубрика: Основной раздел
Статья в выпуске: 6 (6), 2015 года.
Бесплатный доступ
В статье дается понятие анализа данных; приведены типы методов визуализации; описаны функциональные возможности аналитической системы Deductor Academic: применение методов визуализации для анализа числовых данных в конкретной предметной области.
Анализ данных, визуализация данных, методы визуализации, аналитическая система, программная обработка данных
Короткий адрес: https://sciup.org/140266772
IDR: 140266772
Текст научной статьи Применение инструментов визуализации для анализа данных
Существует достаточно большое количество различных методов анализа данных. Само понятие анализа данных можно рассматривать как процесс обработки информации и выявление в ней тенденций и моделей, которые помогают принимать решения. На сегодняшний день процесс выполнения анализа данных наиболее удобен с применением специализированных программных продуктов. Это, объясняется, в первую очередь экономией времени обработки больших массивов данных, и удобными средствами визуализации анализа.
Методы визуализации могут быть как самые простые (линейные графики, диаграммы, гистограммы и т.п.), так и более сложные, основанные на сложном математическом аппарате. Кроме того, при визуализации могут использоваться комбинации различных методов. Выделяют следующие типы методов визуализации:
-
- стандартные 2D/3D-образы - гистограммы, графики и т.п.;
-
- геометрические преобразования - диаграмма разброса данных, параллельные координаты и т.п.;
-
- отображение иконок - линейчатые фигуры и звёзды;
-
- методы, ориентированные на пикселы;
-
- иерархические образы - древовидные карты и наложение измерений.
В процессе анализа данных полезно сочетать вычислительные ресурсы современных компьютеров с творческим и гибким человеческим мышлением.
Одним из программным продуктов, реализующих современные инструменты визуализации данных, является Deductor Academic.
Deductor – это аналитическая платформа, основа для создания законченных прикладных решений в области анализа данных. Реализованные в Deductor технологии позволяют пройти все этапы построения аналитической системы: от консолидации данных до построения моделей и визуализации полученных результатов.
В Deductor вся работа ведется с использованием пяти мастеров. Одним из таких мастеров является мастер визуализации.
Визуализатором называется любое представление набора данных в каком-либо виде: табличном, графическом, описательном. Примеры визуализаторов: таблица, дерево, гистограмма, диаграмма, OLAP-куб и т.д.
Базовыми визуализаторами в Deductor являются следующие: таблица, статистика, сведения.
Рассмотрим пример анализа данных с использованием инструментов визуализации в среде Deductor Academic.
Сформируем исходный текстовый файл с числовыми данными для дальнейшего импорта данных в программу и последующего анализа в ней.
Используя мастер импорта данных, импортируем данные. Для 1 столбца «Районы» тип данных определим как строковый, для 2 столбца «Количество загрязняющих веществ» тип данных определим как вещественный. Нажав кнопку «Готово» получим исходные данные, представленные так, как показано на рисунке 1.
Таблица X Статистика X Диагра а^-|й’ЖтЛт|м ^ |
мма X Гистограмма X 1/20 ► и | ^ . |
|
Районы |
Количество_загрязняющих_веществ |
|
► |
Алтынсаринский |
653,047 |
Амангельдинский |
390,94 |
|
Аулиекольский |
2288,379 |
|
Денисовский |
1306,91 |
|
Жангельдинский |
317,92 |
|
Жигикаринский |
80910,149 |
|
Камыстинский |
1552,557 |
|
Карабалыкский |
4080,505 |
|
Карасуский |
1860,593 |
|
Костанайский |
1137.976 |
|
Мендыкаринский |
1397,039 |
|
Наурзумский |
549,909 |
|
Сарыкольский |
1465,696 |
|
Тарановский |
2053,761 |
|
Узункольский |
746,783 |
|
Федоровский |
1989,727 |
|
г. Костанай |
9763,471 |
|
г.Аркалык |
1574,516 |
|
г.Лисаковск |
2279,778 |
|
г. Рудный |
378952,525 |
Рисунок 1 – Результаты импорта исходных данных
Режим отображения данных «Таблица». В режиме отображения данных «Таблица» активизируем кнопку «Показать онлайн статистику». В результате в нижней части рабочей области отобразится статистическая информация. Среднее количество загрязняющих веществ по Костанайской области в рассматриваемом периоде составило 24763,609 тонн. Проведем фильтрацию данных с целью подсчета количества районов, в которых количество загрязняющих веществ соответственно ниже и выше среднего показателя по области. Для этого активизируем кнопку «Фильтрация» и настроим его соответствующим образом.
В итоге получаем, что в 18 регионов из 20 рассматриваемых количество загрязняющих веществ ниже среднего показателя по области. Соответственно в 2 регионах из 20 данный показатель выше среднего.
Режим отображения данных «Диаграмма». В данном режиме отображается удельный вес количества загрязняющих веществ каждого региона в процентах от общего по области. По данным диаграммы можно сказать следующее: наибольший удельный вес загрязненности наблюдается в г.Рудном – 77,44% от общего показателя по области и в Житикаринском районе – 16,48%. В г.Костанай – 1,93%, в остальных регионах удельный вес количества загрязняющих веществ ниже 1% от общего показателя по области.

Рисунок 2 - Режим отображения данных «Диаграмма»
Режим отображения данных «Гистограмма»
В режиме отображения данных «Гистограмма» мы группировка произведена по показателю «Количество загрязняющих веществ».

>17.82 71044 6 W44.6 151Т72 111772.22749» 22749» 101226 «1226 3W53
Иитеемм у» Каг***есг»Р_1*Ф*>«*^<*_»м«кте
Рисунок 3 - Режим отображения данных «Гистограмма»
Количество загрязняющих веществ в интервале от 317,92 до 76044,8 тонн имеют 18 регионов области; в интервале от 76044,8 до 151772 тонн - 1 регион, в интервале от 303226 до 378953 тонн - 1 регион.
Таким образом, инструменты визуализации аналитической системы предназначены для оперативного анализа текущих настроек узлов и для поиска возможных ошибок.
Список литературы Применение инструментов визуализации для анализа данных
- Козлов, А.Н. Интеллектуальные информационные системы: учебник/А.Н. Козлов; Мин-во с-х. РФ, ФГБОУ ВПО Пермская ГСХА. -Пермь: Изд-во ФГБОУ ВПО Пермская ГСХА, 2013.-278 с.
- http://www.basegroup.ru -сайт технологий анализа данных.