Методы управления и геоинформационного моделирования в технологии OLAP

Автор: Ноженкова Л.Ф., Евсюков А.А., Ноженков А.И.

Журнал: Журнал Сибирского федерального университета. Серия: Техника и технологии @technologies-sfu

Статья в выпуске: 1 т.2, 2009 года.

Бесплатный доступ

Представлены методы оперативной аналитической обработки данных на основе интеллектуальных средств управления OLAP-моделированием. Предложены средства метаописания сложных комплексов OLAP-моделей, что позволило реализовать управление расчетами и автоматизировать обработку данных с применением эвристик. Описаны средства оперативного тематического геоинформационного моделирования для визуализации результатов OLAP-анализа.

Обработка данных, olap-анализ, olap-модель, геоинформационное моделирование

Короткий адрес: https://sciup.org/146114486

IDR: 146114486

Текст научной статьи Методы управления и геоинформационного моделирования в технологии OLAP

Технология оперативной аналитической обработки многомерных данных OLAP (On-line Analytical Processing) [1] – быстро развивающееся направление интеллектуального анализа данных. На сегодняшний день существует достаточно большое количество программных продуктов, реализующих функции OLAP-анализа. Такие крупные компании, как Hyperion Solutions Corp., IBM, Oracle, Microsoft, Sybase, Panorama Software, Cognos Inc. и другие, ведут разработки в этой области, их решения охватывают практически все существующие задачи. Из отечественных разработчиков следует отметить BaseGroup Labs, Intersoft Lab., а также Институт открытых систем при Ивановском городском энергетическом университете и Институт вычислительного моделирования СО РАН. В программных продуктах реализованы различные способы хранения многомерных структур, средства быстрого извлечения и представления информации, средства быстрого создания приложений. Тенденции развития функциональности OLAP-продуктов в настоящий момент лежат в области создания продуктов класса data mining для постобработки данных, развития средств картографической и трехмерной визуализации данных, веб-сервисов для OLAP-приложений, а также средств, позволяющих расширить область применения OLAP за счет новых подходов к решению сложных прикладных задач.

Наибольшее применение эта технология получила в бизнес-сфере для решения оперативных задач, каждая из которых, как правило, укладывается в рамки одного куба. При этом классические OLAP-продукты малоэффективны для использования в задачах, где необходим комплексный анализ данных, связанный с реализацией сложных аналитических алгоритмов. Методы расчета аналитических показателей и решения задач планирования в здравоохранении, образовании и других областях организационного управления представляют собой сложные многошаговые процессы анализа многомерных данных. Возникает необходимость их поэтапной обработки средствами OLAP. Потребовался новый подход в

OLAP-технологии, ориентированный на решение сложных аналитических задач, использующих связные многошаговые расчеты с множеством информационных объектов.

Применение OLAP-технологии для сложных территориально ориентированных задач требует развития функций оперативного геоинформационного моделирования. Необходимо не просто визуализировать результаты OLAP-анализа, но и отображать процесс оперативной обработки, выполнять динамическое формирование тематических картографических слоев.

Новый подход к решению разнообразных задач с применением OLAP-технологии основан на построении комплексов так называемых OLAP-моделей [2–6]. В статье изложены результаты работ по развитию технологии OLAP-моделирования в направлении наглядного представления сложных методик, автоматизации управления расчетами и оперативного геоинформационного моделирования результатов. Представлены средства онтологического описания сложных комплексов OLAP-моделей и управления расчетами, позволяющие автоматизировать применение экспертных методов, в частности эмпирических критериев согласования и балансировки расчетных показателей [7, 8]. Описаны методы оперативного геомоделирования результатов OLAP-анализа путем динамического формирования картографических слоев, основанные на картографической привязке многомерных данных OLAP-системы к территориальным объектам ГИС [9, 10].

Построение управляемых комплексов OLAP-моделей

Новый подход в OLAP-технологии ориентирован на решение сложных аналитических задач, использующих связные многошаговые расчеты с множеством информационных объектов, представленных многомерными кубами данных. На рис. 1 схематически показан процесс решения сложной задачи путем реализации комплекса так называемых OLAP-моделей. Термин “OLAP-модель” введен для повышения наглядности описания сложных задач путем разложения на более простые [3, 4].

Построение комплекса OLAP-моделей

Рис. 1. Схема построения комплексов OLAP-моделей

OLAP-модель строится пользователем и несет в себе описательную информацию о решении некоторой аналитической задачи. OLAP-модель M можно представить в виде

M = hX, G, Ф( X,G ) , Q ( G ) , I, J ( G ) i.

Здесь X – дискретное множество входных данных – витрина данных;

G = hD,Fi - гиперкуб - модель логического многомерного представления данных, характеризующаяся двумя наборами параметров – измерениями и показателями;

D = hd 1 , d 2 ,..., dmi - измерения гиперкуба: каждое измерение представляет собой упорядоченное множество значений определенного типа. Измерения могут быть организованы в виде составной иерархии;

F = hf 1 , f ₂ ,...,fni - показатели (меры) гиперкуба: каждый показатель представляет множество значений, количественно характеризующих анализируемый процесс;

Ф( X, G ) - функции, описывающие построение элементов гиперкуба G : показателей F и измерений D , исходя из множества входных данных X ;

Q ( G ) - операции над гиперкубом: Q = С<) ( G,^ ( F, ц ( di))), V ( G,d 1 ...dn, R ( G )^, где C ( G, p ( F, ^ ( di))) - агрегирование гиперкуба по иерархии атрибутов выбранного измерения – преобразование G к гиперкубу меньшей мощности за счет агрегирования показателей ^ ( Р,ц ( di )) с учетом отношения иерархической зависимости ц ( di ) атрибутов измерения di . В качестве функции ^ агрегирования показателей могут выступать, например, min , max , сумма и др.

V ( G, d 1 ,..., dn ) - срез гиперкуба G по измерениям d 1 ,..., dn - операция получения подмножества гиперкуба в результате фиксации подмножеств значений d ⁰ ₁ , . . . , d ⁰ _n измерений d 1 , . . . , dn соответственно.

R ( G ) - операция поворота гиперкуба, которая изменяет порядок измерений в гиперкубе.

I = hT, K, L, H, y ( T, K, L, H ) i - модель логического представления результатов вычисления OLAP-модели.

Она включает формы представления результатов модели: T – таблицы, K – кросстаблицы, L - диаграммы, H - карты и y ( T, K, L, H ) - операции над ними: фильтрация, сортировка таблиц, перемещение, ротация строк и столбцов таблицы, фильтрация, сортировка кросс-таблиц, группировка данных, сортировка, разбиение на сегменты диаграмм, фильтрация карт.

J ( G ) = hT, а ( T ) i - операция сохранения гиперкуба в таблицу агрегатов. Операция применяется к представлению гиперкуба в виде таблицы, или кросс-таблицы.

а ( T ) - преобразование наименований в код, наложение внешних ключей, удаление таблицы агрегатов перед вставкой данных – операции по трансформации таблицы агрегатов.

К характеристикам OLAP-модели относятся: мощность измерения, мощность, размерность и объем гиперкуба. Количество элементов измерения есть мощность измерения. Мощность гиперкуба – произведение мощностей его измерений. Объемом гиперкуба называется произведение мощности куба и количества показателей.

OLAP-модель состоит из исходных данных – витрины данных, информационного куба, операций над ним и способов представления результатов вычисления. Важным моментом построения модели является возможность сохранения в источнике данных результатов расчета. Такой подход позволяет применять поэтапный процесс анализа данных, то есть анализировать ранее полученные результаты.

Для автоматизации поэтапного анализа модели объединяются в комплексы (см. рис. 2). Перед созданием комплекса моделей задачу необходимо декомпозировать на подзадачи таким образом, чтобы каждая подзадача могла быть представлена OLAP-моделью [3]. В рамках одного расчета модели образуют последовательно выполняемую цепочку, при этом данные, рассчитанные одной моделью, в дальнейшем используются другими моделями. Таким образом, OLAP-модели образуют комплекс моделей, а их связи осуществляются через наследование информации.

Рис. 3. OLAP-модели в задачах анализа и планирования медицинской помощи в здравоохранении

Рис. 2. Схема исполнения комплекса OLAP-моделей

Выполнение комплекса аналитических моделей сопровождается так называемым интерактивным аналитическим экспериментом , т. е. возможно вмешательство пользователя в выполнение расчета для модификации параметров и настройки отдельной модели.

На рис. 3 представлен фрагмент расчета комплекса OLAP-моделей для задачи формирования территориальной программы государственных гарантий оказания бесплатной медицинской помощи жителям Красноярского края [7]. Это задача ежегодного планирования объемов и видов медицинской помощи в регионе. Для автоматизации этого процесса построено более сорока OLAP-моделей. Формирование территориальных программ требует многовариантных расчетов и балансировки показателей, рассчитываемых OLAP-моделями.

Чтобы повысить наглядность построения и расчета комплексов OLAP-моделей для сложных задач, обеспечить управление расчетами и многовариантные расчеты, разработаны средства метаописания комплекса моделей с применением онтологии [8].

Онтология комплекса OLAP-моделей имеет вид

U = hW, Y, Ri , где W - описание моделей, Y - отношения между моделями, R - условия применения и коррекции моделей.

Описание OLAP-модели задается в виде кортежа:

М: <витрина данных>; <назначение модели>; <результат>.

Описание каждой модели в базе знаний формируется автоматически, с помощью специально разработанного программного обеспечения, на основе системного описания модели, которое формируется в процессе ее интерактивного создания.

Основной вид отношений между правилами – отношение информационной зависимости моделей M 1 ^ M 2 - используется для построения цепочек расчета OLAP-моделей. Дополнительно могут использоваться отношения альтернативности моделей, информационной независимости и др.

Условия применения моделей описываются с помощью правил следующего вида.

R 1 : ЕСЛИ P ( f 1 , f 2 , ...,f _n ) , ТО ВЫПОЛНИТЬ М / ИЗМЕНИТЬ М

Здесь R 1 - уникальное в базе знаний имя правила. f 1 , f 2 ,..., fn - показатели, заданные как результаты расчета какой-либо модели или заданные в витрине как исходные данные. Каждый показатель представляет собой многомерный куб, описанный в витрине данных соответствующей OLAP-модели. Предикат P задается в виде логико-лингвистического выражения. Операция ВЫПОЛНИТЬ М в правой части правила R 1 интерпретируется как выполнение расчета OLAP-модели M . Если в процессе логического вывода правило R 1 применяется, то это приводит к расчету показателей - результатов модели M . Как следствие, должны быть пересчитаны все информационно зависимые OLAP-модели. Операция ИЗМЕНИТЬ М в правой части правила интерпретируется как переход к интерактивному процессу коррекции модели M .

В качестве примера рассмотрим правило:

R1: ЕСЛИ (Объем финансирования расчетный < Объем финансирования выделенный) И (Нормативы объемов помощи на тысячу населения ≤ Нормативы объемов помощи на тысячу населения РФ)

ТО ВЫПОЛНИТЬ Увеличить обеспеченность медпомощи в сельских районах

Интерпретация этого правила заключается в том, что многомерные показатели Объем финансирования расчетный, Объем финансирования выделенный, Нормативы объемов помощи на тысячу населения, Нормативы объемов помощи на тысячу населения РФ ска-лярно сравниваются по измерениям – в данном случае по видам и профилям медицинской помощи. Действие в правой части правила заключается в выполнении OLAP-модели Увеличить обеспеченность медпомощи в сельских районах.

Алгоритмы формирования и расчета комплексов OLAP-моделей реализованы на основе использования представленного в базе знаний онтологического метаописания OLAP- моделей. Управление процессом расчета выполняется на основе правил, а также с учетом действий пользователя. Пользователь может интерактивно изменить или заменить любую OLAP-модель, вследствие чего изменяется системное представление OLAP-модели. Пользователь также может изменить условия ее применения, изменив метаописание в базе знаний. Процедура логического вывода учитывает оба варианта. При этом автоматически исследуются возможные изменения расчета и строятся новые цепочки моделей для расчета показателей.

Средства оперативного географического моделирования

В основе механизма динамической связи многомерных данных OLAP-системы к пространственной информации ГИС лежит картографическая привязка данных, позволяющая устанавливать соответствие между результатами оперативного аналитического моделирования и географическими объектами [9].

На основе таблиц источника данных OLAP-системы осуществляется построение информационного гиперкуба, формируются аналитические объекты, описывающие предметную область: показатели и измерения. Для осуществления картографической привязки в гиперкубе выделим географическое измерение d.

Для построения тематической карты зафиксируем значения измерений di С D : di = = d, i = 1 , m и из F выберем показатель, который будет отображаться на карте: f * = f * ( d i , d 2 ,... ,d,..., d * _m ), где d i ,d * ,..., dm — фиксированные значения измерений (метки), кроме d, которое не фиксировано и соответственно может принимать любое значение из своей области определения. Построение множества значений показателя f ^∗ определим как операцию среза над гиперкубом данных G по всем фиксированным измерениям.

Для отображения значений показателя f * определим электронную карту H = hL, Si , где L = {L 1 , L 2 ,..., Lp} - множество картографических слоев; S = ( s 1 , s 2 ,..., sq ) — упорядоченное множество значений свойств отображения карты.

Слой Li определяется как Li = hOi, Ti, Ai ( Oi,T ) , Pi), где Oi = ( o 1 ,o 2 ,... ,o ^f ) - упорядоченное множество территориальных объектов заданного типа;

Ti = ( t¹ ,t 2 ,... ,t®' ) - упорядоченное множество атрибутивных свойств слоя - полей атрибутивной таблицы Ai ;

Ai ( Oi,Ti ) - атрибутивная таблица, элементы которой ajk определены значениями из набора Ti для каждого объекта из Oi , здесь j = 1 , fi определяет строки таблицы, а к = 1 , gi – столбцы таблицы (поля);

Pi = hB _i ,C _i ) - легенда слоя, здесь Bi = ( bi ,b 2 ,...,bV ) - упорядоченное множество значений свойств слоя, Ci = ( c ¹ , c ² ,..., cW i ) - упорядоченное множество классов разбиения множества объектов Oi слоя Li .

Привязка географического измерения d осуществляется к одному или нескольким картографическим слоям. Пусть L0 ⊆ L – подмножество слоев, к которым осуществляется привязка, и мощность его |L' = l|. Каждый слой содержит атрибутивную таблицу Ai, i = 1 ,l, k∗ в одном из полей таблицы ti i, k* Е [1, gi] хранится множество идентификаторов объектов j,k∗ j слоя. Если значение идентификатора ai i Е d, j = 1, fi, то к объекту oi можно построить картографическую привязку значения показателя f∗ . Используя картографическую привязку данных, устанавливается соответствие между территориальными объектами карты и географическим измерением гиперкуба d,.

Чтобы значения показателя f ^∗ отобразить в виде тематической карты, необходимо построить легенду тех слоев, к объектам которых выполнена картографическая привязка. При построении легенды используются методы тематического картографирования, позволяющие объекты слоя разбить на классы на основе соответствующих значений анализируемого показателя. Для того чтобы на карте различать объекты разных классов, для каждого класса задается ряд настроек отображения: цвет объектов, цвет контура и тип заливки объектов для площадного слоя, условное обозначение (символ) объектов для точечного слоя, состояние (видимые, скрытые или мигающие объекты). Построенная в результате картографической привязки многомерных данных тематическая карта является отображением значений анализируемого показателя f ^∗ из среза гиперкуба данных по всем измерениям, кроме географического измерения d .

Помимо инструментов построения легенды для представления результатов OLAP-анализа в программную реализацию средств оперативного геомоделирования включен блок управления многомерными данными. Блок управления включает в себя список аналитических показателей, доступных для построения тематических карт, а также фильтр многомерных данных. При изменении анализируемого показателя и фиксированных измерений происходит переформирование классов привязанных к многомерным данным слоев и выполняется построение тематической карты.

На рис. 4 представлен пример построения тематической карты: отображена рождаемость населения по территориям Красноярского края. Картографическая привязка данных осуществлена к картографическим слоям “города” и “районы”. Территориальным объектам со светлой раскраской соответствуют более низкие показатели рождаемости, раскрашенным темнее – более высокие.

Рис. 4. Отображение рождаемости в Красноярском крае

Для реализации оперативной работы с территориальными объектами, меняющими свое местоположение, предлагается метод динамического формирования картографических слоев на основе содержимого таблиц из источников данных OLAP-системы и топографических картографических слоев [9]. Наполнение формируемого слоя – его пространственная и атрибутивная информация – создается на основе содержания выбранной таблицы источника данных OLAP-системы. Обозначим выбранную таблицу T . Для решения задачи динамического формирования новых картографических слоев разработаны алгоритмы получения пространственной информации, позволяющие найти координаты точек для построения объектов нового точечного, линейного и площадного слоев на основе значений координат таблицы из источника данных OLAP-системы или соответствия объектам слоя из топографической основы карты. Если географические координаты содержатся непосредственно в таблице T , то их можно использовать для формирования нового слоя. При отсутствии необходимой информации о местоположении объектов в таблицах источников данных OLAP-системы предлагается формировать координаты точек нового слоя на основе картографической привязки к слоям из топографической основы карты. Для этого необходимо установить соответствие между полем таблицы T и полем атрибутивной таблицы слоя привязки. Для совпадающих значений формируется объект нового слоя, при этом используются координаты соответствующего ему объекта слоя карты. Атрибутивной информацией слоя является таблица, полученная из строк таблицы T , по которым сформированы объекты нового слоя. Отметим, что можно динамически сформировать и визуализировать одновременно несколько картографических слоев. ГИС позволяет производить с динамически сформированными слоями те же операции, что и со слоями из топографической основы карты, включая применение методов тематического картографирования.

Рассмотрим пример динамического формирования картографических слоев на основе оперативного аналитического моделирования. На рис. 5 изображен фрагмент карты Боль-шемуртинского района Красноярского края. Тематическая карта дает представление о планах реорганизации сети медицинских учреждений. Для визуализации планирования реорганизации сети медицинских учреждений каждому учреждению присваивается статус: “без изменений”, “модифицировано”, “закрыто”, “открыто”. Динамически формируются слои медицинских учреждений на основе информации об их принадлежности населенным пунктам [10].

Рис. 5. Планирование реорганизации сети медицинских учреждений Обозначения: [+ – центральные районные больницы, – участковые больницы, – амбулатории, – фельдшерско-акушерские пункты, • – населенные пункты.

Для формирования новых слоев могут быть использованы таблицы агрегатов, содержа- щие агрегированные данные, прошедшие предварительную обработку. Это позволяет сформировать новый слой не только на основе собранных статистических данных, но и на основе аналитических результатов. Использование таблиц агрегатов для динамического формирования картографических слоев является отличительной особенностью средств оперативного геомоделирования в OLAP-системе по сравнению с традиционными геоинформационными системами.

Заключение

Средства управления OLAP-моделированием позволяют наглядно представлять процесс построения и выполнения комплекса OLAP-моделей, редактировать алгоритм расчета и интерактивно управлять процессом. Обеспечивается возможность не только автоматизировать расчетные задачи, но и реализовать эвристические и эмпирические методы, как, например, согласование результатов расчета нормативов объемов медицинской помощи и нормативов финансирования в планировании медицинской помощи.

На основе интеграции OLAP и ГИС реализована технология оперативного геомоделирования для решения территориально ориентированных задач в реальном времени. Интеграция ГИС и OLAP-системы способствует повышению наглядности представления результатов аналитической обработки данных, сочетая ее с геомоделированием. Возможности динамической связи картографических объектов с многомерными данными существенно расширяют функциональность как OLAP-системы, так и встроенной в систему ГИС. В результате интеграции OLAP-система приобретает дополнительные возможности наглядного представления многомерных данных, ГИС – инструментарий формирования аналитических запросов для построения тематических карт.

Средства управления OLAP-моделированием и оперативного геомоделирования нашли применение в решении таких важных задач здравоохранения, как анализ сети медицинских учреждений, ежегодное планирование медицинской помощи, анализ состояния социальной помощи и многих других. Средства оперативного геомоделирования применяются также в системах поддержки принятия решений по предупреждению природных и техногенных чрезвычайных ситуаций [11].

Работа выполнена при поддержке гранта Президента для ведущих научных школ № НШ-3431.2008.9.

Статья научная