Метод концептуального OLAP-моделирования на основе формального концептуального анализа

Автор: Коробко А.В., Пенькова Т.Г.

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Математика, механика, информатика

Статья в выпуске: 4 (30), 2010 года.

Бесплатный доступ

Предложен метод концептуального OLAP-моделирования предметной области. Представлено описание процесса построения интегральной аналитической модели в виде формальной концептуальной решетки OLAP-кубов. Применение концептуальной OLAP-модели позволяет повысить эффективность оперативной аналитической обработки многомерных данных. Выполнено построение концептуальной аналитической модели научной деятельности организации на основе предложенного метода.

Концептуальное olap-моделирование, оперативная аналитическая обработка данных, формальный концептуальный анализ, поддержка принятия решений

Короткий адрес: https://sciup.org/148176305

IDR: 148176305

Текст научной статьи Метод концептуального OLAP-моделирования на основе формального концептуального анализа

Эффективность управления административными ресурсами во многом определяется своевременностью предоставления аналитической информации. Для поддержки принятия управленческих решений широко используется технология OLAP (On-line analytical processing) [1–5]. Необходимость оперативной аналитической обработки больших объемов данных в задачах организационного управления (территориального, отраслевого, корпоративного и т. п.) требует создания новых подходов к реализации технологии OLAP. Качество анализа данных на основе OLAP во многом определяется доступностью исходных данных и прозрачностью аналитической модели предметной области. Как правило, аналитическая модель представляет собой множество локальных OLAP-моделей с соответствующими витринами данных для решения частных задач [1–3]. Формирование такой фрагментарной модели происходит из-за необходимости привлечения специалиста со знанием структуры и состава исходных данных для решения каждой новой аналитической задачи. Применение специализированного хранилища данных [6–8] в качестве источника исходной информации позволяет частично избежать ошибок согласованности анализируемых данных, но не решает проблему отсутствия возможности оперировать всеми объектами анализа предметной области. Актуальной становится задача построения интегральной OLAP-модели. В ряде случаев [4; 9] интегральный подход реализуется построением каталога показателей, позволяющего систематизировать объекты анализа, но не обеспечивающего поддержку их совместной аналитической обработки. Необходимо разработать метод построения интегральной OLAP-модели на основе структурирования экспертных знаний об объектах анализа предметной области и возможности их совместной аналитической обработки.

Предлагается метод концептуального OLAP-моделирования на основе формального концептуального анализа показателей и измерений предметной области. Формально описан процесс построения интегральной аналитической модели в виде концептуальной решетки OLAP-кубов. Интегральная OLAP-модель позволяет оперировать всеми объектами анализа и охватывает максималь- ное число решаемых аналитических задач. Применение концептуальной OLAP-модели для поддержки принятия управленческих решений позволяет повысить эффективность оперативной аналитической обработки многомерных данных.

Основные понятия технологии OLAP. Технология OLAP представляет собой современную концепцию анализа данных, описанную совокупностью требований к программным продуктам, обеспечивающим оперативную аналитическую обработку и представление данных. Впервые принципы OLAP были сформулированы основоположником теории реляционных баз данных Е. Коддом [10]. OLAP обеспечивает пользователя естественной, интуитивно понятной моделью данных, организуя их в виде многомерных кубов.

OLAP-куб можно рассматривать как гиперкуб G = < D , F > – модель логического многомерного представления данных, характеризующую двумя наборами параметров: показателями и измерениями (рис. 1).

F = < f 1, f2 , …, fn > – показатели (меры) гиперкуба: каждый показатель имеет множество значений, количественно характеризующих анализируемый процесс.

D = < d 1, d 2, …, dm > – измерения гиперкуба: каждое измерение представляет собой упорядоченное множество значений определенного типа. Измерения могут быть организованы в виде упорядоченной иерархической структуры. Множество измерений образует оси гиперкуба:

d1=d11,d12,...,d1k1, d2=d21,d22,...,d2k2, d=d1,d2,...,dkn. nn,n, ,n

Одно из основных требований технологии OLAP – «прозрачность»: готовый многомерный куб должен быть представлен конечному пользователю в удобном для него виде, инструменты манипулирования кубом должны быть интуитивно понятны, наименования объектов анализа должны соответствовать терминологии предметной области.

Процесс OLAP-анализа представляется совокупностью операций с многомерными данными – детализации, консолидации (группировки), формирования среза и поворота. Операции консолидации определяют переход от детального представления данных к агрегированному, а в случае детализации осуществляется обратный переход. Формирование среза куба заключается в фиксации значения (значений) определенного измерения, при этом сокращается размерность куба. Срез представляет собой подкуб, в который входят все остальные измерения. Операция поворота заключается в изменении положения осей куба – измерений. В результате вращения меняется «точка зрения» на данные.

d 2

Для конечного пользователя применение OLAP обеспечивает высокую гибкость получаемых решений за счет возможно сти изменения отображения результата. Аналитик получает не жестко регламентированный отчет, а инструментарий для творческого исследования задачи. Возможно сть свободной манипуляции данными упрощает получение необходимых наборов данных. Важным преимуществом OLAP является предоставление пользователю возможности оперировать знакомыми терминами из предметной области [11].

OLAP-куб можно рассматривать как абстрактное представление выбранного подмножества реляционной базы данных [12]. Процесс формирования OLAP-куба включает выбор необходимых таблиц, расстановку связей между ними, выбор полей данных и сопоставление их с терминами предметной области, что требует специальных знаний о предметной области и структуре исходных данных.

Построение OLAP-куба для каждой частной аналитической задачи ведет к формированию фрагментарной аналитической модели предметной области. Для повышения эффективности оперативной аналитической обработки данных необходима интегральная OLAP-модель, построенная на основе всех объектов анализа предметной области. Возможность манипулирования всеми объектами анализа предметной области одновременно сопряжена с необходимостью использования экспертных знаний об объектах анализа и о возможности их совместной аналитической обработки.

Построение интегральной OLAP-модели предметной области на основе формального концептуального анализа. С целью построения интегральной OLAP-модели предметной области на основе всех объектов анализа необходимо выделить группы объектов, имеющих общие структурные признаки, исходя из отношения сопоставимости и возможности их совместной аналитической обработки. Для этого целесообразно использовать методы бинарной объектно-признаковой кластеризации, в которых сходство объединяемых в один кластер объектов выражается через общие элементы описания всех объектов из данного кластера [13]. К таким методам относятся методы, основанные на формальных концептах и решетках формальных концептов [14].

Формальный концептуальный анализ (Formal Concept Analysis) впервые был предложен Р. Вилле (R. Wille) в 1981 г. [15] и активно развивается сегодня. Метод заключается в следующем.

Формальным контекстом называется тройка K = ( G , M , I ), где G – множество объектов, M – множество атрибутов, I с G х M - отношение такое, что gIm, где g g G, m g M означает, что объект g обладает атрибутом m . Формальный контекст может быть представлен в виде бинарной матрицы, строки которой помечены именами объектов, а столбцы – значениями атрибутов. Для произвольных A с G и B с M определяются A’ и B’ :

A’ = { m g M | gIm для всех g g A },

B’ = { g g G | gIm для всех m g B }.

Пара множеств ( A, B ) таких, что A с G, B с M , A’ = B и B’ = A , называется формальным концептом контекста K . Множество объектов A представляет объем формального концепта, а множество атрибутов B – содержание формального концепта. Таким образом, формальный концепт – это множество объектов предметной области, каждый из которых обладает всеми атрибутами из некоторого подмножества атрибутов, присущих всем этим объектам.

Применение формального концептуального анализа к объектам оперативной аналитической обработки многомерных данных позволяет построить интегральную OLAP- модель на основе экспертных знаний об объектах анализа предметной области и возможности их совместной аналитической обработки. На основе интеграции технологии OLAP и формального концептуального анализа разработан метод построения концептуальной модели предметной области в виде формальной решетки многомерных кубов [16]. Контекстная диаграмма IDEF0 процесса построения интегральной OLAP-модели представлена на рис. 2.

Предлагаемый метод включает следующие основные этапы.

  • 1.    Формирование множества объектов анализа предметной области.

  • 2.    Построение формального контекста.

  • 3.    Определение формальных кубов-концептов.

  • 4.    Построение формальной концептуальной решетки OLAP-кубов.

На первом этапе путем интервьюирования конечного пользователя и изучения отчетных форм эксперт определяет аналитические задачи предметной области, фор- мирует множество аналитических запросов. Сформулированные запросы позволяют определить множество терминов предметной области – объектов анализа, которые используются для построения OLAP-кубов концептуальной аналитической модели. Объекты концептуального анализа, в соответствии с моделью многомерного представления данных, делятся на множество измерений D = {d1, d2, …, dn} и множество показателей F = {f1, f2, …, fm}. Термины, определяющие аспекты анализа предметной области, образуют множество измерений, а термины, представляющие количественные характеристики анализируемого процесса, образуют множество показателей. Затем на основе структуры хранилища данных выполняется сопоставление объектов анализа с полями таблиц, тем самым определяется физическая составляющая измерений и показателей. Объекты анализа могут быть связаны с полями таблиц хранилища данных напрямую или рассчитываться на основе нескольких полей по заданному алгоритму расчета.

На втором этапе построения интегральной OLAP-модели экспертом структурируется множество объектов анализа, сформированное на предыдущем этапе. На основе экспертных знаний об аналитических особенностях информационных объектов и функциональных зависимостей хранилища данных определяется сопоставимость показателей и измерений – возможность их совместной аналитической обработки.

Отношение сопоставимости между элементами мно-жесте F и D обозначим R. R c F x D, (fi, dj) e R, если показатель fi может быть проанализирован по измере- нию dj. Тройка (F, D, R), в соответствии с теорией формального концептуального анализа, представляет собой формальный контекст K. Формальный контекст отражает знания эксперта об объектах анализа предметной области и о возможности их совместной аналитической обработки. Формальный контекст может быть представлен в виде бинарной матрицы, строки которой соответствуют показателям, а столбцы – измерениям.

На третьем этапе на основе сформированного формального контекста определяется множество кубов-концептов по признаку сопоставимости объектов анализа.

Теория формального концептуального анализа позволяет объединять характеристики анализируемого процесса по признаку общности аспектов анализа в кластеры – концепты. Множество показателей одинаковой размерности A , которые могут быть проанализированы по всем измерениям из B , образуют куб-концепт ( A , B ). Множество показателей A представляет объем формального куба-концепта, а множество измерений B – содержание формального куба-концепта.

В соответствии с моделью многомерного представления данных, формальный куб-концепт – это аналитический многомерный куб, полный относительно добавления показателей той же размерности и состава измерений. Это означает, что невозможно включить в такой OLAP-куб дополнительный показатель без уменьшения числа измерений, т. е. в рамках построенного формального контекста не существует других показателей, сопоставимых с тем же набором измерений.

Рис. 2. Построение интегральной OLAP-модели предметной области

На заключительном этапе строится решетка кубов-концептов, которая позволяет оперировать всеми объектами анализа и охватывает максимально возможное число решаемых аналитических задач рассматриваемой предметной области.

Согласно методу формального концептуального анализа, множество всех концептов частично упорядочено отношением подконцепт-надконцепт: ( A 1, B 1) ( A 2, B 2) если A 1 с A 2 (что эквивалентно B 2 с B 1 ). В этом случае ( A 1 , B 1 ) называют подконцептом ( A 2, B 2), а ( A 2, B 2) - надконцептом ( A 1 , B 1 ). Упорядоченное множество всех концептов контекста образует полную решетку - решетку концептов [17].

Для концептуальной OLAP-модели отношение подконцепт-надконцепт определяется как подкуб-надкуб: множество показателей родительского куба включает множество показателей дочернего куба, а, в свою очередь, множество измерений дочернего куба включает множество измерений родительского куба. Решетка кубов-концептов представляет собой визуализацию интегральной OLAP-модели предметной области.

Построение формальной концептуальной решетки OLAP-кубов научной деятельности организации. Рассмотрим применение метода концептуального OLAP-моделирования для построения интегральной OLAP-модели научной деятельности организации в виде формальной концептуальной решетки многомерных кубов.

Научная деятельность - одна из основных форм функционирования научно-образовательных центров, научных и образовательных учреждений. Научная деятельность - это интеллектуальная деятельность, направленная на получение и применение новых знаний для решения технологических, инженерных, экономических, социальных, гуманитарных и иных проблем, обеспечения функционирования науки, техники и производства как единой системы.

Анализ эффективности научной деятельности организации связан с решением таких аналитических задач, как:

  • -    оценка результативности научных исследований;

  • -    оценка результативности аспирантуры и докторантуры;

  • -    оценка публикационной активности сотрудников;

  • -    мониторинг показателей интеграции науки и образования;

  • -    оценка кадрового обеспечения организации и др.

Решение аналитических задач, в свою очередь, связано с выполнением следующих запросов:

  • -    количество публикаций, подготовленных сотрудниками;

  • -    количество публикаций в российской и зарубежной печати за год;

  • -    количество патентов, полученных подразделениями организации за год;

  • -    количество учебных пособий, подготовленных сотрудниками организации;

  • -    количество российских и зарубежных грантов;

  • -    количество объектов интеллектуальной собственности;

  • -    количество сотрудников, ведущих преподавательскую деятельность;

  • -    количество сотрудников, осуществляющих научное руководство;

  • -    количество научных мероприятий, проведенных подразделениями организации и др.

Анализ запросов позволяет выделить множество терминов предметной области и на их основе определить множество объектов анализа научной деятельности. В том числе определяются:

  • -    показатели: число публикаций; число патентов; число статей; число учебных пособий; число грантов; число проведенных конференций; количество сотрудников и т. д.

  • -    измерения: год; подразделение; тип пособия; город; название журнала; тип публикации; тип патента; статус конференции; автор и т. д.

С учетом сопоставимости показателей и измерений (совместной аналитической обработки) строится формальный контекст. Фрагмент формального контекста научной деятельности организации представлен на рис. 3.

^ Число Нхб.1ИКЕ1ЦИЙ

^2 Число нронеленных конференций

Число цапчгюв

Д Число учебных пособии

Рис. 3. Фрагмент формального контекста научной деятельности организации

Определены следующие элементы множества F = {число публикаций, число проведенных конференций, число патентов, число статей, число учебных пособий} и элементы множества D = {год, подразделение, тип пособия, город, название журнала, тип публикации, тип патента, статус конференции, автор}. Используя сокращенные обозначения, получим соответственно: F = { f 1, f 2, f 3, f 4, f 5} и D = { d 1, d 2, d 3, d 4, d 5, d 6, d 7, d 8, d 9}. Отношение R записывается следующим образом: R = {( f 1, d1 ), ( f 1, d2 ), ( f 1, d 6), ( f 1, d 9), …, ( f 5, d 9)}.

В рамках рассматриваемого формального контекста строится концептуальная решетка OLAP-кубов представляющая интегральную OLAP-модель научной деятельности организации (рис. 4).

Рис. 4. Решетка кубов-концептов научной деятельности организации

В рамках рассматриваемого примера, показатели А = { f 2, f 4, f 5} одновременно сопоставимы только с измерениями из В = { d 1, d 2, d 4}. Пара ( А , В ) образует формальный концепт – полный аналитический куб. Множество всех кубов-концептов, упорядоченное отношением подкуб–надкуб, образует решетку многомерных кубов.

Таким образом, предложенный метод концептуального OLAP-моделирования позволяет строить интегральную модель предметной области в виде решетки OLAP-кубов на основе экспертных знаний об объектах анализа и возможности их совместной аналитической обработки. Интегральная модель дает возможность оперировать всеми объектами анализа одновременно и охватывает максимальное число решаемых аналитических задач. Применение концептуальной OLAP-модели для поддержки принятия управленческих решений позволит повысить эффективность оперативной аналитической обработки многомерных данных. Практическим результатом работы стало построение интегральной OLAP-модели научной деятельности организации.

Дальнейшее развитие метода концептуального OLAP-моделирования сопряжено с необходимостью разработки алгоритмов обнаружения дополнительных показателей и измерений, исходя из свойств концептуальной решетки и начальных условий решаемой аналитической задачи. Планируется разработка метода формирования базы знаний на основе формальной концептуальной решетки OLAP-кубов и создание программных средств поддержки адаптивного манипулирования объектами ана- лиза при оперативной аналитической обработке многомерных данных.

Статья научная