Разработка методики адаптивного управления процессом проектирования и развития специализированных хранилищ данных

Бесплатный доступ

Предложена методика адаптивного управления процессом проектирования и развития хранилищ данных, обеспечивающая оригинальную формализацию процессов проектирования и развития модели данных, учитывая условия эксплуатации и специализированную информацию о предметной области, что позволяет повысить производительность хранилищ данных. Выполнено описание логики процесса проектирования и развития специализированного хранилища данных с использованием управляющей модели в нотации eEPC ARlS-методологии.

Специализированное хранилище данных, адаптивное управление, проектирование, материализация представлений

Короткий адрес: https://sciup.org/148176307

IDR: 148176307

Текст научной статьи Разработка методики адаптивного управления процессом проектирования и развития специализированных хранилищ данных

Адаптивное управление разработкой хранилища данных (ХД) подразумевает итерационные действия, направленные на достижение приемлемой производительности систем поддержки принятия решений. В качестве критерия оптимальности, относительно которого принимается решение, для модели адаптивного управления используется минимизация стоимости обслуживания и времени отклика, а в качестве управляемых переменных – характеристики хранилища в виде совокупности ограничений (максимальное время ожидания ответа, доступное дисковое пространство). Параметры объектов управления не могут быть однозначно определены и меняются в ходе реализации процессов проектирования и эксплуатации, происходящих в современных условиях развития.

Для повышения производительности систем поддержки принятия решений необходимо включать в модель хранилища данных итоговые агрегатные таблицы. Из-за ограничений дискового пространства и объема трудозатрат, связанных с необходимостью поддержания агрегатов в актуальном состоянии, нельзя вычислить и сохранить все возможные представления. Поэтому материализуются только избранные комбинации агрегатов, которые затем используются для более эффективного вычисления других агрегатов. Задача выбора агрегатов для материализации NP – трудная [1], число агрегатов экспоненциально зависит от количества измерений. При эксплуатации хранилища выбор представлений для материализации может основываться на информации о частоте и времени выполнения запросов. Такая информация автоматически накапливается СУБД в виде статистики по полям таблиц хранилища данных и отсутствует на этапе проектирования. При проектировании хранилища требуется разработать способы определения релевантных элементов в пространстве представлений кандидатов на материализацию, используя доступную информацию о предметной области.

Методика адаптивного управления процессом проектирования и развития специализированных хранилищ данных. Специализированное хранилище данных ориентировано на решение определенного класса аналитичес- ких задач. Решение задач обеспечивается наличием четких описаний совокупностей методов расчета показателей предметной области. Предлагается определять релевантные элементы для включения в модель данных хранилища на основе анализа методик предметной области, переходя от содержательного описания к количественным оценкам. Такой подход позволит повысить производительность первоначального проекта специализированного хранилища, используя информацию о предметной области в отсутствии статистической. Развитие модели хранилища данных для повышения скорости доступа к информации должно соответствовать требованиям пользователей. Учет потребностей пользователей предлагается выполнять за счет включения семантических оценок методик предметной области в расчет релевантных элементов.

Предлагаемая методика построении специализированных хранилищ данных реализуется в три основных этапа.

Этап 1. Исследование предметной области: выделение измерений, показателей и методик расчета. Определение источников данных, частоты их обновления. Изучение структуры исходных данных для последующей разработки методов унификации и верификации данных. Определение релевантных данных с помощью методик расчета показателей предметной области.

Этап 2. Формирование модели хранилища данных: создание таблиц фактов и таблиц измерений. Включение в модель хранилища данных дополнительных структур, используя алгоритм выбора релевантных представлений. Формирование репозитория метаданных.

Этап 3. Эксплуатация хранилища данных и накопление статистики для последующего его развития с использованием алгоритма выбора релевантных представлений и рекомендаций автоматических средств системы управления базами данных (СУБД).

Проектирование и развитие хранилища данных может производиться с помощью инструментария одного производителя или нескольких, при этом возможные проблемы интеграции различных компонентов в работе не рассматриваются. Инструментарий хранилища обеспе- чивает загрузку, верификацию и актуализацию данных и использует определенный сервер СУБД. Применение принципа адаптации предполагает, что часть функций по получению, обработке и анализу недостающей информации о работе системы осуществляется автоматическими средствами СУБД в процессе нормальной эксплуатации хранилища данных, а не проектировщиком на предварительной стадии разработки.

Различные оптимизаторы запросов СУБД обладают специфическими свойствами, которые накладывают дополнительные требования на результат. Конкретный физический проект зависит от свойств выбранного оптимизатора. Необходимо, чтобы разрабатываемая методика проектирования и развития хранилищ данных не предполагала детального изучения работы и особенностей оптимизатора СУБД. Предлагается обеспечение методикой построения первоначальной модели хранилища данных, которая в процессе эксплуатации будет корректироваться автоматическими средствами СУБД в соответствии с внутренней реализацией конкретного сервера.

Методика адаптивного управления процессом проектирования и развития специализированных хранилищ данных основана на использовании алгоритма выбора релевантных представлений (алгоритм релевантности). Предложенный алгоритм включает определение релевантных элементов множества представлений и выбор представлений для материализации [2; 3]. Для описания логики процесса проектирования и развития специализированных хранилищ данных используется управляющая модель в нотации eEPC ARIS-методологии [4] (рис. 1). Нотация ARIS eEPC (extended Event Driven Process Chain) – расширенная нотация описания цепочки процесса, управляемого событиями, являющаяся расширением нотации IDEF3.

Управляющая модель объединяет организационную и функциональную модели, включая этапы проектирования и эффективного использования хранилища данных с возможностью его адаптивного развития. Модель отражает роли, которые играют автоматические средства оптимизации, инструментарий ХД, проектировщик и эксперт предметной области в процессе настройки и поддержки хранилища данных в актуальном и работоспособном состоянии. «Проектировщик» объединяет роли программиста и администратора хранилища данных и специалиста, проводящего исследование предметной области. «Эксперт» выступает в роли специалиста предметной области и(или) пользователя хранилища данных.

В процессе эксплуатации хранилища данных автоматическими средствами СУБД по полям таблиц хранилища собираются и обрабатываются статистические сведения, на основе которых формируются рекомендации по внесению изменений в модель данных. При поступлении новой информации предметной области или дополнительного дискового пространства, в случае отсутствия рекомендаций СУБД, решение об изменении модели хранилища данных принимается на основе выполнения алгоритма релевантности.

Действия по повышению производительности ХД выполняются до тех пор, пока структура хранилища данных не достигнет состояния, когда внесение в нее измене- ний невозможно или не требуется (события управляющей модели «ХД работает удовлетворительно» или «ХД работает неудовлетворительно»). Такое состояние поддерживается, пока не инициализируется одно из событий, приводящее цепочку последовательного выполнения функций в действие, например, поступление дополнительного дискового пространства или появление новых требований пользователя.

Наиболее эффективная структура хранилища данных обеспечивается интеграцией автоматических средств оптимизации, действий проектировщика и пользователя в настройке и поддержке хранилища в актуальном работоспособном состоянии с учетом имеющейся информации на конкретный момент времени. Отличие от существующих подходов к проектированию хранилищ данных заключается в том, что особое внимание уделено проблеме организации данных при отсутствии статистики о работе хранилища данных.

Особенность предложенной методики отражена блоками управляющей модели, определяющими проектирование, развитие и изменение модели ХД на основе алгоритма релевантности [2; 3].

Состав и описание модели проектирования. Модель процесса проектирования и развития специализированного хранилища содержит следующие функциональные блоки.

  • 1.    Проектирование модели ХД (алгоритм релевантности).

  • 2.    Разработка методов автоматизированной загрузки.

  • 3.    Изменение модели ХД (алгоритм релевантности).

  • 4.    Получение и обработка дополнительной информации.

  • 5.    Проверка работы ХД.

  • 6.    Анализ причин неудачи.

  • 7.    Изменение настроек сбора статистики.

  • 8.    Сбор статистики.

  • 9.    Обработка статистики.

Каждый блок включает набор алгоритмов и методов для достижения целевого назначения.

Проектирование модели хранилища данных происходит общесистемными методами [5–7] и др., включая последовательное выполнение концептуального и логического этапов проектирования. Концептуальное и логическое проектирование может быть выполнено с использованием различных моделей данных [8–11], которые поддерживают реляционные структуры данных и обеспечивают простоту трансляции концептуальной модели данных в логическую [12] и др.

Предложенный в работе алгоритм релевантности, используемый для проектирования модели хранилища данных, состоит из алгоритма определения релевантности [2] и алгоритма выбора представлений для последующей материализации в информационном хранилище [1; 3; 13–15].

Выполнение функции «Разработка методов автоматизированной загрузки», вызванное наступлением события «Физическая модель данных реализована», производится разово. Последующий вызов функции не происходит до тех пор, пока не появится событие «Новые данные поступили». Иными словами, новые методы загрузки информации не требуются до тех пор, пока не поступят неучтенные ранее данные предметной области.

Хранилище данных является развивающейся средой, поэтому требуется изменение и развитие модели хранения в нем информации. Изменения, как правило, вызываются следующими событиями: первичным наполнением хранилища, периодическим поступлением новых данных, появлением новых расчетных методик предмет- ной области, поступлением рекомендаций от автоматических средств СУБД, изменением дискового пространства для области агрегатов. После реализации модели хранилища данных и разработки средств автоматизированной загрузки выполняется наполнение хранилища. Дальнейшее развитие хранилища влечет за собой периоди-

Статистика не собрана

л

Проектировщик

Проектировщик

Построение модели ХД (алгоритм анной загрузки

СУБД

СУБД

Эксперт

Эксперт

Эксперт

Проектировщик

Проектировщик

Проектировщик

Изменение настроек сбора статистики

Рис. 1. Модель процесса проектирования и развития специализированного хранилища данных

Эксперт

Разработка методов автоматизиров

Сбор статистики

Обработка статистики

Физическая модель ХД реализована

рузки      Методы автоматизированной загрузки разработаны

Получение и обработка дополнительно й информации

Анализ причин неудачи

Проектировщик

Проектировщик

Изменение модели ХД (алгоритм релевантности)

Инструментарий ХД

Проверка работы ХД

ХД работает удовлетворительно

ческое пополнение данными и развитие модели хранилища данных.

Периодическое пополнение данными происходит в автоматическом или полуавтоматическом режиме за счет заранее разработанных методов загрузки. При поступлении новых данных, для которых планируется периодическое пополнение, разрабатываются соответствующие средства автоматической актуализации и унификации.

Эксплуатация системы позволяет автоматическим средствам СУБД собрать необходимую статистическую информацию о работе хранилища данных и провести ее анализ, выдав пакет рекомендаций для изменения модели хранилища данных. Если рекомендации не выданы и получено дополнительное дисковое пространство, то используются результаты алгоритма [2; 3], позволяющие выбрать дополнительные материализованные представ-

Данные обработаны

Дисковое пространство увеличено

Методы автоматизированной загрузк разработаны

Дискового

Рекомендации    Рекомендации пространства не выданы        выданы д               д           недостаточно

XOR

XOR

Необходимо

XOR

Требуются новые методы автоматизирова нной загрузки

Проведение корректировки модели ХД

Первичное наполнение ХД

Рис. 2. Функциональный поток процесса «Изменение модели ХД (алгоритм релевантности)»

Применение методов загрузки

Анализ событий

Выполнение рекомендаций СУБД

Выполнение алгоритма релевантности

Определение способа корректировки модели ХД

ления для добавления в хранилище. Необходимо учитывать, что периодически объемы хранилища данных увеличиваются. Если для проведения актуализации данных недостаточно дискового пространства, то необходимо удалить часть таблиц с агрегатами, руководствуясь при этом статистической информацией или, при ее отсутствии, – алгоритмом релевантности [2; 3].

Декомпозиция функции «Изменение модели ХД (алгоритм релевантности)» модели проектирования и развития специализированных хранилищ данных показана на рис. 2. В случае успешного применения действий, вызванных событиями, требующими развития модели хранилища данных, результатом является измененная модель хранилища данных, готовая к дальнейшей эксплуатации. После внесения корректировок в модель хранилища данных выполняется проверка его работы.

Запланированная реструктуризация модели хранилища данных может быть не проведена по причине нехватки дискового пространства, которого недостаточно даже при удалении агрегированных данных из хранилища. В этом случае требуется дополнительное исследование ситуации, решение которой зависит от возможности поступления дискового пространства.

По результатам проверки работоспособности инициализируется функция анализа возможных причин неудачи или хранилище данных переходит в стационарное состояние удовлетворительной работы, сопровождаемое только сбором статистики. В стационарном состоянии хранилище находится до тех пор, пока не инициализируется одно из событий, требующих изменения модели или объемов данных.

Методика адаптивного управления процессом проектирования и развития специализированных хранилищ данных предполагает регулярный сбор статистики. Сбор и обработка статистики выполняются автоматически СУБД. Результаты сбора статистики используются для изменения модели хранилища данных и для изменения настроек автоматических средств анализа и сбора статистики.

Работа большого числа утилит по проведению анализа, настройки и сбору информации о базе данных автоматическими средствами СУБД может сильно понизить производительность системы, в этом случае следует уменьшить их количество или изменить способы их работы. Изменение настроек статистики может быть вызвано недостатком информации о частоте выполнения запросов. При наличии свободных системных ресурсов может быть выполнено изменение способов работы мастера настройки индексов или подключение и использование дополнительных утилит СУБД.

Существуют различные сочетания причин, в связи с которыми становится невозможным проведение изменения модели хранилища данных и обеспечивается неудовлетворительная работа. Функция «Анализ причин неудачи» выполняется проектировщиком, принимая во внимание общую картину функционирования хранилища данных. После проведения анализа разрабатываются способы устранения причин неудачи реструктуризации или неудовлетворительного функционирования ХД.

В процессе эксплуатации хранилища данных меняются требования пользователей к составу информации и расчетным методикам, на основе которых выполнено проектирование и оптимизация модели данных. Кроме этого, могут быть выявлены особенности предметной области, не учтенные на первоначальном этапе разработки хранилища данных. Предложенная методика адаптивного управления предполагает выполнение обработки дополнительной информации о предметной области для корректировки модели хранилища данных. К множеству новых данных и расчетных методик применяется специально разработанный алгоритм, учитывающий поступление новой информации предметной области. При наличии соответствующей статистики о работе хранилища модель данных корректируется с учетом рекомендаций СУБД. Для новых данных и материализованных представлений разрабатываются средства автоматической актуализации.

Выполнено описание процесса проектирования и развития специализированных хранилищ данных на основе методики адаптивного управления процессом проектирования и развития специализированных хранилищ данных. Для описания логики процесса проектирования и развития специализированного хранилища данных используется управляющая модель в нотации eEPC ARIS-методологии. Функциональные блоки модели, определяющие проектирование и развитие модели хранилища данных на основе алгоритма выбора релевантных представлений для материализации, отражают особенность предложенной методики. Описаны функции и связи между элементами, представленные в модели. Модель обеспечивает наглядное представление процесса функционирования специализированного хранилища данных в рамках методики адаптивного управления, начиная с принятия решения о необходимости проектирования. Методика адаптивного управления процессом проектирования и развития позволяет повысить производительность специализированного хранилища за счет материализованных представлений, выбранных с использованием информации о предметной области в отсутствии статистики о работе хранилища данных. Предложенная методика не предполагает детального изучения работы и особенностей оптимизатора СУБД, обеспечивая построение первоначальной модели хранилища данных, которая в процессе эксплуатации корректируется автоматическими средствами в соответствии с внутренней реализацией конкретного сервера баз данных.

Статья научная