Исследование жизненного цикла электронных информационных ресурсов
Автор: Доррер Георгий Алексеевич, Попов Анатолий Анатольевич, Сысенко Кирилл Владимирович
Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau
Рубрика: Математика, механика, информатика
Статья в выпуске: 2 (23), 2009 года.
Бесплатный доступ
Предложена вероятностная модель жизненного цикла информационных ресурсов (ИР), основанная на формализме цепей Маркова. В качестве исходных предположений приняты следующие: - ИР классифицируются в соответствии с Дублинским ядром метаданных (Dublin Core Metadata Element Set, DCMI); - выделено пять типовых бизнес-процессов по управлению ИР в соответствии с классификацией American Productivity & Quality Center; - по важности информация в ИР классифицируется как критическая, важная и маловажная. Предложенная модель позволяет с помощью разработанной авторами программной системы оценить жизненный цикл всех компонентов единичного информационного ресурса, а также динамику ИР в организации при заданном законе поступления новых ресурсов. Это дает возможность объективно оценивать потребные объемы дискового пространства организации. Приведен пример моделирования годичной динамики ИР в одном из отделов администрации города.
Информационные ресурсы, жизненный цикл, моделирование
Короткий адрес: https://sciup.org/148175868
IDR: 148175868
Текст научной статьи Исследование жизненного цикла электронных информационных ресурсов
В настоящее время информационные технологии (ИТ) стали неотъемлемой частью любой деятельности. В ряде случаев они играют обеспечивающую роль, в других слу- чаях являются основой бизнеса. Сформировалось самостоятельное направление менеджмента – сервис-менеджмент информационных технологий (ITSM). Классичес- ким руководством в данной области стала книга Я. Ниессена «Введение в ИТ Сервис-менеджмент» [1]. Предложенный в ней подход стал фактическим стандартом для формирования ИТ-служб предприятий как современных бизнес-подразде-лений, постоянно ориентированных на потребности своих пользователей. В дальнейшем такие структуры мы, следуя этой работе, будем называть ИТ-организациями.
Одним из процессов, реализуемых при менеджменте ИТ, является так называемое управление мощностями ( Capacity Management ). Задачей процесса управления мощностями является предоставление в нужное время и в экономически эффективной форме необходимых мощностей для обработки и хранения данных и обеспечение соответствующего баланса мощностей в ИТ-организации. Эффективное управление мощностями исключает панические закупки в последнюю минуту или покупку самой большой системы «на всякий случай», дорого обходящиеся ИТ-организациям. Многие центры обработки данных, например, постоянно работают с недогрузкой на 30...40 % или больше. Это не так плохо, если в ИТ-организации небольшое количество серверов. Но если имеются сотни и тысячи серверов, как у многих ИТ-организаций масштаба предприятия, то эти проценты означают потерю огромных финансовых средств [1].
В процессе управления мощностями важную роль играет управление информационными ресурсами (ИР), которые служат основой для создания информационных продуктов и оказания информационных услуг.
В широком смысле под информационным ресурсом понимаются «знания, подготовленные людьми для социального использования в обществе и зафиксированные на материальных носителях в виде документов, баз данных и знаний, алгоритмов, компьютерных программ, а также произведений искусства, литературы и науки» [2]. Информационные ресурсы организации, региона, страны рассматриваются как стратегические ресурсы, аналогичные по значимости запасам сырья, энергии и т. п.
Ценность информации, содержащейся в конкретном информационном ресурсе, может быть различной, кроме того, она изменяется во времени. Как и все на свете, информационный ресурс рождается, живет и умирает. Поэтому можно говорить о жизненном цикле информационного ресурса, в том числе и электронного. К сожалению, этот вопрос до сих пор недостаточно изучен в отличие, например, от жизненного цикла программного обеспечения и информационных систем [3]. Для управления жизненным циклом могут применяться технологии иерархического хранения данных HSM ( Hierarchical Storage Management ) [4], которые из разнородных средств хранения создают виртуальную файловую систему и управляют переносом данных с одного носителя на другой. Однако нам не известны математические модели жизненного цикла ИР, которые могли бы использоваться при разработке систем хранения данных.
Авторами предлагается сравнительно простая вероятностная модель жизненного цикла ИР, основанная на формализме цепей Маркова. Такая модель позволяет оценить жизненный цикл единичного ИР, а также динамику ИР в ИТ-организации при заданном законе поступления новых ресурсов.
Модель жизненного цикла ИР. Примем следующие предположения:
-
1 . Информационные ресурсы классифицируются в соответствии с Дублинским ядром метаданных ( Dublin Core Metadata Element Set , DCMI) [5]. DCMI представляет собой инвариантную к предметной области композицию наиболее общих полей описания ИР, введенную для обеспечения глобальной интероперабельности приложений, работающих с метаданными. Приведем краткое описание видов ресурсов:
-
– коллекция – множество, содержащее различные элементы;
-
– данные – информация, представленная в определенной структуре;
-
– событие – непродолжительное, ограниченное во времени явление;
-
– изображение – визуальное представление, отличное от текста;
-
– сервис – выполнение функций для конечного пользователя;
-
– программные средства – компьютерная программа;
-
– аудио – звуковое представление данных;
-
– текст – слова для чтения.
-
2. В соответствии с классификацией бизнес-процес-сов, разработанной Американским центром производительности и качества ( American Productivity & Quality Center ), выделим следующие бизнес-процессы по управлению ИР [6], которые мы рассматриваем как этапы жизненного цикла ИР:
-
– создание;
-
– хранение;
-
– обработка (упорядочение, поиск, изменение и обновление);
-
– архивирование;
-
– уничтожение.
-
3. В течение жизненного цикла меняется актуальность информации, содержащейся в информационном ресурсе. С этой точки зрения информация может классифицироваться как критическая, важная и маловажная [7] . Как правило, актуальность информации уменьшается с течением времени, следовательно эти классы актуальности наступают последовательно.
В дополнение к классификации [6] мы дополнительно ввели в жизненный цикл ИР этап архивирования, который обычно наступает, когда информация становится маловажной либо неактуальной в данный момент.
На практике уровень актуальности информации часто связывают с характеристиками систем хранения данных. Так, для критически важной информации требуются быстродействующие устройства, но не обязательно большой емкости, а для хранения архивных данных необходимы большие по емкости, но не обязательно быстродействующие средства.
Пусть имеется множество информационных ресурсов R = { Rij }, где в соответствии с приведенной выше классификацией i = 1, ..., n – вид ИР; j = 1, 2, 3 – степень актуальности ресурса. Каждый ресурс поступает в информационную систему и проходит в ней весь жизненный цикл.
Представим жизненный цикл единичного ИР Rij в виде цепи Маркова с дискретным временем (рис. 1). Цепь содержит пять состояний:
-
– S 1 – создание ИР;
-
– S 2 – хранение и обработка ИР критической важности;
-
– S 3 – хранение и обработка ИР с важной информацией;
-
– S 4 – архивирование и хранение ИР с маловажной информацией;
-
– S 5 – удаление ИР.
Вероятности перехода между состояниями ресурса i- го вида задаются матрицей
Сумма вероятностей в каждой строке матрицы равна единице:
Е P ij = 1, i = 1,..., 5.
j= 1
Ресурс характеризуют следующие параметры:
-
– τ – календарное время поступления ИР в информационную систему (например, дни, месяцы), 0 < т < T , где T – горизонт исследования системы;
-
– TSi – продолжительность жизни ИР, т. е. количество моментов времени от поступления ресурса в систему до момента его удаления с вероятностью, близкой к единице;
-
– Vi 0 (τ) – объем поступившего ресурса i -го вида в момент τ, Мб;
-
- v ij ( t , т) — объем ресурса R j , Мб, в момент t > т;
-
– v ij ( t , τ) – величины, образующие в ектор V i (t ,т) = [ V 1 ( t ,т), ..., V i5 (t ,т) ] , при этом
Е v ij ( t ,т) = ^ о (т), v t > т;
j= 1
-
— x ij ( t - т) - вероятность нахождения ресурса R ij в j -й степени актуальности в момент t > т. Вероятности x ij ( t - т) = x ij ( t , т) образуют вектор
Xi ( t ,т) = [ Х ц ( t ,т),..., X i 5 ( t ,т) ] , при этом Е x ij ( t ,т) = 1, j = 1
а начальное распределение вероятностей
X i (т,т) = [ 1, 0, 0, 0,0 ] .
Ресурс, поступивший в систему (в состояние S 1), в дальнейшем перераспределяется между состояниями пропорционально вероятностям пребывания системы в данном состоянии. Исходя из вышесказанного, мы получим следующие расчетные формулы.
Динамика изменения состояния ИР определится уравнениями
O , t < т,
X i ( t + 1, т) =
X i ( t ,т) P i , t > т,
где O – нулевой вектор,
О, t < т, vij (t,т) = ] ^0(т)xij (t,т), t > т,
i = 1,..., n , j = 1,..., 5.
Общий объ ем ресурсов i- го вида, находящихся в системе, задается вектором
V 1 ( t ) = [ V j Z ( t ) V 2 1 ( t ) V 3 1 ( t ) V 4 1 ( t ) V 5 1 ( t ) ] , причем
T
V 1 ( t ) = E V ( t , т), t = 0,..., T 1 , (4)
т = 0
где T 1 = T + TSi , здесь TSi – время жизни ресурса i- го вида.
Общий объем ресурсов j-й степени актуальности находится по формуле n u 1j(t) = ЕЕ vij(t,т), т i = 2, 3, 4, 0 < t< T. (5) S Расчетный объем ИР j-й степени актуальности Uj для определения необходимых объемов дискового пространства равен максимальному значению величины u"S (t) на всем исследуемом интервале времени: UJ = maxuJ (t), j = 2, 3, 4, 0 < t< T. (6) Расчеты по формулам (2)...(6) для матрицы (1) и исходных данных по объемам поступающих ресурсов удобно производить с помощью разработанной авторами для этой цели программы «Жизненный цикл информационных ресурсов». Приведем примеры расчетов жизненного цикла ИР на основе предложенной модели и ее программной реализации. Модель жизненного цикла единичного ресурса. Рассмотрим систему, содержащую единственный информационный ресурс. Предположим, что на вход системы в каждый момент времени поступает ресурс в объеме V10= 1 Мб. Расчет, проведенный по формулам (2)...(5). позволяет оценить динамику накопления ИР в системе (рис. 2). При непрерывном поступлении ИР в систему, которая в начальный момент не содержала ресурсов, процессы поступления и выбытия ИР постепенно уравновешиваются и информационная система переходит в стационарный режим работы. Установившийся объем ресурсов, относящихся к разным состояниям, различен, за исключением объема удаленных ресурсов (состояния S5), который непрерывно увеличивается (см. рис. 2). Рис. 2. График динамики накопления ИР при поступлении в каждый момент времени информации объемом 1 Мб Модель динамики ИР-организации. Рассмотрим динамику информационных ресурсов ИТ-организации одного из отделов администрации города. Организация использует информационные ресурсы (в соответствии с приведенной выше классификацией), интенсивность поступления которых зависит от дня недели и квартала. Оценка этих объемов по данным наших наблюдений приведена в таблице . Основываясь на этих данных, сделаем следующие выводы. Интенсивность поступления данных и текстовой информации возрастает к концу недели, так как в организацию поступают отчеты из других организаций. Этот же эффект наблюдается в конце каждого квартала, полугодия и года. В конце и начале года интенсивность поступления ИР примерно одинакова, поскольку в этот период принимаются годовые отчеты. Программное обеспечение обычно обновляется в начале месяца, квартала, года. Обновление производится с помощью сервисных пакетов или путем импорта новых структур. Интенсивность поступления интерактивных объектов к концу полугодия и года увеличивается, в том числе в связи с необходимостью израсходовать запланированный сетевой трафик. Что касается ИР типа «Изображение», то здесь не просматривается строгой закономерности их поступления в систему. Расчет проводится с помощью упомянутой выше программы «Жизненный цикл информационных ресурсов». При работе программы после заполнения матриц Pi формируются файлы, определяющие сценарий поступления информации по каждому виду ресурсов в течение года в соответствии с приведенной выше таблицей. Один такт работы системы моделирования соответствует одному дню работы организации. Также условно полагаем, что в начале периода моделирования хранилища данных были пусты: Vi0(0)=0,i=1,...,5. При выполнении расчетов по каждому потоку данных строится график, отображающий вероятность пребывания ресурса в каждом из состояний на каждом такте (рис. 3). Рис. 3. Динамика ИР «Интерактивные объекты» С помощью этих графиков можно оценить параметры оборудования, необходимого для хранения информационных ресурсов. Например, на рис. 3 отображено, что ИР «Интерактивные объекты» не передаются на архивное хранение (состояние S4) и практически не хранятся на жестких дисках со средней скоростью доступа (состояние S3). Информационные ресурсы данного типа для хра- Интенсивность ежедневного поступления данных в течение года, Мб День (период) Данные Изображение Интерактивный объект Программные средства Текст Понедельник 5 5 40 – 10 Вторник 10 3 43 – 17 Среда 14 5 48 – 21 Четверг 30 2 35 – 35 Пятница 35 2 40 – 35 Конец месяца 75 10 130 – 55 Начало месяца 10 5 40 7 15 Конец квартала 80 15 140 – 80 Начало квартала 10 5 40 7 15 Конец года 75 15 140 – 80 Начало года 110110 20 150 7 125 нения используют в основном оборудование с высокой скоростью доступа (состояние S2), после чего сразу удаляются. На графиках также наглядно видна периодичность поступления ИР данного типа. Результирующий график по всем типам информационных ресурсов (рис. 4) показывает, что система выходит на стационарный режим к концу года; в течение года основная нагрузка приходится на жесткие диски архивного хранения; в конце года на них хранится около 1 650 Мб ресурсов всех типов. Менее всего задействованы жесткие диски со средней скоростью доступа: в течение года на них хранится максимум 300 Мб информации. Рис. 4. Динамика суммарного объема ИР всех категорий После выполнения расчета все исходные и полученные данные можно экспортировать в MS Excel для дальнейшей обработки и анализа. Программа позволяет обрабатывать от одного до пяти типов ресурсов на глубину до 1 000 000 тактов. В ней также реализован контроль ввода и предусмотрена возможность сохранения исходных данных. Таким образом, предложенная в данной статье вероятностная модель жизненного цикла информационных ресурсов позволяет получать качественно адекватную картину динамики как для отдельного ресурса, так и для совокупности ресурсов, используемых ИТ-организацией. С помощью программы «Жизненный цикл информационных ресурсов», реализующей эту методику, мож- но проанализировать загруженность дискового оборудования несколькими типами ресурсов за любой срок и, исходя из полученных данных, подобрать оптимальное по цене, объему и скорости доступа оборудование. Кроме того, можно решать задачу по поиску оптимальной стратегии по управлению мощностями [1], рассматривая сроки замены и характеристики оборудования. Определенную сложность при использовании предлагаемой методики представляет получение оценок вероятностей перехода между состояниями pij. Для этой цели, помимо рассмотренного выше метода экспертного оценивания, можно использовать методику оценки параметров цепей Маркова по экспериментальным данным [8].