Алгоритм расчета прогнозируемого трафика при проектировании распределенных систем обработки и хранения информации
Автор: Антамошкин A.H., Золотарев В.В.
Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau
Рубрика: Математика, механика, информатика
Статья в выпуске: 1 (8), 2006 года.
Бесплатный доступ
Расчет прогнозируемого трафика имеет решающее значение на этапе проектирования каналов внутреннего межкомпонентного взаимодействия в распределенных системах обработки и хранения информации. Рассматривается использование закона распределения случайных величин Парето, являющегося основой алгоритма расчета необходимой пропускной способности таких каналов. Предложен поправочный коэффициент, универсализирующий полученные результаты.
Короткий адрес: https://sciup.org/148175160
IDR: 148175160
Текст научной статьи Алгоритм расчета прогнозируемого трафика при проектировании распределенных систем обработки и хранения информации
Основной проблемой при проектировании каналов внутреннего межкомпонентного взаимодействия является прогнозирование и распределение нагрузки - транзакций данных пользователям и процессам. Методы, широко применяемые в современных распределенных системах обработки и хранения информации для решения этой задачи, в основном ориентированы на вторую часть, являясь различными дисциплинами распределения нагрузки. В данной статье приводится новый подход к проектированию распределенной системы, позволяющий прогнозировать трафик на этапе планирования и анализа.
Современные дисциплины (методы) распределения нагрузки подразделяются, согласно классификации [1], следующим образом:
-
- на статические, при которых распределение нагрузки не зависит от текущего состояния системы и происходит на этапе запуска в эксплуатацию;
-
- динамические, при которых распределение нагрузки происходит в зависимости от текущей ситуации.
Обращаясь непосредственно к описанию методов, нужно отметить, что их классификация основана на технических особенностях реализации.
К примеру, классификация [2] разделяет методы распределения нагрузки на следующие уровни:
-
- уровень 4. Для распределителей нагрузки уровня 4, называемого так из-за соответствия модели OSI / ISO, характерен анализ передаваемых данных только на уровне протокола TCP / IP, не доходя до уровня приложения и не принимая во внимание HTTP-запрос при перенаправлении данных на сервер. Такой механизм называют слепым к содержанию, или немедленным связыванием;
-
- уровень 7. Для распределителей нагрузки уровня 7 характерно решение о маршрутизации запроса только при получении HTTP-пакета. При этом, проведя анализ URL, такие устройства могут учесть тип запроса, оценить его
трудоемкость и определить, на каком сервере находится нужный ресурс. Этот механизм называют чутким к содержанию [3], или отложенным связыванием.
Следующим разделением является разделение методов по принципу действия на статические и динамические.
Статические методы - это методы Random и Round Robbin (RR). В методе Random сервер выбирается случайным образом с помощью равномерного распределения. Дисциплина Round Robbin реализует принцип циклического перебора, который в чистом виде выглядит так: i -я по счету заявка поступает на сервер с номером, равным остатку от деления i на N , где N- количество серверов.
Наиболее распространенными динамическими способами распределения нагрузки, согласно [1; 4] являются следующие:
-
- Least Loaded (LL) - выбор сервера по критерию наименьшей загрузки его ресурсов (процессор, память, диск, количество очередей сообщений);
-
- Least Connected (LC) - выбор сервера по критерию наименьшего числа текущих открытых TCP / IP соединений;
-
- Fast Response (FR) - выбор сервера по критерию самого быстрого ответа на тестовый запрос от распределителя нагрузки;
-
- Weighted Round Robbin (WRR) - при циклическом переборе каждому серверу, в отличие от статической дисциплины RR, передается подряд не один запрос, а несколько, в соответствии с весом сервера, пропорциональном, к примеру, его текущей загрузке. Вес сервера, как правило, определяется в течении сеанса по заранее выбранным параметрам.
Любая дисциплина основывается на структуре распределенной системы обработки и хранения данных, представленной в табл. 1. В ней указаны основные функции используемых компонентов программно-информационной среды кластера, обеспечивающих взаимодей-
Таблица 1
Состав кластера распределенной информационной системы
Перечисленные выше дисциплины могут являться аналогом предлагаемого ниже метода прогнозирования трафика. Основным недостатком, который ограничивает использование любой из них, может стать резкое изменение трафика, не предусмотренное заранее.
Покажем далее предпосылки создания алгоритма расчета, описанного в данной статье, и постановку решаемой им задачи.
Создание и эксплуатация современных глобально распределенных систем обработки и хранения информации требует максимального использования имеющихся ресурсов и технических возможностей. Для этого необходим расчет прогнозируемого трафика еще на этапе проектирования каналов межкомпонентного взаимодействия распределенной системы, особенно для глобально распределенных сетей передачи данных.
Пусть имеется проектируемая глобально распределенная, гетерогенная компьютерная система обработки и хранения информации. Необходимым условием применимости описываемого алгоритма является соблюдение следующих ограничений:
-
- запрос файла является единичным действием пользователя;
-
- назначение компонентов задачам производится до расчета;
-
- каждый компонент имеет отдельный логический выделенный раздел общей базы данных;
-
- запрос к любому разделу общей базы данных, соответствующему компоненту распределенной системы, равновероятен;
-
- допустимое время выполнения транзакции обратно пропорционально размеру файла.
Требуется описать частоту запросов пользователей на передачу файлов определенного размера. Полученное значение наиболее вероятного размера запрашиваемого файла используется для расчета необходимых значений пропускной способности внутренних каналов межкомпонентного взаимодействия. При этом заранее известными считаем минимальный размер файла, который может быть запрошен, и пропускную способность внешних по отношению к системе каналов передачи данных.
Первый этап реализации алгоритма представляет собой обоснование применения закона Парето для расчета наиболее вероятного размера запрашиваемого файла. Возможность применения этого закона для решения данной задачи показана в [4; 5], где указаны и основные особенности его применения. Использование распределения случайных величин Парето для расчета частот запро сов файлов определенного размера в глобально распределенной системе обработки и хранения данных позволяет получить значения, характеризующие вероятность превышения размера запрашиваемого пользователем файла над определенным экспериментатором минимальным размером файла в базе данных.
При расчете использованы следующие обозначения:
-
- w - размер запрашиваемого файла;
-
- w 0 - минимальный размер файла в базе данных;
-
- Р ( w / w 0 ) - вероятность превышения размера запрашиваемого файла над показателем w 0 в w / w 0 раз;
-
- с - параметр распределения.
Вероятность превышения размера файла в w / w 0 раз над показателем нормировки w 0 аппроксимируется распределением Парето, имеющим в данной задаче следующий вид:
0, w < wо, cw0w-(c+1), w > Wo > 0,
P ( w / w o ) = '
где w 0 = 1 кбайт; c = 0,9.
Выбор параметра с в работе [1] предлагается выполнять в зависимости от вида файлов, содержащихся в базе данных системы. Из предложенного интервала [0,9; 1,1] выбрана нижняя граница, что рекомендовано в [4; 6] для гипертекстовых файлов, содержащих аудио- и видеокомпоненты размером не более 15 Мбайт.
В результате расчета получены расчетные вероятности запроса файла определенного размера (табл. 2).
Недостатком полученной таблицы частот является их независимость от пропускной способности внешнего канала. Следовательно, конфигурация системы не учитывается. На примере расчетов в работах [4; 5] можно увидеть, что необходим поправочный коэффициент, определяющий необходимую пропускную способность внутренних межкомпонентных соединений для каждого компонента глобально распределенной системы обработки и хранения данных. Ниже представлены формула и результаты расчета проектной пропускной способности внутренних каналов.
При этом используются следующие обозначения:
-
- И - матрица назначения компонентов задачам, элементы которой принимают значение 0, если файлы из логического раздела, соответствующие компоненту, не могут быть запрошены, и 1 в ином случае;
-
- а .. - элемент матрицы ^ ;
-
- i - номер компонента системы, принадлежащий интервалу [1, N ], где N- общее количество компонентов, включая резерв;
-
- j - номер выполняемой задачи, принадлежащий интервалу [1, М], где М- общее число задач системы;
Таблица 2
Вероятность запроса файла
Размер файла |
Вероятность запроса |
Размер файла |
Вероятность запроса |
1,5 w > |
0,416 552 |
150 w 0 |
6,6 Е- 05 |
5 w > |
0,042 286 |
500 w 0 |
6,7 Е -06 |
10 w 0 |
0,011 33 |
1 000 w > |
1,8 Е- 06 |
15 w 0 |
0,005 244 |
5 000 w 0 |
8,31 Е- 07 |
50 w 0 |
0,000 532 |
10 000 w > |
8,44 Е- 08 |
100 w 0 |
0,000 143 |
15 000 w > |
1,05 Е- 08 |
-
- g . - пропускная способность i -го компонента распределенной системы, сумма пропускных способностей внутренних межкомпонентных связей;
-
- L . - количество внутренних межкомпонентных связей i -го компонента распределенной системы;
-
- Т . - пропускная способность внешнего канала передачи информации, с которой соединен i -й компонент распределенной системы.
Коэффициент пропускной способности среды к , корректирующий полученные результаты в зависимости от используемой технологии и проектных значений скорости передачи данных, предлагаемый авторами, имеет вид , Т .
k gi = ” ,
( t a y ) GL i j = 1
а формула расчета проектной пропускной способности
-вид
, M (w) gp = kgi , te где М(w) - математическое ожидание величины w / w0; G - постоянная среды (пропускная способность типово го внутреннего канала), в данной задаче G = 10w0 бит / с; i - номер компонента; t - допустимое время выполне ния операции.
Алгоритм был апробирован на проектируемой системе дистанционного образования, удовлетворяющей представленным выше требованиям (см. рисунок).
Основными компонентами распределенной системы обработки и хранения данных в этом случае становятся следующие:
-
- логическая база данных системы с основной функцией хранения данных;
-
- система управления базами данных, распределен
ная внутри аппаратного кластера;
-
- подсистема защиты информации, включающая набор правил распределения доступа;
-
- система внутренней коммуникации, предназначенная для обеспечения возможности внутрисистемных транзакций данных;
-
- компоненты с функциями репликации и резервного копирования;
-
- система управления надежностью, производящая текущий анализ и оценку функционирования системы;
-
- веб-сервер;
-
- система управления содержимым;
-
- канал межсетевого взаимодействия, обеспечивающий возможность межкластерных транзакций данных;
-
- система коммуникации;
-
- компоненты, выполняющие функции тестирования качества передачи и контроля работоспособности.
Представленная на схеме (см. рисунок) система дистанционного образования создана на основе операционной системы с открытым исходным кодом UNIX.
Кроме того, система имеет матрицу А назначения компонентов (табл. 3)
В результате были получены минимально необходимые значения пропускной способности внутренних каналов межкомпонентного взаимодействия для успешной транзакции (табл. 4).
Минимально необходимые значения пропускной способности каналов межкомпонентного взаимодействия в зависимости от изменения допустимого времени выполнения транзакции представлены в табл. 5.
Предлагаемый авторами алгоритм расчета прогнозируемого трафика может быть применен при проектировании внутренних межкомпонентных связей распределенных систем обработки и хранения информации.
Таким образом, использование закона распределения случайных величин Парето в качестве основы алгоритма расчета прогнозируемого трафика и описанного в данной статье расчетного коэффициента позволяет определить

Структурная схема проектируемой системы
Таблица 3
Матрица назначения компонентов задачам
Компонент |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
Система хранения данных |
- |
1 |
1 |
1 |
1 |
0 |
0 |
0 |
0 |
0 |
1 |
Система управления базой данных |
1 |
- |
1 |
1 |
1 |
0 |
0 |
1 |
0 |
1 |
1 |
Элементы! защитной подсистемы |
1 |
1 |
- |
0 |
0 |
1 |
1 |
0 |
1 |
0 |
1 |
Система внутренней коммуникации |
1 |
1 |
0 |
- |
1 |
0 |
1 |
1 |
0 |
0 |
1 |
Мастер репликации |
1 |
1 |
0 |
1 |
- |
1 |
0 |
0 |
0 |
0 |
0 |
Система управления надежностью |
0 |
0 |
1 |
0 |
1 |
- |
0 |
0 |
0 |
0 |
0 |
Веб-сервер |
0 |
0 |
1 |
1 |
0 |
0 |
- |
1 |
1 |
0 |
1 |
Система управления контентом |
0 |
1 |
0 |
1 |
0 |
0 |
1 |
- |
0 |
0 |
1 |
Канал межсетевого взаимодействия |
0 |
0 |
1 |
0 |
0 |
0 |
1 |
0 |
- |
1 |
0 |
Система коммутации |
0 |
1 |
0 |
0 |
0 |
0 |
1 |
0 |
1 |
- |
1 |
Система тестирования и контроля |
1 |
1 |
1 |
1 |
0 |
0 |
1 |
1 |
0 |
1 |
- |
Таблица 4
Минимально необходимые значения пропускной способности каналов
i |
Компонент |
1 ау |
GL / , Мбайт / с |
Т / , Мбайт/с |
g p , Мбайт / с ( t e =0,3c) |
1 |
Система хранения данных |
5 |
10 |
2 |
1,20 |
2 |
Система управления базой данных |
7 |
10 |
2 |
0,86 |
3 |
Элементы! защитной подсистемы |
6 |
10 |
2 |
1,00 |
4 |
Система внутренней коммуникации |
6 |
10 |
2 |
1,00 |
5 |
Мастер репликации |
4 |
10 |
2 |
1,50 |
6 |
Система управления надежностью |
2 |
10 |
2 |
3,00 |
7 |
Веб-сервер |
5 |
10 |
4 |
2,40 |
8 |
Система управления контентом |
4 |
10 |
4 |
3,00 |
9 |
Канал межсетевого взаимодействия |
3 |
10 |
4,128 |
4,13 |
10 |
Система коммутации |
4 |
10 |
4,128 |
3,10 |
11 |
Система тестирования и контроля |
7 |
10 |
4,128 |
1,77 |
Таблица 5
Результаты расчета пропускной способности каналов