Алгоритм прогнозирования объектов локализуемого трафика в сети Бурятского филиала ОАО "Ростелеком"

Автор: Макшанова Лариса Михайловна, Содномова Марина Станиславовна

Журнал: Вестник Бурятского государственного университета. Философия @vestnik-bsu

Рубрика: Системный анализ, обработка информации и информационные технологии

Статья в выпуске: 9, 2011 года.

Бесплатный доступ

В статье собраны и обработаны данные объемов внешнего и внутреннего трафика сети Бурятского филиала за три года, рассмотрены вопросы локализации трафика, найдены оптимальные методы прогнозирования трафика сети.

Короткий адрес: https://sciup.org/148180547

IDR: 148180547

Текст научной статьи Алгоритм прогнозирования объектов локализуемого трафика в сети Бурятского филиала ОАО "Ростелеком"

Уровень локализации трафика – это показатель, позволяющий дать оценку эффективности деятельности филиала при предоставлении качественной услуги. Мы не можем достигать заданный показатель локализации путем массовой деградации сервиса за счет перегрузок на магистральных каналах. Снизить возможный негативный эффект от допускаемых перегрузок, а в дальнейшем и нормализовать ситуацию на магистральных портах предстоит только за счет повышения уровня локализации трафика. А также локализация трафика является одной из эффективных мер экономии затрат на закупку внешнего трафика.

Актуальной задачей является разработка модели прогноза локализованного трафика для выбора рациональных принципов использования и развития сети. В статье представлен один из возможных алгоритмов прогнозирования трафика сети.

На рисунке 1 представлены графики, на которых видно, что трафик сети имеет выраженный сезонный характер с возрастающим трендом. Понятие “сезон” в прогнозировании применим к любым систематическим колебаниям, например, если речь идёт об изучении трафика в течение недели, то под термином “сезон” понимается один день. Кроме того, цикл колебаний может существенно отличаться (как в большую, так и в меньшую сторону) от величины один год. И если удаётся выявить величину цикла этих колебаний, то такой временной ряд можно использовать для прогнозирования с использованием аддитивных и мультипликативных моделей.

Аддитивную модель прогнозирования можно представить в виде формулы:

F = T + S + E , где: F – прогнозируемое значение; Т – тренд; S – сезонная компонента; Е – ошибка прогноза.

Применение мультипликативных моделей обусловлено тем, что в некоторых временных рядах значение сезонной компоненты представляет собой определенную долю трендового значения. Эти модели можно представить формулой:

F = T х S x E.

На практике отличить аддитивную модель от мультипликативной можно по величине сезонной вариации. Аддитивной модели присуща практически постоянная сезонная вариация, тогда как у мультипликативной она возрастает или убывает [3].

Методики простого и в то же время адекватного прогнозирования на сегодняшний день действительно освещены в научных материалах в небольшом количестве. Одни просты до такой степени, что моделируют ситуацию, крайне далекую от реальной. А другие настолько сложны, что период их применения и сбора необходимой информации значительно превышает все установленные начальством сроки. Для анализа применим MS Excel как наиболее доступный и простой для понимания программный продукт.

Исходные да нные/ Объе м трафика сети БФ

Рис. 1. Объем трафика филиала за период 2008 - 2011гг.

На рисунке 1 наглядно иллюстрируется рост потребляемого абонентами трафика. Причинами роста являются увеличение абонентской базы (по сравнению с 2008 г. в 4,4 раза), ввод высокоскоростных тарифных планов, развитие контент-ресурсов.

При увеличении трафика абонентов перед провайдерами стоит вопрос о закупке внешнего Интернет-трафика и обеспечения работоспособности оборудования. Одним из мер по изменению текущего процесса является локализация трафика, которая достигается путем развития и популяризации собственных контент-ресурсов, увеличения доли внутреннего трафика. Филиалом проводятся следующие мероприятия по повышению локализации трафика:

  • -    развитие и продвижение собственного контента;

  • -    ограничение внешней нагрузки (самой безболезненной мерой по ограничению внешней нагрузки является реализация ретрекера с кэшированием наиболее востребованного контента). По статистическим данным трех лет доля внутреннего трафика выросла от 6 до 70%.

Создадим модели, описывающие объем локализованного филиалом трафика. Количество создаваемых моделей определяется методом подбора, учитывая вероятности достоверности. При этом важно, что большее количество построенных моделей даст возможность выбрать наиболее точную модель. Изначально неизвестно какое из уравнений трендов даст наилучший результат, поэтому на данном этапе моделирования целесообразнее всего использовать все линии тренда, которые может строить программный продукт MS Excel линейный, логарифмический, полиномиальный, степенной тренд и экспоненциальный тренд.

На рисунке 2 представлены все линии тренда для локализованного филиалом трафика, в таблице 1

указаны их вероятности достоверности.

Выбранные линии тре нда для локализованного траф ика

Линейная аппроксиммация                      Логарифмическая аппроксимация

Степенная аппроксимация                        Экспоненциальная аппроксимация

Полиноминальная аппроксимация 6 степени        Полиномиальная аппроксимация 3 степени

Рис. 2. Выбранные линии тренда для прогнозирования локализованного трафика

Таблица 1

Методы аппроксимации и их вероятности достоверности

Методы аппрокси мации

Линейная

Полиномиальная

Логарифми ческая

Экспо ненци альная

Степен ная

3-й степени

6-й степени

Вероятность достоверности R 2

0,923

0,9619

0,9796

0,6464

0,8257

0,8278

Для простоты и большей наглядности данного примера ограничимся выбором трех линий тренда: полиномиальная аппроксимация 3-й и 6-й степени, а также линейная, так как эти тренды имеют высокую вероятность достоверности (рис. 3).

Рис. 3. Выбранные методы аппроксимации

Рассчитываем сезонную компоненту для каждого из уравнений тренда. Из фактических данных вычитаем значения линий тренда для каждого из сезонов. В расчетах для того, чтобы довести средние колебания до 0, необходимо итоговую сумму средних разделить на количество периодов в сезоне (в нашем случае – это 12). Полученный результат вычитаем из значений среднего по каждому периоду. В итоге сумма колебаний составит абсолютный 0.

Отклонения сезонных колебаний модели с линейным и полиномиальным трендом 3 и 6 степени от 0 весьма велико и утверждать, что в моделях выявлена сезонность, мы не можем. Но, исходя из экономических соображений и знаний специфики рынка ТКС услуг, предполагаем, что сезонность существует. Соответственно, ошибка модели вырастет. Рассчитанные сезонные компоненты для каждого из уравнений тренда при прогнозировании просто переносятся на соответствующие месяцы прогнозного периода.

Полиномиальная модель 6ст. (S+T)        Полиномиальная модель 3 ст. (S+T)

Линейная модель (S+T)

Рис. 4. Значения трендовых моделей с учетом сезонной компоненты

Получив 3 сезонные компоненты (S) с 3 уравнениями тренда (T), мы можем рассчитать ошибки построенных моделей (E). Для этого из исходных значений задачи необходимо отнять сумму S+T, E=F-(S+T).

Ошибки моделей (Е)

Ошибка полиномиальной модели 6 ст. Е=А-(S+T)

Ошибка полиномиальной модели 3 ст. E=F-(S+T)

Ошибка линейной мод ели E=F-(S+T)

Рис. 5. Ошибки построенных моделей (Е)

На основании рассчитанных ошибок рассчитаем среднеквадратическое отклонение (СКО) для каждого из периодов, СКО моделей, а также их точность (табл. 2).

Находим среднеквадратическую ошибку модели (Е) по формуле:

Е= 2 О : 2 (F-(T+S))2 где :

Т - трендовое значение;

S – сезонная компонента;

О – отклонения модели от фактических значений.

На основании СКО для периодов рассчитаем точность по формуле: (точность модели) = [1- (среднее значение СКО)]*100% .

Рис. 6. Среднеквадратичное отклонение

Таблица 2

Рассчитанные значения ошибок моделей

Полиномиальная аппроксимация 6-й степ.

Полиномиальная аппроксимация 3-й степ.

Линейная аппроксимация

Среднее значение

0,5085

0,3314

0,3048

Точность модели

49,15%

66,86%

69,52

Среднеквадратичная ошибка модели (Е)

0,397%

1,369%

6,099%

На основе полученных значений (табл. 2), а также значений вероятности достоверности (табл. 1) оптимальной моделью является полиномиальная аппроксимация 3-й степени. Данная модель отражает тенденции объемов локализованного трафика и может использоваться для прогнозов. Чтобы построить доверительный интервал, воспользуемся данными СКО для модели с полиномиальным трендом 3-й степени (СКО=0,33144). Доверительный интервал примет вид:

(F*[1-CKO];F*[1+CKO]) .

Доверительный интервал отражает, в каких пределах может колебаться ошибка прогнозных значений.

Таблица 3

Расчет прогнозных значений модели с полиномиальным трендом 3-й степени

Месяц

Доверительный интервал

Прогнозируемые значения объема локализованного трафика

+

-

2011-05

622060,9877

1238840,911

956 067,81

2011-06

658076,1536

1310565,487

973 805,55

2011-07

677536,7788

1349321,524

985 168,32

2011-08

705378,5331

1404768,667

1 007 729,52

2011-09

733241,9059

1460258,863

1 043 789,26

2011-10

761091,1818

1515720,985

1 115 461,62

2011-11

788890,6452

1571083,904

1 179 992,19

2011-12

816604,5807

1626276,495

1 233 200,95

2012-01

844197,2728

1681227,627

1 338 717,78

2012-02

871633,0061

1735866,175

1 317 667,21

2012-03

898876,0651

1790121,009

1 392 831,27

2012-04

925890,7343

1843921,003

1 371 293,79

Прогнозируемые зн аче ния объе ма локализованного трафика

1 600 000,00

1 400 000,00

1 200 000,00

1 000 000,00

800 000,00

600 000,00

400 000,00

200 000,00

0,00

Прогнозируемые значения объема локализов анного трафика

Рис. 3. Прогноз локализованного трафика на 1 год Таким образом, мы пришли к выводу, что:

  • V    для точного прогноза необходимо исследовать несколько трендовых моделей;

  • V    для стратегических планов необходимо использовать более сложные модели, опираясь на теорию телетрафика. Для тактического же анализа приемлем вышеописанный метод.

  • V    в рассмотренном примере предпочтительна полиномиальная аппроксимация 3-й степени (исходя из рассчитанных значений СКО, R2, ошибок моделей).

  • V    по данным прогнозных значений ожидается рост объемов локализованного трафика. Причинами которого являются рост абонентской базы, рост объемов контента (видео, игры, и т.п.);

Для обеспечения данных показателей необходимы:

  • V    организация высокоскоростной раздачи файлов внутри сети;

  • V    размещение серверов, кэширование на собственных хранилищах торрент-трекеров;

  • V      организация пиринговых включений;

  • V      маркетинговые мероприятия.

Статья научная