Метод обратного преобразования для анализа временных рядов

Автор: Ширяева Т. А., Хлупичев В. А., Шлепкин А. К., Мельникова О. Л.

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Информатика, вычислительная техника и управление

Статья в выпуске: 1 т.21, 2020 года.

Бесплатный доступ

В современных условиях развития технологий признаки системности проявляются в той или иной степени во всех областях, поэтому использование системного анализа является актуальной задачей. При этом главными факторами в данной ситуации являются обработка данных и прогнозирование состояния системы. Для заданного объекта в качестве способа прогнозирования в данной работе применяется моделирование, а точнее математическое моделирование. Математическая модель - это универсальное средство исследования сложных систем, представляющее собой приближенное описание какого-либо класса явлений внешнего мира, выраженное с помощью математической символики. Математическую модель можно представить как совокупность систематических компонентов и случайной составляющей. В данной статье регрессионная модель уже определена, а в качестве объекта прогнозирования рассмотрена остаточная нерегулярная компонента модели, которая отражает воздействие многочисленных факторов случайного характера. Происхождение, природа и законы изменения данной случайной величины нам неизвестны, поэтому для моделирования ее поведения или предсказания ее будущих значений необходимо с высокой степенью достоверности установить вид непрерывной функции распределения данной случайной величины. Для этого была рассчитана эмпирическая функция распределения с помощью выборки из значений случайной величины. Данная эмпирическая функция в определенной степени приближена к значениям искомой неизвестной функции распределения. Полученная эмпирическая функция носит дискретный характер, поэтому необходимо применить кусочно-линейную интерполяцию и таким образом получить непрерывную функцию распределения. В исходную регрессионную модель была включена спрогнозированная случайная компонента временного ряда. Для того чтобы сравнить дополненную и исходную регрессионные модели, из динамического ряда были исключены несколько значений и построен новый прогноз. Рассчитано значение средней ошибки аппроксимации для оценки качества модели. Дополненная регрессионная модель показала себя эффективнее исходной.

Еще

Прогнозирование, анализ временных рядов, обратное преобразование, системный анализ

Короткий адрес: https://sciup.org/148321950

IDR: 148321950   |   DOI: 10.31772/2587-6066-2020-21-1-34-40

Текст научной статьи Метод обратного преобразования для анализа временных рядов

Введение. Можно сказать, что для специалистов, занимающихся анализом данных, в большинстве случаев прогнозирование является основной целью и задачей. Современные методы статистического прогнозирования зачастую способны с достаточно высокой точностью спрогнозировать практически любые возможные показатели [1].

Прогнозирование – система научно обоснованных представлений о возможных состояниях объекта в будущем и альтернативных путях его развития [2]. Не существует универсальных методов прогнозирования на все случаи жизни. Любая практическая задача прогнозирования может быть удовлетворительно решена лишь ограниченным числом методов [3]. Выбор метода прогнозирования и его эффективность зависят от множества условий: от цели прогноза, периода его упреждения, уровня детализации и наличия исходной информации [4]. Наиболее часто применяемым методом прогнозирования является математическое моделирование. Математическая модель – приближенное описание определенного процесса или явления внешнего мира, выраженное с помощью математического аппарата [5].

Составляющие временного ряда. Часто при исследовании временного (динамического) ряда его изображают в виде следующей математической модели:

Y = Y + E, где: Yt - значение временного ряда; Yt - систематическая (детерминированная) составляющая временного ряда; Et - случайная составляющая временного ряда [6].

Систематическая составляющая временного ряда Y t является результатом влияния на анализируемый процесс постоянно действующих факторов. Можно выделить две основные систематические составляющие временного ряда:

  • 1)    тенденция временного ряда;

  • 2)    циклические колебаний ряда.

Тенденция (тренд) представляет собой общую закономерность изменения показателей временного ряда, устойчивую и наблюдаемую в течение длительного периода времени. Тренд описывается с помощью некоторой функции, как правило, монотонной. Эту функцию называют функцией тренда, или просто – трендом [7].

Среди факторов, формирующих цикличность колебаний ряда, в свою очередь можно выделить две компоненты:

  • 1)    сезонность;

  • 2)    цикличность.

Сезонность представляет собой результат воздействия факторов, действующих с определенной, заранее известной периодичностью. Это регулярные колебания, носящие периодический характер и заканчивающиеся в течение года. Циклическая компонента – неслучайная функция, описывающая длительные (более года) периоды подъема и спада [8; 9].

Случайная составляющая временного ряда E t - это оставшаяся после выделения систематических компонент составная часть временного ряда. Она отражает воздействие многочисленных факторов случайного характера и представляет собой случайную, нерегулярную компоненту.

Случайные величины разнообразны по своей природе, происхождению, однако закон распределения можно записать в единообразной универсальной форме, а именно в виде функции распределения, одинаково пригодной как для дискретных, так и для непрерывных случайных величин [10].

Метод обратного преобразования. В целях прогнозирования, а также имитационного моделирования может возникнуть необходимость в методе генерации случайной компоненты временного ряда. Для этой цели воспользуемся методом обратного преобразования.

Пусть случайная величина X имеет функцию распределения F(x) . Примем, что F 1 (x) - это обратная функция F(x) . Тогда алгоритм для генерации случайной величины X с функцией распределения F(x) будет следующим:

  • 1.    Генерируем величину U, имеющую равномерное распределение на промежутке (0;1).

  • 2.  Возвращаем X=F1(U).

На рис. 2 этот алгоритм изображен графически и случайная величина, соответствующая этой функции распределения, может принимать либо положительные, либо отрицательные значения. Это зависит от конкретного значения U . На рис. 1 случайное число U i в результате дает положительное значение случайной величины X i , тогда как случайное число U 2 в результате дает отрицательное значение случайной величины X 2 [II].

Рис. 1. Использование метода обратного преобразования для генерирования случайной величины

  • Fig. 1.    Using the reverse conversion method to generate a random variable

Оценка функции распределения случайной величины. Рассмотрим наш временной ряд как последовательность x i , x i ,...X n независимых и одинаково распределенных, по определенному закону, случайных величин, которая называется выборкой объема n . Каждое x t (t=1, 2,...n) называется вариантой. Имея выборку, мы не имеем информации о виде функции распределения F(x) . Требуется построить оценку (приближение) для этой неизвестной функции.

Наиболее предпочтительной оценкой функции F(x) будет являться эмпирическая функция распределения F n (x) . Эмпирической функцией распределения (функцией распределения выборки) называют функцию F n (x) , определяющую для каждого значения x относительную частоту события X, т.е.

Fn ( x ) = n x ,

n где: nx – число значений xt, меньших x; n – объем выборки.

При достаточно большом объеме выборки функции F n (x) и F(x)=P(X мало отличаются друг от друга. Отличие эмпирической функции распределения от теоретической состоит в том, что теоретическая функция распределения определяет вероятность события X < x, а эмпирическая функция определяет относительную частоту этого же события [12].

Эмпирическая функция распределения обладает всеми свойствами интегральной функции распределения:

  • 1)    значения эмпирической функции распределения принадлежат отрезку [0;1];

  • 2)    F n (x) – неубывающая функция;

  • 3)    F n (x)=0 при x x miп, если x min- наименьшая варианта; Fn(x)=1 при x > x min, если x min-наибольшая варианта [6].

Однако для использования метода обратного преобразования удобно иметь непрерывную функцию распределения, поэтому необходимо интерполировать полученную эмпирическую функцию.

Построение прогнозной модели. Приведем пример использования метода обратного преобразования при построении прогнозной модели. В качестве исходных данных используем среднемесячные показатели электропотребление на территории Красноярского края за 3 года с января 2009 г. по декабрь 2011 г. [13].

С помощью некоторой регрессионной модели были рассчитаны прогнозные значения временного ряда. Фактические Y t и прогнозные Y значения временного ряда представлены в табл. 1.

Таблица 1

t

Yt

Yt

t

Yt

Yt

t

Yt

Yt

t

Yt

Yt

1

51,0123

53,09764

11

35,5809

43,42324

21

37,8690

44,58914

31

17,1468

15,15964

2

38,2345

38,37535

12

53,2584

54,26158

22

63,4957

57,61664

32

20,8548

21,45395

3

40,0023

35,24303

13

52,3887

52,69219

23

72,9843

72,28322

33

29,3791

31,55531

4

25,1288

32,13879

14

39,9125

41,30390

24

88,0214

83,09426

34

51,1710

44,09931

5

22,9338

27,08163

15

39,2113

32,14284

25

82,6095

79,01463

35

61,5869

59,79590

6

27,0146

20,64426

16

31,3420

24,38189

26

62,7282

63,15378

36

71,2594

73,02318

7

25,1154

17,77792

17

26,0102

19,52312

27

50,0250

48,20592

8

16,6987

19,20278

18

20,5578

17,87433

28

29,6211

34,02474

9

27,3114

23,86244

19

12,1214

22,62140

29

22,2954

22,75450

10

29,2400

31,48983

20

24,9374

32,44863

30

17,8092

15,25792

Фактические Y и прогнозные Y значения временного ряда

Построим эмпирическую функцию распределения значений отклонений e t прогнозных значений Yt от фактических значений Y, временного ряда et = Y - Y . Для этого необходимо ранжировать выборку{ e t }, таким образом получив выборку { e > = { e (1} е (2}<... <  e („J (табл. 2).

Ряд значений e и e

Таблица 2

t

e t

e ( t )

t

e t

e ( t )

t

e t

e ( t )

t

e t

e ( t )

1

–2,085

–10,500

11

–7,842

–2,085

21

–6,720

1,791

31

1,987

6,370

2

–0,141

–7,842

12

–1,003

–1,764

22

5,879

1,819

32

–0,599

6,487

3

4,759

–7,511

13

–0,303

–1,391

23

0,701

1,987

33

–2,176

6,960

4

–7,010

–7,010

14

–1,391

–1,003

24

4,927

2,551

34

7,072

7,068

5

–4,148

–6,720

15

7,068

–0,599

25

3,595

2,683

35

1,791

7,072

6

6,370

–4,404

16

6,960

–0,459

26

–0,426

3,449

36

–1,764

7,337

7

7,337

–4,148

17

6,487

–0,426

27

1,819

3,595

8

–2,504

–2,504

18

2,683

–0,303

28

–4,404

4,759

9

3,449

–2,250

19

–10,500

–0,141

29

–0,459

4,927

10

–2,250

–2,176

20

–7,511

0,701

30

2,551

5,879

Так как частота каждой вариации равна единице, эмпирическая функция будет иметь вид:

0, e ■      / , e^ ) ;

F n ( е ) =

t

n

e Е[ e ( t ) , e ( t + 1) ) ; t 0,1,..., n;

...;

J, e e[ eui), ).

График функции F n (e) представлен на рис. 2.

Рис. 2. График эмпирическая функция распределения F n (e)

  • Fig. 2.    Graph of the empirical distribution function F n (e)

Полученная эмпирическая функция F n (e) имеет дискретный вид. Применим кусочнолинейную интерполяцию, чтобы получить непрерывную функцию распределения случайной величины F * ( e ). Для этого используем уравнение прямой, проходящей через две точки:

y = ( x - X 1 ) X

У 2 - У 1

+ У 1 .

Непрерывная функция распределения случайной величины F *( e ) будет иметь вид:

0,

e ■■ (     < e (1) ) ;

..;

F n ( e ) H

( e ' - e ( t ) ) X

к e ( t + 1)    e (

t - 1 + n - 1,

e e[ e ( t ) , e ( t + 1) ) ; t = o,1,-, n ;

...;

1,

e g[ e ( n) , w).

График функции F * ( e ) представлен на рис. 3.

*

Fig. 3. Graph of the continuous distribution function F ( e )

Оценка прогнозной модели. Для дальнейшего анализа данного метода рассмотрим несколько моделей прогноза [14]:

  • 1.    Значение временного ряда Y примем как полностью детерминированный процесс, для осуществления прогноза используем значения Y , рассчитанные при помощи регрессионной модели.

  • 2.    Значение временного ряда Y примем как случайную величину, для которой построим функцию распределения F * ( e ) и осуществим расчет прогнозных значений Yt ' .

  • 3.    Значение временного ряда Y примем как совокупность значений Y , рассчитанных при помощи регрессионной модели и случайной компоненты e t , для которой построим функцию распределения F * (e ) и осуществим расчет прогнозных значений e\ .

Сделаем оперативный прогноз уровней электропотребления. Для этого исключим из рассмотрения последние 5 наблюдений из выборки и рассчитаем новые оценки параметров регрессионной модели, а также новые функции распределения F * ( x ) и F * ( e ).

Применим алгоритм обратного преобразования к полученным функциям F * ( x ) и F * ( e ). Для этого сгенерируем выборку {u t } случайных чисел, имеющих равномерное распределение в промежутке [0;1]. Возвращаем Yt = F * - 1( ut ) и e't = F3 *1 - 1( ut ). Результаты расчета представлены в табл. 3.

Таблица 3

Результаты применения алгоритма обратного преобразования

t

Y t

u t

et

Y + e

Y'

1

32

25,1456

0,0608

–7,1360

18,0096

6,9693

2

33

37,1619

0,6514

1,9654

39,1274

14,9283

3

34

52,0351

0,6577

2,1085

54,1436

15,2489

4

35

70,5459

0,0515

–7,1507

63,3952

6,8725

5

36

86,8325

0,5448

0,3808

87,2133

13,4902

При рассмотрении полученных результатов видно, что сумма Yt + e't лежит ближе к фактическим данным, чем прогнозные значения Y , рассчитанные при помощи регрессионной модели. Таким образом, спрогнозированные значения e в некоторой степени сгладили ошибку прогноза (рис. 4).

Рис. 4. Графическое отображение результатов прогноза

  • Fig. 4. Graph displaying forecast results

Для критерия оценки качества модели определим значение средней ошибки аппроксимации, которую рассчитаем по формуле [15]:

n

A = 1 Z n t = 1

( Y - Y np )

Y ф

x 100%,

где: Y пр – прогнозные значение временного ряда; Y ф – фактические значение временного ряда; n – размер временного ряда [10].

Значения средней ошибки аппроксимации для Yt , Yt и Yt + e составляют:

  • 1)    A ( Y ) « 17,03%;

  • 2)    A ( Y ) « 71,18%;

  • 3)    A ( Y + e ') ~ 15,59% .

Самый высокий показатель средней ошибки аппроксимации был получен при допущении, что временной ряд Y t является случайной величиной. Средняя ошибка аппроксимации для регрессионной модели меньше на 54,15 %. Это говорит нам, что временной ряд является детерминированной величиной. В результате включения в регрессию значений e‘ , средняя ошибка аппроксимации снизилась еще примерно на 1,44 %.

Заключение. Представленный выше метод может быть использован для определения непрерывной функции распределения случайной величины и генерации случайной величины в целях прогнозирования и имитационного моделирования.

Список литературы Метод обратного преобразования для анализа временных рядов

  • Egorshin A. V. [Statement of the problem of forecasting the time series generated by a dynamic system]. YoshkaMa, Mary State. tech. un-t Publ., 2007, P. 136-140.
  • Urmaev A. S. Osnovy modelirovaniya na EVM [Computer modeling basics]. Moscow, Nauka Publ., 1978, 246 p.
  • Ezhova L. N. Ekonometrika. Nachal'nyykurs s os-novami teorii veroyatnostey i matematicheskoy statistiki. [Econometrics. Initial course with the basics of probability theory and mathematical statistics. Textbook]. Irkutsk, Baykal'skiy gosudarstvenny universitet Publ., 2008, 287 p.
  • Anisimov A. S., Kononov V. T. [Structural identification of linear discrete dynamic system]. Vestnik NSTU, 2005, No. 1, P. 21-36 (In Russ.).
  • Khinchin A. Ya. Raboty po matematicheskoj teorii massovogo obsluzhivaniya [Works on the mathematical theory of queuing]. Moscow, Fizmatgiz Publ., 1963, 296 p.
  • Guiders M. A. Obshchaya teoriya sistem [General theory of systems]. Moscow, Gtobus-press Publ., 2005, 201 p.
  • Kondrashov D. V. [Forecasting time series based on the use of Chebyshev polynomials that are least deviated from zero]. Bulletin of the Samara state. Those. University. Series: Engineering, 2005, No. 32, P. 49-53 (In Russ.).
  • Pugachev V. S. Teoriya veroyatnostey i mate-maticheskaya statistika [Theory of Probability and Mathematical Statistics]. Moscow, Nauka Publ., 1979, 336 p.
  • Buslenko N. P. Modelirovanie slozhnyh sistem [Modeling complex systems]. Moscow, Nauka Publ., 1968, 230 p.
  • Pugachev V. S. Teoriya sluchajnyh funkcij i ee primenenie k zadacham avtomaticheskogo upravleniya [The theory of slash functions and its application to the problems of automatic control]. Moscow, Fizmatgiz Publ., 1960, 236 p.
  • Belgorodskiy E. A. [Some discussion problems of forecasting]. Ural'skiy geologicheskiy zhurnal. 2000, No. 2, P. 25-32 (In Russ.).
  • Averill M. L., Kelton D. Imitacionnoe modelirovanie [Simulation modeling and analysis. Third edition]. SPb., Piter Publ., 2004, 505 p.
  • Dvoiris L. I. [Forecasting time series based on the analysis of the main components]. Radiotehnika. 2007, No. 2, P. 68-71 (In Russ.).
  • Van der Waerden. Matematicheskaya statistika [Mathematical statistics]. Moscow, IL Publ., 1960, 436 p.
  • Grenander U. Sluchajnye processy i statistiches-kie vyvody [Random processes and statistical inferences]. Moscow, IL Publ., 1961, 168 p. (In Russ.).
Еще
Статья научная