Прогнозирование авторегрессионных временных рядов при наличии цензурирования

Автор: Бодягин Игорь Александрович, Харин Юрий Семенович

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Кибернетика, системный анализ, приложения

Статья в выпуске: 5 (31), 2010 года.

Бесплатный доступ

Рассмотрена задача статистического прогнозирования авторегрессионных временных рядов при наличии интервального цензурирования. Построена оптимальная прогнозирующая статистика, для нее вычислен условный среднеквадратический риск. Для авторегрессии первого порядка проведено сравнение оптимальной прогнозирующей статистики с прогнозирующими статистиками, часто используемыми на практике. Представлены численные результаты.

Авторегрессия, прогнозирование, цензурирование, риск

Короткий адрес: https://sciup.org/148176337

IDR: 148176337

Текст научной статьи Прогнозирование авторегрессионных временных рядов при наличии цензурирования

Задача статистического прогнозирования возникает во многих приложениях: в медицине, экономике, метеорологии, технике, астрономии [1]. Для описания временных рядов с зависимыми наблюдениями и прогнозирования будущих значений широко применяется модель авторегрессии [1]. На практике значения временного ряда часто наблюдаются с искажениями различных типов: выбросы, пропуски, гетероскедастич-ность [2], цензурирование [3] и др.; обзор типов искажений и их математические описания представлены в работе [2]. Цензурирование временного ряда заключается в том, что часть наблюдений ряда известна точно, а об остальных наблюдениях известно лишь, что они принадлежат некоторым числовым интервалам. Такая ситуация может возникать из-за наличия у приборов конечных пределов измерения, высокой стоимости проведения точных измерений, разладки оборудования и других причин.

Цензурированные выборки независимых наблюдений подробно изучены в математической теории надежности [4]. Однако статистический анализ цензурированных временных рядов остается малоизученным и актуальным направлением исследований.

Математическая модель. Пусть временной ряд x t описывается моделью АР( p ) авторегрессии порядка p g N [1]:

x t e i x t - i + u t , t G Z , (1) где { 9 i } = - коэффициенты авторегрессии такие, что все корни порождающего характеристического многочлена zp - ^ p^jz” - j лежат внутри единичного круга; { u t } – независимые в совокупности одинаково распределенные случайные величины, имеющие нормальный закон распределения вероятностей L { ut } = = N (0, а 2 ).

Пусть вместо значений временного ряда наблюдаются случайные события:

A t = { X t g A t } , t g { 1, . , T } , (2)

где { At } – заданные борелевские множества; T p – длительность наблюдения.

При наличии интервального цензурирования возможны два случая:

  • 1)    At состоит из одного элемента ( At = { xt }), тогда значение x t известно точно;

  • 2)    A t является числовым интервалом ( A t = [ a t , b t ), at bt ), тогда имеет место интервальное цензурирование значения x t , а интервал [ a t , b t ) называется интервалом цензурирования.

Статистическое прогнозирование будущего значения X T + ^R заключается в вычислении оценки Xт + 1 g R на основе имеющейся информации о наступлении событий A *, . . , A T :

X т + i = f ( A T , A T - i , . , A * ) .               (3)

Погрешность прогнозирования будем характеризовать условным риском прогнозирования r (f) = E {( Xt+1 - XT+1 )2 AT, ., A*} > 0,        (4)

  • т. е. среднеквадратической ошибкой прогнозирования.

Рассмотрим задачу построения оптимальной прогнозирующей статистики (ОПС) f0 ( ), минимизирующей условный риск (4), в случае известных параметров модели (1), (2):

r T ( f I) = inf r T ( f ).                     (5)

f ( )

Основные результаты. Теорема 1. Если временной ряд x t наблюдается при наличии цензурирования общего вида (2), то среди всех прогнозирующих статистик вида (3) оптимальная по критерию минимума риска (5) прогнозирующая статистика определяется условным математическим ожиданием:

**   **

XT + 1 = f I ( A T , . , A 1 ) = E { XT + 1 A T , . , A i } ,

Г т ( f i ) = d { Xt + 1 A T , . , A * } .             (6)

Доказательство. Преобразуем условный риск (4): r T ( f ) = E { ( xt + i - Xт + i ) 2 | A T , . , A i* } =

= E { ( xt + i - f ( A T , . , A * )) A T , . , A * } =

E { ( ( X* + 1 E { X* + 1 A T , , ' " , A 1 } ) + ( E { X* + 1 | A T , • "  , A 1 }

  • - f ( A * , " , A* )) ) 2 A * , " , A-

  • Заметим, что второе слагаемое зависит только от **

AT , • ", A1 :

*   **   *

r T ( f ) = E { ( X* + 1 E { X* + 1 | AT , " , A 1 }) | A* , " • , A 1 } +

  • + ( E { x * + 1 A * , " , A * } f ( A T , ". , A * ) ) 2 +

+ 2e { ( X * + 1 E { X * + 11 A * , " , A * })| A * , .„ , A Jx

X ( E { xT + 1 A T , " , A * } - f ( A * , " , A * ) ) = D { x T + 11 AT , " , A * } +

+ ( E { x T + 1 A T , " , A * } - f ( A * , " , A * ) ) ^ min.

f ( )

Из этого представления следует, что (6) есть решение задачи (5).

Теорема 1 является обобщением известного результата [1] в ситуации, когда цензурирование отсутствует.

Рассмотрим случай, когда цензурированы только последние q (0 ≤ q T ) значений временного ряда, а остальные T – q наблюдений известны точно. Обозначим

ц ( t , m ) = 0 1 x t - 1 + ". + 0 m x - m = £ 9 ,x, - i , t , m e N .

i = 1

Теорема 2. Пусть в рамках модели (1), (2) наблюдаются значения x 1 , …, xT–q и случайные события AT - q + 1 = { X* - q + 1 e [ a T - q + 1 , Ь* - q + 1 )} , ",

A * = { x * e [ а * , Ь * ) } . Тогда ОПС имеет вид

XT + 1

Ь *      b T - q + 1

J ". J Ц ( * + 1, p ) p ( x T , " , x T - q + 1 | x* - q , " , x 1 ) d X* - q + 1 d X* aT     aT - q + 1

Ь т      b T - q + 1

J ". J p ( x T , " , X t - q + 1 | X t - q , " , x 1 ) dx T - q + 1 dX*

aT     aT - q + 1

Доказательство . Оценку (6) в силу (1) можно представить следующим образом:

X* + 1

E { X* + 1 | AT , " , AT - q + 1

x

T - q

■, X 1 } =

I p

= E ] E 0 iX* + 1 - i + u * + 1 | AT , L i = 1

*

•, AT - q + 1 , X* - q

, x 1

= E {ц( * + 1, p )| AT, ", AT - q+1, X* - q , ", x1} , так как случайная величина uT+1 не зависит от A*,.", A*-q+1, xT-q, ", x 1 и E{uT+1} = 0. Вычислив полученное математическое ожидание, получим требуемое равенство (7).

Введем обозначение:

^(x, y, m, 5, u, v) = (u ф((x - m) / 5)- vФ((y -m) / 5))xх(ф(( y - m)/ 5 )-Ф(( x - m)/ 5)) ,

x, y, m, 5, u, v e R, где ф(x) = (1Л/2л) exp(-x2/2), Ф(x) = J ф(t)dt -соответственно, плотность и функция распределения вероятностей стандартного нормального закона N(0, 1).

Следствие. Если в рамках модели (1), (2) наблюдаются значения x 1 , …, x T– 1 и случайное событие A * = { xT e ( a * , bT ) } ( q = 1), то ОПС (4) имеет вид

Хт + 1 = 0 1 Ц ( * , p ) + Е p 20 iX* - i + 1 + 0 П^ X i = 2

х ( а * , Ь * , ц ( * , p ), о , 1,1 ) .

Доказательство. Воспользовавшись известным соотношением для модели АР( p ) [1]

p(x* |x*-1, ", X1) = ф((x* -ц(*, p))/о)/о и теоремой 2 для q = 1, получим требуемое соотношение.

Если среди последних q значений временного ряда имеются не только цензурированные наблюдения, но и к (1 <  k q ) известных наблюдений x^ ,.", x l t ( * - q + 1 ≤ l 1 < … <  l k T ), то ОПС может быть получена из (7) предельным переходом Ьц ^ а^ ,.", blt ^ alt .

Рассмотрим частный случай модели (1) – авторегрессию первого порядка ( p = 1):

xt = 0 xt - 1 + ut , t e Z,                    (8)

и q = 1, причем предполагается, что параметры модели 0 и о известны. Для этого случая исследуем зависимость условного риска прогнозирования от длины интервала цензурирования и проведем сравнение ОПС f 0 ( ) с прогнозирующими статистиками, часто используемыми на практике [3]. В этом случае последнее значение x T временного ряда цензурировано интервалом ( а * , Ь * ), а предпоследнее значение x * - 1 известно точно. Поскольку в данном случае результат зависит только от одного интервала цензурирования A * = ( а * , Ь * ), то для упрощения обозначений вместо aT и bT будем писать a и b . Используя теорему 2, можно доказать следующую теорему.

Теорема 3. Пусть для модели (8) наблюдаются значение x * —1 и случайное событие A * = { x * e [ а , Ь ) } , тогда ОПС и ее условный риск имеют вид:

X * + 1 = f , ( A * , x * - 1 ) = 0 2 x * - 1 + 0оФ ( а , Ь , 0 x * - 1 , о , 1,1 ) , (9) r * ( f J = (1 + 0 2) о 2 - ( ^ ( а , Ь , 0 x* - 1 , о , 1,1 ) ) 2 + (10) + 0 2 оФ ( а , Ь , 0 x * - 1 , о , а - 0 x * - 1 , Ь - 0 x * - 1 ) .

Следствие. В условиях теоремы 3 для условного риска прогнозирования справедливо асимптотическое разложение при τ = b – a → 0:

r * ( f i) = о 2 + 0 2 t 2 /12 -0 2 т 4 x

x ( 3 а 2 - 6 а 0 x * - 1 + 3 0 2 x * - 1 + 2 о 2 ) /720 о 4 + о ( т 4).

Доказательство. Учитывая дифференцируемость функции У ( - ) в (10) по т , воспользуемся формулой Тейлора с остаточным членом в форме Пеано и получим требуемое соотношение для условного риска.

Из доказанного следствия получаем, что безусловный риск ОПС имеет следующее асимптотическое разложение при τ = b – a → 0:

E { r T ( f 0 ) } = - 2 + 9 2 т 2 /12 -9 2 т 4 х х ( 3 a 2 + 3 9V / ( 1 - 9 2 ) + 2 - 2 ) / 720 - 4 + о ( т 4).

Одной из возможных альтернативных прогнозирующих статистик является следующая [3]:

x т + 1 = f ( A T ) = 9 E { Xt I A * } = = 9 E { xT | xT e [ a , b ) } .

Теорема 4. Если для модели (8) наблюдается случайное событие AT ={ xT e[a, b)}, то прогнозирующая статистика (12) имеет вид x T+1 = f1 ( aT) = (e- / Vi-92 )x xv(a, b, 0, 9g/71 -92,1,1), и ее условный риск прогнозирования равен:

Г т ( f ) = 777

1—9

9 2 - 2

1 — 9 2 X

r Г - W

X У a , b ,0, .-----,1,1 | +

I I       71 — 92    JJ

+ G ° У a , b , 0, , -   , a , b .

7T—02   I       71-9 2     J

Доказательство. Прогнозирующая статистика (12) выглядит следующим образом:

xT + 1 =9 E { xT | xT e [ a , b ) } = 9 ( J xn ( x |0, - 2 /1 — 9 2 ) dx ) x

x ( j n ( x |0, - 2/1 — 9 2 ) dx ) .

Воспользовавшись [5] для вычисления интегралов, получим статистику (13). Аналогично вычисляется условный риск прогнозирования (14).

Следствие. В условиях теоремы 4 для условного риска прогнозирования справедливо асимптотическое разложение при τ = b – a → 0:

rT (f1) = -2 +92т2 /12 — 92 (1 — 92 )2 x x т4 (3a2 + 2-2 / (1 — 92)) / 720-4 + о(т4).

Доказательство. Проводится аналогично доказательству следствия теоремы 3.

Сравнивая E { rT ( f 0 ) } и rT ( f 1 ) при т ^ 0, замечаем, что усредненный риск ОПС (11) меньше риска прогнозирующей статистики (12).

Рассмотрим еще одну часто используемую прогнозирующую статистику:

xT + 1 = f 2 ( A T ) = 9 ( a + b ) /2.           (15)

Теорема 5. Если для модели (8) наблюдается случайное событие A T = { xT e [ a , b ) } , то условный риск прогнозирования для статистики (15) равен :

rT (f2) = -2 /1 — 92 +92( a + b )2 /4 — (92-/71 — 92 )x x У (a, b, 0, - /71 — 92, b, a).

Доказательство. Проводится аналогично доказательству теоремы 4.

Следствие. Пусть выполнены условия теоремы 5 и τ = b – a → 0. Тогда для условного риска справедливо следующее асимптотическое разложение:

rT (f 2) = -2 + 92т2 /12 + 92 (1 — 92 )2 x x т4 (a2 — -2 /(1 — 92)) / 360-4 + о(т4).

Доказательство. Проводится аналогично доказательству следствия теоремы 3.

Легко увидеть, что при т близких к нулю, риск прогнозирования статистики (15) больше, чем риск прогнозирования для статистик (9) и (12).

Численные результаты. Для сравнения прогнозирующих статистик (9), (12) и (15) проведены компьютерные эксперименты. Применялся метод Монте-Карло с числом прогонов N = 10 000. Для моделирования временного ряда использованы значения параметров: p = 1, 9 = 0,8, - = 1, q = 1, T = 100, т e {0, 0,5, _, 15}, по наблюдению xT строился интервал цензурирования ( a , b ) длины τ, где a = x T ατ и b = xT + α(1 τ), α – случайная величина, равномерно распределенная на [0, 1].

На рисунке а изображены графики зависимостей экспериментальных значений риска для всех трех прогнозирующих статистик от т . ОПС (9) имеет наименьший риск, риск статистики (12) принимает большие значения, а риск статистики (15) возрастает очень быстро и уже при малых т принимает достаточно большие значения.

На рисунках б г изображены усредненные теоретические значения риска прогнозирования для статистик (9), (12) и (15) в зависимости от т , вычисленные по формулам (10), (14) и (16), соответственно, и 95 %-ные доверительные границы риска.

Таким образом, в настоящей работе найдена ОПС для авторегрессионных временных рядов при наличии цензурирования и ее риск; в случае авторегрессии первого порядка проведено сравнение ОПС с прогнозирующими статистиками, часто используемыми на практике; проведены компьютерные эксперименты, которые показали, что экспериментальные и теоретические значения риска находятся в хорошем согласии.

Статья научная