Об одном парадоксе закона больших чисел для максимальных серий в последовательной выборке
Автор: Плотников А.Н.
Журнал: Известия Самарского научного центра Российской академии наук @izvestiya-ssc
Рубрика: Механика и машиностроение
Статья в выпуске: 5-1 т.11, 2009 года.
Бесплатный доступ
Дополнены и уточнены ранее опубликованные результаты исследования закономерностей формирования серий в последовательной выборке. Получены предельные формы законов распределения длины максимальных серий, образуемых положением относительно медианы и отношением порядка между соседними индивидуальными значениями. Установлено, что предельная форма распределения длины максимальной серии отношений порядка ведет себя парадоксальным образом, циклически эволюционируя от вырожденного распределения с изолированной модой до бинарного с модой, симметрично расщепленной на два подряд стоящих значения.
Последовательная выборка, длина максимальной серии, закон больших чисел, структура серий, критерии случайности
Короткий адрес: https://sciup.org/148198681
IDR: 148198681
Текст научной статьи Об одном парадоксе закона больших чисел для максимальных серий в последовательной выборке
1 . Серии в последовательной выборке, представляющие собой группы подряд стоящих индивидуальных значений, расположенных по одну сторону от медианы (знаковые серии) или образующих монотонную последовательность (трендовые серии), как было показано в [1, 2], имеют отчетливую спектральную структуру с устойчивой воспроизводимостью. В [1] был получен точный закон распределения длины максимальной серии обоих типов. В [2] установлен закон распределения числа серий фиксированной длины и получены его нормальные (для коротких серий l < 7 ) и Пуассоновские (для l > 7 ) асимптотики при большой длине последовательности. Пос-
ледние из указанных результатов легко позволяют установить предельную форму закона распределения максимальной длины серий. При этом, как оказывается, предельная форма распределения максимальной трендовой серии обладает довольно неожиданным свойством, которое без преувеличения можно назвать “парадоксом вырождения”. Этот парадокс заключается в том, что при
Затем вторая мода поглощает первую (распределение опять вырождается), и это процесс закономерно циклически повторяется. При умеренно больших n ( ~ 10 3 ) этот эффект проявляет себя, как показано в [1], в виде апериодических колебаний дисперсии и моментов более высокого порядка.
Серии первого типа (знаковые) ведут себя не столь парадоксально. Их предельная форма рассеяния подобно выборочному размаху [3] является стационарной и смещается вправо по оси n со скоростью log 2 n .
2 . Асимптотику распределения длины максимальной серии Ln найдем, используя полученные в [2] Пуассоновские оценки для числа ~ нере-куррентных серий фиксированной длины Rl ( n ) . Для знаковой серии длины l , расположенной выше медианы в последовательности длиной n эта оценка, согласно [2], составляет:
неограниченном возрастании длины последовательности n длина максимальной трендовой серии перестает быть случайной, т.е вырождается в
фиксированное значение: P { Ln 1 = l 1 ( n 1 ) } « 1 .
Причем, с дальнейшим возрастанием n эта
изолированная мода расщепляется на две, и вторая мода l 2 = l 1 + 1 , постепенно возрастая, сравнивается с первой:
P R+ (n) = k }= exp^ k j.
Используя двойственность величин R l + ( n ) и L + , ряд распределения последней можно записать в виде:
p+= P {L■=l }=
= P { R * ( n ) > o } p { R „ + ( n ) = 0, V m > l } . (1)
Подставив в (1) Пуассоновские вероятности, получим:
PL = L ( n ) } « P { l = L ( n ) + 1 } « 1 n 2 1 2 n 2 1 2 2
pL
1 - exp


to
z m = l + 1
n m + 2

1 - exp




, 1 < l < n .
Асимптотический ряд (2) очевидно сходит-
ся к 1 как У p l = exp( - -^- - exp( - n ) .
I =1 2 4
Для величины Ln = max { L 1 , Ln } , собствен но и являющейся максимальной длиной знако
-
-
вой серии, определённой согласно [1], ряд распределения найдём по формуле максимума двух
независимых величин с одинаковым законом
распределения:
P i = 2 P i y P 1 1 P l 2 . (3)
k < l
Подставляя в (3) члены ряда (2) и пренебрегая слагаемыми ~ e - an , получим
P i » exP( - 2 n T ) - exP( - у ) . (4)
Для рядов (2), (4) очевидно тождество Pi + 1 = P l или, что фактически то же самое, P l ( n ) = P i (2 n ) .
Таким образом, ряд (4) сдвинут на 1 вправо по оси l относительно ряда (2).
Переходя в (4) к величине t = i - log2 n (5)
получаем независящую от n предельную форму (4):
f ( t ) = exP( - ^У) - exP( - 2? ) ’ - ” < t < да , (6)
вид которой с последующим квантованием показан на рис.1. Числовые характеристики (6) равны:
да i да Л 1
p = J tf ( t ) dt =^ J ^ e 2
e
- x
ln( x ) — = x
C 1 1 ^™^™ 1
ln(2) 2
« 0.3327
, (7)
да1
^ 2 = J t 2 f ( t ) dt -p 2 1 — =
да
C 2 C 1 1
ln 2 (2) ln(2) 3
^^^^^^^.
, (8) p 21 — « 3.5904
C k
где Ck , k = 1,2 - Эйлеровы интегралы [3,4]:
да 1
= ( - 1) k J e x ln k ( x ) dx ; ~ в (8) — поправка о
на группировку (6). Таким образом, среднее значение длины максимальной знаковой серии составит
P n « 3 + log 2 n ,
дисперсия определяется согласно (8), а предельная форма рассеяния имеет вид (6).
3 . По аналогичной схеме, используя Пуассоновские оценки для трендовых серий [2]:
( ~
Ri ( n ) = k } = exp( - k ( n - 1)
получаем:
1 2 1 1 - L ( 1 1 2)! )
p { Ln = I } = p l = [1 - exp( - ( n - 1) 1 +1 1 )] x
1 n 1 (i 1 2)!
m 2 + m - 1
x exp[-(n -1) у ] = m=i 11 (m 12)!
1 1 1 I (10)
= exp( - ( n - 1) ) - exp( - ( n - 1) ),
( i 1 2)! ( i 1 1)!
2 < i < n .
Сумма ряда (10) составит:
n
У i=2
n 2 - 1 n - 1
p
i
=
exp(
-7
П
Г
2)!’"exp(
-
3 )
■

Рис. 1. Предельное распределение длины максимальной “знаковой” серии и его сглаживающая кривая
По аналогии с (3), (4), для L n = max { L + , L n } получаем
P { L n = l } = P l = exp( - 2( n — 1) l + 1-) — ( t + 2).
— exp( - 2( n — 1) ( j -+i).), 2 < l < n .
В дальнейшем, поскольку речь идет о больших n , различием между n и n - 1 в (10)-(12) пренебрежем и положим l > 10, 2 n = a l ! , где a - константа ~1.
Для соседних членов ряда (12) с номерами l — 1 и l будет иметь:
ние становится “почти вырожденным”).
Последовательность значений n 1 ( l ) , соответствующих полному вырождению (изолированной моде) будем искать в виде:
2 n 1 ( l ) = l в ( l ) , (16) где в ( l ) определим из условия pl — 1 ^ max . Для члена ряда (12) с номером l — 1 будем иметь:
P l — 1 = exP — e j + 1) — exP(" e ( l — 1)) * e "Р — e" в .(17)
Подстановкой e—в = и приходим к функции вида и —ul, (18)
максимум которой достигается в точке
P i — 1 = exP( — a J + 1) — exP( — a ( l — 1)) * e
,- a
P l = exP( —
1 l
) — exp(—a ) * 1 — e l + 2 l +1
,—a
и =
1 Л 1 11 l J
откуда, после обратной подстановки, находим
Приравняв pl—1 = pl = -^ , получим a = ln2 .
Таким образом, последовательность
n 2 ( l ) =
l ! • ln2
соответствует наличию симметрично расщепленной двойной изолированной моды:
P{l = l — 1}* P{l = l}* 1
n 2 n 2 2
(остальные члены ряда (12) в сумме составляют ничтожно малую вероятность, и распределе- в )* JnL * ^ l—1 l ■
Таким образом, значения
(l — 1)!ln l n1(l) [ 2 ]
соответствуют фазе существования изолированной моды (полного вырождения закона распределения): P { Ln 1 = l — 1 } * 1 .
Область значений n 1 ( l ) < n < n 2 ( l ) соответствует периоду “зарождения” и роста второй моды { L n = l } . Затем, на интервале n 2( l ) < n < n 1 ( l + 1) новая мода “поглощает” старую, и процесс циклически повторяется. Эво-

Рис. 2. Эволюция распределения длины максимальной трендовой серии.
Фазы изолированной и симметрично расщепленной моды при n =4.178 х 10 5 ; 1.258 х 10 6 ; 6.143 х 108; 2.158 х 10 9 ; 4.108 х 1022 ; 2.150 х 1023 (слева направо)
люция ряда (12) в зависимости от n показана на рис. 2. При этом фазы полного вырождения рядов (10), (12) совпадают между собой, и (3) пре
, 2
образуется к виду p l = p l = 1 .
В фазе расщепления моды (12) соотношение
-
(3) примет вид:
P i - 1 = Pm
. P i = 2 P l Pm + P l
При этом в точке симметрии
P l - i ( n 2) = P l ( n 2) = 2 мода L + расщепляется в
„ + 1
пропорции P l - 1 = —j=

. С воз-
растанием длины последовательности до n + = 2 n 2 мода L | становится симметричной, а значения Ln перенормируются как
1 3
P i - 1 = 4, P i = 4 .
Таким образом, длина максимальной трендовой серии в большой последовательной выборке становится величиной, закономерно возрастающей с увеличением объема выборки (неслучайной). Тем самым, она не только является надежным критерием случайности выборки, но и, как представляется, сможет послужить ключом к объяснению некоторых, еще не до конца понятых закономерностей в реальных стохастических процессах, в частности, в процессах диффузии и им подобных.
Список литературы Об одном парадоксе закона больших чисел для максимальных серий в последовательной выборке
- Плотников А.Н. Закон распределения длины максимальной серии и его статистические приложения//Известия Самарского научного центра РАН. 2006. Т. 8. №4. С. 1047-1056.
- Плотников А.Н. Об инвариантах структуры серий и критериях случайности последовательной выборки//Известия Самарского научного центра РАН. 2006. Т.8. №4. С.1142-1147.
- Крамер Г. Математические методы статистики. М.: Мир, 1976.
- Корн Г., Корн Т. Справочник по математике.М.: Наука, 1984.