Об инвариантах структуры серий и критериях случайности последовательной выборки
Автор: Плотников А.Н.
Журнал: Известия Самарского научного центра Российской академии наук @izvestiya-ssc
Рубрика: Механика и машиностроение
Статья в выпуске: 4 т.8, 2006 года.
Бесплатный доступ
В статье рассмотрены закономерности формирования серий, образуемых в последовательной выборке непрерывной случайной величины положениями индивидуальных значений относитель- но центральной линии (медианы) и отношениями порядка между соседними значениями. Показа- на возможность обобщения результатов теории рекуррентных событий Мизеса-Феллера для се- рий, образуемых отношениями порядка. Получен общий вид производящей функции времени возвращения и асимптотические оценки числовых характеристик числа серий фиксированной длины для серий указанного типа. На основании установленных законов распределения выявле- ны инварианты структуры серий, сформулированы критерии случайности выборки и проведена их экспериментальная проверка путем статистического моделирования методом Монте-Карло.
Короткий адрес: https://sciup.org/148197880
IDR: 148197880
Текст научной статьи Об инвариантах структуры серий и критериях случайности последовательной выборки
Самарский государственный аэрокосмический университет
В статье рассмотрены закономерности формирования серий, образуемых в последовательной выборке непрерывной случайной величины положениями индивидуальных значений относительно центральной линии (медианы) и отношениями порядка между соседними значениями. Показана возможность обобщения результатов теории рекуррентных событий Мизеса-Феллера для серий, образуемых отношениями порядка. Получен общий вид производящей функции времени возвращения и асимптотические оценки числовых характеристик числа серий фиксированной длины для серий указанного типа. На основании установленных законов распределения выявлены инварианты структуры серий, сформулированы критерии случайности выборки и проведена их экспериментальная проверка путем статистического моделирования методом Монте-Карло.
Одним из основных исходных понятий в приложениях теории вероятностей является понятие случайная выборка (из генеральной совокупности). При этом категория случайности, строго определяемая, как равновероятность попадания в выборку каждого из значений генеральной совокупности при постоянстве последней, зачастую интерпретируется, как отсутствие какой бы то ни было закономерности в последовательности выборочных значений, то есть как хаотичная последовательность. Однако это не совсем так и при ближайшем рассмотрении случайность, а именно, равновероятность, обнаруживает признаки закономерности вполне детерминированного характера.
Одним из проявлений закономерностей в случайной последовательности является образование в ней по мере возрастания длины характерных структур (структурных инвариантов), которые представляются интересными с точки зрения возможных приложений и могут служить критериями случайности.
Известными элементами таких структур являются инверсии, циклы и серии [1,2].
В [3] был рассмотрен закон распределения длины максимальной серии. Далее речь пойдет о некоторых результатах, касающихся более детальной структуры серий. Прежде видимо следует в двух словах повторить преобразования, позволяющие установить связь между последовательной выборкой и классической теорией серий.
Рассмотрим последовательную выборку непрерывной случайной величины (С.В.). Для каждого выборочного значения очевидно существуют два и только два равновозможных и взаимоисключающих положения относительно медианы ((>>//<<)). Причем, положения всех значений (точек) независимы в совокупности, следовательно, закон их чередования идентичен закону чередования исходов опытов с симметричной монетой.
Для каждой пары соседних точек существуют также два равновозможных отношения порядка (два знака последовательной разности). Однако последовательные разности (П.Р.) уже не являются независимыми. Любые две соседние П.Р. коррелированы с коэффицентом rr=- 2 [[4]]. Применительно к опытам с монетой можно представить дело таким образом, что монета “запоминает” пре-
дидущий исход и с вероятностью 3 воспро- изводит его в следующем опыте. Соответ- ственно с вероятностью 3 реализуется аль- тернативный результат [3,4].
Серией в двоичной последовательности, однозначно определяемой исходной выборкой, является группа последовательных то- чек одного знака. Причем, следуя В. Феллеру [[11]], определим серию, как рекуррентное событие. Например, отрезок последовательности …0111110… одновременно содержит 5 серий “1” (успехов) длиной 1, 2 серии длиной 2 и по 1-ой серии длиной 3,4 и 5. Такое определение серий позволяет использовать аналитический аппарат теории рекуррентных событий, являющейся , в свою очередь, частным случаем теории восстановления [1].
Серии положений точек относительно медианы являются сериями успехов в последовательности испытаний Бернулли с веро- зоваться аппаратом производящих функций.
Пусть un ( l ) – вероятность того, что на шаге с номером n образуется очередная серия длиной l . Тогда для un ( l ) справедливо рекуррентное соотношение [1] :
( 1 ) „м( 1 ) d2u( 1 ) l - 1 -М 1 )
u n + pu n - 1 + p u n-2 + ... + p u n - l + 1 - p ,
( l ) ( l ) ( l ) ( l ) (1)
u о j. , u 1 u 2 ... U | 1 v)
Умножая первое соотношение (1) на s k и суммируя по всем к > l , получаем производящую функцию последовательности un ( l ) :
ятностью успеха p - — ,
для которых в лите-
U ( s ) -
1 - s + (1 - p ) p's1 + 1 (1 - s )(1 - pV )
ратуре имеется исчерпывающие или почти исчерпывающие результаты (относительно рассматриваемой задачи). Их краткое изложение ниже приведено исключительно с целью сокращения последующих выкладок, касающихся серий отношений порядка, путем рассуждения по аналогии там, где это представится возможным.
Рассмотрим последовательность исходов испытаний Бернулли и введем в рассмотрение целочисленные С.В. Tl – длину последовательности, при которой образуется первая серия успехов длиной l – время возвращения серии длины l и Rn ( l ) – число серий длины l в последовательности длиной n > l . Как показано в [1] , серия успехов длины l является достоверным рекуррентным событием с конечным средним временем возвращения µT =М[[ Tl ]] и конечной дисперсией σT 2 =D[[ Tl ]]. Для числа серий при больших n , как гласит теорема Мизеса-Феллера[1], справедлива асимптотическая нормальная оценка:
Переходя к производящей функции хвостов времени возвращения, используя соотно-
шение
Q l ( s ) -
(1 - s U , ( s )
[11], получаем :
R n ( l ) ~ N ( n , σ Tl µ Tl
n )
µ T 3 l .
Таким образом, задача установления закона распределения числа серий Rn ( l ) сводится к отысканию числовых характеристик времени возвращения Tl . Для вычисления числовых характеристик удобнее всего восполь-
~ A 1 - psl
Ql ( s )- -------- 7.-----x . . (3)
1 - s + (1 - p ) p s 1 v ’
Числовые характеристики времени возвращения находим используя свойство фун- кции Q (s) и полагая p - 2:
Pt - Q l (1) - 2 l + 1 - 2,
^ T - 2 Q l (1) + Q l (1) - Q l 2 (1) - 22( l + 1) - (2 1 + 1)2 l + 1 - 2 .
Далее, на основании теоремы Мизеса – Феллера получаем числовые характеристики числа серий успехов длины l :
n 2 nσT l
P R"l ) ~"u" , ^R n l ) * ""^. (5)
µ T l µ T l
Для больших l очевидна асимптотическая оценка:
2 n
P R ( l ) * ^ R n, l ) * 2 1 + 1 . (6)
Таким образом число длинных серий успехов имеет Пуассоновское распределение
(l) n с параметром ^n - 27+r.

Рис. 1. Распределение числа серий успехов в выборке объема n=1000 в зависимости от длины серии ( l = 1 ^ 3 )
Общая формула для элемента такой
матрицы имеет вид: a ln
n l
. Определи-
тель А равен 1, следовательно существует А -1 . При этом среднее значение числа естественных серий можно вычислить и без решения системы уравнений. Они состав-
ляют
n
Ц ~ ( ) = 2 7 + 2
Дисперсии
пред-
ставляют собой взвешенные суммы:
На рис. 1 представлены результаты статистического моделирования. Гистограммы числа серий для значений l = 1 ^ 3 (в порядке убывания средних) построены по 200 реализациям нормальной выборки объема n = 1000. Сглаживающие кривые представляют собой функции Гаусса с числовыми характеристиками, вычисленными в соответствии с (5).
Средние и дисперсии числа серий первого типа приведены в табл. 1.
Зная закон распределения числа рекуррентных (Феллеровых) серий, можно установить закон распределения “естественных” серий фиксированной длины R ~ n ( l ) , то есть когда короткие серии поглощаются покрывающей их более длинной серией. Так, в ранее рассмотренном примере будет содержаться только одна серия успехов длиной l = 5.
Числа рекуррентных серий связаны с числами естественных серий системой линейных уравнений c матрицей следующего вида:
Г 1 |
2 |
3 |
4. |
|
0 |
1 |
1 |
2. |
|
A = |
0 |
0 |
1 |
1. |
0 .... |
0 |
0 |
1. |
2 _ V - 1 2 2
°Rnl) = ^ (ak ) ^rk) , где k=l ak 1 - элементы
матрицы А -1 . Отсюда следует, что числа рекуррентных серий обладают минимальными дисперсиями, стало быть, критерии, построенные на законах их распределения обладают большей эффективностью. То же самое справедливо и для суммарного числа серий успехов и неудач фиксированной длины.
Производящую функцию времени возвращения трендовой серии найдем по аналогии. Пусть, как и раньше, un(l) – вероятность образования на шаге с номером n очередной восходящей серии длиной l. В пространстве П.Р. соответственно образуется рекуррентная серия успехов (“1”) с параметрами: n* = n -1, l' = I -1. Как было показано в [33], вероятности серий в пространстве П.Р. инвариантны по отношению к закону распределения совокупности и определяются с помо- щью собственных функций:
u nl ) = J ф \ l ) ( x ) dx .
Для последних справедливы рекуррентные соотношения, аналогичные (1). Отличие заключается в том, что порядок рекуррентного соотношения на единицу меньше, а ум-
Таблица 1. Среднее значение и дисперсия числа серий в зависимости от длины серии
рекуррентные соотношения имеют вид:
тП2) (x) = x, x1
т П3 ( x ) + J т П - ( x ) dx = 7 x 2 , 0 2
(4) x (4) x x (4) 1
T n ( x ) + j T n - 1 ( x ) dx + jj ^ n - 2 ( x ) dx д x ,
0 00
x xxxxx тП5’(x)+j тП-(x) dx+j j тП-)2(x) dx+j j j тП-з(x) dx =—x4.
0 0 0 0 0 0
В общем виде, при произвольном l , рекуррентное соотношение выглядит следующим образом:
тП1)(x)+ jтП-1(x)dx+...+ jjтП-i+2(x)dx = 7x77, , 0 0 0 (11)!
т 11 )( x ) s 1 , т 2 1 )( x ) = ... = тУ )( x ) = 0 .
По аналогии с сериями успехов в последовательных испытаниях Бернулли, производящую функцию
U l ( 5 ) = 1 + u ( 1 ) sl 1 + U ^1 s 1 + ...
можно получить непосредственно из рекуррентного соотношения (7):
ТГ/\ , 1 J ( sx ) '
U, (s) = 1 + j (1 -
11 -1 /
-V + s

+ .3 dx ,
+ s
1 + 1
x 1 - 1 x

Приводя подобные по степеням x и суммируя образующиеся геометрические прогрессии с показателем s , получим:
U 1 ( s ) = 1 + -L
1 - s

—
( sx ) 1 + l !
/ \ 2 1 -2 / \2 1 -1
( sx ) ( sx )
( 2 1 - 2 )! ( 2 1 - 1 )!
+ ... ^ dx
Выражение под интегралом в (9) представляет собой ряд Макларена функции
ψl ( sx ) , которая является решением рекурсивного уравнения, соответствующего (7):
x
Yt (x) + j^1 (x) dx +... + xx

или d1 2^ 1 d1 3^1 dx1-2 dx1-3
dψ
...
dx
+ ^ = x .
В компактной записи соотношение (9) примет вид:
1 1 1 s
U ( s ) = 1 +-- y 1 ( sx ) dx = 1 + —7---- x v 1 ( x ) dx
1 - s 0 s ( 1 - s ) 0 .
Переходя к производящей функции хвостов времени возвращения, получаем:
Qi ( s ) =------ 1------
’ (1 - s ) U 1 ( s )
s
S s (1 - s) + j^ (x) dx
Рассмотрим уравнение (10) для случая > 2. Данное уравнение представляет собой неоднородное линейное с постоянными коэффициентами (все равны 1). Его частный интеграл имеет вид:
l//( x ) = x - 1 .
Общий интеграл однородного уравнения будем искать с помощью преобразования Лапласа. Исходя из вида уравнения (10) получаем характеристическое уравнение:
1 + q + q 2 + ... + q 1 - 2 = 0 (13)
Корни уравнения (13) в Эйлеровом тригонометрическом виде образуют группу по умножению:
qk = e * , k = 0,1,...,1 -2, за вычетом точки q0 = 1.
Таким образом общий интеграл (10) получаем в виде:
I - 2
1 / 1 ( x ) = x - 1 + £ b k exqk . (14)
k = 1
Неопределенные коэффициенты bk , k = 1,...,1 - 2 находим из однородных на чальных условий в точке x = 0 :
dk - / 1 , . k - 1 0
Таблица 2. Средние и дисперсии числа трендовых серий
l |
2 |
3 |
4 |
5 |
> 6 |
µ n - 1 |
0,5 |
0,132 |
0,034 |
6,9 ■ 10 - 3 |
l ( l + 1)! |
σ 2 n - 1 |
0,074 |
0,060 |
0,026 |
6,5 ■ 10 - 3 |
l ( l + 1)! |
Для l = 2 ^ 5 получим:
1— i1
x , (л + i e " ~ x +(Л - i e " ~ x.
i /2 = x , ^ = e + x - 1, ^ 4 = А-------------f------------+ x — 1,
^ =1 e -x + — eix + — e " x + x — 1. 52 44
При больших l можно получить асим-тотическую оценку ψl ( x ), вполне удовлетворительную для поставленных целей, и, соответственно, оценки искомых числовых характеристик числа серий.
Рассмотрим более детально ряд Маклорена функции ψl ( x ) .
Исходя из вида уравнения (10) следует, что последовательность производных ψl ( x ) в нуле имеет период l - 1, а именно, отличны от нуля только члены, кратные l - 1 и на “1” старше. Причем, все члены первой подпоследовательности равны “1”, второй – “-1”.
Поскольку члены ряда имеют факториальную скорость убывания, то на интервале x е [ 0;1 ] главным значением ряда будет сумма двух первых членов, а остаток можно оценить порядком третьего (первого отброшенного) члена:
, А - x 1 - * x l x 2 ( l - 1) .
V l ( x ) ( l - 1 )! l ! +°( ( 2 l - 2 )! ) .
Откуда получаем асимтотические оценки:
l - 1 f. l
^ l (1)* "T ’ f l ( x ) dx *(m)!• (15)
Далее, на основании (8) и (4) находим среднее и дисперсию времени возвращения трендовой серии:
- 1
^ T, = 3 ^ T +[ 1 — 2 ^1 (1) K
^ t

При использовании теоремы Мизеса-Феллера следует учесть, что длина цепи последовательных разностей на 1 короче длины исходной выборки. По этому формулы для числовых характеристик числа серий будут несколько отличаться от (5):
n - 1 2 ( n - 1) ct t
^R ( l ) * , gr ( l ) *T
Rn Mt, Rn ( 1 + M t, ) . ( 7)
Подставляя в (17) (16) и (15), получаем оценки числовых характеристик числа серий при больших l :
µ(l) σ2(l) l nn n-1 ~ n-1 ~ (l +1)!
Для практических целей полученными Пуассоновскими оценками (18) с достаточной точностью можно пользоваться уже начиная с l =6. Точные значения числовых характеристик для коротких серий приведены в табл. 2.
Результаты статистического моделирования представлены на рис. 2. Как и в предыдущем случае, гистограммы числа возрастающих трендовых серий построены по 200 реализациям. Сглаживающие кривые – функции Гаусса с числовыми характеристиками (17).
Как видно из представленных на рис.1, 2 графиков, отличие в структурах серий разных типов лишь количественное, заключающееся в различии рядов средних и дисперсий. Практически полное совпадение наблюдается лишь при l = 4 (табл.1, 2.) При этом число, а точнее поток серий имеет отчетливую спектральную структуру. Количество различимых спектральных полос и их контраст- ность возрастают пропорционально n . Такое свойство структуры серий позволяет установить надежный критерий случайности –

Рис. 2. Распределение числа восходящих трендовых серий в выборке объема n=1000 в зависимости от длины серии 1 = 2 ^ 4
отсуствие инверсий среди контрастных спектральных полос. Или, другими словами, наличие хотя бы одной инверсии в спектре числа серий можно обоснованно интерпретировать, как искусственное упорядочение последовательной выборки.
В заключение следует указать на еще один интересный эффект в структуре серий случайной последовательности – наивероятнейшее появление серии в первом из возможных исходов. Это явление, природа которого, по видимому, имеет нечто общее с “Петербургским парадоксом” [1], обусловлено тем, что ряд распределения времени возвращения f (1 ) = P { T l = n } монотонно убывает, и первый отличный от нуля член ( n = 1 ) является существенно доминирующим [1, 3].
Другим, более значимым проявлением указанной закономерности является “притя- жение” длинных серий (преимущественно разного знака). Дело в том, что в рекуррентной трактовке любая конечная последовательность рассматривается как отрезок бесконечной в обе стороны последовательности, и после точки, завершающей очередную серию, отсчет начинается заново. В связи с этим максимальным правдоподобием среди возможных расположений двух или более серий в отрезке последовательности обладает конгломерат, то есть имеет место “эффект притяжения” серий. И напротив, большое расстояние между сериями является маловероятным, а, если наблюдается, то может свидетельствовать о неслучайном характере последовательности.
Список литературы Об инвариантах структуры серий и критериях случайности последовательной выборки
- Феллер В. Введение в теорию вероятностей и ее приложения. Т. 1 (Дискретные распределения). М.: МИР, 1984.
- Дунин-Барковский И.В., Смирнов Н.В. Теория вероятностей и математическая статистика в технике (общая часть). М.: ГИТТЛ, 1955.
- Плотников А.Н. Закон распределения длины максимальной серии и его статистические приложения/Известия СамНЦ РАН. 2006. Т 8. №4.
- Юнак Г.Л., Годлевский В.Е., Плотников А.Н. Об интерпретации серий на контрольных картах//Методы менеджмента качества. 2005. №4.