Об инвариантах структуры серий и критериях случайности последовательной выборки
Автор: Плотников А.Н.
Журнал: Известия Самарского научного центра Российской академии наук @izvestiya-ssc
Рубрика: Механика и машиностроение
Статья в выпуске: 4 т.8, 2006 года.
Бесплатный доступ
В статье рассмотрены закономерности формирования серий, образуемых в последовательной выборке непрерывной случайной величины положениями индивидуальных значений относитель- но центральной линии (медианы) и отношениями порядка между соседними значениями. Показа- на возможность обобщения результатов теории рекуррентных событий Мизеса-Феллера для се- рий, образуемых отношениями порядка. Получен общий вид производящей функции времени возвращения и асимптотические оценки числовых характеристик числа серий фиксированной длины для серий указанного типа. На основании установленных законов распределения выявле- ны инварианты структуры серий, сформулированы критерии случайности выборки и проведена их экспериментальная проверка путем статистического моделирования методом Монте-Карло.
Короткий адрес: https://sciup.org/148197880
IDR: 148197880 | УДК: 519.254
About invariants structures of series and criteria of accident of consecutive sample
In article are considered laws of formation of series, in consecutive sample of a continuous random variable by positions of individual values concerning the central line and attitudes of the order between the next values. The opportunity of generalization of results of the theory of Mizes-Feller's recurrent events for series, is shown by attitudes of the order. The general view of making function of time of returning and asymptotic estimations of numerical characteristics of number of series of the fixed length for series of the specified type is received. On the basis of the established laws of distribution are revealed инварианты structures of series, criteria of accident of sample are formulated and their experimental check by statistical modelling by a method of Monte-Carlo is lead.
Текст научной статьи Об инвариантах структуры серий и критериях случайности последовательной выборки
Самарский государственный аэрокосмический университет
В статье рассмотрены закономерности формирования серий, образуемых в последовательной выборке непрерывной случайной величины положениями индивидуальных значений относительно центральной линии (медианы) и отношениями порядка между соседними значениями. Показана возможность обобщения результатов теории рекуррентных событий Мизеса-Феллера для серий, образуемых отношениями порядка. Получен общий вид производящей функции времени возвращения и асимптотические оценки числовых характеристик числа серий фиксированной длины для серий указанного типа. На основании установленных законов распределения выявлены инварианты структуры серий, сформулированы критерии случайности выборки и проведена их экспериментальная проверка путем статистического моделирования методом Монте-Карло.
Одним из основных исходных понятий в приложениях теории вероятностей является понятие случайная выборка (из генеральной совокупности). При этом категория случайности, строго определяемая, как равновероятность попадания в выборку каждого из значений генеральной совокупности при постоянстве последней, зачастую интерпретируется, как отсутствие какой бы то ни было закономерности в последовательности выборочных значений, то есть как хаотичная последовательность. Однако это не совсем так и при ближайшем рассмотрении случайность, а именно, равновероятность, обнаруживает признаки закономерности вполне детерминированного характера.
Одним из проявлений закономерностей в случайной последовательности является образование в ней по мере возрастания длины характерных структур (структурных инвариантов), которые представляются интересными с точки зрения возможных приложений и могут служить критериями случайности.
Известными элементами таких структур являются инверсии, циклы и серии [1,2].
В [3] был рассмотрен закон распределения длины максимальной серии. Далее речь пойдет о некоторых результатах, касающихся более детальной структуры серий. Прежде видимо следует в двух словах повторить преобразования, позволяющие установить связь между последовательной выборкой и классической теорией серий.
Рассмотрим последовательную выборку непрерывной случайной величины (С.В.). Для каждого выборочного значения очевидно существуют два и только два равновозможных и взаимоисключающих положения относительно медианы ((>>//<<)). Причем, положения всех значений (точек) независимы в совокупности, следовательно, закон их чередования идентичен закону чередования исходов опытов с симметричной монетой.
Для каждой пары соседних точек существуют также два равновозможных отношения порядка (два знака последовательной разности). Однако последовательные разности (П.Р.) уже не являются независимыми. Любые две соседние П.Р. коррелированы с коэффицентом rr=- 2 [[4]]. Применительно к опытам с монетой можно представить дело таким образом, что монета “запоминает” пре-
дидущий исход и с вероятностью 3 воспро- изводит его в следующем опыте. Соответ- ственно с вероятностью 3 реализуется аль- тернативный результат [3,4].
Серией в двоичной последовательности, однозначно определяемой исходной выборкой, является группа последовательных то- чек одного знака. Причем, следуя В. Феллеру [[11]], определим серию, как рекуррентное событие. Например, отрезок последовательности …0111110… одновременно содержит 5 серий “1” (успехов) длиной 1, 2 серии длиной 2 и по 1-ой серии длиной 3,4 и 5. Такое определение серий позволяет использовать аналитический аппарат теории рекуррентных событий, являющейся , в свою очередь, частным случаем теории восстановления [1].
Серии положений точек относительно медианы являются сериями успехов в последовательности испытаний Бернулли с веро- зоваться аппаратом производящих функций.
Пусть un ( l ) – вероятность того, что на шаге с номером n образуется очередная серия длиной l . Тогда для un ( l ) справедливо рекуррентное соотношение [1] :
( 1 ) „м( 1 ) d2u( 1 ) l - 1 -М 1 )
u n + pu n - 1 + p u n-2 + ... + p u n - l + 1 - p ,
( l ) ( l ) ( l ) ( l ) (1)
u о j. , u 1 u 2 ... U | 1 v)
Умножая первое соотношение (1) на s k и суммируя по всем к > l , получаем производящую функцию последовательности un ( l ) :
ятностью успеха p - — ,
для которых в лите-
U ( s ) -
1 - s + (1 - p ) p's1 + 1 (1 - s )(1 - pV )
ратуре имеется исчерпывающие или почти исчерпывающие результаты (относительно рассматриваемой задачи). Их краткое изложение ниже приведено исключительно с целью сокращения последующих выкладок, касающихся серий отношений порядка, путем рассуждения по аналогии там, где это представится возможным.
Рассмотрим последовательность исходов испытаний Бернулли и введем в рассмотрение целочисленные С.В. Tl – длину последовательности, при которой образуется первая серия успехов длиной l – время возвращения серии длины l и Rn ( l ) – число серий длины l в последовательности длиной n > l . Как показано в [1] , серия успехов длины l является достоверным рекуррентным событием с конечным средним временем возвращения µT =М[[ Tl ]] и конечной дисперсией σT 2 =D[[ Tl ]]. Для числа серий при больших n , как гласит теорема Мизеса-Феллера[1], справедлива асимптотическая нормальная оценка:
Переходя к производящей функции хвостов времени возвращения, используя соотно-
шение
Q l ( s ) -
(1 - s U , ( s )
[11], получаем :
R n ( l ) ~ N ( n , σ Tl µ Tl
n )
µ T 3 l .
Таким образом, задача установления закона распределения числа серий Rn ( l ) сводится к отысканию числовых характеристик времени возвращения Tl . Для вычисления числовых характеристик удобнее всего восполь-
~ A 1 - psl
Ql ( s )- -------- 7.-----x . . (3)
1 - s + (1 - p ) p s 1 v ’
Числовые характеристики времени возвращения находим используя свойство фун- кции Q (s) и полагая p - 2:
Pt - Q l (1) - 2 l + 1 - 2,
^ T - 2 Q l (1) + Q l (1) - Q l 2 (1) - 22( l + 1) - (2 1 + 1)2 l + 1 - 2 .
Далее, на основании теоремы Мизеса – Феллера получаем числовые характеристики числа серий успехов длины l :
n 2 nσT l
P R"l ) ~"u" , ^R n l ) * ""^. (5)
µ T l µ T l
Для больших l очевидна асимптотическая оценка:
2 n
P R ( l ) * ^ R n, l ) * 2 1 + 1 . (6)
Таким образом число длинных серий успехов имеет Пуассоновское распределение
(l) n с параметром ^n - 27+r.
Рис. 1. Распределение числа серий успехов в выборке объема n=1000 в зависимости от длины серии ( l = 1 ^ 3 )
Общая формула для элемента такой
матрицы имеет вид: a ln
n l
. Определи-
тель А равен 1, следовательно существует А -1 . При этом среднее значение числа естественных серий можно вычислить и без решения системы уравнений. Они состав-
ляют
n
Ц ~ ( ) = 2 7 + 2
Дисперсии
пред-
ставляют собой взвешенные суммы:
На рис. 1 представлены результаты статистического моделирования. Гистограммы числа серий для значений l = 1 ^ 3 (в порядке убывания средних) построены по 200 реализациям нормальной выборки объема n = 1000. Сглаживающие кривые представляют собой функции Гаусса с числовыми характеристиками, вычисленными в соответствии с (5).
Средние и дисперсии числа серий первого типа приведены в табл. 1.
Зная закон распределения числа рекуррентных (Феллеровых) серий, можно установить закон распределения “естественных” серий фиксированной длины R ~ n ( l ) , то есть когда короткие серии поглощаются покрывающей их более длинной серией. Так, в ранее рассмотренном примере будет содержаться только одна серия успехов длиной l = 5.
Числа рекуррентных серий связаны с числами естественных серий системой линейных уравнений c матрицей следующего вида:
|
Г 1 |
2 |
3 |
4. |
|
|
0 |
1 |
1 |
2. |
|
|
A = |
0 |
0 |
1 |
1. |
|
0 .... |
0 |
0 |
1. |
2 _ V - 1 2 2
°Rnl) = ^ (ak ) ^rk) , где k=l ak 1 - элементы
матрицы А -1 . Отсюда следует, что числа рекуррентных серий обладают минимальными дисперсиями, стало быть, критерии, построенные на законах их распределения обладают большей эффективностью. То же самое справедливо и для суммарного числа серий успехов и неудач фиксированной длины.
Производящую функцию времени возвращения трендовой серии найдем по аналогии. Пусть, как и раньше, un(l) – вероятность образования на шаге с номером n очередной восходящей серии длиной l. В пространстве П.Р. соответственно образуется рекуррентная серия успехов (“1”) с параметрами: n* = n -1, l' = I -1. Как было показано в [33], вероятности серий в пространстве П.Р. инвариантны по отношению к закону распределения совокупности и определяются с помо- щью собственных функций:
u nl ) = J ф \ l ) ( x ) dx .
Для последних справедливы рекуррентные соотношения, аналогичные (1). Отличие заключается в том, что порядок рекуррентного соотношения на единицу меньше, а ум-
Таблица 1. Среднее значение и дисперсия числа серий в зависимости от длины серии
рекуррентные соотношения имеют вид:
тП2) (x) = x, x1
т П3 ( x ) + J т П - ( x ) dx = 7 x 2 , 0 2
(4) x (4) x x (4) 1
T n ( x ) + j T n - 1 ( x ) dx + jj ^ n - 2 ( x ) dx д x ,
0 00
x xxxxx тП5’(x)+j тП-(x) dx+j j тП-)2(x) dx+j j j тП-з(x) dx =—x4.
0 0 0 0 0 0
В общем виде, при произвольном l , рекуррентное соотношение выглядит следующим образом:
тП1)(x)+ jтП-1(x)dx+...+ jjтП-i+2(x)dx = 7x77, , 0 0 0 (11)!
т 11 )( x ) s 1 , т 2 1 )( x ) = ... = тУ )( x ) = 0 .
По аналогии с сериями успехов в последовательных испытаниях Бернулли, производящую функцию
U l ( 5 ) = 1 + u ( 1 ) sl 1 + U ^1 s 1 + ...
можно получить непосредственно из рекуррентного соотношения (7):
ТГ/\ , 1 J ( sx ) '
U, (s) = 1 + j (1 -
11 -1 /
-V + s
+ .3 dx ,
+ s
1 + 1
x 1 - 1 x
Приводя подобные по степеням x и суммируя образующиеся геометрические прогрессии с показателем s , получим:
U 1 ( s ) = 1 + -L
1 - s
—
( sx ) 1 + l !
/ \ 2 1 -2 / \2 1 -1
( sx ) ( sx )
( 2 1 - 2 )! ( 2 1 - 1 )!
+ ... ^ dx
Выражение под интегралом в (9) представляет собой ряд Макларена функции
ψl ( sx ) , которая является решением рекурсивного уравнения, соответствующего (7):
x
Yt (x) + j^1 (x) dx +... + xx
или d1 2^ 1 d1 3^1 dx1-2 dx1-3
dψ
...
dx
+ ^ = x .
В компактной записи соотношение (9) примет вид:
1 1 1 s
U ( s ) = 1 +-- y 1 ( sx ) dx = 1 + —7---- x v 1 ( x ) dx
1 - s 0 s ( 1 - s ) 0 .
Переходя к производящей функции хвостов времени возвращения, получаем:
Qi ( s ) =------ 1------
’ (1 - s ) U 1 ( s )
s
S s (1 - s) + j^ (x) dx
Рассмотрим уравнение (10) для случая > 2. Данное уравнение представляет собой неоднородное линейное с постоянными коэффициентами (все равны 1). Его частный интеграл имеет вид:
l//( x ) = x - 1 .
Общий интеграл однородного уравнения будем искать с помощью преобразования Лапласа. Исходя из вида уравнения (10) получаем характеристическое уравнение:
1 + q + q 2 + ... + q 1 - 2 = 0 (13)
Корни уравнения (13) в Эйлеровом тригонометрическом виде образуют группу по умножению:
qk = e * , k = 0,1,...,1 -2, за вычетом точки q0 = 1.
Таким образом общий интеграл (10) получаем в виде:
I - 2
1 / 1 ( x ) = x - 1 + £ b k exqk . (14)
k = 1
Неопределенные коэффициенты bk , k = 1,...,1 - 2 находим из однородных на чальных условий в точке x = 0 :
dk - / 1 , . k - 1 0
Таблица 2. Средние и дисперсии числа трендовых серий
|
l |
2 |
3 |
4 |
5 |
> 6 |
|
µ n - 1 |
0,5 |
0,132 |
0,034 |
6,9 ■ 10 - 3 |
l ( l + 1)! |
|
σ 2 n - 1 |
0,074 |
0,060 |
0,026 |
6,5 ■ 10 - 3 |
l ( l + 1)! |
Для l = 2 ^ 5 получим:
1— i1
x , (л + i e " ~ x +(Л - i e " ~ x.
i /2 = x , ^ = e + x - 1, ^ 4 = А-------------f------------+ x — 1,
^ =1 e -x + — eix + — e " x + x — 1. 52 44
При больших l можно получить асим-тотическую оценку ψl ( x ), вполне удовлетворительную для поставленных целей, и, соответственно, оценки искомых числовых характеристик числа серий.
Рассмотрим более детально ряд Маклорена функции ψl ( x ) .
Исходя из вида уравнения (10) следует, что последовательность производных ψl ( x ) в нуле имеет период l - 1, а именно, отличны от нуля только члены, кратные l - 1 и на “1” старше. Причем, все члены первой подпоследовательности равны “1”, второй – “-1”.
Поскольку члены ряда имеют факториальную скорость убывания, то на интервале x е [ 0;1 ] главным значением ряда будет сумма двух первых членов, а остаток можно оценить порядком третьего (первого отброшенного) члена:
, А - x 1 - * x l x 2 ( l - 1) .
V l ( x ) ( l - 1 )! l ! +°( ( 2 l - 2 )! ) .
Откуда получаем асимтотические оценки:
l - 1 f. l
^ l (1)* "T ’ f l ( x ) dx *(m)!• (15)
Далее, на основании (8) и (4) находим среднее и дисперсию времени возвращения трендовой серии:
- 1
^ T, = 3 ^ T +[ 1 — 2 ^1 (1) K
^ t
При использовании теоремы Мизеса-Феллера следует учесть, что длина цепи последовательных разностей на 1 короче длины исходной выборки. По этому формулы для числовых характеристик числа серий будут несколько отличаться от (5):
n - 1 2 ( n - 1) ct t
^R ( l ) * , gr ( l ) *T
Rn Mt, Rn ( 1 + M t, ) . ( 7)
Подставляя в (17) (16) и (15), получаем оценки числовых характеристик числа серий при больших l :
µ(l) σ2(l) l nn n-1 ~ n-1 ~ (l +1)!
Для практических целей полученными Пуассоновскими оценками (18) с достаточной точностью можно пользоваться уже начиная с l =6. Точные значения числовых характеристик для коротких серий приведены в табл. 2.
Результаты статистического моделирования представлены на рис. 2. Как и в предыдущем случае, гистограммы числа возрастающих трендовых серий построены по 200 реализациям. Сглаживающие кривые – функции Гаусса с числовыми характеристиками (17).
Как видно из представленных на рис.1, 2 графиков, отличие в структурах серий разных типов лишь количественное, заключающееся в различии рядов средних и дисперсий. Практически полное совпадение наблюдается лишь при l = 4 (табл.1, 2.) При этом число, а точнее поток серий имеет отчетливую спектральную структуру. Количество различимых спектральных полос и их контраст- ность возрастают пропорционально n . Такое свойство структуры серий позволяет установить надежный критерий случайности –
Рис. 2. Распределение числа восходящих трендовых серий в выборке объема n=1000 в зависимости от длины серии 1 = 2 ^ 4
отсуствие инверсий среди контрастных спектральных полос. Или, другими словами, наличие хотя бы одной инверсии в спектре числа серий можно обоснованно интерпретировать, как искусственное упорядочение последовательной выборки.
В заключение следует указать на еще один интересный эффект в структуре серий случайной последовательности – наивероятнейшее появление серии в первом из возможных исходов. Это явление, природа которого, по видимому, имеет нечто общее с “Петербургским парадоксом” [1], обусловлено тем, что ряд распределения времени возвращения f (1 ) = P { T l = n } монотонно убывает, и первый отличный от нуля член ( n = 1 ) является существенно доминирующим [1, 3].
Другим, более значимым проявлением указанной закономерности является “притя- жение” длинных серий (преимущественно разного знака). Дело в том, что в рекуррентной трактовке любая конечная последовательность рассматривается как отрезок бесконечной в обе стороны последовательности, и после точки, завершающей очередную серию, отсчет начинается заново. В связи с этим максимальным правдоподобием среди возможных расположений двух или более серий в отрезке последовательности обладает конгломерат, то есть имеет место “эффект притяжения” серий. И напротив, большое расстояние между сериями является маловероятным, а, если наблюдается, то может свидетельствовать о неслучайном характере последовательности.
Список литературы Об инвариантах структуры серий и критериях случайности последовательной выборки
- Феллер В. Введение в теорию вероятностей и ее приложения. Т. 1 (Дискретные распределения). М.: МИР, 1984.
- Дунин-Барковский И.В., Смирнов Н.В. Теория вероятностей и математическая статистика в технике (общая часть). М.: ГИТТЛ, 1955.
- Плотников А.Н. Закон распределения длины максимальной серии и его статистические приложения/Известия СамНЦ РАН. 2006. Т 8. №4.
- Юнак Г.Л., Годлевский В.Е., Плотников А.Н. Об интерпретации серий на контрольных картах//Методы менеджмента качества. 2005. №4.