Анализ свойств смеси непараметрических оценок плотности вероятности многомерной случайной величины

Автор: Лапко Александр Васильевич, Лапко Василий Александрович

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Математика, механика, информатика

Статья в выпуске: 2 (28), 2010 года.

Бесплатный доступ

Исследуются асимптотические свойства смеси непараметрических оценок плотности вероятности многомерной случайной величины. Проводится их сравнение со свойствами традиционной непараметрической оценки плотности вероятности типа Розенблатта-Парзена в зависимости от количества составляющих смеси и размерности случайной величины.

Смесь плотностей вероятности, непараметрическая оценка, большие выборки, асимптотические свойства

Короткий адрес: https://sciup.org/148176194

IDR: 148176194

Текст научной статьи Анализ свойств смеси непараметрических оценок плотности вероятности многомерной случайной величины

Использование методов непараметрической статистики, основанных на оценках плотности вероятности типа Ро-зенблатта–Парзена [1; 2] является одним из активно развивающихся направлений моделирования систем при априорной неопределённости. Однако при усложнении условий исследования систем появляются методические и вычисли- тельные трудности применения традиционных непараметрических алгоритмов и моделей, что особенно наблюдается при обработке статистических данных большого объёма.

Перспективное направление «обхода» возникающих проблем состоит в применении принципов декомпозиции обучающих выборок по их объёму и использовании технологии параллельных вычислений.

Цель данной работы: на основе анализа асимптотических свойств непараметрической оценки смеси плотностей вероятности обосновать эффективность использования принципов декомпозиции при обработке боль- ших массивов статистических данных.

Непараметрическая оценка смеси плотности веро ятности и её свойства. Пусть выборка V = ( X , i = 1, n ) из n независимых н абл юдений k -мерной случайной величины x = ( x v , v = 1, к ) с плотностью вероятности p ( x ) . Вид p ( x ) априори неизвестен.

Разобьём выбор ку V на T групп наблюдений V j = ( x , i e I j ) , j = 1, T . Множество номеров наблюдений x в группе под номером j обозначим чере з Ij .

T

Причем U I j = I = ( i = 1, n ) . Количество n j = | l j| j =1

элементов в выборках Vj = (x' , i e Ij) одинаково и рав- n но n = T.

По каждой выборке Vj построим непараметрическую оценку плотности вероятности многомерной случайной величины x [1]:

f A pj (x)=—— ХПФ| -v^ I, j=1, T.  (1)

n П C v- e I j v =1 V c v )

v =1

В статистике (1) ядерные функции Ф ( uv ) , удовлетворяют условиям нормированности, положительности и симметричности. Параметры ядерных функций cv = c v ( n ) убывают с ростом n .

Пусть интервалы изменения значений компонент xv вектора x одинаковы. В этих условиях появляется возможность полагать, что значения коэффициентов cv непараметрических оценок плотностей вероятности pj (x), j = 1, T одинаковы и равны с. Тогда непараметрическая оценка (1) плотности вероятности принимает вид f _ „' A pj-(x) =     ЕПф| I, j = 1,T .     (2)

n c i e I j v =1 V c 7

В качестве приближения p ( x ) по статистической выборке V будем использовать смесь непараметрических оценок плотности вероятности типа

1T p (x ) = ^E pj-(x).               (3)

T j =1

Статистика (3) допускает использование технологии параллельных вычислений при оценивании плотности вероятности в условиях больших выборок.

Асимптотические свойства p ( x ) определяются следующим утверждением.

Теорема . Пусть p ( x ) и первые две ее производные по каждой компоненте xv , v = 1, к ограничены и непрерывны; ядерные функции Ф ( uv ) удовлетворяют условиям

ф ( U v ) = Ф ( _ U v ) , 0 < ф( U v ) <” ,

|Ф( uv ) duv = 1, j u2 Ф( uv ) duv = 1, j uvm Ф(uv) duv <да, 0 < m <да; v = 1, к , последовательности c = c (n) коэффициентов размытости ядерных функций непараметрических оценок плотности вероятности (1) таковы, что при n ^ да значения c ^ 0 , а nck ^ да .

Тогда при конечных значениях T непараметрическая оценка (3) плотности вероятности p ( x ) обладает свойством асимптотической несмещённости и состоятельности.

Здесь и далее бесконечные пределы интегрирования опускаются.

Доказательство .

По определению имеем

1 T 1 T 1

M ( p ( x ) ) = уХ M ( p j( x ) ) = yZ    х

T j=1                   T j=1 nc f x _ x' A

XZfK ТПФ|  ---L I p(x1,K, xk ) dx1 K dxk = i eIj         v=1 V c )

=7 J K Jii < x c           v =1 V

k

= J к Jn ° ( u v ) p ( X 1

v =1

c

— I p ( - 1 , K , - k ) dt 1 к dtk =

cu1,к, xk - cuk ) du 1 к duk ,

где M - знак математического ожидания. При выполнении преобразований учит ывае тся, что элементы статистических выборок V j , j = 1, Т являются значениями одной и той же случайной величины t с плотностью вероятности p ( - 1 , к , tk ).

Разложим p(x1 -cu1 ,к, xk -cuk) в ряд Тейлора в точке x = x1, к, xk и ограничиваясь первыми двумя членами ряда, имеем c2

W 1 = M ( p ( x ) - p ( x ) ) ~ —Z p V ( x ) ,      (4)

2 v =1

где p V 2* ( x ) - вторая производная плотности вероятности p ( x ) по компоненте xv .

Отсюда, из условия c ^ 0 при n ^ да следует свойство асимптотической несмещенности смеси непараметрических оценок плотности вероятности (3).

Для доказательства сходимости p ( x ) в среднеквадратическом рассмотрим выражение

M J к J ( p ( x ) - p ( x ) ) 2 dx 1 к dx k =

-12

1 Л/

= M J K f - ^ ( Р ( Х ) P j( Х ) ) dX 1 K dx k =

T

= M sj - J ( p ( x ) - P j (x ) ) 2 dx к dx k +

-       L j =1

TT

+EEJ k J ( p ( x ) - рд x ) ) ( p ( x ) - д ( x ) ) dx к dx k j =1 t =1 t * j

. (5)

Найдем асимптотическое выражение составляющих второй части выражения (5):

M J к J ( p ( x ) - p j ( x ) ) ( p ( x ) - Р, ( x ) ) dx 1 к dx k =

= J к J p 2 ( x ) dx1 к. dx k -

-M J к J pt (x) p (x) dx1 к dxk - M x xJ... J pj ( x) p (x) dx1 к dxk + M J к J pj (x) pt (x) dx1 к dxk . (6) Преобразуем его последнее слагаемое

M J к J pj ( x ) p>t ( x ) dx к. dxk =

= J к J M ( p j ( x ) ) M ( pt ( x ) ) dx 1 к dx k , которое при достаточно большом объеме статистических данных с учётом выражения (4) представляется в виде Г          c 2

J к J I p ( x ) + лг£ p V ( x ) I dx кdx k .     (7)

V           2 v =1           )

Заметим, что асимптотическое выражение статистики типа

M J к J pt ( x ) p ( x ) dX 1 к dx k соответствует

Jк J| p ( x ) + c- ^ pV2)( x ) । p ( x ) dx1 к dxk .

V          2 v=1

Подставляя выражения (7), (8) в (6), после несложных преобразований получим

M J к J( p (x)- pj( x))( p (x)- p- (x)) dx1 к dxk ~ r4        ( k            A2,^4

~тJкJ|ZpV2)(x)I dx1 кdxk =tB.

4 V v=1         )

В работе В. А. Епанечникова [2] получено асимптотическое выражение для среднеквадратического отклонения непараметрической оценки плотности вероятности от p ( x ), составляющих первую часть выражения (5):

M J к J( p ( x ) - p j ( x ) ) dx 1 к dxk ~

k nJ» ‘ (u. ) du. „4

~ v"   _ , -----+ -B           (10)

n c         4

С учётом (9), (10) выражение (5) при достаточно больших значений n представляется в виде k

, ,      _   2           Шф ( и . ) du . c .

M /к] ( p ( x ) - p ( x )) dx ' ^ dx k ~ V " '       k ----- + V В . (11)

J J                              -nc 4

Нетрудно заметить, что в условиях c ^ 0 , nck ^ да при n ^ да оценка смеси плотностей вероятности (3) сходится в среднеквадратическом к p ( x ) , а с учетом свойства ее асимптотической несмещенности является состоятельной.

При Т = 1 и n = n полученный результат (11) совпадает с утверждением теоремы В. А. Епанечникова [2], что подтверждает корректность выполненных преобразований.

Анализ аппроксимационных свойств статистики p(x). Для анализа эффективности непараметрической оценки смеси плотностей вероятности (3) и оценки плотности вероятности типа Розенблатта-Парзена nk       i p (x ) = тт Sn®!^ j     (12)

nc 1 =1 v =1 V c )

рассмотрим отношение соответствующих им асимптотических выражений среднеквадратических отклонений при оптимальных значениях коэффициентов размытости ядерных функций.

Определим минимальное значение W2 выражения (11) при оптимальных значениях c коэффициентов размытости непараметрических оценок pj (x) составляющих смеси плотностей вероятности. В принятых допущениях значение

*

c

k ii J 0 2 ( u . ) du .

v=1_________________________ nB

.

Тогда

W 2 =

k nJ»2 (u.) du.

Bk

/( k +4 )

n

4 + Tk . (13)

4 Tk /( k + 4 )

Если k = 1, то W 2 совпадает с минимальным асимптотическим выражением среднеквадратического отклонения для смеси непараметрических оценок плотностей вероятности, полученного в работе [3].

При T = 1 и n = n выражение (13) соответствует минимальному асимптотическому выражению W 2 , среднеквадратического отклонения для непараметрической оценки плотности вероятности (12) типа Розенблатта– Парзена [2].

Отсюда, после несложных преобразований, получим

R 2

W =   4 + Tk

W ( 4 + k ) T^k + 4 )

гомерной случайной величины обоснована возможность декомпозиции исходных статистических данных при синтезе непараметрических статистик в условиях больших выборок. Исследуемая статистика по сравнению с традиционной непараметрической оценкой плотности вероятности типа Розенблатта–Парзена имеет значительно меньшую дисперсию и позволяет использовать технологию параллельных вычислений.

По аналогии вычислим отношение минимальных зна-

чений главных дисперсионных составляющих статистик

p (x) и p (x):

W 3 =

k

Tk /(k+4)

(_ ^4 П/Ф ( uv ) duv

v =1 _________________________

n

/: k +4 )

Их отношение имеет вид

R 3 =

W 3

W 3

Bk

а

Нетрудно убедиться, что отношение асимптотических выражений смещений W , W ^ анализируемых оценок плотности вероятности p ( x ) и p ( x ) при оптимальных коэффициентах размытости ядерных функций соот-

ветствует значению

R = W = t Уk + 4 ) 1 W

С ростом количества T составляющих смеси непараметрических оценок плотности вероятности наблюдается увеличение значений отношений R 2 > 1 (см. рисунок, часть а ), R 1 > 1 (см. рисунок, часть б ). Отм е ченное ухудшение аппроксимационных свойств смеси p ( x ) по сравнению с традиционной непараметрической оценкой плотности вероятности p ( x ) (12) объясняется снижением объёмов выборок, используемых при оценивании составляющих p ( x ) . Данная тенденция особенно характерна для малых размерностей k случайной величины x . При усложнении условий оценивания плотности вероятности с ростом k эффективность непараметрических оценок p ( x ) и p ( x ) снижается. Соответствующие им критерии W 2, W 2 и W , W ' становятся соизмеримыми, что проявляется в снижении значений их отношений R 2 и R 1 .

Предлагаемая смесь p ( x ) оценок плотности вероятности обладает меньшей дисперсией по сравнению с непараметрической оценкой p ( x ) , что обусловлено её структурой, так как синтез статистики p ( x ) осуществляется на основе усредняющего оператора (см. рисунок, часть в ). Причём с увеличением количест в а T составляющих смеси непараметрических оценок p ( x ) плотности вероятности и размерности k случайной величины её преимущество возрастает.

На основе анализа асимптотических свойств смеси

Зависимости отношений: R 2 ( а ), R 1 ( б ), R 3 ( в )

от размерности к случайной величины x = ( xv , v = 1, k ) и количества T = 1–10 (кривые 1, …, 10)

составляющих смеси непараметрических оценок плотности вероятности p (x) (3)

непараметрических оценок плотности вероятности мно-

Статья научная