Коллектив многомерных непараметрических регрессий, основанный на композиции обучающей выборки по ее объему

Автор: Лапко Александр Васильевич, Лапко Василий Александрович

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Математика, механика, информатика

Статья в выпуске: 3 (43), 2012 года.

Бесплатный доступ

Предлагается методика синтеза и анализа коллектива многомерных непараметрических регрессий, обеспечивающего высокую вычислительную эффективность решения задач восстановления стохастических зависимостей за счет использования технологии параллельных вычислений. Исследуются асимптотические свойства коллектива. Приводятся результаты их сравнения со свойствами традиционной непараметрической регрессии.

Непараметрическая регрессия, большие выборки, асимптотические свойства, принципы декомпозиции, коллективное оценивание, параллельные вычислительные технологии

Короткий адрес: https://sciup.org/148176867

IDR: 148176867

Текст научной статьи Коллектив многомерных непараметрических регрессий, основанный на композиции обучающей выборки по ее объему

Непараметрические регрессии, основанные на оценках плотности вероятности типа Розенблатта– Парзена, широко используются при восстановлении однозначных стохастических зависимостей. На их основе создаются типовые информационные средства, адаптируемые к условиям функционирования объектов различной природы. Однако при увеличении объема обучающей выборки вычислительная эффективность непараметрических статистик снижается. Подобные ситуации часто встречаются, например, при обработке больших массивов аэрокосмической информации. В этих условиях использование традиционной непараметрической регрессии приводит к значительным временным затратам при формировании решений.

В данной статье рассмотрена разработка методики синтеза и анализа коллектива многомерных непараметрических регрессий, основанного на декомпозиции обучающих выборок по их объему.

Синтез коллектива многомерных непараметрических регрессий. Пусть V = ( x i , y i , i = 1, n ) - выборка, составленная из n независимых наблюдений случайной величины ( x = ( x v , v = 1, k ) , y ) с плотностью вероятности p ( x , y ) . Обозначим плотность вероятности случайной величины x через p ( x ) , а кривую регрессии y по х – через

Разобьем выборку V на T групп наблюдений

V j = ( x i , y i , i e I j ) , j = 1, T , где I j - множество номеров наблюдений переменных ( x , y ) , составляющих

T j-ю группу, причем ^ Ij = I = ( i = 1, n). Количество j=1

n j = | I j | элементов в выборках V j одинаково и равно

n

n = — .

T

Будем считать, что плотность вероятности p (x) известна. В этих условиях на основании каждой выборки Vj осуществим синтез непараметрической регрессии [1]:

(       ^

фД x ) =------— 111"'        I j = 1, T • (2)

np ( x ) П c /‘ I j v =1    ^ '

v =1

где ядерные функции Ф ( uv ) удовлетворяют условиям H :

Ф( Uv ) = Ф(-Uv ), 0 <Ф( Uv )<”, Jф( Uv ) dUv = 1, J U2 Ф( Uv ) dUv = 1, Ju™ Ф(uv)dUv

При синтезе каждой статистики фj (x) будем использовать непараметрическую оценку многомерной плотности вероятности p (x, y) типа Розенблатта-Парзена [2].

В качестве приближения y(x) (1) возьмем статистику вида

1T

y = ф( x ) = -£ф j (x).           (3)

T j=1

Оптимизация частных непараметрических регрессий (2) по коэффициентам размытости cv, v = 1, k, ядерных функций осуществляется в режиме скользящего экзамена из условия минимума статистической оценки точности аппроксимации зависимости (1):

Wj = - E(y -фj (x)).

n tGIj

При формировании критерия W j ситуация (xt, yt) в выражении непараметрической регрессии (2) исключается из процесса обучения.

Статистика (3) допускает использование технологии параллельных вычислений при оценивании кривой регрессии (1) в условиях больших выборок.

Асимптотические свойства коллектива непараметрических регрессий. Для получения аналитически значимых результатов при исследовании свойств коллектива непараметрических регрессий (3) будем считать, что интервалы изменения значений компонент xv, v = 1, k, вектора x одинаковы. В этих условиях появляется возможность полагать одинаковыми значения коэффициентов размытости cv = c, v = 1, k, ядерных функций в статистике (2). Тогда частные непараметрические регрессии (2) запишутся в виде k Гу yi j x )= 2П$| ]• j= 1, T. (4) np (x ) c ieIj v=1 V c )

Асимптотические свойства ф(x) определяются следующей теоремой.

Теорема. Пусть ф(x), p(x, y), p(x) ^ 0 и первые две их производные по каждой компоненте xv , v = 1, k , ограничены и непрерывны; ядерные функции

Ф (uv) удовлетворяют условиям H ; последовательности c = c (n) коэффициентов размытости ядерных функций такие, что при n ^м значения c ^ 0 , а nck ^м. Тогда при конечных значениях T коллектив многомерных непараметрических регрессий ф(x) обладает свойствами асимптотической несмещенно- ф(xv — ctv, v = 1, к), p(xv — ctv, v = 1, к) в ряд Тейлора в точке x . Тогда с учетом свойств H ядерных функций при достаточно больших значениях n получим асимптотическое выражение смещения коллектива непараметрических регрессий:

2k

M (ф( x)—ф( x)) ~ ——£(ф( x) p(x)) v ’+

2 p ( x ) v=1

+ с4

4p (x)

k к

X Xф(v)(x) pr ^( x) v=1r=1

V где

I

Xv(v )(x) pv^(x)J и4Ф(uv ) duv I+ 0 (c6 ), v=1

ф(2)(x), pv2)(x), (ф(x)p(x))v2) - вторые произ- водные функций ф(x), p(x) и их произведения по компоненте xv; символом 0 (c6) обозначены слагаемые степени малости порядка c6 . Отсюда из условия c ^ 0 при n ^ м следует свойство асимптотической несмещенности коллектива непараметрических регрессий ф(x).

Для доказательства состоятельности оценки ф( x) вычислим ее дисперсию:

D(ф(x)) = M(ф(x) —ф(x))2 —(M(ф(x) —ф(x)))2. (7)

Исследуем асимптотические свойства среднеквадратического отклонения сти и состоятельности.

Доказательство. По определению имеем

T

M (ф( x ))=у£ M (ф j(x ))=

T j=1

Tk

=Г X    ZJ— J y'№p

T j=1 nc p (x) i e Ij          v=1 V

xi I

—- X

c

x p (yi, x1, , xk) dyidx1 dxk =

1 ckP (x)

k x.      t..

x J—J y ПФ1------I p (y, r,—, tk) dydt1—dtk = v=1   V c )

1                     Г x — t I= k , x J —J ф( t )ПФ| ------ I p ( t1,—, tk ) dt1 — dtk, (5ckp (x )j j      v=1 V c )

где M – знак математического ожидания; ф(t) = My . При выполнении данных преобразова-V t)

ний учитывается, что элементы статистической выборки V являются значениями одних и тех же случайных величин (t, y) с плотностью вероятности p ( у , t1, , tk).

Проведем в выражении (5) замену переменных (xvtv) c1= uv и разложим функции

I

TT

<х£((ф(x)—ф(x ))(ф(x)—фt(x))).

j’=1 t=1 t * j

)

Определим асимптотическое выражение

M (ф(x) —фj (x))2 == M (ф2; (x)) — 2 ф( x) M (фj( x )) + ф2 (x).

Следуя использованной ранее технологии лений, проведем преобразования:

M(ф22(x))" ^2 2k 2/ x nc p x

k

ZM (y) ПФ2

i eIj

v=1

вычис-

x

+

( к (       / Л ki

+ZXM у-Пф,^ I ie Ij r e Ij V v=1 V c ) r^i

n 2c2kp2(x) nJ Jф2 (t1, n c p x

k

yr ПФ v=1

xv

'vxv

c

c xvr

k

, tk )ПФ2

v=1

xv

c

x p(t1;-,tk)dt1 -dtk + n (n - 1)x

xl /^/ф(ti,^,tk)ПФ[xv-t^ 1 p(t1,-,tk)dt1-dtk

V                    v=1 v c )

Пренебрегая величинами малости

,

V nc ние:

, k-2

, 0 (c6), найдем асимптотическое выраже

k

xП^Ф2 (Uv ) dUv + v=1

4   (.^12

—2— |Х(ф(x)p(x))v’ I . (13) 4 p (x )V v=1                 )

M H(x)) ~ ф2 (x)+- k1M x '           nc p(x)

„4 (./' + T  V(Wxp x    +

4p2(xДХ         v J

ф2( x )I1 /ф2( uv) du„ + v=1

c2 ф(5 Х (ф( x) p (x )Г* p ( x ) v=1

Отсюда, если принять во внимание соотношения (6) и (13), то из условия c ^ 0, nckпри nследует свойство состоятельности коллектива многомерных непараметрических регрессий ф(x).

При T = 1, к = 1 полученный результат (13) совпадает с утверждением работы [3], что подтверждает корректность выполненных преобразований.

Анализ аппроксимационных свойств статистики ф(x). Для анализа в принятых условиях эффективности коллектива ф(x) и традиционной непараметрической регрессии

4 ф( x )

+ c —-

2 Р ( x )

Х Z(vi2)( x) p(2)( x ))+ v=1 r =1

V     r # v

ф (x ) =

np ( x ) <2 k

nk

ХПфр 1=1 v=1 V

x

c

+

При достаточно большом объеме n статистических данных M (ф(x)) = M(ф(x)). Тогда, подставляя выражения (6) и (10) в (9), получим

M (фj (x)-ф(x))2

~

ф2 (x) nck p (x)

k

П/ф2 (uv )duv + v=1

с4(                   (2)12

+  Х(ф (x)p(x)) .

4p2(x)LvZTk        Vv J

С учетом свойства асимптотической несмещенности (6) и статистической независимости выборок Vj, Vt второе слагаемое выражения (8) представим в виде

УХХ(M(ф(x)-Фj(x))M(Ф(x)-Фt(x))) ~

T j=11=1 t * j

4    (

~ 2/ x I Х(ф( x) p(x))   I + 0(c ). (12)

4p ( x )V v=1                 )

Подставляя выражения (11) и (12) в (8), получим асимптотическое выражение среднеквадратического отклонения:

M (ф( x )-ф( x ))2~

1 ---—

T2

T

'^TП/ф2(Uv )du, +

V nc p ( x ) v=1 J

4k

+22Й VX (ф( x)p (x))

I (211

7 )

+ T (T-1)

с4

-T— x

4 p2 (x)

i v

рассмотрим отношения соответствующих им асимптотических выражений среднеквадратических отклонений, дисперсий и смещений при оптимальных значениях коэффициентов размытости ядерных функций.

Определим минимальное значение W2 выражения

П/Ф2 (uv) dUv v=* Tnck-----/ - /ф2 (x) p-1 (x) dx1 - dxk+

с4,                                 (7)V

—j-/Ip (x)Х(ф(x)p(x)), I dx1 -dxk,(14)

4V v=1                  )

которое получено путем интегрирования результата (13).

Из условия минимума (14) по коэффициенту размытости с нетрудно получить его оптимальное значение для составляющих статистики ф(x):

где

=* c

k                   Р/ (k+4)

kA П/Ф2(uv) duv v=1

n B

A =/-/ф2(x)p1(x)dx1dxk ;

'                                               x( 2) 1

B=/-/I p (x)Х(ф(x)p(x)г? I dx1 -dxk.

V          v=1

Тогда, подставляя c *

x(x (ф(x) p(x ))v2)

V v=1

ф2(x) x

T n ck p (x)

W2 =

k

A П/Ф2 (uv ) duv

в выражение (14), получим x 4 "I1/ ( k +4)

Bk

n

4 + Tk . (15)

4 Tkk(k+4)

Асимптотическое выражение среднеквадратического отклонения непараметрической регрессии р (x)

совпадает с результатом (13) при T = 1, n = n и с = ё (n) = ё , при этом его минимальное значение при оптимальном коэффициенте размытости

-* = * -1 (к+4)

с = ст определяется выражением

~

W2 =

После несложных преобразований получим отно-

^^^—       ZW шение W2 /W2 :

W2 _   4 + Тк

2= W2 = тк (к+4)( 4+к).

Для статистики ф( x) и непараметрической регрессии р (x) главные дисперсионные составляющие определяются соответственно первыми слагаемыми выражений (13) и (11) при n = n. Вычислим отношение их минимальных значений W3 и W3 при оптимальных коэффициентах размытости с *, ё* ядерных функций:

R = W = ‘ . 3 w3 тк!(к+4)

Нетрудно убедиться, что отношение асимптотических выражений смещений W1 , W1 анализируемых оценок кривой регрессии (1) ф( x) и р (x) при оптимальных коэффициентах размытости ядерных функций соответствует значению

r = W = т 2/(к+4).

  • 1    W1

С ростом количества T составляющих коллектива непараметрических регрессий наблюдается увеличение значений отношений R1 > 1 (см. рисунок, часть а) и R2 > 1 (см. рисунок, часть б). Отмеченное ухудшение аппроксимационных свойств коллектива ф( x) по сравнению с непараметрической регрессией р (x) объясняется снижением объемов n выборок, используемых при оценивании составляющих ф( x). Такая тенденция особенно характерна для малых размерностей k случайной величины x . При усложнении условий оценивания кривой регрессии (1) с ростом k эффективность непараметрических оценок ф(x) и р (x) снижается. Соответствующие им критерии W2, W2 и W1 , W1 становятся соизмеримыми, что проявляется в снижении значений их отношений R2 и R1 .

Предлагаемый коллектив ф( x) имеет меньшую дисперсию по сравнению с непараметрической регрессией (р (x). Это обусловлено структурой статистики ф(x), так как ее синтез осуществляется на основе усредняющего оператора (см. рисунок, часть в), причем с увеличением количества T составляющих коллектива непараметрических регрессий р(x) и размерности k аргументов восстанавливаемой зависимости преимущество этой статистики возрастает.

Таким образом, на основе анализа асимптотических свойств коллектива непараметрических регрессий обоснована возможность декомпозиции исходных статистических данных при восстановлении многомерных зависимостей в условиях больших выборок. Исследуемая статистика по сравнению с традиционной непараметрической регрессией имеет значительно меньшую дисперсию и позволяет использовать технологию параллельных вычислений.

Статья научная