Робастные непараметрические оценки линейных функционалов
Автор: Симахин Валерий Ананьевич
Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau
Рубрика: Кибернетика, системный анализ, приложения
Статья в выпуске: 5 (31), 2010 года.
Бесплатный доступ
Рассматривается построение алгоритмов робастных непараметрических оценок линейных функционалов на основе взвешенного метода максимального правдоподобия.
Робастный, непараметрический, оценка, линейный функционал
Короткий адрес: https://sciup.org/148176360
IDR: 148176360 | УДК: 519.234
Robust nonparametric estimation of linear functionals
Robust nonparametric algorithms for estimation of linear functionals on the basis of weighted maximum likelihood method is considered in the article.
Текст научной статьи Робастные непараметрические оценки линейных функционалов
Пусть у 1, ..., yM – выборка непараметрической оценки регрессии (НОР) с функцией распределения (ФР) G ( y ) и 0 = j ф ( Г ) dH ( Г ) < да , где t = ( t 1 , ..., t m ) T ; H ( t ) = G ( t 1 ) ■■■ G ( t m ). Непараметрические оценки функционала 0 при симметричных функциях ф ( t ) получили название U -статистик [1; 2]. В классе робастных оценок 0 применяется метод усечения выборки – усеченные U -статистики [3].
Обозначим через f ( x ) и F ( x ) плотность и ФР случайной величины X = ф ( Y 1 ,..., Y m ), тогда 0 = | zdF ( z ). Выборку Y ,..., Y m преобразуем в выборку x 1 ,..., xN , где x j =ф ( y i .,..., y ^); N - мощность множества { i 1 < i 2 < ... < i m } . При таком преобразовании задача оценивания параметра 0 сводится к задаче оценивания параметра сдвига распределения F ( x ). В параметрической статистике такой прием широко используется для синтеза несмещенных оценок параметров как функций от достаточных статистик и в вычислительном отношении достаточно удобен, однако основная сложность здесь связана с переходом от распределения G ( y ) к распределению F ( x ) [4]. В связи с этим будем считать, что вид ФР F ( x ) нам неизвестен и задача относится к классу непараметрических задач оценки параметра сдвига.
В настоящее время нет недостатка в робастных оценках параметра сдвига, что создает даже определенное неудобство для пользователей (см. например, [3; 5] и библиографические списки к ним). Отметим ряд особенностей таких оценок. Большинство из них робастны на классе и имеют низкую эффективность в отсутствии выбросов. Как выход предложены адаптивные оценки: в основном используется адаптация по параметру усечения, но не по виду F ( x ) [3], или адаптация ведется по виду распределения F ( x ), но функция и параметр усечения подбираются эвристически [ 6 ] . Эта работа Р. Берана интересна в двух аспектах: в ней, очевидно, впервые введены робастные непараметрические оценки плотности, а также использован метод подстановки на основе этих оценок для получения оценки параметра. Становится понятным, что робастные эффективные оценки должны быть адаптивными как по виду основного распределения, так и по отбраковке выбросов.
В данной статье на основе взвешенного метода максимального правдоподобия (ВММП) [7; 8] синтезированы адаптивные робастные непараметрические оценки и показано их использование для оценки линейных функционалов.
Взвешенный метод максимального правдоподобия. Пусть F ( x , 0 ) - унимодальное непрерывное распределение с плотностью f ( x , 0 ) и неизвестным параметром 0 - принадлежит к классу унимодальных распределений и x 1 , ..., xN – выборка НОР из распределения F ( x , 0 ). Обозначим через F N ( x ) эмпирическую функцию распределения (ЭФР), а через g ( x , 0 ) -априорную плотность распределения.
М -оценки неизвестного параметра 0 можно определить на основе решения эмпирического уравнения вида
/ ф ( x , 0 N ) dF N ( x ) = 0, (1)
где ф ( x , 0 ) - оценочная функция.
Анализ критерия радикальности и алгоритмов устойчивых оценок [5] позволяет сделать вывод, что все эти оценки можно получить на основе ВММП с оценочной функцией ф ( x , 0 ) вида
ф ( x , 0 ) =
д
— In g ( x , 0 ) + Р g ( x , 0 ), д0
где I - параметр радикальности оценки; в - параметр, который определяется по условию несмещенности оценки, в нашем случае в = 0 [7].
Нетрудно заметить, что (2) определяет ВММП с весами g1 ( x , 0 ). При I = 0 мы получаем оценки максимального правдоподобия (ОМП), при I = 0,5 - радикальные оценки, при I = 1 - оценки максимальной устойчивости (ОМУ) [5]. Физически роль параметра l вполне понятна и сводится к определению степени мягкого усечения как для удаленных выбросов, так и по форме априорного распределения. Таким образом, варьируя параметром l , можно получать эффективные оценки при локальных отклонениях распределения F ( x , 0 ) от априорного в классе устойчивых оценок.
В непараметрическом случае, когда вид g ( x , 0 ) неизвестен, заменим g ( x , 0 ) в (2) непараметрической симметризованной оценкой Розенблатта–Парзена
Г 29 — х — t I gN (x, 0) = — f KI 0 x t I dFN (t). (3)
N V N )
Например, для нормального ядра уравнения для оценки параметров сдвига 0 и масштаба X принимают следующий вид [7; 8]:
N ( N - 1)
NN
ЕЕ (0 n
i = 1 * j = 1
- z j ) ■ W 1 ( z j ) = 0,
Выражение (5) определяет дисперсию параметрического ВММП (классические М -оценки) и при l = 0 (5) совпадает с выражением для дисперсии ОМП, а при l = 1 – с выражением для дисперсии ОМУ [7].
Для непараметрического ВММП
ф ( x , 0 , T 1 , T 2 ) = T 1 (x , 0 ) ■ T 2 1 - 1 ( x , 0 ),
где
1 N N ( g _ 7 A 1 ---1— у у I 0 N z ij I - j- N ( N - 1) ЕЕ V X N J 1 + 1
W ( z j ) = exp
—
( 0 N - Z j ) 2
x N
X
N - 1
N
Е exp i * m =1
■ W 1 ( z j ) = 0,
Jx
( 0 N - Z m ) 2 Г
X N J
xi + xj zj = —---полусуммы Уолша.
Рассмотрим обобщенную М -оценку 0 N параметра 0 , которая определяется на основе решения эмпирического уравнения вида
J v ( x , 0 n , T n ( x , 0 n ) dF N ( x ) = 0,
1 Г 20 - x -11
S1(x, t, 0) = K\-------------I, hN V hN )
d
S 2 ( x , t , 0 ) = —S 1 ( x , t , 0 ).
d0
Выражение (5) определяет дисперсию непараметрического ВММП в зависимости от l.
Зависимости дисперсии параметрической (рис. 1) и вариации непараметрической (типа «складного ножа» jackknife) (рис. 2) оценок ВММП для модели Тьюки с асимметричным засорением от параметра радикальности 1 (0 < 1 < 1) приведены ниже (кривая 1 на рис. 1 – без выбросов, кривая 2 – 3 % выбросов, среднее – 4, кривая 3 – 10 % выбросов, среднее – 4; кривая 1 – на рис. 2 – без выбросов, кривая 2 – выброс – 5, кривая 3 – выброс – 11, N = 39 + 1 выброс).
где T = ( T ,..., T k ) T ; T i = J S ( x , t , 0 ) dF ( t );
T N = J S i ( x , t , 0 ) dF N ( t ).
В связи с ограниченностью объема статьи приведем без доказательства ряд результатов в окончательном виде.
Имеет место следующее представление:
—I-1
0 N -
- 1
0= J—ф ( x , 0 , T ) dF ( x ) - JV ( t , 0 ) dF ( t ),
d0
Рис. 1
V ( t , 0 ) = ф ( t , 0 , T ( t , 0 )) +
+Е [ S i ( x , t , 0 )^Ф( t , 0 , T(t , 0 )) dF ( x ).
i = 1 d T i
При выполнении ряда ограничений NN ( 0 N - 0 ) имеет асимптотически нормальное распределение с дисперсией
1 -2
G 2
- 2
= f —Ф ( x , 0 , T ;) dF ( x ) Av 2 ( t , 0 ) dF ( t ).
j d0 J
Техника доказательства основана на работах Г. М. Кошкина ([9]) и результаты имеют место для стационарных процессов со слабой зависимостью.
В параметрическом случае ( S i = 0)
Рис. 2
ф ( x , 0 ) =
d
g ( x , 0 ) d0
g‘ - 1 ( x , 0 ).
Анализ дисперсии и вариации в зависимости от l (рис. 1, 2) показывает, что существует оптимальное l , доставляющее минимум дисперсии и вариации оценки.
Адаптивные оценки взвешенного метода максимального правдоподобного. Непараметрический подход на основе оценок Розенблатта–Парзена вида (3) позволяет осуществить адаптацию оценок ВММП по виду распределения. Адаптации по параметру радикальности l (0 ≤ l ≤ 1) производится с помощью бутстреп-метода. Для этого достаточно использовать простые бутстреп-процедуры типа «складного ножа» (jackknife) и алгоритмы поиска минимума вариации непараметрического ВММП. Моделирование также показывает, что при оптимальном l наблюдается и минимальное смещение оценки.
Примеры. Как отмечалось выше, значительный интерес представляет нахождение робастных непараметрических оценок для U -статистик. Применим для этого адаптивные оценки ВММП.
В первую очередь нас интересуют робастные непараметрические оценки функции распределения G ( t ) = ∫ C ( t - y ) dG ( y ) и плотности в виде g ( t ) = ∫ K (( t - y ) ⋅ hN - 1 ) dG ( y ), где С ( у ) – функция Хевисайда; K ( y ) – ядерная функция. Зафиксируем значение t = t 0. От выборки у 1, ..., yM перейдем к выборкам xi = C ( t 0 - yi ) для ФР и xi = K (( t 0 - yi ) ⋅ hN - 1 ) для плотности соответственно.
Представим результаты моделирования в зависимости от l для асимметричной модели выбросов Тью-ки ( N = 100, 10 % выбросов из нормального распределения со средним, равным пяти, рис. 3, 4). Хорошие результаты показывают радикальные оценки ( l = 0,5), l оптимально при l = 0,35, при l = 1 происходит достаточно сильное подрезание.
Результаты моделирования для вариаций оценок дисперсии ( xk = 0,5 ⋅ ( yi - yj )) и средней разницы Джини ( xk = yi - yj ) приведены на рис. 5, 6 ( N = 30 + + 1 выброс).
Таким образом, предложен адаптивный робастный непараметрический алгоритм нахождения линейных функционалов, который позволяет адаптивно (путем мягкого усечения) настраивать оценку в зависимости от исходного распределения и выбросов. Рассмотрено робастное оценивание функции распределения, плотности распределения типа Розенблатта– Парзена, дисперсии, средней разницы Джини. Проведено моделирование оценок для асимметричной модели засорений Тьюки. На модели эксперимента Бе-рана [7] проведено сравнение оценки Берана и вышеприведенной оценки. Они показывают одинаковые результаты, но в оценке Берана функция усечения и окно для нее (адаптация) подбирались эвристически [6]. Необходимо отметить, что представленный в данной статье подход позволяет применять робастные оценки ФР и плотности методом подстановки для получения адаптивных оценок неявных параметров от нелинейных функционалов.