Условия эффективности применения метода простого интервального оценивания

Бесплатный доступ

Метод простого интервального оценивания предполагает применение экстремальных порядковых статистик для оценивания математического ожидания случайной величины. Ранее было сформулировано, что необходимым условием большей эффективности этой оценки по сравнению с оценкой выборочного среднего является ограниченность помехи. В работе показано, что данное условие не является достаточным и должно быть дополнено требованием невырожденности помехи на границе диапазона.

Короткий адрес: https://sciup.org/14264540

IDR: 14264540

Текст научной статьи Условия эффективности применения метода простого интервального оценивания

Метод ПИО — простого интервального оценивания [1] — получил практическое развитие в области анализа больших массивов физико-химических данных [2]. Главным образом, его использование ориентировано на решение задач дискриминации или/и классификации.

Одним из его этапов является интервальное оценивание математического ожидания ограниченной промежутком [-в, в] случайной величины с плотностью распределения вероятностей f(x) как [max(x, - e);min(x, + в)]. Т. е. оценка использует экстремальные порядковые статистики. Необходимым условием ее эффективности является, по мнению авторов работ [2, 3], ограниченность погрешностей. В противном случае, как известно, при неограниченных погрешностях существуют наиболее эффективные оценки метода максимального правдоподобия, отличные от ПИО-оценок. Так, для случая нормальной (гауссовой) погрешности наиболее эффективна оценка выборочного среднего, для случая симметричной экспоненциальной (лаплассовой) погрешности наибольшей эффективностью обладает медианная порядковая статистика.

Полагая ограниченность не только необходимым, но и достаточным условием эффективности ПИО-оценки, в работе [2] делается вывод: ширина доверительного интервала 5 для математического ожидания на основе оценок выборочного среднего

5 = O ( 1/V )

и медианы —

, в то время как для

ПИО-оценки (экстремальной порядковой статистики ) — 5 = O ( 1/ n ) , и это гарантирует большую эффективность ПИО-оценок для объемов выборки, начиная с некоторого достаточно большого n .

В работе более развернуто обосновывается ранее сформулированная автором идея [4], что тре бование ограниченности помехи не является достаточным, и на помеху должно быть наложено еще одно нетривиальное ограничение.

АНАЛИЗ ВЕЛИЧИНЫ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА ПИО-ОЦЕНКИ (ЭКСТРЕМАЛЬНОЙ ПОРЯДКОВОЙ СТАТИСТИКИ)

Без значимой потери общности полагаем ограниченное распределение симметричным с диапазоном [-1, 1] и зададим доверительную вероятность Р = 1 - 2 Q .

В соответствии с известными формулами (бета-распределениями), плотность распределения вероятностей произвольной к -й порядковой статистики из выборки n измерений будет f k ( x ) = = nC k - Fk - 1( x ) ( 1 - F ( x ) ) ” k f ( x ). Соответственно для максимальной ( n -й) статистики плотность распределения вероятностей будет f n ( x ) = = nF - 1 ( x ) f ( x ), следовательно, функция распределения есть F n” ( x ) = F ( x ), где F ( x ) — функция распределения исходной величины (элемента выборки).

Минимальная граница доверительного интервала для n -й статистики определена условием: при x = 1 - 5 /2 функция распределения есть Q , т. е. F (1 - 5 /2) = Q . Аналогично, как следствие симметрии, максимальная граница нижней (первой) порядковой статистики определяется условием F H + 5 /2) = Q .

Тем самым для смещенных на ±1 порядковых статистик доверительный интервал, соответствующий вероятности 1-2Q, является симметричным относительно нуля интервалом [-5 / 2; 5 /2]. Тогда граница доверительного интервала ПИО-оценки (n-порядковой статистики) определена ус- ловием F(1 -5/2) = Q1n. Оценим 5 при n ^ ^, представив функцию распределения F(x) многочленом Тейлора 2-го порядка с x0 = 1. Левая часть равенства примет вид: F (1 - 5 /2) = 1 --f (1)• 5/2 + F''(1)• 52 / 8 + о(52). Т. к. при n ^ ^ 1 - Q!/n = ln(1/ Q) Л/n = O(1/n) в соответствии с

"замечательным" пределом, то 5 = O (1/n) гаран тируется только при f 1) > 0. В противном случае

5 = O ( 1/T n ) ,

и ПИО-оценка может иметь мень шую эффективность по сравнению с альтернативными оценками медианы и выборочного среднего.

Заметим, что в случае f 1) = 0 обязано выполняться f(1) = F '(1) < 0, т. к. для точек внутри интервала (-1;1) плотность распределения вероятностей положительна. Тогда всегда возможно вы- числить оценку доверительного интервала на основе параболического приближения.

Подтверждающим примером является распределение Симпсона: f ( x ) = 1 - | x | при | x | <  1, т. е. f (1) = 0. Данная случайная величина обладает математическим ожиданием ноль (в силу симметричности и ограниченности) и дисперсией 1/6. Очевидно, что дисперсия выборочного среднего будет в n раз меньшей. Полагая квантиль распределения Стьюдента t Q n , получим ширину доверительного интервала оценки выборочного среднего 5 = 2 t Q n V1/6 n , а ПИО-оценки — 5 = - 8ln( Q )/ n , т. е. возможно большую. Аналогичным свойством будут обладать косинусное распределение с параметром 1 и ряд других, вырожденных на границе диапазона.

Тем самым для гарантированного достижения большей эффективности ПИО-оценки, начиная с какого-либо, возможно, достаточно большого номера n , требуется удовлетворение еще одного нетривиального условия — невырожденность случайной величины на границе диапазона.

Следует заметить, что заведомо вырожденной на границе диапазона будет, например, разностная помеха при ограниченности исходной помехи. Как известно, соответствующая плотность распределения вероятностей разностной помехи определится как интегральная свертка двух одинаковых сдвинутых друг относительно друга плотностей распределения вероятностей f ( x ). Аналитически с учетом ограниченности исходной помехи диапазоном [-1;1] ее плотность распределения вероятностей р ( х ) определится как p ( x ) =

= J f ( t ) f ( t - x )d t при x 0. Нетрудно показать, x - 1

что при х = 2 пределы интегрирования совпадут, и, по определению, подобный интеграл есть ноль.

ИМИТАЦИОННОЕ МОДЕЛИРОВАНИЕ

За основу возьмем стандартный датчик равномерно распределенной случайной величины R [0;1], реализуемый функцией RANDOM на языке С++. Этот датчик имеет свои недостатки, особенно в случае генерации коротких серий равномерных случайных величин. Однако его качество достаточно для дальнейших оценок, не требующих особо высокой точности.

На основе генерированной равномерной случайной величины £ по известному методу формируется случайная величина, удовлетворяющая распределению Симпсона, по алгоритму:

5 = 72 7 - 1; 0 ^ < 1/2 и

5 = 1 - 72(1 - £); 1/2 < § < 1, а также удовлетворяющая косинусному распределению с параметром 1, имеющая плотность рас п пределения вероятностей f (x) = — cos(nx / 2),

| x | <  1 и функцию распределения F ( x ) = = ( 1 + sin( n x /2) ) /2, | x | <  1, формируемая по алгоритму c = 2 arcsin(2 ^ - 1) / п .

Для расчетов доверительного интервала ПИО-оценки требуется знание F ''(1): при распределении Симпсона F '(1) = -1, при косинусном распределении F '(1) = -^/8. Далее использован написанный выше многочлен Тейлора 2-го порядка.

Для расчета доверительного интервала оценки выборочного среднего требуется знание коэффициента Стьюдента t = 0.676 (более 120 степеней свободы), что практически совпадает с соответствующим квантилем нормального распределения t = 0.675 для Q = 25 %, а также дисперсию исходной случайной величины: для распределения Симпсона 1/6, для косинусного распределения 1- 8/ п 2.

Результаты имитационного моделирования представлены ниже. В соответствии с двумя законами распределения сгенерированы 400 серий по 400 измерений. В рамках каждой серии оценивается выборочное среднее значение, а также первый и последний члены вариационного ряда (экстремальные статистики). На основании измерений по всем сериям для каждой из указанных величин вычислен 50 %-й доверительный интервал ( Q = = 25 %) ПИО-оценки и оценки выборочного среднего.

В табл. 1 сведены результаты моделирования (названы "Модель") и теоретические расчеты ("Теория"). Данные таблицы отражают тенденцию: эффективность ПИО-оценки оказалась примерно в 5-6 раз хуже по сравнению с оценкой

Табл. 1. Доверительные интервалы оценок выборочного среднего и ПИО-оценок

Оценка

Закон

Симпсона

Косинусный

ПИО-оценка

Модель

Теория

0.1674

0.1665

0.1507

0.1499

Оценка выборочного среднего

Модель

Теория

0.02591

0.02755

0.02712

0.02938

Табл. 2. Отношение доверительных интервалов оценок ПИО и выборочного среднего для симпсоновской помехи

Q P, % k 0.25 50 6.042 0.20 60 5.219 0.15 70 4.606 0.10 80 4.100 0.05 90 3.645 0.03 94 3.449 0.02 96 3.336 0.01 98 3.196 0.005 99 3.097 0.001 99.8 2.946 ятности Р. Далее определим асимптотический предел этого отношения по мере стремления Q^0 (или P^100 %). Для решения указанной задачи достаточно рассмотреть асимптотическое отношение ln(1/Q)/t2 . Взяв за основу аппроксимацию интеграла вероятностей, приведенную в работе [6], для больших t (малых Q), получим приближенную оценку в виде

Q = exp t 2) ( 1 + о ( t _2) ) .

t у2 п

Переход к натуральному логарифму в правой и левой частях ведет к приближенному равенству ln( Q) = -12/2 - 1n(V2nt) , или

1п(1/ Q ) s 1/2 + 1п(У Л ) t 2 t 2.

Исследование предела при t ^ ^ (что соответствует Q ^ 0) после использования правила Лопи-таля дает оценку искомого отношения как 12. Тем самым асимптотически величина k стремится к 6.

Аналогичными рассуждениями получим, что асимптотическая эффективность ПИО-оценки для коси нусног о распределения будет соответствовать к = J .8 = 2.069.

  • V    п 2 - 8

Следовательно, в рассмотренных выше случаях ПИО-оценка по меньшей мере вдвое менее эффективна по сравнению с оценкой выборочного среднего.

ЗАКЛЮЧЕНИЕ выборочного среднего. Однако выбранная доверительная вероятность не слишком велика. В табл. 2 для различных доверительных вероятностей P (величин Q) приведены расчетные значения относительной эффективности ПИО-оценки к = ^ПИО / Зср (отношение доверительных интервалов ПИО-оценки и оценки выборочного среднего). Данные относятся к распределению Симпсона при к = д Д 2г ЕI или к = д 1™ ,

  • V    n /^ v 6 n J \ t

однако для другого рассматриваемого случая — косинусного распределения — ситуация количественно схожая.

При расчете использованы данные о квантилях нормального распределения [5]. Наблюдается тенденция уменьшения выигрыша по эффективности оценки выборочного среднего по сравнению с ПИО-оценкой по мере роста доверительной веро-

Сопоставление приведенных в таблицах данных позволяет сделать однозначный вывод о значимо большей эффективности оценки выборочного среднего по сравнению с ПИО-оценкой в указанных случаях ограниченных помех, вырожденных на границе диапазона — треугольной помехи Симпсона и помехи, удовлетворяющей косинусному распределению с параметром 1.

Таким образом, для гарантированного обеспечения большей эффективности ПИО-оценки по сравнению с оценкой выборочного среднего принцип ограниченности помехи должен быть дополнен условием ее невырожденности на границе диапазона.

Статья научная