Метод подбора наилучшего закона распределения непрерывной случайной величины на основе обратного отображения
Бесплатный доступ
Описан новый метод выбора закона распределения непрерывной случайной величины из заданного множества моделей распределений. Идея метода состоит в непрерывном отображении эмпирического выборочного распределения на эталонную прямую. Для каждого модельного распределения определяют значение функционала, равного среднеквадратической величине ошибок при отображении на эталонную прямую. В результате в качестве наиболее вероятного закона для исходной выборки выбирают тот, для которого соответствующее значение функционала будет минимальным. Приведены примеры реализации метода с помощью статистических испытаний на основе метода Монте-Карло.
Случайная величина, закон распределения, идентификация, случайная выборка, статистические испытания методом монте-карло, критерий согласия
Короткий адрес: https://sciup.org/147158927
IDR: 147158927 | DOI: 10.14529/mmph170104
Текст научной статьи Метод подбора наилучшего закона распределения непрерывной случайной величины на основе обратного отображения
Как известно [1, с. 525], задача математической статистики состоит в том, чтобы на основе анализа выборки сделать научно обоснованное заключение о распределении генеральной совокупности. Очевидно, что установить истинный вид распределения по конечной выборке нельзя, поскольку между конечной выборкой и бесконечным количеством законов распределения невозможно построить однозначное соответствие. Поэтому на практике упрощают постановку задачи, и на основании выборки экспериментальных данных и теоретических соображений подбирают вероятностную модель, которая в некотором смысле наилучшим образом приближает этот истинный закон [2].
Классический подход к структурно-параметрической идентификации закона распределения базируется на аппарате математической статистики [3–6]. Он состоит в последовательной реализации следующей двухэтапной процедуры для каждого вида параметрической модели из рассматриваемого множества законов:
-
1) построение по выборке данных из рассматриваемого множества моделей модели закона определенного вида и оценивание параметров этой модели;
-
2) оценивание на основе критериев согласия степени адекватности полученной модели экспериментальным наблюдениям.
Однако здесь возникает проблема неопределенности результата, поскольку обычно множество распределений будут не противоречить нулевой гипотезе. Формальной процедуры выбора из множества непротиворечивых законов распределения, в большей степени соответствующего выборке данных, нет. Кроме того, критерии согласия имеют разную мощность по отношению к различным альтернативам. Это означает, что у любого из них существуют наиболее близкие альтернативы, для которых он может оказаться несостоятельным, т.е. мощность окажется слишком малой [7].
Другое направление исследований состоит в разработке методов восстановления неизвестной функции плотности, рассчитанных на конкретную ситуацию [8–11]. Однако их эффективное применение требует достаточно большой выборки данных или наличия априорной информации о форме распределения на малых выборках, что не всегда возможно. Можно также отметить на неудобство интерпретации полученной оценки распределения.
Известен так называемый топологический подход [2], основанный на идентификации вид закона распределения на основании вектора значений оценок некоторых числовых характеристик
Математика
(например, коэффициенты асимметрии и эксцесса [12], энтропийный коэффициент и контрэксцесс [13] и др.), вычисляемых по выборочным данным. Однако как отмечено в [2], данный подход имеет ряд существенных недостатков:
-
- низкая точность оценок центральных моментов высоких порядков;
-
- неустойчивость выборочных оценок таких числовых характеристик к незначительным отклонениям выборочных данных от предполагаемого закона, включая наличие выбросов;
-
- чувствительность оценок к выбираемой длине интервала при группировании данных.
Можно также отметить недостаточное теоретическое обоснование топологического подхода, так как не исследован вопрос наличия различных распределений с близкими значениями рассматриваемых числовых характеристик. Поэтому, несмотря на простоту и привлекательность топологического подхода, указанные недостатки существенно снижают достоверность идентификации закона распределения.
Таким образом, представляется актуальным направлением разработка методов идентификации закона распределения генеральной совокупности по конечной выборке на основе выбора модели, достаточно адекватно ее описывающей. Это означает, что по экспериментальным данным из заданного множества различных законов распределений необходимо выбрать тот, который бы в наибольшей степени соответствовал измеренной случайной величине. В этом случае одна и та же выборка может принадлежать с различной вероятностью каждому из рассматриваемых законов распределения. В качестве искомого нужно выбрать наиболее вероятный закон распределения для данной выборки из конечного множества моделей. Удобство использования аналитического распределения и простота интерпретации результатов в случае достаточной близости эмпирического распределения к выбранной модели могут оказаться существенными преимуществами. Кроме того, результат может быть в дальнейшем улучшен на основе использования критериев согласия.
В [14] описан метод подбора наилучшего закона распределения случайной величины по экспериментальным данным, реализующий указанный выше подход. Однако достоверность выбора из множества моделей истинного теоретического распределения оказалась недостаточно высокой на малых выборках. Также не высока и скорость сходимости к единице вероятности выбора истинной модели. В качестве основного недостатка метода можно указать на неоднозначность доопределения выборочной функции распределения до непрерывной. Использование двойных интегралов при этом усиливает погрешность, снижая достоверность распознавания.
Таким образом, целью предлагаемой работы является разработка ориентированного на практическое применение метода, позволяющего для малых выборок с приемлемой точностью выбирать наиболее соответствующий экспериментальным данным вид закона распределения среди конечного множества заданных моделей.
Методика решения
Пусть имеется простая выборка ( x 1 ,..., x n ) из генеральной совокупности ^, имеющей некоторую неизвестную непрерывную функцию распределения Fo(x ). Также зададим конечное множество непрерывных законов распределения, описываемых с помощью плотностей { p 1 (x ),..., p m ( x )} либо функций распределения { F 1 ( x ),..., F m ( x )}. В это множество необходимо включить с точностью до значений параметров такие законы распределения, которые могут соответствовать исследуемой генеральной совокупности £ Необходимо определить среди них наиболее вероятный закон для данной выборки.
Пусть F 0( x ) - функция распределения произвольной непрерывной случайной величины £ Так как функция F 0( x ) является строго монотонно возрастающей, то она имеет обратную функцию. Зададим произвольную монотонно возрастающую на всей числовой оси функцию F ( x ). Для функций F ( x ), F 0( x ) введем отображение G ( F , F o): F ( x ) ^ f ( x ) как
{ F - 1[ F o ( x )]} = f ( x ), (1) где F - 1 - функция, обратная к функции F .
Тырсин А.Н.
Метод подбора наилучшего закона распределения непрерывной случайной величины на основе обратного отображения
Из свойств обратной функции следует, что если Fo( x ) = F ( x ), то согласно (1) F o( x ) — ——— F o ) > x. Т.е. в этом случае отображение (1) даст прямую линию y = x . Очевидно, что V F ( x ) такой, что F o( x ) * F ( x ) получим { F - 1[ Fo(x )]} = f ( x ) * x. Поскольку обратное преобразование является непрерывном, то в результате удается установить отношение порядка на любом конечном множестве модельных функций распределения W = { F 1 ( x ),..., F m ( x )}. В идеале если одна из функций множества W совпадет с функцией F 0( x ), то отображение (1) полностью совпадет с линейной функцией y = x . В противном случае получим множество функций { F -1 [ F o ( x )]} = fk ( x ) * x , k = 1,2, ... , m .
Упорядочим выборку ( x 1 ,..., x n ), т.е. составим вариационный ряд x <-1 ) < x ( 2 ) < ... < x ( n ) . Для вариационного ряда ( x (1) ,..., x ( n ) ) вместо функции распределения F 0( x ) получим функцию F n ( x ), которая в точках x ( i ) будет равна
i
F n ( x ( i ) ) = -, i = 1,2, . , n , (2)
n
Отметим, что на практике измеренные значения экспериментальных данных обычно округляют с заданной точностью, при этом некоторые варианты могут совпасть. Поэтому если x ( j - 1 ) = x ( j - 1 + 1) = ... = x ( j ) , то считаем F n ( x j - 1 ) = F n ( x j - 1 + 1 ) = ... = Fn ( x j ) = nj .
Далее значениям (2) с помощью (1) ставим в соответствие некоторые значения
{ F k "*[ F ( x ( , ) )]} = x < k ) , (3)
где x ■k ) - решение уравнения Fk ( x ) = x ( i ) ; e( k ) = x ( k ) - x ( i ) - отклонения (невязки) полученных оценок x ( k ) относительно вариант x ( i ) , k = 1,2, ... , m .
Отметим, что согласно (3) не требуется доопределять выборочную функцию распределения F n ( x ) между точками x ( i ) i = 1,2, ... , n . Это значительно упрощает реализацию метода и устраняет проблему неоднозначности доопределения выборочной функции распределения F n ( x ) между вариантами вариационного ряда.
Преобразование (3) независимо от функциональной формы модельных распределений из множества W отображает выборочную функцию распределения F'n (x) на одну и ту же прямую y = x . Чем более адекватна модель Fk(x) эмпирическому распределению F'n (x), а значит по вероятности и распределению Fo(x) генеральной совокупности ^, тем ближе будут расположены точки :r(k) к значениям x(i). Поскольку в (3) при вычислении оценок 5сik) не оценивались параметры моделей распределений Fk(x) то данная процедура является непараметрической. С учетом этого и того, что для однотипных линейных моделей критерием точности является среднее значение квадратов ошибок [15], используем в качестве критерия эффективности величину n dk =1Z (e( k ))2. (4)
n, = 1
Согласно этому критерию в качестве наиболее достоверной модели для исходной выборки выбираем модельное распределение Fk ( x ), которое обеспечит минимум среднеквадратической величины ошибок (4).
Отметим, что для данного метода достаточно легко обеспечить свойство робастности относительно возможного присутствия в выборке выбросов [16]. Для этого нужно выполнить цензурирование, т.е. исключить из рассмотрения несколько крайних вариант вариационного ряда.
Экспериментальная часть
Проведем с помощью метода статистических испытаний Монте-Карло [ 17] несколько экспериментов для исследования эффективности предложенного метода.
Математика
Каждый эксперимент выполним по стандартной схеме. Для L = 1000 независимых случайных выборок из генеральной совокупности с распределением F0(x) объемом n будем выбирать наиболее вероятный закон из некоторого набора законов распределения {F1(x),..., Fm (x)} , содер- жащего закон F0(x), с помощью описанного метода. У всех распределений зададим те же математические ожидания и дисперсии, что и у распределения F0(x), а именно, математическое ожидание равно 0, а дисперсия равна 1. Для каждого закона распределения Fk(x) определим процент случаев, когда он был выбран наиболее вероятным.
Пример 1. Рассмотрим экспоненциальное семейство распределений [18] с плотностью f (x) =
X 2420 1 ^ ( 1/ X )
exp <
I x - *1 f 72 0 1 J
где 0 0 - параметр сдвига, равный математическому ожиданию; 0 1 - параметр масштаба; X - параметр формы. Частными случаями данного закона являются распределение Лапласа (при X = 1), нормальное ( X = 2), предельными - распределение Коши ( X^ 0) и равномерное ( Х ^^ ). Параметр масштаба задает дисперсию распределения. В частности, в табл. 1 для нескольких распределений из семейства (5) приведены значения параметра масштаба, соответствующие единичной дисперсии.
Таблица 1
Значения параметров формы и масштаба для некоторых распределений, имеющих единичную дисперсию
X |
0,5 |
0,75 |
1 |
1,5 |
2 |
2,5 |
3 |
3,5 |
4 |
0 1 |
0,06454 |
0,27279 |
0,5 |
0,82284 |
1 |
1,09906 |
1,15735 |
1,19329 |
1,21628 |
Случай 1. Пусть генеральная совокупность имеет нормальный закон распределения ( X = 2) с нулевым математическим ожиданием и единичной дисперсией. Результаты эксперимента приведены в табл. 2.
Таблица 2
Результаты эксперимента для пяти законов распределения c разны ми параметрами формы X, генеральная совокупность имеет нормальное распре деление
X |
Объем выборки n |
|||
100 |
200 |
400 |
800 |
|
1 |
0,5 % |
0,0 % |
0,0 % |
0,0 % |
1.5 |
22,4 % |
17,2 % |
7,6 % |
1,8 % |
2 |
48,3 % |
61,0 % |
77,0 % |
92,1 % |
2.5 |
19,3 % |
17,9 % |
15,1 % |
6,1 % |
3 |
9,5 % |
3,9 % |
0,3 % |
0,0 % |
Видим, что предложенный метод позволяет определить наиболее вероятный закон. Нормальное распределение наиболее часто оказывался самым вероятным законом. Достоверность выбора истинного распределения растет с увеличением объема выборки. Отметим, что предложенный метод обеспечил значительно более высокую достоверность распознавания по сравнению с известным методом из [14], там частота правильного выбора нормального распределения была равна: 41,5 % (при n = 100); 53,5 % (при n = 200); 69,1 % (при n = 400); 84,3 % (при n = 800).
Случай 2. Пусть генеральная совокупность имеет закон распределения Лапласа ( X = 1 ) с нулевым математическим ожиданием и единичной дисперсией. Результаты эксперимента приведены в табл. 3. Видим, что результаты оказались лучше, чем для случая 1.
Пример 2. Исследуем теперь достоверность правильного выбора распределения среди двух законов – нормального распределения и распределения Симпсона с одинаковыми нулевыми математическими ожиданиями и единичными дисперсиями. Критерий согласия % 2 Пирсона начинает достаточно устойчиво их различать, начиная от объема выборки n = 1000. Результаты эксперимента приведены в табл. 4, 5. В первом случае (табл. 4) генеральная совокупность имела нормальное распределение, во втором (табл. 5) – распределение Симпсона. Результаты моделирования свидетельствуют о высокой достоверности идентификации истинного закона распределения.
Тырсин А.Н. Метод подбора наилучшего закона распределения непрерывной случайной величины на основе обратного отображения Таблица 3
Результаты эксперимента для пяти законов распределения c разными параметрами формы λ, генеральная совокупность имеет распределение Лапласа
λ |
Объем выборки n |
|||
100 |
200 |
400 |
800 |
|
0,75 |
19,4 % |
16,3 % |
8,9 % |
2,3 % |
1 |
59,7 % |
71,8 % |
87,1 % |
97,0 % |
1,5 |
19,9 % |
11,9 % |
4,0 % |
0,7 % |
2 |
0,8 % |
0,0 % |
0,0 % |
0,0 % |
2,5 |
0,2 % |
0,0 % |
0,0 % |
0,0 % |
Таблица 4
Результаты эксперимента для двух законов распределения, генеральная совокупность имеет нормальное распределение
Распределение |
Объем выборки n |
|||
100 |
200 |
400 |
800 |
|
Нормальное распределение |
80,8 % |
90,3 % |
95,9 % |
99,7 % |
Распределение Симпсона |
19,2 % |
9,7 % |
4,1 % |
0,3 % |
Таблица 5
Результаты эксперимента для двух законов распределения, генеральная совокупность имеет распределение Симпсона
Распределение |
Объем выборки n |
|||
100 |
200 |
400 |
800 |
|
Нормальное распределение |
16,9 % |
5,8 % |
0,9 % |
0,0 % |
Распределение Симпсона |
83,1 % |
94,2 % |
99,1 % |
100,0 % |
Таблица 6
Среднеквадратические значения и 95 %-е доверительные интервалы для оценок dk, генеральная совокупность имеет нормальное распределение
Объем выборки n |
Нормальное распределение |
Распределение Симпсона |
||
Среднее значение ошибок d 1 |
95 %-й доверительный интервал ошибок |
Среднее значение ошибок d 2 |
95 %-й доверительный интервал ошибок |
|
100 |
0,00458 |
(0,00355; 0,00598) |
0,00589 |
(0,00407; 0,00697) |
200 |
0,00294 |
(0,00206; 0,00404) |
0,00454 |
(0,00257; 0,00565) |
400 |
0,00209 |
(0,00117; 0,00285) |
0,00496 |
(0,00224; 0,00702) |
800 |
0,00121 |
(0,00075; 0,00248) |
0,00681 |
(0,00326; 0,00974) |
Для иллюстрации достоверности идентификации для первого случая (фактическим распределением генеральной совокупности является нормальный закон) в табл. 6 приведены значения оценок математического ожидания dk среднеквадратического значения ошибок и его 95 %-го доверительного интервала. Из табл. 6 видно, что величина среднеквадратических ошибок d 1 для нормального распределения и ее доверительный интервал (оно в данном случае являлось фактическим распределением генеральной совокупности ξ ) с ростом объема выборки n монотонно уменьшаются, что свидетельствует о сходимости оценок к нулю. А величина среднеквадратических ошибок d 2 для распределения Симпсона и ее доверительный интервал с ростом объема выборки n не уменьшаются, а наоборот, начиная с n = 400 , начинают расти. Это говорит о том, что
Математика
они не сходятся к нулю и предлагаемый метод работает корректно. Отметим , что аналогичные результаты относительно сходимости оценок среднеквадратических ошибок dk наблюдались во всех экспериментах.
Аналогичные результаты были получены и для других испытаний. В частности, метод оказался устойчивым относительно ошибок при задании параметров распределений. Метод, как правило, выбирал из нескольких однотипным моделей распределения ту, у которой параметры были ближе к истинным величинам генеральной совокупности.
Выводы
-
1. Предложен новый метод идентификации закона распределения непрерывной случайной величины по малым выборкам экспериментальных данных. Он позволяет из заданного конечного множества выбрать наиболее вероятный непрерывный закон распределения. Суть метода состоит в отображении выборочной функции распределения на эталонную прямую y = x .
-
2. Достоинствами предложенного метода идентификации закона распределения являются:
-
– метод является непараметрическим, так как не требует оценивания параметров моделей распределений, что без знания типа распределения может привести к снижению достоверности выбора распределения;
-
– не требуется доопределять выборочную функцию распределения до непрерывной;
-
– метод обладает свойством робастности по отношению к присутствию выбросов в выборочной совокупности.
-
3. Проведенное исследование предложенного метода на основе статистических испытаний показало его работоспособность.
Список литературы Метод подбора наилучшего закона распределения непрерывной случайной величины на основе обратного отображения
- Справочник по теории вероятностей и математической статистике. -2-е изд., перераб. и дополн./В.С. Королюк, Н.И. Портенко, А.В. Скороход, А.Ф. Турбин. -М.: Наука, 1985. -640 с.
- Лемешко, Б.Ю. О задаче идентификации закона распределения случайной составляющей погрешности измерений/Б.Ю. Лемешко//Метрология. -2004. -№ 7. -С. 8-17.
- Кендалл, М. Статистические выводы и связи: Пер. с англ./М. Кендалл, А. Стьюарт. -М.: Наука. Физматлит, 1973. -899 с.
- Крамер, Г. Математические методы статистики: Пер. с англ. -2-е изд./Г. Крамер. -М.: Мир, 1975. -648 с.
- Леман, Э. Проверка статистических гипотез: Пер. с англ. -2-е изд., испр./Э. Леман. -М.: Наука. Физматлит, 1979. -408 с.
- Уилкс, С. Математическая статистика: Пер. с англ./С. Уилкс. -М.: Наука. Физматлит, 1967. -632 с.
- Ивченко, Г.И. Введение в математическую статистику/Г.И. Ивченко, Ю.И. Медведев. -М.: ЛКИ, 2010. -600 с.
- Тарасенко, Ф.П. Непараметрическая статистика/Ф.П. Тарасенко. -Томск: Изд-во ТГУ, 1976. -294 с.
- Катковник, В.Я. Непараметрическая идентификация и сглаживание данных/В.Я. Катковник. -М.: Наука, Физматлит, 1985. -336 с.
- Деврой, Л. Непараметрическое оценивание плотности. L1-подход: Пер. с англ./Л. Деврой, Л. Дьерфи. -М.: Мир, 1988. -408 с.
- Карандеев, Д.А. Проблема оценивания плотности вероятности по эмпирическим данным/Д.А. Карандеев, И.М. Эйсымонт//Управление большими системами. -1998. -Вып. 1. -С. 48-57.
- Яшин, А.В. Выбор метода решения задачи идентификации законов распределения случайных погрешностей средств измерений/А.В. Яшин, М.А. Лотонов//Измерительная техника. -2003. -№ 3. -С. 3-5.
- Новицкий, П.В. Основы информационной теории измерительных устройств/П.В. Новицкий. -Л: Энергия, 1968. -248 с.
- Клявин, И.А. Метод подбора наилучшего закона распределения случайной величины по экспериментальным данным/И.А. Клявин, А.Н. Тырсин//Автометрия. -2013. -Т. 49, № 1. -С. 18-25.
- Магнус, Я.Р. Эконометрика. Начальный курс. -6-е изд., перераб. и доп./Я.Р. Магнус, П.К. Катышев, А.А. Пересецкий. -М.: Дело, 2004. -576 с.
- Панюков, А.В. Взаимосвязь взвешенного и обобщенного вариантов метода наименьших модулей/А.В. Панюков, А.Н. Тырсин//Известия Челябинского научного центра. -2007. -Вып. 1(35). -С. 6-11.
- Ермаков, С.М. Метод Монте-Карло и смежные вопросы/С.М. Ермаков. -М.: Наука, 1975. -472 с.
- Лемешко, Б.Ю. Корреляционный анализ наблюдений многомерных случайных величин при нарушении предположений о нормальности/Б.Ю. Лемешко, С.С. Помадин//Сибирский журнал индустриальной математики. -2002. -Т. 5, № 3. -С. 115-130.