Аппроксимация двумерных законов распределения зависимых случайных величин
Автор: Кудрявцев Дмитрий Андреевич, Лзин Илья Александрович
Журнал: Известия Самарского научного центра Российской академии наук @izvestiya-ssc
Рубрика: Автоматизированные системы научных исследований
Статья в выпуске: 4-2 т.16, 2014 года.
Бесплатный доступ
Статья посвящена проблеме аппроксимации плотностей вероятности двумерных зависимых случайных величин. В статье приводится способ решения задачи и возможность использования нейронных сетей. Вид распределения определяется многослойным персептроном, а параметры вычисляются с использованием RBF-сети. В результате выводятся итоговые формулы для вычисления параметров плотности двумерных законов распределения. В статье приводится таблица с результатами исследований методов решения.
Двумерная случайная величина, аппроксимация плотности вероятности, параметрическая модель, нейронная сеть
Короткий адрес: https://sciup.org/148203202
IDR: 148203202
Текст научной статьи Аппроксимация двумерных законов распределения зависимых случайных величин
Данный подход исследования двумерных распределений можно использовать для различных видов распределений, но для упрощения генерации исходных данных и отладки алгоритмов рассмотрим параметрическую модель, заданную следующим способом:
<
[ X = X 1 ,
Y = 7 1 - p2 • X 2 + p2 • X 1 , (1)
где X 1 и X 2 - независимые величины, p - коэффициент корреляции.
Ограничимся рассмотрением нормального и экспоненциального одномерных законов, а также закона Вейбулла. Исходя из линейного характера зависимости между случайными величинами X и Y , построим прямую, используя метод наименьших квадратов (МНК) :
y = ax + b . (2)
Задача заключается в нахождении коэффи-

Рис. 1. Преобразование модели циентов линейной зависимости, при которых следующая функция принимает наименьшее значение [1]:
F (a, b ) = E”=i (У . - (aXi + b ))2 ^ min’ (3) где n – размер выборки, a , b – коэффициенты линейной зависимости в выражении (2), xi , yi – i-ый элемент двумерной выборки.
После определения а и b сумма квадратов отклонений экспериментальных данных от найденной прямой будет наименьшей. Далее двумерную выборку необходимо повернуть так, чтобы случайные величины X и Y можно было рассматривать как независимые. Получена следующая формула:
У , = y - a ( X, - mx ) , (4)
где a – коэффициент линейной зависимости, найденный методом МНК, mx – оценка математического ожидания, y – -ый элемент выборки по оси ординат после преобразования, y – -ый элемент выборки по оси ординат до преобразования, x – -ый элемент выборки по оси абсцисс до преобразования.
Для удобства постановки задачи классификации будем представлять случайную последовательность в виде частотной двумерной гистограммы с разбиением на M x коридоров по оси x и M y коридоров по оси y , построенной по исследуемой выборке, представленной на рис. 2.
Для восстановления аналитического выражения функции плотности вероятности из набора узловых точек используется алгоритм нейросетевой аппроксимации. Для примера, в качестве базовой модели для определения коэффициентов нормального-нормального закона распределения вероятности, который был установлен на этапе классификации, берется RBF -сеть, нейроны скрытого слоя которой являются двумерны-

Рис. 2. Частотная гистограмма двумерной выборки
ми функциями Гаусса вида:
- ( V x X - C x ) 2 - ^ у У - c y )2
G (x, y) = e 2 2 .(5)
Для нормального-экспоненциального закона распределения вероятности:
- ( V xx - c x ) - , y
G(x, y) = e 2 y .
Для нормального-Вейбулла закона распре- деления вероятности:
ky - ( v xx - c x )2
G (x, У) = p" • e
P y
P y
Эти функции используются для построения аппроксимирующей модели, которая выглядит следующим образом:
f ( x, y ) = w • G ( x , y ) . (8)
Неизвестные коэффициенты w , Vx , Vy, Cx, C y , Py , ky , Xy в выражениях (5-7) являются настраиваемыми, а их значения определяются в процессе обучения нейронной сети.
Таким образом, целевая функция определяется по формуле:
-
1 M x - 1 M y -1 A
E=7 EE(f(x, y,)- f(x, yj))2 ^ min. (9)
-
2 i = 0 j = 0
Приведем формулы вычисления параметров для нормального-нормального закона распределения вероятности:
V = V x + ^ w • Gx , y ) • ( G ( x , y ) - f ( x,y j )) V , x- - c x ) x,
V y =V y +n^ w • G ( x , y) • (G(x , y) - f ( x,y) V y y , - c y ) y j , C x = C x - ^ ^ w • G ( x , y ) • (G(x , y ) - f ( x,y j )) V x x , - C x ), (10) c y = C y - ^ ^ w • G ( x , y) • (G(x , y) - f ( x,y j )) V y y , - C y )•
Для нормального-экспоненциального:
V x = V x +^ w ^ G ( x,y M Gx,y) - f (x,yj))V'xt - C x )x,
C
x
=
C
x
-
^
w
^
G
(
x,y)
^
(G
Для нормального-Вейбулла:
V x = V x + ^ ^ w • G(x,У) • (G(x,У) - f ( x,y])')( x x - - C x ) x, C. = C x - ^w • G ( x , y ) • (G(x,У) - f ( x,y)) (^ x - C x Y y k y
Py = Py -^^ w• G(x,y)• (G(x,y)- f (x,,y,)) jy, Py y ky (12)
k y = k y -П^ w • G ( x,y) • ( G ( x,y ) - f ( x, у , ))1п( у , .)(1 - y j- ).
P y
Оценка погрешности аппроксимации вычис-
Таблица 1. Результаты исследования методов
A = [f (f (x, y) - f( x, y))2 dxdy. (13)
D
Для исследования погрешности было проведено 29 испытаний [2]. Также, полагая величину погрешности случайной величиной, распределенной по нормальному закону, величина погрешности оценивается по правилу “трёх сигма”. В каждом из испытаний строилась гистограмма 15 на 15 столбцов и моделировалась выборка случайной величины, состоящая из 10000 отсчетов и распределенная по двумерному нормальному закону. Результаты исследования представлены в табл. 1.
Первая строка – погрешность, полученная с использованием методов описанных в статье, вторая строка – результаты исследования погрешности аппроксимации RBF-сетью [3].
Третья строка – результаты, описанные в [4], последняя строка – результат использования метода моментов.
В таблице m x представляет выборочное среднее погрешности аппроксимации, рассчитанное по 29 значениям, СТ - корень выборочной дисперсии, max – максимальная величина погрешности среди проведенных испытаний.
Таким образом, по результатам испытаний, которые приведены в таб. 1, можно сделать вывод о том, что метод, описанный в статье, имеет меньшую погрешность, чем метод моментов, однако большую, чем метод, основанный на аппроксимации RBF-сетью [3], и метод, используемый для работы с двумерной независимой выборкой [4].
Список литературы Аппроксимация двумерных законов распределения зависимых случайных величин
- Линник Ю.В. Метод наименьших квадратов и основы математико-статистической теории обработки наблюдений. М.: Государственное издательство физико-математической литературы, 1958. с. 337
- Методы нормирования метрологических характеристик, оценки и контроля характеристик погрешностей средств статистических измерений. РТМ 25139-74/Минприбор, 1974. 76 с.
- Лёзин И.А. Автоматизированный комплекс аппроксимативного анализа двумерных законов распределения ортогональными полиномами и нейронными сетями//Информационные технологии в высшем профессиональном образовании: Сборник докладов II межрегиональной научно-практической конференции [под.ред. О.А. Тарабрина, А.В. Очеповского]. Тольятти-Самара: Самарский государственный аэрокосмический университет, 2007. С.84-87.
- Аппроксимация двумерных плотностей вероятности параметрическими моделями/Д.А. Кудрявцев, И.А. Лёзин, С.А. Прохоров//Вестник транспорта Поволжья. Сентябрь-октябрь 2012. №5 (35). С.70.