Аппроксимация двумерных законов распределения зависимых случайных величин

Автор: Кудрявцев Дмитрий Андреевич, Лзин Илья Александрович

Журнал: Известия Самарского научного центра Российской академии наук @izvestiya-ssc

Рубрика: Автоматизированные системы научных исследований

Статья в выпуске: 4-2 т.16, 2014 года.

Бесплатный доступ

Статья посвящена проблеме аппроксимации плотностей вероятности двумерных зависимых случайных величин. В статье приводится способ решения задачи и возможность использования нейронных сетей. Вид распределения определяется многослойным персептроном, а параметры вычисляются с использованием RBF-сети. В результате выводятся итоговые формулы для вычисления параметров плотности двумерных законов распределения. В статье приводится таблица с результатами исследований методов решения.

Двумерная случайная величина, аппроксимация плотности вероятности, параметрическая модель, нейронная сеть

Короткий адрес: https://sciup.org/148203202

IDR: 148203202

Текст научной статьи Аппроксимация двумерных законов распределения зависимых случайных величин

Данный подход исследования двумерных распределений можно использовать для различных видов распределений, но для упрощения генерации исходных данных и отладки алгоритмов рассмотрим параметрическую модель, заданную следующим способом:

<

[ X = X 1 ,

Y = 7 1 - p2 X 2 + p2 X 1 ,        (1)

где X 1 и X 2 - независимые величины, p - коэффициент корреляции.

Ограничимся рассмотрением нормального и экспоненциального одномерных законов, а также закона Вейбулла. Исходя из линейного характера зависимости между случайными величинами X и Y , построим прямую, используя метод наименьших квадратов (МНК) :

y = ax + b .                (2)

Задача заключается в нахождении коэффи-

Рис. 1. Преобразование модели циентов линейной зависимости, при которых следующая функция принимает наименьшее значение [1]:

F (a, b ) = E”=i (У . - (aXi + b ))2 ^ min’ (3) где n – размер выборки, a , b – коэффициенты линейной зависимости в выражении (2), xi , yi – i-ый элемент двумерной выборки.

После определения а и b сумма квадратов отклонений экспериментальных данных от найденной прямой будет наименьшей. Далее двумерную выборку необходимо повернуть так, чтобы случайные величины X и Y можно было рассматривать как независимые. Получена следующая формула:

У , = y - a ( X, - mx ) ,           (4)

где a – коэффициент линейной зависимости, найденный методом МНК, mx – оценка математического ожидания, y – -ый элемент выборки по оси ординат после преобразования, y – -ый элемент выборки по оси ординат до преобразования, x – -ый элемент выборки по оси абсцисс до преобразования.

Для удобства постановки задачи классификации будем представлять случайную последовательность в виде частотной двумерной гистограммы с разбиением на M x коридоров по оси x и M y коридоров по оси y , построенной по исследуемой выборке, представленной на рис. 2.

Для восстановления аналитического выражения функции плотности вероятности из набора узловых точек используется алгоритм нейросетевой аппроксимации. Для примера, в качестве базовой модели для определения коэффициентов нормального-нормального закона распределения вероятности, который был установлен на этапе классификации, берется RBF -сеть, нейроны скрытого слоя которой являются двумерны-

Рис. 2. Частотная гистограмма двумерной выборки

ми функциями Гаусса вида:

- ( V x X - C x ) 2 - ^ у У - c y )2

G (x, y) = e    2       2 .(5)

Для нормального-экспоненциального закона распределения вероятности:

- ( V xx - c x ) - , y

G(x, y) = e    2 y .

Для нормального-Вейбулла закона распре- деления вероятности:

ky - ( v xx - c x )2

G (x, У) = p" • e

P y

P y

Эти функции используются для построения аппроксимирующей модели, которая выглядит следующим образом:

f ( x, y ) = w G ( x , y ) .        (8)

Неизвестные коэффициенты w , Vx , Vy, Cx, C y , Py , ky , Xy в выражениях (5-7) являются настраиваемыми, а их значения определяются в процессе обучения нейронной сети.

Таким образом, целевая функция определяется по формуле:

  • 1    M x - 1 M y -1 A

E=7 EE(f(x, y,)- f(x, yj))2 ^ min. (9)

  • 2    i = 0 j = 0

Приведем формулы вычисления параметров для нормального-нормального закона распределения вероятности:

V = V x + ^ w Gx , y ) ( G ( x , y ) - f ( x,y j )) V , x- - c x ) x,

V y =V y +n^ w G ( x , y) (G(x , y) - f ( x,y) V y y , - c y ) y j , C x = C x - ^ ^ w G ( x , y ) (G(x , y ) - f ( x,y j )) V x x , - C x ), (10) c y = C y - ^ ^ w G ( x , y) (G(x , y) - f ( x,y j )) V y y , - C y )•

Для нормального-экспоненциального:

V x = V x +^ w ^ G ( x,y M Gx,y) - f (x,yj))V'xt - C x )x,

C x = C x - ^ w ^ G ( x,y) ^ (G ) - f ( x,y , ))(zx - C x ), (11) ^ y = ^ y + ^ ^ w ^ G ( X, y) ( GX, y) - f ( x, y j ))y j .

Для нормального-Вейбулла:

V x = V x + ^ ^ w G(x,У) (G(x,У) - f ( x,y])')( x x - - C x ) x, C. = C x - ^w G ( x , y ) (G(x,У) - f ( x,y)) (^ x - C x Y y k y

Py = Py -^^ w• G(x,y)• (G(x,y)- f (x,,y,)) jy, Py y ky (12)

k y = k y -П^ w G ( x,y) ( G ( x,y ) - f ( x, у , ))1п( у , .)(1 - y j- ).

P y

Оценка погрешности аппроксимации вычис-

Таблица 1. Результаты исследования методов

СКП m x СТ x m + 3ст xx max 1 0,0137 0,0038 0,0243 0,0246 2 0,0144 0,0008 0,0169 0,0160 3 0,0116 0,0035 0,0221 0,0224 4 0,0231 0,0029 0,0318 0,0309 ляется по формуле:

A = [f (f (x, y) - f( x, y))2 dxdy. (13)

D

Для исследования погрешности было проведено 29 испытаний [2]. Также, полагая величину погрешности случайной величиной, распределенной по нормальному закону, величина погрешности оценивается по правилу “трёх сигма”. В каждом из испытаний строилась гистограмма 15 на 15 столбцов и моделировалась выборка случайной величины, состоящая из 10000 отсчетов и распределенная по двумерному нормальному закону. Результаты исследования представлены в табл. 1.

Первая строка – погрешность, полученная с использованием методов описанных в статье, вторая строка – результаты исследования погрешности аппроксимации RBF-сетью [3].

Третья строка – результаты, описанные в [4], последняя строка – результат использования метода моментов.

В таблице m x представляет выборочное среднее погрешности аппроксимации, рассчитанное по 29 значениям, СТ - корень выборочной дисперсии, max – максимальная величина погрешности среди проведенных испытаний.

Таким образом, по результатам испытаний, которые приведены в таб. 1, можно сделать вывод о том, что метод, описанный в статье, имеет меньшую погрешность, чем метод моментов, однако большую, чем метод, основанный на аппроксимации RBF-сетью [3], и метод, используемый для работы с двумерной независимой выборкой [4].

Список литературы Аппроксимация двумерных законов распределения зависимых случайных величин

  • Линник Ю.В. Метод наименьших квадратов и основы математико-статистической теории обработки наблюдений. М.: Государственное издательство физико-математической литературы, 1958. с. 337
  • Методы нормирования метрологических характеристик, оценки и контроля характеристик погрешностей средств статистических измерений. РТМ 25139-74/Минприбор, 1974. 76 с.
  • Лёзин И.А. Автоматизированный комплекс аппроксимативного анализа двумерных законов распределения ортогональными полиномами и нейронными сетями//Информационные технологии в высшем профессиональном образовании: Сборник докладов II межрегиональной научно-практической конференции [под.ред. О.А. Тарабрина, А.В. Очеповского]. Тольятти-Самара: Самарский государственный аэрокосмический университет, 2007. С.84-87.
  • Аппроксимация двумерных плотностей вероятности параметрическими моделями/Д.А. Кудрявцев, И.А. Лёзин, С.А. Прохоров//Вестник транспорта Поволжья. Сентябрь-октябрь 2012. №5 (35). С.70.
Статья научная