Методика проверки гипотезы о распределениях многомерных случайных величин, основанная на использовании непараметрических алгоритмов распознавания образов
Автор: Лапко Александр Васильевич, Лапко Василий Александрович, Молоков Вячеслав Витальевич
Журнал: Вестник Сибирского юридического института МВД России @vestnik-sibui-mvd
Рубрика: Помощь ведущих специалистов
Статья в выпуске: 1 (9), 2011 года.
Бесплатный доступ
Предлагается методика проверки гипотезы о тождественности законов распределения многомерньх случайных величин, основанная на использовании непараметрических алгоритмов распознавания образов и принципов коллективного оценивания.
Непараметрическая статистика, распознавание образов, проверка гипотез, распределения случайных величин
Короткий адрес: https://sciup.org/140196081
IDR: 140196081
Текст научной статьи Методика проверки гипотезы о распределениях многомерных случайных величин, основанная на использовании непараметрических алгоритмов распознавания образов
1. Вестник Сибирского юридического института МВД России — ;
З адачи проверки гипотезы о распределении случайных величин являются классическими при проведении всесторонних статистических исследований и широко распространены в научной практике. Не является исключением и область правоохранительной деятельности. Подобные подходы применимы для анализа закономерностей развития преступности, моделирования и прогнозирования ее показателей, выявления взаимосвязи в изучаемых процессах, классификации объектов или признаков, исследования криминологических характеристик преступного поведения и т.п.1
Относительно новым в обшей теории статистики является применение непараметрических алгоритмов распознавания образов и принципов коллективного оценивания для проверки статистических гипотез. Одно из реализуемых направлений применения методов непараметрической статистики связано с оценкой эффективности деятельности экспертнокриминалистических подразделений органов внутренних дел. Исходные данные деятельности подразделений представлены статистическими показателями и содержат выборки наблюдений многомерной случайной величины. Проверка гипотезы о равенстве законов распределения исходных выборок может являться основой объединения их в группы классов, близких не столько по уровню и размерности величин, их характеризу-юших, сколько по степени связей между признаками и однородности законов формирования. Такая постановка задачи позволит выявить критерии оценки эффективности работы экспертно-криминалистических подразделений и согласовать сушествуюшие методики с результатами вычислительных экспериментов. Полученные данные могут являться основой для принятия различных управленческих решений руководством правоохранительных органов.
Для проверки гипотез о распределениях случайных величин широко используется критерий согласия К.Пирсона, который не зависит от распределений случайных величин и их размерности.2 Однако методика формирования критерия Пирсона содержит трудно формализуемый этап разбиения области возможных значений случайной величины на многомерные интервалы. Данный этап отсутствует в критерии Колмогорова -Смирнова, который позволяет проверять гипотезы о распределениях одномерных случайных величин.3
В статье А.В.Ёапко4 показана возможность использования непараметрических алгоритмов распознавания образов, со-ответствуюших критерию максимального правдоподобия, в задаче проверки статистических гипотез о распределениях случайных величин. Результаты использования предлагаемой методики сопоставимы с критерием Колмогорова - Смирнова для одномерных задач в условиях, когда количество элементов сравниваемых последовательностей случайных величин отличаются незначительно. При различных объемах случайных последовательностей наблюдается снижение эффективности предлагаемой методики. Данный факт согласуется с результатами исследований5, где показано значительное ухудшение аппроксимационных свойств непараметрической оценки уравнения разделяюшей поверхности при увеличении степени неравномерности распределения элементов обучаюшей выборки между классами.
Цель данной работы состоит в развитии предлагаемой методики для решения задач проверки гипотез о распределениях многомерных случайных величин.
Работа выполнена при поддержке гранта ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 гг., ГК №02.740.11.0621.
Модифицированная методика проверки гипотезы о распределениях случайных величин. Пусть X 1 и X 2 - две генеральные совокупности с произвольными законами распределения.
- Помощь ведущих специалистов

Необходимо по независимым выборкам V1 = (xl, i = 1, n1) и V2 = (xi, i = 1, n2) многомерных случайных величин x = (xv , v = 1, k), извлеченным из данных генеральных совокупностей, проверить либо опровергнуть гипотезу н.: P (X) = P> (X)
о тождественности функций распределения.
Известно, что если при решении двуальтернативной задачи распознавания образов вероятность ошибки классификации равна 0.5, то законы распределения случайных величин в области определения классов совпадают. Поэтому появляется возможность перехода от задачи сравнения законов распределения многомерных случайных величин к проверке гипотезы о равенстве статистической оценки вероятности ошибки распознавания образов значению 0.5.
Предлагаемая методика предполагает выполнение следующих действий.
1. Пусть количество элементов сравниваемых последовательностей случайных величин отличается значительно, например n > n 2 . Сформировать набор сравниваемых последовательностей V 1 ( j ) = ( xi ,i g I j ) ,V 2 = ( x i ,i = 1 ,n 2 )) , j = 1 ,T . Элементы выборки V y ( j ) объемом П 2 формируются случайным образом из последовательности V ^ . Здесь I j - множество номеров элементов последовательности V y , составляющих сравниваемую последовательность V y ( j ) . Присвоим элементам множества I j зна
V ( j ) = ( x i , o ( i ) , i = 1 , 2 П 2 ) для
решения
задачи распознавания образов, где
^Vi ) =
-1 V Xi eQ1
1 V xi eQ2
- указание о принадлежности значения x i к тому либо иному классу Q 1 , Q 2 • При этом полагаем, что элементы множеств V ( j ) и V 2 принадлежат соответ
ственно классам Q 1 , Q 2 .
3. По выборке V ( j ) осуществить синтез непараметрического алгоритма распознавания образов, соответствующего критерию максимального правдоподобия6,
m j ( x )
x eQ 1 V f 2 ( x ) < 0
x e Q 2 V f j ( x ) > 0 .
При формировании оценки уравнения разделяющей поверхности f12(x) = p2(x)- p1j(x) (2) будем использовать непараметрические оценки
1 n 2 k 1
P2 ( x ) = S П ф
n 2 i = 1 v = 1cv
1 2 n 2
pj (x ) = — S n 2 i=n 2 +1
" xv
—
xv
V
c
,
k
П —ф v=1cv
x
i ) v
V
cv
чения п2 + 1 , t = 1, n 2 .
2. На основе ( V y ( j ) , V 2 ) определить обучающую выборку
плотностей вероятности распределения многомерной случайной величины х в классах Q 1 , Q 2 типа Розенблатта - Пар-зена.7 Ядерные функции O ( uv ) удовлетворяют условиям O ( uv ) =ф ( - uv ) ,
I х
0 <Ф (u v ) <х , !ф (u v )du v = 1 , а
-х

Вестник Сибирского юридического института МВД России— ____
значения их коэффициентов размытости
C v убывают с ростом n 2 .
Тогда статистика (2) представляется выражением
j x )=-
12 n 2
1 2 n 2 k 1
- Е ^ ( i ) П —Ф
Ху
—
i xv
i = 1 v = 1c
v
c
. (3)
Колмогорова. Для этого сравним его пороговое значение8
D а =
—
, аГ 1 ^
ln —I----
2 V 4 n 2 )
Выбор
Cv,v = 1 ,k
оптимальных
коэффициентов
v 7
значений
размытости
C = ( c v , v = 1 ,k ) непараметрического решающего правила m j ( x ) осуществляет-
ся из условия ности ошибки
минимума оценки вероят-распознавания образов
p j ( c )
1 2 n 2
2 n 2 t = 1
где индикаторная функция
V / 0 v ^t ) = ^ ( t )
1 ( ^ ( t W )) = < w
1
V
^ ( t ) — «решение» алгоритма m j ( x )
о
принадлежности значений x t к тому либо иному классу Q 1 , Q 2 , полученное в соответствии с правилом (1).
При вычислении p j ( c ) «решение» a ( t ) алгоритма (1) определяется в соответствии со знаком статистики
2 n 2 k
~jxt)= - ^(ОП -Ф n 2 i=1 v=1cv i * t
x v
-
i xv
v
cv )
,
то есть ситуация x t , которая на контроль, исключается из обучения.
4.Проверить гипотезу
подается
процесса
H о ( j ) :
p j ( c ) = 0 • 5 в соответствии с критерием
с отклонением D j = 0 • 5 — p j ( c ) . Здесь а - вероятность (риск) отвергнуть правильную гипотезу H 0 ( j ) .
Если выполняется соотношение
D 12 < D a , то гипотеза H 0 ( j ) справедлива, иначе она отвергается.
-
5. В соответствии с пунктами 2-4 проверить гипотезы H 0 ( j ) на основе последовательностей случайных величин V ( j ) ,V 2 ) J = L T . П о полученным данным рассчитать оценки вероятностей 1
-
6. Проверить достоверность отличия р1 и р с использованием критерия Смирнова.
P = ST , P = ST справедливости гипотезы H о и ее отклонения соответственно. Здесь S - количество «решений» о справедливости, а S - отклонения гипотез H о ( j ) , j = 1 ,T .
Для этого вычислим его пороговое значение
D = — lna/т , a V 2 ’ которое сравним с разностью D = |Ро (T)— р (T).
Исходная гипотеза Hо подтвержда ется, если D > Da и P1 > P , в противном случае при р1 < р она отвергается.
- Помощь ведущих специалистов
Предлагаемая методика позволяет расширить условия применения критерия Колмогорова - Смирнова на задачи проверки гипотез о распределениях многомерных случайных величин. Ее использование обеспечивает обход проблемы разбиения области возможных значений случайной величины на многомерные интервалы, что свойственно критерию Пирсона.
Представленные результаты работы могут быть полезны при решении различных прикладных задач обработки экспериментальных данных в технических, социально-экономических, медикобиологических и иных системах.
-
1 Молоков В.В. Направления применения методов непараметрической статистики в решении задач профилактики и борьбы с преступностью // Актуальные проблемы борьбы с преступностью в Сибирском регионе : сборник материалов XII международной научно-практической конференции. Красноярск : СибЮИ МВД России, 2009. 4.2. С.115-118.
-
2 Пугачев В.С. Теория вероятностей и математическая статистика. М.: Наука: Главная редакция физико-математической литературы, 1979.
-
3 Смирнов Н.В. Оценка расхождения между эмпирическими кривыми распределений в двух независимых выборках // Бюллетень МГУ. Сер. А. Вып.2. 1939. С.3-14.
-
4 Ёапко А.В., Ёапко В.А. Применение непараметрического алгоритма распознавания образов в задаче проверки гипотезы о распределениях случайных величин // Системы управления и информационные технологии. 2010. 3(41). С.8-11.
-
5 Ёапко А.В., Ёапко В.А. Анализ асимптотических свойств непараметрической оценки уравнения разделяющей поверхности в двуальтернативной задаче распознавания образов // Автометрия. 2010. Т.46. №3. С.48-53.
-
6 Ёапко А.В., Ёапко В.А., Соколов М.И., 4енцов С.В. Непараметрические системы классификации. Новосибирск : Наука, 2000.
-
7 Parzen E. On estimation of a probability density function and mode // Ann. Math. Statistic. 1962. Vol.33, №3. P.1065 1076.
-
8 Шаракшанэ А.С., Железнов И.Г., Ивниц-кий В.А. Сложные системы. М.: Высш. шк., 1977.
Список литературы Методика проверки гипотезы о распределениях многомерных случайных величин, основанная на использовании непараметрических алгоритмов распознавания образов
- Молоков В.В. Направления применения методов непараметрической статистики в решении задач профилактики и борьбы с преступностью//Актуальные проблемы борьбы с преступностью в Сибирском регионе: сборник материалов XII международной научно-практической конференции. Красноярск: СибЮИ МВД России, 2009. Ч.2. С.115-118.
- Пугачев В.С. Теория вероятностей и математическая статистика. М.: Наука: Главная редакция физико-математической литературы, 1979.
- Смирнов Н.В. Оценка расхождения между эмпирическими кривыми распределений в двух независимых выборках//Бюллетень МГУ. Сер. А. Вып.2. 1939. С.3-14.
- Лапко А.В., Лапко В.А. Применение непараметрического алгоритма распознавания образов в задаче проверки гипотезы о распределениях случайных величин//Системы управления и информационные технологии. 2010. 3(41). С.8-11.
- Лапко А.В., Лапко В.А. Анализ асимпто-тических свойств непараметрической оценки уравнения разделяющей поверхности в двуальтернативной задаче распознавания образов//Автометрия. 2010. Т.46. N№3. С.48-53.
- Непараметрические системы классификации/А.В.Лапко [и др.]. Новосибирск: Наука, 2000.
- Parzen E. On estimation of a probability density function and mode//Ann. Math. Statistic. 1962. Vol.33, N№3. P.1065 1076.
- Шаракшанэ А.С., Железнов И.Г., Ивницкий В.А. Сложные системы. М.: Высш. шк., 1977.