Кластеризация объектов со слабо формализуемыми признаками на основе нейронной сети в виде слоя Кохонена

Бесплатный доступ

Анализ анкет несовершеннолетних в социальных сетях показывает, что подростки указывают в них сведения, повышающие уровень своей социальной желательности. Такая информация зачастую не имеет соответствия с реальным поведением подростка. Для полноценного анализа уровня девиантности несовершеннолетнего нужны инструменты охватывающие весь спектр показателей. В отличие от обычного подхода к кластеризации объектов на основе их объединения в группы по критерию минимума расстояния в многомерном пространстве при кластеризации признаков целесообразно учитывать их близость по способам получения информации и методам обработки этой информации инспектором по делам несовершеннолетних. Напервом этапе исследования проводится кластеризация признаков девиации, на втором определение весовых коэффициентов, показателя степени девиантности внутри каждой из групп признаков, на третьем используется методика кластерно-иерархического подхода при формировании интегрального показателя оценки девиантного поведения несовершеннолетних...

Еще

Кластеризация, нейронные сети, многокритериальный анализ

Короткий адрес: https://sciup.org/140238687

IDR: 140238687   |   DOI: 10.20914/2310-1202-2018-3-86-91

Текст научной статьи Кластеризация объектов со слабо формализуемыми признаками на основе нейронной сети в виде слоя Кохонена

Анализ анкет несовершеннолетних в социальных сетях показывает, что подростки указывают в них сведения, повышающие уровень своей социальной желательности. Такая информация зачастую не имеет соответствия с реальным поведением подростка. Для полноценного анализа уровня девиантности несовершеннолетнего нужны инструменты охватывающие весь спектр показателей, характеризующих уровень девиантности. Такие показатели могут быть получены в ходе детального изучения несовершеннолетнего, опроса родителей, соседей, педагогического состава образовательной организации, где обучается подросток и т.д.

В построенной модели девиантного поведения[1] присутствует более 30 критериев девиантного поведения классифицированных в соответствии с характером направленности и вносящие различный вклад в обобщенный показатель девиантного поведения. Следующим актуальным этапом в анализе является решение задачи кластеризации девиаций несовершеннолетних с дальнейшим принятием научно обоснованных решений.

В работе рассмотрим и сравним следующие возможные варианты кластеризации паттернов несовершеннолетних согласно критериям девиантности [1]:

  • 1)    разделение выборки пользователей социальных сетей на 3 кластера на основе векторов обобщенного показателя J общ и признака обратной девиантности Ĵ ;

  • 2)    кластеризация на основе главных компонент референтной матрицы X ;

  • 3)    кластеризация на основе всех признаков объектов экспертизы.

Интегральный показатель девиантности несовершеннолетних

На первом этапе исследования проводится кластеризация признаков девиации, на втором определение весовых коэффициентов, показателя степени девиантности внутри каждой из групп признаков, на третьем используется методика кластерно-иерархического подхода при формировании интегрального показателя оценки девиантного поведения несовершеннолетних.

Определение интегральных показателей, характеризующих уровень девиантности несовершеннолетних, возможно с использованием кластерно-иерархического подхода. На первом этапе такого исследования проводится кластеризация признаков девиации. В отличие от обычного подхода к кластеризации объектов на основе их объединения в группы по критерию минимума расстояния в многомерном пространстве при кластеризации признаков целесообразно учитывать их близость по способам получения информации и методам обработки этой информации инспектором по делам несовершеннолетних.

Согласно мультипликативной модели обобщенного показателя девиации J соответствует сумме произведений весовых коэффициентов v с тремя показателями: девиация J 1 , жертва J 2 , группа риска J 3 [2]. Выбор групповых весовых коэффициентов позволяет установить требуемое соотношение между вкладами оценок показателей отклонения в комплексный показатель девиантности. Показатель обладает значительной гибкостью учета соотношений между группами признаков и парциальными признаками за счет введения соответствующих множеств весовых коэффициентов [2].

Обобщенный комплексный показатель девиации J общ представим в следующем виде:

J общ. = v 1 J 1 + v 2 J 2 + v 3 J 3 , (1)

где v 1, v 2, v 3 – межгрупповые весовые коэффициенты значений соответствующих типов отклонения J 1, J 2, J 3 .

Обобщенный показатель девиации J общ. , полученный на основе кластерно-иерархического подхода, имеет вид

ˆ

n

J = 2 j*

J = 1

V нал. j

E V^"-vV:?

i ,нал. j   ij

i

V i,нал. j i

ˆ l,кач.пр. j lj

l кач.пр. jV l,кач.пр. j

l где V™ , Va.пр., V, V2, V— групповые весовые коэффициенты, определяющие предпочтительность качественных признаков (score), признаков наличия (existence), и весовые коэффициенты, относящиеся к группам критериев, xˆij – нормированный признак, Jобщ. – обобщенная функция девиации.

Множества {Vj , Vl } определяют относительный вклад отдельных признаков (частных критериев), n – количество типов поведения, весовые коэффициенты критериев оценки девиантности представлены в таблице 1.

Таблица 1.

Весовые коэффициенты критериев девиантности используемых для формирования обобщенного показателя девиации

Table 1.

Weight coefficients of deviance criteria for the adoption of the generalized deviation index

Наименование критериев | The name of the criteria

Вид кр. | Type сr.

Вес приз. | The weight of the sign

Вес групп | Weight groups

к °

к >

Алкоголь, курение табака | Alcohol, tobacco smoking

нал.ex.

0,235

0,54

Наркотики, одурманивающие вещества | Drugs, intoxicants

нал.ex.

0,549

Криминальная субкультура | Criminal subculture

нал.ex.

0,1

Нетрадиционные сексуальные отношения | Perversion sexual relations

нал.ex.

0,116

Порнография | Pornography

кач.score

0,108

Азартные игры (на деньги) | Gambling (for money)

кач.score

0,064

Жестокость и насилие по отношению к сверстникам | Violence against peers

кач.score

0,329

Жестокое обращение с животными | Cruelty to animals

кач.score

0,182

Экстремизм (дискриминация) | Extremism (discrimination)

кач.score

0,316

Cd

В « ^2

Игра не соответствует цензу | The game is not age-appropriate

нал.ex.

0,196

0,163

Видео не соответствует цензу | The video is not age-appropriate

нал.ex.

0,493

Аудио не соответствует цензу | Audio does not match age

нал.ex.

0,311

Нецензурная брань | Foul language

кач.score

0,277

«Троллинг» ровесников | «Trolling» peers

кач.score

0,095

«Троллинг» взрослых | "Trolling" adults

кач.score

0,16

Порнографический контент | Pornographic content

кач.score

0,467

Суицид, вред здоровью | Suicide, harm to health

нал.ex.

0,559

0,297

Персональные данные | Personal information

нал.ex.

0,089

Опасное «хобби» | Dangerous «hobby»

нал.ex.

0,352

Общение со взрослыми | Chat with strangers

кач.score

0,16

Демонстрация ценностей | Demonstration of personal values

кач.score

0,095

Участие в розыгрышах, лотереях | Participation in lotteries

кач.score

0,277

Нарушение / пренебрежение ПДД | Violation / disregard of traffic rules

кач.score

0,467

Распределение показателей девиантности J общ выборки из 9 исследуемых патернов, проанализрованных в работе [1] представлено на рисунке 1

Рисунок 1. Обобщенные показатели девиантности девяти исследуемых паттернов

Разделение объектов экспертизы на 3 класса

Создадим слой Кохонена [3,4] с помощью разработанной программы (М-функции) на основе встроенной функции newc (рисунок 2) .

Рисунок 2. Самоорганизующаяся сеть с тремя нейронами

  • Figure2.Self-organizing network with three neurons

Это слой конкурирующего типа, поскольку в нем применена конкурирующая функция активации. Номер активного нейрона i определяет группу (кластер), к которой наиболее близок входной вектор.

В созданном М -файле языка МАТLАВ использованы, в частности, процедуры [3]

net = newc[-3 3; – 3 3], с,0,1);

net.trаinРаrаm.epochs = 100;

net =train(net,Р Х );

Пример кластиризации и после 500 итераций получим следующие результаты (рисунок 3) .

Рисунок 3. Кластеризация объектов экспертизы на 3 кластера

Figure 3.Clustering of examination objects for 3 clusters

На этом рисунке квадратными маркерами обозначены центры кластеров, а кружками – данные объектов экспертизы. Как видим, к первому кластеру (нормальное поведение) относятся 4, 7, 8 объекты, ко второму кластеру (приемлемое поведение) – 3, 2, 6 объекты, к третьему кластеру (девиантное поведение) – 1, 9, 5 объекты.

Чтобы исключить эффект «мертвых нейронов» и сделать все нейроны чувствительными к поступающим на вход векторам, используются положительные смещения ( biases ), которые позволяют нейрону стать конкурентным [4]. Поэтому после настройки все смещения положительны:

В начале процесса обучения параметр активности различных нейронов принимает значение a 0 = S (2)

где S – количество нейронов конкурирующего слоя, равное числу кластеров. По окончанию обучения сети наиболее активным становится второй нейрон.

Кластеризация на основе выделения главных компонент

Существо метода главных компонент состоит в разложении матрицы референтных данных X на произведение матриц «счетов» T и транспонированной матрицы «нагрузок» P [4]:

X = TP T + E , (3) где E – матрица остатков.

Как отражено в работе [2], ограничение только двумя первыми векторами счетов t 1 , t 2 дает возможность качественно осуществить кластеризацию и представить взаимное расположение объектов графически.

Осуществим кластеризацию исследуемых объектов в два этапа: 1) на основе матрицы референтных данных X для 9 исследуемых паттернов, осуществим процедуру SVD (Singular Value Decomposition) для нахождения векторов счетов и векторов нагрузок; 2)применим разработанную программу ( М -файл) конкурентного обучения к разделению множества первых двух счетов t 1, t 2 на 3 кластера.

В методе SVD обычным приемом нахождения главных компонент является предварительное центрирование и нормировка (шкалирование) векторов-строк матрицы референтных данных. Воспользовавшись встроенной функцией prestd языка MATLAB, осуществим эти операции и получим

Для нахождения матрицы счетов T и матрицы нагрузок P применим встроенную функцию SVD языка MATLAB, согласно которой матрица X ˆ разлагается в произведение матриц U , S , V :

X = U S V (4)

После нахождения матрицы Tперейдем к задаче собственно кластеризации на основе разработанной программы на языке MATLAB, используя только первые два счета t 1 , t 2 .

Для того, чтобы исключить эффект «мертвых нейронов» и сделать все нейроны чувствительными к поступающим на вход векторам, используются смещения (biases), которые позволяют нейрону стать конкурентным с нейронами-победителями. Поэтому все смещения положительны:

Выберем три кластера для счетов t 1 , t 2 , характеризующих обобщенный комплексный показатель девиантности (1 – хорошее значение, 2 – промежуточное (нормальное) значение, 2 – неудовлетворительное значение).

На основе обучения слоя Кохонена определим центры кластеров рисунок 4.

Рисунок 4. Кластеризация 9 объектов используя МГК Figure 4.Clustering 9 objects using the PCA

На рисунке 4 квадратными маркерами обозначены центры кластеров, крестиками – значения счетов объектов экспертизы. Как видим, к объектам с хорошими характеристиками относятся 4, 7, 3 с нормальными характеристиками относятся 8, 6, 2, а к объектам с неудовлетворительными характеристиками – 1, 9, 5.

Сравнивая между собой результаты кластеризации, полученные на основе первого подхода (рисуно к 3) и второго подхода (рисуно к 4) , можно видеть, что они несколько различаются. Этого и следовало ожидать, поскольку в первом случае кластеризация осуществлялась на основе обобщенного показателя Jобщ., а во втором случае –на основе выделения методом МГК двух первых счетов t 1 , t 2 референтной матрицы X. Однако, наиболее важные объекты в обоих случаях выявлены правильно, что позволяет на практике применять оба рассмотренных подхода.

Кластеризация на основе всех признаков объекта экспертизы

При построении рисунка 4 была использована кластеризация по двум счетам (4) метода МГК. Хотя известно [4], что главные компоненты учитывают до 85–95% полезной информации, содержащейся в матрице референтных данных X, такой метод является приближенным. Поэтому для проверки полученных результатов далее осуществим кластеризацию по всем 4 признакам (столбцам) матрицы X .

Список литературы Кластеризация объектов со слабо формализуемыми признаками на основе нейронной сети в виде слоя Кохонена

  • Нарушев И.Р., Мельников А.В., Денисенко В.В. Модели обобщенного показателя девиантного поведения несовершеннолетних//Вестник Воронежского института МВД России. 2018. № 1. С. 44-50
  • Мельников А.В., Мальцев С.А Учет признаков инженерной оценки в экспертизе приемно-контрольных приборов охранно-пожарной сигнализации//Вестник Воронежского института МВД России. 2016. № 3. С. 51-57.
  • Хайкин С. Нейронные сети: полный курс. М.: Издательский дом Вильямс, 2008.
  • Zhang Z. Artificial neural network//Multivariate Time Series Analysis in Climate and Environmental Research. Springer, Cham, 2018. P. 1-35.
  • Witten I., Frank E., Hall M. Data Mining: Practical Machine Learning Tools and Techniques. N.Y.: Morgan Kaufmann, 2011. 664 p.
Статья научная