Кластеризация объектов со слабо формализуемыми признаками на основе нейронной сети в виде слоя Кохонена
Автор: Кубасов И.А., Мельников А.В., Мальцев С.А., Нарушев И.Р.
Журнал: Вестник Воронежского государственного университета инженерных технологий @vestnik-vsuet
Рубрика: Информационные технологии, моделирование и управление
Статья в выпуске: 3 (77), 2018 года.
Бесплатный доступ
Анализ анкет несовершеннолетних в социальных сетях показывает, что подростки указывают в них сведения, повышающие уровень своей социальной желательности. Такая информация зачастую не имеет соответствия с реальным поведением подростка. Для полноценного анализа уровня девиантности несовершеннолетнего нужны инструменты охватывающие весь спектр показателей. В отличие от обычного подхода к кластеризации объектов на основе их объединения в группы по критерию минимума расстояния в многомерном пространстве при кластеризации признаков целесообразно учитывать их близость по способам получения информации и методам обработки этой информации инспектором по делам несовершеннолетних. Напервом этапе исследования проводится кластеризация признаков девиации, на втором определение весовых коэффициентов, показателя степени девиантности внутри каждой из групп признаков, на третьем используется методика кластерно-иерархического подхода при формировании интегрального показателя оценки девиантного поведения несовершеннолетних...
Кластеризация, нейронные сети, многокритериальный анализ
Короткий адрес: https://sciup.org/140238687
IDR: 140238687 | DOI: 10.20914/2310-1202-2018-3-86-91
Текст научной статьи Кластеризация объектов со слабо формализуемыми признаками на основе нейронной сети в виде слоя Кохонена
Анализ анкет несовершеннолетних в социальных сетях показывает, что подростки указывают в них сведения, повышающие уровень своей социальной желательности. Такая информация зачастую не имеет соответствия с реальным поведением подростка. Для полноценного анализа уровня девиантности несовершеннолетнего нужны инструменты охватывающие весь спектр показателей, характеризующих уровень девиантности. Такие показатели могут быть получены в ходе детального изучения несовершеннолетнего, опроса родителей, соседей, педагогического состава образовательной организации, где обучается подросток и т.д.
В построенной модели девиантного поведения[1] присутствует более 30 критериев девиантного поведения классифицированных в соответствии с характером направленности и вносящие различный вклад в обобщенный показатель девиантного поведения. Следующим актуальным этапом в анализе является решение задачи кластеризации девиаций несовершеннолетних с дальнейшим принятием научно обоснованных решений.
В работе рассмотрим и сравним следующие возможные варианты кластеризации паттернов несовершеннолетних согласно критериям девиантности [1]:
-
1) разделение выборки пользователей социальных сетей на 3 кластера на основе векторов обобщенного показателя J общ и признака обратной девиантности Ĵ ;
-
2) кластеризация на основе главных компонент референтной матрицы X ;
-
3) кластеризация на основе всех признаков объектов экспертизы.
Интегральный показатель девиантности несовершеннолетних
На первом этапе исследования проводится кластеризация признаков девиации, на втором определение весовых коэффициентов, показателя степени девиантности внутри каждой из групп признаков, на третьем используется методика кластерно-иерархического подхода при формировании интегрального показателя оценки девиантного поведения несовершеннолетних.
Определение интегральных показателей, характеризующих уровень девиантности несовершеннолетних, возможно с использованием кластерно-иерархического подхода. На первом этапе такого исследования проводится кластеризация признаков девиации. В отличие от обычного подхода к кластеризации объектов на основе их объединения в группы по критерию минимума расстояния в многомерном пространстве при кластеризации признаков целесообразно учитывать их близость по способам получения информации и методам обработки этой информации инспектором по делам несовершеннолетних.
Согласно мультипликативной модели обобщенного показателя девиации J соответствует сумме произведений весовых коэффициентов v с тремя показателями: девиация J 1 , жертва J 2 , группа риска J 3 [2]. Выбор групповых весовых коэффициентов позволяет установить требуемое соотношение между вкладами оценок показателей отклонения в комплексный показатель девиантности. Показатель обладает значительной гибкостью учета соотношений между группами признаков и парциальными признаками за счет введения соответствующих множеств весовых коэффициентов [2].
Обобщенный комплексный показатель девиации J общ представим в следующем виде:
J общ. = v 1 J 1 + v 2 J 2 + v 3 J 3 , (1)
где v 1, v 2, v 3 – межгрупповые весовые коэффициенты значений соответствующих типов отклонения J 1, J 2, J 3 .
Обобщенный показатель девиации J общ. , полученный на основе кластерно-иерархического подхода, имеет вид
ˆ
n
J = 2 j*
J = 1
V нал. j
E V^"-vV:?
i ,нал. j ij
i
V i,нал. j i
ˆ l,кач.пр. j lj
l кач.пр. jV l,кач.пр. j
l где V™ , Va.пр., V, V2, V— групповые весовые коэффициенты, определяющие предпочтительность качественных признаков (score), признаков наличия (existence), и весовые коэффициенты, относящиеся к группам критериев, xˆij – нормированный признак, Jобщ. – обобщенная функция девиации.
Множества {Vj , Vl } определяют относительный вклад отдельных признаков (частных критериев), n – количество типов поведения, весовые коэффициенты критериев оценки девиантности представлены в таблице 1.
Таблица 1.
Весовые коэффициенты критериев девиантности используемых для формирования обобщенного показателя девиации
Table 1.
Weight coefficients of deviance criteria for the adoption of the generalized deviation index
Наименование критериев | The name of the criteria |
Вид кр. | Type сr. |
Вес приз. | The weight of the sign |
Вес групп | Weight groups |
|
к ° к > |
Алкоголь, курение табака | Alcohol, tobacco smoking |
нал.ex. |
0,235 |
0,54 |
Наркотики, одурманивающие вещества | Drugs, intoxicants |
нал.ex. |
0,549 |
||
Криминальная субкультура | Criminal subculture |
нал.ex. |
0,1 |
||
Нетрадиционные сексуальные отношения | Perversion sexual relations |
нал.ex. |
0,116 |
||
Порнография | Pornography |
кач.score |
0,108 |
||
Азартные игры (на деньги) | Gambling (for money) |
кач.score |
0,064 |
||
Жестокость и насилие по отношению к сверстникам | Violence against peers |
кач.score |
0,329 |
||
Жестокое обращение с животными | Cruelty to animals |
кач.score |
0,182 |
||
Экстремизм (дискриминация) | Extremism (discrimination) |
кач.score |
0,316 |
||
Cd В « ^2 |
Игра не соответствует цензу | The game is not age-appropriate |
нал.ex. |
0,196 |
0,163 |
Видео не соответствует цензу | The video is not age-appropriate |
нал.ex. |
0,493 |
||
Аудио не соответствует цензу | Audio does not match age |
нал.ex. |
0,311 |
||
Нецензурная брань | Foul language |
кач.score |
0,277 |
||
«Троллинг» ровесников | «Trolling» peers |
кач.score |
0,095 |
||
«Троллинг» взрослых | "Trolling" adults |
кач.score |
0,16 |
||
Порнографический контент | Pornographic content |
кач.score |
0,467 |
||
Суицид, вред здоровью | Suicide, harm to health |
нал.ex. |
0,559 |
0,297 |
|
Персональные данные | Personal information |
нал.ex. |
0,089 |
||
Опасное «хобби» | Dangerous «hobby» |
нал.ex. |
0,352 |
||
Общение со взрослыми | Chat with strangers |
кач.score |
0,16 |
||
Демонстрация ценностей | Demonstration of personal values |
кач.score |
0,095 |
||
Участие в розыгрышах, лотереях | Participation in lotteries |
кач.score |
0,277 |
||
Нарушение / пренебрежение ПДД | Violation / disregard of traffic rules |
кач.score |
0,467 |
Распределение показателей девиантности J общ выборки из 9 исследуемых патернов, проанализрованных в работе [1] представлено на рисунке 1

Рисунок 1. Обобщенные показатели девиантности девяти исследуемых паттернов
Разделение объектов экспертизы на 3 класса
Создадим слой Кохонена [3,4] с помощью разработанной программы (М-функции) на основе встроенной функции newc (рисунок 2) .

Рисунок 2. Самоорганизующаяся сеть с тремя нейронами
-
Figure2.Self-organizing network with three neurons
Это слой конкурирующего типа, поскольку в нем применена конкурирующая функция активации. Номер активного нейрона i определяет группу (кластер), к которой наиболее близок входной вектор.
В созданном М -файле языка МАТLАВ использованы, в частности, процедуры [3]
net = newc[-3 3; – 3 3], с,0,1);
net.trаinРаrаm.epochs = 100;
net =train(net,Р Х );
Пример кластиризации и после 500 итераций получим следующие результаты (рисунок 3) .

Рисунок 3. Кластеризация объектов экспертизы на 3 кластера
Figure 3.Clustering of examination objects for 3 clusters
На этом рисунке квадратными маркерами обозначены центры кластеров, а кружками – данные объектов экспертизы. Как видим, к первому кластеру (нормальное поведение) относятся 4, 7, 8 объекты, ко второму кластеру (приемлемое поведение) – 3, 2, 6 объекты, к третьему кластеру (девиантное поведение) – 1, 9, 5 объекты.
Чтобы исключить эффект «мертвых нейронов» и сделать все нейроны чувствительными к поступающим на вход векторам, используются положительные смещения ( biases ), которые позволяют нейрону стать конкурентным [4]. Поэтому после настройки все смещения положительны:
В начале процесса обучения параметр активности различных нейронов принимает значение a 0 = S (2)
где S – количество нейронов конкурирующего слоя, равное числу кластеров. По окончанию обучения сети наиболее активным становится второй нейрон.
Кластеризация на основе выделения главных компонент
Существо метода главных компонент состоит в разложении матрицы референтных данных X на произведение матриц «счетов» T и транспонированной матрицы «нагрузок» P [4]:
X = TP T + E , (3) где E – матрица остатков.
Как отражено в работе [2], ограничение только двумя первыми векторами счетов t 1 , t 2 дает возможность качественно осуществить кластеризацию и представить взаимное расположение объектов графически.
Осуществим кластеризацию исследуемых объектов в два этапа: 1) на основе матрицы референтных данных X для 9 исследуемых паттернов, осуществим процедуру SVD (Singular Value Decomposition) для нахождения векторов счетов и векторов нагрузок; 2)применим разработанную программу ( М -файл) конкурентного обучения к разделению множества первых двух счетов t 1, t 2 на 3 кластера.
В методе SVD обычным приемом нахождения главных компонент является предварительное центрирование и нормировка (шкалирование) векторов-строк матрицы референтных данных. Воспользовавшись встроенной функцией prestd языка MATLAB, осуществим эти операции и получим
Для нахождения матрицы счетов T и матрицы нагрузок P применим встроенную функцию SVD языка MATLAB, согласно которой матрица X ˆ разлагается в произведение матриц U , S , V :
X = U • S • V (4)
После нахождения матрицы Tперейдем к задаче собственно кластеризации на основе разработанной программы на языке MATLAB, используя только первые два счета t 1 , t 2 .
Для того, чтобы исключить эффект «мертвых нейронов» и сделать все нейроны чувствительными к поступающим на вход векторам, используются смещения (biases), которые позволяют нейрону стать конкурентным с нейронами-победителями. Поэтому все смещения положительны:
Выберем три кластера для счетов t 1 , t 2 , характеризующих обобщенный комплексный показатель девиантности (1 – хорошее значение, 2 – промежуточное (нормальное) значение, 2 – неудовлетворительное значение).
На основе обучения слоя Кохонена определим центры кластеров рисунок 4.

Рисунок 4. Кластеризация 9 объектов используя МГК Figure 4.Clustering 9 objects using the PCA
На рисунке 4 квадратными маркерами обозначены центры кластеров, крестиками – значения счетов объектов экспертизы. Как видим, к объектам с хорошими характеристиками относятся 4, 7, 3 с нормальными характеристиками относятся 8, 6, 2, а к объектам с неудовлетворительными характеристиками – 1, 9, 5.
Сравнивая между собой результаты кластеризации, полученные на основе первого подхода (рисуно к 3) и второго подхода (рисуно к 4) , можно видеть, что они несколько различаются. Этого и следовало ожидать, поскольку в первом случае кластеризация осуществлялась на основе обобщенного показателя Jобщ., а во втором случае –на основе выделения методом МГК двух первых счетов t 1 , t 2 референтной матрицы X. Однако, наиболее важные объекты в обоих случаях выявлены правильно, что позволяет на практике применять оба рассмотренных подхода.
Кластеризация на основе всех признаков объекта экспертизы
При построении рисунка 4 была использована кластеризация по двум счетам (4) метода МГК. Хотя известно [4], что главные компоненты учитывают до 85–95% полезной информации, содержащейся в матрице референтных данных X, такой метод является приближенным. Поэтому для проверки полученных результатов далее осуществим кластеризацию по всем 4 признакам (столбцам) матрицы X .
Список литературы Кластеризация объектов со слабо формализуемыми признаками на основе нейронной сети в виде слоя Кохонена
- Нарушев И.Р., Мельников А.В., Денисенко В.В. Модели обобщенного показателя девиантного поведения несовершеннолетних//Вестник Воронежского института МВД России. 2018. № 1. С. 44-50
- Мельников А.В., Мальцев С.А Учет признаков инженерной оценки в экспертизе приемно-контрольных приборов охранно-пожарной сигнализации//Вестник Воронежского института МВД России. 2016. № 3. С. 51-57.
- Хайкин С. Нейронные сети: полный курс. М.: Издательский дом Вильямс, 2008.
- Zhang Z. Artificial neural network//Multivariate Time Series Analysis in Climate and Environmental Research. Springer, Cham, 2018. P. 1-35.
- Witten I., Frank E., Hall M. Data Mining: Practical Machine Learning Tools and Techniques. N.Y.: Morgan Kaufmann, 2011. 664 p.