Нейронная сеть Кохонена для визуализации и анализа данных

Автор: Анисимова Э.С.

Журнал: Экономика и социум @ekonomika-socium

Статья в выпуске: 3-1 (12), 2014 года.

Бесплатный доступ

В статье описывается использование самоорганизующихся карт Кохонена для решения задачи кластеризации. Приведены алгоритм работы, структура сети.

Самоорганизующиеся карты, кластеризация, интеллектуальный анализ данных

Короткий адрес: https://sciup.org/140108455

IDR: 140108455

Текст научной статьи Нейронная сеть Кохонена для визуализации и анализа данных

Самоорганизующаяся карта Кохонена является методом проецирования многомерного пространства в пространство с более низкой размерностью, применяется также для решения задач моделирования, прогнозирования и др. В основе идеи сети Кохонена лежит аналогия со свойствами человеческого мозга. Кора головного мозга обладает определенными топологическими свойствами (участки, ответственные за близкие части тела, примыкают друг к другу и все изображение человеческого тела отображается на эту двумерную поверхность).

Рис. 1. Самоорганизующаяся карта Кохонена

Сеть Кохонена, в отличие от многослойной нейронной сети, очень проста; она представляет собой два слоя: входной и выходной. Ее также называют самоорганизующей картой.

SOM (Self-organizing map) подразумевает использование упорядоченной структуры нейронов. Обычно используются одно и двумерные сетки. При этом каждый нейрон представляет собой n-мерный - = г f вектор-столбец , где n определяется размерностью исходного пространства (размерностью входных векторов). При этом, как было сказано выше, нейроны также взаимодействуют друг с другом. Величина этого взаимодействия определяется расстоянием между нейронами на карте.

Алгоритм работы сети

Пусть — номер итерации (инициализация соответствует номеру 0).

• Инициализация

Наиболее распространены три способа задания первоначальных весов узлов:

o Задание всех координат случайными числами.

o Присваивание вектору веса значение случайного наблюдения из входных данных.

o Выбор векторов веса из линейного пространства, натянутого на главные компоненты набора входных данных.

• Цикл o Выбрать произвольное наблюдение x(t) из множества входных данных.

o Найти расстояния от него до векторов веса всех узлов карты и определить ближайший по весу узел Mc(t). Это — BMU или Winner. Условие x (t) - w (t) < x (t) - w (t) w. (t) w. (t)

на Mc(t): c i , для любого i , где i — вектор веса узла Mi(t). Если находится несколько узлов, удовлетворяющих условию, BMU выбирается случайным образом среди них.

o Определить с помощью функции (функции соседства) соседей и изменение их векторов веса.

Часто в качестве функции соседства используется гауссовская функция:

МО = »W схр(

с * г

где - обучающий сомножитель, монотонно убывающий с каждой последующей итерацией (то есть определяющий приближение значения векторов веса BMU и его соседей к наблюдению; чем больше шаг, тем меньше уточнение); , - координаты узлов и W) на карте;

- сомножитель, уменьшающий количество соседей с итерациями, монотонно убывает.

Более простой способ задания функции соседства: , если Mi(t) находится в окрестности Mc(t) заранее заданного аналитиком радиуса, и 0 в противном случае. Функция h(t) равна a(t) для BMU и уменьшается с удалением от BMU.

■ Изменить вектор веса по формуле:

wi(t) = wt - 1) + hi(t) •(x(t) - W(t - ГО o Вычисление ошибки карты

Например, как среднее арифметическое расстояний между наблюдениями и векторами веса соответствующих им BMU:

N i = 1

\ X. - w ic

, где N - количество элементов набора входных данных.

Раскраска, порожденная отдельными компонентами

При данном методе отрисовки полученную карту можно представить в виде слоеного пирога, каждый слой которого представляет собой раскраску, порожденную одной из компонент исходных данных. Полученный набор раскрасок может использоваться для анализа закономерностей, имеющихся между компонентами набора данных. После формирования карты мы получаем набор узлов, который можно отобразить в виде двумерной картинки. При этом каждому узлу карты можно поставить в соответствие участок на рисунке, четырех или шестиугольный, координаты которого определяются координатами соответствующего узла в решетке. Для определения цвета используются значения компонент. Самый простой вариант – использование градаций серого. В этом случае ячейки, соответствующие узлам карты, в которые попали элементы с минимальными значениями компонента или не попало вообще ни одной записи, будут изображены черным цветом, а ячейки, в которые попали записи с максимальными значениями такого компонента, будут соответствовать ячейки белого цвета. Полученные раскраски в совокупности образуют атлас, отображающий расположение компонент, связи между ними, а также относительное расположение различных значений компонент.

Заключение

Основное отличие сетей Кохонена от других моделей состоит в наглядности и удобстве использования. Эти сети позволяют упростить многомерную структуру, их можно считать одним из методов проецирования многомерного пространства в пространство с более низкой размерностью.