Нейросетевая модель искусственного интеллекта для реализации аффективных вычислений на основе анализа электроэнцефалограмм
Автор: Чобан А.Г., Стадников Д.Г., Сулавко А.Е.
Журнал: Компьютерная оптика @computer-optics
Рубрика: Численные методы и анализ данных
Статья в выпуске: 5 т.48, 2024 года.
Бесплатный доступ
Статья посвящена анализу возможности оценки эмоционального состояния человека по особенностям работы головного мозга с использованием неинвазивных нейро-компьютерных интерфейсов. Проведен анализ публикаций последних лет, посвященных применению сигналов электроэнцефалограммы (ЭЭГ) для оценки эмоционального состояния, выявлены актуальные проблемы в этой области. Описаны основные подходы к стимуляции головного мозга для получения информативных сигналов ЭЭГ, а также методы их анализа и распознавания. Предложена архитектура глубокой сверточной нейронной сети для анализа данных ЭЭГ, а также нейросетевая модель искусственного интеллекта для классификации 4 эмоций (страх, счастье, печаль, спокойствие) по шкале валентности-арозальности Рассела на основе двух сверточных нейронных сетей. Проведен эксперимент с участием 50 человек, которые просматривали эмоционально окрашенные видеоролики. Собраны данные ЭЭГ 50 испытуемых, которые использовались для обучения и тестирования нейросетевой модели. Результаты показали высокую точность классификации эмоций (94%±3,4%) с использованием беспроводного нейроинтерфейса.
Распознавание эмоций, электроэнцефалограмма, сверточные нейронные сети, сигнал ЭЭГ, интерфейс мозг-компьютер, нейроинтерфейс, анализ биометрических параметров.
Короткий адрес: https://sciup.org/140310376
IDR: 140310376 | DOI: 10.18287/2412-6179-CO-1417
Текст научной статьи Нейросетевая модель искусственного интеллекта для реализации аффективных вычислений на основе анализа электроэнцефалограмм
Аффективные вычисления – это область деятельности, направленная на исследование и разработку систем и устройств, способных распознавать, обрабатывать, интерпретировать и имитировать человеческие эмоции.
Цель аффективных вычислений – обнаружение эмоциональных состояний, возникающих во время взаимодействия человека и компьютера, и синтез ответных реакций, соответствующих обнаруженным эмоциям.
Комплекс задач, связанных с распознаванием эмоций, представляет особый интерес, так как эмоции – важная часть повседневной жизни человека, которая оказывает влияние на принятие решений, восприятие, обучение, рациональное мышление и поведение. Распознавание эмоций может применяться в приложениях, требующих взаимодействия человека и компьютера, от автоматической доставки мультимедийного контента до ментальных и психологических тренингов.
Разметка мультимедийного контента с помощью релевантных тегов применяется в задачах поиска
-6179-CO-1417.
аудиоинформации. Неявное аффективное маркирование можно отнести к легкому способу создания субъективных и/или эмоциональных тегов. Аффективные характеристики и их маркирование позволяют повысить производительность рекомендательных и поисковых систем [1].
Эмоции могут быть выражены либо вербально с помощью эмоциональной лексики, либо с помощью невербальных сигналов, таких как интонация голоса, мимика и жесты. В настоящее время многие существующие исследования по оценке эмоций сосредоточены на анализе выражения лица и речи для определения эмоционального состояния человека [2, 3]. Однако большинство современных систем взаимодействия человека и компьютера (HCI) не способны идентифицировать и интерпретировать эту информацию, поскольку человек намеренно может скрывать свои эмоции (например, грусть можно скрыть улыбкой).
Сегодня активно развиваются технологии создания нейрокомпьютерных интерфейсов, позволяющих бесконтактно передавать команды устройствам. Большинство нейроинтерфейсов основаны на регистрации и интерпретации электроэнцефалограмм (ЭЭГ), отражающих динамику изменения электриче- ской активности головного мозга во времени. Идентификационный потенциал электроэнцефалограмм крайне высок – анализ ЭЭГ используется в таких задачах, как мысленное управление механизмами и протезами [4], биометрическая идентификация и аутентификация [5], распознавание «рискованного» поведения [6], оценка функционального (физического, психического) состояния человека [7]. В частности, анализ сигналов ЭЭГ перспективен для задач распознавания эмоций, так как имеет тесную связь с эмоциональным состоянием человека [8].
Целью данного исследования является повышение точности автоматической классификации эмоциональных состояний человека по данным ЭЭГ на базе сверточных глубоких нейронных сетей. Проведен эксперимент по сбору данных сигналов ЭЭГ, в котором в качестве стимулов используются музыкальные видеоклипы. Предложена архитектура сверточной нейронной сети (CNN), на базе которой создан мультиклассификатор эмоций по шкале валентности-арозальности (V-A) Рассела.
1. Анализ достигнутых ранее результатов
Существуют различные дискретные модели для классификации эмоций: шесть базовых эмоций по шкале Экмана [9], древовидная структура эмоций Парротта [10], «колесо» эмоций Плутчика [11], шкала валентности-арозальности Рассела [12]. Последняя широко используется для количественного описания эмоций. В шкале Рассела каждое эмоциональное состояние может быть размещено на двухмерной плоскости с осью арозальности (или возбуждения) и осью валентности (рис. 1). Арозальность варьируется от неактивной (неинтересно, скучно) до активной (настороженность, возбуждение). Валентность может быть отрицательной (например, стресс) или положительной (например, радость). Фактически для классификации эмоций достаточно использовать двумерную шкалу (для определения яркости эмоций в модель оценки может быть включена доминантность). Для самооценки по этой шкале используются манекены самооценки (SAM) [13].
Остановимся подробнее на нескольких ключевых работах в области распознавания эмоционального состояния по ЭЭГ.
В работе [14] сигналы ЭЭГ используются для классификации положительных и отрицательных эмоций. В исследовании приняло участие 6 человек и использовался 62-канальный электроэнцефалограф. Испытуемым предложено просматривать видеоролики из 12 популярных художественных фильмов. Длительность каждого видеофрагмента составляла 4 минуты, при этом эмоциональный окрас каждого видеоклипа не был заранее определен. После просмотра каждого клипа испытуемому предлагалось заполнить форму SAM для измерения валентности, возбуждения и доминирования. Если оценка валентности была меньше 5, то эта сессия принадлежала к классу отрицательных эмоций, в противном случае её относили к классу положительных эмоций. С помощью полосовых фильтров выделены частотные диапазоны, соответствующие дельта –(1 –4 Гц), тета –(4–8 Гц), альфа –(4–8 Гц), бета –(13–30 Гц) и гамма-(36 – 40 Гц) ритмам. Затем были сформированы спектрограммы сигнала ЭЭГ. Суммарно получено более 2500 примеров образа ЭЭГ каждого испытуемого. Авторы использовали метод опорных векторов (SVM) с линейным ядром (linear-SVM) для их классификации, по 1 модели на каждый частотный диапазон (всего 5 моделей). Также была обучена 6-я модель SVM на всех частотных диапазонах. Наборы данных для обучения и тестирования разделены в соотношении 70:3. Точность составила 87,53 %. Установлено, что полосы высоких частот более информативны при определении эмоций, чем полосы низких частот.
Высокое возбуждение

Рис. 1. Двухмерное семантическое пространство эмоций
Рассела
В работе [15] проведен анализ сигналов ЭЭГ для распознавания счастья и печали. В эксперименте участвовали 6 человек (3 женщины и 3 мужчины) в возрасте 25 лет. Использовался 62-канальный электроэнцефалограф с частотой дискретизации 1000 Гц. Каждый эксперимент состоял из двух сессий с перерывом в 10 минут. Использовались изображения лиц, представляющие улыбку и слезы. Каждая картинка показывалась в течение 6 секунд. Между испытаниями показывался черный экран (3 секунды). Эмоциональное содержание этих картинок оценивалось с помощью SAM [16] для измерения валентности и возбуждения. Для классификации использовали linear-SVM. Исходный сигнал делился на короткие отрезки с двумя вариантами длины: 3 с и 1 с. Каждый эксперимент состоял из 240 и 720 испытаний для отрезков длительностью 3 с и 1 с соответственно. Наборы данных для обучения и тестирования разделены в соотношении 7:3. Точность классификации составила 93,5%±6,7% для 3-секундных отрезков, в то время как для 1-секундных – 93,0%±6,2%.
В исследовании [17] для записи ЭЭГ использовался 32-канальный электроэнцефалограф (HD-72, Cognionics, 300 Гц, сухие электроды). Участвовало 4
человека (3 мужчины и 1 женщина), средний возраст испытуемых –25 лет. Испытуемым демонстрировались 3 эмоционально окрашенных видеоролика по 25 минут. После просмотра испытуемые оценивали валентность и возбуждение, используя SAM с 9балльной шкалой для каждой сцены [18]. После удаления артефактов были рассчитаны спектральные плотности мощности для тета –(4–7 Гц), альфа –(8– 12 Гц), бета –(12–30 Гц) и гамма –(31–50 Гц) ритмов. Вычислены коэффициенты корреляции Спирмена между спектрами и оценками симпатии. Далее использовались комбинации каналов и частотных полос с наибольшими коэффициентами корреляции. Выбрана модель классификации на базе SVM с ядром радиальной базисной функции (RBF), а также регрессионная модель на базе SVR с RBF-ядром для 3секундных видеоклипов. В результате классификации SVM была достигнута точность 77,6%, модель регрессии показала точность 64,5%.
В работе [19] авторы используют шкалу Рассела для количественного описания эмоционального состояния субъектов по сигналам ЭЭГ. Утверждается, что сигналы ЭЭГ нестабильны во времени и восприимчивы к незначительным изменениям окружающей среды. Сигналы, полученные от одного и того же субъекта в разные моменты времени при одинаковой стимуляции, как правило, различаются. Для удаления помех авторы вычитали из целевого участка ЭЭГ предварительно записанный сигнал субъекта в спокойном состоянии. Артефакты из сигнала удалялись вручную. В качестве алгоритма классификации использованы ансамбли деревьев решений. Точность классификации составила 95,8%±2,5 % на общедоступном наборе данных DEAP и 87,28%±5,5 % на наборе данных Dreamer.
В работе [20] рассматривается подход с выделением дифференциальной энтропии на 4 полосах частот сигнала. Электроды размещались в соответствии с международной системой 10–20 (рис. 2 а ) – это стандартная система размещения электродов на поверхности головы (обычно используется 21 электрод), которая рекомендована Международной федерацией электроэнцефалографии и клинической нейрофизиологии. Данные ЭЭГ подавались на вход свёрточной нейронной сети. В работе был использован набор данных DEAP. Точность классификации составила 90,24% для возбуждения и 89,45% для валентности.
В исследовании [21] авторы предложили самокон-тролируемое обучение (SSL) [22] вместо применения SAM. Использован набор данных AMIGOS. Применялась сверточная нейронная сеть. Достигнуты показатели точности распознавания 84% и 85,8% отдельно для валентности и возбуждения соответственно.
В работе [23] предложен подход для отнесения ЭЭГ к одному из 4 классов в соответствии с квадрантами шкалы Рассела – высокая валентность (V) и аро-зальность (A) (HVHA), высокая V и низкая A
(HVLA), низкая V и высокая A (LVHA), низкая V и A (LVLA). Исходные сигналы были разделены на эпохи длиной 2 секунды, затем к эпохам была применена Z-нормализация и нормализация от 0 до 1. Обработанные сигналы попадали на вход 1D свёрточной нейронной сети с LSTM-ячейками. Показатель точности распознавания составил 97,8%.
K.S. Bhanumathi и др. в своей работе [24] провели обзор существующих алгоритмов по распознаванию эмоций. Установлено, что наибольшую точность дает подход, основанный на использовании глубоких нейронных сетей. Подход может быть улучшен путем применения механизмов внимания для фокусировки на наиболее информативных участках ЭЭГ.
Ключевые выводы:
1. Сигналы ЭЭГ имеют высокую размерность пространства признаков и нелинейные зависимости в данных, поэтому почти невозможно выделить зависимости с помощью линейных алгоритмов с высокой точностью. Методы глубокого обучения сверточных и рекуррентных сетей позволяют получать более адекватные результаты. Преимущества рекуррентных нейронных сетей проявляются, когда объемы данных обучения становятся очень большими.
2. Показательным является следующее: высокая точность наблюдалась при использовании только двух лобных датчиков, что дает возможность применять на практике «сухие» электроды, непосредственно контактирующие с кожей, и использовать нейрогарнитуру в качестве устройства записи сигналов ЭЭГ.
3. Существующие наборы данных ЭЭГ, характеризующих разные эмоциональные состояния человека, как правило, имеют небольшой объем. Недостаток вариативности сигналов может привести к недостаточной обученности (или к переобучению) моделей распознавания эмоций и снижению их обобщающей способности. Также данные могут быть зависимы от оборудования, на котором планируется применять разрабатываемый метод. По этим причинам большинство исследователей формируют собственные наборы данных. В настоящем исследовании решено пойти таким же путем.
2. Формирование набора данных ЭЭГ
В настоящем исследовании в качестве стимулов выбраны музыкальные видеоклипы. Это обусловлено следующими данными. L.A. Schmidt и L.J. Trainor обнаружили [25], что активность сигналов ЭЭГ в левой фронтальной зоне возрастает (рис. 2б) во время прослушивания музыкальных отрывков с положительной эмоциональной окраской (радость и счастье) и в правой фронтальной зоне (рис. 2в) во время представления отрицательно оцененных музыкальных отрывков (страх и печаль). Результаты соответствуют модели лобной акти- вации/валентности эмоций, сформулированной Дэвидсоном [26], Фоксом [27] и Хеллером [28], в которой они утверждают, что переживание положительных эмоций локализовано в левой передней области мозга, тогда как переживание отрицательных эмоций локализовано в правой передней области мозга. Результаты показывают, что эмоции, вызванные музыкой, активируют те же лобные области мозга, что и эмоции, вызванные другими модальностями. Для этих целей может быть использована музыка любых жанров .
а)

б)

в)

Рис. 2. Расположение электродов по областям мозга в соответствии со схемой 10 – 20. левофронтальная зона, б) правофронтальная зона, в) вид сверху
В ходе предварительного исследования были тщательно отобраны 60 видеоклипов таким образом, чтобы вызвать наиболее яркие эмоции у целевой группы, которая состояла из студентов университета (популярные русскоязычные и иностранные поп- и рок -исполнители).
Пространство валентности-возбуждения можно разделить на четыре квадранта в соответствии со шкалой валентности-арозальности Рассела [12], а именно:
-
- низкое возбуждение/низкая валентность (LA/LV);
-
- низкое возбуждение/ высокая валентность (LA/HV);
-
- высокое возбуждение/низкая валентность (HA/LV);
-
- высокое возбуждение/высокая валентность (HA/HV).
Испытуемые выбирали те видео, которые вызвали наиболее четкие эмоциональные реакции. Затем из каждого видеостимула выделена одноминутная часть. Испытуемые использовали манекены самооценки [29]. Участники смотрели музыкальные клипы и оценивали их по дискретной 9-балльной валентности, возбуждению и доминированию (рис. 3). Порядок клипов был рандомизирован.
После того, как все 60 видео были оценены 20 добровольцами, чтобы максимизировать силу вызванных эмоций, мы отобрали те видео, которые имели самые высокие оценки. Для каждого видеофрагмента мы рассчитали нормализованный балл возбуждения и валентности, взяв среднее значение. Затем для каждого квадранта мы отобрали 10 видео, которые лежат ближе всего к крайнему углу квадранта. В итоге, из первоначальной коллекции стимульных видеоклипов были отобраны 40 музыкальных видеофрагментов.
В ходе эксперимента ЭЭГ записывалась с помощью нейрогарнитуры NeuroPlay-8Cap (рис. 4). Для предъявления стимулов и записи оценок пользователей использовалось программное обеспечение «NeuroPlayPro» компании Neuroplay. Видеофрагмен- ты были представлены на широкоформатном экране (1920:1080, 60 Гц), испытуемые находились в 1 м от экрана. ЭЭГ записывалась с помощью нейроинтерфейса NeuroPlay-8Cap (125 Гц, 8 активных AgCl-электродов). Электроды были размещены в соответствии с международной системой 10–20).

Рис. 3. Манекен самооценки SAM: валентность, возбуждение, доминирование и оценка симпатии

Рис. 4. Нейрогарнитура NeuroPlay-8Cap
В эксперименте приняли участие пятьдесят участников, не имеющих психических или физическийх патологий в возрасте от 19 до 25 лет. Неврологический статус всех испытуемых до начала эксперимента оценивался как нормальный. Перед началом эксперимента каждый участник подписал форму согласия и заполнил анкету. Экспериментатор также присутствовал, чтобы ответить на любые вопросы.
Видеоролики были продемонстрированы в 40 испытаниях, каждое из которых состояло из следующих этапов:
-
1. 2-секундная заставка, отображающая номер текущего испытания, чтобы проинформировать участников об их прогрессе.
-
2. 5-секундная запись исходного сигнала, чтобы участник мог настроиться на следующее испытание.
-
3. 1-минутный показ музыкального видеофрагмента.
-
4. В конце каждого испытания участники проводили самооценку своих уровней возбуждения, валентности, симпатии и доминирования.
-
3. Методы анализа данных и архитектура нейросетевой модели искусственного интеллекта для классификации эмоций
Манекены (рис. 3) отображались в центре экрана с цифрами 1–9, напечатанными ниже. Участники перемещали мышь, чтобы указать свой уровень самооценки. После 20 испытаний участники делали небольшой перерыв.
Таким образом, 50 испытуемых посмотрели 40 музыкальных клипов, сделано 50 ×40=2000 записей ЭЭГ (4 класса, по 500 файлов на каждое эмоциональное состояние). Итоговая размерность подготовленных данных составила 40 × 8 × 8064 (где 40 – количество видеоклипов, 8 – количество каналов ЭЭГ, 8064 – 60 секунд записи ЭЭГ с частотой дискретизации 128 Гц).
Результаты проведенного обзора были учтены при построении нейросетевой модели искусственного интеллекта в настоящем исследовании.
Важным шагом при анализе сигналов ЭЭГ как в клинической, так и в исследовательской практике, является этап предобработки. На данном этапе временные волны данных ЭЭГ проверялись визуально. Записи, сильно загрязненные электромиограммой (ЭМГ), были удалены вручную. Помехи от сети электропитания были устранены наложением режектор-ного фильтра (общепринятая практика) с частотой среза 45 до 55 Гц. Затем сигналы ЭЭГ были разделены на части длиной 2,5 секунды с помощью окна с перекрывающимся шагом.
Согласно ранее проведенным исследованиям [30, 31, 32] удалось определить, что ЭЭГ содержит информацию как об индивидуальных особенностях работы мозга субъекта, так и о состоянии субъекта, в том числе зависящем от совершаемых действий в реальном времени. В результате анализа амплитудночастотных характеристик (АЧХ) сигналов ЭЭГ было определено, что на разных устройствах записи ЭЭГ информативность АЧХ сопоставима, а сигналы электроэнцефалограмм почти равноинформативны, при этом их АЧХ по отдельности малоинформативны, поэтому необходим мощный инструмент обогащения данных, такой как сверточные нейронные сети.
По итогам проведенного систематического обзора научной публицистики решено использовать архитектуры сверточных нейронных сетей для решения задачи распознавания эмоций, так как они дают наиболее высокие результаты при анализе ЭЭГ. Предложено обучать сеть на данных ЭЭГ, записанных субъектом в разные дни, т.к. это позволит значительно повысить надежность идентификации пользователя по данным сигналов ЭЭГ [30].
Все эксперименты реализованы с использованием фреймворка Tensorflow версии 2.11.0 и Python версии 3.10.10. В качестве рабочей станции использовалась GIGABYTE B560 HD3, в состав которой входили Intel i7-11700F (8 CPU @ 2,5 ГГц), NVIDIA GeForce RTX 3060 6 Гб VRAM, 500 Гб SSD, и 32 Гб RAM.
Сформированы две сверточные нейронные сети с идентичной архитектурой, представленной на рис. 5. Отправной точкой для поиска оптимальной архитектуры послужила нейронная сеть EEGNet [33], которая доказала свою эффективность в задачах распознавания моторных стимулов.
Однако в задачах распознавания эмоций следует искать более сложные паттерны в данных, с чем прекрасно справляются глубокие CNN-модели, рассмотренные в работе [34]. Но недостаток обучающей выборки и сложность оптимизации таких сетей [34] не позволяют применять их в задачах с малой выборкой (набор данных из 2000 образов можно назвать относительно малым для таких сетей). Поэтому нами разработана архитектура, основанная на нейросетевых решениях из работ [33–34], которая является значительно более глубокой, чем EEGNet (25 слоёв, против 14), и имеет большее количество фильтров.
Шкалы валентности и арозальности были условно разделены на два интервала равных, представляющих собой области низкой и высокой оценок по соответствующей шкале. Каждая нейронная сеть обучалась задаче бинарной классификации, а именно предсказанию самооценки по одной из размерностей шкалы Рассела: низкая либо высокая валентность и низкая либо высокая арозальность. Обе нейронные сети объединены в мультиклассификатор для эффективного различения 4 состояний в соответствии со шкалой валентности-арозальности Рассела: HVHA, HVLA, LVHA, LVLA (рис. 1), таким образом можно распознать 4 вида эмоций (страх, счастье, печаль, спокойствие).
Использование двух нейронных сетей вместо одной общей позволяет снизить размерность задачи (перейти от задачи классификации 4 классов к двум задачам бинарной классификации), тем самым повысить эффективность обучения на малых выборках (каждая нейронная сеть обучается на одной и той же выборке, но для решения разных задач).




тета- (θ), альфа- (α), бета- (β) и гамма- (γ) ритмы, специфичные для обнаружения эмоциональных состояний. Тестовая выборка была сформирована случайным образом и составила 15 % от общего объёма данных. Обучающая и валидационная выборки формировались путём 10- fold скользящего контроля при обучении каждой модели.
На вход ИНС образы подавались в виде исходных сигналов. Амплитуды образов были нормализованы согласно Z -преобразованию и приведены к виду с нулевым средним и единичным стандартным отклонением. Этот этап выполняется для предотвращения переобучения и повышения точности модели.
4. Обучение и тестирование нейросетевой модели искусственного интеллекта для классификации эмоций
При обучении нейронных сетей окончательно определенный размер минибатча составил 256. В качестве оптимизатора был выбран Adam, а в качестве функции потерь – бинарная перекрестная энтропия. Количество обучаемых параметров представленной нейронной сети составило 425370.
Обучение с промежуточной валидацией для каждой нейронной сети повторялось многократно, каждый раз создавалась новая нейронная сеть, обучаемая независимо, которая проходила процедуру 10- fold скользящего контроля (рис. 6– 7).


Рис. 6. Динамика изменения функции точности (accuracy) обучения (100 эпох) нейронной сети для классификации эмоций по шкале валентности (положительная или отрицательная) с 10-кратным скользящем контролем (каждая линия ассоциируется с отдельной попыткой обучения и тестирования)

В результате эксперимента модель показала точность классификации эмоций в 94%±3,4 % .


Рис. 5. Архитектура предложенной нейронной сети
Перед классификацией сигналы обрабатывались полосовыми фильтрами с целью выделить дельта- (δ),

Рис. 7. Динамика изменения функции точности (accuracy) обучения (100 эпох) нейронной сети для классификации эмоций по шкале возбуждения (низкое/высокое) с 10-кратным скользящем контролем (каждая линия ассоциируется с отдельной попыткой обучения и тестирования нейронной сети)
После анализа результатов видно, что разработанная модель распознавания эмоций на основе сверточных нейронных сетей превосходит существующие модели, основанные на классических алгоритмах анализа сигналов, а также другие известные результаты, полученные на базе SVM [35– 37], Bayesian DNN [38], GCB-Net [39] и др. (табл. 1). Это указывает на то, что предложенная архитектура и нейросетевая модель эффективны.
Табл. 1. Сопоставительные данные по эффективности методов распознавания эмоционального состояния образов ЭЭГ субъектов (V – валентность, A – арозальность)
Методы |
Точность |
Набор данных |
Свёрточная нейронная сеть [20] |
90,24 % ( V ), 89,45% ( A ) |
DEAP, 32 человека |
Сверточная нейронная сеть [21] |
84% ( V ), 85,8% ( A ) |
AMIGOS, 40 человек |
1D сверточная нейронная сеть с LSTM ячейками [23] |
97,8 % – 4 класса |
DEAP, 32 человека |
Статистические признаки и SVM [35] |
67% (V), 68,8% (A) |
AMIGOS, 40 человек |
Преобразование Фурье и SVM с радиальной базисной функцией [36] |
83,9% (V), 65% (A) |
AMIGOS, 40 человек |
Статистические признаки и SVM [37] |
61,84 % (V), 63,32% (A) |
AMIGOS, 40 человек |
Байесовская глубокая сеть (Bayesian DNN) [38] |
90% (V) |
AMIGOS, 40 человек |
Свёрточная широкая сеть графов (GCB-Net) [39] |
86,99% (V), 89,32% (A) |
DREAMER, 23 человека |
Свёрточная нейронная сеть с динамическим графом (DGCNN) [40] |
86,23 % (V) , 84,54% (A) |
DREAMER, 23 человека |
Свёрточная нейронная сеть [41] |
84% (V), 85,8% (A) |
AMIGOS, 40 человек |
Рекуррентная нейронная сеть с LSTM-ячейкам (LSTM-RNN) [42] |
79,4% (V), 83,3 % (A) |
AMIGOS, 40 человек |
Свёрточная нейронная сеть (3D-CNN) [43] |
99,7% – 4 класса |
AMIGOS, 40 человек |
Свёрточная нейронная сеть CNN-VGG16 [44] |
55,56 % |
DREAMER, 23 человека |
Рекуррентная нейронная сеть (LSTM + CNN) [45] |
90,8 % – DREAMER 99% – AMIGOS |
DREAMER, 23 человека, AMIGOS, 40 человек |
Разработанная нейросетевая модель на базе двух CNN |
94%±3,4% |
50 человек |
Заключение
В ходе проведенных исследований разработана методика проведения эксперимента по сбору данных ЭЭГ пользователей. Собрана база данных для анализа эмоционального состояния человека по ЭЭГ. В экс- перименте приняло участие 50 человек, каждый из которых просматривал 40 эмоционально окрашенных видеороликов длительностью в 1 минуту.
Разработана нейросетевая модель классификации эмоционального состояния, основанная на двух глубоких сверточных нейронных сетях с идентичной архитектурой, предложенной в настоящей работе. В результате эксперимента модель показала точность классификации эмоций в 94%±3,4%, что соответствует мировому уровню и превосходит большинство достигнутых ранее результатов.
В будущем планируется провести оптимизацию предложенной модели, применив методы сжатия нейронных сетей, с целью ускорения процесса обучения и снижения потребляемых вычислительных ресурсов, что особенно важно для использования модели на низкопроизводительных устройствах. Возможности использования сжатой нейронной сети на мобильных устройствах значительно расширяют области применения и доступность технологии анализа эмоций на основе ЭЭГ, делая её более удобной для конечных пользователей. Также планируется расширить нейросетевую модель классификации с помощью третьей нейронной сети, которая оценивает силу эмоции по шкале доминантности.
Работа выполнена ОмГТУ в рамках государственного задания Минобрнауки России на 2023–2025 годы (FSGF-2023-0004).