Цифровой анализ эмоционального компонента поэтического текста

Автор: Шереметьева Светлана Олеговна, Бабина Ольга Ивановна

Журнал: Вестник Южно-Уральского государственного университета. Серия: Лингвистика @vestnik-susu-linguistics

Рубрика: Прикладная лингвистика

Статья в выпуске: 1 т.19, 2022 года.

Бесплатный доступ

В статье предлагается цифровой анализ эмоций как один из методов использования текстовой аналитики для получения полезной информации, связанной с мнениями. В частности, рассматриваются вопросы автоматизированной экстракции эмоционального компонента из поэтических текстов с целью определения эмотивного восприятия авторами произведений регионального локуса. Представлен опыт практической реализации цифрового анализа эмоций корпуса текстов уральских поэтов на основе онтологического анализа, основными ресурсами которого являются онтология предметной области, ориентированная на решение конкретной задачи, и онтолексиконы - набор лексических единиц, связанных с онтологическими концептами. Описывается методика построения этих ресурсов на основе корпусного анализа. Подчеркивается важность разработки и использования автоматического инструментария для сокращения времени и трудоемкости построения онтологической базы знаний, показаны процедуры онтологического анализа и извлечения эмоций и представлен инструментарий, разработанный авторами для достижения этой цели. Приводятся конкретные результаты вычисления эмоций и их интерпретация в соответствии с поставленными задачами исследования.

Еще

Цифровизация, экстракция эмоций из текста, анализ авторских эмоций, поэтический корпус, уральский локус

Короткий адрес: https://sciup.org/147236946

IDR: 147236946   |   DOI: 10.14529/ling220108

Текст научной статьи Цифровой анализ эмоционального компонента поэтического текста

Исследования в области анализа эмоций – это подраздел анализа тональности текста (или сенти-мент-анализа). Основной целью распознавания тональности текста является анализ естественного языка для определения мнений, идей и мыслей посредством присвоения им полярностей – отрицательной, положительной или нейтральной. Исследования в области распознавания эмоций стремятся разработать методы анализа, позволяющие выявить более тонкие детализированные особенности восприятия реальности, такие как счастье, грусть, злость, печаль, страх, гнев, удивление и т. д., а не ограничиваться выявлением общих значений полярности. Эмоции выражают переживания человека в его отношении к самому себе и окружающему миру и тем самым оказывают большое влияние на все аспекты жизни общества, включая социальные и экономические. Они передают конкретную информацию о состоянии, благополучии и потребностях членов общества, что необходимо для принятия корректных решений по улучшению нашей среды обитания.

Развитие информационных технологий привели к возникновению новых возможностей анализа эмоционального состояния человека – цифровизации и автоматизированному распознаванию эмоций, что можно обозначить термином «экстракция эмоций». В настоящее время экстракция и анализ эмоций наиболее широко используются в бизнесе в маркетинговых исследованиях для предоставления оптимальных услуг клиентам, в поисковых рекомендательных системах, в оценке то- нальности новостей и прочих задачах. Появляются работы по анализу эмоций в социальной сфере для определения степени удовлетворенности людей уровнем жизни, состоянием окружающей среды, определения рейтинга деятелей законодательных и правительственных органов, продуктов культуры и искусства и т. д.

Экстракция эмоций может осуществляться на основании выражений лица, устной речи и текста. При этом обширный обзор работ по распознаванию эмоций [4] показывает, что исследованиям по экстракции эмоций из текста уделяется меньше внимания, чем экстракции на основании визуального или устного материала, поскольку автоматический анализ текста требует привлечения технологий обработки естественного языка, что является более проблематичным.

В настоящем исследовании предпринята пионерская попытка автоматизированной экстракции и цифрового анализа эмоций русскоязычного поэтического текста. Статья организована следующим образом. Раздел 1 освещает основные подходы к экстракции эмоций. В разделе 2 описывается методология и результаты экстракции и цифрового анализа эмоций в текстах уральских поэтов. Заключение завершает статью.

  • 1.    Основные подходы к экстракции эмоций

    Проблема экстракции эмоций из текста является предметом научных исследований с начала 2000-х гг. Большая часть опубликованных работ по теме выполнена на материале английского языка [10]; отечественных исследований в этой облас-

  • ти на материале русского языка пока значительно меньше [2]. Все системы автоматизированной экстракции эмоций основаны на тех или иных моделях эмоций, которые определяют способы их структурной репрезентации.

Модели эмоций подразделяются на категориальные (дискретные) и пространственные (многомерные). Основное различие между ними состоит в том, что категориальные модели основаны на определении разделенного на отдельные классы (категории) списка эмоций, а пространственные модели предполагают, что эмоции не являются независимыми и помещаются в некое непрерывное пространство.

К самым известным дискретным моделям относятся:

  •    модель П. Экмана [6], которая различает шесть фундаментальных независимых эмоций. При этом взаимодействие этих эмоций может вызвать другие сложные эмоции;

  •    модель Роберта Плутчика [11] выделяет восемь фундаментальных эмоций различной интенсивности в зависимости от того, как события интерпретируются переживающим;

  •    модель Ортони, Клора и Коллинза [8] предлагает 22 эмоции. Эмоции не считаются базовыми, но варьируют по степени интенсивности.

Наиболее влиятельными пространственными моделями являются:

  •    модель Г.Н. Рассела [13] – это круговая пространственная двумерная модель – циркумфлекс воздействия. Модель различает эмоции в областях Возбуждения (Arousal) и Валентности (Valence). Возбуждение различает эмоции по активации и деактивации, тогда как Валентность различает эмоции по приятности и неприятности;

  •    двумерное колесо эмоций Р. Плутчика [12] показывает Валентность на вертикальной оси и Возбуждение на горизонтальной. Колесо помещает эмоции в концентрических кругах и показывает, насколько связаны эмоции в зависимости от их положения на колесе;

  •    трехмерная модель эмоций Г.Н. Рассела и А. Мехрабиана [14] включает Валентность/ Удовольствие, Возбуждение и Доминирование . Возбуждение и Валентность показывают, насколько эмоция приятна/неприятна или активна/неактивна. Доминирование описывает степень, с которой люди могут контролировать свои эмоции.

  • 2.    Экстракция эмоций из текстов уральских поэтов

    • 2.1.    Методология исследования

На практике для автоматизированной экстракции эмоций из текста наиболее широко используются дискретные модели.

Существующие подходы к экстракции эмоций можно разделить на три основные категории: методы, основанные на знаниях, статистические методы и гибридные подходы [5]. Методы, основанные на знаниях (иногда называемые методами, основанными на лексике), для обнаружения эмоций используют знания предметной области, а также морфологические, синтаксические и семантические характеристики языка. Методы, основанные на знаниях, опираются на два возможных подхода: подходы на основе словарей и корпуса. В подходах на основе словарей используются словари эмоциональной лексики, а также словари синонимов, антонимов, акронимов, смайликов [1]. Подходы, основанные на корпусе [9], выделяют лексику, обозначающую эмоции в большом корпусе текстов с последующей категоризацией выделенной лексики. Статистические методы, как правило, основаны на машинном обучении с учителем, где требуется большое количество обучающих аннотированных данных, которые вводятся в алгоритмы, позволяющие системе прогнозировать соответствующие типы эмоций [7]. Гибридные подходы к экстракции эмоций представляют собой различные комбинации статистических методов и методов, основанных на знаниях [16]. Необходимо отметить, что все подходы к экстракции эмоций в качестве необходимого этапа включают аннотирование текстов категориями эмоций, выполняемое, как правило, либо полностью вручную, либо с частичной автоматизацией посредством аннотационных интерфейсов.

В нашем исследовании мы придерживаемся дискретной модели эмоций. Специфика разработанной методологии экстракции эмоций и цифрового анализа эмоций заключается в следующем:

  •    набор эмоциональных категорий ориентирован на исследовательский корпус уральской поэзии;

  •    экстракция эмоций осуществляется из предварительно концептуально аннотированного корпуса текстов;

  •    процедура концептуальной аннотации представляет собой реализацию онтологического анализа, что в качестве предварительного этапа включает построение базы знаний: онтологии предметной области уральской поэзии и онтолексиконов – списков лексических единиц, которые соответствуют концептам онтологии;

  •    в качестве концептов онтологии используются выявленные в корпусе семантические классы (категории) эмоций;

  •    онтолексиконы (текстовые единицы онтологического анализа) помимо отдельных слов включают лексические группы, содержащие до трех компонентов, например, двойная слепота , волшебный запах, время неспешное былин, дряблый клубень картофеля, жуткая прелесть переворота и т. д.; такое решение мотивировано корпусным анализом поэтического текста, который свидетельствует о том, что эмоции в стихах часто передаются комбинациями слов, в то время как одно и то же слово в разных контекстах может передавать различные эмоции или быть эмоционально нейтральным;

  •    экстракция и цифровой анализ эмоций осуществляются с применением предварительно созданного автоматизированного инструментария.

  • 2.2.    База знаний и инструментарий аннотирования

  • 2.3.    Анализ и интерпретация экстракции эмоций

Перечисленные методологические принципы обусловили конкретные этапы цифрового анализа эмоций в текстах уральской поэзии, отражающих восприятие регионального локуса региональными авторами: выбор корпусов текстов, спецификацию категорий эмоций, построение предметноориентированных онтологии эмоций и онтолексиконов, создание автоматизированной платформы аннотирования, процедуру аннотирования корпусов, вычисление эмоций и интерпретацию результатов.

В рамках данного исследования база знаний (онтология и онтолексиконы) для экстракции эмоций построены на основе корпуса 500 поэтических текстов современных уральских поэтов объемом 15 000 словоформ. Отбор корпуса, который был предоставлен авторам статьи филологами Т.Ф. Семьян и Е.А. Смышляевым, производился по двум основным критериям: включение текстов региональных поэтов в «Антологию современной уральской поэзии» (тома 3 и 4) и отражение в стихах уральского локуса (топонимы, описания уральских регионов и др.). Среди ключевых авторов стихов, включенных в исследовательский корпус, такие уральские поэты, как Ирина Аргутина, Антон Бахарев-Чернёнок, Вера Кузьмина, Янис Грантс, Виталий Кальпиди, Иван Козлов и Александр Самойлов.

Поскольку цель исследования состояла в идентификации эмоционального восприятия как Урала в целом, так и отдельных уральских городов, в исходном корпусе были выделены 8 подкорпусов стихов, описывающих Челябинск, Екатеринбург, Пермь, Березники, Еманжелинск, Каменск-Уральский, Нижний Тагил, а также недифференцированный подкорпус других, менее крупных уральских городов. Размеры подкорпу- сов, количество стихотворений и средний размер стихотворения для каждого из указанных городов приведены в таблице.

Корпус был обработан лексическим экстрактором LanAKey [15], который позволяет автоматически извлекать грамматически правильные одно-и многокомпонентные (до 4 компонентов) именные, глагольные, предложные и другие лексические группы. Из полученных таким образом списков лексических единиц выделены те, которые передают эмоции. Отобранные единицы разнесены в большие семантические классы (категории) отрицательных и положительных эмоций, в каждом из которых затем выделены подклассы конкретных эмоций. В частности, выделены следующие категории отрицательных эмоций: отвращение, неодобрение, гнев, горе, настороженность, страх, скука, печаль, тревога и другое . Набор категорий положительных эмоций в корпусе включает радость, предвкушение, принятие, отвлечение, удивление, безмятежность и другое . Категория «другое» в обоих классах учитывает эмоции, не входящие в основные списки.

Выявленные категории эмоций использовались в качестве основных концептов онтологии уральской поэзии, а списки лексических единиц каждой категории представляли собой онтолексиконы. Полученные знания были помещены в программную оболочку платформы концептуального аннотирования [3], с помощью которой корпусы автоматически аннотировались тегами онтологических концептов, за которыми следовало автоматическое вычисление манифестаций эмоций и их интерпретация.

Анализ извлеченных эмоций показал, что количество эмоционально окрашенного словаря в каждом из подкорпусов варьирует от 1/4 до 1/3 всего лексикона, используемого в соответствующих поэтических текстах. В частности, из всей

Параметры подкорпусов уральского поэтического корпуса

Параметры Челябинск Екатеринбург Пермь Березники Еманже-линск Каменск-Уральский Нижний Тагил Другие уральские города Размер подкорпуса 7792 2157 1109 139 865 278 316 2054 Количество стихотворений 78 18 5 1 14 3 5 17 Среднее количество словоупотреблений в стихотворении 99,90 119,83 221,8 139 61,79 92,67 63,2 120,82 Объем эмоционально маркированной лексики 2279 42 611 221 79 104 276 526 эмоционально окрашенной лексики 58,3 % выражают отрицательные эмоции, 41,7 % – положительные, т. е. уральские поэты чаще воспринимают Урал как депрессивный, а не радостный край. Распределение отрицательных и положительных эмоций в общем корпусе поэтических текстов уральских поэтов дано на рис. 1. Диаграмма показывает преобладание эмоций тревоги и печали над другими отрицательными эмоциями, в то время как положительные эмоции чаще представлены принятием, а затем радостью. На рис. 2 даны результаты вычисления положительных и отрицательных эмоций по городам Урала. Для сопоставимости расчеты проводились в процентных значениях, так как размеры подкорпусов не нормированы. 100 % – общее количество слов в подкорпусе.

Судя по диаграммам на рис. 2, в большинстве городов отрицательные эмоции поэтов преобладают над положительными. Единственным исклю- чением является Нижний Тагил, где значение положительных эмоций почти на 3 % выше, чем значение отрицательных.

На рис. 3 и 4 представлены данные о конкретных положительных и отрицательных эмоциях поэтов относительно различных городов Урала. Диаграммы на рис. 3 показывают, что практически во всех уральских городах среди положительных эмоций поэтов лидирует принятие , при этом в Нижнем Тагиле эмоция предвкушения заметно выше, чем в других городах.

В целом видно, что поэты всех уральских городов испытывают приблизительно одинаковый набор положительных эмоций. Что касается конкретных отрицательных эмоций, то в целом, как видно из сравнения диаграмм на рис. 3 и 4, в распределении отрицательных эмоций, демонстрируемых уральскими поэтами в их восприятии различных городов региона, наблюдается более высокая вариативность, чем в распределении

Отрицательные эмоции

0,00%      Б,00%     10,00%     15,00%     20,00%      25,00%     30,00%     35,00%

Отвращение

Неодобрение

Гнев ^^^^^^e^^^^^^J

Горе

Настороженность

Страх

Скука

Печаль ^^^^^^^^^^^^^^^^^^^^^^^^^^

Тревога

Другое J

Рис. 1. Общее распределение положительных и отрицательных эмоций

7,00%

6,00%

5,00%

4,00%

3,00%

2,00%

1,00%

0,00%

Рис. 2. Распределение положительных vs отрицательных эмоций по городам Урала

Положительные эмоции

■ Челябинск

■ Еманжелинск

■ Екатеринбург ■ Пермь

■ Каменск-Уральский ■ Нижний Тагил

■ Березники

■ Другие

Рис. 3. Распределение положительных эмоций поэтов по городам Урала

Рис. 4. Распределение отрицательных эмоций поэтов по городам Урала

положительных. Диаграмма на рис. 4 показывает, что в крупных уральских поэтических локусах Екатеринбурга, Челябинска и Перми преобладают такие отрицательные эмоции, как тревога, страх, отвращение и гнев . Кризис постсоветского пространства, хаотичная застройка, плохая экология «заводских городков» сочетаются с сегодняшними негативными реалиями – перенаселенностью, пробками, загазованностью, обезличенностью территорий (бесконечные офисные и спальные районы). Такие эмоции поэтов, как тревога и грусть, более ярко выражены относительно крупных центральных городов (Челябинска и Екатеринбурга). В поэзии челябинских поэтов особое внимание уделяется таким эмоциональным категориям, как гнев и настороженность . Уральские поэты воспринимают Челябинск как «ад металлургии», «город тупиков и заборов», «место изгнания» и т. п. При этом эмоция отвращение , которая в малом количестве присутствует в поэтическом восприятии больших уральских городов, достаточно ярко выражена в отношении поэтов к небольшим городам Урала.

Заключение

В статье представлены методология и результаты автоматизированной экстракции и цифрового анализа эмоций, отражающих восприятие Урала региональными поэтами. Методология анализа представляет собой сочетание качественных исследований и количественных (цифровых) вычислений эмоций на основе онтологического анализа корпусов соответствующих текстов. Для осуществления анализа использовался специально разработанный компьютерный инструментарий, автоматизирующий как создание онтологической базы знаний, так и процедуру концептуального аннотирования. Применение предложенной методологии и инструментария позволило выявить, интерпретировать и визуализировать в виде диаграмм доминирующие эмоции региональных поэтов в их восприятии уральских городов. Таким образом, становится понятным, что крупные уральские города, несмотря на обилие культурных мероприятий и более развитую инфраструктуру, воспринимаются поэтами довольно негативно, преимущественно с такими эмоциональными категориями, как страх, тревога, гнев и настороженность . В то время как более мелкие города, такие как Еманже-линск, Каменск-Уральский и Нижний Тагил, воспринимаются более позитивно. В целом при восприятии Урала региональными поэтами эмоции радости, принятия и безмятежности преимущественно наблюдаются в описании уральской природы.

Список литературы Цифровой анализ эмоционального компонента поэтического текста

  • Иванова, Е.С. Возможности методики «Словарь эмоций» для диагностики и развития эмоциональной сферы / Е.С. Иванова // Психологическая диагностика. – 2008. – № 1. – С. 101–112.
  • Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог-2016» (Москва, 1–4 июня 2016 г.). – М.: Изд-во РГГУ, 2016. – Вып. 15 (22). – 922 с.
  • Шереметьева, С.О. Платформа для концептуального аннотирования многоязычных текстов / С.О. Шереметьева, О.И. Бабина // Вестник ЮУрГУ. Серия «Лингвистика». – 2020. – Т. 17, № 4. – С. 53–60.
  • Acheampong, F.A. Text-based emotion detection: Advances, challenges, and opportunities / F.A. Acheampong, Ch. Wenyu, H.Nunoo-Mensah // Engineering Reports. – 2020. – 2:e12189. – 24 p. DOI: https://doi.org/10.1002/eng2.12189
  • Cambria, E. Affective Computing and Senti-ment Analysis / E. Cambria // IEEE Intelligent Systems. – 2016. – Vol. 31, issue 2. – P. 102–107.
  • Ekman, P. Basic emotions. Handbook of Cognition and Emotion / P. Ekman; ed. by T. Dalgleish, M. Power. – Chapter 3. – John Wiley and Sons Lts, 1999, pp. 45-60.
  • Go, A. Twitter Sentiment Classification using Distant Supervision / A. Go, R. Bhayani, L. Huang // CS224N Project Report, Stanford 1 (12). – 2009. – 7 p.
  • Ortony, A. The Cognitive Structure of Emotions / A. Ortony, G.L. Clore, A. Collins. – Cambridge, MA: Cambridge University Press, 1990. – 224 p.
  • Pak, A. Twitter as a Corpus for Sentiment Analysis and Opinion Mining / A. Pak, P. Paroubek // Proceedings of the 7th conference on International Language Resources and Evaluation (LREC'10). ELRA. – 2010. – P. 1320–1326.
  • Pang, B. Opinion Mining and Sentiment Analysis / B. Pang, L. Lee // Foundations and Trends in Information Retrieval. – 2008. – Vol. 2, issue 1–2. – P. 1–135.
  • Plutchik, R. A general psychoevolutionary theory of emotion. Emotion: Theory, research, and experience: Vol. 1. Theories of emotion / ed. by R. Plutchik & H. Kellerman. – Amsterdam, Nether-lands: Elsevier, 1980. – P. 3–33.
  • Plutchik, R. Emotions and Life: Perspectives from Psychology, Biology, and Evolution / R. Plutchik. –Washington, DC: American Psychological Association, 2002. – 592 p.
  • Russell, J.A. A circumplex model of affect / J.A. Russell // Journal of Personality and Social Psychology. – 1980. – Vol. 39, issue 6. – P. 1161–1178.
  • Russell, J.A. Evidence for a three-factor theory of emotions / J.A. Russell, A. Mehrabian // Journal of Research in Personality. – 1977. – Vol. 11, issue 3. – P. 273–294.
  • Sheremetyeva, S. Automatic Extraction of Linguistic Resources in Multiple Languages / S. Sheremetyeva // Proceedings of NLPCS 2012, 9th Inter-national Workshop on Natural Language Processing and Cognitive Science in conjunction with ICEIS 2012 (Wroclaw, Poland). – 2012. – P. 44–52.
  • Tan, S. Combining Learn-Based and Lexicon-Based Techniques for Sentiment Detection without using
  • Labeled Examples / S. Tan, Y. Wang, X. Cheng // Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. –NY, ACM, 2008. – P. 743–744.
Еще
Статья научная