Лексико-грамматические маркеры эмоций в качестве параметров для сентимент-анализа русскоязычных интернет-текстов
Автор: Колмогорова Анастасия Владимировна, Вдовина Любовь Александровна
Журнал: Вестник Пермского университета. Российская и зарубежная филология @vestnik-psu-philology
Рубрика: Язык, культура, общество
Статья в выпуске: 3 т.11, 2019 года.
Бесплатный доступ
Рассматриваются промежуточные результаты создания автоматического классификатора русскоязычных интернет-текстов, распределяющего тексты на 8 классов в соответствии с 8 базовыми эмоциями, выделяемыми шведским биологом Гуго Левхеймом: «злость / гнев», «интерес / возбуждение», «удовольствие / радость», «брезгливость / отвращение», «удивление», «стыд / унижение», «страх / ужас», «страдание / тоска». Материалом для формирования обучающей выборки для классификатора послужили анонимные текстовые записи в жанре «интернет-откровения» пользователей в социальной сети «ВКонтакте». В основе работы классификатора лежит алгоритм машинного обучения с использованием метода опорных векторов. На вход классификатору подаются различные лингвистические параметры: например, частотность использования пунктуационных знаков «?», «!», «?!», «…», усилительных наречий, а также коллокации «когда люди говорят»; наличие в обрабатываемом тексте отрицательной частицы «не», конструкций «такой + прилагательное», «так + наречие», парцелляции, вопросительных слов, частицы «-то», лемм из лексико-семантических полей «смерть», «болезнь», «семья», «одиночество». На выходе получаем на основе учета статистической значимости «входящих» параметров текста его атрибуцию к одному из 8 эмоциональных классов текстов. Результаты, рассматриваемые в публикации, заключаются в валидации дискриминантных черт текстов различных эмоциональных классов, выделенных исследовательской группой в предыдущих публикациях в качестве параметров для автоматической атрибуции текстов. Рассматривается степень их влияния на точность работы классификатора. Достигнутая точность классификатора сравнивается с показателями фиктивного классификатора, осуществляющего атрибуцию случайным образом. В заключение делаются выводы о наиболее эффективных для работы классификатора лингвистических параметрах, оценивается перспективность данного проекта с точки зрения практических задач, а также поднимается вопрос о продолжении исследования для увеличения точности атрибуции.
Вербальные маркеры, машинное обучение, сентимент-анализ, эмоциональная тональность, ранжированный классификатор, классификация базовых эмоций, компьютерная лингвистика, социальные медиа
Короткий адрес: https://sciup.org/147226974
IDR: 147226974 | УДК: 811.111 | DOI: 10.17072/2073-6681-2019-3-38-46
Lexical and grammatical markers of emotions as parameters for sentiment analysis of internet texts in Russian
The article covers intermediate results of the creation of an automatic classifier for Russian-language Internet texts, which distributes those into 8 classes, in accordance with 8 basic emotions proposed by the Swedish biologist Hugo Levheim: ‘anger / rage’, ‘interest / excitement’, ‘enjoyment / joy’, ‘contempt / disgust’, ‘surprise’, ‘shame / humiliation’, ‘fear / terror’, ‘distress / anguish’. The material of the training sample are anonymous texts in the genre of ‘Internet revelations’ posted by users of the social network VKontakte. The operation of the classifier is based on the machine learning algorithm using the support vector machine method. The input parameters are the frequency of the punctuation marks ‘?’, ‘!’, ‘?!’, ‘...’ used, the presence of the negative particle ‘ne’ , the use of constructions ‘takoi + adjective’, ‘tak + adverb’, the collocation ‘kogda lyudi govoryat’ , the presence of parceling, question words, particle ‘-to’, lexemes from lexical fields ‘death’, ‘disease’, ‘family’, ‘loneliness’, as well as measure and degree adverbs. The results considered in the paper consist in the validation of the most characteristic verbal markers of specific emotions as parameters that determine the accuracy of the classifier. We conclude that there is a dependence between the efficiency of parameters and the frequency of correlating verbal markers occurrence within emotional text corpora. The achieved accuracy of the classifier is compared with the results of a dummy classifier that performs attribution randomly. In conclusion, the paper highlights the most useful verbal markers, assesses the prospects of this project in terms of practical problems, and raises the question of continuing the study to increase the accuracy of attribution.
Список литературы Лексико-грамматические маркеры эмоций в качестве параметров для сентимент-анализа русскоязычных интернет-текстов
- Болотнов В. И. Эмоциональность текста в аспектах языковой и неязыковой вариативности: основы эмотивной стилистики текста. Ташкент: Фан, 1981. 116 с.
- Большакова Е. И. и др. Автоматическая обработка текстов на естественном языке и анализ данных / Е. И. Большакова, К. В. Воронцов, Н. Э. Ефремова, Э. С. Клышинский, Н. В. Лукашевич, А. С. Сапин. М.: Изд-во НИУ ВШЭ, 2017. 269 с.
- Колмогорова А. В. Вербальные маркеры эмоций в контексте решения задач сентимент-анализа // Вопросы когнитивной лингвистики. 2018. № 1. С. 83-93.
- Колмогорова А. В., Калинин А. А. Частотность и сочетаемость соматизмов в текстах различной эмоциональной тональности // Компьютерные и интеллектуальные технологии. 2018. Вып. 17. С. 317-330.
- Колмогорова А. В., Калинин А. А., Маликова А. В. Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент-анализа русскоязычных текстов // Актуальные проблемы филологии и педагогический лингвистики. 2018. № 1(29). С. 139-148.
- Шаховский В. И. Эмоции как объект исследования в лингвистике // Вопросы психолингвистики. 2009. № 9. С. 29-42.
- Юсупова Н. И., Богданова Д. Р., Бойко М. В. Алгоритмическое и программное обеспечение для анализа тональности текстовых сообщений с использованием машинного обучения // Вестник Уфимского государственного авиационного технического университета. 2018. № 16 (6(51)). С. 91-99.
- Bollen J., Mao H., Zeng X. Twitter mood predicts the stock market // Journal of Computational Science. 2011. № 1(2). P. 1-8.
- Chetviorkin I. I., Loukachevitch N. V. Sentiment analysis track at romip-2012 // Компьютерная лингвистика и интеллектуальные технологии, по материалам конференции «Диалог-2013». 2013. Т. 2. С. 40-50.
- Lövheim H. A New Three-dimensional Model for Emotions and Monoamine Neurotransmitters // Medical hypotheses. 2011. № 78. P. 341-348.
- Pang B., Lee L. Opinion Mining and Sentiment Analysis // Foundations and Trends in Information Retrieval. 2008. Vol. 2, № 1-2. P. 1-135.
- Pang B., Lee L., Vaithyanathan Sh. Thumbs up? Sentiment classification using machine learning techniques // Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). 2002. P. 79-86.
- VanderPlas J. Python Data Science Handbook: Essential Tools for Working with Data. Sebastopol: O’Reilly Media, 2017. 548 p.
- Wiebe J., Riloff E. Creating subjective and objective sentence classifiers from unannotated texts // Computational Linguistics and Intelligent Text Processing. Berlin: Springer, 2005. 486 p.
- Witten I. H., Frank E. Data Mining: Practical Machine Learning Tools and Techniques (Second Edition) // Burlington: Morgan Kaufmann, 2005. P. 56-63.