Лексико-грамматические маркеры эмоций в качестве параметров для сентимент-анализа русскоязычных интернет-текстов
Автор: Колмогорова Анастасия Владимировна, Вдовина Любовь Александровна
Журнал: Вестник Пермского университета. Российская и зарубежная филология @vestnik-psu-philology
Рубрика: Язык, культура, общество
Статья в выпуске: 3 т.11, 2019 года.
Бесплатный доступ
Рассматриваются промежуточные результаты создания автоматического классификатора русскоязычных интернет-текстов, распределяющего тексты на 8 классов в соответствии с 8 базовыми эмоциями, выделяемыми шведским биологом Гуго Левхеймом: «злость / гнев», «интерес / возбуждение», «удовольствие / радость», «брезгливость / отвращение», «удивление», «стыд / унижение», «страх / ужас», «страдание / тоска». Материалом для формирования обучающей выборки для классификатора послужили анонимные текстовые записи в жанре «интернет-откровения» пользователей в социальной сети «ВКонтакте». В основе работы классификатора лежит алгоритм машинного обучения с использованием метода опорных векторов. На вход классификатору подаются различные лингвистические параметры: например, частотность использования пунктуационных знаков «?», «!», «?!», «…», усилительных наречий, а также коллокации «когда люди говорят»; наличие в обрабатываемом тексте отрицательной частицы «не», конструкций «такой + прилагательное», «так + наречие», парцелляции, вопросительных слов, частицы «-то», лемм из лексико-семантических полей «смерть», «болезнь», «семья», «одиночество». На выходе получаем на основе учета статистической значимости «входящих» параметров текста его атрибуцию к одному из 8 эмоциональных классов текстов. Результаты, рассматриваемые в публикации, заключаются в валидации дискриминантных черт текстов различных эмоциональных классов, выделенных исследовательской группой в предыдущих публикациях в качестве параметров для автоматической атрибуции текстов. Рассматривается степень их влияния на точность работы классификатора. Достигнутая точность классификатора сравнивается с показателями фиктивного классификатора, осуществляющего атрибуцию случайным образом. В заключение делаются выводы о наиболее эффективных для работы классификатора лингвистических параметрах, оценивается перспективность данного проекта с точки зрения практических задач, а также поднимается вопрос о продолжении исследования для увеличения точности атрибуции.
Вербальные маркеры, машинное обучение, сентимент-анализ, эмоциональная тональность, ранжированный классификатор, классификация базовых эмоций, компьютерная лингвистика, социальные медиа
Короткий адрес: https://sciup.org/147226974
IDR: 147226974 | DOI: 10.17072/2073-6681-2019-3-38-46
Список литературы Лексико-грамматические маркеры эмоций в качестве параметров для сентимент-анализа русскоязычных интернет-текстов
- Болотнов В. И. Эмоциональность текста в аспектах языковой и неязыковой вариативности: основы эмотивной стилистики текста. Ташкент: Фан, 1981. 116 с.
- Большакова Е. И. и др. Автоматическая обработка текстов на естественном языке и анализ данных / Е. И. Большакова, К. В. Воронцов, Н. Э. Ефремова, Э. С. Клышинский, Н. В. Лукашевич, А. С. Сапин. М.: Изд-во НИУ ВШЭ, 2017. 269 с.
- Колмогорова А. В. Вербальные маркеры эмоций в контексте решения задач сентимент-анализа // Вопросы когнитивной лингвистики. 2018. № 1. С. 83-93.
- Колмогорова А. В., Калинин А. А. Частотность и сочетаемость соматизмов в текстах различной эмоциональной тональности // Компьютерные и интеллектуальные технологии. 2018. Вып. 17. С. 317-330.
- Колмогорова А. В., Калинин А. А., Маликова А. В. Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент-анализа русскоязычных текстов // Актуальные проблемы филологии и педагогический лингвистики. 2018. № 1(29). С. 139-148.
- Шаховский В. И. Эмоции как объект исследования в лингвистике // Вопросы психолингвистики. 2009. № 9. С. 29-42.
- Юсупова Н. И., Богданова Д. Р., Бойко М. В. Алгоритмическое и программное обеспечение для анализа тональности текстовых сообщений с использованием машинного обучения // Вестник Уфимского государственного авиационного технического университета. 2018. № 16 (6(51)). С. 91-99.
- Bollen J., Mao H., Zeng X. Twitter mood predicts the stock market // Journal of Computational Science. 2011. № 1(2). P. 1-8.
- Chetviorkin I. I., Loukachevitch N. V. Sentiment analysis track at romip-2012 // Компьютерная лингвистика и интеллектуальные технологии, по материалам конференции «Диалог-2013». 2013. Т. 2. С. 40-50.
- Lövheim H. A New Three-dimensional Model for Emotions and Monoamine Neurotransmitters // Medical hypotheses. 2011. № 78. P. 341-348.
- Pang B., Lee L. Opinion Mining and Sentiment Analysis // Foundations and Trends in Information Retrieval. 2008. Vol. 2, № 1-2. P. 1-135.
- Pang B., Lee L., Vaithyanathan Sh. Thumbs up? Sentiment classification using machine learning techniques // Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). 2002. P. 79-86.
- VanderPlas J. Python Data Science Handbook: Essential Tools for Working with Data. Sebastopol: O’Reilly Media, 2017. 548 p.
- Wiebe J., Riloff E. Creating subjective and objective sentence classifiers from unannotated texts // Computational Linguistics and Intelligent Text Processing. Berlin: Springer, 2005. 486 p.
- Witten I. H., Frank E. Data Mining: Practical Machine Learning Tools and Techniques (Second Edition) // Burlington: Morgan Kaufmann, 2005. P. 56-63.