Компьютерный анализ тональности региональных СМИ

Автор: Васильев В.В.

Журнал: Теория и практика современной науки @modern-j

Рубрика: Основной раздел

Статья в выпуске: 1 (115), 2025 года.

Бесплатный доступ

Анализ тональности -в одном из своих применений, класс методов контент-анализа в компьютерной лингвистике, основная задача которого заключается в классификации текста по его настроению. С помощью анализа тональности исследователи могут обобщать тональность текстов и делать выводы по разным темам.

Анализ тональности, коммуникация эмоция, семантика

Короткий адрес: https://sciup.org/140308940

IDR: 140308940

Текст научной статьи Компьютерный анализ тональности региональных СМИ

Анализ тональности стал мощным инструментом для масштабной обработки мнений, выражаемых в любых текстовых источниках. [2] Цель исследования - изучение и составление языкового образа новостных порталов на примере регионального СМИ «ЯСИА», «Якутия24», C с целью выявления наиболее обсуждаемых категорий, единиц, анализа общественного мнения и реакции на данную тему. Для исследования будет использоваться текстовый материал в виде статей смешанной тематической направленности с сайтов региональных СМИ. Основными характеристиками данных будут являться выведение именованных сущностей составляющих ключевую тематику, обсуждаемую в СМИ и выявление семантических характеристик данных текстов. Составляется корпус новостей, который в дальнейшем будет подвергнут как машинной обработке, так и лингвистическому анализу.

Для исследования будет использоваться текстовый материал в виде статей смешанной тематической направленности с сайтов региональных СМИ. Основными характеристиками данных будут являться выведение именованных сущностей составляющих ключевую тематику, обсуждаемую в СМИ и выявление семантических характеристик данных текстов. Составляется корпус новостей, который в дальнейшем будет подвергнут как машинной обработке, так и лингвистическому анализу.

Методы исследования: Для определения тональности текста используются определенная выборка слов и загружается в менеджер корпусов AntConc. Более точное определение тональности текста будет ясно указываться при изменении размера кластера на значение 2. При этом программа будет выдавать словосочетания, по которым можно будет в значительной степени легче определять тональность.

Sentistrength —использует словари, оценки тональности слов и правила для определения общей тональности текста. Sentistrength является одним из эффективных методов анализа тональности текста, так как он учитывает не только оценки слов, но и их контекст в предложении. Однако, он может быть неэффективен в случае, если отзывы содержат много ошибок или нетипичных конструкций. Чтобы программа показала достоверные результаты, надо предварительно обработать данные: удалить стоп-слова (часто используемые слова, не несущих смысловой нагрузки) и пунктуации, привести слова к единому регистру, лемматизировать. [3]

Алгоритм исследования:

  •    Сбор текстового корпуса – новостные статьи, периода 2023-2024 года, продолжается сбор более ранних статей. Как правило региональный

портал новостей представляет собой собрание материалов, охватывающих разные области жизни региона, таким образом представленный материал будет разноплановым, что в свою очередь соответствует критериям полноты и репрезентативности, представляемым к текстовым корпусам.

Обработка языковых данных - введение данных в аналитическую систему.

Индексация материала, на данном этапе возможна и частеречная разметка

Фильтрация и очистка списка слов

Ранжирование по частотности, сочетаемости.

На полученных статистических данных – составление языкового портрета СМИ

Разбиение по семантическим областям, полям

Извлечение именованных сущностей, частотных объектов обсуждения

Автоматизированная оценка тональности

Лингвистический стилистический анализ

Интерпретация и характеристика полученных данных

Оценка восприятия, стимул – ключевые слова, ассоциативный сбор

Возможен перевод специалистом и машинный перевод

Оценка тональности переведенного текста

Сравнение полученных результатов, оценка потенциала передачи тональности при выполнении перевода

  •    Формулировка рекомендаций к улучшению инструментария областей оценки тональности и машинного перевода.

На материале корпуса ЯСИА выведена следующая частотность:

9 народов а 21       1 10 РОССИИ 8 21       1 11 республики 11 20      1 12 сутки 11 20      1 13 отопительный 13 18      1 14 реке 13 18      1 15 сегодня 13 18      1 воды

района             2    431

также               3    351

Якутии              4    331

районе            5    291

этом                5    261

уровень            7    241

ледохода            8    211

Фильтрация для удаления служебных слов произведена по регулярному выражению: \w{4,14}. Также возможно выполнение фильтрации посредством создания и включения списка стоп-слов.

Облако слов новостей за период - май 2024 г.

кобяйского районов уровней w я будет ™в ждараишш ледоход              спорта Q еке уровень STpoca

.да ЭТ О М дшмеодёйв =гакже районе! РетУблдаНЖ ^терртпории ^отопительный^

Комплексный анализ тональности.

Ныне существующий компьютерный инструментарий средств исследования тональности не полностью удовлетворяет нужды лингвиста в данной области, поскольку в сфере компьютерной лингвистики направление анализа тональности ограничено исследованием полярности и извлечением эмоций в тексте. Для исследования коммуникативной тональности потребуется комбинированный гибридный подход с явной долей участия человека в человеко-машинном процессе анализа. [4]

Первичным пунктом в алгоритме мы поставим выявление дискурсивных зон, тем обсуждения и объекты обсуждения. Как путем статистического анализа корпуса текстов, так и с применением нейротехнологий в компьютерном анализе тональности, в рамках которой автоматически могут быть распознаны именованные сущности и их классы.

Следующим пунктом будет выделение единиц тональности, как путем автоматического анализа системами сентимент-анализа, извлекающими тонально окрашенные единицы и определяющие по ним настроение, полярность текста, так и проведение собственного экспертного анализа. Экспертный анализ будет состоять в отборе из текста единиц тональности, описания текста в целом, описание общей коммуникативной ситуации.

Результаты исследования подчеркивают значимость классификации текстовой тональности как важного аспекта лингвистических исследований. Это позволяет лучше понять, как язык формирует эмоциональное восприятие и коммуникативные намерения. Анализ существующих методов классификации и выявление ключевых индикаторов открывают новые возможности для их применения в различных областях, таких как маркетинг, психология и социология. Это делает тему актуальной и востребованной в условиях современного информационного общества.

Список литературы Компьютерный анализ тональности региональных СМИ

  • Котельников Е.В. Функция оценки информативности гипотез для анализа тональности текстов на основе ДСМ-метода // Фундаментальные исследования. - 2014. - № 11. - С. 2150-2151.
  • Liu, Bing. Sentiment Analysis and Subjectivity // Handbook of Natural Language Processing (англ.) / под ред. N. Indurkhya и F. J. Damerau. - 2010.
  • Pang, Bo, Lee, Lillian. Opinion Mining and Sentiment Analysis (англ.) // Foundations and Trends in Information Retrieval : журнал. - 2008. - No. 2. - P. 1-135.
  • Богданова Т.Ф. Лексическая тональность в деловой интернет-переписке на русском и английском языках // Вестник Костромского государственного университета. 2023. Т. 29, № 3. С. 194-199.
Статья научная