Проблемы и методы анализа русскоязычных текстов на предмет идентификации тональности

Бесплатный доступ

Проводится анализ актуальности изучения и разработок в области обработки естественно-языковых текстов (NLP), приводятся прогнозы аналитических сообществ, рассматриваются основные методы и подходы сентимент-анализа русскоязычных текстов. Отдельный блок посвящен проблемам исследования тональности русскоязычных текстов и глобальным проблемам, с которыми сталкиваются ученые во всем мире вне зависимости от языка.

Nlp, анализ тональности, сентимент-анализ, машинное обучение, методы обработки текста, искусственный интеллект

Короткий адрес: https://sciup.org/148327127

IDR: 148327127   |   DOI: 10.18137/RNU.V9187.23.03.P.52

Текст научной статьи Проблемы и методы анализа русскоязычных текстов на предмет идентификации тональности

Обработка естественного языка (NLP, Natural Language Processing) – современная технология, находящаяся на стыке таких наук, как лингвистика, искусственный интеллект и компьютерные науки, основная цель которой – заставить машину понимать естественный язык [2].

Сейчас данная технология применяется для автоматической оценки отзывов о товаре, выявления мнения о политике, экологии, компании, репутации и в других областях. Несмотря на то, что существует внушительное количество систем, позволяющих определить тональность англоязычных текстов, для русского языка такие системы развиты слабо [6, с. 36].

Данная работа является обзором существующих проблем и современных методов обработки и анализа текстов на русском языке.

Актуальность развития NLP-технологий

Ежедневно происходит стремительный рост неструктурированной информации на естественном языке. Данный рост существенно превосходит рост структурированной и размеченной текстовой информации.

Проблемы и методы анализа русскоязычных текстов на предмет идентификации...

Алтышева Мария Александровна аспирант, Российский новый университет, Москва. Сфера научных интересов: искусственный интеллект и машинное обучение, программирование на языке Python, обработка естественноязыковых текстов. Автор одной опубликованной научной работы.

Современный анализ естественно-языковых текстов сводится к решению следующих задач:

  • •    анализ текста;

  • •    распознавание человеческой речи;

  • •    извлечение информации из текста;

  • •    анализ тональности и смысла высказываний;

  • •    создание вопросно-ответных систем;

  • •    генерирование структурированного и понятного человекоподобного текста;

  • •    синтез речи;

  • •    перевод текстов с различных языков;

  • •    автоматическое реферирование, аннотирование или упрощение текста.

NLP-технологии активно применяются в таких областях, как финансы, страхование, информационные технологии, медицина, юриспруденция, медиа и реклама, государственная и коммерческая безопасность, наука и образование, а также при разработке голосовых помощников, используемых во всех перечисленных областях [2].

Одной из актуальных сфер применения NLP-технологий является измерение уровня счастья (индекс социальных настроений) населения путем анализа постов в социальных сетях, что позволяет существенно снизить затраты, как финансовые, так и временные, на проведение опросов [3].

Тенденции развития технологий NLP в мире

Основными тенденциями в сегменте NLP-технологий являются:

Brand Analytics

Орфограммка

Ubic Technologies

JungleJobs

Freshdoc Соцмедика

IQ bu22

Поиск и извлечение информации из текста

Рисунок 2. Карта компаний и технологий в области обработки естественного языка [5]

Проблемы и методы анализа русскоязычных текстов на предмет идентификации...

Карта демонстрирует высокий уровень спроса на развитие NLP-технологий на территории Российской Федерации [5].

Методы анализа тональности текстов

Основными методами анализа тональности естественно-языковых текстов являются:

  • 1.    Метод, основанный на машинном обучении, – наиболее распространенный и стремительно развивающийся. Данный метод включает в себя несколько подходов:

  • •    unsupervised learning, или обучение без учителя. Суть метода состоит в том, что наибольший вес в тексте имеют те слова, что чаще всего встречаются. Выделяются наиболее часто встречающиеся слова, определяется их тональность, далее делается вывод о тональности текста в целом;

  • •    supervised learning, или обучение с учителем. В данном случае требуется наличие обучающей коллекции структурированных данных, на базе которой строится классификатор (статистический или вероятностный).

  • 2.    Метод на основе правил – имеет в основе набор шаблонов и правил, написанных экспертом-лингвистом. На основе данных правил определяется тональность текста. Выделенные шаблоны применяются при создании правил вида «если условие, то заключение». Является весьма трудоемким относительно других методов.

  • 3.    Метод, основанный на теоретико-графовых моделях. В основе используется гипотеза, что не все слова равнозначны. Соответственно, выделяются следующие этапы при анализе тональности:

  • •    построение графа;

  • •    ранжирование его вершин;

  • •    классификация слов;

  • •    вычисление результата [7, c. 143].

  • 4.    Гибридный метод – позволяет использовать несколько методов и подходов.

Вышеприведенные методы являются стандартными для анализа естественно-языковых текстов [8, c. 53].

Метод оценки важности слов

При анализе тональности текста необходимо использовать методы оценки важности слов. Одним из эффективных и распространенных методов является метод дельта TF-IDF.

Суть метода заключается в том, чтобы дать больший вес словам, которые имеют некую тональность (не нейтральную). За счет увеличения веса подобных слов тональность можно перевести к исчисляемому формату.

Формула расчета веса отдельного слова

(| n| : P t ) t, d = t, d og ^ | P |: N t j , где Vt , d – вес слова t в тексте d ; Ct , d – количество раз слово t встречается в тексте d ; P – количество текстов с положительной тональностью; N – количество текстов с отрицательной тональностью; Pt – количество положительных текстов, где встречается слово t ; Nt – количество отрицательных текстов, где встречается слово t .

Если рассмотреть случайную коллекцию отзывов о товаре, то из любой выборки можно выделить несколько случайных слов, таких как:

  • •    качественные;

  • •    бесполезные;

  • •    удобные;

  • •    испорченные;

  • •    простые.

Определяющим вес в формуле дельта TF-IDF является второй множитель log(...), который будет отличаться в каждом случае.

Если рассмотреть слова «качественный» и «удобный», которые чаще всего встречаются в положительных отзывах ( P t ) и почти не встречается в отрицательных ( N t ), в итоге их вес будет б о льшим положительным числом, поскольку отношение P t / N t будет числом гораздо больше 1.

Для слов «бесполезный» и «испорченный» данная формула покажет аналогичный вес, но уже отрицательный.

Слово «простой» может встречаться с одинаковой вероятностью как в положительных, так и отрицательных отзывах о товарах и услугах, поэтому отношение P t / N t будет стремиться к единице, и в итоге логарифм будет стремиться к нулю. Соответственно, итоговый вес подобных слов будет равен нулю [11].

Проблемы развития NLP-технологий

Проблемы, связанные с технологией распознавания естественного языка можно разделить на несколько групп.

Глобальные проблемы, связанные с развитием технологий. Основными факторами, сдерживающими развитие NLP-технологий, являются:

  • •    наличие разрыва в части восприятия/понимания/распознавания текстовой информации между человеком и машиной;

  • •    нехватка кадров, а также программ подготовки исследователей;

  • •    сложность обработки и понимания смысловой нагрузки текста [2].

Проблемы анализа языковых структур, особенностей синтаксических и морфологических норм и правил. В исследуемых текстах могут встречаться ошибки различного характера, жаргонизмы, сленг, опечатки. Тексты на русском языке имеют, как правило, сложную структуру, в них нет четкого порядка слов, что также ведет к проблемам применения NLP-технологий.

Еще одной проблемой данной группы является выделение иронии и сарказма. Системы обработки текста оперируют графемами и словоформами, и обучить их улавливать тональность иронии или сарказма на сегодняшний день не удалось [8, c. 54].

Проблема определения отношения к тому или иному объекту. Зачастую тональность определяется для всего текста, при этом требуется определение тональности определенного объекта.

Также не всегда требуется определение по категориям positive, negative и neutral – нужен более глубокий анализ по различным категориям [1, c. 145].

Проблемы, связанные с государственным регулированием потоков информации. Статья 29 главы 2 Конституции Российской Федерации содержит пункт 1, который гарантирует каждому свободу мысли и слова, и пункт 2, запрещающий пропаганду или агитацию, возбуждающую социальную, расовую, национальную или религиозную ненависть и вражду. Согласно данному пункту эмоциональные высказывания в адрес определенных субъектов могут расцениваться как пропаганда или агитация, поэтому определить отношение людей к политике, миграционной системе, социальным программ и другим аспектам жизни становится сложнее ввиду того, что большинство

Проблемы и методы анализа русскоязычных текстов на предмет идентификации...

предпочитает воздерживаться от высказываний и публикаций своего мнения на эти темы [4].

Проблемы генерации текста машинами и наличия несуществующих личностей. Помимо ботов-помощников и ботов-консультантов в интернете можно встретить фейковые страницы социальных сетей, сгенерированные с применением технологий искусственного интеллекта. IT-журналист ProPublica Джефф Као проанализировал комментарии, отправленные в Федеральную комиссию по связи США в отношении предложения 2017 года об отмене сетевого нейтралитета. В своей статье «Более миллиона комментариев в поддержку отмены сетевого нейтралитета, скорее всего, фейк» он сообщает о том, как раскрыл огромный кластер комментариев против сетевого нейтралитета, которые, по всей видимости, были сгенерированы по принципу составления стандартных писем в стиле Mad Libs. По оценке Джеффа Као, лишь 800 тысяч комментариев из более 22 миллионов можно было счесть уникальными [9].

Также можно найти примеры использования машинного обучения для генерации личностей. Нейронные сети способны генерировать фотографии таких личностей, а алгоритмы генерации текста создавать корректно заполненный профиль. Подобные страницы можно найти в таких социальных сетях, как «В контакте», Facebook, Linkedin и др.

Ученые предполагают, что алгоритмы встанут на защиту информации, и будут разработаны алгоритмы классификации, которые смогут распознавать автоматически сгенерированный контент. Однако существует серьезная проблема, создающая гонку разработок, в которой всё более совершенные алгоритмы классификации (или дискриминаторы) могут использоваться для создания всё более совершенных алгоритмов генерации [1, с. 402].

Заключение

Основная задача данной работы – выявление существующих проблем в развитии NLP-технологий на территории Российской Федерации.

Такую проблему, как нехватка кадров и обучающих программ в области NLP, предлагается решать с помощью специальных государственных или коммерческих программ. Проблему структуры и сложности русского языка специалисты пытаются решать с помощью разработки более совершенных систем определения тональности, которые способны проводить более глубокий и тщательный анализ естественно-языковых текстов [2].

Чтобы можно было высказывать свое мнение о политике, миграционной системе, образовании и социальных льготах без опаски, ведутся разработки анонимных систем голосования [3].

Однако проблемы выявления сгенерированных текстов будут расти параллельно с развитием технологий генерации текста.

Список литературы Проблемы и методы анализа русскоязычных текстов на предмет идентификации тональности

  • Ховард Джереми. Глубокое обучение с fastai и Pytorch: минимум формул, минимум кода, максимум эффективности. СПб.: Питер, 2022. 624 с.: ил. (Серия «Бестселлеры O’Reilly»).
  • ИИ и Natural Language Processing: большой обзор рынка. Часть 1 // Национальная технологическая инициатива: [сайт]. URL: https://nti2035.ru/media/publication/ii-i-natural-languageprocessing-bolshoy-obzor-rynka-chast-1 (дата обращения: 08.12.2022).
  • Как технологии помогают сохранить анонимность и тайну голосования // Официальный сайт мэра Москвы [сайт]. URL: https://www.mos.ru/news/item/110761073/ (дата обращения: 08.12.2022).
  • Конституция Российской Федерации. Глава 2. Права и свободы человека и гражданина // Конституция Российской Федерации: [сайт]. URL: http://www.constitution.ru/10003000/10003000-4.htm (дата обращения: 08.12.2022).
  • Обработка естественного языка, распознавание и синтез речи // Искусственный интеллект: альманах. Обработка естественного языка, распознавание и синтез речи: аналитический сборник. 2019. № 2 / Центр компетенций НТИ «Искусственный интеллект». URL: https://www.aireport.ru/nlp (дата обращения: 08.12.2022).
  • Полозов И.К., Волкова И.А. Применение технологии Word3Vec в задаче выделения инверторов тональности // Международный научно-исследовательский журнал № 4 (94). Часть 1. С. 36–39. URL: https://cyberleninka.ru/article/n/primenenie-tehnologii-word2vec-v-zadache-vydeleniya-invertorovtonalnosti/viewer (дата обращения: 08.12.2022).
  • Сарбасова А.Н. Исследование методов сентимент-анализа русскоязычных текстов // Молодой ученый. 2015. № 8 (88). С. 143–146. URL: https://moluch.ru/archive/88/17413/ (дата обращения: 08.12.2022).
  • Семина Т.А. Анализ тональности текста: современные подходы и существующие проблемы // Социальные и гуманитарные науки. Отечественная и зарубежная литература. Серия 6. Языкознание: Реферативный журнал. С. 47–59. URL: https://cyberleninka.ru/article/n/analiz-tonalnostiteksta-sovremennye-podhody-i-suschestvuyuschie-problemy (дата обращения: 08.12.2022).
  • Jeff Kao, More than a Million Pro-Repeal Net Neutrality Comments were Likely Faked, 2017 [Текст: электронный] // Hacker Noon: [сайт]. URL: https://hackernoon.com/more-than-a-million-prorepeal-net-neutrality-comments-were-likely-faked-e9f0e3ed36a6 (дата обращения: 08.12.2022).
  • Smetanin S. The Applications of Sentiment Analysis for Russian Language Texts: Current Challenges and Future Perspectives. IEEE Access, 2020. URL: https://ieeexplore.ieee.org/document/9117010 (дата обращения: 08.12.2022).
  • Finin Tim, Martineau Justin. Delta TFID F: An Improved Feature Space for Sentiment Analysis. Third AAAI Internatonal Conference on Weblogs and Social Media, May 2009, San Jose CA . URL: https://ebiquity.umbc.edu/_file_directory_/papers/446.pdf (дата обращения: 01.06.2022).
Еще
Статья научная