Проблемы и методы анализа русскоязычных текстов на предмет идентификации тональности
Бесплатный доступ
Проводится анализ актуальности изучения и разработок в области обработки естественно-языковых текстов (NLP), приводятся прогнозы аналитических сообществ, рассматриваются основные методы и подходы сентимент-анализа русскоязычных текстов. Отдельный блок посвящен проблемам исследования тональности русскоязычных текстов и глобальным проблемам, с которыми сталкиваются ученые во всем мире вне зависимости от языка.
Nlp, анализ тональности, сентимент-анализ, машинное обучение, методы обработки текста, искусственный интеллект
Короткий адрес: https://sciup.org/148327127
IDR: 148327127 | DOI: 10.18137/RNU.V9187.23.03.P.52
Текст научной статьи Проблемы и методы анализа русскоязычных текстов на предмет идентификации тональности
Обработка естественного языка (NLP, Natural Language Processing) – современная технология, находящаяся на стыке таких наук, как лингвистика, искусственный интеллект и компьютерные науки, основная цель которой – заставить машину понимать естественный язык [2].
Сейчас данная технология применяется для автоматической оценки отзывов о товаре, выявления мнения о политике, экологии, компании, репутации и в других областях. Несмотря на то, что существует внушительное количество систем, позволяющих определить тональность англоязычных текстов, для русского языка такие системы развиты слабо [6, с. 36].
Данная работа является обзором существующих проблем и современных методов обработки и анализа текстов на русском языке.
Актуальность развития NLP-технологий
Ежедневно происходит стремительный рост неструктурированной информации на естественном языке. Данный рост существенно превосходит рост структурированной и размеченной текстовой информации.
Проблемы и методы анализа русскоязычных текстов на предмет идентификации...
Алтышева Мария Александровна аспирант, Российский новый университет, Москва. Сфера научных интересов: искусственный интеллект и машинное обучение, программирование на языке Python, обработка естественноязыковых текстов. Автор одной опубликованной научной работы.
Современный анализ естественно-языковых текстов сводится к решению следующих задач:
-
• анализ текста;
-
• распознавание человеческой речи;
-
• извлечение информации из текста;
-
• анализ тональности и смысла высказываний;
-
• создание вопросно-ответных систем;
-
• генерирование структурированного и понятного человекоподобного текста;
-
• синтез речи;
-
• перевод текстов с различных языков;
-
• автоматическое реферирование, аннотирование или упрощение текста.
NLP-технологии активно применяются в таких областях, как финансы, страхование, информационные технологии, медицина, юриспруденция, медиа и реклама, государственная и коммерческая безопасность, наука и образование, а также при разработке голосовых помощников, используемых во всех перечисленных областях [2].
Одной из актуальных сфер применения NLP-технологий является измерение уровня счастья (индекс социальных настроений) населения путем анализа постов в социальных сетях, что позволяет существенно снизить затраты, как финансовые, так и временные, на проведение опросов [3].
Тенденции развития технологий NLP в мире
Основными тенденциями в сегменте NLP-технологий являются:
Brand Analytics
Орфограммка
Ubic Technologies
JungleJobs
Freshdoc Соцмедика
IQ bu22
Поиск и извлечение информации из текста
Рисунок 2. Карта компаний и технологий в области обработки естественного языка [5]
Проблемы и методы анализа русскоязычных текстов на предмет идентификации...
Карта демонстрирует высокий уровень спроса на развитие NLP-технологий на территории Российской Федерации [5].
Методы анализа тональности текстов
Основными методами анализа тональности естественно-языковых текстов являются:
-
1. Метод, основанный на машинном обучении, – наиболее распространенный и стремительно развивающийся. Данный метод включает в себя несколько подходов:
-
• unsupervised learning, или обучение без учителя. Суть метода состоит в том, что наибольший вес в тексте имеют те слова, что чаще всего встречаются. Выделяются наиболее часто встречающиеся слова, определяется их тональность, далее делается вывод о тональности текста в целом;
-
• supervised learning, или обучение с учителем. В данном случае требуется наличие обучающей коллекции структурированных данных, на базе которой строится классификатор (статистический или вероятностный).
-
2. Метод на основе правил – имеет в основе набор шаблонов и правил, написанных экспертом-лингвистом. На основе данных правил определяется тональность текста. Выделенные шаблоны применяются при создании правил вида «если условие, то заключение». Является весьма трудоемким относительно других методов.
-
3. Метод, основанный на теоретико-графовых моделях. В основе используется гипотеза, что не все слова равнозначны. Соответственно, выделяются следующие этапы при анализе тональности:
-
• построение графа;
-
• ранжирование его вершин;
-
• классификация слов;
-
• вычисление результата [7, c. 143].
-
4. Гибридный метод – позволяет использовать несколько методов и подходов.
Вышеприведенные методы являются стандартными для анализа естественно-языковых текстов [8, c. 53].
Метод оценки важности слов
При анализе тональности текста необходимо использовать методы оценки важности слов. Одним из эффективных и распространенных методов является метод дельта TF-IDF.
Суть метода заключается в том, чтобы дать больший вес словам, которые имеют некую тональность (не нейтральную). За счет увеличения веса подобных слов тональность можно перевести к исчисляемому формату.
Формула расчета веса отдельного слова
(| n| : P t ) t, d = t, d og ^ | P |: N t j , где Vt , d – вес слова t в тексте d ; Ct , d – количество раз слово t встречается в тексте d ; P – количество текстов с положительной тональностью; N – количество текстов с отрицательной тональностью; Pt – количество положительных текстов, где встречается слово t ; Nt – количество отрицательных текстов, где встречается слово t .
Если рассмотреть случайную коллекцию отзывов о товаре, то из любой выборки можно выделить несколько случайных слов, таких как:
-
• качественные;
-
• бесполезные;
-
• удобные;
-
• испорченные;
-
• простые.
Определяющим вес в формуле дельта TF-IDF является второй множитель log(...), который будет отличаться в каждом случае.
Если рассмотреть слова «качественный» и «удобный», которые чаще всего встречаются в положительных отзывах ( P t ) и почти не встречается в отрицательных ( N t ), в итоге их вес будет б о льшим положительным числом, поскольку отношение P t / N t будет числом гораздо больше 1.
Для слов «бесполезный» и «испорченный» данная формула покажет аналогичный вес, но уже отрицательный.
Слово «простой» может встречаться с одинаковой вероятностью как в положительных, так и отрицательных отзывах о товарах и услугах, поэтому отношение P t / N t будет стремиться к единице, и в итоге логарифм будет стремиться к нулю. Соответственно, итоговый вес подобных слов будет равен нулю [11].
Проблемы развития NLP-технологий
Проблемы, связанные с технологией распознавания естественного языка можно разделить на несколько групп.
Глобальные проблемы, связанные с развитием технологий. Основными факторами, сдерживающими развитие NLP-технологий, являются:
-
• наличие разрыва в части восприятия/понимания/распознавания текстовой информации между человеком и машиной;
-
• нехватка кадров, а также программ подготовки исследователей;
-
• сложность обработки и понимания смысловой нагрузки текста [2].
Проблемы анализа языковых структур, особенностей синтаксических и морфологических норм и правил. В исследуемых текстах могут встречаться ошибки различного характера, жаргонизмы, сленг, опечатки. Тексты на русском языке имеют, как правило, сложную структуру, в них нет четкого порядка слов, что также ведет к проблемам применения NLP-технологий.
Еще одной проблемой данной группы является выделение иронии и сарказма. Системы обработки текста оперируют графемами и словоформами, и обучить их улавливать тональность иронии или сарказма на сегодняшний день не удалось [8, c. 54].
Проблема определения отношения к тому или иному объекту. Зачастую тональность определяется для всего текста, при этом требуется определение тональности определенного объекта.
Также не всегда требуется определение по категориям positive, negative и neutral – нужен более глубокий анализ по различным категориям [1, c. 145].
Проблемы, связанные с государственным регулированием потоков информации. Статья 29 главы 2 Конституции Российской Федерации содержит пункт 1, который гарантирует каждому свободу мысли и слова, и пункт 2, запрещающий пропаганду или агитацию, возбуждающую социальную, расовую, национальную или религиозную ненависть и вражду. Согласно данному пункту эмоциональные высказывания в адрес определенных субъектов могут расцениваться как пропаганда или агитация, поэтому определить отношение людей к политике, миграционной системе, социальным программ и другим аспектам жизни становится сложнее ввиду того, что большинство
Проблемы и методы анализа русскоязычных текстов на предмет идентификации...
предпочитает воздерживаться от высказываний и публикаций своего мнения на эти темы [4].
Проблемы генерации текста машинами и наличия несуществующих личностей. Помимо ботов-помощников и ботов-консультантов в интернете можно встретить фейковые страницы социальных сетей, сгенерированные с применением технологий искусственного интеллекта. IT-журналист ProPublica Джефф Као проанализировал комментарии, отправленные в Федеральную комиссию по связи США в отношении предложения 2017 года об отмене сетевого нейтралитета. В своей статье «Более миллиона комментариев в поддержку отмены сетевого нейтралитета, скорее всего, фейк» он сообщает о том, как раскрыл огромный кластер комментариев против сетевого нейтралитета, которые, по всей видимости, были сгенерированы по принципу составления стандартных писем в стиле Mad Libs. По оценке Джеффа Као, лишь 800 тысяч комментариев из более 22 миллионов можно было счесть уникальными [9].
Также можно найти примеры использования машинного обучения для генерации личностей. Нейронные сети способны генерировать фотографии таких личностей, а алгоритмы генерации текста создавать корректно заполненный профиль. Подобные страницы можно найти в таких социальных сетях, как «В контакте», Facebook, Linkedin и др.
Ученые предполагают, что алгоритмы встанут на защиту информации, и будут разработаны алгоритмы классификации, которые смогут распознавать автоматически сгенерированный контент. Однако существует серьезная проблема, создающая гонку разработок, в которой всё более совершенные алгоритмы классификации (или дискриминаторы) могут использоваться для создания всё более совершенных алгоритмов генерации [1, с. 402].
Заключение
Основная задача данной работы – выявление существующих проблем в развитии NLP-технологий на территории Российской Федерации.
Такую проблему, как нехватка кадров и обучающих программ в области NLP, предлагается решать с помощью специальных государственных или коммерческих программ. Проблему структуры и сложности русского языка специалисты пытаются решать с помощью разработки более совершенных систем определения тональности, которые способны проводить более глубокий и тщательный анализ естественно-языковых текстов [2].
Чтобы можно было высказывать свое мнение о политике, миграционной системе, образовании и социальных льготах без опаски, ведутся разработки анонимных систем голосования [3].
Однако проблемы выявления сгенерированных текстов будут расти параллельно с развитием технологий генерации текста.
Список литературы Проблемы и методы анализа русскоязычных текстов на предмет идентификации тональности
- Ховард Джереми. Глубокое обучение с fastai и Pytorch: минимум формул, минимум кода, максимум эффективности. СПб.: Питер, 2022. 624 с.: ил. (Серия «Бестселлеры O’Reilly»).
- ИИ и Natural Language Processing: большой обзор рынка. Часть 1 // Национальная технологическая инициатива: [сайт]. URL: https://nti2035.ru/media/publication/ii-i-natural-languageprocessing-bolshoy-obzor-rynka-chast-1 (дата обращения: 08.12.2022).
- Как технологии помогают сохранить анонимность и тайну голосования // Официальный сайт мэра Москвы [сайт]. URL: https://www.mos.ru/news/item/110761073/ (дата обращения: 08.12.2022).
- Конституция Российской Федерации. Глава 2. Права и свободы человека и гражданина // Конституция Российской Федерации: [сайт]. URL: http://www.constitution.ru/10003000/10003000-4.htm (дата обращения: 08.12.2022).
- Обработка естественного языка, распознавание и синтез речи // Искусственный интеллект: альманах. Обработка естественного языка, распознавание и синтез речи: аналитический сборник. 2019. № 2 / Центр компетенций НТИ «Искусственный интеллект». URL: https://www.aireport.ru/nlp (дата обращения: 08.12.2022).
- Полозов И.К., Волкова И.А. Применение технологии Word3Vec в задаче выделения инверторов тональности // Международный научно-исследовательский журнал № 4 (94). Часть 1. С. 36–39. URL: https://cyberleninka.ru/article/n/primenenie-tehnologii-word2vec-v-zadache-vydeleniya-invertorovtonalnosti/viewer (дата обращения: 08.12.2022).
- Сарбасова А.Н. Исследование методов сентимент-анализа русскоязычных текстов // Молодой ученый. 2015. № 8 (88). С. 143–146. URL: https://moluch.ru/archive/88/17413/ (дата обращения: 08.12.2022).
- Семина Т.А. Анализ тональности текста: современные подходы и существующие проблемы // Социальные и гуманитарные науки. Отечественная и зарубежная литература. Серия 6. Языкознание: Реферативный журнал. С. 47–59. URL: https://cyberleninka.ru/article/n/analiz-tonalnostiteksta-sovremennye-podhody-i-suschestvuyuschie-problemy (дата обращения: 08.12.2022).
- Jeff Kao, More than a Million Pro-Repeal Net Neutrality Comments were Likely Faked, 2017 [Текст: электронный] // Hacker Noon: [сайт]. URL: https://hackernoon.com/more-than-a-million-prorepeal-net-neutrality-comments-were-likely-faked-e9f0e3ed36a6 (дата обращения: 08.12.2022).
- Smetanin S. The Applications of Sentiment Analysis for Russian Language Texts: Current Challenges and Future Perspectives. IEEE Access, 2020. URL: https://ieeexplore.ieee.org/document/9117010 (дата обращения: 08.12.2022).
- Finin Tim, Martineau Justin. Delta TFID F: An Improved Feature Space for Sentiment Analysis. Third AAAI Internatonal Conference on Weblogs and Social Media, May 2009, San Jose CA . URL: https://ebiquity.umbc.edu/_file_directory_/papers/446.pdf (дата обращения: 01.06.2022).