Классификация текстов с использованием методов NLP в условиях несбалансированных классов

С. У. Эшбадалов

doi:10.47813/2782-2818-2025-5-3-1027-1036

Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Искусственный интеллект

Классификация текстов с использованием методов NLP в условиях несбалансированных классов

Автор: С. У. Эшбадалов

Журнал: Современные инновации, системы и технологии.

Рубрика: Управление, вычислительная техника и информатика

Статья в выпуске: 5 (3), 2025 года.

Бесплатный доступ

В данной статье рассматривается задача классификации текстов в условиях несбалансированных классов с использованием методов обработки естественного языка (NLP). В исследовании применялись основные этапы предварительной обработки текста – токенизация, лемматизация, стемминг, удаление стоп-слов, а также методы векторизации Bag of Words (BoW) и TF–IDF. В качестве моделей были выбраны классические алгоритмы машинного обучения – логистическая регрессия (LogReg) и метод опорных векторов (SVM). Для снижения влияния несбалансированности классов использовались такие стратегии, как oversampling, undersampling и назначение весов классам. Экспериментальные результаты показали, что классификация текстов на основе NLP может быть эффективной даже в условиях несбалансированных классов, а комбинация TF–IDF + SVM обеспечивает высокую точность и устойчивость. Результаты исследования имеют практическую значимость для улучшения процесса автоматической классификации текстовых документов.

Несбалансированные классы, NLP, классификация текстов, токенизация, лемматизация, стемминг, стоп-слова, Bag of Words, TF–IDF, логистическая регрессия, SVM.

Короткий адрес: https://sciup.org/14135195

IDR: 14135195 | DOI: 10.47813/2782-2818-2025-5-3-1027-1036