Классификация текстов с использованием методов NLP в условиях несбалансированных классов

Бесплатный доступ

В данной статье рассматривается задача классификации текстов в условиях несбалансированных классов с использованием методов обработки естественного языка (NLP). В исследовании применялись основные этапы предварительной обработки текста – токенизация, лемматизация, стемминг, удаление стоп-слов, а также методы векторизации Bag of Words (BoW) и TF–IDF. В качестве моделей были выбраны классические алгоритмы машинного обучения – логистическая регрессия (LogReg) и метод опорных векторов (SVM). Для снижения влияния несбалансированности классов использовались такие стратегии, как oversampling, undersampling и назначение весов классам. Экспериментальные результаты показали, что классификация текстов на основе NLP может быть эффективной даже в условиях несбалансированных классов, а комбинация TF–IDF + SVM обеспечивает высокую точность и устойчивость. Результаты исследования имеют практическую значимость для улучшения процесса автоматической классификации текстовых документов.

Еще

Несбалансированные классы, NLP, классификация текстов, токенизация, лемматизация, стемминг, стоп-слова, Bag of Words, TF–IDF, логистическая регрессия, SVM.

Короткий адрес: https://sciup.org/14135195

IDR: 14135195   |   DOI: 10.47813/2782-2818-2025-5-3-1027-1036