Построение модели для решения задачи классификации рассудительного текста

Бесплатный доступ

В статье рассмотрена задача классификации текстов на предмет наличия в них рассуждений (логических связок, аргументации, причинно-следственных отношений). Цель исследования — разработать метод, позволяющий с высокой точностью определять «рассудительный» характер фрагмента текста, используя современные алгоритмы машинного обучения. Особое внимание уделено ансамблевому подходу на основе стекинга: в качестве базовых классификаторов рассматриваются сильные модели (CatBoost, XGBoost, Random Forest и т. п.), а роль мета-модели выполняет логистическая регрессия. Для обоснования выбора стекинга приводятся результаты сравнительного анализа более десяти популярных алгоритмов (Logistic Regression, SVC, Random Forest, CatBoost, XGBoost и др.) по показателям Accuracy, Precision, Recall, F1-score, ROC AUC, PR AUC. Основные этапы исследования включают генерацию и разметку обучающего набора данных, предварительную обработку текстов (токенизацию, лемматизацию, исключение стоп-слов), векторизацию признаков (TF-IDF) и экспериментальное сравнение моделей на контрольной выборке. Предложенная модель стекинга показала лучшие результаты по совокупности метрик, что позволило повысить точность классификации рассудительных текстов до уровня F1, равного 0,905, при ROC AUC, равному 0,887. В заключении обсуждаются перспективы применения описанного подхода для текстов разной длины и стиля, а также потенциальные методы дальнейшего улучшения качества классификации.

Еще

Машинное обучение, ансамблевые методы, стекинг, TF-IDF, аргументация, анализ текстовых данных

Короткий адрес: https://sciup.org/149148926

IDR: 149148926   |   УДК: 004.8   |   DOI: 10.15688/mpcm.jvolsu.2025.1.3

Construction of a Model for the Task of Reasoning Text Classification

The article addresses the task of classifying texts for the presence of reasoning (logical links, argumentation, cause-and-effect relationships). The aim of the study is to develop a method that allows for highly accurate determination of the “reasoning” nature of a text fragment using modern machine learning algorithms. Particular attention is paid to an ensemble approach based on stacking: strong models (XGBoost, CatBoost, Random Forest, etc.) are considered as base classifiers, while logistic regression serves as the meta-model. To justify the choice of stacking, we present the results of a comparative analysis of more than ten popular algorithms (Logistic Regression, SVC, Random Forest, CatBoost, XGBoost, etc.) by Accuracy, Precision, Recall, F1-score, ROC AUC, and PR AUC. The main stages of the study include the generation and annotation of the training dataset, preliminary text processing (tokenization, lemmatization, stop-word removal), feature vectorization (TF-IDF), and experimental comparison of the models on a control sample. The proposed stacking model showed the best overall performance across all metrics, enabling us to increase the accuracy of reasoning text classification to F1 equal to 0.905 at ROC AUC equal to 0.887.

Еще