Сравнительный анализ состязательных методов для нетематической классификации текстов
Автор: Лепехин М.Н., Шаров С.А.
Журнал: Программные системы: теория и приложения @programmnye-sistemy
Рубрика: Искусственный интеллект и машинное обучение
Статья в выпуске: 1 (70) т.17, 2026 года.
Бесплатный доступ
Нетематическая классификация текстов широко используется в современных приложениях. Одной из проблем, возникающих при решении этой задачи, является наличие смещений в распределении в тренировочных текстовых корпусах. Наиболее существенным видом смещений являются тематические смещения. Для решения этой проблемы в данной работе применяются состязательные методы - Adversarial Domain Adaptation, Energy-based ADA, BERT с контрастной функцией потерь и ADA с контрастной функцией потерь. В работе впервые производится модификация контрастной функции потерь для снижения влияния тематических сдвигов и показывается, что использование состязательных методов повышает точность и надежность классификаторов для задачи определения пола автора текста. Также проводятся эксперименты с LLaMA-3B и показано, что большие языковые модели достигают в режиме few-shot более низкую точность чем дообученные модели с меньшим числом параметров, и требуют больше времени для предсказания.
Состязательные методы, контрастная функция потерь, классификация гендера, классификация текстов, нетематическая классификация, bert, доменная адаптация
Короткий адрес: https://sciup.org/143185570
IDR: 143185570 | УДК: 004.89:004.93 | DOI: 10.25209/2079-3316-2026-17-1-57-84
Comparative Analysis of the Adversarial Methods For Non-Topical Classification of Texts
Non-topical text classification is widely used in modern applications. One of the issues related to this problem is the presence of biases and shifts in the distribution in the training text datasets. The most significant type of shift is the topical shift. To handle this issue we apply competitive methods such as Adversarial Domain Adaptation, Energy-based ADA, BERT with contrast loss function, ADA with contrast loss function. In this paper, we first modify the contrast loss function to reduce the influence of thematic shifts and show that the use of adversarial methods improves the accuracy and reliability of classifiers for the task of determining the gender of the author of a text. We also apply LLaMA-3B and show that the large language models attain lower accuracy in the few-shot mode and require more time for prediction than the pre-trained models based on smaller architectures.