Применение метода векторизации в задачах обработки естественного языка с использованием машинного обучения

Бесплатный доступ

В статье представлено исследование, посвященное практическому применению методов векторизации в задачах обработки естественного языка с использованием машинного обучения. Основная цель работы – реализация и оценка эффективности векторных представлений текстов для классификации математических текстов по тематической принадлежности. В качестве методов векторизации рассмотрены one-hot encoding, Bag of Words и TF-IDF, реализованные на языке Python с применением библиотек Pandas, NumPy, Matplotlib и scikit-learn. Был разработан пайплайн предобработки текстовых данных, векторизации и классификации на основе дерева решений. Анализ результатов показал, что метод TF-IDF позволяет учитывать редкие, но семантически значимые термины, что способствует лучшему разделению документов по математическим областям. Научная новизна заключается в адаптации классических методов векторизации к узкоспециализированному корпусу математических текстов – направлению, ранее недостаточно освещенному в прикладных исследованиях. Работа демонстрирует практическую ценность интеграции методов обработки естественного языка с машинным обучением для предметно-ориентированной категоризации научных текстов и открывает перспективы для дальнейших исследований в этой области.

Еще

Машинное обучение, метод векторизации, кластеризация, обработка естественного языка, Python

Короткий адрес: https://sciup.org/140313568

IDR: 140313568   |   УДК: 004.89   |   DOI: 10.18469/ikt.2025.23.2.07