Применение метода векторизации в задачах обработки естественного языка с использованием машинного обучения
Автор: Захарова О.И.
Журнал: Инфокоммуникационные технологии @ikt-psuti
Рубрика: Новые информационные технологии
Статья в выпуске: 2 (90) т.23, 2025 года.
Бесплатный доступ
В статье представлено исследование, посвященное практическому применению методов векторизации в задачах обработки естественного языка с использованием машинного обучения. Основная цель работы – реализация и оценка эффективности векторных представлений текстов для классификации математических текстов по тематической принадлежности. В качестве методов векторизации рассмотрены one-hot encoding, Bag of Words и TF-IDF, реализованные на языке Python с применением библиотек Pandas, NumPy, Matplotlib и scikit-learn. Был разработан пайплайн предобработки текстовых данных, векторизации и классификации на основе дерева решений. Анализ результатов показал, что метод TF-IDF позволяет учитывать редкие, но семантически значимые термины, что способствует лучшему разделению документов по математическим областям. Научная новизна заключается в адаптации классических методов векторизации к узкоспециализированному корпусу математических текстов – направлению, ранее недостаточно освещенному в прикладных исследованиях. Работа демонстрирует практическую ценность интеграции методов обработки естественного языка с машинным обучением для предметно-ориентированной категоризации научных текстов и открывает перспективы для дальнейших исследований в этой области.
Машинное обучение, метод векторизации, кластеризация, обработка естественного языка, Python
Короткий адрес: https://sciup.org/140313568
IDR: 140313568 | УДК: 004.89 | DOI: 10.18469/ikt.2025.23.2.07