Применение метода векторизации в задачах обработки естественного языка с использованием машинного обучения

Бесплатный доступ

В статье представлено исследование, посвященное практическому применению методов векторизации в задачах обработки естественного языка с использованием машинного обучения. Основная цель работы – реализация и оценка эффективности векторных представлений текстов для классификации математических текстов по тематической принадлежности. В качестве методов векторизации рассмотрены one-hot encoding, Bag of Words и TF-IDF, реализованные на языке Python с применением библиотек Pandas, NumPy, Matplotlib и scikit-learn. Был разработан пайплайн предобработки текстовых данных, векторизации и классификации на основе дерева решений. Анализ результатов показал, что метод TF-IDF позволяет учитывать редкие, но семантически значимые термины, что способствует лучшему разделению документов по математическим областям. Научная новизна заключается в адаптации классических методов векторизации к узкоспециализированному корпусу математических текстов – направлению, ранее недостаточно освещенному в прикладных исследованиях. Работа демонстрирует практическую ценность интеграции методов обработки естественного языка с машинным обучением для предметно-ориентированной категоризации научных текстов и открывает перспективы для дальнейших исследований в этой области.

Еще

Машинное обучение, метод векторизации, кластеризация, обработка естественного языка, Python

Короткий адрес: https://sciup.org/140313568

IDR: 140313568   |   УДК: 004.89   |   DOI: 10.18469/ikt.2025.23.2.07

Application of the Vectorization Method in Natural Language Processing Problems Using Machine Learning

The article presents a study on the practical application of vectorization methods in natural language processing tasks using machine learning. The main purpose of the work is to implement and evaluate the effectiveness of vector texts representations in order to classify mathematical texts by subject matter. One-hot encoding, Bag of Words, and TF-IDF implemented in Python using Pandas, NumPy, Matplotlib, and scikit-learn libraries are considered as vectorization methods. A pipeline of text data preprocessing, vectorization and classification based on a decision tree has been developed. The analysis of the results showed that the TF-IDF method allows taking into account rare but semantically significant terms, which contributes to a better separation of documents into mathematical areas. The scientific novelty is represented by the adaptation of classical vectorization methods to a highly specialized corpus of mathematical texts, and this field was not previously sufficiently covered in the research. The article demonstrates the practical value of the integration of thew natural language processing methods with machine learning for domain-oriented categorization of scientific texts and opens up prospects for further research in this area.

Еще