Алгоритм классификации вьетнамского текста с использованием долгой краткосрочной памяти и Word2Vec

Хуу Нгуен Фат; Нгуен Тхи Минь Ань

doi:10.15622/ia.2020.19.6.5

Scientific articles \ Prolegomena. Fundamentals of knowledge and culture. Propaedeutics \ Computer science and technology. Computing. Data processing \ Application-oriented computer-based techniques

Алгоритм классификации вьетнамского текста с использованием долгой краткосрочной памяти и Word2Vec

Author: Хуу Нгуен Фат, Нгуен Тхи Минь Ань

Journal: Информатика и автоматизация (Труды СПИИРАН) @ia-spcras

Section: Искусственный интеллект, инженерия данных и знаний

Article in issue: Том 19 № 6, 2020.

Free access

В условиях текущей четвертой промышленной революции вместе с развитием компьютерных технологий увеличивается и количество текстовых данных. Следует понимать природу и характеристики этих данных, чтобы применять необходимые методологии. Автоматическая обработка текста экономит время и ресурсы существующих систем. Классификация текста является одним из основных приложений обработки естественного языка с использованием таких методов, как анализ тональности текста, разметка данных и так далее. В частности, недавние достижения в области глубокого обучения показывают, что эти методы хорошо подходят для классификации документов. Они продемонстрировали свою эффективность в классификации англоязычных текстов. Однако по проблеме классификации вьетнамских текстов существует не так много исследований. Последние созданные модели глубокого обучения для классификации вьетнамского текста показали заметные улучшения, но тем не менее этого недостаточно. Предлагается автоматическая система на основе длинной краткосрочной памяти и Word2Vec моделей, которая повышает точность классификации текстов. Предлагаемая модель продемонстрировала более высокие результаты классификации вьетнамских текстов по сравнению с другими традиционными методами. При оценке данных вьетнамского текста предлагаемая модель показывает точность классификации более 90%, поэтому может быть использована в реальном приложении.

Классификация текста, естественная языковая обработка, обработка данных, длинная краткосрочная память, Word2Vec

Short address: https://sciup.org/14127302

IDR: 14127302 | UDC: 004.9 | DOI: 10.15622/ia.2020.19.6.5