Алгоритм классификации вьетнамского текста с использованием долгой краткосрочной памяти и Word2Vec

Автор: Хуу Нгуен Фат, Нгуен Тхи Минь Ань

Журнал: Информатика и автоматизация (Труды СПИИРАН).

Рубрика: Искусственный интеллект, инженерия данных и знаний

Статья в выпуске: Том 19 № 6, 2020 года.

Бесплатный доступ

В условиях текущей четвертой промышленной революции вместе с развитием компьютерных технологий увеличивается и количество текстовых данных. Следует понимать природу и характеристики этих данных, чтобы применять необходимые методологии. Автоматическая обработка текста экономит время и ресурсы существующих систем. Классификация текста является одним из основных приложений обработки естественного языка с использованием таких методов, как анализ тональности текста, разметка данных и так далее. В частности, недавние достижения в области глубокого обучения показывают, что эти методы хорошо подходят для классификации документов. Они продемонстрировали свою эффективность в классификации англоязычных текстов. Однако по проблеме классификации вьетнамских текстов существует не так много исследований. Последние созданные модели глубокого обучения для классификации вьетнамского текста показали заметные улучшения, но тем не менее этого недостаточно. Предлагается автоматическая система на основе длинной краткосрочной памяти и Word2Vec моделей, которая повышает точность классификации текстов. Предлагаемая модель продемонстрировала более высокие результаты классификации вьетнамских текстов по сравнению с другими традиционными методами. При оценке данных вьетнамского текста предлагаемая модель показывает точность классификации более 90%, поэтому может быть использована в реальном приложении.

Еще

Классификация текста, естественная языковая обработка, обработка данных, длинная краткосрочная память, Word2Vec

Короткий адрес: https://sciup.org/14127302

IDR: 14127302   |   DOI: 10.15622/ia.2020.19.6.5

Статья