Автоматическое определение количества минимальных единиц языка по артикуляции
Автор: Ячная В.О., Луцив В.Р.
Журнал: Компьютерная оптика @computer-optics
Рубрика: Численные методы и анализ данных
Статья в выпуске: 6 т.48, 2024 года.
Бесплатный доступ
Представленная работа посвящена автоматическому анализу паравербального компонента общения человека. В статье описаны системы, определяющие количество минимальных языковых единиц (слогов и фонем) в устной речи по видеоданным. Такие системы могут быть использованы в оценке темпа артикулирования говорящего, что может применяться в доклинической диагностике некоторых патологических состояний или определении эмоционального статуса. Для проведения исследования была модифицирована существующая база данных слов английского языка и получена разметка, содержащая информацию о количестве слогов и фонем в каждом слове. В ходе исследования адаптирована система распознавания слов для решения поставленной задачи, а также разработана новая архитектура нейронной сети для определения количества слогов и фонем в слове. Оценка эффективности разработанных систем производилась как на наборах заранее известных системам слов, так и на новых для них словах. В результате работы получена система, определяющая количество минимальных единиц языка в произнесённом слове, предоставляющая возможность последующей оценки темпа артикулирования информанта.
Распознавание речи, артикуляция, компьютерное зрение, нейронные сети
Короткий адрес: https://sciup.org/140310422
IDR: 140310422 | DOI: 10.18287/2412-6179-CO-1451
Automatic estimation of the number of minimal language units by articulation
The presented work is dedicated to the automatic analysis of the paraverbal component of human communication. The article describes systems that determine the number of minimal linguistic units (syllables and phonemes) in spoken language based on video data. Such systems can be used to assess the subject speech rate, which can be applied in the preclinical diagnosis of certain pathological conditions or determining emotional status. To conduct the research, an existing database of English words was modified, and annotations containing information on the number of syllables and phonemes in each word were obtained. During the study, a word recognition system was adapted to solve the stated task, and a new neural network architecture to determine the number of syllables and phonemes in a word was designed. The effectiveness of the developed systems was assessed on both sets of previously known to the systems words and on new words. As a result of the research, a system that determines the number of minimal language units in a spoken word was obtained, providing the opportunity for subsequent assessment of the subject articulation rate.