Анализ характеристик систем распознавания речи на основе гауссовой модели со сложным ядром

Автор: Куремацу Акира, Накано-Миятаке Марико, Перес-Меана Гектор, Симанкас-Асеведо Эрик

Журнал: Техническая акустика @ejta

Статья в выпуске: т.5, 2005 года.

Бесплатный доступ

В статье представлен анализ влияния особенностей речи диктора на характеристики системы распознавания речи, основанной на гауссовой модели со сложным ядром. С этой целью система распознавания речи анализировалась с использованием особенностей речи полученных (а) из линейных кепстральных коэффициентов, выделенных из целого фрагмента речи, (б) из линейных кепстральных коэффициентов, полученных из голосовых частей фрагмента речи, (в) из линейных кепстральных коэффициентов, полученных из голосовых сегментов речи вместе с информацией о высоте звука, (г) из линейных кепстральных коэффициентов, полученных из голосовых сегментов, нормированных с использованием кепстральной нормализации среднего. Оценка результатов с использованием фраз фрагментов телефонного разговора на японском языке длиной 2,5-3 секунды показала, что хорошие характеристики системы распознавания речи, основанные на гауссовой модели, достигаются в большинстве случаев вне зависимости от особенностей голоса диктора как в случае системы, «обученной» конкретным фразам, так и «необученной». При этом вектор, характеризующий особенности речи и обеспечивающий лучшее распознавание, в значительной степени зависит от конкретного диктора.

Еще

Короткий адрес: https://sciup.org/14316017

IDR: 14316017

Статья научная