Метод повышения эффективности голосового управления на основе комплементарной множественной декомпозиции на эмпирические моды

Автор: Алимурадов А.К., Тычков А.Ю., Зарецкий А.П., Кулешов А.П., Чураков П.П., Квитка Ю.С.

Журнал: Труды Московского физико-технического института @trudy-mipt

Рубрика: Информатика, вычислительная техника и упровление

Статья в выпуске: 2 (34) т.9, 2017 года.

Бесплатный доступ

Низкая точность распознавания речевых команд является одной из основных про- блем практической реализации систем голосового управления (СГУ). Это связано с ис- пользованием неэффективных и неадаптивных методов обработки речевых сигналов. В данной статье предложен усовершенствованный алгоритм распознавания речевых команд с использованием адаптивной технологии обработки - комплементарной мно- жественной декомпозиции на эмпирические моды (КМДЭМ). Представлена блок-схема и подробное математическое описание основных блоков алгоритма. Суть предложен- ного алгоритма заключается в выделении из исходного речевого сигнала информации об уникальных свойствах голоса. Результаты экспериментального исследования пред- ложенного алгоритма демонстрируют повышение точности распознавания речевых ко- манд и эффективности голосового управления по сравнению с известными аналогами«RWTH ASR», «Julius» и «CMU Sphinx».

Еще

Голосовое управление, сгу, обработка речевых сигналов, кмдэм, мел-частотные кепстральные коэффициенты (мчкк)

Короткий адрес: https://sciup.org/142186179

IDR: 142186179

Список литературы Метод повышения эффективности голосового управления на основе комплементарной множественной декомпозиции на эмпирические моды

  • David R., Christian G., Georg H., Hermann N. The RWTH Aachen University Open Source Speech Recognition System. Human Language Technology and Pattern Recognition Computer Science Department. RWTH Aachen University. Germany. 4 p.
  • Lee A., Kawahara T., Shikano K. Julius -an open source real-time large vocabulary recognition engine//Proc. European Conf. on Speech Communication and Technology. Aalborg. Denmark. Sep. 2001. P. 1691-1694.
  • Walker W., Lamere P., Kwok P., Bhiksha Raj R.S., Gouvea E., Wolf P., Woelfel J. Sphinx-4: A fexible open source framework for speech recognition. Sun Microsystems. Inc, Tech. Rep. SMLI TR-2004-139. Nov. 2004. 15 p.
  • Алимурадов А.К.,Чураков П.П. Обзор и классификация методов обработки речевых сигналов в системах распознавания речи//Измерение. Мониторинг. Управление. Контроль. 2015. № 2 (12). С. 27-35.
  • Yeh J.-R., Shieh J.-S., Huang N.E. Complementary ensemble empirical mode decomposition: A novel noise enhanced data analysis method. Advances in Adaptive Data Analysis. 2010. V. 2 (2). P. 135-156.
  • Алимурадов А.К., Чураков П.П. Адаптивный метод повышения эффективности голосового управления//Перспективные информационные технологии (ПИТ 2016): труды Международной научно-технической конференции/под ред. С.А. Прохорова. Самара: Издательство Самарского научного центра РАН, 2016. С. 196-200.
  • Алимурадов А.К., Муртазов Ф.Ш. Методы повышения эффективности распознавания речевых сигналов в системах голосового управления//Измерительная техника. 2015. № 10. С. 20-24.
  • Алимурадов А.К. Оптимальный алгоритм обработки речевых команд для системы голосового управления//Модели, системы, сети в экономике, технике, природе и обществе. 2015. № 2 (14). С. 139-149.
  • Клионский Д.М., Неунывакин И.В., Орешко Н.И., Геппенер В.В. Декомпозиция на эмпирические моды и ее применение для идентификации информативных компонент и прогнозирования значений сигналов с использованием нейронных сетей//Нейрокомпьютеры. 2010. № 6. С. 69-80.
  • Huang X., Acero A., Hon H.-W. Spoken Language Processing. Guide to Algorithms and System Developmen. Prentice Hall, 2001. 980 p.
  • Свидетельство о государственной регистрации базы данных № 2016620597. Верифицированная база речевых команд для систем голосового управления/А.К. Алимурадов//Программы для ЭВМ, базы данных, топологии интегральных микро-схем; заявл. 16.03.2016; опубл. 12.05.2016.
Еще
Статья научная