Алгоритм сегментации речь/пауза на основе декомпозиции на эмпирические моды и одномерного расстояния Махаланобиса

Автор: Алимурадов А.К., Тычков А.Ю., Чураков П.П., Агейкин А.В., Кулешов А.П., Чернов И.А.

Журнал: Труды Московского физико-технического института @trudy-mipt

Рубрика: Информатика и управление

Статья в выпуске: 3 (51) т.13, 2021 года.

Бесплатный доступ

Задача сегментации речь/пауза представляет собой точное обнаружение границ начала и окончания информативных участков речи (вокализованной, невокализованной речи и пауз). Сегментация на информативные участки является важным этапом предварительной обработки речи. Точность сегментации влияет на работоспособность практически всех речевых приложений (распознавание речи, голосовое управление, идентификация диктора, преобразование речи в текст и др.). В статье представлен алгоритм сегментации речь/пауза, суть которого заключается во фрагментировании речи и декомпозиции фрагментов на эмпирические моды для последующего анализа одномерного расстояния Махаланобиса дискретных отсчетов времени каждой моды в отдельности. Проведено исследование алгоритма в сравнении с исходным алгоритмом на основе анализа одномерного расстояния Махаланобиса и известными способами сегментации на основе анализа количества пересечения сигнала через нулевую ось и кратковременной энергии. В соответствии с полученными результатами исследований сделан вывод, что разработанный алгоритм сегментации обеспечивает наилучшее обнаружение границ начала и окончания информативных участков речи с ошибками первого и второго рода 4,576% и 1,421% соответственно.

Еще

Обработка речевых сигналов, сегментация речи, вокализованная и невокализованная речь, декомпозиция на эмпирические моды, одномерное расстояние махаланобиса

Короткий адрес: https://sciup.org/142231491

IDR: 142231491   |   DOI: 10.53815/20726759_2021_13_3_4

Список литературы Алгоритм сегментации речь/пауза на основе декомпозиции на эмпирические моды и одномерного расстояния Махаланобиса

  • Martin A., Charlet D., Mauuary L. Martin A. Robust speech/non-speech detection using LDA applied to MFCC // Salt Lake City, UT, USA. 2001. V. 1. P. 237-240.
  • Hlavnicka J., Cmejla R., Tykalova T., Sonka K., Ruzicka E., Rusz J. Automated analysis of connected speech reveals early biomarkers of Parkinson's disease in patients with rapid eye movement sleep behaviour disorder // Scientific Reports. 2017. V. 7, N 12. P. 13.
  • Atal В., Rabiner L.R. A pattern recognition approach to voiced unvoiced-silence classification with applications to speech recognition // IEEE Trans. Acoust. Speech Signal Process. 1976. V. 24, N 3. P. 201-212.
  • Huang X., Acero A., Hon H.-W. Spoken Language Processing. Guide to Algorithms and System Developmen. New Jersey: Prentice Hall, 2001. 980 p.
  • Childers D.G., Hand М., Larar J.M. Silent and voiced/unvoied/ mixed excitation (four-way), classification of speech // IEEE Transaction on ASSP. 1989. V. 37, N 11. P. 1771 1774.
  • Duda R.O, Hart P.E., Strok D.G. Pattern Classification // New Jersey: A Wilev-Interscience Publ.John Wiley k, Sons, Inc., 2001. P. 688.
  • Алимурадов А.К., Тычков А.Ю., Чураков П.П., Султанов Б.В. Способ определения формантной разборчивости речи для оценки психоэмоционального состояния операторов систем управления с высокой степенью ответственности // Измерение. Мониторинг. Управление. Контроль. 2019. № 4(30). С. 58-69.
  • Алимурадов А.К., Тычков А.Ю., Чураков П.П., Арт,а,монов Д.В. Помехоустойчивый алгоритм определения просодических характеристик речевых сигналов для систем оценки психоэмоционального состояния человека // Известия высших учебных заведений. Поволжский регион. Технические науки. 2019. № 3(51). С. 3-16.
  • Алимурадов А.К., Тычков А.Ю., Чураков П.П. Оценка психоэмоционального состояния человека на основе декомпозиции на эмпирические моды и кепстрального анализа речевых сигналов // Вестник Пензенского государственного университета. 2018. № 2(22). С. 89-95.
  • Greenwood М.А., Kinghorn A. SUVing: automatic silence/unvoiced/voiced classification of speech // Undergraduate Coursework, Department of Computer Science, The University of Sheffield, UK. 1999. P. 4.
  • Saha G., Chakroborty S., Senapat S. A new silence removal and endpoint detection algorithm for speech and speaker recognition applications // Eleventh National Conference on Communications (NCC-2005) (Jan. 28-30, 2005). Kharagpur, India. P. 51-61.
  • Huang N.E., Zheng Sh., Steven R.L. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis // Proceedings of the Royal Society of London. 1998. A 454. P. 903-995.
  • Zhaohua W., Huang N.E. Ensemble empirical mode decomposition: A noise-assisted data analysis method // Advances in Adaptive Data Analysis. 2009. N 1(1). P. 1-41.
  • Yeh J.-R., Shieh J.-S., Huang N.E. Complementary ensemble empirical mode decomposition: A novel noise enhanced data analysis method // Advances in Adaptive Data Analysis. 2010. N 2(2). P. 135-156.
  • Torres M.E., Colominas M.A., Schlotthauer G., Flandrin P. A complete Ensemble Empirical Mode decomposition with adaptive noise // 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP-11) (May 22-27, 2011). Prague, Czech Republic. P. 4144-4147.
  • Colominasa M.A., Schlotthauera G., Torres M.E. Improved complete ensemble EMD: a suitable tool for biomedical signal processing // Biomed. Signal Proces. 2014. V. 14. P. 1929.
  • Wu Z., Schneider E., Ни Z., Cao L. The impact of global warming on ENSO variability in climate records // Tech. report, Cent. Ocean. Stud. 2002. V. 110. P. 25.
  • Labate D., La Foresta F., Occhiuto G., Morabito F.C., Lay-Ekuakille A., Vergallo P. Empirical mode decomposition vs. wavelet decomposition for the extraction of respiratory signal from single-channel ECG: A comparison // IEEE Sensors Journal. 2013. V. 13, N 7. P. 2666-2674.
  • Andrade A.O., Nasuto S., Kyberd P., Sweeney-Reed C.M., Van Kanijn F.R. EMG signal filtering based on Empirical Mode Decomposition // Biomedical Signal Processing Control. 2006. V. 1, N 1. P. 44-55.
  • Zhang Y., Gao Y., Wang L., Chen J., Shi X. The removal of wall components in doppler ultrasound signals by using the empirical mode decomposition algorithm // IEEE Transactions on Biomedical Engineering. 2007. V. 54, N 9. P. 1631-1642.
  • US patent N 6,862,558 B2. Empirical mode decomposition for analyzing acoustical signals / N.E. Huang. The United States of America as represented by the Administrator of the National Aeronautics and Space Administration. US 200310033094 Al. data 01.03.2005. 147 p.
  • Huang H., Pan J. Speech pitch determination based on Hilbert-Huang transform // Signal Processing. 2006. V. 86, N 4. P. 792-803.
  • Nunes J.C., Bouaoune Y., Delechelle E., Niang O., Bunel P. Image analysis by bidimensional empirical mode decomposition // Image and Vision Computing. 2003. V 21, N 12. P. 1019-1026.
  • Али,мура,doe А.К., Фокина, E.A., Журина A.E. Исследование влияния длительности анализируемых речевых сигналов на частотно-избирательные свойства декомпозиции на эмпирические моды // Новые информационные технологии и системы: сборник научных статей XVI Международной научно-технической конференции (г. Пенза, 2729 ноября 2019 г.). Пенза : Изд-во ИГУ. 2019. С. 201-205.
  • Alimuradov А.К., Churakov P.P., Tychkov A.Yu., Artemov 1.I., Kuzmin A. V. Improvement of the Efficiency of Voice Control Based on the Complementary Ensemble Empirical Mode Decomposition // 2016 International Siberian Conference on Control and Communications (SIBCON 2016) (May 12-14, 2016). Moscow, Russia. P. 6.
  • National University of Entre Rios. The Laboratory of Signals and Nonlinear Dynamics, Faculty of Engineering [Электронный ресурс]. Официальная страница. Дата обращения: 01.05.2021. Режим доступа: http://www.bioingenieria.edu.ar/grupos/ldnlys.
Еще
Статья научная