Автоматическая верификация диктора по произвольной фразе с применением свёрточных глубоких сетей доверия
Автор: Рахманенко Иван Андреевич, Шелупанов Александр Александрович, Костюченко Евгений Юрьевич
Журнал: Компьютерная оптика @computer-optics
Рубрика: Обработка изображений, распознавание образов
Статья в выпуске: 4 т.44, 2020 года.
Бесплатный доступ
Данная статья посвящена применению свёрточных глубоких сетей доверия в качестве средства извлечения речевых признаков из аудиозаписей для решения задачи автоматической, текстонезависимой верификации диктора. В работе описаны область применения и проблемы систем автоматической верификации диктора. Рассмотрены типы современных систем верификации диктора, основные типы речевых признаков, используемых в системах верификации диктора. Описана структура свёрточных глубоких сетей доверия, алгоритм обучения данной сети. Предложено применение речевых признаков, извлекаемых из трёх слоёв обученной свёрточной глубокой сети доверия. Данный подход основан на применении методов анализа изображений как к уже выделенным признакам речевого сигнала, так и для их выделения из слоёв нейронной сети. Произведены экспериментальные исследования предложенных признаков на двух речевых корпусах: собственном речевом корпусе, включающем аудиозаписи 50 дикторов, и речевом корпусе TIMIT, включающем аудиозаписи 630 дикторов. Была произведена оценка точности предложенных признаков с применением классификаторов различного типа. Непосредственное применение данных признаков не дало увеличения точности по сравнению с использованием традиционных речевых признаков, таких как мел-кепстральные коэффициенты. Однако применение данных признаков в составе ансамбля классификаторов позволило достичь уменьшения равной ошибки 1-го и 2-го рода до 0,21 % на собственном речевом корпусе и до 0,23 % на речевом корпусе TIMIT.
Распознавание диктора, верификация диктора, гауссовы смеси, gmm-ubm-система, речевые признаки, обработка речи, глубокое обучение, нейронные сети, распознавание образов
Короткий адрес: https://sciup.org/140250028
IDR: 140250028 | DOI: 10.18287/2412-6179-CO-621
Список литературы Автоматическая верификация диктора по произвольной фразе с применением свёрточных глубоких сетей доверия
- Campbell, J.P. Speaker recognition: a tutorial / J.P. Campbell // Proceedings of the IEEE. - 1997. - Vol. 85, Issue 9. - P. 1437-1462.
- Soldatova, O.P. Convolutional neural network applied to handwritten digits recognition / O.P. Soldatova, A.A. Garshin // Computer Optics. - 2010. - Vol. 34, Issue 2. - P. 252-259.
- Lee, H. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations / H. Lee, R. Grosse, R. Ranganath, A.Y. Ng // Proceedings of the 26th Annual International Conference on Machine Learning. - 2009. - P. 609-616.
- Lee, H. Unsupervised feature learning for audio classification using convolutional deep belief networks / H. Lee, P. Pham, Y. Largman, A.Y. Ng // Advances in Neural Information Processing Systems. - 2009. - P. 1096-1104.
- Ren, Y. Convolutional deep belief networks for feature extraction of EEG signal / Y. Ren, Y. Wu // 2014 International Joint Conference on Neural Networks (IJCNN). - 2014. - P. 2850-2853.
- Sahidullah, M. A novel windowing technique for efficient computation of MFCC for speaker recognition / M. Sahidullah, G. Saha // IEEE Signal Processing Letters. - 2013. - Vol. 20, Issue 2. - P. 149-152.
- Motlicek, P. Employment of subspace gaussian mixture models in speaker recognition / P. Motlicek, S. Dey, S. Madikeri, L. Burget // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - 2015. - P. 4445-4449.
- Greenberg, C.S. The NIST 2014 speaker recognition i-vector machine learning challenge / C.S. Greenberg, D. Bansé, G.R. Doddington, D. Garcia-Romero, J.J. Godfrey, T. Kinnunen, A.F. Martin, A. McCree, M. Przybocki, D.A. Reynolds // Odyssey: The Speaker and Language Recognition Workshop. - 2014. - P. 224-230.
- Lei, Y. A novel scheme for speaker recognition using a phonetically-aware deep neural network / Y. Lei, N. Scheffer, L. Ferrer, M. McLaren // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - 2014. - P. 1695-1699.
- Stafylakis, T. Compensation for phonetic nuisance variability in speaker recognition using DNNs / T. Stafylakis, P. Kenny, V. Gupta, J. Alam, M. Kockmann // Odyssey: The Speaker and Language Recognition Workshop. - 2016. - P. 340-345.
- Kenny, P. Deep neural networks for extracting baum-welch statistics for speaker recognition / P. Kenny, V. Gupta, T. Stafylakis, P. Ouellet, J. Alam // Proceedings of the Odyssey. - 2014. - P. 293-298.
- Xu, L. Rapid Computation of I-vector / L. Xu, K.A. Lee, H. Li, Z. Yang // Odyssey: The Speaker and Language Recognition Workshop. - 2016. - P. 47-52.
- McLaren, M. Exploring the role of phonetic bottleneck features for speaker and language recognition / M. McLaren, L. Ferrer, A. Lawson // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - 2016. - P. 5575-5579.
- Richardson, F. Deep neural network approaches to speaker and language recognition / F. Richardson, D. Reynolds, N. Dehak // IEEE Signal Processing Letters. - 2015. - Vol. 22, Issue 10. - P. 1671-1675.
- Reynolds, D.A. Speaker verification using adapted Gaussian mixture models / D.A. Reynolds, T.F. Quatieri, R.B. Dunn // Digital Signal Processing. - 2000. - Vol. 10, Issue 1. - P. 19-41.
- Sizov, A. Joint speaker verification and antispoofing in the I-vector space / A. Sizov, E. Khoury, T. Kinnunen, Z. Wu, S. Marcel // IEEE Transactions on Information Forensics and Security. - 2015. - Vol. 10, Issue 4. - P. 821-832.
- Variani, E. Deep neural networks for small footprint text-dependent speaker verification / E. Variani, X. Lei, E. McDermott, I.L. Moreno, J. Gonzalez-Dominguez // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - 2014. - P. 4052-4056.
- Jung, J.W. A complete end-to-end speaker verification system using deep neural networks: From raw signals to verification result / J.W. Jung, H.S. Heo, I.H. Yang, H.J. Shim, H.J. Yu // 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - 2018. - P. 5349-5353.
- Rohdin, J. End-to-end DNN based speaker recognition inspired by i-vector and PLDA / J. Rohdin, A. Silnova, M. Diez, O. Plchot, P. Matějka, L. Burget // 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - 2018. - P. 4874-4878.
- Рахманенко, И.А. Анализ идентификационных признаков в речевых данных с помощью GMM-UBM системы верификации диктора / И.А. Рахманенко, Р.В. Мещеряков // Труды СПИИРАН. - 2017. - Т. 52, № 3. - С. 22-50.
- Davis, S.B. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences / S.B. Davis, P. Mermelstein // IEEE Transactions on Acoustics, Speech and Signal Processing. - 1980. - Vol. 28, Issue 4. - P. 357-366.
- Jurafsky, D. Speech and language processing / D. Jurafsky, J.H. Martin. - 2nd ed. - New Jersey: Pearson Education, 2009. - 1026 p.
- Eyben, F. Recent developments in opensmile, the munich open-source multimedia feature extractor / F. Eyben, F. Weninger, F. Gross, B. Schuller // Proceedings of the 21st ACM International Conference on Multimedia. - 2013. - P. 835-838.
- Hinton, G.E. A fast learning algorithm for deep belief nets / G.E. Hinton, S. Osindero, Y.W. Teh // Neural Computation. - 2006. - Vol. 18, Issue 7. - P. 1527-1554.
- Hinton, G.E. Training products of experts by minimizing contrastive divergence / G.E. Hinton // Neural Computation. - 2002. - Vol. 14, Issue 8. - P. 1771-1800.
- Sadjadi, S.O. MSR identity toolbox v1.0: A MATLAB toolbox for speaker-recognition research / S.O. Sadjadi, M. Slaney, L. Heck // Speech and Language Processing Technical Committee Newsletter. - 2013. - Vol. 1, Issue 4. - P. 1-32.
- Zue, V. Speech database development at MIT: TIMIT and beyond / V. Zue, S. Seneff, J. Glass // Speech Communication. - 1990. - Vol. 9, Issue 4. - P. 351-356.
- Yoshimura, T. Discriminative feature extraction based on sequential variational autoencoder for speaker recognition / T. Yoshimura, N. Koike, K. Hashimoto, K. Oura, Y. Nankaku, K. Tokuda // 2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). - 2018. - P. 1742-1746.
- Zeng, C.Y. Stacked autoencoder networks based speaker recognition / C.Y. Zeng, C.F. Ma, Z.F. Wang, J.X. Ye // 2018 International Conference on Machine Learning and Cybernetics (ICMLC). - 2018. - Vol. 1. - P. 294-299.
- Chorowski, J.K. Attention-based models for speech recognition / J.K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, Y. Bengio // Advances in Neural Information Processing Systems. - 2015. - P. 577-585.
- Meriem, F. Robust speaker verification using a new front end based on multitaper and gammatone filters / F. Meriem, H. Farid, B. Messaoud, A. Abderrahmene // 2014 Tenth International Conference on Signal-Image Technology and Internet-Based Systems. - 2014. - P. 99-103.