Развитие современных систем транскрибации аудио- и видеоконтента
Автор: Баруздин М.М., Раскатова М.В., Щголев П.
Рубрика: Информатика и вычислительная техника
Статья в выпуске: 4, 2024 года.
Бесплатный доступ
В статье проведен анализ существующих проблем транксрибации. Рассмотрены актуальные технологии, использующиеся в данных системах. Подробно рассмотрены современные opensource-решения и изучены их возможности в решении описанных проблем транскрибации. Описаны четыре наиболее популярные открытые платформы: Kaldi, Mozilla Deep Speech, Whisper, Wav2Vec 2.0. В статье проведено сравнение архитектур и особенностей данных моделей, что дает представление об их возможностях и ограничениях. Показано, как модели справляются с проблемами, стоящими перед системами автоматического распознания речи. Выбор модели для автоматического распознания речи зависит от конкретных задач и условий использования.
Транскрибация, системы распознавания речи, глубокие нейронные сети
Короткий адрес: https://sciup.org/148330268
IDR: 148330268 | DOI: 10.18137/RNU.V9187.24.04.P.71
Список литературы Развитие современных систем транскрибации аудио- и видеоконтента
- Галунов В.И., Соловьев А.Н. Современные проблемы в области распознавания речи // Информационные технологии и вычислительные системы. 2004. № 2. С. 41-45. URL: https://www.mathnet.ru/links/e8d1d4e4c39da5a9c7a79f7dcc0549c2/itvs652.pdf (дата обращения: 17.09.2024).
- Маковкин К.А. Гибридные модели - Скрытые марковские модели / Многослойный персептрон - и их применение в системах распознавания речи. Обзор // Речевые технологии. 2012. № 3. С. 58-83. EDN: UZERSP
- Cho K., Merrienboer B., Gulcehre C., Bahdanau D., Bougares F., Schwenk H., BengioY. Learning Phrase Representations Using RNN Encoder-Decoder for Statistical Machine Translation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, October 2014. P. 1724-1734. DOI: 10.3115/v1/D14-1179
- Oruh J., Viriri S., Adegun A. Long Short-Term Memory Recurrent Neural Network for Automatic Speech Recognition // IEEE Access. New York, 2022. Vol. 10. P. 30069-30079. 10.1109/ ACCESS.2022.3159339. DOI: 10.1109/ACCESS.2022.3159339 EDN: QUPAMP
- Abdel-Hamid O., Mohamed A., Jiang H., Deng L., Penn G., Yu D. Convolutional Neural Networks for Speech Recognition // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2014. Vol. 22. P. 1533-1545. DOI: 10.1109/TASLP.2014.2339736
- Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A.N., Kaiser L., Polosukhin I. Attention Is All You Need // 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, P. 5998-6008. URL: https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf (дата обращения: 17.09.2024).
- Kipyatkova I., Karpov A. DNN-Based Acoustic Modeling for Russian Speech Recognition Using Kaldi // Ronzhin A., Potapova R., Nemeth G. (Eds) Speech and Computer. SPECOM 2016. Lecture Notes in Computer Science. 2016. Vol. 9811. Springer, Cham. DOI: 10.1007/978-3-319-43958-7_29
- Radford A., Jong Wook Kim, Tao Xu, Brockman G., McLeavey Ch., Sutskever I. Robust speech recognition via large-scale weak supervision // Proceedings of the 40th International Conference on Machine Learning, Honolulu, Hawaii, USA. PMLR 202. 2023. DOI: 10.48550/arXiv.2212.04356
- Baevski A., Zhou H., Mohamed A., Michael A. Wav2vec 2.0: A framework for self-supervised learning of speech representations // 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada. 2022. DOI: 10.48550/arXiv.2006.11477