Нейросетевая детекция голосовой активности для распознавания речи в реальном времени

Автор: Петряшин И. Е., Юдин Д. А.

Журнал: Труды Московского физико-технического института @trudy-mipt

Статья в выпуске: 4 (60) т.15, 2023 года.

Бесплатный доступ

В статье исследуется задача распознавания речи в зашумленной среде в реальном времени. Предлагается оригинальный подход адаптации современных нейросетевых алгоритмов детекции голосовой активности RealVADR для решения задачи распознавания речи в реальном времени с использованием обработки интервалов звука. Рассматривается влияние параметров данного алгоритма на качество распознавания речи, а также методы оптимизации его параметров. Проведены эксперименты как на существующем открытом наборе данных CommonVoice, так и на нескольких собственных наборах данных, собранных в шумной робототехнической среде. Они показали, что применение предложенного подхода позволяет получить в реальном времени качество распознавания, сравнимое с офлайн-распознаванием.

Еще

Распознавание речи, детекция голосовой активности, нейронная сеть, алгоритм, набор данных

Короткий адрес: https://sciup.org/142240001

IDR: 142240001

Список литературы Нейросетевая детекция голосовой активности для распознавания речи в реальном времени

Schneider S., Baevski A., Collobert R., Auli M. wav2vec: Unsupervised Pre-training for Speech Recognition // CoRR. 2019. V. abs/1904.05862. arXiv: 1904.05862.
Radford A., Kim J.W., Xu T., Brockman G., McLeavey Ch., Sutskever I. Robust Speech Recognition via Large-Scale Weak Supervision // Proceedings of the 40th International Conference on Machine Learning. 2023. N 1182. P. 28492–28518.
Iashchenko A., Andreev P., Shchekotov I., Babaev N., Vetrov D. UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model // arXiv preprint arXiv:2306.00721. 2023.
Bredin H., Yin R., Coria J.M., Gelly G., Korshunov P., Lavechin M., Fustes D., Titeux H., Bouaziz W., Gill M.-P. pyannote.audio: neural building blocks for speaker diarization // arXiv: 1911.01255.
Silero vad: pre-trained enterprise-grade voice activity detector (vad), number detector and language classifier. 2021.
Baevski A., Zhou H., Mohamed A., Auli M. wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations // CoRR. 2020. V. abs/2006.11477. arXiv: 2006.11477.
Baevski A., Schneider S., Auli M. vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations // CoRR. 2019. V. abs/1910.05453. arXiv: 1910.05453.
Baevski A., Hsu W., Conneau A., Auli M. Unsupervised Speech Recognition // CoRR. 2021. V. abs/2105.11084. arXiv: 2105.11084.
Conneau A., Baevski A., Collobert R., Mohamed A., Auli M. Unsupervised Cross-lingual Representation Learning for Speech Recognition // CoRR. 2020. V. abs/2006.13979. arXiv: 2006.13979.
Gandhi S., von Platen P., Rush A.M. Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling // arXiv: 2311.00430 2023.
Ardila R., Branson M., Davis K., Henretty M., Kohler M., Meyer J., Morais R., Saunders L., Tyers F. M., Weber G. Common voice: A massively-multilingual speech corpus // arXiv preprint arXiv:1912.06670. 2019.
Karpov N., Denisenko A., Minkin F. Golos: Russian dataset for speech research // arXiv preprint arXiv:2106.10161. 2021.
Panayotov V., Chen G., Povey D., Khudanpur S. Librispeech: an asr corpus based on public domain audio books // 2015 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE. 2015. P. 5206–5210.
Mihalache S., Ivanov I.A., Burileanu D. Deep Neural Networks for Voice Activity Detection // 2021 44th International Conference on Telecommunications and Signal Processing (TSP). IEEE. 2021. P. 191–194.
Ali A., Renals S. Word error rate estimation for speech recognition: e-WER // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2018. P. 20–24.

Еще

Статья научная