Генерация мимики для виртуальных ассистентов

Автор: Корзун В.А.

Журнал: Труды Московского физико-технического института @trudy-mipt

Статья в выпуске: 3 (55) т.14, 2022 года.

Бесплатный доступ

Развитие виртуальных помощников делает их все более востребованными в повседневной жизни, однако они взаимодействуют с человеком, в основном, с помощью текста или аудио. Создание для них визуального образа позволит сделать взаимодействие с ними более увлекательным, но тогда возникает необходимость создания реалистичных движений, в частности мимики, согласующуюся с речью. В данной работе предлагается система автоматической генерации лицевой анимации по аудио. Предлагаемый подход обладает быстрым временем работы и не требует значительных вычислительных ресурсов. Также в ходе работы были обнаружены различные свойства восприятия человеком говорящей головы, позволяющие избавиться от эффекта «зловещей долины» и сделать автоматическую анимацию более реалистичной.

Еще

Синхронизация губ, нейронные сети, лицевая анимация, виртуальные ассистенты

Короткий адрес: https://sciup.org/142236478

IDR: 142236478

Список литературы Генерация мимики для виртуальных ассистентов

Edwards P., Landreth C., Fiume E., Singh K. Jali: an animator-centric viseme model for expressive lip synchronization // ACM Transactions on graphics (TOG). 2016. V. 35, N 4. P. 1-11.
Karras T., Aila T., Laine S., Herva A., Lehtinen J. Audio-driven facial animation by joint end-to-end learning of pose and emotion // ACM Transactions on Graphics (TOG). 2017. V. 36, N 4. P. 1-12.
Lewis J.P., Anjyo K., Rhee T., Zhang M., Pighin F.H., Deng Z. Practice and theory of blendshape facial models // Eurographics (State of the Art Reports). 2014. V. 1, N 8. P. 2.
Baevski A., Zhou Y., Mohamed A., Auli M. wav2vec 2.0: A framework for self-supervised learning of speech representations // Advances in Neural Information Processing Systems. 2020. V. 33. P. 12449-12460.
Корзун В., Гадецкий Д., Берзин В. Ильин А. Спикер-независимое предсказание блендшейпов области рта по речи // Компьютерная лингвистика и интеллектуальные технологии. 2022. Т. 21. C. 323-332.
Wang S., Li L., Ding Y., Fan C., Yu X. Audio2head: Audio-driven one-shot talking-head generation with natural head motion // arXiv preprint arXiv:2107.09293. 2021.
Gegenfurtner, K.R. The interaction between vision and eye movements // Perception. 2016. V. 45, N 4. P. 1333-1357.

Еще

Статья научная