Анализ подходов к автоматизации разметки паралингвистических характеристик в русскоязычных речевых данных

Автор: Евгений Николаевич Радченко , Екатерина Владимировна Исаева

Журнал: Вестник Пермского университета. Математика. Механика. Информатика @vestnik-psu-mmi

Рубрика: Компьютерные науки и информатика

Статья в выпуске: 2 (69), 2025 года.

Бесплатный доступ

Разработка систем синтеза речи с возможностью управления речевыми характеристиками посредством естественного языка имеет практический интерес, поскольку предоставляет интуитивно понятный способ влияния на результат генерации. Вместе с тем, для русскоязычных данных наблюдается недостаток как подобных систем, так и размеченных наборов данных, необходимых для их создания. Ручная разметка больших наборов данных является ресурсоемким процессом, требующим не только экспертных знаний предметной области, но и согласованности разметчиков между собой. В связи с этим, актуальным является исследование подходов к автоматизации аннотации паралингвистических характеристик русскоязычной речи, позволяющих унифицировать существующую разметку и ускорить ее масштабирование. В данной статье рассмотрены основные подходы к разметке таких па-ралингвистических характеристик, как паузы, ударения, а также высота и тембр голоса. Особое внимание уделено обзору доступных программных реализаций описанных методов. Ключевым выводом по итогам анализа стало наличие достаточного количества программных средств, пригодных для аннотации "базовых" характеристик в русскоязычной речи. Паузы и фундаментальная частота могут выделяться с помощью методов, не использующих лингвистическую информацию, в то время как для разметки ударений существуют методы, основанные на нейронных сетях и учитывающие контекст высказывания для снятия омографии, достигающие значения метрики Accuracy в 98%. В то же время автоматическая разметка более слож-ных характеристик, таких как тембр и выражаемые эмоции, остается малоизученной. Данные результаты указывают на необходимость дополнительных исследований в области методов автоматической аннотации паралингвистических характеристик в русскоязычных речевых данных.

Еще

Автоматическая аннотация, разметка аудио, разметка текста, паралингвистические характеристики, генерация речи

Короткий адрес: https://sciup.org/147251032

IDR: 147251032   |   DOI: 10.17072/1993-0550-2025-2-101-122

Статья научная