Анализ подходов к автоматизации разметки паралингвистических характеристик в русскоязычных речевых данных

Автор: Евгений Николаевич Радченко , Екатерина Владимировна Исаева

Журнал: Вестник Пермского университета. Математика. Механика. Информатика @vestnik-psu-mmi

Рубрика: Компьютерные науки и информатика

Статья в выпуске: 2 (69), 2025 года.

Бесплатный доступ

Разработка систем синтеза речи с возможностью управления речевыми характеристиками посредством естественного языка имеет практический интерес, поскольку предоставляет интуитивно понятный способ влияния на результат генерации. Вместе с тем, для русскоязычных данных наблюдается недостаток как подобных систем, так и размеченных наборов данных, необходимых для их создания. Ручная разметка больших наборов данных является ресурсоемким процессом, требующим не только экспертных знаний предметной области, но и согласованности разметчиков между собой. В связи с этим, актуальным является исследование подходов к автоматизации аннотации паралингвистических характеристик русскоязычной речи, позволяющих унифицировать существующую разметку и ускорить ее масштабирование. В данной статье рассмотрены основные подходы к разметке таких па-ралингвистических характеристик, как паузы, ударения, а также высота и тембр голоса. Особое внимание уделено обзору доступных программных реализаций описанных методов. Ключевым выводом по итогам анализа стало наличие достаточного количества программных средств, пригодных для аннотации "базовых" характеристик в русскоязычной речи. Паузы и фундаментальная частота могут выделяться с помощью методов, не использующих лингвистическую информацию, в то время как для разметки ударений существуют методы, основанные на нейронных сетях и учитывающие контекст высказывания для снятия омографии, достигающие значения метрики Accuracy в 98%. В то же время автоматическая разметка более слож-ных характеристик, таких как тембр и выражаемые эмоции, остается малоизученной. Данные результаты указывают на необходимость дополнительных исследований в области методов автоматической аннотации паралингвистических характеристик в русскоязычных речевых данных.

Еще

Автоматическая аннотация, разметка аудио, разметка текста, паралингвистические характеристики, генерация речи

Короткий адрес: https://sciup.org/147251032

IDR: 147251032   |   DOI: 10.17072/1993-0550-2025-2-101-122

Текст научной статьи Анализ подходов к автоматизации разметки паралингвистических характеристик в русскоязычных речевых данных

4.0. Чтобы просмотреть копию этой лицензии, посетите

Естественная речь характеризуется спектром так называемых паралингвистических характеристик: длительностью пауз, ударениями, тембром и выражаемыми эмоциями говорящего, а также другими особенностями. В англоязычной литературе совокупность этих характеристик также называется речевым стилем . Современные алгоритмы генерации речи, основанные на глубоких нейросетях, такие как ParlerTTS и LibriTTSP [1, 2, 3], позволяют задавать желаемые характеристики синтезированного голоса, используя короткие текстовые описания.

Для использования такого способа задания стиля необходимы размеченные аудио-текстовые корпуса, включающие транскрипции и аннотацию соответствующих признаков. В то время как такие корпуса активно разрабатываются для англоязычных данных, существующие русскоязычные корпуса, такие как Dusha, ПРуД, РИНКО [4, 5, 6], обычно разработаны под конкретные узконаправленные задачи, и требуют дополнительной разметки для полноценного использования вышеобозначенных методов.

Таким образом, исследование подходов к автоматизации стилевой разметки представляется перспективным направлением, способным существенно упростить создание обучающих данных. Данная статья направлена на анализ существующих подходов к автоматической разметке паралингвистических характеристик речи и оценку их применимости к русскоязычным данным. Поскольку понятие паралингвистических характеристик охватывает широкий спектр различных качеств голоса, материал статьи поделен на подразделы, каждый из которых анализирует методы автоматизации разметки применительно к конкретным характеристикам. Для удобства чтения названия метрик оценки качества работы моделей машинного обучения в статье приводятся на английском.

  • 2.    Методы решения задачи автоматизации разметки паралингвистических характеристик

    2.1.    Автоматическая разметка пауз

В данном разделе будут рассмотрены методы моделирования невокализованных пауз (синтаксических и хезитационных пауз [7], если они не являлись заполненными).

Наиболее прямолинейным подходом к решению данной задачи является выделение синтаксических пауз, исходя из пунктуации. Стоит отметить, что в существующих наборах данных транскрибация зачастую получена путем автоматического распознавания речи. Так, например, в расшифровках аудио в датасете Dusha, пунктуация отсутствует. Для восстановления разметки могут быть использованы существующие программные решения, такие как "Восстановление пунктуации для русского языка" [8] и "Punctuation and casing restoration for the Russian Language (BERT-based)" [9] на основе нейронных сетей.

Наилучшее качество по метрике F1 (среднего гармонического между метриками Precision и Recall) такие модели показывают для восстановления знаков точки (0.93 и 0.7) и запятой (0.92 и 0.77). При восстановлении знаков вопроса результаты приведенных моделей по F1 различались на 0.2%, составив 0.418 и 0.42, соответственно. Примечательно, что для модели [9] это обуславливалось "средними" значениями метрик Precision (0.55) и Recall (0.34), в то время как у модели [8] – высоким значением метрики Precision (0.76) при сравнительно низком значении метрики Recall (0.29).

Наличие пунктуации может само по себе помочь расстановке пауз моделью в момент синтеза, если модель обучается синтезировать паузы, исходя из скрытых представ- лений, не используя непосредственную аннотацию [10]. Однако некоторые исследования, проведенные для китайского языка, показывают, что разметка "просодических границ", определяющихся на уровне слогов, слов и даже отдельных предложений, также может улучшить качество синтеза. Так, например, в работе "Automatic Prosody Annotation with Pre-Trained Text-Speech Model" [11] предложен иерархический подход к разметке просодических границ для китайского языка с использованием механизма кроссвнимания между аудио- и текстовой расшифровкой. Это позволяет модели выучить соответствие между промежутками звучащей речи в аудио и тексте, чтобы затем автоматически размечать просодические границы (здесь – поделенные на классы пауз на уровне отдельных иероглифов, слов и так далее). Авторы отмечают, что поскольку разметка проводилась без участия человека, система демонстрирует повышенную консистент-ность в сравнении с ручной разметкой, что, в свою очередь, приводит к улучшенному качеству синтезированной речи.

Для получения прямой разметки пауз по длительности могут применяться также алгоритмы детекции речевой активности (Voice Activity Detection, VAD). Модель транс-крибации WhisperX [12] поддерживает аннотацию на уровне слов и может, таким образом, быть использована без модификаций даже для корпусов, изначально не содержащих транскрибацию аудиоданных. В условиях ограниченных вычислительных ресурсов на полную транскрибацию возможно также использование гибридного подхода с такими алгоритмами, как WebRTC [17], использующим вероятностный подход на основе смесей распределений Гаусса и Лапласа, или Silero VAD [18], основанный на сверточных нейронных сетях (Convolutional Neural Network, CNN). Согласно официальной документации, на восьми наборах данных зашумленной речи Silero VAD показывает медианное значение метрики ROC-AUC в 0.95. Медианное значение ROC-AUC у WebRTC на тех же данных – 0.76.

Примерный алгоритм в случае использования методов VAD будет состоять из следующих этапов:

  • 1.    Детекция речевой активности выбранным алгоритмом VAD;

  • 2.    Сопоставление временных промежутков, выделенных в шаге 1, с текстовой расшифровкой из изначального датасета;

  • 3.    Аннотация текстовой расшифровки полученными метками длительности пауз. Второй этап может быть реализован за счет использования эвристики, например, путем проставления временных меток по тексту пропорционально длительности аудио. При таком подходе пауза, находящаяся в середине аудио, будет аннотирована как находящаяся примерно в середине текста, если текст сегментирован по словам. Данный подход является наиболее простым в реализации, однако его качество сильно зависит от равномерности темпа речи и подходит преимущественно для случаев, когда речь не содержит значительных промежутков ускорения или замедления.

  • 2.2.    Автоматическая разметка ударений2.2.1.    Подход с использованием правил (словарей) 2.2.2.    Нейросетевой подход

Другим возможным решением может быть повторное использование модели транс-крибации, но не на всем аудио, а только на временных промежутках, выделенных моделью VAD. Для сопоставления полученной транскрибации с уже имеющейся в исходном наборе данных, можно использовать временное окно, охватывающее соответствующий сегмент аудио, а также дополнительные, например, 100 миллисекунд до и после него. Сравнение текстов можно осуществлять с использованием метрик посимвольного сходства (например, сходство Левенштейна в реализации библиотеки RapidFuzz [13]). Если значение сходства для некоторого участка исходной транскрибации превышает заданный порог, то метка паузы может быть проставлена в данном отрывке текста.

Ударения являются одной из базовых характеристик речи и потому также представляют интерес с точки зрения автоматизации их разметки. "Наивный" подход к автоматизации разметки ударений (акцентуации) включает в себя разметку по заранее определенным правилам. Разметка в таком случае осуществляется согласно подключаемому к алгоритму словарю, содержащему информацию об ударениях в тех или иных словоформах. Данный подход является простым в реализации и не требует больших вычислительных ресурсов.

Программную реализацию данного подхода можно найти, например, у А. Полякова [14]. В документации указано, что программа способна размечать два вида ударений: первичные (в словах типа "ёлка", "база") и второстепенные (в словах типа "авиабаза"). Если одна и та же словоформа может иметь несколько ударений, то данная программа проставляет оба. Существует также возможность подключения пользовательских словарей.

Одним из минусов данного подхода является сложность определения ударений в омографах (зАмок, замОк), а также при использовании в поэтических текстах, где авторское ударение может отличаться от общепринятого. Проблема акцентуации омографов может быть частично решена с помощью расширения алгоритма и использования, например, конечных автоматов [15]. В сочетании с данными о частотности тех или иных словоформ, такой подход достиг значения метрики Accuracy в 96.15% на небольшом, вручную размеченном авторами статьи, корпусе, содержащем 7689 токенов. Данный корпус, однако, был собран из материалов, ориентированных на изучающих русский язык (диалоги, отрывки из классических произведений, а также вручную подобранные предложения). Расширение такой разметки на другие домены и масштабирование на использование большего количества данных представляется трудозатратным.

Рассмотрим подходы, позволяющие учитывать контекст и использующиеся таким образом для решения проблем с акцентуацией омографов.

Для учета контекста могут использоваться нейронные сети. В частности, такие архитектуры как рекуррентные нейронные сети (Recurrent Neural Network, RNN), их разновидности, такие как сети с долгой краткосрочной памятью (Long Short-Term Memory, LSTM), а также более продвинутые архитектуры типа "Трансформер", предназначенные для обработки последовательных данных. Представленные в 2017 году в статье "Attention is all you need" [16], сети трансформерной архитектуры обрабатывают входящие последовательности с помощью так называемого "механизма внимания". Благодаря ему стала возможной обработка не только отдельных слов и кратковременных контекстов, но также учет расширенного, по сравнению с RNN и LSTM, контекстного окна и ускорение обучения моделей за счет использования параллелизации вычислений.

Примером разметки ударений нейросетевым подходом является разработка И. Гусева [17]. В программном комплексе имеется возможность использовать разновидность модели трансформерной архитектуры deberta-2 или LSTM. Данные для обучения собираются из открытых источников (Викисловарь, "Грамматический словарь русского языка" А. А. Зализняка [18], а также вручную размеченный набор данных), а затем подаются на вход для обучения модели. В официальной документации сказано, что таким образом удалось достичь значения 89.73% по метрике Accuracy, без указания, однако, на какой из моделей данное значение было получено.

Для русскоязычных текстов сугубо нейросетевой подход исследовался в рамках разметки поэзии, не проверенной профессиональными редакторами и выложенной в открытом доступе на ресурсе stihi.ru [19]. Авторы приводят примеры некоторых удачных определений ударения, однако на момент написания статьи их код являлся недоступным для использования и модификации.

Существуют и программные средства с открытым исходным кодом, направленные на акцентуацию в области поэтических текстов. Например, программный пакет "RussianPoetryScansionTool" [20, 21] позволяет расставлять ударения в текстах, а также оценивать их стихотворный размер и рифму. Пользователю предоставляется возможность использовать на выбор одну из четырех архитектур моделей: многослойный перцептрон с ReLU-активациями, LSTM, CNN или модель трансформерной архитектуры с собственными весами. В официальной документации не приведены метрики качества работы моделей, однако есть приведенный пример использования библиотеки для аннотации стихотворения. Примечательно, что библиотека ставит ударения в словах, содержащих букву "ё", однако не всегда ставит ударение в односложных словах ("столь", "чтоб"). Также отмечено, что основные и второстепенные (при наличии) ударения обозначаются разными символами.

Наконец, благодаря использованию нейросетевой архитектуры двунаправленных LSTM, авторам статьи "Automated Word Stress Detection in Russian" [22, 23] удалось добиться микроусредненного (по классам слов, содержащих от двух до девяти слогов) значения Accuracy в 0.979 на наборе данных в 1154067 уникальных тестовых примеров. Такое значение было получено при использовании модели, учитывающей контекст в формате окончания предыдущего слова. Модель, не использовавшая данную информацию, показала себя незначительно хуже – для нее микроусредненная метрика Accuracy равнялась 0.977.

Важным фактом является то, что значение метрики Accuracy обеих моделей было значительно ниже при тестировании на пятидесяти омографах. Для модели, учитывающей контекст, она составила 0.819, а для модели, не учитывающей контекст – 0.77. Эксперименты авторов также показали, что использование данных из размеченных корпусов является предпочтительным использованию данных из словарей, поскольку в первом случае слова находятся в контексте и позволяют модели учитывать частотность возможных ударений.

Стоит отметить, что, поскольку нейросетевые подходы основываются на частотных закономерностях языка, они также подвержены изменениям в обучающей выборке и могут плохо показывать себя на примерах, слабо репрезентированных в обучающих данных, таких как авторские изменения ударения в поэтическом домене, если модель была обучена сугубо на прозаических текстах.

2.2.3.    Комбинированный подход

Комбинированный подход к разметке ударений в поэтических текстах в русском языке представлен в статье "Комбинированный Словарно-Нейросетевой Акцентуатор Для Разметки Русского Поэтического Текста" [24]. Как было отмечено ранее, разметка таких текстов представляет особую сложность, поскольку наряду с омографами может содержать также и авторские ударения, обусловленные ритмикой конкретного стихотворения.

Взяв за основу разработку [22], не используя сторонние библиотеки для POS-тег-гинга (такие, как pymorphy или SpaCy), авторы учитывали морфологический контекст с помощью использования флексии предшествующего слова. Обучающая выборка собиралась из "Грамматического словаря русского языка" А. А. Зализняка и устного подкорпуса Национального корпуса русского языка (НКРЯ) [25]. Авторы отмечают, что ошибки, совершаемые словарным и нейросетевым акцентуаторами, отличаются по своей сути. Словарный акцентуатор ошибается в определении ударений в словах, отсутствующих в словаре, а также в случаях с неоднозначным ударением. Двунаправленная LSTM-модель ошибалась, например, при определении ударения в словах с подразумеваемой, но не обозначенной буквой "ё", что может указывать на необходимость предварительной "ёфикации" (в наиболее простой реализации: за счет словарей) текстов перед использованием такого подхода.

Авторы рассмотрели несколько способов совмещения подходов – изначальная разметка словарным акцентуатором с последующей разметкой нейросетевым акцентуато-ром, изначальная разметка нейросетевым акцентуатором с последующей разметкой словарным акцентуатором, а также случайный выбор разметки тем или иным акцентуатором для каждого слова.

В итоговом пайплайне реализована одновременная разметка обоими акцентуато-рами, причём результаты разметки нейросетевого акцентуатора учитываются только в случае неоднозначной разметки, отсутствия разметки словарным акцентуатором (при условии отсутствия в слове буквы "ё"), либо наличия и разметки, и буквы "ё" (кроме слов с дефисом). Результаты разработки реализованы в виде библиотеки ru-accent-poet [26] на языке Python, доступной для скачивания.

За счет использования словаря при разметке ударений для однозначных слов и использовании нейросетей для разметки ударений в омографах, удалось достичь результатов, превосходящих использование только одного из методов. Качество работы сравнивалось на вручную размеченных авторами стихах, а также на 100 строках из поэтического подкорпуса НКРЯ. На данной выборке комбинированный подход показал качество около 0.98 по метрике Accuracy, по сравнению с 0.93 у словарного и 0.94 у отдельно нейросетевого подходов, соответственно.

2.3.    Автоматическая разметка высоты и тембра

Рассмотрим такие характеристики как высота и тембр голоса. Под высотой будем понимать слуховое ощущение частоты звука, а под тембром – признак, позволяющий слушателю различать звуки одинаковой высоты и громкости, но различного генезиса [27]. Высота звука тесно связана с его "фундаментальной частотой" (частота основного тона, F0), в то время как тембр – c обертонами, то есть всей частью звукового спектра, не относящейся к фундаментальной частоте [28].

Исследования показывают, что высота голоса играет ключевую роль в восприятии социальных качеств, таких как надежность, авторитетность, лидерские качества говорящего [29, 30, 31, 32]. Таким образом, моделирование и автоматическая разметка высоты и тембра являются особенно актуальными при, например, создании голосовых ассистентов, где формирование доверительного отношения пользователей является одним из наиболее важных факторов в разработке.

2.3.1.    Выделение фундаментальной частоты и тональных контуров

Алгоритмы выделения фундаментальной частоты, как правило, опираются на анализ аудиосигнала во временной либо частотной области, также существуют и гибридные подходы [33]. Поскольку данная статья рассматривает разметку в целях генерации аудио, содержащего характеристики только одного говорящего, то рассматриваться будут только базовые алгоритмы, применяющиеся при определении F0 в вышеуказанном сценарии.

При работе с речью в частотной области часто применяются мел-кепстральные коэффициенты (Mel-frequency Cepstrum Coefficient, MFCC) – представление, полученное через обратное преобразование Фурье от логарифма спектра мощности сигнала. Использование мел-шкалы позволяет учесть нелинейную связь между воспринимаемой и физической частотой, возникающую в результате особенностей человеческой физиологии.

Большинство алгоритмов, использующих преимущественно временное представление входного сигнала для определения F0, основаны на принципе автокорреляции. Входной сигнал разделяется на части (фреймы), от которых высчитывается автокорреляционная функция, отображающая сходство сигнала с самим собой. В наиболее простом подходе первый максимум данной функции и будет фундаментальной частотой. На базе этого подхода были разработаны несколько алгоритмов, таких как AMDF [34], YIN [35], а также его вероятностная модификация pYIN [36] и другие.

В алгоритме YIN используется кумулятивное нормализованное среднее, что позволяет ему быть более устойчивым к колебаниям в амплитуде входного сигнала, делая период F0 более выраженным по отношению к остальным. Программная реализация YIN и pYIN доступна в библиотеке librosa [37].

Подходы, использующие исключительно анализ в частотной области, пользуются меньшей популярностью и их реализации не настолько распространены, как реализации гибридных подходов или подходов, основанных на анализе амплитудно-временных характеристик. Среди известных гибридных подходов можно отметить HARVEST [37] и YAAPT [38].

HARVEST извлекает основные частоты-кандидаты F0 с помощью набора фильтров с разными частотами, анализируя спектральные компоненты, после чего уточняет их с использованием "мгновенной" частоты. Затем несколько кандидатов F0 оцениваются в каждом фрейме. Для формирования финального F0-контурa применяется алгоритм соединения соседних кадров, опирающийся на предположение о плавности изменения высоты тона, что делает его более устойчивым к локальным шумам (проблема, проявляющаяся при покадровой обработке сигналов). Реализация алгоритма доступна в библиотеке pyworld [39], также предоставляющей реализацию алгоритма DIO [40].

Ядром алгоритма YAAPT является метод нормализованной кросс-корреляции, использующийся вместо обычной автокорреляционной функции. На этапе предобработки над входным сигналом производится нелинейное преобразование, позволяющее восстановить слабые компоненты F0. Для выбора наиболее правдоподобной F0 используется динамическое программирование, что делает алгоритм устойчивым к искажениям и эффективным при работе как с записями высокого качества, так и с, например, телефонной речью. Реализация алгоритма YAAPT доступна для Python в библиотеке AMFM_decompy [41].

Существуют также статьи, описывающие успешное применение методов традиционного машинного обучения (алгоритмов K-Среднего, модели смесей Гауссовских распределений, метода опорных векторов [42]) и CNN [43] для решения задачи выделения F0.

Помимо отдельной частоты F0 можно выделять также тональный контур, представляющий собой изменение тона на протяжении отдельного отрезка звучащей речи. Одним из наиболее распространенных программных решений для работы с анализом речи, дающим возможность выделения тональных контуров, является программный пакет Praat [44], доступный для использования с языком Python с помощью библиотеки Parselmouth [45]. Алгоритм, применяющийся в Parselmouth для выделения F0 по умолчанию, является автокорреляционным [46], однако пользователю предоставлена возможность выбрать и другие методы.

Для разметки текстовых данных, поступающих в модель на момент синтеза, можно использовать моделирование тональных контуров на основе частотных характеристик частей речи, как это было сделано для тамильского языка в статье "Utilizing POS-Driven

Pitch Contour Analysis for Enhanced Tamil Text-to-Speech Synthesis" [47], однако возможность успешного использования такого подхода применительно к русскому языку требует дополнительных исследований.

Рассмотренные выше методы в основном были направлены на разметку базовых характеристик звучащей речи – ударения, пауз и тона. Хотя их модуляция и способствует повышению естественности синтезированной речи, этого недостаточно для моделирования речевого многообразия. В следующем разделе будут рассмотрены способы автоматической разметки более сложных аспектов стиля, таких как акцент и эмоция говорящих.

2.3.2.    Разметка характеристик тембра в текстовом формате

Наиболее простым с точки зрения естественного языка способом задать желаемый голос является непосредственное задание характеристик словесным образом. Ряд исследований сфокусировался на создании таких словесных описаний. Например, авторами статьи "Dream Voice: Text Guided Voice Conversion" [48] была разработана система из десяти ключевых слов, разделенных на две категории в зависимости от уровня субъективности. Первая категория составляла базовые характеристики, такие как пол и возраст говорящего, вторая же соответствовала более абстрактным понятиям, таким как сила или теплота голоса. Разметка проводилась вручную экспертами, а в итоговом датасете было 900 говорящих.

Авторы статьи [1] развили идею стилистической разметки, предложив подход к ее автоматизации. Дополнительно к этому ими была предложена обширная система тегов, охватывающих как присущие отдельным говорящим характеристики ("Intrinsic tags"), такие как акцент и пол, так и ситуативные характеристики, такие как выражаемая в речи эмоция ("Situational tags"). Стоит отметить, что для разметки ситуативных характеристик не подходит использование исключительно методов, основанных на анализе тональности текста, так как интонация высказывания может отличаться от семантики предложения.

Авторы также выделяли уровень "сложности" тегов, где "базовыми" ("Basic") считались такие теги, как пол говорящего, скорость речи и высота голоса, поддающиеся определению с помощью методов обработки сигналов, а "расширенными" ("Rich") считались такие теги, как выражаемая эмоция, акцент и другие, обычно требующие человеческой разметки.

Сфокусировавшись на масштабировании расширенных характеристик (R-тегов), авторы проанализировали существующие, преимущественно англоязычные, наборы данных (датасеты). Из находящихся в открытом доступе датасетов, 1 из 10 имел разметку исключительно присущих R-тегов [49], в 6 из 10 присутствовала разметка только ситуативных R-тегов [2, 50, 51, 52, 53, 54] и в 1 из 10 [55] – разметка как присущих, так и ситуативных R-тегов. При этом датасеты, разметка которых производилась автоматически, не имели разметки присущих R-тегов, а размеченные ситуативные R-теги ограничивались 4 [2] и 7 [54] тегами, соответственно. Таким образом, была выявлена необходимость автоматизации разметки R-тегов.

Дальнейшая разметка производилась двумя способами, отдельно для присущих R-тегов (IR-тегов) и ситуативных R-тегов (SR-тегов). Пайплайн для IR-тегов начинался с ручной разметки небольшого "стартового" датасета. Затем датасет масштабировался путем нахождения голосов, похожих на известные, и переноса на них имеющихся IR-тегов. Для каждого размеченного вручную голоса и каждого голоса из размечаемого дата-сета, авторы вычисляли медианные эмбеддинги на основе десяти случайно выбранных аудиофрагментов, используя модель VoxSim [56]. Особенностью данной модели является то, что она обучалась определять не то, насколько разные фрагменты голосов при- надлежат одному и тому же голосу, но то, насколько те или иные фрагменты воспринимаются похожими с точки зрения человека ("perceptual speaker similarity"). Авторы статьи отметили, что если два голоса имеют высокое сходство по восприятию, то у них обычно совпадает большинство IR-тегов.

Для каждого говорящего из размеченного датасета находились говорящие из размечаемого датасета, косинусное сходство с которыми было больше или равно 0.8, а затем размечаемому говорящему копировались все IR-теги.

Вторая часть пайплайна, использовавшаяся для разметки SR-тегов, состояла из трех этапов. На первом из них авторы фильтровали наиболее эмоционально окрашенные высказывания, пользуясь готовым классификатором для трехфакторного моделирования эмоциональных состояний по шкалам степени контроля (dominance), интенсивности (arousal) и приятности (valence) [57]. Отметим, что в официальной документации модели описано ее применение для классификации эмоций в аудио-текстовом наборе данных "The Berlin Database of Emotional Speech" [58] на немецком языке, содержащем разметку аудио на пять эмоций, плюс одну "нейтральную" эмоцию. Обученный на основе эм-беддингов данной модели классификатор, использующий метод опорных векторов (Support Vector Classifier, SVC), показал значение метрики Unweighted Average Recall (UAR) в 0.93, что говорит в пользу ее применимости для языков, отличных от английского.

На втором этапе текстовая расшифровка оценивалась на предмет соответствия семантики размечаемой характеристике. С помощью модели SFR-Embedding-Mistral [59], авторы вычисляли косинусное сходство между промптом: "Instruct: Given an emotion, retrieve relevant transcript lines whose overall style/emotions matches the provided emotion. Query: {emotion}" ["Инструкция: По заданной эмоции верни релевантные строки расшифровки, стиль/эмоция которых соответствует предложенной. Запрос: {Эмоция}"] и текстовыми расшифровками речи, полученными в результате первого этапа фильтрации. Чтобы избежать переоценки реплик, в которых просто упоминается эмоция (например, реплики, содержащие слово "ярость", но не имеющие соответствующего эмоционального окраса), реплики также фильтровались по ключевым словам. После получения косинусного сходства реплики ранжировались от наиболее до наименее подходящих под промпт.

Заключительным этапом было акустическое сопоставление. Для фильтрации ложноположительных срабатываний после второго этапа, авторы брали топ-100 тысяч реплик, наиболее подходивших под промпт той или иной эмоции. Выбранные реплики подавались на вход аудио-модели Gemini 1.5 Flash. Модель оценивала, насколько интонация соответствует заданной эмоции по шкале от 1 до 5, при этом в промпте содержалось указание не учитывать семантику высказывания. В результате оставлялись только реплики, получившие оценку 5. Результатом данной части пайплайна стал набор реплик, точно отражающих нужную эмоцию и по содержанию, и по звучанию. Проведенное исследование с удалением части компонент ("ablation study") пайплана показало, что каждый из них необходим для получения более качественного результата.

В целях оценки возможности применимости такой модели фильтрации к русскоязычным аудио, авторами данной статьи также был проведен мини-эксперимент по ее использованию. Для сравнения было выбрано высказывание "Я так люблю эту жизнь, я самый счастливый человек на планете Земля", произнесенное с грустной эмоцией, прямо противоположной его ярко-выраженной положительной семантике. Нескольким моделям серии Gemini было предложено поставить оценку от 1 до 5, сравнив, насколько выражаемая в аудио эмоция соответствует эмоции "грусть". Использовавшийся промпт соответствовал промпту из статьи [1], однако название эмоции указывалось на русском: "Analyze the provided speech clip to evaluate how effectively it conveys the emotion {emotion

→ Грусть}, focusing on tone of voice and delivery, rather than the spoken content... " ["Проанализируй данный отрывок речи для того, чтобы оценить, насколько эффективно он передает эмоцию {эмоция → Грусть}, фокусируясь на тоне голоса и подаче, нежели на содержании высказывания...}"].

Модель "gemini-1.5-flash-002", применявшаяся в изначальной статье, не справилась с поставленной задачей, поставив оценку 1/5. Однако более новая модель "gemini-2.5-flash-preview-04-17" в режиме "Thinking mode" справилась с задачей, поставив оценку 5/5, что указывает на потенциал использования ее API для реализации аналогичного пайплайна для русскоязычных данных.

3.    Результаты

В статье были проанализированы основные подходы к автоматизации разметки паралингвистических характеристик речи, таких как паузы, ударения, высота, а также "R-теги", включающие эмоции, акцент и другие особенности говорящих.

Наиболее исследованным из направлений автоматизации разметки является разметка ударений, в частности для домена поэтических текстов. Устоявшиеся алгоритмы к моделированию просодических границ и тональных контуров могут быть использованы без дополнительных модификаций. Существуют также нестандартные подходы, успешно применявшиеся для китайского и тамильского языков, однако требующие апробации для доказательства эффективности на русскоязычных данных. В силу различной природы происхождения текстовых данных, для повышения качества и обеспечения стабильности работы алгоритмов, рекомендуется использовать предобработку, включающую в себя "ёфикацию", капитализацию и восстановление знаков препинания.

Сводная информация о доступных методах автоматической разметки базовых характеристик на русскоязычных данных представлена в таблице.

Сводная таблица доступных программных решений для разметки базовых паралингвистических характеристик на русском языке

Размечаемая характеристика

Программное решение

Паузы

Для восстановления знаков препинания: ru_punct [8] ru-autopunctuation [9]

Для транскрибации и временных меток: WhisperX [12]

Для гибридного использования с моделями транскрибации: WebRTC [60]

Silero VAD [61]

Ударения

Accenter [14] russ [17] RussianPoetryScansionTool [20] russtress [23] ru-accent-poet [26]

F0, Тональный контур

librosa [62] pYAAPT [41] Parselmouth [45]

В целом можно сказать, что задача автоматизации разметки базовых паралингвистических характеристик в русском языке может быть успешно решена с использованием комбинации существующих программных решений. Выбор библиотек для реализации будет зависеть от существующих вычислительных мощностей, объема обрабатываемых данных, а также требуемой для конкретной задачи разметки точности.

Так, для быстрого прототипирования подойдут методы, основанные на правилах и эвристиках. В частности – разметка пауз на основе синтаксиса или словарный подход в случае разметки ударений. Для задач, требующих повышенной точности, подойдет использование нейросетевых и гибридных методов, таких как WhisperX для разметки пауз и ru-accent-poet для разметки ударений. Стоит отметить, что все описанные методы разметки ударений требуют наличия текстовой расшифровки аудио. В условиях отсутствия такой расшифровки, с учетом особенностей ударения в русском языке, разметка может быть произведена за счет выделения участков локального изменения длительности и тембральных характеристик гласных [63] непосредственно из аудио. На момент написания статьи авторам не известно о существовании готовых программных реализаций подобных алгоритмов, что предполагает дополнительные временные затраты на их разработку.

В случае разметки расширенных характеристик наиболее популярными являются подходы, основанные на нейросетевых моделях, опирающиеся, как правило, на решения, обученные преимущественно на англоязычных данных. Например, модель VoxSim, описанная в статье [36], была обучена исключительно на англоязычном материале и может оказаться непригодной для сравнения голосов в русскоязычной речи. С другой стороны, для моделей, не обучавшихся в явном виде использовать семантику высказывания при определении эмоций, существует потенциал применимости для языков, не входивших в обучающую выборку.

В совокупности результаты анализа показывают необходимость разработки программных решений, позволяющих автоматизировать разметку расширенных характеристик для русскоязычных данных.

4.    Обсуждение

В перспективе разработки методов автоматизации разметки расширенных тегов для русскоязычных данных, актуальной задачей остается и разработка собственной системы тегов. Существующие аудио-текстовые наборы данных на русском языке, такие как Dusha, resd_annotated, CommonVoice 21.0, ПРуД, РИНКО [4, 5, 6, 64, 65] и другие, не имеют единой стандартизированной системы аннотации. Они также различаются по качеству записей и квалификации разметчиков (от собранных и размеченных пользователями сети Интернет до записанных и размеченных профессионально). Некоторые из них содержат отдельные базовые или расширенные характеристики: например, в CommonVoice аннотирован пол говорящих, в ПРуД – их диалекты. При этом не все из описанных корпусов находятся в открытом доступе. Для создания системы, охватывающей как можно более гибкий спектр характеристик, необходимо провести дополнительное исследование, которое позволит определить, какие данные доступны и пригодны для использования.

Исходя из существующих решений для разметки расширенных тегов можно отметить, что некоторые из них показывают возможность масштабирования на языки, не входившие в обучающую выборку. Однако для однозначных выводов требуется проведение тестов на наборах вариативных русскоязычных данных. При интерпретации результатов стоит учитывать такие факторы, как культурные отличия в выражении тех или иных эмоций, спонтанность размечаемой речи, а также, для анализа качества работы моделей на подготовленной речи – наличие навыков сценического мастерства у говорящих.

Дополнительным направлением для улучшения системы генерации естественной речи может стать разметка и синтез экстралингвистических компонент речи – таких как смех, кашель, цоканье и другие [66]. Кроме того, перспективным является задание стиля не только говорящего, но и окружающей среды, в том числе с помощью изображений [67, 68], а также расширение на ситуации с несколькими говорящими или переключением кодов.

Данная работа ограничена по охвату и не претендует на исчерпывающее рассмотрение всех существующих подходов и методов. Авторы стремились сделать акцент на практическом применении программных решений, что, как они надеются, может способствовать прикладному развитию в области создания и масштабирования аудио-текстовых наборов русскоязычных данных.

5.    Заключение

В данной статье приведен обзор некоторых из существующих методов автоматической разметки паралингвистических характеристик, а также оценен потенциал их использования для русскоязычных аудио-текстовых наборов данных. Анализ выявил, что существующих программных решений достаточно для выделения базовых характеристик, таких как паузы, ударения, фундаментальная частота и тональные контуры. Описанные методы могут использоваться для унификации и масштабирования разметки наборов данных, находящихся в открытом доступе, в целях обучения моделей синтеза речи.

Вместе с тем обнаружена нехватка методов, позволяющих автоматизировать разметку расширенных характеристик для русскоязычных данных. По этой причине возникает необходимость в адаптации и проверке методов, продемонстрировавших эффективность на англоязычных данных, с использованием русскоязычных данных и моделей.

Для дальнейшего развития в этом направлении предлагается:

  • 1.    Разработать собственную систему тегов, учитывающую как базовые, так и расширенные характеристики;

  • 2.    Провести комплексный анализ существующих русскоязычных аудио-текстовых наборов данных с точки зрения доступности и характера аннотации;

  • 3.    Выполнить сравнительный анализ методов оценки голосовой схожести, исследовать потенциал использования моделей, обучавшихся на англоязычных данных, для сравнения русскоязычной речи.

Статья научная