Блочный алгоритм декодирования с синхронизацией по входу для CTC-AED систем распознавания речи
Автор: Леженин Юрий Игоревич, Богач Наталья Владимировна
Журнал: Информатика и автоматизация (Труды СПИИРАН) @ia-spcras
Рубрика: Искусственный интеллект, инженерия данных и знаний
Статья в выпуске: Том 25, №1, 2026 года.
Бесплатный доступ
Для работы в реальных условиях от систем автоматического распознавания речи требуется обеспечивать стабильную точность распознавания при обработке входного аудиопотока произвольной длины в условиях ограниченных вычислительных ресурсов. Объединенная модель из коннекционисткой темпоральной классификации (connectionist temporal classification, CTC) и кодировщик-декодировщика с механизмом внимания (attention-based encoder decoder, AED) обеспечивают высокое качество распознавания, но исходная версия модели не удовлетворяет данным требованиям. В данной статье предлагается алгоритм блочного декодирования с синхронизацией по входу для совместной модели CTC-AED. Алгоритм обрабатывает перекрывающиеся блоки аудио синхронно относительно входной последовательности признаков, используя CTC-выравнивание для определения соответствующего контекста на перекрывающемся участке для AED декодировщика. Фиксированная длина блока обеспечивает предсказуемое и ограниченное потребление ресурсов и позволяет избежать проблем с обобщением на длинных речевых сегментах, в то время как перекрытие блоков снижает ухудшение качества распознавания, вызванное краевыми эффектами на границах блоков. В отличие от других алгоритмов декодирования для CTC-AED, предложенный алгоритм не требует ни модификации архитектуры модели, ни специальной процедуры обучения, и, в то же время, поддерживает перекрытие блоков. В работе также исследуется производительность предложенного алгоритма с точки зрения доли словесных ошибок (word error rate, WER) в зависимости от размера блока и размера перекрытия.
Потоковое распознавание речи, блочное декодирование, сквозные модели, AED, CTC
Короткий адрес: https://sciup.org/14134536
IDR: 14134536 | УДК: 004.934 | DOI: 10.15622/ia.25.1.5