Блочный алгоритм декодирования с синхронизацией по входу для CTC-AED систем распознавания речи

Автор: Леженин Юрий Игоревич, Богач Наталья Владимировна

Журнал: Информатика и автоматизация (Труды СПИИРАН) @ia-spcras

Рубрика: Искусственный интеллект, инженерия данных и знаний

Статья в выпуске: Том 25, №1, 2026 года.

Бесплатный доступ

Для работы в реальных условиях от систем автоматического распознавания речи требуется обеспечивать стабильную точность распознавания при обработке входного аудиопотока произвольной длины в условиях ограниченных вычислительных ресурсов. Объединенная модель из коннекционисткой темпоральной классификации (connectionist temporal classification, CTC) и кодировщик-декодировщика с механизмом внимания (attention-based encoder decoder, AED) обеспечивают высокое качество распознавания, но исходная версия модели не удовлетворяет данным требованиям. В данной статье предлагается алгоритм блочного декодирования с синхронизацией по входу для совместной модели CTC-AED. Алгоритм обрабатывает перекрывающиеся блоки аудио синхронно относительно входной последовательности признаков, используя CTC-выравнивание для определения соответствующего контекста на перекрывающемся участке для AED декодировщика. Фиксированная длина блока обеспечивает предсказуемое и ограниченное потребление ресурсов и позволяет избежать проблем с обобщением на длинных речевых сегментах, в то время как перекрытие блоков снижает ухудшение качества распознавания, вызванное краевыми эффектами на границах блоков. В отличие от других алгоритмов декодирования для CTC-AED, предложенный алгоритм не требует ни модификации архитектуры модели, ни специальной процедуры обучения, и, в то же время, поддерживает перекрытие блоков. В работе также исследуется производительность предложенного алгоритма с точки зрения доли словесных ошибок (word error rate, WER) в зависимости от размера блока и размера перекрытия.

Еще

Потоковое распознавание речи, блочное декодирование, сквозные модели, AED, CTC

Короткий адрес: https://sciup.org/14134536

IDR: 14134536   |   УДК: 004.934   |   DOI: 10.15622/ia.25.1.5