Структурная схема блока распознавания речи в автоматизированной системе управления
Автор: Тохиров Р., Тургунов Б., Мухаммаджонов Х.
Журнал: Форум молодых ученых @forum-nauka
Статья в выпуске: 7 (35), 2019 года.
Бесплатный доступ
Работа в области обработки речевых сигналов ведется достаточно активно. Представлены аналитический обзор и классификация существующих методов обработки, применяемых в системах распознавания речи.
Обработка речевых сигналов, распознавание речи, голосовое управление
Короткий адрес: https://sciup.org/140286966
IDR: 140286966
Текст научной статьи Структурная схема блока распознавания речи в автоматизированной системе управления
Конец ХХ и начало XXI в. ознаменовались началом истории развития речевых технологий, важную роль в которых получили системы распознавания речи. Наиболее известными в этой области являются работы следующих авторов: Б. М. Лобанов, Т. К. Винцюк, А. В. Фролов, Л. Р. Рабинер, Р. В. Шафер, У. А. Ли, Д. Х. Клетт, Xuedong D. Huang, Hsiao-Wuen Hon, Alex Acero.
Тот период стал знаменательным для решения множества фундаментальных и прикладных задач в области обработки речевых сигналов - достаточно сослаться на далеко не полный перечень трудов зарубежных и российских ученых. Однако это не стало причиной притупления интереса, и работа в области обработки речевых сигналов ведется достаточно активно и в настоящее время.
Обработка речевых сигналов - это область науки, в которой осуществляются фильтрация, усиление и извлечение информации, кодирование, сжатие и восстановление речи. Обработка в системах распознавания речи включает следующие задачи:
-
V Фильтрация и подавление шума;
-
V Сегментация на информативные участки;
-
V Определение информативных параметров;
-
V Распознавание.
Каждая задача обработки речевых сигналов может быть реализована только с помощью определенных методов. В зависимости от области обработки методы следует разделить на три области: частотная, временная и частотновременная. [1]
Методы обработки в частотной области заключаются в использовании всех отсчетов данных, зарегистрированных в речевом сигнале. Многие речевые сигналы имеют специфический частотный состав и занимают характерные спектральные области. Методы обработки в частотно-временной области представляют собой методы, включающие все преимущества временного и частотного анализов с минимальными проявлениями их недостатков.
Проведенный обзор известных методов обработки речевых сигналов и собственные исследования выявили, что в зависимости от обработки методы следует разделить на группы, реализованные различными видами анализа:
-
V с использованием преобразования Фурье (ПФ);
-
V с использованием вейвлет-преобразования (ВП);
-
V с использованием декомпозиции на эмпирические моды (ДЭМ) и
- преобразования Гильберта - Хуанга (ПГХ);
-
V с использованием нейронных сетей (НС);
-
V с использованием скрытых марковских моделей (СММ);
V с использованием динамического трансформирования времени (ДТВ).
Приведенные в классификации методы нашли широкое применение в системах распознавания речи. [2]
Построение устройств распознавания речи для современных АСУ состоит из следующих основных задач:
V Выбор объектов или типов речевых единиц (фонемы, слоги, слова, морфемы, фразы);
V Выбор параметров описания речевых единиц и соответствующих методов интерпретации описаний;
V Проектирование программных средств реализации описаний выбранных объектов и распознавания.
Высокий уровень развития вычислительных средств позволяет решать задачи построения систем распознавания речи (СРР), с использованием большого числа параметров и методов, которые ориентированы на детальное изучение структуры речевого сигнала. [3]
Структурная схема блока анализа и обработки РС в существующих системах распознавания содержит следующие дополнительные этапы обработки параметров РС, которые повышают надежность распознавания: блоки выделения полезного сигнала, блоки фильтрации сигнала и его спектра, блоки сегментации РС. На вход блока распознавания поступает сегментированная последовательность параметров РС или спектральный образ (СО). В сегментированной последовательности спектрально-временных параметров (траектории параметров) предъявленного РС сегменты находятся в некоторой зависимости от параметров предшествующих и последующих сегментов, поэтому необходимо рассматривать непрерывные траектории в терминах параметров и в терминах сегментов для решения задачи на этапе распознавания.
Наибольшей надежностью обладает пословное распознавание. Для РЕ, поступающих на блок аппроксимации, необходимым условием является следующий факт: РЕ должны иметь такую длину и быть подобраны в таком количестве, чтобы из них можно было бы построить любые другие слова или предложения. [1,4]
На основе аналитического обзора представлена классификация существующих методов обработки речевых сигналов, применяемых в системах распознавания речи. Данная классификация позволяет объективно оценить возможности существующих методов обработки речевых сигналов и предварительно дать оценку возможности применения новых математических аппаратов в задачах обработки речевых сигналов в системах распознавания речи.
Список литературы Структурная схема блока распознавания речи в автоматизированной системе управления
- Мещеряков Р.В., Бондаренко В.П., Организация баз знаний в системе синтеза речи // Теория и практика речевых исследований (АРСО-99). Матер. конф. - М.: МГУ им. М.В. Ломоносова, 1999. - С. 37-38.
- Потапова Р.К. Речь: коммуникация, информация, кибернетика. - М.: Радио и связь, 1997. - 528 с.
- Трунин-Донской В.Н. Автоматический синтез звучащего текста // Звучащий текст. - М.: Институт научной информации по общественным наукам, 1983. - С. 218-250.
- Потапова Р.К. Речевое управление роботом. - М.: Радио и связь, 1989. - 246 с.