Структурная схема блока распознавания речи в автоматизированной системе управления

Автор: Тохиров Р., Тургунов Б., Мухаммаджонов Х.

Журнал: Форум молодых ученых @forum-nauka

Статья в выпуске: 7 (35), 2019 года.

Бесплатный доступ

Работа в области обработки речевых сигналов ведется достаточно активно. Представлены аналитический обзор и классификация существующих методов обработки, применяемых в системах распознавания речи.

Обработка речевых сигналов, распознавание речи, голосовое управление

Короткий адрес: https://sciup.org/140286966

IDR: 140286966

Текст научной статьи Структурная схема блока распознавания речи в автоматизированной системе управления

Конец ХХ и начало XXI в. ознаменовались началом истории развития речевых технологий, важную роль в которых получили системы распознавания речи. Наиболее известными в этой области являются работы следующих авторов: Б. М. Лобанов, Т. К. Винцюк, А. В. Фролов, Л. Р. Рабинер, Р. В. Шафер, У. А. Ли, Д. Х. Клетт, Xuedong D. Huang, Hsiao-Wuen Hon, Alex Acero.

Тот период стал знаменательным для решения множества фундаментальных и прикладных задач в области обработки речевых сигналов - достаточно сослаться на далеко не полный перечень трудов зарубежных и российских ученых. Однако это не стало причиной притупления интереса, и работа в области обработки речевых сигналов ведется достаточно активно и в настоящее время.

Обработка речевых сигналов - это область науки, в которой осуществляются фильтрация, усиление и извлечение информации, кодирование, сжатие и восстановление речи. Обработка в системах распознавания речи включает следующие задачи:

  • V   Фильтрация и подавление шума;

  • V   Сегментация на информативные участки;

  • V    Определение информативных параметров;

  • V    Распознавание.

Каждая задача обработки речевых сигналов может быть реализована только с помощью определенных методов. В зависимости от области обработки методы следует разделить на три области: частотная, временная и частотновременная. [1]

Методы обработки в частотной области заключаются в использовании всех отсчетов данных, зарегистрированных в речевом сигнале. Многие речевые сигналы имеют специфический частотный состав и занимают характерные спектральные области. Методы обработки в частотно-временной области представляют собой методы, включающие все преимущества временного и частотного анализов с минимальными проявлениями их недостатков.

Проведенный обзор известных методов обработки речевых сигналов и собственные исследования выявили, что в зависимости от обработки методы следует разделить на группы, реализованные различными видами анализа:

  • V    с использованием преобразования Фурье (ПФ);

  • V    с использованием вейвлет-преобразования (ВП);

  • V    с использованием декомпозиции на эмпирические моды (ДЭМ) и

  • преобразования Гильберта - Хуанга (ПГХ);
  • V    с использованием нейронных сетей (НС);

  • V с использованием скрытых марковских моделей (СММ);

V с использованием динамического трансформирования времени (ДТВ).

Приведенные в классификации методы нашли широкое применение в системах распознавания речи. [2]

Построение устройств распознавания речи для современных АСУ состоит из следующих основных задач:

V    Выбор объектов или типов речевых единиц (фонемы, слоги, слова, морфемы, фразы);

V    Выбор параметров описания речевых единиц и соответствующих методов интерпретации описаний;

V    Проектирование программных средств реализации описаний выбранных объектов и распознавания.

Высокий уровень развития вычислительных средств позволяет решать задачи построения систем распознавания речи (СРР), с использованием большого числа параметров и методов, которые ориентированы на детальное изучение структуры речевого сигнала. [3]

Структурная схема блока анализа и обработки РС в существующих системах распознавания содержит следующие дополнительные этапы обработки параметров РС, которые повышают надежность распознавания: блоки выделения полезного сигнала, блоки фильтрации сигнала и его спектра, блоки сегментации РС. На вход блока распознавания поступает сегментированная последовательность параметров РС или спектральный образ (СО). В сегментированной последовательности спектрально-временных параметров (траектории параметров) предъявленного РС сегменты находятся в некоторой зависимости от параметров предшествующих и последующих сегментов, поэтому необходимо рассматривать непрерывные траектории в терминах параметров и в терминах сегментов для решения задачи на этапе распознавания.

Наибольшей надежностью обладает пословное распознавание. Для РЕ, поступающих на блок аппроксимации, необходимым условием является следующий факт: РЕ должны иметь такую длину и быть подобраны в таком количестве, чтобы из них можно было бы построить любые другие слова или предложения. [1,4]

На основе аналитического обзора представлена классификация существующих методов обработки речевых сигналов, применяемых в системах распознавания речи. Данная классификация позволяет объективно оценить возможности существующих методов обработки речевых сигналов и предварительно дать оценку возможности применения новых математических аппаратов в задачах обработки речевых сигналов в системах распознавания речи.

Список литературы Структурная схема блока распознавания речи в автоматизированной системе управления

  • Мещеряков Р.В., Бондаренко В.П., Организация баз знаний в системе синтеза речи // Теория и практика речевых исследований (АРСО-99). Матер. конф. - М.: МГУ им. М.В. Ломоносова, 1999. - С. 37-38.
  • Потапова Р.К. Речь: коммуникация, информация, кибернетика. - М.: Радио и связь, 1997. - 528 с.
  • Трунин-Донской В.Н. Автоматический синтез звучащего текста // Звучащий текст. - М.: Институт научной информации по общественным наукам, 1983. - С. 218-250.
  • Потапова Р.К. Речевое управление роботом. - М.: Радио и связь, 1989. - 246 с.
Статья научная