Распознавание и синтез речи

Бондаренко Е.В.; Клементьев С.А.; Bondarenko E.V.; Klementyev S.A.

Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Искусственный интеллект

Распознавание и синтез речи

Автор: Бондаренко Е.В., Клементьев С.А.

Журнал: Теория и практика современной науки @modern-j

Рубрика: Математика, информатика и инженерия

Статья в выпуске: 10 (28), 2017 года.

Бесплатный доступ

Статья посвящена обзору технологий распознавания и синтеза речи. Рассмотрены схемы процесса обработки информации в них как в двух изолированных системах, решающих прямую или обратную задачу. Описаны сферы применения в повседневной жизни.

Речевые технологии, синтез речи, распознавание речи, обработка речи

Короткий адрес: https://sciup.org/140270263

IDR: 140270263

Speech processing

This article provides an overview of recognition and speech synthesis technologies. The schemes of processing of information in them as the two isolated systems, the decisive direct or inverse problem. Describes the scope of application in everyday life.

Текст научной статьи Распознавание и синтез речи

Новые возможности, которые предоставляют речевые технологии в технических системах, стимулируют интенсивные исследования в области разработки систем автоматического распознавания и синтеза речевых сигналов. Многие специалисты, разрабатывающие новые информационные технологии, системы искусственного интеллекта и автоматизированные системы различного назначения, стремятся оснастить их средствами речевого ввода – вывода информации.

Речевые технологии эффективно применяют в самых различных сферах деятельности, например, в автомобильной промышленности, для управления функциями автомобиля с помощью голоса. Технологию автоматического распознавания речевых команд используют на заводах, новейшая разработка позволяет выделять речь человека при сильном производственном шуме и управлять техникой на предприятии. В медицине речевые технологии применяются для работы с людьми, которые имеют нарушения слуха или звукопроизношения. В банковской сфере используется технология голосового самообслуживания, которая предоставляет быстрый доступ клиентов к запрашиваемой информации. В настоящее время получает все большее распространение такое направление, как голосовая идентификация. Эта технология, подвергая анализу до 100 характеристик распознавания голоса, позволяет опознать определенного человека и обеспечивает ему доступ к сервисам банка. Это не только уменьшает скорость аутентификации клиента, но и увеличивает безопасность банковского счета.

Распознавание речи – это процесс преобразования речевого сигнала в цифровую информацию. Существуют две категории систем распознавания речи: системы распознавания слитной (связной) речи и системы распознавания изолированной (дискретной) речи. Системы распознавания слитной речи могут извлекать информацию из последовательностей слов, даже если эти слова следуют непрерывно одно за другим, как в обычной речи. Такие системы по уровню сложности занимают промежуточное положение между системами, предназначенными для распознавания коротких последовательностей цифр, и системами понимания речи. Системы распознавания изолированной речи требуют короткой паузы до и после каждого высказывания, которое должно рассматриваться как отдельный объект. Основное достоинство речевого ввода заключается в том, что он позволяет оператору быть мобильным и освобождает его глаза и руки для выполнения других операций. Распознавание речи является составной частью исследований, проводимых в более широкой области, которая получила название обработка речи. Эта область кроме распознавания речи включает в себя идентификацию говорящих с помощью ЭВМ, машинный синтез речи и воспроизведение хранящихся в ЭВМ речевых ответов, машинный анализ физического и психологического состояния говорящего, эффективную передачу устных разговоров, а также обнаружение речевых дефектов и помощь больным с нарушениями речи.

Синтез речи – процедура преобразования текста в речь. Задача этой операции состоит в том, чтобы озвучить текст, представленный на компьютере в виде символов. При синтезе для обеспечения высокого качества речи необходимы высокая скорость обработки данных и большая емкость памяти для хранения данных Синтез речи предполагает наличие определенных процедур (правил) модификации акустических характеристик каждой фонемы в зависимости от ее окружения, позиции в речевой единице, ударения, интонации и других факторов. Поэтому в системах синтеза речи по тексту чаще всего используют формантный синтез сигналов, позволяющий в широких пределах изменять акустические характеристики звуков и таким образом моделировать эффекты редукции фонем, управлять мелодическим, ритмическим и динамическим контурами речи. С использованием формантного синтезатора достигается высокое качество синтезированной речи, однако возможности дальнейшего совершенствования ограничиваются в настоящее время неполнотой моделей речеобразования как в целом, так и части моделирования индивидуальных свойств человеческого голоса.

Рассмотрим схемы преобразования информации для распознавания и синтеза речи. Каждая речевая система заранее подвергается анализу для обнаружения более информативных блоков, оказывающих большое влияние на результат. Согласно итогам анализа формируются аспекты, разделяющие информацию по степени важности. Все данные, необходимые для обработки, разделяют на базовый материал (словари и таблицы) и правила. Словари используют для не представленной в виде правил информации. Таблицы рационально применять для информации, однозначно определяемой объектом. По итогам анализа блоков генерации речевого сигнала выделены самые информативные. В них были составлены в виде правил все необходимые сведения с целью формирования речевого сигнала. Для реализации правил сформированы таблицы по требуемым входным данным. Основой таблиц считаются физические и информативные данные. Рисунок 1 отображает внутренние и внешние данные, которые применяются для формирования речевого сигнала. Приведенная блок-схема является методологической основой систем синтеза речи. Сведения, на которых основываются конфигурации и формируются свойства получаемых данных, находятся в блоках левой части. Информация об этапе обработки и итог его исполнения расположены в средней части. Итог акцентируется курсивом, а через дефис отражен показатель результата. Правилами языка характеризуются блоки правой части, входящие в блоки центральной и левой части в виде таблиц, условий регулярности и алгоритмов преобразования.

Рис. 1. Схема преобразования печатного текста в речевого сигнала

Универсальная модель синтеза речи аналогична распознаванию речевого сигнала. Различие заключается в том, что движение входных данных проходит в противоположном направлении. Рисунок 2 отображает внутренние и внешние данные, формирующие просодические характеристики. Приведенная схема описывает систему распознавания речевого сигнала для получения печатного текста на компьютере.

Рис. 2. Схема распознавания речевого сигнала для получения печатного текста

Информация, на основе которой формируются признаки и конфигурации, распределена в блоках левой части. Средняя часть схемы состоит из двух образующих: этап обработки информации и результат его исполнения, который акцентируется курсивом. Правилами языка характеризуются блоки правой части, входящие в блоки центральной и левой части в виде таблиц, условий регулярности и алгоритмов преобразования.

В заключении необходимо отметить, что системы автоматического распознавания и синтеза речи действительно вошли в нашу жизнь. Долгосрочная цель намеченных работ заключается в превращении устройства речевого ввода – вывода информации в обычный надежный канал связи с вычислительной машиной, по-настоящему полезной для пользователя. Исследования в области распознавания и синтеза речи могут стать мощным импульсом для развития вычислительной техники в будущем.

Список литературы Распознавание и синтез речи

Анализ и синтез речи. Сборник научных трудов. Лобанов Б.М. 1991.
Методы автоматического распознавания речи: Том 1. Пер. с англ./Под ред. У. Ли. Мир 1983. 328 с.
Структура систем синтеза и распознавания речи. Мещеряков Р.В. Известия Томского политехнического университета. Инжиниринг георесурсов. 2009. Т. 315. № 5. С. 127-132.