Основные факторы, мешающие распознаванию речевых команд

Автор: Крашенинникова Наталья Александровна

Журнал: Симбирский научный Вестник @snv-ulsu

Рубрика: Филология

Статья в выпуске: 1 (3), 2011 года.

Бесплатный доступ

В статье дан краткий анализ основных факторов, влияющих на распознавание речевых команд. Среди них основными являются высокая вариативность речевых сигналов, акустические помехи, неточное определение границ речевых команд и др. Для более точного распознавания предлагается использовать эталоны речевых команд.

Речевой сигнал, речевая команда, библиотека эталонов речевых команд, вариативность, помехи

Короткий адрес: https://sciup.org/14113570

IDR: 14113570

Текст научной статьи Основные факторы, мешающие распознаванию речевых команд

В настоящее время большое распространение имеют различные информационно-управляющие системы. Эти системы особенно удобны, когда оператор может общаться с ними естественным для себя образом — на родном языке с помощью речевых команд (РК). Поэтому большое внимание исследователей уделяется созданию речевых информа-ционно-управляющих систем (РИУС). Такие системы особенно полезны на транспорте и производстве, когда требуется управлять исполнительными механизмами, получать информацию об их состоянии и окружающей обстановке и снизить нагрузку на оператора. Подобные системы должны функционировать в условиях интенсивных помех (шума двигателя, ветра и т. д.). Поэтому актуальны исследования в области распознавания РК на фоне сильных шумов. В настоящее время существуют системы распознавания РК, работоспособные при малых шумах, однако они не пригодны в шумной среде. В связи с этим распознавание РК на фоне интенсивных шумов является важной научно-технической проблемой.

В условиях сильных шумов обычно применяется дикторозависимое распознавание РК с использованием библиотеки эталонов речевых команд (ЭРК), и, как показывают эксперименты, качество распознавания в существенной мере зависит от того, насколько удачно сформирована эта библиотека.

Эта библиотека должна отражать изменчивость (вариативность) произнесения РК и не быть слишком большой, то есть каждая РК не должна иметь много эталонов. Задача выбора эталонных элементов рассматривается в теории распознавания образов и имеет много общего с задачей кластеризации (тогда эталоны — центры кластеров). Однако задача кластеризации рассматривалась в основном для элементов в некотором пространстве количественных признаков. Центр кластера (эталон) при этом обычно не обязательно является элементом этого кластера, это какой-то усреднённый элемент. В то же время существуют работоспособные алгоритмы распознавания РК, для которых не удается указать евклидово пространство признаков. В таких алгоритмах для каждой пары РК некоторым образом вычисляется степень их «несхожести», то есть некоторое подобие метрики (расстояния) между этими РК. Алгоритм относит распознаваемую РК к ближайшему эталону распознаваемой команды (ЭРК) в смысле этой метрики. Поэтому актуальной задачей является разработка методов формирования библиотеки ЭРК для таких алгоритмов распознавания. Особенность здесь в том, что заданы только расстояния между РК, и в качестве эталонов можно брать только имеющиеся РК.

При проектировании РИУС иногда бывает возможным выбор словаря, то есть самих РК, из множества допустимых синонимов. Отсюда возникает задача оптимизации этого словаря. Команды поступают с микрофона в РИУС и распознаются следующим образом. Из поступающего акустического сигнала выделяются участки, содержащие РС, затем выполняется распознавание выделенных команд. При этом в базе данных хранятся эталоны всех возможных команд (библиотека ЭРК), заранее произнесенных тем же самым диктором.

Таким образом, задача распознавания РК заключается в идентификации поступившего слова или словосочетания отнесением его к ближайшему эталону (при этом РК может иметь и несколько ЭРК). Возможны также случаи, когда РК не идентифицируется (произнесена неразборчиво, слишком большие помехи или поступившая команда отсутствует в библиотеке). В таких случаях РИУС просит повторить нераспознанную РК.

Об актуальности названных задач свидетельствует ряд научных федеральных программ, направленных на их решение, в частности, «Исследования и разработки по приоритетным направлениям развития науки и техники» Федерального агентства по науке и инновациям, «Теория человеко-машинных систем управления» РФФИ и др.

Существует несколько бытовых систем распознавания РК в условиях пониженного шума. К ним относятся, например, Via Voice фирмы IBM, распознающая правильно в среднем 97 % РК при словаре до 2000 РК; Naturally Speaking фирмы Dragon Systems, показывающая в среднем 70 % правильного распознавания при словаре до 60000 слов; Voice Xpress фирмы Lernout and Hauspie, показывающая 90—98 % при словаре до 1000 слов и другие подобные системы. Из отечественных разработок известна система VoiceCom фирмы ООО «Центр речевых технологий», способная правильно распознавать 100—200 команд в дикторозависимом и 30—50 РК в дикторонезависимом варианте с вероятностью до 98 %. Однако работоспособность этих систем резко снижается в условиях даже небольших акустических шумов.

Надежные системы распознавания РК из ограниченного словаря в условиях акустических помех в настоящее время разрабатываются в основном для авиации и используются в приборах речевого управления и контроля полета. Эти системы правильно распознают от 90 до 98 % РК в зависимости от условий испытания и размера словаря. Практически все испытываемые системы дикторозависимые. По данным лаборатории Wright Laboratory авиабазы Wright-Patterson, проводимые в 1996 году летные испытания систем распознавания речевых команд VRS-1290 фирмы ITT и VAT31 фирмы Verbex показали следующие результаты: VRS-1290 — 92—98 % правильного распознавания при словаре 50 команд, VAT31 — до 97 % (данные о размере словаря отсутствуют). В 1997 году были получены результаты летных испытаний системы распознавания РК канадской организации National Research Council. Система была встроена в навигационную систему Avionics Management System вертолета Bell 412HP и показала в среднем 95 % правильного распознавания при словаре в 80 слов, разбитых на 24 группы. По данным о системе Speech Recognition Module фирмы Smiths Industries, встроенной в блок CAMU истребителя Eurofighter, правильность распознавания команд в типовом полете не менее 95 % при словаре в 250 слов, 25 из которых могут быть одновременно активны. В настоящее время для истребителей Rafale фирмой Thales Avionics разрабатывается система распознавания РК с требуемыми характеристиками точности распознавания выше 95 % при словаре 50—300 слов. Из отечественных разработок известны данные о системе распознавания РК, испытания которой проводились на самолете МиГ-29 и показали результаты 56-81 % правильного распознавания при скоростях полета 500—900 км/ч (80-90 % оборотов двигателя), данные о количестве команд в словаре отсутствуют.

Довольно большое различие в точности работы систем и нестабильное качество распознавания РК обусловлено многими факторами.

Основными среди них являются следующие :

  •    Высокая вариативность речевых сигналов (РС)

Произнося одно и то же слово или фразу в разное время, под влиянием различных факторов, в том числе эмоционального состояния, состояния здоровья, физического состояния (усталость), человек генерирует сигналы, заметно не совпадающие по спектрально-временным характеристикам. Также наблюдается коартикуляционная нестацио-нарность РС — изменчивость характеристик взаимопроникновения соседних звуков РС, вызванная изменением темпа и уровня произнесения. Кроме того, замечено, что звуки речи не имеют четких границ, многие звуки «слипаются». Высокая изменчивость голоса диктора снижает качество распознавания, так как отражается в представлении РК и затрудняет ее соотнесение с ЭРК.

В зависимости от условий и темы разговора человек произносит слова с разной скоростью, которая зависит не только от механических характеристик речеобразующей системы, но и от состояния нервной системы и чувства времени. В экспериментах [1] были получены следующие характеристики временной изменчивости: общая длительность фраз — до 11 %, длительность отдельных сегментов — до 34 % для одного диктора. В английском языке вариации длительности коротких фраз составляют примерно 15 % при изменчивости длительности звуков до 33 %. Установлено, что наибольшая временная изменчивость наблюдается у гласных звуков — до 40 %.

Шум высокой интенсивности влияет на диктора, вызывая изменения в характере произношения РС. В условиях сильных помех говорящий изменяет громкость и другие параметры речи, чтобы обеспечить достаточно надежное ее понимание. Таким образом, речь, воспроизводимая в шумной среде, существенно отличается по характеристикам от речи, воспроизводимой тем же лицом в спокойной обстановке. Данный эффект получил название ломбард-эффект, или эффект Ломбера.

Вариативность РС является, пожалуй, главным мешающим фактором при распознавании речи, поэтому для повышения качества распознавания необходимо ослабить влияние этого фактора. В нашем исследовании предпринята попытка достижения этой цели с помощью выбора библиотеки ЭРК, эталоны которой в значительной мере представляют разнообразность произнесения РК.

Отметим, что для пилотов предполагается проводить специальные упражнения по увеличению стабильности их речи, что нужно и для связи с диспетчерской службой, и для использования РИУС.

  •    Акустические помехи с меняющимися параметрами и помехи в микрофонах и каналах связи

Распознавание РК часто происходит в условиях очень сильных шумов. Например, об- щая интенсивность шума в кабине во время маневров самолета может достигать 120 дБ — это уже болевой уровень. Негативное влияние шумов на распознавание состоит в том, что они искажают параметры РК. На одинаковых полосах частот РС и шума спектр шума маскирует спектр РС. При этом качество распознавания в зависимости от интенсивности шума может снизиться на 10—40 %.

Помехи в канале передачи речевого сигнала возникают из-за искажений и шумов от бортового оборудования и работающих двигателей. Кроме того, большое значение для распознавания РК имеют характеристики микрофона. Изменение чувствительности микрофона, полосы пропускания частот, а также диаграммы направленности существенно влияют на качество распознавания РК. Важную роль играет выбор расположения микрофона, а также однородность характеристик микрофонов, применяемых при создании ЭРК и непосредственно используемых при распознавании.

Наличие шума (даже ослабленного фильтрацией) в распознаваемой РК делает её непохожей на эталон, так как ЭРК обычно подготавливаются при отсутствии помех, отсюда и снижение качества распознавания. Для уменьшения этой несхожести применяется, в частности, зашумление «чистых» ЭРК сиюминутным шумом, поступающим с микрофона, находящегося в непосредственной близости от оператора [2].

  •    Неточное обнаружение границ РК в сигнале, особенно при сильных помехах

Для сравнения поступающих РК с ЭРК необходима высокая точность соответствия их границ. Несовпадение границ распознаваемой РК и ЭРК может привести к ошибкам их сравнения, отсюда существенное снижение качества распознавания. Определение границ РК в поступающей смеси РС с интенсивным шумом очень важно для распознавания и является частным случаем задачи обнаружения сигналов на фоне помех.

Отметим, что в рассматриваемой задаче распознавания, когда РК сравнивается с эталоном, не обязательно точное определение границ РК в поступающем сигнале. Достаточно добиться того, чтобы фрагмент ЭРК точно соответствовал выделенному фрагменту РК. Например, если от команды «Кислород» при её обнаружении получился «ислород», то распознавание лучше производить с таким же урезанным эталоном. То же самое относится и преждевременному обнаружению. Таким образом, небольшие синхронные ошибки в определении границ РК и соответствующей ЭРК допустимы. Значительной синхронности можно достичь, если производить определение границ РК и ЭРК при одинаковой их зашумлённости. Для этого чистые ЭРК искажаются имитированным или же имеющимся в данный момент реальным шумом [3].

  • 1.    Крашенинников В. Р., Армер А. И. Зашумление эталонов в задачах обнаружения и распознавания сигналов на фоне помех // Вестник УлГТУ. 2004. Апр.-июнь. № 2(26). Ульяновск: УлГТУ, 2004. С. 54—57.

  • 2.    Сорокин В. Н. Временные параметры элементов русской речи // Речевая информатика: сб. тр. / под ред. В. В. Зяблова. М.: Наука, 1989. С. 5—33.

  • 3.    Krasheninnikov V. R., Armer A. I., Khvostov A. V. The method of patterns preparing for recognition of speech signals on the background of noise // 8th International conference on pattern recognition and image analysis: New information technologies, PRIA-8-2007. Conference proceedings. Vol. 1. Yoshkar-Ola, 2007. P. 36—38.

Список литературы Основные факторы, мешающие распознаванию речевых команд

  • Крашенинников В. Р., Армер А. И. Зашумление эталонов в задачах обнаружения и распознавания сигналов на фоне помех//Вестник УлГТУ. 2004. Апр.-июнь. № 2(26). Ульяновск: УлГТУ, 2004. С. 54-57.
  • Сорокин В. Н. Временные параметры элементов русской речи//Речевая информатика: сб. тр./под ред. В. В. Зяблова. М.: Наука, 1989. С. 5-33.
  • Krasheninnikov V. R., Armer A. I., Khvostov A. V. The method of patterns preparing for recognition of speech signals on the background of noise//8th International conference on pattern recognition and image analysis: New information technologies, PRIA-8-2007. Conference proceedings. Vol. 1. Yoshkar-Ola, 2007. P. 36-38.
Статья научная