Некоторые задачи, связанные с распознаванием речевых команд на фоне интенсивных шумов
Автор: Крашенинников В.Р., Армер А.И., Крашенинникова Н.А., Кузнецов В.В., Хвостов А.В.
Журнал: Инфокоммуникационные технологии @ikt-psuti
Рубрика: Технологии компьютерных систем и сетей
Статья в выпуске: 1 т.6, 2008 года.
Бесплатный доступ
В статье рассматриваются подходы к решению ряда задач, возникающих при дикторозависимом распознавании речевых команд из ограниченного словаря в условиях интенсивных шумов. Распознавание основано на представлении речевых команд в виде особых изображений - автокорреляционных портретов. При этом возникают задачи выбора метрики в пространстве автокорреляционных портретов, учета вариативности произношения, определения границ команд и формирования библиотеки эталонов. Предлагаются алгоритмы, позволяющие получить решения этих задач за приемлемое время.
Короткий адрес: https://sciup.org/140191202
IDR: 140191202
Текст краткого сообщения Некоторые задачи, связанные с распознаванием речевых команд на фоне интенсивных шумов
В настоящее время имеется необходимость создания речевых информационно-управляющих систем для контроля и речевого управления различными механизмами на транспорте и в производстве в условиях особо интенсивных шумов. Основная возникающая при этом проблема – распознавание речевых команд (РК), произнесенных оператором. Несмотря на значительные успехи, достигнутые в области распознавания речи, проблема распознавания РК на фоне сильных шумов (при отношении сигнал/шум 0 дБ и ниже) далека от практически приемлемого решения.
При распознавании РК из фиксированного словаря обычно производится сравнение распознаваемой речевой команды (РРК) с эталонными командами (ЭК), и РРК относится к той ЭК, к которой она ближе в смысле некоторой метрики. При этом расстояние между РК находится в некотором пространстве признаков. В данной работе применяется преобразование РК в их автокорреляционные портреты (АКП), то есть в изображения, строки которых соответствуют выборочной автокорреляционной функции (АКФ) речевого сигнала (РС) в скользящем окне [1]. На вычисляемое расстояние между АКП существенно влияет наличие шума, что снижает качество распознавания. Отсюда возникает задача нахождения такой метрики в пространстве АКП, которая не очень чувствительна к шумам.
На качество распознавания РК по их эталонам в значительной мере влияет точность определения границ РРК, так как при неправильном определении границ РРК сдвинута по времени относительно ЭК, в результате появляется несоответствие звуков команд, и расстояние между ними определяется с большой ошибкой. Поэтому возникает задача повышения точности определения границ РРК, то есть обнаружения речевой активности на фоне помех.
В силу вариативности речи одни и те же РК произносятсякаждый разнесколькопо-разному даже одним и тем же диктором, поэтому одна ЭК недостаточно полно представляет РК. Для улучшения представления РК целесообразно использовать несколько ее ЭК, и чем их больше, тем лучше представление и распознавание, особенно на фоне шумов. Однако при большом количестве ЭК возрастают вычислительные затраты на распознавание. Кроме того, требуется время для начитывания команд диктором. Отсюда возникает задача формирования библиотеки, которая состоит из небольшого количества ЭК, и в то же время достаточно полно отражает вариативность их произношения. Кроме того, используя синонимы, можно подобрать такой набор РК, что различные команды будут значительно отличаться друг от друга по звучанию, а поэтому расстояния между ними станут больше и они будут лучше распознаваться.
В настоящей статье предлагаются методы и алгоритмы применения различных метрик при распознавании РК, обнаружения границ РС и формирования библиотеки ЭК. Использование этих разработок позволяет повысить вероятность правильного распознавания РК.
Анализ метрик в пространстве АКП
Как показали исследования, выбор метрики в пространстве АКП значительно влияет на качество распознавания РК, особенно при сильных шумах.
Расстояние между двумя АКП определяется следующим образом. Пусть ρ i, j – расстояние от i -й строки первого АКП до j -й строки второго АКП. Методом динамического программирования находится соответствие между строками двух АКП, при котором суммарное расстояние между строками было минимально. Этот минимум и принимался за расстояние между АКП команд, то есть за меру их различия.
Экспериментально на реальном речевом материале было опробовано несколько метрик ρ i, j , приведем три из них, которые показали лучшие результаты.
Метрика 1. Сумма квадратов разностей:
N pi, j=Z (g ik - hjk )2
k = 1
где g ik – значение k -го отсчета в i -й строке первого АКП; h jk – значение k -го отсчета в j -й строке второго АКП; N – количество отсчетов в строке АКП.
Метрика 2. Сумма модулей разностей:
N
Pi,j = Zlgik " hjk\ k =1
Метрика 3. Гильбе ртова метрик а:
N a,-10 Z (gik - j r
k=1
В эксперименте был использован словарь из 123 РК авиационной тематики. Каждая РК при распознавании была произнесена 6 раз, то есть всего было произведено 738 распознаваний. К РРК был адди-тивнодобавленреальныйшум,записанныйвкабине работающего самолета при отношении сигнал/шум около 0,5; то есть помехи были очень сильными. В таблице 1 приведены результаты эксперимента.
Таблица 1. Зависимость качества распознавания РК от метрики
Номер метрики |
Процент правильно распознанных команд |
Процент неправильно распознанных команд |
1 |
77,03 |
20,70 |
2 |
79,44 |
16,25 |
3 |
70,06 |
26,39 |
Процент неправильно распознанных команд не является дополнением процента правильно распознанных команд до ста, так как были еще и не распознанные команды.
Таким образом, из апробированных метрик лучшие характеристики имеет сумма модулей разностей, то есть манхэттенова метрика.
Обнаружение границ речевого сигнала
Поскольку предполагается, что шумы очень сильные, то для обнаружения границ РК используется дополнительный акустический канал с опорным шумом (сигнал xn). Опорный шум может быть зарегистрирован с дополнительного микрофона, расположенного в той же шумной акустической среде на некотором удалении от микрофона, ре- гистрирующего РК в смеси с шумом (сигнал yn). Оба сигнала предполагаются центрированными.
Если РС отсутствует, то случайные процессы xn и yn имеют приблизительно одинаковые свойства, так как они являются двумя регистрациями одного и того же шума. Когда оператор говорит, процесс yn содержит в себе еще и РС, поэтому во время речевой активности процессы xn и yn должны иметь несколько разные свойства (разладка), так как речь и шум предполагаются различными по своим характеристикам. На обнаружении этой разницы и должны быть основаны детекторы речевой активности. Экспериментально на реальных РС и шумах было опробовано несколько методов, лучшими из которых оказались следующие методы.
Метод 1. Линейная интерполяция. В скользящем окне находилась оптимальная линейная оценка ~ x n = aX n процесса xn по шаблону X n = ( x n - 2 , x n - 1 , x n + 1 , x n + 2 ) из четырех ближайших соседей, где a – весовой вектор именно для процесса xn . Если a использовать для интерполяции процесса yn , то он будет близок к оптимальному вектору для этого процесса во время отсутствия РС и не будет оптимальным, когда РС имеется. Поэтому в моменты речевой активности ошибки интерполяции ~y n = a Y n должны увеличиваться. Обнаружение производится по скачку отношения средних модулей ошибок интерполяции процессов xn и yn . Отношение выбрано потому, что оно инвариантно к флуктуации уровня шума.
Метод 2. Отличается от метода 1 тем, что процессы xn и yn меняются местами.
Метод 3. Этот метод отличается от первого метода способом нахождения весового вектора интерполяции. Здесь этот вектор a n переменный и находится с помощью адаптивной псевдоградиентной процедуры в порядке поступления процесса xn с задержкой всего на два отсчета.
Метод 4. Оценка квазипериодов в двух каналах. Для процессов xn и yn в скользящем окне оцениваются их квазипериоды t по критерию Zl Zn + t + i " zn +tl = min , гДе z - процесс x или У . Е i сли эти квазипериоды существенно различаются между собой,то принимается решение о наличии РС.
Метод 5. Количество переходов через ноль. Решение о наличии РС принимается, если эти количества для двух процессов в скользящем окне существенно различаются.
Метод 6. Кросскорреляция Пирсона. В скользящем окне вычисляется статистика cov( x n , y n + r )/ a x a y . В моменты наличия РС она должна снижаться.
Метод 7. Кросскорреляция Спирмена. Аналогичен методу 6 со статистикой
1 - 6 ^ (X i - y i ) 2 /( N 3 - N ) .
i
Метод 8. Вейвлет-декомпозиция. В этом методе используется разложение в скользящих окнах последовательностей xn и yn по схеме дерева с использованием вейвлетов Добеши. Статистикой является / У, ( X 7 — Y- 7 ) 2
i .
Метод 9. Спектральное разложение Фурье. Статистикой является расстояние между амплитудными спектрами процессов в диапазоне 300–3400 Гц.
Метод10.Вычисляетсяотношениеэнергий(сумм квадратов значений) процессов в скользящем окне.
Метод 11. Вычисляется сумма квадратов разностей процессов в скользящем окне.
В эксперименте все эти методы были применены к одним и тем же РК при отношении сигнал/шум 1…3 дБ и частоте дискретизации 11025 Гц. В таблице 2 приведены полученные СКО ошибок (в количестве отсчетов) обнаружения начала и конца РК.
Таблица 2. СКО ошибок обнаружения РК
Номер метода |
1 |
2 |
3 |
4 |
5 |
6 |
Начало |
152 |
318 |
349 |
726 |
1391 |
2100 |
Конец |
933 |
758 |
1342 |
1874 |
986 |
700 |
Таблица 2 (продолжение)
Номер метода |
7 |
8 |
9 |
10 |
11 |
Начало |
219 |
523 |
223 |
162 |
244 |
Конец |
878 |
857 |
921 |
991 |
771 |
Так как среди предложенных методов невозможно выявить лучший, предлагается использовать комбинацию методов. Точкой начала РК будем считать самую раннюю из обнаруженных в интервале 3000 отсчетов. Это объясняется тем, что чаще всего начало команды обнаруживается с опозданием. Точку конца команды определим как средний номер среди обнаруженных номеров отсчетов для конца команды в том же интервале.
Таким образом, использование комбинации методов 1-3, 7-11 позволяет добиться более стабильного обнаружения границ РК. Средне-квадратическая ошибка обнаружения начала команды составляет 181 отсчет, конца команды – 866 отсчетов.
Формирование библиотеки эталонов
Рассматриваемые в этом разделе методы формирования библиотеки ЭК пригодны для любой метрики, используемой для распознавания. Поэ- тому предполагается только, что для любой пары РК определено расстояние между ними.
Желательно, чтобы используемые РК находились на возможно больших расстояниях друг от друга, что достигается выбором синонимов РК. В [2-3] определены расстояния между фонемами русского и английского языков в смысле описанной выше метрики. Это позволяет определить приблизительные расстояния между любыми словами (и РК) в этих языках. Далее следует подобрать наиболее подходящий набор синонимов, что можно сделать описанными ниже методами.
В [4] предложен метод имитации произнесений команды из одного ее реального произнесения диктором. Этот метод основан на использовании авторегрессионных моделей изображений и считывании сигналов вдоль траекторий на имитированных изображениях. Это решает проблему получения множества вариантов произнесения РК, из которых далее следует выбрать небольшой, но представительный набор эталонов этой РК.
Сформулируем решаемую задачу. Словарь состоит из m РК: {C 1 , C 2 ,..., C m } . Для каждой РК C i имеется множество ее произнесений P i = { P i1 , P i2 ,•••, P in } . Для любых элементов pU j и p j из P = P 1 и ... и P m определено расстояние d( p, , p j ) . Из каждого множества P i требуется выбрать подмножество ЭК E i = { ea , e i 2 ,..., e ik } c P, . Это подмножество будет использоваться при распознавании, поэтому оно должно как можно лучше представлять все множество произнесений. Для этого среднее расстояние
1 m
d = У У min^d(P , e), e G Ei }
M i =1 peP i
M = ni + П2 +... + nm - km, от элементов P до ближайших ЭК должно быть минимальным. Кроме того, для лучшей распознаваемости ЭК следует выбирать так, чтобы ЭК разных команд отличались между собой как можно больше. Отсюда следует требование, чтобы среднее расстояние между эталонами разных команд,
D = -1-УУ rnin{d(e,f),f g Ei}, mk i e∈Ei наоборот, было как можно больше. Поэтому введем объединенный критерий качества выбора библиотеки ЭК в виде функции
U =d/D.
Оптимальной библиотеке соответствует минимум функции U .
Сформулированная задача может быть решена полным перебором, что неприемлемо уже при небольшом количестве произношений. Далее в данной статье предлагается несколько квазиоп-тимальных алгоритмов решения этой задачи с приемлемым объемом вычислений.
Алгоритм улучшения имеющегося решения [5-6]. Сначала случайным образом выбирается первоначальный набор эталонов E , для которого вычисляется соответствующее значение критерия U . Затем производится перебор всех вариантов замены первой ЭК первой РК на неэталонные РК. Лучший из E и этих вариантов запоминается. Затем производятся пробы замены второй ЭК и так далее. Потом таким же образом производятся пробы замены эталонов всех остальных РК. Описанная процедура улучшения набора ЭК производится три раза.
Гравитационный алгоритм. [5-6] Пусть произношения представлены как точки m -мерного Евклидова пространства с обычной метрикой. Примем их за материальные точки с единичной массой в вязкой среде. Тогда эти точки будут испытывать взаимное притяжение с сопротивлением среды. Точки, расположенные ближе друг к другу, притягиваются сильнее, быстрее сближаются и соединяются в кластеры. Между точками из разных РК вводится отталкивание. При этом в процессе движения точек отмечаются k самых крупных кластеров, а в каждом из этих кластеров наиболее близкая к центру тяжести точка принимается за ЭК.
Этот эвристический алгоритм прост в реализации, требует немного памяти – требуется хранить только текущие координаты и скорости движущихся точек. Вязкость среды имитируется умножением достигнутой на каждой итерации скорости точки на коэффициент c < 1.
Алгоритмы нечеткой кластеризации. Задача, рассматриваемая в данной статье, близка по смыслу к задаче нечеткой кластеризации [7]. В ней также требуется разбить некоторые элементы на классы (кластеры), но принадлежность элемента к каждому из кластеров нечеткая, то есть элемент в какой-то мере принадлежит всем кластерам. С небольшими изменениями алгоритмы нечеткой кластеризации (в частности, генетические) были применены для формирования библиотеки ЭК.
Проведенные эксперименты показали, что вероятность правильного автоматическое распознавания РК была выше, если ЭК выбирались не произвольно, а с помощью описанных алгоритмов, поскольку при таком выборе наборы ЭК полнее представляли разнообразность произношения.
Заключение
Предложенные методы и алгоритмы решения задач, связанных с распознаванием РК на фоне интенсивных шумов, позволяют существенно повысить вероятность их правильного распознавания при низких вычислительных затратах, что позволяет создавать речевые информационно-уп-равляющие системы, надежно работающие в условиях интенсивных шумов. Работа выполнена при поддержке гранта РФФИ а 06-08-00810.
Список литературы Некоторые задачи, связанные с распознаванием речевых команд на фоне интенсивных шумов
- Крашенинников В.Р., Армер А.И. Распознавание речевых сигналов на фоне шумов//Распознавание образов и анализ изображений: новые информационные технологии. Труды МНК РОАИ-7. СПб.: 2004. -С. 752-755.
- Крашенинникова Н.А., Армер А.И. Различимость авторегрессионных портретов основных фонем русского языка при распознавании речевых команд//Ученые записки УлГТУ. Вып. 1(11), часть 1, 2006. -С. 25-28.
- Крашенинникова Н.А. К вопросу о распознавании речевых команд в информационно-управляющих системах//Электронная техника. Сборник научных трудов. УлГТУ, 2006. -С. 77-83.
- Krasheninnikov V.R., Armer A.I. The Speech Commands Variability Simulation//Proceedings of International Concurrent Engineering, International Society for Productivity Enhancement (ISPE), Dallas, USA, 2005. -P 387-390.
- Крашенинников В.Р., Крашенинникова Н.А., Кузнецов В.В. Алгоритмы выбора эталонов речевых команд при распознавании речи//Труды 62-й научной сессии, посвященной Дню радио. М.: НТО РЭС им. А.С. Попова, 2007.-С. 158-159.
- Крашенинников В.Р., Кузнецов В.В., Распутько Е.А. Алгоритм выбора эталонов в заданном конечном множестве элементов//Вестник УлГТУ, № 3, 2006. -С. 37-39.
- Вельмисов А.П. Алгоритм нечеткой кластеризации//Труды Средневолжского математического общества. Саранск: СВМО, Т.8, №1, 2006.-С. 192-197.