Вариация границ речевых команд для улучшения распознавания речевых команд по их кросскорреляционным портретам
Автор: Крашенинников Виктор Ростиславович, Лебедева Екатерина Юрьевна, Капырин Владимир Константинович
Журнал: Известия Самарского научного центра Российской академии наук @izvestiya-ssc
Рубрика: Механика и машиностроение
Статья в выпуске: 4-4 т.15, 2013 года.
Бесплатный доступ
Вероятность правильного распознавания речевых команд по некоторым их эталонам существенно снижается при ошибках определения границ распознаваемой команды. Предлагается способ уменьшения влияния этих ошибок путём варьирования оценок границ распознаваемых команд.
Распознавание речевых команд, кросскорреляционные портреты, вариация границ
Короткий адрес: https://sciup.org/148202401
IDR: 148202401
Текст научной статьи Вариация границ речевых команд для улучшения распознавания речевых команд по их кросскорреляционным портретам
В настоящее время большое распространение получили речевые информационно-управляю-щие системы. Целью таких систем является снижение нагрузки на оператора, например, пилота. Достигается это через ведение управления объектом на естественном для человека языке, с помощью речевых команд (РК). Подобные системы должны функционировать в условиях сильных акустических помех. Одним из методов реализующих распознавание РК в условиях интенсивных шумов, является метод распознавания РК по их кросскорреляционным портретам (ККП) [1]. Суть данного метода состоит в следующем [2].
Имеется словарь, состоящий из N РК: K1, K2, …, KN. Для каждой РК Kiв памяти хранятся два ее эталона. Каждый эталон представляет собой произнесение команды Ki одним диктором в разное время. Задача распознавания РК P является ее отнесение к одной из команд. Принадлежность РК P к классу Ki определяется в результате совмещения эталонного ККП и ККП распознаваемой РК по некоторой метрике d = р ( X , Y ) , определённой на парах ККП X = { x k } и Y = { У к } .Рас-познаваемая РК относится к классу Ki с наименьшим расстоянием. При этом ККП W(S1, S2) двух РК (сигналов) S1 и S2 представляет собой двумерное изображение, формируемое следующим образом. Обе РК S1 и S2 разбивается на M равных частей. Каждая m -я строка ККП является последовательностью выборочных коэффициентов корреляции r ( m , k ) m -го отрезка сигнала 5 1 и m -го отрезка сигнала 5 2 , сдвинутого на к отсчетов:
r ( m , k ) =
1 L 1-1
E s 1 ... 5 2, „—ц,-ц 1 ц 2 ( m • L 1 + j ) ( m • L 2 + k + j ) ~ mF m + k
'1 j = 0
J c 12 c t 22 , у m m + k
-
( k = 0.. K , m = 0... M - 2 ),
где L1 – длина m -го отрезка РК S1; L2 – длина m -го отрезка РК S2; ц 1 m и Ц 2m - выборочные средние, c 1 m и С 2 m — выборочные дисперсии этих отрезков.
В качестве эталонных ККП в памяти хранятся ККП W(Vi1, Vi2), i=1,…, N, где Vij – есть j-й эталон i-й команды (j=1,2, i=1…N) Для распознаваемой РК P строится N портретов W(Р,Vi1), и P относится к классу Ki , для которого минимально расстояние p (W ( P , V i 1 ), W(V i 1 , V i 2 )) .
Границы РК определяются с помощью некоторого алгоритма, при этом возможны ошибки – опережение или запаздывание, что отрицательно сказывается на вероятности правильного распознавания, так как от этих границ идет разбиение сигнала на отрезки и дальнейшее построение ККП. В данной работе предлагается использовать следующий способ снижения влияния неточной оценки границ путём их варьирования.
Таблица 1. Результаты распознавания команд
t (мс) |
Отношение сигнал/шум |
||||
5 |
4 |
3 |
2 |
1 |
|
0 |
90.65 |
85.75 |
82.1 |
71.4 |
54.1 |
10 |
94.65 |
91.35 |
88.4 |
77.45 |
62.6 |
20 |
96.1 |
89.7 |
89.2 |
81.0 |
62.9 |
30 |
94.15 |
91.9 |
90.1 |
81.5 |
63.65 |
40 |
94.75 |
90.55 |
88.45 |
81.2 |
63.65 |
50 |
94.25 |
90.5 |
86.6 |
80.3 |
60.45 |
70 |
90.85 |
86.7 |
81.0 |
71.3 |
58.25 |

Рис. 1. Зависимость частоты правильного распознавания от величины пробного сдвига границ команд при различном отношении сигнал/шум. 0, 10, 20, 30, 40, 50, 70 мс торых берём минимальное Di и принимаем его за расстояние между эталонным ККП и распознаваемой РК.
-
4) Относим распознаваемую РК к классу Ki с минимальным расстоянием Di .
В ходе эксперимента был использован словарь, состоящий из 20 РК авиационной тематики. В эксперименте принимали участие два диктора: мужчина и женщина. Каждая РК была произнесена по 50 раз обоими дикторами при различных отношениях сигнал/шум. В качестве сдвига t использовались временные промежутки: 0, 10, 20, 30, 40, 50, 70 мс. В табл. 1 приведён процент правильного распознавания РК при разных пробных сдвигах и отношениях сигнал/ шум. Жирным шрифтом в таблице выделены наибольшие частоты правильного распознавания для каждого отношения сигнал/шум.
На рис. 1 приведены графики зависимости частоты правильного распознавания от величины сдвига при каждом отношении сигнал/шум.
Оценка значимости полученных различий в проценте правильно распознанных РК была проведена с помощью критерия Стьюдента. С уровнем значимости 0,05 была принята гипотеза о том, что вероятность правильного распознавания при варьировании границ на 20-30мс боль- ше, чем без варьирования, то есть варьирование границ повышает вероятность правильного распознавания.
Дополнительно был проведен эксперимент, в котором в качестве пробного сдвига границ использовалась величина, равная процентной доле от длины РК: 1, 3, 5, 7, 10 и 15 %. В ходе эксперимента было получено увеличение процента правильного распознавания при использовании сдвиге на 3 и 5% по сравнению с распознаванием без сдвига.
Несмотря на то, что оба способа варьирования границ показали хороший результат, логичнее использовать временной сдвиг, чем процентный, так как ошибочное определение начала и конца РК никак не зависит от длины самой команды.
Таким образом, варьирование границ с временным интервалом предлагается использовать в методе распознавания РК по их ККП для увеличения вероятности правильного распознавания.
Список литературы Вариация границ речевых команд для улучшения распознавания речевых команд по их кросскорреляционным портретам
- Krasheninnikov V. R., Armer А.I., Kuznetsov V.V., Lebedeva E. Yu. Cross Correlation Portraits of Speech Signals in Modal Based Speech Recognition//Proceedings of 10th International Conference on Pattern Recognition and Image Analysis: New Information Technologies, PRIA 8 2007. St Petersburg, POLITECHNICA. 2010, Volume I. Pp. 105 108.
- Лебедева Е.Ю, Армер А.И., Ерофеев А.П. Алгоритм распознавания речевых команд в шумах по кросскор реляционным портретам с использованием Фурье преобразования//Радиотехника. Математическое моделирование инфокоммуникационных систем. Вып. 175, 2012. С. 41 44.