Обнаружение речевой активности на фоне помех по изменению квазипериода в двухканальной схеме регистрации звукового сигнала
Автор: Крашенинников Виктор Ростиславович, Ерофеев Александр Павлович, Капырин Владимир Константинович
Журнал: Известия Самарского научного центра Российской академии наук @izvestiya-ssc
Рубрика: Физика и электроника
Статья в выпуске: 4-3 т.14, 2012 года.
Бесплатный доступ
Исследуется способ обнаружения речевой активности по разности длин квазипериодов в двух каналах регистрации звукового сигнала. В одном из каналов регистрируется только шум, а в другом возможно наличие речевого сигнала. Анализируется эффективность данного метода при различных алгоритмах оценивания квазипериода.
Речевая активность, каналы регистрации, звуковой сигнал
Короткий адрес: https://sciup.org/148201286
IDR: 148201286
Текст научной статьи Обнаружение речевой активности на фоне помех по изменению квазипериода в двухканальной схеме регистрации звукового сигнала
двигателя самолёта), поэтому они могут иметь некоторые близкие характеристики, когда РС в первом канале отсутствует. При наличии РС можно ожидать возникновения разницы этих характеристик в первом канале по отношению ко второму. Наличие значимой разницы является признаком речевой активности.
В качестве одной из таких характеристик в [3] использована длина квазипериода сигнала в скользящем окне. Во многих практических случаях акустические шумы на небольших отрезках времени являются квазипериодическими сигналами. То же самое относится и к РС, при этом длины квазипериодов шума и РС обычно не совпадают, поэтому при возникновении речевой активности в первом канале может заметно изменить квазипериод суммарного сигнала. Это позволяет использовать разницу между длинами квазипериодов сигналов в двух каналах как признак наличия речевой активности. Оценка квазипериода в [3] находилась по минимуму суммы модулей разностей отсчётов сигнала со сдвигом на пробный период, то есть в качестве оценки Т квазипериода принималась точка минимума статистики
N
S,(Т ) = Ж - z n , Т I , (1) n = 1
где T – пробный период, N – длина скользящего окна. Решение о наличии речевой активности в скользящем окне принималось, когда разница между оценками квазипериодов сигналов в двух каналах превышала установленный порог.
Кроме оценки квазипериода по статистике (1), существует ряд других методов [4]. В настоящей работе исследуется эффективность обнаружения речевой активности по разнице квазипериодов при использовании различных мето-
Таблица. СКО ошибки обнаружения начала и конца речевых команд
Соотношени е сигнал/шум |
Метод |
Минимум суммы модулей разности |
Максимум ковариации |
Пик спектра |
Преобразование Брукса |
3 |
Начало команды |
2074 |
1978 |
2981 |
2303 |
Конец команды |
4241 |
2822 |
3305 |
3620 |
|
1 |
Начало команды |
5937 |
5380 |
8856 |
6548 |
Конец команды |
9907 |
9103 |
9000 |
9478 |
TWO-CHANNEL VOICE ACTIVITY DETECTION
IN NOISE BASED ON VARIATION OF QUASIPERIOD
дов оценивания квазипериода.
Для оценивания длины квазипериода можно использовать автоковариационную функцию
N - 1 - T
S 2(T) = Z z.Zn■ T n =0
случайного процесса, являющуюся оценкой ковариации между отсчетами процесса, сдвинутыми на T . Отправной идеей при использовании этого метода служит предположение о высокой корреляции между отсчетами квазипериодичес-кого сигнала, отстоящими друг от друга на квазипериод. Поэтому точки максимума статистики (2) будут кратны квазипериоду сигнала.
Если исходить из предположения, что частоты вблизи частоты основного тона сигнала несут наибольшую энергию, то частота основного тона соответствует пиковому значению спектра сигнала. Поскольку точный спектр сигнала неизвестен, он оценивается по реализации сигнала (по наблюдениям Z), поэтому положение пика оказывается нестабильным. Для улучшения оценки частоты основного тона применяется сглаживание спектра, например, вычисление суммарной мощности в скользящем окне. Для оценки спектра сигнала может быть применено непосредственно его преобразование Фурье или БПФ.
Метод оценивания квазипериода, использующий преобразование Брукса, состоит в усреднении исходного сигнала и дальнейшего рекурсивного применения к процессу zn разностного преобразования
(m) _ 1 /_m-1) zn 2 z n
- (m-1) zn+T /
частотная характеристика которого есть
R (to) -
sin m Xto Xto
где X = T /2 N . Задавая различные значения T , можно выделять частоты в узком диапазоне
(увеличивая m ), то есть синтезировать узкополосные фильтры.
Для оценки эффективности обнаружения речевой активности при перечисленных методах оценивания квазипериода были проведены эксперименты, в которых использовано 50 записей с двух микрофонов, в которых содержались РК авиационной тематики. В первый микрофон поступал РС, смешанный с шумом, во второй – только шум. В качестве источника шума был использован пылесос. Акустические сигналы оцифровывались с частотой 44кГц. В дальнейшем аудио-визуальным способом определялись истинные границы РК. Полученный материал подвергался обработке программами, реализующими описанные методы, и определялась ошибка обнаружения начала и конца каждой РК.
В таблице приведены СКО ошибок обнаружения начала и конца команд в зависимости от метода оценивания квазипериода и отношения сигнал/шум.
Результаты экспериментов показывают, что наиболее точное обнаружение границ РК получается при оценивании квазипериода по максимуму корреляции. Концы команд обнаруживаются значительно хуже, чем их начала. Это объясняется тем, что люди произносят начала слов более чётко и громко, чем их окончания.
Список литературы Обнаружение речевой активности на фоне помех по изменению квазипериода в двухканальной схеме регистрации звукового сигнала
- Потапова Р.К. Речевое управление роботом. М.: Радио и связь, 1989. 248с.
- Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963. 452 с.
- Крашенинников В.Р., Хвостов А.В. Обнаружение речевой активности в двухканальной системе распознавания речевых команд//Труды Российского научно-технического общества радиотехники, электроники и связи имени А.С. Попова. Серия: научная сессия, посвященная дню радио. Выпуск LXIII. Москва, 2008. С. 121-123.
- Серебренников М.Г., А.А. Первозванский. Выявление скрытых периодичностей. М.: Наука, 1965. 244 с.