Сжатие речи с использованием субполосного преобразования
Автор: Свиридова И.В., Подпругин А.И., Гончаров Д.В., Бондаренко В.А.
Журнал: Теория и практика современной науки @modern-j
Рубрика: Основной раздел
Статья в выпуске: 6 (72), 2021 года.
Бесплатный доступ
В данной статье описан процесс сжатия речи, а также практическое его применение с использованием субполосного преобразования.
Сжатие речи, алгоритмы, преобразование
Короткий адрес: https://sciup.org/140276191
IDR: 140276191
Текст научной статьи Сжатие речи с использованием субполосного преобразования
С целью исследования возможности использования субполосного преобразования для очистки речевого сигнала от шумов различного происхождения, были проведены вычислительные эксперименты с реальными речевыми данными.
Словесное описание алгоритма субполосного преобразования на основе банка КИХ – фильтров.
-
1. Задать параметры N – длина анализируемого отрезка сигнала, R – количество частотных интервалов.
-
2. Рассчитать импульсные характеристики для R-2 полосовых КИХ-фильтров, выбирая их полосу пропускания и частоты среза в соответствии с
V k = [ -u k 2, -u k 1 ) ° [ u k 1 , u k 2 ) , k = 1, 2, — , R
R
Z Mk = N,-um 2 = -п; и m 2 =n k=1
πN u k 2 = k 3, Mk = M = ”
RR
R
ππ
^ = u k 2 -u k 1 = - = const, u k 1 = ( k - 1) —; RR
Обратное субполосное преобразование (синтез) на основе использования банков КИХ-фильтров
Процедура прореживания выходных последовательностей КИХ-фильтров не является оптимальной в смысле минимума погрешностей аппроксимации спектров исходных векторов в выбранных частотных диапазонах, что приводит к увеличению погрешностей восстановления данных по квантованным значениям и, как следствие, к ухудшению качества воспроизводимой речи.
Сущность субполосного преобразования состоит в том, что для отрезков сигнала вычисляется вектор yy = ( yY, y 2,... yR ) , состоящий из подвекторов yr = ( yTr, y2,,... ул J, которые отражают частотные свойства исходного сигнала в некотором частотном интервале. При этом в данном случае ось частот разбивается на R равновеликих частотных интервалов:
V k = l - U k 2 , -U к 1 ) U t U к 1 , U к 2 )
Субполосное преобразование осуществляется по формуле: yy = AAx (1) где AA - блочная матрица вида:
AA =
...
Q - матрицы собственных векторов матрицы А ; L - вектор собственных чисел, J - количество собственных чисел матрицы А .
Если в качестве вектора исходных значений x используется отрезок речевого сигнала длительностью N , тогда вектор субполосного преобразования вычисляется по формуле. С использованием полученных значений подвекторов субполосного преобразования вычисляется распределение энергии сигнала по заданным частотным интервалам.
Полученные значения энергии упорядочиваются по возрастанию (рисунок 1), при этом сохраняются номера частотных интервалов. Выбираются значения энергий для тех частотных интервалов, в которых сосредоточена некоторая доля энергии, например, 95%.

Рисунок 1 - Распределение Рисунок 2 - Распределение энергии, сосредоточенной в R = 32 энергии по интервалам (R = 32, N = 256)
Значения подвекторов субполосного преобразования квантуются по уровню и записываются в информационный блок совместно со служебной информацией, содержащей номера частотных интервалов. Алгоритм сжатия представлен на рисунке 3.

Рисунок 3 - Функциональная схема системы сжатия речевых данных
Для определения параметров субполосного преобразования – длины анализируемого отрезка N , количества частотных интервалов R было проведено большое количество вычислительных экспериментов. В качестве предварительной обработки были обнаружены и закодированы паузы. Таким образом, процедуре сжатия подвергается собственно звуковой сигнал. В ходе экспериментов для различных значений длин отрезков речевых данных N = 64, 128, 256, 512 отсчетов, диапазон частот разбивается на R = 8, 16, 32 интервалов. Некоторые результаты приведены в таблице, в которой используются следующие обозначения:
N – длинах отрезков речевых данных; К – степень сжатия за счет субполосного преобразования, которая определяется по формуле: К = V1/V2 , (3) где V1 – объем исходного файла; V2 – объем сжатого файла.
Таблица 1 – Степень сжатия речевых данных при различных N
N |
K (при R =8) |
K (при R =16) |
K (при R =32) |
64 |
1,52 |
1,18 |
1,22 |
128 |
1,81 |
1,71 |
1,54 |
256 |
1,97 |
2,38 |
2,64 |
512 |
2,09 |
2,48 |
2,80 |
Необходимо отметить, что в таблице приведены результаты сжатия речевых данных только за счет субполосного преобразования, без учета сжатия за счет удаления пауз и квантования сигнала.
Таким образом, на основе полученных результатов можно говорить о высокой эффективности применения данного подхода к сжатию данных, т.к. он позволяет существенно сократить объем речевых данных при их передаче и хранении, при сохранении относительно высокого качества воспроизведения восстановленного сигнала.
В результате работы алгоритма достигается сжатие данных в 1,5 – 3 раза в зависимости от выбора длины анализируемого отрезка N и количества частотных интервалов R , при сохранении качества воспроизведения восстановленных данных
Практическое применение алгоритма сжатия речевых данных с использованием субполосного преобразования позволит ускорить процесс обмена информацией в обществе, а также уменьшить объем памяти, необходимой для хранения речевых данных.
Список литературы Сжатие речи с использованием субполосного преобразования
- Жиляков Е.Г., Белов С.П, Прохоренко Е.И. УМК по ОРД в ИТС[текст]/. Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко: БелГУ, Белгород 2008г.
- Бернард Скляр, Цифровая связь Теоритические основы и практическое применение. Второе издание: Москва. 2003.