Энергетический параметр высококачественной эффективной компрессии цифровых аудиоданных
Автор: Акчурин Э.А., Стефанов А.М., Стефанов М.А.
Журнал: Инфокоммуникационные технологии @ikt-psuti
Рубрика: Технологии радиосвязи, радиовещания и телевидения
Статья в выпуске: 2 т.7, 2009 года.
Бесплатный доступ
Работа посвящена повышению качества компрессии цифровых аудиоданных. Рассматривается вопрос распределения бит при кодировании коэффициентов гармонических дискретных ортогональных преобразований, необходимых и достаточных для обеспечения высокого качества субъективного восприятия восстановленного звука. Приводятся рекомендации относительно этого распределения для различных рабочих полос звуковых сигналов.
Короткий адрес: https://sciup.org/140191323
IDR: 140191323
Текст научной статьи Энергетический параметр высококачественной эффективной компрессии цифровых аудиоданных
Работа посвящена повышению качества компрессии цифровых аудиоданных. Рассматривается вопрос распределения бит при кодировании коэффициентов гармонических дискретных ортогональных преобразований, необходимых и достаточных для обеспечения высокого качества субъективного восприятия восстановленного звука. Приводятся рекомендации относительно этого распределения для различных рабочих полос звуковых сигналов.
Постановка задачи
В современных стандартизованных цифровых технологиях обработки и передачи звуковых сигналов (ЗС) используются дискретные косинусное преобразование (ДКП) и преобразование Фурье (ДПФ). При этом основное внимание уделяется энергетическому параметру сжатия – округлению (уменьшению разрядности кодирования) их коэффициентов. Известен [1] подход, позволяющий аналитически оценить допустимую степень округления модуля коэффициентов указанных преобразований. Однако соответствующий ме- тод дает равномерное ее распределение, что, как оказалось [2], в случае ДКП не обеспечивает высокого качества субъективного восприятия восстановленного звука, а в случае ДПФ является избыточным.
Авторы статьи предлагают метод оценки энергетического параметра сжатия, учитывающий фазовую компоненту коэффициентов ДКП и ДПФ, а также их частотные характеристики. В основу метода положены основные психоакустические свойства слуха.
Дискретное преобразование Фурье
В этом случае каждый k -й коэффициент Сk характеризуется модулем Yk и фазой ϕ k .
Хорошей интерпретацией процесса уменьшению разрядности кодирования Yk является [1] прямоугольная амплитудная модуляция полосного шума шириной Aрш k с центральной частотой f k = k - Af, где Af - разрешающая способность преобразования по частоте. Поскольку здесь Yk представляется величиной без знака, возможно только его усечение. Следовательно, согласно [1], допустимое число передаваемых старших разрядов модуля qY,k определяется выражением:
q y , k = Г log 2(1/m k) 1, (1)
где ⎡⎢ x ⎤⎥ – наименьшее целое, не меньшее x , m k = m (1 / T п ) + m (A F m , k ) — коэффициент минимально ощущаемой прямоугольной амплитудной модуляции полосного шума, а Tп – длительность интервала преобразования.
Зависимости m (1 / Т п ) и m (A F m k ) определены эмпирически [3]. Известны [4] и оптимальные значения Tп для различного звукового материала. Остается выработать подход к оценке A Р ш k .

Рис. 1. Характер АЧХ C k гармонических дискретных ортогональных преобразований
Прежде всего следует заметить, что согласно нормированной (| H k ( го)| = |H(j ro)|/| H (j ro k )| , где ω – безразмерная частота) амплитудно-частотной характеристики (АЧХ) Сk (рис. 1) величина Yk определяется суперпозицией множества спектральных компонент ЗС. Если пренебречь влиянием части из них на величину Yk , новое значение модуля коэффициента преобразования будет отличаться от действительного его значения на величину Δ Y k . Заметим также, что вследствие равновероятности знаков указанной части спектральных компонент влияние одной из них на величину Yk частично или даже полностью компенсируется другими. Однако в наихудшем случае, который и представляет интерес, приращение Δ Y k обусловливается только некоторой i -й спектральной компонентой Si и по абсолютной величине составляет
A Y k = |H k ( и , )| • 10 D i /20 , (2)
где Di – верхняя граница динамического диапазона значений Si в пределах плоскости слышимости в децибелах. Но тогда в оценке ΔF можно пре-ш ,k небречь всеми спектральными компонентами ЗС, удовлетворяющими условию:
IH k ( « i)| <| H „ ( ^ ) доп , (3)
где |H k ( to: )| - максимально допустимое значение АЧХ, при котором влияние Si на величину Yk несущественно. На этом основании A F m k будет определяться (см. рис. 1) как
АF ш , k = £ 3 F i , (4)
i где i – номер лепестка АЧХ, для которого существует условие (3).
С другой стороны Δ Y k определяет взаимодействие Сk с другими коэффициентами преобразования в смысле маскировки. Проявляется это в колебаниях среднего периода T ОМ следования события отсутствия маскировки Сk , которое в свою очередь определяется соответствующей вероятностью Pk . С этой точки зрения Δ Y k следует считать несущественным, если обусловленные им колебания T ОМ не ощущаются на слух. Отсюда напрашивается вывод о существовании связи между |H k ( to i )| и максимально допустимом изменении вероятности Pk .
С целью формализации этой связи рассмотрим некоторый большой интервал времени Т Б>> Т п. За это время будет передано n = Т Б / T п интервалов преобразования. С вероятностью P k в n⋅ P k из них Сk окажется немаскируемым. Средний интервал времени между такими событиями Т Ом = T Б /( n • P k ) = T n / P k .
Пусть теперь Yk получил отрицательное приращение Δ Y k , что соответствует наихудшему случаю. Действительно, при этом вероятность Pk уменьшится на величину
A P k = A Y k / Y k = |H k (ш i )| • 10 ( D i - D k )/20 , (5)
а T ОМ увеличится на величину
A T om = T n /( P k —A P k ) - T n / P k . (6)
Согласно условиям обработки цифровых аудиоданных в пределах Tп характер спектра не меняется. Следовательно, Tп яв л яется минимальным из в о зможных значений ΔTОМ . Потребуем, чтобы ΔTОМ не превышало этого значения. Отсюда с учетом (6) и (5) нетрудно получить условие оценки ΔF k :
I H k ( ®i )|
P2
P k
(1 + P k ) - 10 ( D - D k )/20
= lH k ( ® i )l доп . (7)
Что касается ϕ k , она представляется знаковой величиной. Следовательно [5], возможно ее округление.
Округление ϕ k означает уменьшение или увеличение fk относительно своего номинального значения, причем это изменение может происходить только на стыках интервалов преобразования. Такой характер изменения можно интерпретировать как частотную модуляцию Сk с частотой модуляции fm = 1/ Тп .
Здесь следует заметить, что интерпретация Сk как тона не противоречит его предыдущей интерпретации. Действительно, согласно электроакустическим измерениям [6] для полосного шума совершенно безразличен характер распределения его интенсивности. Она может распределяться по всей его полосе или концентрироваться в одной лишь спектральной компоненте.
Пусть теперь модуль ϕ k текущего интервала преобразования представлен q 1 ϕ,k значащими разрядами. В результате округления q 2 ϕ ,k младших разрядов обнуляются, вследствие чего достаточно передать только q^ = q^ к - q 2 ф , t старших разрядов. При этом по правилам округления ϕ k увеличится или уменьшится на величину, не превышающую Аф k = 2 q 1 ’ - k - q ’ - k /2 . Согласно принятой интерпретации округления ϕ k относительному ее изменению Δϕ k / ϕ k можно сопоставить индекс модуляции δf k / f m , где δf k – минимально ощущаемая на слух девиация частоты fk . Тогда искажения, вызванные округлением ϕ k , не будут ощущаться на слух, если это отношение не превышает δf k / f m . Отсюда нетрудно получить выражение для оценки допустимого числа передаваемых старших разрядов модуля ϕ k :
q Ф , k = Г log 2 [i/( 5 f k • t „ )] - 1 1 . (8)
Относительно δf k известны [3] экспериментальные зависимости 5 f ( f k) , полученные при различных значениях f m .. На их основе можно предложить следующую аппроксимацию функциональной зависимости § f ( f k, f m ) :
3 f ( f k , f m ) = K 1( f m ) • 10 " 4 • f k /2 + + K 2( f m )/lg( f k ), ()
где K 1( fm ) и K 2( fm ) определяются эмпирически.
Дискретное косинусное преобразование
Коэффициенты ДКП представляются знаковой величиной. Следовательно, рассуждая как в предыдущем случае, получаем:
q Y,k = [ log 2 (1/ m k ) - 1] ■ (10)
В данном преобразовании фаза в явном виде не определена. Однако это не означает отсутствие искажений, характерных для округления фазы.
В работе [3] представлены результаты экспериментальных исследований по восприятию слухом амплитудной и частотной модуляции. Оказалось, что слух различает эти виды модуляции лишь до некоторой граничной частоты несущего колебания. При более высоких частотах несущего колебания они ощущаются одинаково. На этом основании относительно коэффициентов ДКП представляется более правильным говорить о приоритетности интерпретаций округления как амплитудной и частотной модуляции. В связи с этим qY,k целесообразно определять следующим образом:
[q^,k, если q^,k > qy,k, q Y, k = 1
I q Y k в противном случае,
где q ϕ,k и qY,k определяются выражениями (8) и (10), соответственно.
Оценка вероятности P k
К одному из основных условий маскировки Ck со стороны Ci или отсутствия таковой относится непрерывность КМ i вплоть до Ck . Учет этого требования существенно усложняет вычисление вероятности Gk,i . Однако оно не является необходимым.
Действительно, в интервале [ n 1; n 2] КМ i либо существует (событие Z ) и прерывается толь к о Ck (событие W ), либо не существует (событие Z ). В совокупности эти события определяют в известном смысле безусловную вероятность Pk,i отсутствия маскировки Ck со стороны Ci :
P ki = P ( Z ) • P ( W ) + P ( Z ) ■
Поскольку события Z и Z несовместны и образуют полную группу событий, последнее выражение можно переписать в следующем виде:
p k , i = [i - p ( Z )] . p ( w ) + p ( Z ) = p ( w ) + p ( Z ) . p ( W ) .
По определению события Z и W также несовместны. Следовательно, произведение соответствующих вероятностей равно нулю и Pk,i = P ( W ).
Таким образом, Ck не маскируется Ci , если прерывает КМ i , причем независимо от того, прерывается ли КМ i некоторым C j ( j e [n1; n2] j ≠ i ≠ k ) или нет.
Полученное условие отсутствия маскировки, а также интерпретация коэффициентов рассматриваемых преобразований как тональных компонент ЗС, что позволяет считать их независимыми, дают возможность определить вероятность Pk произведением:
n 2
Pk = P { Yt > A ( f t )} • П (1 - Gм ), i * k , (12) i = n1
где A ( fk ) – значение абсолютного порога слышимости на частоте fk ; n 1 и n 2 – соответственно, наименьший и наибольший номер коэффициента преобразования, уровень кривой маскировки которого (КМ i ) еще превышает A ( fk ); Gk,i – вероятность маскировки Ck со стороны Ci . При этом для оценки Gk,i можно воспользоваться выражением [7]:
G k 4 = g k 4 • P {Y e [Y1 , , D i ]} ^
-
x P{Yt e [ A ( f k ), E „ ( f о , D , )]} ( )
где gk,i – безусловная вероятность маскировки Ck со стороны Ci ; Y 1 i – значение Yi , при котором уровень КМ i равен A ( fk ); Екм ( f o, Di ) – уровень КМ i на относительной частоте f o = f - f. |/ AF i , a AF i -ширина частотной группы, образованной возможно маскирующим тоном Ci .
Аналитические выражения, аппроксимирующие эмпирические зависимости Af ) и A F ( f ) , приведены в работе [8]. Там же описан метод оценки Gk i , пригодный для случаев маскировки любым участком КМ i . Однако оценка gk,i проведена только при маскировке левой ветвью и двумя первыми участками правой ветви КМ i . Сложность оценки gk,i для случая маскировки третьим участком правой ветви КМ i обусловлена зависимостью ее крутизны от Yi .
Относительно этого участка авторы предлагают следующую аппроксимирующую функцию:
Значение g 2 k,i известно [7-8] и составляет 1/2. С целью оценки g 1 k,i отобразим поведение Екм ( f o, Yi ) на частоте f o в плоскости координат Е км, Yi i на частоте f o существует лишь при определенных значениях YY e [ Y 1 i , Y 2 i ]. Тогда искомую вероятность можно определить отношением площадей S 1/ S , где S = ( E 2 км - E 1 км ) • ( Y 2 i - Y 1 , ).

Рис. 2. Геометрическая интерпретация поведения КМ i на частоте f o
Для упрощения расчетов приведем область изменения КМ i к квадрату единичной площади Yi заменится переменной Yi,н = ( Yi–Y 1i)/( Y 2 i – Y 1 i ), а функция примет вид:
E (Y ) = км i ,н
Е км [ Y ,h ( Y 2 i - Y1 i ) + Y1 i ] - Е км (Y1 i ) Е км ( Y 2t ) - Е км (Y1 i )
. (16)
В результате, как следует из рис. 2б,
-
g 1 k i = J E км ( Y i ,н ) dY. H , (17)
где опущен коэффициент пропорциональности, обусловленный заменой переменной Yi .
После подстановки (14) выражение (17) приводится к виду:
E км ( fo , Y )
-z , ■ lg[1 + z 2 ■ fo ■ exp(-
+ Y + a m ( f i ),
z 3 Y i )] +
g 1 k
где коэффициенты z1, z2 и z3 определяются эмпирически, а am ( fi ) – коэффициент маскировки [3]. Отсюда видно, что при фиксированной f o вероятность gk,i зависит только от Yi . Следовательно, при оценке этой вероятности достаточно ограничиться частью (14), содержащей Yi . В соответствии с этим gk,i удобно представить суммой:
где
g k,i = g l ki + g 2 k,i , (15)
где g 1 k,i и g 2 k,i – вероятность маскировки, обусловленная первым и вторым слагаемым (14), соответственно.
- J
lg( b + u i ,н ), ----------------du. , i, н u i,н
b = 1 z2^^^----------. (19)
z 2 • / о + exp( -z з • Y 1 i )
Решение (18) с учетом (15) приводит к окончательному результату:
g k , i = 0,5
1 у (- b ) j ln(10) ^"^ j 2
Как показывают расчеты, ряд в (20) практически сходится при двадцати первых слагаемых.
Численные характеристики энергетического параметра эффективности сжатия
Для получения расчетных данных остается определить АЧХ каждого из рассматриваемых преобразований. АЧХ коэффициентов ортогональных преобразований обычно получают как преобразование Фурье над ядром h ( k,n ) данного преобразования:
N -1
H k ( j to ) = £ h ( k , n ) • e j “ n , n = 0
где N – число точек преобразования. На этом основании нормированная АЧХ имеет вид:
-
- для ДПФ
H k ( ® ) =
sin( го n 1 2)
N • sin(2 n k IN -го )
- для ДКП
H k ( ® ) =
4 • sin( ro / 2) • cos( n k / 2 N ) N • [cos( ro ) - cos( n k / N )]
x д/1 - (-1) k • cos( ro N ).
q, бит

qY,k qϕ,k
0,1 1 10 f k , кГц
Рис. 3. Энергетический параметр сжатия для ДПФ qY, бит

1 ^-------------------------------------------------------------11-----------------------------------------------
0,1 1 10 f k , кГц
Рис. 4. Энергетический параметр сжатия для ДКП
На рис. 3 и рис. 4 приведены закономерности распределения бит при кодировании модулей параметров коэффициентов ДПФ и ДКП для ЗС с рабочим диапазоном частот 20 … 20000 Гц, динамическим диапазоном 96 дБ, частотой дискретизации Fд = 44,1 кГц и N = 332. Видно, что искажения, вызванные округлением фазы, имеют приоритет только в низкочастотной области (до 1,7 кГц). В остальном диапазоне слышимых частот более точного кодирования требует модуль коэффициентов преобразований.
q
6 ДПФ
ДКП
1 2 3 4 5
Рис. 5. Усредненный энергетический параметр сжатия: 1 – CD-качество ( F р = 0,02…20 кГц, F д = 44,1 кГц); 2 – цифровые системы формирования программ звукового вещания ( F р = 0,02…20 кГц, F д = 48 кГц); 3 – высококачественное цифровое радиовещание ( F р = 0,03…15 кГц, F д = 32 кГц); 4 – мультимедиа ( F р = 0,05…10 кГц, F д = 22,05 кГц); 5 – телефония ( F р = 0,3…3,4 кГц, F д = 8 кГц)
Заметим, что с увеличением динамического диапазона и/или F д обе зависимости практически не изменяются ни по характеру, ни количественно.
На рис. 5 приведена зависимость среднего числа бит q с учетом знака, необходимого и достаточного для кодирования коэффициентов ДПФ и ДКП при условии высокого качества субъективного восприятия восстановленного звука и различной ширине F р рабочей полосы частот ЗС. Видно, что, во-первых, допустимая степень округления коэффициентов обоих преобразований практически не зависит и от этого параметра ЗС. Во-вторых, по этому показателю перспективным для целей сжатия цифровых аудиоданных следует признать ДКП. Однако окончательный вывод по этому вопросу возможен только при наличии данных относительно эффективности прореживания спектра ЗС.
Выводы
-
1. С точки зрения округления коэффициентов гармонических дискретных ортогональных преобразований перспективным для целей сжатия ЗС является ДКП.
-
2. При условии высокого качества субъективного восприятия восстановленного звука для кодирования каждого немаскируемого коэффициента ДКП в среднем необходимо и достаточно 3,2 бит.
-
3. В низкочастотной области (до 1,7 кГц) требуется более точное кодирование модуля коэффициентов ДКП: 3-5 бит.
-
4. Допустимая степень округления модуля коэффициентов ДКП практически не зависит от динамического диапазона, частоты дискретизации и ширины рабочей полосы частот ЗС.
Список литературы Энергетический параметр высококачественной эффективной компрессии цифровых аудиоданных
- Стефанова И.А. Оценка допустимой степени округления спектральных компонент звуковых сигналов//Материалы VI МНТК «Проблемы техники и технологий телекоммуникаций». Уфа, 2005. -С. 36-38.
- Стефанов М.А. Особенности округления спектральных компонент звуковых сигналов.//Тезисы докл. XV РНТК ПГАТИ. Самара, 2008. -С. 185.
- Цвикер Э., Фельдкеллер Р. Ухо как приемник информации. Пер. с нем под ред. Б.Г. Белкина. М.: Связь, 1971. -256 с.
- Стефанова И.А., Стефанов М.А. Оптимизация временного параметра эффективности сжатия звуковых сигналов. Материалы VI МНТК «Проблемы техники и технологий телекоммуникаций». Уфа, 2005. -С. 38-40.
- Стефанов М.А. Реализация округления коэффициентов дискретных ортогональных преобразований//Тезисы докл. XV РНТК ПГАТИ. Самара, 2008. -С. 188.
- Радиовещание и электроакустика. Под ред. Ю.А. Ковалгина. М.: Радио и связь, 2002. -798 с.
- Стефанова И.А., Стефанов М.А. К оценке вероятности маскировки спектральных компонент звуковых сигналов//Тезисы докл. XVI РНТК ПГУТИ. Ч. 2. Самара, 2009. -С. 8.
- Стефанова И.А. Разработка и исследование методов повышения эффективности и качества компрессии цифровых аудиоданных: дис. к.т.н. ПГАТИ. Самара, 2007. -157 с.