Аудиокодек на основе перцептуального равенства исходного и восстановленного звукового сигнала

Основное

Автор: Илья Игоревич Чижов

Журнал: Информатика и автоматизация (Труды СПИИРАН) @ia-spcras

Рубрика: Математическое моделирование и прикладная математика

Статья в выпуске: Том 24 № 2, 2025 года.

Бесплатный доступ

Представлен метод сжатия аудиоданных с потерями (аудиокодек), позволяющий улучшить объективное качества восстановленного аудиосигнала на 25% для битрейта 390 кбит/с и 55% для битрейта 64кбит/с по сравнению с форматом AAC MPEG-4. Предлагаемый метод сжатия аудиоданных, базируется на развитии положений теории сжатия аудиоданных с потерями (ТСАП). Повышение объективного качества восстановленного звукового сигнала (по стандартизованной мере PEAQ) достигается за счет того, что ТСАП устраняет несовершенства современных методов сжатия аудиоданных с потерями в части использования психоакустических принципов восприятия звука человеком, в том числе после преодоления «психоакустического предела сжатия» аудиосигнала (т.е. момента в перцептуальном кодировании, когда имеющегося бюджета бит недостаточно для кодирования всех спектральных компонент с необходимой с точки зрения психоакустики точностью), и позволяет достичь перцептуального равенства восприятия исходного и восстановленного аудиосигналов. В качестве анализа состояния вопроса рассмотрены решения по сжатию аудиоданных без потерь и с потерями, а также с использованием искусственного интеллекта. Во всех современных методах сжатия аудиоданных с потерями процедура выбора спектральных компонент, которые необходимо сохранить, а также допустимой погрешности квантования их по уровню выполняется путем ряда достаточно сложных процедур, носящих общее название «психоакустическая модель метода сжатия аудиоданных с потерями». В строгом смысле, перцептуальное равенство спектров исходного и восстановленного сигналов ни одна из групп исследователей не доказала и как следствие – не может его гарантировать. Независимые эксперты регулярно публикуют тесты, показывающие, что современные аудиокодеки имеют проблемы на ряде сигналов. В статье предложен аудиокодек на основе перцептуального равенства исходного и восстановленного звукового сигнала, который базируется на новых идеях теории сжатия аудиоданных с потерями (ТСАП). Эти идеи гарантируют достижение перцептуального равенства восприятия исходного и восстановленного аудиосигналов на различных битовых скоростях, поэтому построенный на ее основе аудиокодек свободен от указанных выше недостатков и, как следствие, существенно превосходит современные кодеки в смысле объективного качества восстановленного аудиосигнала по мере PEAQ.

Еще

Сжатие аудиоданных, психоакустическая модель, спектр, субполосное разделение, перцептуальное равенство сигналов

Короткий адрес: https://sciup.org/14132947

IDR: 14132947 | DOI: 10.15622/ia.24.2.3

Статья