Использование спектрального вторичного контейнера в методе защиты видео с помощью фазовых ЦВЗ
Автор: Шапиро Д.А., Сергеев В.В.
Журнал: Компьютерная оптика @computer-optics
Рубрика: Обработка изображений, распознавание образов
Статья в выпуске: 5 т.49, 2025 года.
Бесплатный доступ
В работе предложен новый метод защиты видео с помощью фазовых цифровых водяных знаков, отличающийся от ранее описанного метода использованием вторичного контейнера (дискретного спектра Фурье), обеспечивающего дополнительную защищенность видеоконтента. Защитная информация (бинарный QR-код) встраивается в дискретный спектр цифровых водяных знаков, который затем переводится в пространство в виде полутонового изображения, визуально напоминающего шум, которое затем встраивается в фазы синусоид, развивающихся во времени. В данной работе приведены эксперименты, анализирующие зависимость точности процедуры извлечения цифровых водяных знаков от объема встраиваемой информации, от качества. Также рассматривается возможность расположения QR-кода в разных областях дискретного спектра. Приведено экспериментальное доказательство работоспособности метода, а также его стойкости к сжатию с помощью кодека H.264. В заключение сравнивается эффективность использования предложенного метода в сравнении с исходным методом фазовых цифровых водяных знаков.
Защита видео, цифровой водяной знак, фазовое встраивание, QR-код, дискретное преобразование Фурье
Короткий адрес: https://sciup.org/140310600
IDR: 140310600 | DOI: 10.18287/2412-6179-CO-1734
Текст научной статьи Использование спектрального вторичного контейнера в методе защиты видео с помощью фазовых ЦВЗ
В последние годы мультимедийный контент стал использоваться повсеместно в различных сферах деятельности. Увеличение популярности мультимедиа и, в частности, цифрового видео привело к возрастанию количества инцидентов, связанных с нарушением авторских прав на контент. Одним из распространённых способов защиты видео является встраивание в него цифровых водяных знаков (ЦВЗ) [1–2]. Обзор актуальных методов, используемых для защиты видео с помощью ЦВЗ, описан в работе [3] . Согласно представленной там классификации существующие методы можно разделить на три категории: покадровое встраивание, встраивание в коэффициенты спектрального преобразования, применяемого при сжатии видео, и методы, основанные на применении нейронных сетей. К недостаткам у первого типа методов относится возможность злоумышленником оценки ЦВЗ [4] в каждом кадре независимо друг от друга, собирая статистику о структуре и особенностях самого ЦВЗ. При этом не используется временная составляющая видео, что может приводить к проблемам при сжатии видеозаписи. Методы, основанные на встраивании в коэффициенты, используют информацию о нескольких кадрах видео, однако их использование ограничено выбором конкретного кодека [5]. ЦВЗ, встроен-
ный таким методом, может оказаться нестойким при сжатии другим кодеком. В последнее время популярность набирает использование искусственного интеллекта для решения задач защиты видео [6–7], в том числе и с использованием ЦВЗ. В таком случае встраивание будет осуществляться в трехмерную область (высота кадра, ширина кадра, количество кадров). Также этот метод позволяет повысить стойкость к различным атакам, поскольку для обучения нейронной сети для извлечения будет подаваться видео, уже подверженное искажениям. Однако такой метод имеет существенный недостаток в виде большой вычислительной сложности при обучении нейронной сети, непредсказуемости поведения при обучении.
В качестве альтернативы известным методам ранее в работе [8] был предложен метод защиты, основанный на использовании фазовых ЦВЗ. Суть данного метода состоит в добавлении к каждому пикселю цифрового видео малозаметной синусоидальной последовательности, развивающейся во времени и имеющей индивидуальную фазу. Двумерное фазовое поле соответствует изображению встроенного ЦВЗ, точность извлечения которого повышается по мере накопления видеоданных.
В качестве изображения ЦВЗ, встраиваемого в фазу, мы используем бинарный QR-код. Это объясняет- ся, во-первых, его популярностью [9] и простотой извлечения из него защитной информации и, во-вторых, возможностью использования для него простого критерия качества метода – вероятности правильного извлечения каждого элемента, т.е. сравнения каждого элемента встраиваемого и извлекаемого QR-кода. Таким образом можно получать эмпирическую оценку вероятности правильного извлечения:
P = N + / N , (1)
где N + – количество совпавших элементов, N – общее число элементов QR-кода.
В работе [8] ЦВЗ (QR-код) встраивался непосредственно в двумерное поле фаз, что обусловило некоторые недостатки метода. При визуальной незаметности ЦВЗ он может довольно легко обнаруживаться путем компьютерного стегоанализа, если злоумышленнику известен сам принцип встраивания. Кроме того, для извлечения ЦВЗ легальный пользователь вынужден определять его положение в плоскости кадра.
Модификация ранее предложенного метода состоит в переносе QR-кода в спектральную область ЦВЗ, она эксплуатирует идею вторичного контейнера, впервые сформулированную в работе [10]. Теперь изображение, встраиваемое в поле фаз, вычисляется при помощи обратного двумерного дискретного преобразования Фурье (ДПФ) от QR-кода. Оно имеет внешне хаотический вид, напоминающий естественный шум видеосенсора. Более того, в силу свойств ДПФ [11], это изображение может быть периодически продолжено на весь кадр видео, после чего извлечение ЦВЗ становится возможным из любой части кадра.
В данной статье первый параграф посвящен описанию алгоритмов встраивания и извлечения ЦВЗ с использованием вторичного контейнера. Второй параграф описывает экспериментальную часть, в которой приводится подбор параметров, оптимальных с точки зрения эффективности извлечения. Также в этом параграфе приведены результаты, доказывающие стойкость алгоритма к сжатию с потерями. В третьем параграфе представлено сравнение исследуемого метода с ранее изложенным базовым методом фазовых ЦВЗ.
1. Алгоритмы встраивания и извлечения ЦВЗ
В целом, алгоритмы встраивания и извлечения ЦВЗ совпадают с алгоритмами, описанными в [8]. На этапе встраивания каждый пиксел видео суммируется с синусоидальной последовательностью:
x ( m , n1, n 2 ) = x 0 ( m , n1, n 2 ) + w ( m , n1, n 2 ) , (2)
где x 0 – кадр исходного видео, m – номер кадра, n 1 , n 2 – координаты пиксела в кадре, а w – встроенный ЦВЗ:
w ( m , n1, n 2 ) = A sin ( 0 m + ф ( n1,n 2 ) ) , (3)
где A - амплитуда колебания, 0 - опорная частота, ф ( n 1 , n 2 ) - фаза, т.е. встраиваемое в видео двумерное изображение ЦВЗ. Ранее в качестве такого изображения мы использовали бинарный QR-код, хотя следует заметить, что сам метод встраивания не налагает на изображение ЦВЗ требование бинарности. В модифицированном методе изображение ЦВЗ сразу получается полутоновым как результат выполнения обратного ДПФ над бинарным спектром – QR-кодом:
{ ф ( n i , n 2 ) } = ОДПф { ( ф ( к 1 , к 2 ) ) } , (4)
где ОДПФ – оператор обратного преобразования Фурье, Ф( k 1 , k 2 ) – комплекснозначный дискретный спектр (QR-код):
Ф (к1, к2) = Ф* (K — к1, K — к2) = f e1 ^k1,к2) при {к1, к2 }е DqR (5)
[ 0 иначе ,0 < к 1, к 2 < K - 1
(*) – знак комплексного сопряжения, K – размер двумерного дискретного спектра (квадратного), ^ ( к 1, к г ) -случайные величины, лежащие в диапазоне [0, 2 п ), DOR область, соответствующая единичным значениям элементов QR-кода. Симметричность спектра в (4) обеспечивает вещественность изображения ф ( n 1, n 2) [12]. Использование комплексных экспонент со случайными показателями вместо единиц исключает кумулятивный эффект от сложения косинусоидальных спектральных компонент, приводящих к аномально большому значению ф (0, 0). Наглядно схема встраивания ЦВЗ представлена на рис. 1.

При извлечении ЦВЗ сначала применяется алгоритм, описанный в работе [8], затем полученное фазовое изображение переводится в спектр:
ф ( k 1 , k 2 ) = ДПФ { ( ф ( П 1 ,n 2 ) ) } , (6)
где ДПФ – оператор прямого преобразования Фурье.
После чего вычисляются модули спектральных компонент, являющиеся искомыми элементами бинарного QR-кода. К полученной последовательности извлеченных бинарных изображений QR-кода может дополнительно применяться процедура экспоненциального сглаживания [4].
Важным отличием предлагаемого метода будет процесс постобработки полученного ЦВЗ. В отличие от исходного метода, где каждый бит усреднялся по площади 16×16, здесь используется усреднение по множеству извлеченных ЦВЗ из разных фрагментов кадра. При размерах кадра N 1 , N 2 и стороне встраиваемого QR-кода N w cуществует ( N 1 – N w )( N 1 – N w ) вариантов извлечения ЦВЗ, по которым будет происходить усреднение. Однако на практике такое количество извлечений несет высокую вычислительную сложность, поэтому можно обойтись меньшим числом.
Наглядно приведенный алгоритм можно рассмотреть на рис. 2.

Рис. 2. Схема извлечения ЦВЗ
2. Оценка эффективности метода
Для оценки эффективности предложенного метода рассматривалось встраивание ЦВЗ в реальное видео. Оно представляет собой смонтированную нарезку опасных моментов футбольного матча, является достаточно динамичным и включает в себя несколько монтажных склеек. Размер каждого кадра – 1920×1080 пикселов.
В рамках экспериментов использовался разный размер ДПФ вторичного контейнера для хранения QR-кода, а также различный размер самого QR-кода. При выборе параметров необходимо было найти компромисс между качественным извлечением, высокой емкостью, а также незаметностью ЦВЗ в каждом кадре видео. Для исследования использовались следующие размеры QR-кода: 49×49, 65×65, 81×81, и размеры ДПФ 256×256, 512×512, 1024×1024.
На рис. 3 показан встраиваемый QR-код (модуль спектра, вычисляемого по формуле (6)), помещенный в контейнер размерами 256×256, и его изображение ЦВЗ в пространственной области.

Рис. 3. ЦВЗ в спектральной и пространственной области
На рис. 4 приведена зависимость оценки вероятности (формула 1) корректного извлечения QR-кода размером 65×65 от размера ДПФ. Для этого эксперимента ЦВЗ встраивался с амплитудой A =2 во всю область кадра. Благодаря свойству периодичности ДПФ ЦВЗ может быть извлечен из любого фрагмента кадра, итоговое значение QR-кода будет рассчитываться в результате усреднения результатов извлечения по разным фрагментам. Размер выборки, используемой для усреднения, обратно пропорционален размеру применяемого дискретного преобразования Фурье (ДПФ). Однако увеличение размера выборки приводит к пропорциональному росту вычислительной сложности алгоритма. В связи с этим в настоя- щем исследовании извлечение данных осуществля-

Рис. 4. Зависимость точности извлечения от размеров контейнера
Исходя из полученных результатов, можно заметить, что с увеличением размера исходного контейнера улучшается качество извлечения. В связи с этим далее будем использовать контейнер размера 1024×1024.
Следующим шагом исследования станет анализ влияния размера QR-кода на оценку вероятности его извлечения из видеопоследовательности. График зависимости такого влияния приведен на рис. 5.

Рис. 5. Зависимость точности извлечения от размеров ЦВЗ
В предыдущих экспериментах QR-код располагался в низких частотах контейнера (в углах изображения спектра), как было показано на рис. 3. Экспериментально исследуем возможность расположения ЦВЗ в средних и высоких частотах. Пример полученного в результате смещения спектра приведен на рис. 6.

Рис. 6. Расположение QR-кода в средних частотах ДПФ
В рамках эксперимента сместим положение QR-кода из углов ближе к центру исходного спектра: на 10 и 40 пикселей соответственно. Результаты оценки вероятности корректного извлечения приведены на рис. 7.

Рис. 7. Вероятность корректного извлечения ЦВЗ при различном расположении QR-кода внутри ДПФ
По графику можно наблюдать, что по мере перемещения QR-кода в средние частоты точность улучшается. Однако основным преимуществом использо- вания низких частот является стойкость ЦВЗ к вносимым искажениям, в частности сжатию с потерями. Для проверки этого факта защищенное видео с различным расположением QR-кода будем сжимать с помощью кодека H.264 [13] с битрейтом (количеством бит, используемых для передачи данных в единицу времени) 5 Мбит / с (распространённый битрейт для видео в формате Full HD [14]). Наглядно зависимость вероятности извлечения от расположения QR-кода можно увидеть на рис. 8.

Рис. 8. Вероятность корректного извлечения ЦВЗ из сжатого видео при различном расположении QR-кода внутри ДПФ
Из графика видно, что лучшая точность извлечения ЦВЗ из сжатого видео достигается при его расположении в низких частотах. Поэтому для практического применения лучше использовать именно расположение QR-кода в углах контейнера.
На рис. 9 приведен график сравнения точности извлечения ЦВЗ в зависимости от указанного битрейта при использовании кодека H.264. Встраивание будет осуществляться также с амплитудой А =2 и значением опорной частоты Θ =3.

Эксперимент показал, что 300 кадров достаточно, чтобы достичь уровня совпадения между встроенным и извлеченным бинарным QR-кодом более 90%, что согласно [15] достаточно для корректного извлечения информации. Следовательно, данный метод может быть использован в реальных системах, при этом допускается больший уровень сжатия при использовании большего числа кадров.
Далее пронаблюдаем, как меняется точность извлечения для сжатого видео с увеличением амплиту- ды ЦВЗ. Увеличение амплитуды даёт возможность быстрее накапливать ЦВЗ, но делает его более визуально заметным как для легальных пользователей, так и для злоумышленника. В прямой зависимости вероятности извлечения от амплитуды ЦВЗ можно убедиться на примере рис. 10.

Рис. 10. Точность извлечения ЦВЗ из сжатого видео при различных амплитудах
Из полученных графиков видно, что даже при амплитуде встраиваемого ЦВЗ A =2 остаточно 300 кадров, чтобы процент совпадения извлекаемой последовательности с исходной превышал 0,9.
3. Сравнение с базовым методом
В заключение сравним результаты применения предлагаемого метода и метода, опубликованного в [8]. Оба метода будем сравнивать при встраивании ЦВЗ с амплитудой A =4. График сравнения точности при извлечении приведен на рис. 11.

Рис. 11. Сравнение базового и предлагаемого алгоритмов встраивания на несжатом видео
По графику видно, что такая амплитуда позволяет с помощью базового метода добиваться полностью корректного извлечения за 10 кадров. В то же время использование спектрального метода позволяет достичь такого результата только по результатам обработки 150 кадров.
Теперь сравним те же методы с точки зрения корректности извлечения из сжатого с помощью кодека H.264 видео при сжатии видео, состоящего из 600 кадров. Битрейт сжатого видео использовался аналогичный ранее рассмотренному эксперименту – 5 Мбит / с. Результаты сравнения приведены на рис. 12.

Рис. 12. Сравнение базового и предлагаемого алгоритмов на сжатом видео
Исходя из анализа результатов, полученных на рис. 12, можно сделать вывод, что спектральный метод позволяет извлекать ЦВЗ из сжатого видео за меньшее число кадров. Таким образом, можно сделать вывод о преимуществе использования спектрального метода фазового ЦВЗ по сравнению с ранее описанным методом.
Заключение
В данной работе предложен новый метод защиты видео с помощью фазовых ЦВЗ, отличающийся от метода, описанного в работе [8], использованием вторичного контейнера (дискретного спектра Фурье) обеспечивающего дополнительную защищенность видеоконтента и удобство извлечения защитной информации. Использование вторичного контейнера усложняет задачу злоумышленнику, так как сам ЦВЗ уже не связан напрямую с основным видеопотоком. Также такой метод встраивания повышает устойчивость к атакам, связанным со сжатием с потерями. Проведена серия экспериментов, позволяющая исследовать возможность применения метода, а также лучшие условия для его применения.
Эксперименты показали, что увеличение размера ДПФ положительно влияет на точность извлечения. Для размеров кадров видео 1920×1080 наилучшие результаты получаются при контейнере размером 1024×1024. При этом размеры самого встраиваемого QR-кода требуется уменьшить, чтобы сохранить максимальную вероятность корректного извлечения. Расположение ЦВЗ в области низких частот ДПФ обеспечивает наибольшую устойчивость к сжатию с использованием кодека H.264, несмотря на более плохое качество извлечении из несжатого видео по сравнению со среднечастотными областями.
По сравнению с базовым методом, спектральный подход требует большего количества кадров для успешного извлечения на несжатом видео, но значительно выигрывает при наличии сжатия, что делает его более пригодным для практического применения. При этом, как и в базовом методе, существует возможность управлять объемом вносимых искажений в зависимости от типа видео и решаемых задач.