Модель для обнаружения дипфейков с учетом пространственно-временных и поведенческих признаков на основе объединения XceptionCapsule

Айшвария Раджив; Равирадж П.

doi:10.15622/ia.25.1.4

Scientific articles \ Prolegomena. Fundamentals of knowledge and culture. Propaedeutics \ Computer science and technology. Computing. Data processing \ Special auxiliary subdivision for computing

Модель для обнаружения дипфейков с учетом пространственно-временных и поведенческих признаков на основе объединения XceptionCapsule

Автор: Айшвария Раджив, Равирадж П.

Журнал: Информатика и автоматизация (Труды СПИИРАН) @ia-spcras

Рубрика: Информационная безопасность

Статья в выпуске: Том 25, №1, 2026 года.

Бесплатный доступ

Обнаружение дипфейков по-прежнему представляет собой серьезную проблему, главным образом из-за ключевых ограничений существующих методов, включая зависимость от анализа отдельных кадров, уязвимость к видео низкого разрешения или сжатым видео, а также неспособность улавливать временные несоответствия. Кроме того, традиционные методы обнаружения лиц часто дают сбой в сложных условиях, таких как плохое освещение или окклюзия, а многие модели не справляются с тонкими манипуляциями из-за неадекватного извлечения признаков и переобучения на ограниченных наборах данных. Для устранения недостатков существующих подходов к обнаружению дипфейков в данном исследовании предлагается система обнаружения лиц и движений, которая объединяет как пространственную, так и временную информацию. Работа системы начинается с этапа предварительной обработки, на котором видеокадры извлекаются с фиксированной частотой для обеспечения временной согласованности. Области лица и детальные ориентиры точно определяются с помощью BlazeFace и MediaPipe Face Mesh. Затем эти признаки обрабатываются с помощью предлагаемой сети XceptionCapsule Net, которая сочетает в себе возможности извлечения пространственных признаков модели Xception с иерархическим и учитывающим ракурс представлением капсульных сетей (CapsNet), а также возможностью моделирования временных зависимостей двунаправленного слоя долгой краткосрочной памяти (BiLSTM). Архитектура включает в себя глобальный усредняющий пулинг, сглаживание и полносвязные слои с сигмоидной функцией активации для бинарной классификации. Обширные оценки на наборах данных FaceForensics++ (FF++) и Celeb-DF демонстрируют высокую производительность, достигая точности до 99,31% и площади под кривой (AUC) 99,99%. Результаты подтверждают эффективность, точность и обобщающую способность системы для видео различного качества и сценариев манипуляций.

Обнаружение дипфейков, XceptionCapsule Net, Face Mesh, BlazeFace, извлечение лицевых ориентиров, видеокриминалистика

Короткий адрес: https://sciup.org/14134532

IDR: 14134532 | DOI: 10.15622/ia.25.1.4