Исследование и разработка стратегии маскирования изображений для повышения эффективности масочного автоэнкодера
Автор: Килина М.Л., Буряк Д.Ю.
Журнал: Сетевое научное издание «Системный анализ в науке и образовании» @journal-sanse
Рубрика: Моделирование и анализ данных
Статья в выпуске: 1, 2025 года.
Бесплатный доступ
Работа посвящена проблеме повышения эффективности масочного автоэнкодера за счет разработки стратегии маскирования изображений, которая учитывала бы расположение объектов на изображении и позволяла бы скрыть как можно меньше семантически важной информации. В статье представлен обзор существующих методов маскирования изображений, включая стратегии как с учетом, так и без учета структуры изображения. Предложена стратегия наложения масок на основе алгоритма поиска объектов, анализирующего элементарные характеристики фрагментов изображений. Исследование проводится на примере масочного автоэнкодера с ViT в качестве энкодера. Сравнивается эффективность обучения энкодера с использованием предложенной стратегии и с использованием стратегии случайного маскирования изображений.
Нейронные сети, глубокое обучение, обучение с самоконтролем, моделирование маскированного изображения, модель vit, масочный автоэнкодер
Короткий адрес: https://sciup.org/14133456
IDR: 14133456 | УДК: 004.85
Research and development of image masking strategy to improve masked autoencoder efficiency
The paper is devoted to the problem of improving the efficiency of masked autoencoder by developing an image masking strategy that considers the object localization in the image and hides as little semantically important information as possible. The article provides an overview of existing methods for masking images, including both considering and not considering the image structure strategies. A masking strategy based on an object detection algorithm that analyzes the elementary characteristics of image fragments is proposed. The study is carried out on the example of masked autoencoder having ViT as an encoder. The efficiency of training the encoder using the proposed strategy and using the random masking strategy is compared.