Гибридная архитектура трансформера и свёрточной нейронной сети с многомасштабным механизмом деформируемого внимания в задаче семантической сегментации
Автор: Р.Р. Отырба, А.А. Сирота
Журнал: Компьютерная оптика @computer-optics
Рубрика: Обработка изображений, распознавание образов
Статья в выпуске: 1 т.50, 2026 года.
Бесплатный доступ
Предложена гибридная архитектура нейронной сети SegTwice для решения задачи семантической сегментации, которая сочетает в себе преимущества трансформеров и свёрточных нейронных сетей в рамках общей структуры кодер-декодер. Представлена оригинальная архитектура кодирующей сети TWICE-DA с иерархической структурой из четырех уровней. Вводятся и обосновываются новые архитектурные решения в блоках трансформера, имеющие отличие от известных аналогов. К ним относятся: модуль многомасштабного восприятия, модуль канального внимания, модуль деформируемого внимания и модуль свёрточной сети прямого распространения. Для задачи классификации изображений проведены эксперименты с целью оценки эффективности извлечения признаков TWICE-DA на разных по сложности наборах данных. Показано, что TWICE-DA демонстрирует высокое качество, превосходя большинство современных моделей по точности и вычислительной сложности. Осуществлена интеграция TWICE-DA в структуру сети семантической сегментации путём добавления легковесного MLP-декодера, что в итоге позволило реализовать заявленную архитектуру SegTwice. Эксперименты, проведённые на типовых аэрокосмических наборах данных LoveDA и Potsdam, показали, что предложенная сеть SegTwice демонстрирует конкурентоспособные показатели и не уступает в точности традиционным моделям и современным трансформерам, а в некоторых случаях превосходит их. Важно отметить, что SegTwice обучалась «с нуля», без предварительного обучения на больших наборах данных, что свидетельствует о её устойчивости к переобучению в условиях ограниченного объёма данных.
Компьютерное зрение, семантическая сегментация, глубокие нейронные сети, свёрточные нейронные сети, трансформеры, механизм внимания
Короткий адрес: https://sciup.org/140314077
IDR: 140314077 | DOI: 10.18287/COJ1686
Hybrid architecture of transformer and convolutional neural network with a multi-scale deformable attention mechanism for semantic segmentation task
A hybrid neural network architecture, SegTwice, is proposed for the semantic segmentation task. It combines the strengths of transformers and convolutional neural networks within a unified encoder-decoder framework. The original architecture of the encoding network, TWICE-DA, is presented, featuring a hierarchical structure with four levels. New architectural solutions are introduced and justified within the transformer blocks, which differ from known analogs: a multi-scale perception unit, a channel attention module, a deformable attention module, and a convolutional feedforward network module. Experiments on image classification tasks were conducted to assess the feature extraction effectiveness of TWICE-DA on datasets of varying complexity. It is shown that TWICE-DA demonstrates high quality, outperforming most modern models in terms of accuracy and computational complexity. The integration of TWICE-DA into the semantic segmentation network structure is achieved by adding a lightweight MLP decoder, ultimately realizing the SegTwice architecture. Experiments conducted on standard aerospace datasets, LoveDA and Potsdam, revealed that the proposed SegTwice network demonstrates competitive performance, matching traditional models and modern transformers in accuracy, and in some cases, outperforming them. Notably, SegTwice was trained "from scratch" without pre-training on large datasets, highlighting its resilience to overfitting in scenarios with limited data.