Семантическая сегментация гиперспектральных изображений с использованием сверточных нейронных сетей и механизма внимания

Автор: Грибанов Д.Н., Мухин А.В., Килбас И.А., Парингер Р.А.

Журнал: Компьютерная оптика @computer-optics

Рубрика: Обработка изображений, распознавание образов

Статья в выпуске: 6 т.48, 2024 года.

Бесплатный доступ

В работе исследуется влияние механизма внимания на точность сегментации гиперспектральных изображений сверточными нейронными сетями в области агрокультуры. Проведено исследование, в котором сравниваются две вариации нейросетевых архитектур: с использованием механизма внимания и без. Механизм внимания был реализован в виде двух модулей: позиционный и канальный. Позиционный модуль учитывает глобальный контекст, используя информацию о пространственной области всего изображения. Канальный модуль, в свою очередь, учитывает информацию всех спектральных компонент. Для проведения сравнительного исследования использовались архитектуры L2Net и U-Net. Были разработаны модифицированные версии с добавлением механизма внимания: L2AT-Net и ULAT-Net. Результаты экспериментов показали, что добавление механизма внимания в архитектуры U-Net и L2Net позволило повысить среднее значение метрики F1 с 0,80 до 0,83 и с 0,74 до 0,78 соответственно. Результаты исследования показывают, что применение механизма внимания позволяет повысить качество семантической сегментации гиперспектральных изображений.

Еще

Семантическая сегментация, механизм внимания, гиперспектральные данные, нейронные сети, машинное обучение.

Короткий адрес: https://sciup.org/140310416

IDR: 140310416   |   DOI: 10.18287/2412-6179-CO-1371

Semantic segmentation of hyperspectral images using convolutional neural networks and the attention mechanism

This paper investigates an effect of the attention mechanism on the accuracy of hyperspectral image segmentation by convolutional neural networks in agriculture. The study compares two modifications of neural network architectures: with and without the attention mechanism. The attention mechanism is implemented as two modules: position-based (PAM) and channel-based (CAM). The positional module (PAM) considers the global context using information about the spatial domain of the whole image. The channel module (CAM) in turn takes into account the information of all spectral components. L2Net and U-Net architectures are used for a comparative study. Modified versions with the addition of the attention mechanism are developed: L2AT-Net and ULAT-Net. The experimental results show that adding the attention mechanism to the U-Net and L2Net architectures increases the mean value of the F1 metric from 0.80 to 0.83 and from 0.74 to 0.78, respectively. The results show that the application of the attention mechanism can improve the quality of semantic segmentation of hyperspectral images.

Еще