Методы удаления нежелательных объектов с изображений аэрофотосъемки с использованием итерационного подхода

Автор: Строй О.А., Буряченко В.В.

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Информатика, вычислительная техника и управление

Статья в выпуске: 3 т.22, 2021 года.

Бесплатный доступ

Удаление объектов с изображений относится как к задачам, позволяющим улучшить качество изображения, например, в области восстановления поврежденных фотографий, так и к задачам повышения безопасности при удалении людей или автомобилей при обработке изображений аэрофотосъемки. При этом методы удаления нежелательных объектов обычно включают в себя два этапа: выделение объектов для удаления и восстановление текстуры на участках изображения. Первый этап может выполняться вручную пользователями, если необходимо выделить конкретные объекты, либо автоматически путем обучения модели на различных классах объектов. Задача восстановления изображения в процессе исследований решалась различными методами, основной из которых включает использование значений соседних пикселов для отрисовки в удаленных областях. В последние годы хорошие результаты показывают методы с применением глубокого обучения на основе сверточных и генеративных нейронных сетей. Целью работы является разработка метода удаления объектов с изображений аэрофотосъемки с выделением объектов вручную и отрисовкой текстуры в обрабатываемой области. В работе выполнен обзор современных методов восстановления изображений, среди которых наиболее перспективным является использование сетей глубокого обучения, а также анализ текстуры в восстанавливаемой области. Предложенный алгоритм основан на итерационном подходе при анализе соседних областей и постепенном закрашивании восстанавливаемой области текстурой с соседних пикселов с учетом веса и контуров границ. В статье выполнена оценка эффективности предложенного метода с использованием базы видеопоследовательностей, полученных с квадрокоптеров и содержащих людей и природные объекты. При этом проводилась как экспертная оценка, которая показала хорошие визуальные результаты, так и сравнение качества работы алгоритма с известными подходами по метрике PSNR, которая показала лучшие результаты при наличии сложной текстуры в сцене.

Еще

Image inpainting, восстановление изображений, дистанционное зондирование земли, генеративные нейронные сети, текстурный анализ

Короткий адрес: https://sciup.org/148323913

IDR: 148323913 | DOI: 10.31772/2712-8970-2021-22-3-468-477

Текст научной статьи Методы удаления нежелательных объектов с изображений аэрофотосъемки с использованием итерационного подхода

Дистанционное зондирование Земли (ДЗЗ) и обработка изображений аэрофотосъемки с беспилотных летательных аппаратов является незаменимым инструментом изучения и мониторинга планеты, помогающим эффективно управлять её ресурсами [1]. Использование данных ДЗЗ позволяет обеспечить безопасность и эффективность добычи природных ресурсов, предупредить чрезвычайные ситуации и устранять их последствия, а также помочь с обеспечением охраны окружающей среды и контроля над изменением климата.

Изображения, получаемые при аэрофотосъемке, находят применение во многих отраслях – сельском хозяйстве, геологических и гидрологических исследованиях, лесоводстве, охране окружающей среды, планировке территорий, образовательных, разведывательных и в военных целях. Системы ДЗЗ позволяют за короткое время получить необходимые данные с больших площадей (в том числе труднодоступных и опасных участков). Однако чаще всего эти снимки нуждаются в предварительной обработке для более точной интерпретации данных. В частности, существует необходимость удаления с них нежелательных объектов, таких как облака.

В данной работе рассматриваются особенности удаления объектов с изображений при аэрофотосъемке, что может быть необходимо для задач обеспечения безопасности, повышения качества анализа данных и в художественных целях. В работе предложен алгоритм, основанный на выделении объектов и использовании итерационного подхода для удаления выделенного объекта и восстановления участков изображения путем закрашивания части областей взвешенным значением с соседних пикселов.

Обзор литературы

Задачу удаления объектов со снимков аэрофотосъемки можно решать несколькими методами, в том числе и с использованием нейронных сетей. Например, простейший метод сегментации, метод порогового значения, часто используется для сегментирования изображений, состоящих из ярких объектов на тёмном фоне или наоборот. Таким образом можно обнаружить, например, облака на входном изображении. Чтобы изображение сегментировалось правильно, следует выбирать адаптивный порог, рассчитывающийся отдельно для разных областей изображения, тогда будет возможно обрабатывать изображения с сильным градиентом освещения и неравномерным из-за плохих условий освещения фоном. Кроме того, необходимо учесть, что в случае неравномерного освещения эффективность метода уменьшается и требуется разделить изображение на подобласти, каждая со своим пороговым значением, чтобы избежать снижения эффективности метода [2].

Другой подход использует современные архитектуры сверточных нейронных сетей. В декабре 2015 г. была представлена новая архитектура нейронных сетей – ResNet , которую легче оптимизировать и точность классификации которой повышается за счёт значительного увеличения глубины; при этом обучать её легче [3]. В ней заложены достаточно простые идеи: подаются выходные данные двух успешных свёрточных слоёв и обходятся входные данные для следующего слоя [4]. Схема архитектуры представлена на рис. 1.

Рис. 1. Архитектура ResNet

Fig. 1. ResNet architecture

ResNets используют соединения по кратчайшему пути: операции, которые пропускают некоторые уровни для передачи информации в нижние части сети, что действует как прямой путь для информационного потока. В исходном случае ResNet -соединение быстрого доступа выполняет аддитивное отображение сигнала, то есть входное состояние остаточного блока добавляется к выходным данным обойденных слоев.

Методы обнаружения более сложных объектов на изображениях могут охватывать несколько различных подходов, таких как ручное выделение границ объекта, после чего алгоритм уточняет контуры объекта автоматически, либо автоматическое выделение различных типов объектов с использованием интеллектуальных подходов, таких как нейронные сети для выделения регионов (R-CNN). Например, авторы R. Girshick, J. Donahue, T. Darrell и Jitendra Malik описывают систему обнаружения объектов, состоящую из трёх модулей. Первый модуль генерирует независящие от категорий предложения регионов. Эти предложения определяют набор возможных обнаружений, доступных детектору. Второй модуль – это большая сверточная нейронная сеть, которая извлекает вектор признаков фиксированной длины из каждой области. Третий модуль представляет собой набор линейных SVM определенного класса [6]. Алгоритм выборочного поиска, предложенный авторами J. Uijlings, K. van de Sande, T. Gevers и A. Smeulders [7], работает, генерируя подсегменты изображения, которые могут принадлежать одному объекту – на основе цвета, текстуры, размера и формы – и итеративно комбинируя похожие области для формирования объектов. Это дает «объектные предложения» разного масштаба. Конвейер R-CNN не зависит от алгоритма предложения региона. Авторы используют алгоритм выборочного поиска для создания 2000 предложений по категориям независимых регионов (обычно обозначенных прямоугольными областями или «ограничивающими рамками») для каждого отдельного изображения.

После удаления определенного объекта на изображении остается пустая область, которую необходимо заполнить информацией таким образом, чтобы качество изображения не ухудшилось. Задача восстановления изображения ( Motion Inpainting ) является одной из самых известных в области цифровой обработки изображений. Первоначально использовались подходы, связанные с дополнением содержимого на основе значений соседних пикселов, для чего использовались методы билинейной и бикубической интерполяции [8]. К наиболее современным подходам относится использование сверточных и генеративных нейронных сетей.

В 2017 г. авторами C. Burlin, Le Callonec и L. Duperier был предложен подход восстановления небольших изображений из набора данных CIFAR 10, основанный на применении автоэнко-деров и генеративных адаптивных нейронных сетей. Они предложили новую модель Flattened Row LSTM , которая продемонстрировала высокую эффективность и устойчивость, а также соответствие восстановленных изображений исходным данным с точки зрения пользователя [9].

V. Chandak, P. Saxena, M. Pattanaik и G. Kaushal использовали архитектуру генеративных адаптивных нейронных сетей Вассерштейна для создания своей модели. Расстояние Вассер-штейна – мера расстояния между двумя распределениями вероятностей – было использовано в качестве функции потерь для обучения генератора. Предложенную методологию можно разделить на три этапа. Сначала происходит предварительная обработка данных из набора CelebA , затем модель на основе генеративных адаптивных нейронных сетей Вассерштейна заполняет недостающие пикселы на изображении. При генерации неизбежно появление шумов, поэтому третий этап заключается в пропускании получившегося изображения через нейросеть для его дальнейшего улучшения. Данный подход позволяет повысить отношение пикового сигнала к шуму и индекс структурного сходства на 2,45 и 4 % соответственно по сравнению с применяемыми в последнее время подходами, однако в данной методологии обучение сильно зависит от данных, используемых для тренировки [10].

В 2018 г. G. Liu, F. A. Reda, K. J. Shih, T. Wang, A. Tao и B. Catanzaro разработали модель, которая использует операции частичной свертки с накоплением и пошаговым обновлением маски для наилучшей отрисовки изображения. Данная модель может достаточно качественно работать с отверстиями любой формы, размера, расположения или расстояния от границ изображения. При увеличении размера отверстия не происходит критического ухудшения производительности, что также является достоинством модели [11].

В январе 2020 г. авторы Yi Jiang, Jiajie Xu, Baoqing Yang, Jing Xu и Junwu Zhu также использовали автоэнкодеры и генеративные адаптивные нейронные сети, добавив пропускное соединение для решения проблемы исчезновения градиента. Предложенная ими модель состоит из генератора и двух дискриминаторов. При тестировании на наборах данных CelebA и LWF модель продемонстрировала более высокие результаты по метрикам PSNR и SSIM в сравнении с такими моделями как FMM, GLCIC и DIP [12].

Ключевой особенностью методов восстановления изображений, основанных на глубоком обучении, является способность к восстановлению отсутствующих данных, которые алгоритм получает на основе обучения на ряде примеров, в результате чего качество и реалистичность таких подходов оказывается гораздо выше в сравнении с классическими методами.

Метод восстановления изображений аэрофотосъемки

Предлагается использовать модифицированный метод восстановления изображений, известный как метод Telea , а также метод Навье – Стокса. Рассмотрим этапы работы данных алгоритмов более подробно.

Метод Telea основан на методе быстрого перехода ( Fast Marsh Method ). Зарисовка области начинается с её границы и постепенно идёт внутрь, закрашивая пиксель нормализованной взвешенной суммой всех пикселей в окрестности. Важен правильный выбор веса: наибольший вес придаётся пикселям, лежащим рядом с точкой рядом с нормалью границы, и пикселям, лежащим на контурах границы. Как только пиксель окрашен, происходит перемещение к следующему методом быстрого перехода, который контролирует, чтобы сначала окрашивались пиксели рядом с уже окрашенными.

На рис. 2 представлена схема метода Telea . Нужно зарисовать точку p , расположенную на границе д Q области окраски Q. Для этого необходимо взять небольшую окрестность точки p, равную е , множество пикселей которой обозначено как B _е ( p ). Окрашивание p должно определяться значениями известных точек-соседей, которые принадлежат B _е ( p ).

Рис. 2. Принцип зарисовки изображения

Fig. 2. Image inpainting principle

Для достаточно малых значений е рассматривается первый порядок аппроксимации изображения I_q ( p ) в точке p , учитывая изображение I ( q ) и градиент V I ( q ) значений в точке q :

Iq (p ) = I (q ) + V I (q)(p - q).

Затем точка p определяется как функция всех точек q во множестве В _е ( p ), суммируя оценки всех точек q , взвешенные с помощью нормировочной функции w ( p , q ):

, . Е q e б_£ ( p ) w ⁽ p , q ⁾⁽ I ⁽ q ^)+V I ⁽ q ⁾⁽ p ^- q ) )

I(p )= —v-----7—a-------. (2)

^Е q e B e ( p ) w ⁽ p , q )

Далее необходимо итеративно применять формулу (2) ко всем дискретным пикселям 5 О по мере увеличения расстояния от начального положения и продвигать границу внутри области Ω до тех пор, пока она вся не будет закрашена [13].

Алгоритм Навье – Стокса основан на гидродинамике и использует уравнения в частных производных. Основной принцип – эвристический. Сначала алгоритм перемещается по краям из известных областей в неизвестные (поэтому края должны быть непрерывными). Он продолжает изофоты (линии, соединяющие точки с одинаковой интенсивностью, точно так же, как контуры соединяют точки с одинаковой высотой), при этом сопоставляя векторы градиента на границе области рисования. Для этого используются некоторые методы из гидродинамики. После их получения происходит заполнение цветом, чтобы уменьшить минимальную дисперсию в этой области.

Пусть Ω – область, которую нужно восстановить из окружающих данных, а I 0 – интенсивность изображения, предположительно являющаяся гладкой функцией (возможно, с большими градиентами), вне области О. Известны I 0 и A ₀ на границе 5 О. Далее метод Навье - Стокса адаптирован из области гидродинамики для отрисовки изображений, сопоставления представлены в табл. 1.

Таблица 1

Метод Навье – Стокса для зарисовки изображений

Метод Навье – Стокса	Отрисовка изображений
Функция потока Ψ	Интенсивность изображения I
Скорость жидкости v = V¹ Y	Направление изофоты V¹ 1
Завихренность w = A Y (A - оператор Лапласа)	Гладкость w = A I
Вязкость жидкости v	Анизотропная диффузия v

Уравнение переноса завихренности относительно w решается по формуле (3)

— + v • V w = v V • (g (| V w |Y) V w, dt где функция g учитывает анизотропную диффузию гладкости w. Интенсивность изображения I, определяющая поле скорости v = V1 I в формуле (3), восстанавливается одновременным решением задачи Пуассона

^V i = w , I | _sn = 1 ₀. (4)

Работа алгоритма начинается с вычисления завихренности w по изображению I , используя данные об окружении для определения граничной завихренности. Затем развертывается форма потока завихренности (3) с использованием простого шага Эйлера, с центрированными разностями в пространстве для диффузии и методом minmod для конвекционного срока.

После первого шага (3) вычисляется интенсивность изображения I путём решения уравнения Пуассона (4) с использованием итерационного метода Якоби. Для этого обновлённого значения пересчитывается w и алгоритм повторяется. Каждые несколько шагов выполняется анизотропная диффузия на I , что помогает точнее определить границы. Устойчивое состояние достигается после N итераций этого цикла, обычно N = 300 [14].

Экспериментальные исследования

Эффективность работы алгоритма восстановления изображений исследовалась с использованием базы данных, полученной с беспилотных летательных аппаратов при различных условиях съемки [15]. База включает в себя 12 видеопоследовательностей длительностью более

3000 кадров различных объектов в Швейцарии, полученных с использованием дрона DJI Mavic Pro , и позволяет оценить качество различных алгоритмов повышения качества видеопоследовательностей, отслеживания движения и обнаружения объектов (табл. 2).

Описание базы видеопоследовательностей

Таблица 2

Название	Разрешение	Количество кадров	Скриншот	Характеристика
Berghouse Leop-ard.mp4	1280×720	1073	-, _v	Сложное движение камеры, нелинейная текстура, наличие объектов переднего плана
Bluemlisal Fly-over.mp4	1280×720	957		Сложное движение камеры, простая текстура, нет движущихся объектов
Creux du Van Flight.mp4	1280×720	1196	l^8ll^8^^1	Сложное движение камеры, многоплановая сцена, нелинейная текстура
DJI_0501.mov	3840×2160	232		Круговое движение камеры, наличие статичного объекта переднего плана, переменное освещение
DJI_0574.mov	3840×2160	928		Линейное движение камеры, нелинейная текстура, наличие движущихся объектов переднего плана, масштабирование
DJI_0596.mov	3840×2160	1015		Линейное движение камеры, простая текстура, наличие движущихся объектов переднего плана

Оценка эффективности алгоритма восстановления изображения выполнялась в сравнении с известными подходами на основе текстурных методов и глубокого обучения в задаче удаления объектов с изображений аэрофотоснимков. На рис. 3 представлены результаты восстановления изображений при помощи различных методов, а также сравнение качества по метрике PSNR (5), где оценивалась разница между исходным изображением (рис. 3, а ) и изображением, с которого удалены выбранные пользователем объекты (рис. 3, б ).

PSNR = 10log₁₀

^ max( I ( i , j )) 2 MSE

Значение MSE между оригинальным и восстановленным изображением рассчитывается по выражению (6)

MSE =

m x n

ZZ ( I ( i , j ) - I w ( i , j ) ) 2 , i = 1 j = 1

где m , n – ширина и высота изображения; I – исходный кадр; I w – восстановленный кадр.

Большинство известных методов при попытке удалить объект переднего плана порождает заметные артефакты в соответствующей области, особенно при наличии сложной текстуры.

Оценка качества показывает хорошие результаты метода Amle [16] при условии простой текстуры в области восстановления. Лучшие результаты при наличии сложной текстуры показывает предлагаемый метод с использованием генеративных нейронных сетей (рис. 3, д ).

а б в г д

Рис. 3. Примеры восстановления изображений с применением различных методов:

а – оригинальное изображение; б – маска выделения объектов для удаления; в – метод восстановления изображений Absolute Minimizing Lipschitz Extension Inpainting [16]; г – метод восстановления изображений Transport [17]; д – предложенный метод восстановления изображений

Fig. 3. Examples of image restoration using various methods: a – original image; b – mask for selecting objects for deletion; c – method of image restoration Absolute Minimizing Lipschitz Extension Inpainting [16];

d – Transport image recovery method [17]; e – proposed method

Предлагаемый метод показывает хорошие визуальные результаты, при этом качество сильно зависит от сложности текстур и количества связанных пикселов в области восстановления.

Заключение

В работе предложен модифицированный метод восстановления изображений с использованием итерационного подхода, позволяющий удалять нежелательные маскированные объекты, такие как люди, облака или автомобили, с изображений аэрофотосъемки и получать визуально качественные результаты. Выполнена оценка качества работы системы на основе анализа значений PSNR и визуального сравнения качества результатов с исходными данными. Предложенный метод может надежно обрабатывать искажения любой формы, размера, расположения или расстояния от границ изображения. Кроме того, производительность незначительно ухудшается по мере увеличения размера отсутствующих областей.

Проведенные эксперименты показывают, что для дальнейшего повышения качества восстановления изображения необходимо учитывать текстурированность области и использовать материалы для обучения с учетом содержащегося контента. В современных исследованиях для решения задач восстановления поврежденных изображений в областях со сложной текстурой предлагается использовать сверточные генеративные нейронные сети. Таким образом, высокую эффективность в решении проблемы удаления нежелательных объектов с изображений, в частности, людей со снимков ДЗЗ, демонстрируют методы с применением нейронных сетей. Сравнительно недавно представленная архитектура нейронных сетей ResNet с остаточным обучением имеет широкий потенциал к использованию в данной области.

Список литературы Методы удаления нежелательных объектов с изображений аэрофотосъемки с использованием итерационного подхода

Дистанционное зондирование Земли - Госкорпорация «Роскосмос» [Электронный ресурс]. URL: https://www.roscosmos.ru/24707/ (дата обращения: 10.09.2020).
Исследование метода синтеза текстур изображений поверхности земли на основе нейронной сети / Ибадов Р. Р., Федосов В. П., Воронин В. В. и др. // Известия ЮФУ. Технические науки. 2019. № 5 (207). [Электронный ресурс]. URL: https://cyberleninka.ru/article/n/issledovanie-metoda-sinteza-tekstur-izobrazheniy-poverhnosti-zemli-na-osnove-neyronnoy-seti (дата обращения: 11.09.2020).
Cornell University [Электронный ресурс]. URL: https://arxiv.org/abs/1512.03385 (дата обращения: 16.09.2020).
Архитектуры нейросетей / Блог компании NIX / Хабр [Электронный ресурс]. URL: https://habr.com/ru/company/nix/blog/430524 (дата обращения: 12.09.2020).
Cloudremoval in Sentinel-2 imagery using a deep residual neural network and SAR-optical data fusion / Meraner A., Ebel P., Xiang Zhu X. et al. // ISPRS Journal of Photogrammetry and Remote Sensing. 2020. Vol. 166. P. 333-346 [Электронный ресурс]. URL: https://www.sciencedirect.com/ science/article/pii/S0924271620301398 (дата обращения: 10.09.2020).
Girshick R. et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. 2014 IEEE Conference on Computer Vision and Pattern Recognition, 2014. Р. 580-587.
Selective Search for Object Recognition / Uijlings J. R. R. et al. // International Journal of Computer Vision. 2013. No. 104.2. P. 154-171.
Getreuer P. Linear methods for image interpolation // Image Process Line. 2011. Vol. 1. P. 238-259.
Charles Burlin, Yoann Le Calonnec and Louis Duperier. Deep Image Inpainting [Электронный ресурс]. URL: http://cs231n.stanford.edu/reports/2017/pdfs/328.pdf (Дата обращения 05.03.2021).
Semantic image inpainting with perceptual and contextual losses. Computer Vision and Pattern Recognition arXiv: 1607.07539 / Yeh R., Chen C., Lim T. Y. et al. 2016.
Image Inpainting for Irregular Holes Using Partial Convolutions. Computer Vision and Pattern Recognition arXiv preprint arXiv: 1804.07723 / Liu G., Reda F. A., Shih K. J. et. al. 2018.
Image Inpainting Based on Generative Adversarial Networks / Y. Jiang, J. Xu, B. Yang, Junwu Zhu // IEEE Access. 2020. Vol. 8. P. 22884-22892.
Telea A. An Image Inpainting Technique Based on the Fast Marching Method // Journal of Graphics Tools. 2004. Vol. 9. P. 23-34.
Bertalmio M., Bertozzi A., Sapiro G. Navier-Stokes, fluid dynamics, and image and video inpainting // Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2001. Vol. 1. P. 355-362.
Drone Videos DJI Mavic Pro Footage in Switzerland [Электронный ресурс]. URL: https://www.kaggle.com/kmader/drone-videos (дата обращения 05.05.2021).
Almansa A. Echantillonnage, interpolation et detection: applications en imagerie satellitaire (Doctoral dissertation, Cachan, Ecole normale superieure). 2002.
Bertalmio M. Processing of flat and non-flat image information on arbitrary manifolds using partial differential equations. PhD Thesis, 2001.

Еще

Статья научная