О некоторых подходах к машинному обучению сверточных нейронных сетей в задачах обработки аэрофотоизображений различных форматов представления

Бесплатный доступ

В представленной научной работе приведен один из подходов к решению задачи распознавания образов на массиве исходных данных аэрофотоснимков различного разрешения и форматов представления. На основе критического анализа существующего инструментария был выбран механизм сверточных нейронных сетей для решения задач классификации, детектирования, сегментации и анализа произошедших изменений с малой дискретностью изменений. Автором работы предложена программная реализация выбранного способа распознавания, в том числе с решением задач моделирования объектов реального мира на картографической основе.

Сверточные нейросети, распознавание образов, изображение

Короткий адрес: https://sciup.org/148325185

IDR: 148325185   |   DOI: 10.18137/RNU.V9187.22.04.P.120

Текст научной статьи О некоторых подходах к машинному обучению сверточных нейронных сетей в задачах обработки аэрофотоизображений различных форматов представления

В настоящий момент как в нашей стране, так и в мире в целом в рамках развития технологий диджитализации стремительно развивается отрасль цифровой идентификации физического мира. Данный тренд вызван необходимостью комплексного формирования взаимодействия в компьютерных аналитических системах на основе процедур с использованием цифровых образов.

Проблема идентификации различных предметов на цифровых описаниях весьма актуальна и востребована, особенно это касается сферы оценки и исследования изображений с аэрофотосъемок, так как до сих пор практически нет целостных машинных методов обработки изображений с применением различных способов деления для отождествления и установления местоположения объектов [1].

Для решения задач обработки изображений был разработан достаточно широкий спектр разнообразных математических алгоритмов – от элементарной граничной бина-

О некоторых подходах к машинному обучению сверточных нейронных сетей ...

Дзвинко Роман Валерьевич

ризации до использования алгоритмов Виолы – Джонса и диаграмм направленных градиентов [2; 3; 4].

Необходимо отметить, что сейчас все большую популярность в силу своих функциональных возможностей для решения подобных задач набирают различные типы нейронных сетей (например, многослойные и сверточные), которые созданы на теоретических основах разработанных в прошлом веке. Нейронные сети, реализованные в разных цифровых архитектурах, также могут решать такие задачи как нахождение разнотипных объектов при идентификации изображений, а также осуществлять их распознавание [5, 6].

Общеизвестно, что корнями нейронные сети уходят в такую науку, как биология, и по своей сути являются некими элементарными цифровыми аналогами мозга человека. Основа их функционирования построена на следующих принципах. Искусственная «нервная клетка» (математическая, цифровая) производит изменение направления сигналов со входа в сигнал выходной посредством скалярного умножения направления сигналов со входа на специфическое направление (вектор) называемое «вектором синаптических весов» этой цифровой клетки (нейрона) и дополнением к скалярному произведению показателя именуемого порогом подобного нейрона. После этого к полученному решению применяют своеобразную (по большей части нелинейную) функцию, называемую функцией активации нейрона.

Нейронная сеть многослойного характера

В нейронной сети многослойного характера различают следующие разновидности нейронов:

  • •    функционирующие на входе, назначение которых заключается в фиксации определенных исходных данных с внешней стороны, к примеру, это могут быть характеристики какого-либо объекта;

  • •    функционирующие на выходе, назначение которых заключается в возвращении устанавливаемых переменных, а именноданные об отнесении какого-либо объекта к определенному классу объектов;

  • •    нейроны переходного (промежуточного) характера, назначение которых заключается в исполнении вспомогательных функций в нейронной сети.

По своей архитектуре стандартная многослойная нейронная сеть включает в себяот двух и более слоев различных разновидностей нейронов, упомянутых выше. При этом необходимо сказать, что от второго слоя и далеелюбой нейрон непосредственно соединенс определенными, либо со всеми нейронами прошлых слов нейросети [7].

В свою очередь, такая разновидность, как сверточные нейронные сети,представляют собой логическое продолжение и совершенствование элементарного представителя нейронных сетей – многослойного персептрона. Данные сети применяются для обработки входящей информации (например, цифрового изображения с аэрофотосъемки), обладающей определенной топологией сетчатого характера.

Функционал сверточных нейронных сетей построен на объемной (пространственной) зависимости сигнала. Основными их достоинствами в вопросах решения задач по распознаванию объектов на изображениях, являются:

  • •    пространственное объединение;

  • •    использованиепространственно разделяемых весов.

Основной чертой рассматриваемых нейросетей является их большие функциональные возможности в вопросах исследования отличительных черт какой-либо информации, которые независимы (неизменны) от сдвига, то есть они представляют собой своеобразные фильтры необходимые для оптимальной обработки тех или иных изображений.

Их главным преимуществом над многослойными нейросетями является применение целостных общих весов в сверточных слоях, то есть для пикселя изображения в сверточном слое применяется один банк веса (фильтр) [1].

Непосредственно иллюстрация о том, что из себя представляет сверточная сеть, ее типичная архитектура приведена на Рисунке 1.

Рисунок 1. Архитектура сверточной сети для идентификации объектов: 1 – входные данные;

  • 2 –сверточный слой + нелинейность; 3 – объединяющий слой; 4 – линейный классификатор

Стандартная сверточная сеть включает в себя определенное количество пунктов (этапов). Каждый из них включает набор 2-мерных цифровых массивов информации, именуемых картами объектов, которые в свою очередь представляют собой результат обработки одного фильтра к целому цифровому образу [8].

В целом же алгоритм установления и распознавания какого-либо объекта сводится к тому, что, во-первых, нужно определить характерные черты объекта, во-вторых, сопоставить эти черты (особенности) с ключевыми характеристиками, полученными из различных пространственных площадей общего изображения.

Состав любого цифрового образа является совокупностью множества пикселей в виде матрицы с определенными величинами цветовой гаммы (R (Red) – красный, G (Green – зеленый), B (Bleu) – голубой), следовательно, обработка в данном случае тоже должна быть матричной.

Свертка каждой матрицы цифрового образа с различными матрицами фильтров отличается определенными особенностями. По функциональному алгоритму после каждой свертки создается слой. Затем после получения определенного комплекса функций реализуется процесс категоризации, результатом которого является получение функций, которые будут коррелировать с каким-либо слоем изучаемого объекта [9].

О некоторых подходах к машинному обучению сверточных нейронных сетей ...

После краткого рассмотрения сути, функционала и возможностей нейронных сетей необходимо перейти непосредственно к реализации главной цели настоящей научной работы.

Комплекс задач обработки аэрофотоизображений, в том числе нахождения объектов на изображении, включает в себя, как правило, задачи классификации, детектирования, семантической сегментации и анализа изменений [10–12].

Для решения задач указанных задач применяют решения, построенные на сверточных нейронных сетях (далее – СНС).

Системы машинного обучения, использующие СНС, обладают хорошей устойчивостью к изменениям масштаба, смещениям, поворотам, смене ракурса и прочим искажениям изображения.

Задача классификации объектов определяет класс объекта на изображении (например, класс «жилой дом», «самолеты», «транспортное средство» и др.)

Задача детекции объектов – это задача, в рамках которой необходимо выделить несколько объектов на изображении посредством нахождения координат ограничивающих рамок объекта и классификации этих ограничивающих рамок из множества заранее известных классов.

Задача семантической сегментации предназначена для точной классификации и сегментации каждого объекта, представленного на изображении. Семантическая сегментация позволяет программе полностью интерпретировать обрабатываемую сцену. Задача семантической является более сложной, чем задача классификации изображений и поиска объектов, что обусловлено не только необходимостью определения классов объектов, но и выявления их структуры, правильного выделения частей объектов на изображении.

Задача анализа изменений предполагает отображение изменений при проведении сравнения двух изображений, сделанных в разные временные промежутки.

Входными данными для обучения являются параметры обучения, задаваемые пользователем, в которые входят:

  • •    набор данных (изображения в разных форматах);

нейросеть для проведения обучения (выбирается из существующих в программе или создается);

  • •    количество эпох обучения;

  • •    критерии остановки обучения;

  • •    контрольная точка (при необходимости);

  • •    другие дополнительные параметры (выставляются по умолчанию либо настраиваются пользователем в программе).

Выходными данными являются:

  • •    контрольные точки обучения;

  • •    значения метрик обучения и валидации (значение функций потерь и точность, которые доступны к отображению на экране);

  • •    сообщения пользователю (доступны к отображению на экране).

Функция потерь определяет разницу между ожидаемым результатом (target) и результатом, полученным с помощью машинного обучения (prediction).

Для задач классификации могут быть использованы различные функции потерь, которые определяют качество обучения сети.

Функция потерь MAE – средняя абсолютная ошибка. Вычисляется модуль разницы между спрогнозированным значением (predict) и желаемым результатом (target), затем эти значения усредняются:

MAE =

n nE|yi -yi ’

i = 1

где n – количество спрогнозированных значений; yi спрогнозированное значение; yi желаемый результат.

Функция потерь MSE рассчитывает среднюю квадратичную ошибку между спрогнозированным значением и желаемым результатом: n

Список литературы О некоторых подходах к машинному обучению сверточных нейронных сетей в задачах обработки аэрофотоизображений различных форматов представления

  • Нгуен В.Ч. Разработка алгоритмов распознавания объектов воздушной съемки на основе сверточных нейронных сетей с иерархическим классификатором: дис. … канд. техн. наук: 05.13.01. М., 2022. 134 с.
  • Qiang Chen, Quan-sen Sun, Pheng Ann Heng, De-shen Xia (2008) A double-threshold image binarization method based on edge detector. Pattern Recognition, 41:4, 1254–1267.
  • Pitkanen J. (2001) Individual tree detection in digital aerial images by combining locally adaptive binarization and local maxima methods. Canadian Journal of forest research, 31:5, 832–844.
  • Rosebrock A. (2015) Histogram of Oriented Gradients and Object Detection (Retrieved August 31, 2015). Available at: http://www.pyimagesearch.com/2014/11/10/histogramoriented-gradientsobject-detection (date of the application: 01.12.2022).
  • Hinton G.E., Srivastava N. (2012) Improving neural networks by preventingco-adaptation of feature detectors, 2012. Available at: https://arxiv.org/abs/1207.0580 (date of the application: 01.12.2022).
  • Cheng G., Zhou P., Han J.(2016) Learning rotation-invariant convolutional neural networks for object detection in VHR optical remote sensing images. IEEE Transactions on Geoscience and Remote Sensing, 54:12, 7405–7415.
  • Ranka S., Mohan C., Mehrotra K., Menon A.(1996) Characterization of a class of sigmoid functions with applications to neural networks. Neural Networks, vol. 9, pp. 819–835.
  • Каунг М.С., Абрамов Ю.А., Гинзгеймер С.А. Сверточные нейронные сети в задачах глубокого обучения // Международный студенческий научный вестник. 2018. № 5. URL : https://eduherald.ru/ru/article/view?id=18951 (дата обращения: 01.12.2022).
  • Кыонг Н.Т., Сырямкин В.И., Тхуи Н.Ч.Х. Модель метода распознавания объектов на изображениях с использованием сверточной нейронной сети CNN // Современные наукоемкие технологии. 2020. № 12. С. 269–280.
  • Боровская Е.В., Давыдова Н.А. Основы искусственного интеллекта: учеб. пособие. М.: Лаборатория знаний, 2020. 130 с.
  • Остроух А.В. Введение в искусственный интеллект: монография. Красноярск: Научно-инновационный центр, 2020. 250 с.
  • Родзин С.И. Системы искусственного интеллекта: учеб. пособие. Таганрог: ИКТИБ ЮФУ, 2015. 177 с.
  • Спирин И.А. Разработка информационного обеспечения автоматизированной системы обнаружения объектов на изображении // Молодой ученый. 2017. № 4 (138). С. 61–64.
Еще
Статья научная