Применение свёрточных нейронных сетей при дешифрировании спутниковых данных для решения отдельных лесохозяйственных задач: аналитический обзор

Автор: Сидоренков В.М., Мартынюк А.А., Ачиколова Ю.С., Серёжкин А.В., Аваков Я.А., Капиталинин Д.Ю.

Журнал: Лесохозяйственная информация @forestry-information

Рубрика: Геоинформационные технологии

Статья в выпуске: 4, 2025 года.

Бесплатный доступ

Представлены общие сведения о принципах работы, структуре и основных видах свёрточных нейронных сетей (СНС), об их обучении и оптимизации. Показаны основные метрики, используемые для оценки интерпретации результатов работы моделей СНС. Описаны наиболее распространённые архитектуры свёрточных нейронных сетей применительно к решению практических задач по классификации и сегментации изображений, обнаружению объектов. Приведены примеры использования свёрточных нейронных сетей для дешифрирования данных дистанционного зондирования Земли при решении практических задач по оценке изменений лесного покрова, лесотаксационных показателей и состояния насаждений при воздействии различных факторов.

Еще

Лесное хозяйство, искусственный интеллект, компьютерное зрение, свёрточные нейронные сети, динамика лесного покрова, пожары, состояние насаждений, лесопатологический мониторинг

Короткий адрес: https://sciup.org/143185194

IDR: 143185194   |   УДК: 630.2   |   DOI: 10.24419/LHI.2304-3083.2025.4.07

Текст научной статьи Применение свёрточных нейронных сетей при дешифрировании спутниковых данных для решения отдельных лесохозяйственных задач: аналитический обзор

Лесное хозяйство на современном этапе развития требует регулярной и детальной информации о лесных насаждениях, включая породный состав, пространственную структуру, запас древесины, состояние и степень антропогенного воздействия и другие показатели. Параллельно растёт спрос на геопривязанную информацию, способствующую повышению эффективности использования ресурсов, в частности разномасштабное прогнозирование в области защиты лесов, охраны их от пожаров, использования и воспроизводства. В отношении всех этих задач и требований дистанционное зондирование Земли (ДЗЗ) постоянно выступает в качестве ключевой технологии, позволяющей выявить как пространственные, так и временны́е характеристики лесов.

В последние десятилетия технологические достижения привели к росту доступности данных ДЗЗ, раскрывающих структуру растительности. Новые платформы дистанционного зондирования, такие как совокупность микроспутников или беспилотные летательные аппараты (БПЛА), позволяют наблюдать за растительным покровом с высоты птичьего полёта с постоянно растущей пространственной детализацией. Радар с синтезированной апертурой (SAR), а также наземное или воздушное лазерное сканирование позволяют запечатлеть трёхмерную структуру многослойных пологов [1]. Вместе с тем расширение возможностей ДЗЗ сопровождается рядом проблем, таких как увеличение объёмов данных и вычислительных нагрузок, разнообразие структуры данных с растущей размерностью (пространственной, временн о й, спектральной) и сложными взаимосвязями, что требует эффективных, точных и гибких методов обработки и анализа информации.

Наравне с ДЗЗ мощное развитие получили технологии компьютерного зрения, основанные на принципах искусственного интеллекта, позволяющие компьютерам анализировать изображения и видео, распознавать закономерности и извлекать значимую информацию из снимков, предоставляемых с помощью детекторов (камер, датчиков) космических спутников. В основе компьютерного зрения лежат нейронные сети (НС) как математические модели, которые после обучения на больших объёмах данных способны обрабатывать изображения в пикселях снимков, идентифицируя объекты и распознавая закономерности их изменения. В то же время классические нейронные сети не всегда качественно решали задачи по обработке изображений, которые, как правило, состоят из большого количества пикселей, что требовало создания громоздких, сложно обучаемых НС с большим количеством нейронов и связей. Кроме того, такие нейронные сети не учитывали структуру изображений, пространственную взаимосвязь объектов и их составных частей, что также снижало их потенциальные возможности [2]. Как свидетельствуют научные источники, в 1998 г. был разработан тип нейронных сетей, предназначенных для обработки больших массивов изображений со спутниковых снимков, получивших название свёрточных нейронных сетей, или СНС (англ. Convolutional Neural Networks, CCN), которые благодаря более точному решению обратных задач дистанционного зондирования, классификации изображений, распознаванию образов и детектированию объектов в изображениях позволяют извлечь важную дополнительную информацию из обрабатываемых данных, открывая новые возможности в дистанционном зондировании лесной растительности [3]. Свёрточные нейросети относятся к нейронным сетям третьего поколения, появление которых связано с созданием К. Фукушимой биологически мотивированной модели нейронной сети для решения задач трансляционно-инвариантной обработки изображений. Дополнение принципов глубокого обучения к СНС открыло новые возможности при решении разнообразных задач в области компьютерного зрения и анализа данных ДЗЗ [1, 4, 5]. В отличие от предыдущих подходов на основе неглубоких нейронных сетей, глубокое обучение характеризуется значительно увеличенным количеством последовательно соединенных нейронных слоев и преобразований, позволяющих анализировать входную информацию на нескольких уровнях представления, выявляя признаки более высокого ранга, раскрывая более сложные иерархические взаимосвязи, облегчая при этом использование данных с очень высоким пространственным разрешением и достигая высокой точности прогнозирования [6–8]. Сильной стороной глубокого обучения является способность СНС к сквозному обучению преобразования данных, которые лучше всего подходят для решения поставленной задачи [4].

В связи с этим в предлагаемой статье рассматриваются возможности применения технологий искусственного интеллекта, прежде всего в части анализа изображений и компьютерного зрения, для решения задач лесохозяйственного назначения.

Принципы работы, структура и основные виды свёрточных нейронных сетей. Кратко рассматривая этот вопрос, следует сказать, что СНС, как и любая типичная модель нейронной сети, основана на нейронах, которые организованы в слои и, следовательно, способны обучаться иерархическим представлениям. Нейроны между слоями связаны через веса. Вес – это параметр нейросети, определяющий силу связи между нейронами. Каждый нейрон обрабатывает входные данные, умноженные на соответствующие коэффициенты, и передаёт их на следующий слой. Начальный слой – это так называемый входной слой (тензор), например, данные дистанционного зондирования; последний слой – выходной прогноз, например, классификация видов растений как результат сегментации. Между ними находятся скрытые слои, которые могут представлять собой свёрточные (конволюционные) слои, слои объединения (pooling) и слои сетей прямого распространения с обучением, преобразующие пространство признаков входных данных таким образом, чтобы они соответствовали выходным (рис. 1). Свёрточные слои включают несколько оптимизирующих фильтров, которые преобразуют входной или предшествующий скрытый слой. Количество фильтров определяет глубину конволюционного слоя.

СНС анализируют изображение не целиком, а по отдельным частям. Этот процесс обеспечивается наличием описанных выше слоёв, которые при переходе от слоя к слою уменьшают размер входного сигнала, образуя пирамиду слоёв, в которой каждый отдельный слой содержит набор плоскостей со своим набором весов. В результате обучения модели, представляющей собой последовательное «скольжение» фильтра по слою с вычислением точечного произведения значений фильтра и слоя, образуются карты признаков по каждому слою с последующим объединением в более глубоких слоях сети в абстрактные шаблоны и концепции более высокого уровня, такие как формы листьев, схемы ветвления и т.п.

Рис. 1. Типичная архитектура свёрточной нейронной сети по [5]

Таким образом, комбинация нескольких последовательных свёрточных слоёв с их многочисленными фильтрами позволяет сети изучать и комбинировать даже незначительные особенности в наборах данных, выявляя наличие или отсутствие класса на изображении [1, 4, 5, 9].

Свёрточные нейронные сети могут иметь самые разные архитектуры, которые в основном определяются решаемыми задачами, например, классификацией изображений, сегментацией нескольких классов или локализацией отдельных объектов в сцене. Более сложная задача обычно требует более глубокой и сложной сети. В настоящее время предлагается широкий спектр вариантов реализации СНС, а также готовые архитектуры, что значительно упрощает их использование для решения конкретных задач [6–8].

Согласно обобщённому анализу Института прикладной математики им. М.В. Келдыша, новой подобластью применения нейросетевых подходов является, наравне с обычными свёрточными сетями, использование СНС с глубоким обучением (Deep Convolutional Neural Networks, DCNN) при решении задач дистанционного зондирования, что даёт возможность извлечь важную дополнительную информацию глобального характера из гиперспектральных данных. К настоящему времени разработан целый ряд архитектур DCNN, к которым относятся сети глубокого доверия (англ. Deep Belief Networks, DBN), позволяющие получать иерархически организованную абстрактную информацию в спектральной области снимков; модели DCNN-сетей с неконтролируемым обучением, использующих накопленные базы данных; каскады сетей-ав-тоэнкодеров (англ. Stacked Autoencoders, SAE) с применением обучения без учителя (англ. Unsupervised learning) для сжатия информации; модели полностью свёрточных сетей (англ. Fully Convolutional Networks, FCN) для решения задач семантической сегментации гиперспектральных изображений и модели свёрточно-несвёрточных сетей невязки (англ. Fully Residual Conv-Deconv Networks), использующих обучение с привлечением пространственно-спектральных характеристик изображения [4, 10].

Обучение и оптимизация нейронной сети. Особенностью работы нейронных сетей является необходимость «научиться» через настройку их параметров (весов, смещений) распознаванию соответствующих признаков объектов перед решением задачи. При этом обучение должно стремиться к минимизации ошибки в результатах работы НС, например, по классификации изображений или прогнозированию данных. В отличие от обычных НС, свёрточные нейронные сети сами обучаются способности распознавать, итеративно оптимизируя преобразования, что может сделать разработку признаков, а также их дополнительную обработку неактуальной; и, таким образом, предоставление исходных данных (например, спектральных полос или облака точек) может быть уже достаточным для всестороннего их анализа [1, 11]. На сегодняшний день существует множество алгоритмов обучения нейронных сетей, среди которых наиболее распространёнными являются алгоритмы обратного распространения ошибки (модификации алгоритма – Adam (англ. Adaptive Moment Estimation); Adagrad (англ. Adaptive Gradient); RMSProp (англ. Gradient De-Scent With Momentum), основанные на минимизации отклонения текущего значения выходного сигнала сети от требуемого [1, 12].

Процесс обучения нейронной сети предусматривает несколько этапов: 1) формирование базы данных (обучающей выборки данных) для обучения; 2) выбор примера для обучения; 3) запуск работы нейросети по обработке входной информации; 4) получение ответа нейросети; 5) расчёт ошибки ответа; 6) решение о готовности сети к дальнейшей работе.

Обучение нейронной сети базируется на двух ключевых принципах – «с помощью учителя», или так называемое контролируемое обучение, и без него. В последнем случае метод называется неконтролируемым обучением (англ. Unsupervised Learning).

В случае «обучения с учителем» (англ. Supervised Learning) НС обучается на основе предварительно размеченных данных, для которых известны ожидаемые результаты, что позволяет ей прогнозировать выходные данные на основе входных. При обучении нейросеть просматривает входные данные обучающей выборки и делает прогноз на основе своих текущих параметров (весов), которые сравниваются с ожидаемыми результатами. При совпадении выходных данных с ожидаемым откликом сеть считается обученной. Если ответ нейросети не совпадает с ожидаемым результатом, то запускается процесс обратного распространения ошибки, в ходе которого определяется вклад каждого параметра НС в общую ошибку с корректировкой её весов в целях уменьшения ошибки. При необходимости данный процесс повторяется множество раз (итераций) с использованием новой системы входных данных из обучающего набора, что позволяет нейросети подстроиться таким образом, чтобы ошибка между прогнозными и ожидаемыми результатами была минимизирована. На заключительном этапе обучения нейросети на новых, ранее не использованных данных проводят её тестирование и оценку на предмет возможности использования обученной модели для решения практических задач.

Неконтролируемое обучение, в отличие от предыдущего варианта, происходит на неразмеченных данных, что даёт возможность найти скрытые закономерности, структуры или взаимосвязи без какой-либо предварительной информации о результатах. В данном случае разметку данных не проводят, поскольку метод применяется для задач, где требуется обнаружить внутренние взаимосвязи, зависимости и закономерности, существующие между различными объектами. При неконтролируемом обучении алгоритму не сообщается конечная цель или шаблоны, а только предоставляются массивы данных – общие признаки. В ходе обучения нейросеть самостоятельно ищет структуру или закономерности в данных, связанных с группировкой похожих объектов (кластеризация), занимается поиском отличающихся объектов по определённым признакам (аномальным проявлениям, размерам, цвету и др.) и т.п. В течение всего периода обучения параметры (веса) нейронной сети обновляются таким образом, чтобы лучше отражать структуру входных данных.

Множественные итерации проводят до тех пор, пока веса нейросети не подстроятся так, чтобы обеспечить максимальное соответствие структуре исходных данных. На финишном этапе работа обученных нейросетей тестируется, как и в предыдущем варианте, на новых данных.

В алгоритмах обратного распространения ошибки оптимизация модели реализуется с помощью градиентного спуска, который осуществляет постепенную минимизацию ошибок между прогнозируемыми и фактическими результатами, распределяя их относительно весов и смещений между скрытыми слоями нейронной сети.

Как правило, обучение СНС не достигается за одну эпоху. Эпохой называют один полный проход всего обучающего набора данных через алгоритм обучения. Для полной оптимизации сети, в зависимости от сложности задачи и структуры модели, обычно требуется от десятка до тысячи и более эпох, до тех пор, пока показатель её производительности не перестанет возрастать (модель сходится) или снижаться (модель перестраивается) [9].

Одним из отрицательных явлений в процессе обучения является так называемое переобучение нейросети (англ. Overfitting), когда модель слишком точно подстраивается под обучающую выборку, запоминает каждый пример, включая ошибки, шум и случайные отклонения, показывая при этом высокую точность на уже знакомых данных, но плохо работая на новых. Причинами такой ситуации могут быть слишком сложная модель для решения данной задачи, недостаточный размер обучающей выборки, большая продолжительность обучения и др. [13]. Стабилизация обучения может достигаться его ранней остановкой при начале ухудшения валидации (при сравнении данных обучающей и валидационной выборки), снижением сложности модели, увеличением количества данных. В определённых случаях рекомендуется метод исключения (англ. Dropоut), уменьшающий эффект переобучения сети за счёт случайного обновления весов в некоторых областях сети [5]. Суть метода заключается в исключении определённого процента произвольных нейронов в скрытых и видимых слоях на разных итерациях во время обучения для усреднения моделей внутри нейронной сети. В результате более обученные нейроны получают в сети больший вес.

Для обучения больших сетей DCNN (например таких, как ImageNet), нередко содержащих миллионы параметров, нужны достаточно большие базы данных, что позволяет использовать их для самых различных задач компьютерного зрения (классификация зрительных сцен, детектирование образов/фрагментов изображения, семантическая сегментация изображений, распознавание образов, восстановление изображений) [4].

Свёрточные нейронные сети могут быть реализованы с помощью широкого набора фреймворков (шаблонов) [6, 8]. В настоящее время наиболее востребованными и популярными фреймворками глубокого обучения являются PyTorch (фреймворк машинного обучения для языка Python с открытым исходным кодом, используемый для решения различных задач компьютерного зрения, обработки естественного языка) и TensorFlow (открытая программная библиотека машинного обучения для решения задач построения и тренировки нейронной сети с целью автоматического нахождения и классификации образов) [6], которые предоставляют высокоуровневые API (программные интерфейсы), такие как Keras (открытая библиотека, написанная на языке Python и обеспечивающая взаимодействие с искусственными нейронными сетями), различные инструменты для обучения, расширения данных и визуализации (например, Tensorboard – набор веб-приложений для проверки и понимания структуры и производительности эксперимента). Кроме того, формат Open Neural Network Exchange (ONNX) обеспечивает взаимодействие между указанными выше и многими другими фреймворками.

Важным вопросом в обучении нейросетей является обеспечение обучающими данными при решении конкретных задач, поскольку получение исходной информации обычно дорогостоящее и ограничивается её доступностью. Общепринято для этих целей использовать трансферное обучение, которое включает в себя предварительное обучение на других очень больших и неоднородных наборах данных, получаемых из общедоступных источников. Популярными примерами являются базы данных изображений MSCOCO (англ. – Common Objects in Context) или ImageNet, которые содержат тысячи изображений различных объектов.

Оценка и интерпретация моделей свёрточных нейронных сетей. Производительность модели нейронной сети, включая СНС, может быть определена с помощью различных метрик, среди которых наиболее используемыми являются [1]:

/ Overall Accuracy (общая точность), характеризующая качество модели, агрегированное по всем классам, и количественно выражающая долю правильных прогнозов. Иными словами, доля правильных ответов на всех классах и для всех точек;

^ Precision (точность), показывающая долю верно классифицированных объектов среди всех объектов и описывающая эффективность в отношении ложноположительных результатов;

^ Recall (полнота), показывающая, сколько положительных случаев правильно спрогнозировал классификатор по всем положительным случаям в данных, т.е. чувствительная к ложноотрицательным результатам;

^ F-Score (мера прогностической эффективности) представляет собой среднее гармоническое значение точности и отзыва и обеспечивает единую метрику для общей эффективности модели, которая устойчива к асимметричным наборам данных. Метрика принимает значения в диапазоне от 0 до 1, где 1 означает идеальную точность и полноту, а 0 указывает на полное отсутствие положительных результатов классификации;

^ Intersection over Union (IoU), которая используется для оценки качества детекции и сегментации объектов. Выражает отношение правильно классифицированных пикселей к общему количеству пикселей в сегменте; показывает, насколько точно определены отдельные объекты или сегменты. Данная метрика демонстрирует большую точность прогнозирования дистанционного зондирования растительности с помощью СНС глубокого обучения: классификацию видов древесных пород – в среднем 89%; более простые методы машинного обучения (Random Forest, Support Vector Machines) – 83,5%.

Основные архитектуры свёрточных нейронных сетей и решаемые задачи. В настоящее время к наиболее востребованным задачам, которые решаются с применением СНС, относятся: классификация изображений, регрессия изображений (технология, которая может прогнозировать непрерывные значения в определённом диапазоне), обнаружение объектов, семантическая сегментация изображений, инстанс-сегмента-ция. Для этих целей наиболее часто используются следующие архитектуры сверточных нейронных сетей, включая как прямые их реализации, так и модификации оригинальной архитектуры: U-Net, ResNet, VGGNet, Faster-RCNN, AlexNet, LeNet, SegNet, DeepLab, PointNet, Inception, DenseNet, Retinanet, YOLOv3, Mask-R-CNN, Fast-RCNN, GoogleNet, FCN-DenseNet и др. [1].

Регрессия и классификация – две основополагающие задачи машинного обучения. Хотя оба метода связаны с прогнозированием, они различаются по своим целям и характеру получаемых результатов. Различие между регрессией и классификацией заключается, прежде всего, в характере их результатов: в первом случае это непрерывный результат, а во втором – дискретный. Это различие существенно, поскольку напрямую влияет на выбор алгоритмов, используемых для каждой задачи. Для обучения классификации изображений требуются сравнительно простые аннотации в виде соответствия классов или непрерывные значения для каждого изображения. Для аннотирования изображений к ним добавляют соответствующие метки с дополнительной информацией, позволяющей идентифицировать объекты на источниках изображений. Типичные архитектуры для классификации и регрессии изображений включают VGG (свёрточная нейронная сеть для задач распознавания объектов на изображении), ResNet (Residual Network, дословно – «остаточная сеть»; искусственная глубокая нейронная сеть с прямой связью с сотнями слоёв), Inception (модель распознавания изображений, достигающая точности более 78,1% в наборе данных ImageNet и около 93,9% точности в 5-ти лучших результатах), EfficientNet (семейство моделей для классификации изображений на эффективно масштабированных свёрточных сетях; может классифицировать изображения по 1 000 категориям объектов). С помощью классификации или регрессии изображений на основе свёрточных нейронных сетей можно осуществлять картирование растительного покрова на снимках дистанционного зондирования, определение породного состава лесов, прогнозирование лесной биомассы [1, 11].

Обнаружение объектов (детекция) с помощью СНС представляет собой локализацию и классификацию объектов на изображении, например, определение местоположения отдельных экземпляров класса (в частности, деревьев). Обнаружение обычно включает в себя локализацию центра объекта и аппроксимацию его границ. Модели нейронных сетей, основанные на обнаружении объектов, обычно обучаются, используя рамки заданных классов в качестве меток. Но, несмотря на наличие целого ряда эффективных инструментов для быстрого аннотирования ограничительных рамок, основная проблема при использовании обнаружения объектов в анализе растительности состоит в том, что они, как правило, не предназначены для точного определения границ растительных форм, поскольку такие формы не являются прямоугольными. Наиболее применяемой для обнаружения объектов является архитектура R-CNN. В настоящее время широко используются две архитектуры на её основе: Fast R-CNN и Faster R-CNN. Более современная Faster R-CNN направляет карты признаков, часто полученные с помощью основы типа Visual Geometry Group, в ветвь предложения, которая выполняет первоначальный прогноз потенциальных местоположений объектов. То есть Faster R-CNN сужает поиск возможных положений объекта при помощи алгоритма Region Proposal или Selective Search. Данный алгоритм получает на вход изображение, а на выходе выдает массив прямоугольников, в которых, возможно, находится объект. При этом в основе алгоритма лежит классическое «компьютерное зрение».

Семантическая сегментация относится к задачам распознавания объектов в изображении и разделения его на отдельные составные части (области, сегменты), используя разметку каждого пикселя изображения с последующим выполнением классификации объектов. То есть, в отличие от обнаружения объектов, семантическая сегментация относит все пиксели на изображении к определённому классу. Если классификация изображений и обнаружение объектов направлены на определение его наличия или местоположения, то семантическая сегментация даёт представление о протяжённости целевого класса в изображении. Процесс обучения обычно основан на метках в виде пространственно явных масок, чтобы обеспечить присвоение класса для каждого отдельного пикселя. Это означает, что на изображении сначала нужно отделить объект от фона, точно определив его границы, а затем пометить каждый пиксель объекта соответствующей меткой. Далее пиксели одного класса группируются с помощью модели машинного обучения. Наиболее продвинутым алгоритмом в этой области считается, кроме вышеуказанного Faster R-CNN, алгоритм Mask R-CNN.

Одним из методов семантической сегментации является поиск особых точек (областей изображения), которые сохраняют свои характеристики при изменении условий съёмки и смещениях камеры. Данный метод имеет высокую устойчивость к масштабированию и незначительному повороту изображения объекта, хотя очень чувствителен к смене освещения, а также к специфичным изображениям объекта, на которых сложно применить дескрипторы особенностей для выявления значимых для последующей классификации объекта точек. Для решения задач сегментации разработано несколько эффективных алгоритмов, основанных на поиске ключевых характеристик объектов (цвет, форма, размер, текстура и др.) на изображениях [14, 15]. В целях реализации метода поиска особых точек (дескрипторов) для описания объектов на изображениях используют алгоритмы SURF; SIFT; MSER; FAST; FAST-9; FAST-ER; HOG [6].

Применительно к задачам анализа растительности на основе данных ДЗЗ сложность семантической сегментации заключается в том, что СНС обычно включают несколько операций объединения для выявления пространственного контекста в картах признаков, полученных в результате свёрток, и, таким образом, пространственная привязка и детализация могут теряться. Одно из решений, часто называемое patch-based, заключается в том, чтобы выполнить семантическую сегментацию, прогнозируя только значения для центрального пикселя входного изображения, и итеративно перемещать поле зрения по данным изображения до тех пор, пока каждый пиксель не получит метку [16]. То есть фильтры операции свёртки можно обучить отдельно и автономно, подавая на них вырезанные случайным образом части исходных изображений обучающей выборки и применяя для них любой известный алгоритм обучения без учителя (например, автоассоциатор или даже метод k-средних) – такая техника известна под названием patch-based training.

Более перспективным и эффективным способом является построение семантической сегментации на основе полностью конволюционных сетей (FCN – Fully Convolutional Network), которая включает только свёрточные слои и не требует определённого размера входного изображения. FCN сохраняют пространственную привязку, запоминая пиксели, вызвавшие активацию на предыдущих этапах работы сети, и передавая их на выходную карту сегментации, что позволяет определять не только наличие целевого класса на изображении, но и отдельные пиксели, соответствующие целевому классу. Наиболее современной и часто применяемой архитектурой для семантической сегментации является U-Net, названная так из-за своей U-образной формы. Дальнейшим развитием этой архитектуры являются

SegNet и FC-DenseNet, которые сегодня широко применяются для задач по семантической сегментации, в том числе дешифрирования данных ДЗЗ в лесной отрасли [17].

Инстанс-сегментация объектов направлена на обнаружение отдельных объектов, таких как отдельные растения или элементы растений, и сегментацию их пространственной протяжённости. Её можно рассматривать как комбинацию обнаружения объектов и семантической сегментации. Фактически это вид разметки данных, используемый для выделения на изображении точных границ нескольких различных объектов, принадлежащих к одному классу. Для этого каждому объекту присваивается маска – графическая область, которая точно повторяет его форму, и метка – уникальный идентификатор, отличающий объект от других того же класса. Одним из наиболее популярных алгоритмов инстанс-сегментации является Mask-R-CNN – производная от R-CNN. R-CNN предполагает двухэтапный подход, включающий первоначальное предложение области, а затем локализацию и классификацию карт признаков, в то время как в Mask-R-CNN сегментации подвергается предложенная область [14].

Применение свёрточных нейронных сетей для решения задач лесного хозяйства

Свёрточные нейронные сети применяют в лесной отрасли не так давно. Вместе с тем есть все основания считать, что данная технология открывает новую веху в дистанционном зондировании растительности, создавая возможности для обнаружения отдельных растений, сегментации классов растительности по пикселям [1]. Осуществляемые сегодня в России исследования по имплементации технологий на основе СНС для эффективного решения задач, стоящих перед лесной отраслью, посвящены разработкам методов классификации растительности, выявлению изменений лесного покрова, состояния лесов [18–20]. Заслуживает внимания их применение для решения практических задач в сферах использования, охраны, защиты и воспроизводства лесов, которое рассматривается на отдельных примерах ниже.

Определение нарушений/изменений лесного покрова. Использование алгоритмов свёрточных нейронных сетей является одним из наиболее эффективных методов семантической сегментации изображений, включая распознавание нарушений лесного покрова по спутниковым снимкам, которое может быть вызвано различными причинами, связанными с использованием лесов и повреждением их неблагоприятными факторами. С помощью алгоритмов глубокого обучения можно добиться значительного увеличения точности распознавания целевых объектов при осуществлении дистанционного мониторинга с применением космической съёмки.

В работе «Распознавание нарушений лесного покрова по спутниковым снимкам Sentinel-2 с помощью сверточных нейронных сетей» [21] представлен алгоритм выявления нарушений лесного покрова, основанный на архитектуре U-Net, причём со сравнением эффективности CNN и традиционных методов, что является первым подобным исследованием в России. В данном исследовании модель относилась к типу алгоритмов «с учителем» (supervised learning), для которого необходима оконтуренная обучающая выборка и набор признаков. Для создания обучающей выборки были использованы малооблачные снимки Sentinel-2, полученные с разницей в месяц в разных регионах страны. В каждой паре снимков были векторизованы пять типов нарушений лесного покрова (сплошная рубка, проходная рубка, лесная дорога, ветровал, гарь) и сохранены идентификаторы (применялся формат Vendor Product ID из метаданных снимков) «до изменения» и «после изменения». Тайлы (одинаковые по размерам части снимка) имели размеры в 256x256 или 512x512 пикселей и содержали информацию о целевой маске и набор признаков. Снимки в обучающем наборе приводились к единому пространственному разрешению (10 м) и объединялись в растр; в итоге был получен для каждой пары снимков 27-канальный растр, который содержал маску нарушений и значения яркости в 13 каналах снимков, полученных до и после появления нарушений. Этот растр стал основой при формировании тайлов для обучения нейросети. В качестве основного алгоритма был выбран U-Net, в качестве входных данных применялся фрагмент двух последовательных изображений и их разница. Для обучения использовался оптимизатор Adam, после каждого свёрточного слоя задействовалась пакетная нормализация, позволяющая повысить производительность и стабилизировать работу искусственных нейронных сетей. Оценка результатов проводилась по коэффициенту Дайса (показывает меру сходства изображений); каждые 20 эпох шаг обучения снижался на один порядок. Наибольшую точность показали модели, в которых при обучении использовались спектральные каналы красных волн (Red), ближний инфракрасный (NIR), коротковолновый инфракрасный диапазон (SWIR1, SWIR2), а также их разности. После обнаружения контуры нарушений лесного покрова сопоставлялись с данными контрольных пороговых методов обнаружения изменений (обнаружение изменений по каналу Red или разность индекса NBR – нормализованный коэффициент выгорания, в зависимости от того, в какое время года были сделаны снимки) с дальнейшей конвертацией слоя в векторный формат.

Как свидетельствуют результаты исследования (рис. 2), ложные срабатывания модели характерны для лесонепокрытых территорий и межсезонья. Проблема может быть решена с применением фильтра ложных срабатываний для водных объектов и нерелевантных территорий, не занятых лесной растительностью. Распознавание выборочных рубок моделью возможно только при изъятии около 30% древостоя. Как и в других аналогичных исследованиях [22–24], авторы полагают, что подобные ограничения можно преодолеть, применяя входные данные с более высоким пространственным разрешением [21].

Предложена методика для автоматической сегментации спутниковых снимков с применением модифицированной свёрточной нейросети на основе архитектуры U-Net, в которой для ускорения обучения после каждого слоя свёртки был добавлен дополнительный слой BatchNormalization, а активация слоя свёртки была изменена на Elu. Это значительно повысило эффективность нейронных сетей и обеспечило возможность автоматически генерировать разметку местности с качеством, не уступающим сегментации, сделанной вручную. Полученные результаты нашли применение в сфере контроля незаконных рубок леса на территории Ульяновской обл. [25].

Имеются данные по применению различных модификаций свёрточной нейросети и архитектуры U-Net для распознавания вырубок, гарей и ветровалов по разновременным и разносезонным спутниковым снимкам Sentinel-2. Авторы исследования [26] пришли к выводу, что наиболее высокая точность (среднее значение F=0,59) получена по базовой модели U-Net. Модели, которые показали наилучшие результаты при обучении (Attention U-Net и MobilNetv2 U-Net), не обеспечили повышение точности сегментации на независимых данных. Основными факторами, определяющими точность сегментации лесных рубок, вызывающих изменение лесного покрова территории, являются характеристики самих нарушений – площадь участков рубок, виды рубок. Существенно влияют сезонные особенности: максимальная точность распознавания возможна по зимним парам снимков, по летним снимкам площадь нарушений существенно недооценивается. Хотя породный состав древостоя оказывает менее существенное влияние на точность моделирования, тем не менее для двух из трёх тестовых участков максимальная точность наблюдалась в темнохвойных насаждениях, минимальная – в лиственных. Точность распознавания гарей, которая оценивалась на примере 14 крупных лесных пожаров 2021–2022 гг., оказалась неудовлетворительной, что, вероятно, обусловлено разной степенью повреждения лесного покрова на гарях.

Исследованиями в Красноярском крае [27] показано применение глубоких нейронных сетей для обнаружения вырубок по спутниковым снимкам Sentinel-2. Для исследований использовались

Снимок до нарушения

Снимок до нарушения

(Снимокдо нарушения

Рис. 2. Примеры выделения выборочных рубок по периодам ( a – переходный; б – летний; в – зимний; г , д – летний период с разницей дат съёмки в 1 год). По данным Tarasov et al. [21]

Традиционный метод

Традиционный метод

Традиционный метод

Традиционный метод

Традиционный метод

объединённые данные из наборов Amazon dataset и Siberian dataset, размеченные масками с местами расположения рубок на снимках. Общий набор данных был разбит на три группы: тренировочную, валидационную и тестовую в соотношении 88,67, 10 и 1,33% соответственно. Программная реализация моделей выполнена на платформе машинного обучения PyTorch. Использовалась среда Python Google Colaboratory и графический процессор NVIDIA Tesla P100. В процессе сравнительного анализа производительности все исследованные архитектуры (MaskFormer, Attention U-Net и U-Net) показали приемлемый результат сегментации рубок. При этом модель MaskFormer имела б о льшую эффективность для выделения масок вырубки лесов (на тестовой части данных получены значения 0,94–0,96 по метрике IoU). Также данная модель показала лучшие результаты в обнаружении нелесных полигонов. Сделан вывод, что использование глубоких нейронных сетей является эффективным методом семантической сегментации рубок, который может применяться для мониторинга рубок и контроля их площадей.

Аналогичные исследования были выполнены на территории Ханты-Мансийского автономного округа [28]. Решалась задача повышения оперативности обнаружения и картографирования лесных рубок по летним космическим снимкам со спутника Sentinel-2 с применением современных технологий глубокого машинного обучения. В компьютерном эксперименте по адаптации различных моделей нейронных сетей для анализа пары разновременных многоканальных спутниковых изображений в целях сегментации лесных рубок применялись свёрточные модели U-Net++, FPN-ConvLSTM и трансформерные модели SegFormer, Swin-UperNet [28]. Обучающая выборка формировалась на основе имеющегося архива космических снимков. Сравнение разных моделей сегментации по метрике F1 показало, что значения находились в пределах от 0,409 до 0,767. Наибольшую точность при обнаружении рубок насаждений показала трансформерная модель SegFormer; при этом время обработки одной пары полноразмерных космических снимков было в 16 раз меньше, чем требовалось специалисту для выполнения той же задачи традиционным способом визуального дешифрирования с применением средств геоинформационных систем. Авторы предполагают, что метод сегментации лесных рубок, основанный на трансформерной нейросети SegFormer, может быть использован для решения задачи оперативного выявления и картографирования незаконных рубок леса. Для повышения качества работы модели необходима балансировка обучающей выборки путём включения в неё снимков с частичной облачностью и тенями от облаков.

В зарубежных источниках [29] приведены результаты применения свёрточных нейросетей (U-Net, SegNet, ResNet-UNet) для оценки деградации лесов Гвинеи (Западная Африка) в процессе выборочных рубок на основе данных спутниковых снимков Sentinel-2. Показано, что модель U-Net является наиболее целесообразной для решения задач сегментации изображений, так как полученные на выходе прогнозы на 94% совпадают с картой, составленной на основе фотографий лесного массива, которые не использовались для обучения. Модель U-Net показала более высокие результаты оценки по общему соответствию и точности, чем SegNet, ResNet-UNet, что дало основания предложить апробированный метод на базе U-Net для применения в других регионах Гвинеи вместо более трудоёмкого, основанного на интерпретации фотографий.

Одной из важных задач для повышения доступности земель лесного фонда с целью использования лесов, а также осуществления мероприятий по их сохранению является оценка состояния дорожно-транспортной сети в лесах по данным ДЗЗ. В обзоре Е.С. Подольской [30] приводятся примеры использования нейронных сетей глубокого обучения (свёрточных – CNN, региональных – RCNN, Mask-RCNN и полностью связанных свёрточных нейросетей – Fully CNN) для распознавания лесных дорог. В большинстве случаев в качестве библиотеки глубокого обучения используется Open Source Keras и представленная в ней нейросеть ResNet101. Отмечается, что для повышения качества результатов работы сетей необходимо обеспечить достаточные объёмы обучающих выборок (порядка тысяч изображений) и требуемую детальность аннотирования изображений дорог. Использование нейросетей позволяет увеличить скорость и доступность обработки изображений, но требует сравнительно больших затрат времени на подготовку сегментированных изображений обучающей выборки.

Возможности получения точной информации о дорогах на основе изображений ДЗЗ с помощью свёрточной нейронной сети описываются в работе Ю. Цзян [31]. Показано, что СНС может эффективно классифицировать дорогу и извлекать информацию о ней, но при этом сохраняется влияние не связанных с дорогой факторов, таких как дома, деревья и тени. Для этих помех предложено использовать алгоритм вейвлет-па-кетов. В ходе экспериментов с моделированием установлено, что точность применённого метода на 3,5–4,7% выше, чем у традиционных методов.

Определение таксационных характеристик лесов. Нейронные сети являются перспективным инструментом для определения таксационных параметров лесных насаждений, что повышает их значимость в области управления лесными ресурсами. Свёрточная нейросеть была использована для выделения крон деревьев на снимке древесного полога лесов Бразилии со спутника WorldView-2. Обучение алгоритма проводилось на 20 тыс. изображений лесов, включающих 150 оконтуренных крон деревьев (ОКД). Для построения обучающего набора был реализован метод получения синтетических изображений на основе быстрой нейронной сети (Mask R-CNN), который позволил значительно сократить объём визуального дешифрирования ОКД и оценить качество эталонов. Модель корректно определила 92,3% оконтуренных вручную крон (теневые участки выделялись с точностью 98,9%) в контрольной выборке. Общая точность классификации составила 96% [32]. С помощью нейросетей, обученных по космическим снимкам Sentinel-2, можно установить высоту деревьев, используя связь между формой и размером кроны дерева и его высотой [33], а также биомассу насаждения, осуществить прогнозирование индекса площади листьев (LAI) [34, 35], биометрических показателей древесины [36].

Высокая точность классификации экваториальных лесов Бразилии достигнута с использованием алгоритма полностью свёрточной сети U-Net при семантической сегментации спутниковых данных в виде композита RGB с предварительным их паншарпенингом. Сеть обучалась на 9 000 фрагментов изображений; общая точность дешифрирования составила 95,4 и 97,0% для естественных лесов и эвкалиптовых плантаций соответственно. Классификация видов деревьев проводилась с помощью алгоритма SVM по спектральным и текстурным признакам, рассчитанным в границах выделенных крон [37].

Имеются положительные данные о применении СНС на территории Ханты-Мансийского АО (Югры) для геопространственного моделирования породной структуры и лесотаксационных характеристик насаждений. При моделировании в качестве обучающих данных использовались материалы лесоустройства, а в качестве прогнозных данных (предикторов) – данные космической съёмки Sentinel-2, цифровая модель местности ASTER GDEM, данные о ландшафтном покрове ESA WorldCover и об изменении лесного покрова Global Forest Change. Предложенная модель, разработанная на основе архитектуры DeepLab, позволила определить преобладающую породу насаждений, напочвенный покров и класс бонитета древостоев с точностью 88% на валидационном и тестовом наборах данных. В результате были созданы актуальные цифровые карты насаждений по этим характеристикам с разрешением 10 м. Работа модели показала достаточную точность моделирования в ЯНАО (85%) и Красноярском крае (62–67%) [38].

Оценка влияния лесных пожаров. Для решения задач данного типа используются алгоритмы семантической сегментации областей лесных пожаров на спутниковых снимках земной поверхности. Во многих странах проводятся исследования по выбору архитектуры свёрточных нейронных сетей для повышения разрешения изображения на снимках лесных пожаров по данным спутника Sentinel-2 [39]. В частности, в работе специалистов Томского университета [5] после изучения возможностей моделей U-Net, ENet и SegNet предложена оригинальная структура нейронной сети на основе архитектуры SegNet, состоящая из 20 слоёв: 10 свёрточных слоёв, 5 слоёв Max pooling, 5 слоёв Upsampling и выходного слоя. При выборе программных средств для разработки нейронных сетей было изучено несколько библиотек машинного обучения (Keras, PyTorch, TensorFlow), из которых, с учётом скорости и точности работы по набору изображений CIFAR-10, для дальнейшего использования была выбрана библиотека PyTorch, разработанная NEC Laboratories America и New York University. Данная библиотека включает широкий выбор алгоритмов машинного обучения и снижает, благодаря возможности изменять структуру нейронной сети перед каждым запуском без предварительной компиляции, временны́е затраты на выполнение вычислений.

Обучение нейросети выполнялось с помощью сформированного набора из 50 снимков ДЗЗ со спутника Landsat 8 с разрешением 8 000*8 000, который содержал данные по 5 классам (лесной пожар, выгоревшая площадь, дым от пожара, водоёмы, лес). Создание сегментированных масок изображений проводилось с помощью преобразований и фильтрации в программе Adobe Photoshop. Для набора изображений была проведена аугментация, т.е. модификация данных для обучения, что улучшало обобщающую способность нейронной сети и снижало возможность её переобучения. Обучение включало 50 эпох, каждая из которых содержала 2 000 итераций. При обучении и тестировании устанавливались следующие параметры НС: коэффициент обучения – 0,0005; изменение коэффициента обучения – 0,1; частота изменения коэффициента обучения – 104. При тестировании лучший результат, в сравнении с алгоритмами Adagrad и RMSProp, показал алгоритм Adam, обеспечив точность классификации 96,03%. Достигнутая точность разработанной нейронной сети составляет 94,22%, что не уступает аналогам (Edge Flow, PSO K-Means, JSEG), но несколько хуже других моделей по таким классам, как пожар и выгоревшая площадь (Multi scale, Edison), дым (Multi scale, PSO K-Means, JSEG) [5].

Использование свёрточной нейронной сети U-Net даёт возможность автоматизировать анализ спутниковых снимков и ускорить определение лесных массивов, пострадавших от лесных пожаров [40]. В работе в качестве исходных данных использовалось 10 спутниковых снимков Landsat 8 с лесными пожарами в разрешении 5 120*5 120, на которых было выбрано 50 изображений с разрешением 800*640. Создание сегментированных масок проводилось с помощью преобразований и фильтрации в программе Adobe Photoshop, которые позволили создать набор масок в цветовой модели RGB по 9 классам – деревья, земля, гарь, дым, вода, песок, река, огонь, дымовое облако. В качестве среды разработки использовалась платформа Google Colab, код был написан на языке программирования Python. Сеть U-Net обучалась (1 000 эпох) методом градиентного спуска на основе входных изображений обучающей выборки и соответствующих им карт сегментации. Установлено, что результат значительно зависит от качества использованной обучающей выборки и количества обучающих примеров. В дальнейшем планируется увеличить количество классов при создании сегментированных изображений, а также рассмотреть возможность детектирования лесных пожаров с использованием ложных дымов, например, смога с промышленных объектов.

Рассматриваются вопросы совершенствования оптимизаторов в обучении свёрточных нейронных сетей для классификации лесных пожаров [41]. В результате проведённых исследований было выявлено, что из пяти изученных оптимизаторов (SGD, RMSprop, Adam, Adadelta, Adamax) предпочтительным для указанных целей является Adam (адаптивная оценка момента), который относится к одному из наиболее распространённых алгоритмов оптимизации. Модель имела скорость обучения 13 минут, функция потерь составила 0,116%. Точность прогноза – 94,39%; были правильно спрогнозированы 25 из 25 изображений с лесным пожаром и 23 из 25 изображений без лесного пожара.

Защита лесов. До недавнего времени нейронные сети, применяющиеся в целях выявления патологий растений, в основном были востребованы в рамках агротехнических приёмов, направленных на ограничение распространения грибковых, вирусных и бактериальных инфекций в процессе роста и развития агрокультур, где, как правило, применяются геометрически обусловленные формы плантаций и рядов растений [42]. Основная сложность обнаружения отдельных объектов в анализе растительности заключается в том, что инструменты для быстрой разметки изображений часто не предназначены для точного определения границ растительных форм, поскольку такие формы не являются прямоугольными [1]. В настоящее время подобные ограничения технологий, основанных на нейронных сетях, можно считать отчасти преодолёнными, что подтверждается рядом успешных исследований по применению СНС для целей лесопатологического мониторинга, а также других задач при защите лесов [9, 43–45].

Свёрточная нейронная сеть (модель EnConv) показала свою эффективность в выявлении болезней листьев растений по данным ДЗЗ, поскольку она может группировать данные в заранее определённые категории после их изучения. Данная модель представляет собой усовершенствованную СНС, которая использует свёртку с разделением по глубине и инвертированные остаточные блоки, учитывающие морфологические свойства и характеристики листьев растений, включая цвет и его интенсивность, и их размер, для классификации данных. Благодаря усовершенствованной СНС с глубокой сепарабельной свёрткой (включает свёртку с разделением по глубине и свёртку с разделением по точкам, которая увеличивает размерность карты признаков) и инвертированными остаточными блоками, модель превосходит традиционные подходы машинного обучения и модели глубокого обучения, достигнув точности 99,87% для 39 классов при классификации болезней листьев растений. Однако следует учитывать, что этот подход не был протестирован на наборе данных в реальном времени и, по мнению авторов, его применимость, эффективность и точность требуют уточнения в дальнейших исследованиях [23].

Предлагаются технологии применения СНС для распознавания ветровалов и усохших деревьев, повреждённых стволовыми вредителями, на общедоступных спутниковых снимках сверхвысокого разрешения. Нейросеть обеспечивала точность до 94% [47].

Имеются сведения о тестировании модели свёрточных нейронных сетей глубокого обучения на основе U-Net для решения задач мультиклассификации поражённых вредителями хвойных деревьев Abies sibirica и Pinus sibirica [24]. Для анализа использовали 5 панорам, сформированных из снимков в RGB-диапазоне с высоким пространственным разрешением. Съёмка дублировалась наземными обследованиями для подтверждения очага размножения уссурийского полиграфа ( Polygraphus рroximus ). В процессе подготовки данных было выделено 4 класса жизненного состояния деревьев пихты («живые», «сильно ослабленные», «свежий сухостой» и «старый сухостой») и 5 классов кедра («жизнеспособное», «свежезаселённое», «с усохшей вершиной», «свежий сухостой» и «старый сухостой»). Различия в количестве выделяемых классов состояния объясняются особенностями крон деревьев, а также разными визуальными признаками их повреждения вредителями – уссурийским полиграфом и короедом союзным ( Ips аmitinus ).

На сформированных для обучения и тестирования моделей датасетах кроны размечались вручную; оконтуривание проводилось с учётом стадий их повреждения с выделением эталонных полигонов, представляющих кроны всех классов и «фон» – деревья других пород и иные объекты (рис. 3). Тестировались две модели: 1) названная авторами Мо-U-Net является модификацией классической U-Net для решения задач семантической сегментации изображений; 2) Modification-residual-U-Net (Mo-Res-U-Net) основана на модели Мо-U-Net, но отличается включением в архитектуру процедуры дропаут, уменьшающей вероятность переобучения сети, и остаточных блоков. Эффективность обученных для решения задачи мультиклассификации деревьев предложенных моделей проверялась на тестовой выборке, которая представляла собой снимок тестового участка из датасетов.

Визуальный анализ снимка тестового участка, его эталонной карты сегментации и результирующих выходных карт сегментации показал, что обе модели достаточно хорошо воспроизводят границы крон деревьев и правильно классифицируют значительную долю крон. Поиск оптимальных весовых коэффициентов для каждой из предложенных моделей нейронных сетей проводился с использованием функции потерь Focal Loss, которая особенно эффективна для задач с несбалансированными классами. Минимизация данной функции потерь осуществлялась с применением алгоритма оптимизации Adam, который позволяет адаптивно изменять скорость обучения на основе моментумов градиентов. Для определения оптимальных гиперпараметров моделей использовался метод случайного поиска, который позволяет эффективно исследовать пространство гиперпараметров, избегая при этом необходимости полного перебора данных. В результате такого подхода были найдены такие значения весовых коэффициентов, при которых метрики качества модельной производительности достигали наибольших значений. Эти метрики были рассчитаны с использованием валидационной выборки каждого из датасетов, что позволило обеспечить объективную оценку качества моделей и предотвратить переобучение. Кросс-валидация для проверки устойчивости найденных гиперпараметров к различной разбивке данных не проводилась.

В итоге по обеим тестируемым моделям были получены показатели точности классификации состояния деревьев кедра, из которых следует, что с наименьшей точностью определяются отмирающие деревья и старый сухостой. По мнению авторов, сходная точность классификации пораженных вредителями деревьев пихты и кедра позволяет предположить, что модели свёрточных нейросетей Mo-Res-U-Net и Mo-U-Net могут быть успешно применены и для мультиклассификации повреждений других хвойных пород [24].

О жизнеспособное О свежезаселённое • с усохшей вершиной О свежий сухостой О старый сухостой

Рис. 3. Фрагмент панорамы деревьев P. sibirica , размеченных по классам ( а ), и соответствующая ему маска сегментации ( б ), по данным Markov et al. [24]

Предпринята попытка разработки технологии определения состояния деревьев сосны, поражённых сосновой стволовой нематодой (Bursaphelenchus xylophilus), путём объединения методов спутникового дистанционного зондирования и глубокого обучения нейросетей в целях повышения точности мониторинга [22, 42]. Для создания набора данных образцов повреждённых (обесцвеченных) деревьев сосны использовались снимки с китайского спутника Gaofen-2 и три модели семантической сегментации (DeepLabv3, HRNet и DANet) для обучения и сравнения их производительности, построенные с использованием фреймворка TensorFlow. Из полученных на основе снимков Gaofen-2 438 342 образцов было отобрано 8 615, содержащих деревья с обесцвеченными кронами после поражения вредителем, из них 2 099 образцов имели реальные метки классификации. Для повышения эффективности модели были добавлены 1 385 образцов других типов признаков (водоёмы, поля, луга и др.), из которых 952 образца имели реальные метки классификации. В совокупности набор выборочных данных состоял из 10 000 образцов, из которых 3 051 относился к помеченным (имеющим реальные метки) и 6 949 – непомеченным образцам. При этом помеченные образцы использовались для контролируемого и полуконтролируемого обучения, а непомеченные – только для полуконтро-лируемого обучения. Пятидесятикратная перекрёстная валидация моделей DeepLabv3+, HRNet и DANet была проведена на основе 2 288 обучающих валидных образцов данных. Результаты показывают, что среди трёх протестированных моделей семантической сегментации оптимальной для идентификации обесцвеченных деревьев сосны является HRNet, а её значение MIoU составляет 68,36% [22].

Авторы исследования указывают, что применяемая глубокая модель для сегментации обесцвеченных деревьев на спутниковых снимках позволила добиться хороших результатов, хотя некоторые аспекты всё ещё нуждаются в улучшении. Во-первых, при создании наборов данных точность маркировки образцов была недостаточной, поскольку типы объектов дистанционного зондирования и погодные условия в разных районах отличались. Кроме того, заражение сосны Bursaphelenchus xylophilus представляет собой постепенный процесс, проявления которого на разных стадиях заражения отличаются и не могли быть учтены. Во-вторых, проверка результатов идентификации обесцвеченных деревьев в демонстрационном районе проводилась путём ручной визуальной интерпретации, что могло повлиять на точность. В-третьих, хотя максимальное пространственное разрешение использованных снимков дистанционного зондирования Gaofen-2 достигало 0,8 м, оно все же является недостаточным для точной сегментации и некоторые деревья с небольшой шириной кроны могли не попасть в выборку [22].

Заключение

Проведённый обзор информации показывает, что использование свёрточных нейронных сетей открывает принципиально новые возможности при дешифрировании спутниковых данных для решения целого ряда задач лесного хозяйства. Это достигается благодаря возможности их сквозного самообучения, что значительно повышает информативность и точность анализа больших объёмов данных ДЗЗ, а также позволяет использовать необработанные данные, сокращая, а в отдельных случаях исключая полностью, временны́е затраты на их предварительную подготовку.

В настоящее время создано достаточно большое количество фреймворков (шаблонов), программных библиотек, инструментов для глубокого обучения, расширения данных и визуализации результатов, позволяющих настроить нейронную сеть требуемой оптимизации и обеспечить её реализацию для решения конкретной задачи. Описанные выше примеры свидетельствуют о высоком уровне производительности и точности прогноза в случае применения свёрточных нейронных сетей для оценки изменений лесной растительности под воздействием рубок насаждений, создания линейной инфраструктуры, оценки влияния лесных пожаров и энтомопато-генных факторов, а также получения информации о породном составе насаждения и его отдельных количественных характеристиках. При этом использование эффективных и производительных моделей свёрточных нейронных сетей позволяет осуществлять идентификацию пород на уровне отдельных деревьев даже на основе простой RGB-информации, снижая стоимость работ за счёт замены более дорогостоящих мульти-, гиперспектральных, радарных данных ДЗЗ или их комбинаций.

Кроме того, модульность и гибкость современных фреймворков глубокого обучения нейросетей позволяет объединять разноракурсные и многовременные данные, полученные с различных типов датчиков, что даёт возможность полнее использовать весь спектр современных данных дистанционного зондирования лесов.

Все эти особенности открывают новые перспективы для широкого применения свёрточных нейронных сетей в различных сферах лесохозяйственной отрасли.