Классификация космоснимков Sentinel-2 Байкальской природной территории
Автор: Бычков Игорь Вячеславович, Ружников Геннадий Михайлович, Федоров Роман Константинович, Попова Анастасия Константиновна, Авраменко Юрий Владимирович
Журнал: Компьютерная оптика @computer-optics
Рубрика: Обработка изображений, распознавание образов
Статья в выпуске: 1 т.46, 2022 года.
Бесплатный доступ
В работе рассматривается задача классификации мультиспектральных космоснимков Sentinel-2 при организации экологического мониторинга Байкальской природной территории. Специфика территории потребовала создания нового набора из 12 классов, который учитывает актуальные проблемы и сформирован таким образом, что площади, соответствующие этим классам, полностью покрывают исследуемую территорию. Обучающая выборка сформирована с помощью Web-интерфейса на основе космоснимков Sentinel-2 и полевых исследований. Классификация космоснимков проводилась с использованием алгоритмов RandomForest и нейронной сети ResNet50. Точность расчетов показала, что результаты классификации могут применяться для решения актуальных задач Байкальской природной территории, в частности, для анализа изменений лесного фонда, оценки влияния изменений климата на ландшафт, анализа динамики застройки, инвентаризации сельхозугодий и т.д.
Нейронные сети, классификация, sentinel-2, дзз, обработка изображений
Короткий адрес: https://sciup.org/140290708
IDR: 140290708 | DOI: 10.18287/2412-6179-CO-1022
Текст научной статьи Классификация космоснимков Sentinel-2 Байкальской природной территории
Экологический мониторинг позволяет оценить динамику изменений состояния окружающей среды и поддерживать обоснованные управленческие решения по перспективному развитию территорий [1 –2]. Байкальская природная территория (БПТ) обладает обширными и частично труднодоступными площадями. На таких территориях наиболее широко используемой системой мониторинга является анализ данных дистанционного зондирования Земли (ДЗЗ) с использованием методов классификации [1 –7]. Современное развитие методов и технологий обработки данных ДЗЗ повысило эффективность мониторинга и увеличило его возможную частоту использования до режима, близкого к реальному времени, или ретроспективного обзора на десятилетия назад.
Данные ДЗЗ (далее космоснимки) любой территории, в том числе Иркутской области и Байкальской природной территории, имеют специфические спектральные и текстурные характеристики. Поэтому при мониторинге активно применяются методы классического обучения с учителем [8– 14], позволяющие учитывать эти характеристики. Эти методы позволяют для каждого пикселя космоснимка определить его класс – растительность, открытая почва, вода, антропогенные объекты и т.д.
Высокую точность классификации земного покрова по ДЗЗ показывают методы Random Forest [10– 11] и глубокого обучения на базе нейронных сетей [12– 16]. В работе [10] отмечено, что Random Forest устойчив к уменьшению объема и добавлению шума к обучающим данным, что позволяет проводить мониторинг состояния территорий. Random Forest успешно применяют для классификации городских территорий [11] и породного состава лесов [12]. В работе [13] классификация мультиспектральных космоснимков проводится с помощью сверточных нейронных сетей. Сверточные нейронные сети также применяют для анализа радарных и гиперспектральных космоснимков [14]. В работе [15] отмечено, что сверточные нейронные сети (в частности ResNet50) дают высокие результаты (99 % точности) при сегментации космоснимков среднего разрешения, что позволяет их использовать для решения практических задач.
Применение методов обучения с учителем для задач классификации космоснимков требует подготовки обучающей выборки на заданную территорию. Исследования проводились для БПТ, на которой расположено озеро Байкал и прилегающие к нему земли, включая особо охраняемые территории. В открытом доступе на исследуемую территорию нет наборов данных нужной точности о типе земной поверхности.
В настоящей работе применены современные методы обработки данных ДЗЗ и реализован сервис классификации космоснимков Sentinel-2 с учетом специфики Байкальской природной территории. Целью исследования является разработка классификатора данных Sentinel-2 для решения актуальных задач экологии и перспективного развития Байкальской природной территории.
1. Подготовка обучающей выборки
В современных исследованиях по оценке и прогнозированию состояния окружающей среды территорий [3–4] активно используются мультиспектраль-ные космоснимки со спутников Sentinel-2, которые имеют самое высокое разрешение из свободно распространяемых – 10 метров, что позволяет различать разные типы поверхности (вода, лес, дороги, здания) и отслеживать лесные пожары, вырубки. Съемка территорий спутниками Sentinel-2 проводится в среднем каждые 5 дней. Космоснимки состоят из 13 спектральных каналов, четыре из которых с разрешением 10 метров, остальные – 20 и 60 метров. Для классификации все каналы снимков исследуемой территории приведены к разрешению 10 метров. Космоснимки для исследования были получены из архива USGS. Пример исходных данных представлен на рис. 1.

Рис. 1. Космоснимок Sentinel-2 в комбинации каналов SWIR-NIR-RED, южная часть Байкала
Для подготовки обучающей выборки проанализированы существующие наборы данных, предназначенные для классификации космоснимков. Одним из наиболее используемых является набор данных EuroSAT [16], который состоит из 27000 образцов космоснимков всех европейских стран. Набор размечен 10 классами (AnnualCrop, Forest, HerbaceousVege-tation, Highway, Industrial, Pasture, PermanentCrop, Residential, River, SeaLake). Образцы представлены в виде тензоров 64 × 64 × 3, где 64 × 64 – это размер в пикселях с разрешением 10 метров на пиксель, а 3– комбинация каналов RGB. Наилучшим результатом точности классификации, полученным на этих данных, является 98,57 %. В работе [15] каждый образец набора данных EuroSAT представлен всеми 13 каналами Sentinel-2. Классификация производилась на основе сверточной нейронной сети ResNet50 с применением аугментации данных, что позволило получить точность 99%. Для аугментации данных использовалась линейная свертка пар образцов.
Учитывая высокую точность, полученную в работе [15], сверточная нейронная сеть, обученная на данных EuroSAT, применена на исследуемой территории. Однако результаты оказались отрицательными – вся территория БПТ была классифицирована как вода. Это произошло из-за того, что значения спектральных каналов набора EuroSAT значительно отличаются от значений соответствующих каналов исследуемой Байкальской природной территории. Кроме того, набор классов не покрывает БПТ, а некоторые классы в принципе отсутствуют, поэтому необходимо сформировать новую обучающую выборку на БПТ.
Для формирования обучающей выборки было необходимо определить набор классов, решающих следующие задачи:
-
• классифицировать всю исследуемую территорию с максимально возможной точностью;
-
• определить классы, наиболее полезные для решения практических задач.
Природные особенности ландшафтов Байкальской природной территории обусловили состав обучающей выборки, большая часть территории которой занята горной тайгой, а в средней части преобладает лесостепной ландшафт. Лесообразующие породы включают в себя хвойные (сосна, лиственница, кедр) и лиственные (береза, осина) деревья. В высокогорном поясе и поймах рек распространены кустарниковые заросли, поэтому в обучающей выборке лесные ресурсы представлены 5 классами: хвойный, лиственный и смешанный лес, редколесье, кустарники. На БПТ проводятся активные заготовительные рубки леса, в том числе и нелегальные, для их учета к набору добавлен класс «Вырубки».
Значительную и важную часть исследуемой БПТ занимают водные объекты и горные системы, для обработки которых добавлены классы «Голая скала» и «Вода». На исследуемой территории развит аграрный комплекс, который на текущий момент представлен классами «Однолетние сельскохозяйственные культуры» и «Пастбище». Для оценки антропогенного влияния на территорию добавлен класс «Жилая зона».
На космоснимках БПТ достаточно часто присутствуют облака, которые значительно влияют на качество классификации. Маски облаков, представленные в наборе данных Sentinel-2, недостаточно точны, поэтому для учёта их влияния добавлен класс «Облака».
Построение обучающей выборки проводилось с помощью Web-интерфейса [17] (рис. 2) на основе данных Sentinel-2 и полевых исследований. Разметка осуществлялась полигональными объектами с указанием класса, директории космоснимка, даты съемки.
Всего размечены 134 космоснимка Байкальской природной территории, количество полигональных объектов – 2246 шт. на площадь более 5900 кв.км. (примерно 230 млн. пикселей, одна территория может быть размечена для нескольких снимков). Все снимки летнего периода за 2018–2020 года.
Идентификацию классов лесов проводили на основе комбинации каналов SWIR (2185,7– 2202,4 мкм), NIR (864,0–864,7 мкм) и RED (664,6– 664,9 мкм), позволяющей отделять породы по интенсивности оттенка зеленого цвета на полученном изображении.

Рис. 2. Разметка космоснимка полигонами с заданными классами
На основе полигональных объектов для каждого космоснимка, указанного в атрибутах слоя, сформированы маски в формате GeoTIFF в проекции исходного космоснимка и разделены на ячейки размера 64 × 64. В каждом пикселе маски указан идентификатор класса (рис. 3).

Рис. 3. Совмещение маски (слева) с космоснимком (справа)
2. Random forest
Для классификации космоснимков использован метод машинного обучения Random forest [10– 11]. Ансамбль из 200 решающих деревьев распознавал снимок Sentinel-2 на южную часть озера Байкал за июнь 2017 г., для обучения были взяты все 13 каналов космоснимка. Полученный в результате размеченный массив был не сбалансирован по количеству пикселей в классах, он отличался на несколько порядков. Чтобы выровнять выборку, к классам с ми- нимальным количеством пикселей были добавлены сгенерированные случайным образом экземпляры, а из классов с максимальным количеством – частично удалены образцы. После балансировки размеченный массив данных разделен на тренировочную и тестовую часть в пропорции 70/30.
Табл. 1. Количество образцов в выборке
Название класса |
Количество пикселей |
|
Начальное |
После балансировки |
|
Болота |
8 |
200 |
Голая скала |
21 |
200 |
Пастбище |
40 |
200 |
Вырубки |
278 |
500 |
Переходный лес / кустарники |
509 |
700 |
Хвойный лес |
550 |
700 |
Редколесье |
964 |
964 |
Лиственный лес |
2199 |
2199 |
Смешанный лес |
4491 |
4491 |
Облака |
4623 |
4623 |
Пашня |
6136 |
6136 |
Жилая зона |
19670 |
10000 |
Вода |
886714 |
100000 |
Метод показал, что наиболее важными для классификации оказались каналы космоснимка 13 и 7, наименее – 10, 3 и 4. Оценка информативности проводилась с помощью встроенного метода реализации Randomforest в библиотеке scikit-learn на основе кри- терия Джини (Giniimpurity). Общая точность на обучаемых данных составила 98,1 %, средняя полнота – 0,95 и F-мера – 0,95.
Табл. 2. Оценка точности классификации
Класс |
Точность |
Полнота |
F-мера |
Пастбище |
0,99 |
1,00 |
0,99 |
Жилая зона |
0,96 |
0,97 |
0,97 |
Вода |
1,00 |
1,00 |
1,00 |
Смешанный лес |
0,95 |
0,95 |
0,95 |
Редколесье |
0,83 |
0,88 |
0,86 |
Вырубки |
0,97 |
0,98 |
0,97 |
Хвойный лес |
0,97 |
0,91 |
0,94 |
Пашня |
0,96 |
0,93 |
0,95 |
Переходный лес / кустарники |
0,93 |
0,83 |
0,88 |
Лиственный лес |
0,87 |
0,91 |
0,89 |
Болота |
0,97 |
1,00 |
0,98 |
Голая скала |
1,00 |
1,00 |
1,00 |
При этом худшую точность (precision = 0,83) метод показал на классе «Редколесье», худшую полноту (recall = 0,84) – на классе «Переходный лес / Кустарники». Самая высокая точность 100 % была достигнута на классе «Вода», в котором было больше всего размеченных точек, и в классе «Голая скала» – одном из самых малочисленных.
3. ResNet50
Для классификации космоснимков применялась сверточная нейронная сеть ResNet50. Архитектура сети представлена на рис. 4.

Рис. 4. Архитектура сети ResNet50
Обучение проводилось на 12 классах по 815 образцов в каждом. Классификация производилась по-пиксельно. Решение о классе пикселя принимается на основе анализа его окрестности 64 × 64 пикселя, где каждый пиксель имеет пространственное разрешение 10 м, т.е. производится анализ окрестности 640 × 640 метров. Каждый пиксель представлен 13 исходными каналами Sentinel-2. Каждый образец представлен тензором 64 × 64 × 13. В табл. 3 приведено количество полигональных объектов и образцов в обучающей выборке по 12 классам.
Табл. 3. Количество полигональных объектов и образцов
Метка класса |
Русскоязычное название |
Количество полигонов |
Количество образцов 64×64×13 |
AnnualCrop |
Однолетние сельхозкультуры |
20 |
28256 |
Pasture |
Пастбище |
104 |
185571 |
Residential |
Жилая зона |
56 |
3135 |
Water |
Вода |
141 |
303662 |
Mixed forest |
Смешанный лес |
122 |
13646 |
Woodland |
Редколесье |
203 |
9549 |
Logging forest |
Вырубки |
423 |
17228 |
Coniferous forest |
Хвойный лес |
74 |
5186 |
Transitional woodland/shru b |
Переходный лес / кустарники |
114 |
5394 |
Leaved forest |
Лиственный лес |
192 |
26351 |
Bare rock |
Голая скала |
191 |
65090 |
Cloud |
Облака |
70 |
56748 |
По каждому классу получено разное количество образцов. Поэтому потребовалась балансировка обучающей выборки, чтобы каждый класс был представлен примерно одинаковым количеством образцов.
Кроме того, требуется балансировка образцов в рамках одного класса. Например, в разметке представлены преимущественно плотные облака. Поэтому сверточная нейронная сеть нацелена классифицировать именно их и недостаточно точно выделяет перистые облака. Для балансировки в рамках класса используется кластеризация образцов. Для каждого канала образца выделяются следующие характеристики:
-
• среднее значение канала;
-
• среднеквадратическое отклонение.
Далее проводится кластеризация, и для каждого кластера отбирается равное количество образцов. Применение этого алгоритма позволяет улучшить качество классификации.
Общее число настраиваемых параметров ResNet50: 23538338. Используется алгоритм оптимизации: Adam, betas = (0,9; 0,99), функция потерь: FlattenedLoss. Обучение ResNet50 проводилось на 80 эпохах в течение 29 часов. Обучение и классификация проводилась на компьютере со следующими характеристиками: процессор Intel(R)Core(TM) i9-9900X CPU с тактовой частотой 3.50GHz, объем ОЗУ125 Гб, две графических карты NVIDIA GeForce
RTX 2080SUPER 8ГБ. Результаты классификации сохраняются в формате GeoTIFF. Приведен пример классификации космоснимка Байкала (рис. 5).
Количество космоснимков на исследуемую Бай- кальскую природную территория составляет несколько тысяч. При проведении классификации космоснимков размер оперативной памяти является критичным. Для загрузки всех 13 каналов одного космоснимка Sentinel-2 в оперативную память требуется более двух гигабайт. Поэтому для эффективного использования результатов классификации необходима реализация классификатора в виде сервиса на серверах с достаточным объемом оперативной памяти и скоростным доступом к системе хранения данных.

Рис. 5. Результаты классификации космоснимка (сверху) нейронной сетью (снизу)
Для реализации сервиса был выбран сервер Flask-PyWPS – одна из реализаций стандарта Web Processing Service (WPS) на основе Python. Выбор Flask-PyWPS обусловлен тем, что позволяет совмещать его с библиотеками обработки изображений, такими как GDAL, OpenCV, и машинного обучения. Сервис классификации принимает на вход путь к директории, где содержатся растровые файлы в формате GEOTIFF, соответствующие 13 слоям космоснимка Sentinel-2, приведенные к единому пространственному разрешению. Результатом работы сервиса является сегментированное изображение, где в каждом пикселе указан его класс. Сервис формирует из исходного космоснимка тензор формы N × 64 × 64 × 13, где N– число образцов размера 64× 64 по 13 каналов, и подает его на вход нейронной сети. По результатам классификации сохраняется в файл в формате GEOTIFF.
4. Оценка работы классификатора ResNet50
Для оценки результатов работы классификатора произведена разметка космоснимков, не участвовавших в обучении, и сформирована верификационная выборка. По результатам классификации проведено попиксельное сравнение с выполненной разметкой. Разметка проводилась на 2 изображениях. Результаты сравнения по классам представлены в табл. 4. Средняя точность (вероятность верной классификации) составляет 0,61.
Табл. 4. Оценка работы классификаторов на основе ResNet50
Класс |
Точность |
Однолетние сельхозкультуры |
0,32 |
Пастбище |
0,72 |
Жилая зона |
0,95 |
Вода |
0,96 |
Смешанный лес |
0,22 |
Редколесье |
0,70 |
Вырубки |
0,49 |
Хвойный лес |
0,87 |
Переходный лес / кустарники |
0,37 |
Лиственный лес |
0,39 |
Голая скала |
0,29 |
Облака |
0,99 |
По результатам верификации достаточно хорошая точность у классов «Пастбище», «Жилая зона», «Вода», «Редколесье», «Хвойный лес», «Облака». Класс «Голая скала» представлен в верификационной выборке достаточно скудно и часто классифицируется как «Однолетние сельхозкультуры». Классы «Переходный лес / кустарники», «Лиственный лес», «Вырубки» имеют низкую точность.
Полученные оценки отличаются в худшую сторону от результатов, представленных в рассмотренных статьях. Одной из причин является различие методики проведения оценки. В статьях [7– 13] оценка производится на наборе образцов, выделенных случайным образом из общего множества. Соответственно изображения, из которых формировались образцы, участвовали в обучении. В авторской методике оценка производится на изображениях, которые не используются для обучения.
Заключение
В работе рассматривалась задача классификации мультиспектральных космоснимков Sentinel-2 Байкальской природной территории. Решение задачи потребовало применения методов классификации с учителем и формирования обучающей выборки. Для учета специфики БПТ создан новый набор классов, который содержит 12 классов, учитывает актуальные проблемы исследуемой территории и сформирован таким образом, что площади, соответствующие этим классам, полностью покрывают исследуемую территорию. Обучающая выборка создана с помощью Web- интерфейса на основе данных Sentinel-2 и полевых исследований. Образцы разметки получены с разных спутниковых космоснимков, преимущественно летнего и осеннего периода, и размечены полигональными объектами с указанием класса, директории космоснимка, даты съемки.
Классификация космоснимков производилась с использованием алгоритмов Random Forest и нейронной сети ResNet50. Произведено сравнение работы классификаторов на верификационной выборке. Результаты сравнения показывают, что классификатор на основе ResNet50 работает лучше, потому что сверточная нейронная сеть принимает решение по окрестности 64 × 64 пикселя. По результатам сравнения было выявлено, что классификаторы плохо отделяют классы «Вырубки», «Лиственный лес» и «Переходный лес / кустарники» из-за того, что места вырубок начинают зарастать и на ранних этапах похожи на кустарники. В классе «Однолетние сельхозкультуры» размечены пашни, которые визуально трудно отличить от класса «Голая скала». Чтобы различать эти классы, требуется анализ серии космоснимков, полученных в разное время года. Разница в точности классификации на данных обучающей и верификационной выборок обосновывает необходимость расширения разметки и классификации серии космоснимков.
Полученные высокие оценки точности классификации позволяют применять предложенный метод по некоторым классам для решения актуальных задач Байкальской природной территории. В частности, для мониторинга состояния лесного фонда, оценки влияния изменений климата на ландшафт, анализа динамики застройки, инвентаризации сельхозугодий и т.д.
Работа выполнена в рамках гранта № 075-15-2020787 Министерства науки и высшего образования РФ на выполнение крупного научного проекта по приоритетным направлениям научно-технологического развития (проект «Фундаментальные основы, методы и технологии цифрового мониторинга и прогнозирования экологической обстановки Байкальской природной территории»).
Список литературы Классификация космоснимков Sentinel-2 Байкальской природной территории
- Talukdar S, Singha P, Mahato S, Pal S, Liou YA, Rahman A. Land-use land-cover classification by machine learning classifiers for satellite observations - A review. Remote Sens 2020; 12(7): 1135. DOI: 10.3390/rs12071135.
- Keshtkar H, Voigt W, Alizadeh E. Land-cover classification and analysis of change using machine-learning classifiers and multi-temporal remote sensing imagery. Arab J Geosci 2017; 10: 154. DOI: 10.1007/s12517-017-2899-y.
- Lastovicka J, Svec P, Paluba D, Kobliuk N, Svoboda J, Hladky R, Stych P. Sentinel-2 data in an evaluation of the impact of the disturbances on forest vegetation. Remote Sens 2020; 12(12): 1914. DOI: 10.3390/rs12121914.
- Puletti N, Chianucci F, Castaldi C. Use of Sentinel-2 for forest classification in Mediterranean environments. Ann Silvic Res 2018; 42(1): 32-38. DOI: 10.12899/ASR-1463.
- Terekhin EA. Indication of long-term changes in the vegetation of abandoned agricultural lands for the forest-steppe zone using NDVI time series. Computer Optics 2021; 45(2): 245-252. DOI: 10.18287/2412-6179-CO-797.
- Belov AM, Denisova AY. Earth remote sensing imagery classification using a multi-sensor super-resolution fusion algorithm. Computer Optics 2020; 44(4): 627-635. DOI: 10.18287/2412-6179-CO-735.
- Borzov SM, Potaturkin OI. Increasing the classification efficiency of hyperspectral images due to multi-scale spatial processing. Computer Optics 2020; 44(6): 937-943. DOI: 10.18287/2412-6179-CO-779.
- Grabska E, Frantz D, Ostapowicz K. Evaluation of machine learning algorithms for forestst and species mapping using Sentinel-2 imagery and environmental data in the Polish Carpathians. Remote Sens Environ 2020; 251: 112103. DOI: 10.1016/j.rse.2020.112103.
- Rodriguez-Galiano VF, Ghimire B, Rogan J, Chica-Olmo M, Rigol-Sanchez JP. An assessment of the effectiveness of a random forest classifier for land-cover classification. ISPRS J Photogramm Remote Sens 2012; 67: 93-104. DOI: 10.1016/j.isprsjprs.2011.11.002.
- Feng Q, Liu J, Gong J. UAV Remote sensing for urban vegetation mapping using random forest and texture analysis. Remote Sens 2015; 7(1): 1074-1094. DOI: 10.3390/rs70101074.
- Liu Y, Gong W, Hu X, Gong J. Forest type identification with random forest using Sentinel-1A, Sentinel-2A, multitemporal Landsat-8 and DEM data. Remote Sens 2018; 10(6): 946. DOI: 10.3390/rs10060946.
- Alhassan V, Henry C, Ramanna S, Storie C. A deep learning framework for land-use/land-cover mapping and analysis using multispectral satellite imagery. Neural Comput Appl 2020; 32: 8529-8544. DOI: 10.1007/s00521-019-04349-9.
- Carranza-García M, García-Gutiérrez J, Riquelme JC. A framework for evaluating land use and land cover classification using convolutional neural networks. Remote Sens 2019; 11(3): 274. DOI: 10.3390/rs11030274.
- Zhang W, Tang P, Zhao L. Fast and accurate land cover classification on medium resolution remote sensing images using segmentation models. Int J Remote Sens 2021; 42(9): 3277-3301. DOI: 10.1080/01431161.2020.1871094.
- Chambon T. Fighting hunger through open satellite data: A new state of the art for land use classification. 2019. Source: (https://medium.com/omdena/fighting-hunger-through-open-satellite-data-a-new-state-of-the-art-for-land-use-classification-f57f20b7294b>.
- [16]Helber P, Bischke B, Dengel A, Borth D. Introducing Eurosat: A Novel Dataset and Deep Learning Benchmark for land use and land cover classification. 2018 IEEE Int Geo-science and Remote Sensing Symposium (IGARSS 2018) 2018: 204-207. DOI: 10.1109/IGARSS.2018.8519248.
- Bychkov IV, Ruzhnikov GM, Fedorov RK, Avramenko YV, Shumilov AS, Shigarov AO, Verhozina AV, Emel-yanova NV, Sorokovoi AA. Technology of information and analytical support for interdisciplinary environmental studies in the Baikal Region. In Book: Bychkov I, Voronin V, eds. Information technologies in the research of biodiversity. Switzerland AG: Springer Nature; 2019: 116-124. DOI: 10.1007/978-3-030-11720-7 16.