Разработка модели детекции морского мусора

Бесплатный доступ

Работа посвящена разработке модели машинного обучения для автоматической детекции морского мусора на основе анализа изображений. Проведен сравнительный анализ моделей глубокого обучения (Faster R-CNN, SSD, YOLO) с учетом точности, скорости обработки и потребления вычислительных ресурсов. Наиболее перспективной признана модель YOLOv8 благодаря высокой производительности и стабильности. Разработан и подготовлен уникальный датасет, включающий изображения морской поверхности с размеченными объектами мусора. Выполнено обучение модели, достигнуты значительные показатели точности (mAP50-95), полноты и локализации объектов. Создан веб-сервис, позволяющий загружать фотографии, автоматически определять объекты морского мусора и экспортировать результаты в формате JSON. Работа представляет вклад в автоматизацию процессов экологического мониторинга и может быть использована для дальнейших исследований в области борьбы с морским загрязнением. Результаты демонстрируют возможность интеграции модели в системы мониторинга реального времени.

Еще

Морской мусор, детекция, мониторинг загрязнений, анализ изображений, бортовые камеры, спутниковый мониторинг, автоматизация, экосистемы, пластиковые отходы, экологическое воздействие, технологии наблюдения, методы детекции

Короткий адрес: https://sciup.org/14133737

IDR: 14133737   |   УДК: 004.8(55)

Текст научной статьи Разработка модели детекции морского мусора

                                            том 21 № 1 (66), 2025, ст. 4

Количество морского мусора в океанах во всем мире увеличивается. Исследователи из Фонда морских исследований Алгалита зафиксировали увеличение количества пластикового мусора в

Центрально-Тихоокеанском круговороте в пять раз в период между 1997 и 2007 годами, где базовый уровень в 1997 году показал, что количество пластиковых частиц превышает количество планктона на поверхности океана в соотношении 6:1 [1]. В связи с этим возникает острая необходимость в разработке и внедрении эффективных методов мониторинга и детекции морского мусора.

Современные подходы к решению этой задачи включают использование различных технологий для автоматизации процесса обнаружения загрязнений, среди которых особое внимание уделяется методам анализа изображений, получаемых с бортовых камер судов, а также спутниковым методам наблюдения.

Ручной поиск — это метод, при котором специалисты физически обследуют морские и прибрежные территории с целью выявления и идентификации мусора. Обычно это включает в себя как визуальный осмотр с судов, так и сбор образцов воды для дальнейшего анализа [2]. Этот метод обладает высокой точностью, так как позволяет экспертам напрямую оценивать типы загрязнений, но ограничен территориально и требует значительных затрат времени и ресурсов (например, для судов и персонала). В дополнение к этому, правовые ограничения, такие как доступ к охраняемым территориям или необходимость получения разрешений для проведения научных исследований, могут усложнить его использование [3].

Спутниковый мониторинг использует данные с орбитальных спутников для анализа загрязнения океанов. Спутниковые данные позволяют получить информацию о масштабе загрязнения в реальном времени, однако они ограничены по точности, особенно в отношении мелких частиц мусора (например, микропластика), и могут быть подвержены атмосферным помехам, таким как облачность или дождь.

Спутниковая съемка активно используется для мониторинга нефтяных разливов и крупных загрязнений. Один из известных спутниковых проектов — это использование данных с аппаратов Sentinel Европейского космического агентства для мониторинга загрязнения в акваториях ЕС [4].

Анализ изображений с бортовых камер судов включает в себя использование камер, установленных на борту судов для съемки поверхности моря и последующего анализа полученных изображений. Технологии обработки изображений, такие как компьютерное зрение и машинное обучение, позволяют эффективно выявлять различные виды загрязнений, включая мелкие частицы пластика. Этот метод обеспечивает высокую точность, особенно при наличии качественных изображений, но ограничен площадью, которую можно обследовать с судна, а также зависит от погодных условий.

Конечно, использование нейронных сетей для детекции мусора прямиком на собирающем информации судне уже не ново, так например M. Fulton и другие в рамках своей статьи «Robotic Detection of Marine Litter Using Deep Visual Detection Models» обучали модель автоматизации поиска мусора, но, как и почти все другие похожие проекты этот проект был направлен на поиск именно подводного мусора [5].

Новизна данной работы заключается в дополнительном анализе современных методов машинного обучения, их применении в поддержке борьбы с экологической угрозой и возможного развития противодействия вредоносным действиям, а также предоставлением современного актуального бэкграунда для будущих исследований. Исследование может внести вклад в понимание современных тенденций и разработку новых методов в области контроля за экологическим состоянием вод.

Таким образом целью данной работы является готовая модель машинного обучения, способная автоматически обнаруживать и подсчитывать морской мусор на фотографиях морской поверхности. Исходя из цели сформулированы следующие задачи:

  • -    изучение различных моделей машинного обучения и проведение их сравнения;

  • -    изучение методов улучшения качества модели;

  • -    сбор и подготовка датасета для обучения выбранной модели;

  • -    обучение модели на подготовленных данных;

  • -    разработка API модели;

  • -    интерпретация результатов.

  • 2.    Материалы и методы

Для задачи детекции рассматривались популярные модели глубокого обучения, такие как Faster R-CNN, SSD и YOLO.

Критерии:

  •    Точность (Mean Average Precision, MAP): это основной показатель, который используется для сравнения производительности моделей детекции объектов.

  •    Скорость обработки: Количество кадров в секунду (FPS, frames per second), которое модель может обработать.

  •    Потребление ресурсов (GPU): Объем вычислительных ресурсов, которые модель требует

для работы, включая требования к памяти и графическому процессору.

Таблица 1. Сравнение моделей детекции объектов1

Критерий

Faster R-CNN

SSD

YOLOv3 (Lu Tan), YOLOv4 (DalmarDakari)

MAP, % (Lu Tan)

87.69

82.41

80.17

FPS (Lu Tan)

7

32

51

MAP, % (DalmarDakari)

61.20

56.80

54.30

FPS (Dalmar Dakari)

8

22

40

GPU, MB (Dalmar Dakari)

5400

3200

2800

На основании сравнения (Таблица 1) наиболее перспективным и эффективным методом детекции морского мусора в реальном времени является использование модели детекции YOLO, потому что модель обеспечивает наиболее высокую скорость обработки и высокую точность, что делает её оптимальным выбором для детекции морского мусора в реальном времени.

Модель SSD также может применяться для задач реального времени и представляет собой более сбалансированный подход между скоростью и точностью, однако её точность и способность детектировать мелкие объекты уступают YOLO.

Faster R-CNN подходит для высокоточных задач, но из-за низкой скорости обработки её использование ограничено в задачах реального времени. Также модель обладает высоким потреблением ресурсов из-за сложной многоступенчатой архитектуры, что делает её требовательной к памяти и вычислительным ресурсам.

Для определения наиболее перспективной и эффективной конкретной вариации YOLO было проведено исследование производительности последних моделей средних размеров (m).

Таблица 2. Сравнение моделей детекции объектов YOLO v8, v9, v10, v112

Модель

Размер входа (пиксели)

mAPval (50-95), (B)

Параметры (млн.)

FLOPs (млрд)

GPU (ms)

YOLOv8m

640

50.2

25.9

78.9

1.83

YOLOv9m

640

51.4

20.1

76.8

8

YOLOv10m

640

51.1

59.1

59.1

1.84

YOLOv11m

640

51.5

20.1

68.0

4.7 ± 0.1

Объяснение данных:

  •    Размер входа (pixels): Размер изображения, на котором происходит обучение или детекция.

  •    mAPval (50-95): Средняя точность модели при различных порогах (от 50 до 95).

  • 1    Сделан авторами на основании работ [6, 7].

  • 2    Сделан авторами на основании исследований [8, 9, 10, 11, 12].

  •    Параметры (M): Количество параметров модели в миллионах.

  •    FLOPs (B): Вычислительные затраты модели в миллиардах операций с плавающей запятой.

  •    GPU (ms): Время, необходимое для выполнения предсказания, зависит от аппаратных условий.

  • 3.    Результаты

Таким образом, на основе проведённого исследования (Таблица 2) мы пришли к выводу что по показателям лучшим решением является 10 версия, но основываясь на огромном опыте ML-специалистов все же выбрали 8 версия, за счет больших возможностей ее интеграции с другим программным обеспечением, сервисами и инструментами, а также за счет ее большей стабильности в работе и детекции.

В самом начале работы были взяты данные предоставленные ПАО «Сбербанк», которые содержали 16000 фотографий сделанных в реальных условиях с борта судна, но на последующих этапах уже использовали датасеты размещенные другими исследователями на платформе Roboflow, поскольку первоначальный сет содержал всего 8% фотографий с мусором от всего числа, да и мусор был не четко выраженным, поэтому даже использование стратификации и аугментации не дало значительного результата.

Как и говорилось ранее первоначальное обучение модели проходило на базе реальных фотографий полученных с плаваний круизных лайнеров, торговых кораблей и других судов. После разметки всех фотографий уже предполагалось сомнительное качество модели обучаемой до этого. На рисунках ниже вы можете увидеть пример размеченной фотографии.

На Рисунке 1 показан пример размеченной фотографии и можно заметить что мусор не такой уж и большой на фотографии, хотя можно отметить что это один из самых больших объектов похожих на мусор, но основная проблема заключается в том что искомые объекты зачастую слишком сильно схожи с морской пеной, что в свою очередь сильно затрудняет их детекцию и обучение модели.

Таблица 3. Лучшие 5 эпох согласно оценке YOLO

Эпоха

Точность, (B)

Полнота, (B)

mAP50, (B)

mAP50-95, (B)

46

0,8014

0,2749

0,2912

0,1069

47

0,7865

0,2749

0,2944

0,1043

39

0,7912

0,2567

0,2676

0,1036

44

0,7221

0,2691

0,2890

0,1036

50

0,8362

0,2669

0,2918

0,1033

Электронное научное издание «Устойчивое инновационное развитие: проектирование и управление»

том 21 № 1 (66), 2025, ст. 4

Рис. 1. Пример размеченной фотографии в ее реальном размере

В Таблице 3 представленный результаты обучения модели на начальном датасете, как видно наилучшими по показателю полноты (recall) стали 46 и 47 эпохи, в которых он составил 27,5%. Это говорит о том, что в валидационном пакете фотография модель смогла найти мусор только на 27,5% фотографий с мусором, следовательно, найден мусор будет только на 1 из 4 фотографий. И это вполне логично поскольку при обучении модель сжимает фотографии до нужного формата (все опирается в вычислительные мощности) и при обучении на фотографиях 1024×1024 пикселя мусор на почти всех фотография становится размером с пару пикселей и даже человеку не сказать мусор это или нет. Поэтому следующим шагом мы провели обрезку фотографий для получения фотографий мусора без потери качества.

Использование этого метода в совокупности с методами аугментации не дал значительного прироста, оставив полноту и точность на том же уровне, но увеличив mAP50-95 на 1-2%.

Датасеты полученные с Roboflow же содержали более значимые изображения мусора, по которые значительно увеличили эффективность модели. Сам датасет содержит порядка 3000 фотографии, что больше, чем изначальный датасет.

Как видно на Рисунке 3 на фотографиях с Roboflow гораздо лучше видно мусор при этом она сильно отлична от пены, что сильно увеличило эффективность обучения модели.

Таблица 4. Лучшие 5 эпох обучения последней версии модели согласно оценке YOLO

Эпоха

Точность, (B)

Полнота, (B)

mAP50, (B)

mAP50-95, (B)

24

0.83629

0.75019

0.8345

0.4456

35

0.84384

0.74397

0.82995

0.4453

33

0.83479

0.69993

0.8111

0.4228

38

0.78569

0.75097

0.80637

0.4224

25

0.81145

0.74163

0.8151

0.4391

Электронное научное издание «Устойчивое инновационное развитие: проектирование и управление»

том 21 № 1 (66), 2025, ст. 4

Рис. 2. Пример той же самой размеченной фотографии после обрезки

В Таблице 4 можно видеть результаты 5 лучших эпох при обучении модели на нашем финальном датасете и как можно видеть лучший результат был достигнут в 24 эпоху, при этом результат значительно превосходил результаты модели, обученной на начальном датасете.

Например, mAP50 и mAP50-95 выросли в 4 раза, полнота – в 3.

Рис. 3. Пример размеченной фотографии с Roboflow в ее реальном размере

На Рисунке 4 приведены все метрики, которые получали по мере обучения итоговой модели, на них наглядно видно постепенное уменьшение ошибок локализации (box_loss) и увеличение точности, полноты и mAP50-95, которые показывали ощутимо более значимые результаты чем модели обучаемые на прошлых датасетах.

Следующим этапом стало разработка пользовательского веб-сервиса позволяющего получить доступ к модели. Он позволяет загружать фотографии, а после разметки выводит фотографии с уже размеченным на ней мусором, выделенным боксами и количеством мусора на фотографии. Результаты разметки также можно экспортировать из веб-сервиса в JSON формате.

Рис. 5. Разработанный для модели веб-сервис

На Рисунке 5 показан интерфейс пользовательского веб-сервиса, предназначенного для работы с нашей моделью по детекции морского мусора на поверхности.

{

{

"bbox": [

385.8293762207031,

246.02366638183594,

520.3457641601562, 319.2868957519531 ], "class": [ 0.0

], "confidence": [

0.39541617035865784

]

},

{ "bbox": [

329.7617492675781,

290.73809814453125,

343.5577697753906, 303.389892578125 ], "class": [ 0.0

], "confidence": [

0.36832675337791443

]

},

{ "bbox": [

344.1808166503906,

289.5313415527344,

370.7807922363281,

303.28448486328125 ], "class": [

0.0

], "confidence": [

0.26796528697013855

]

}

]

}

Рис. 6. JSON-файл экспортированный из веб-сервиса

Как видно на рисунке 6 JSON-файл имеет понятную структуру, которая сразу отражает название загруженной фотографии, для более быстрого сопоставления, количество обнаруженных объектов, класс объекта (в модель введен только один класс), координаты обнаруженного объекта в пикселях и уверенность модели что обнаруженный объект является мусором (где 1 это 100% мусор, а 0 вообще не мусор по мнению модели).

4.    Обсуждение и заключение

По итогам работы были проведены сравнительный анализ и количественная оценка различных моделей детекции морского мусора, включая версии YOLO. На основании полученных результатов выбрана оптимальная модель (YOLOv8), которая демонстрирует высокую скорость обработки и точность при интеграции с различным программным обеспечением. Проведен тщательный процесс подготовки данных, включая разметку и аугментацию изображений, что позволило улучшить качество обучения модели.

Разработанный веб-сервис расширяет возможности применения модели, позволяя пользователям удобно загружать и анализировать фотографии с детекцией объектов морского мусора, а также экспортировать результаты. Это решение обеспечивает не только автоматизацию задач мониторинга, но и предоставляет инструмент для дальнейших исследований в области анализа загрязнений.

Для перспективного развития темы возможно проведение более глубокого исследования эффективности других методов детекции и интеграция с системами спутникового мониторинга. Кроме того, комбинирование YOLO с другими алгоритмами глубокого обучения, такими как SSD и Faster R-CNN, может открыть новые возможности повышения точности и надежности детекции. В долгосрочной перспективе идеальным решением станет разработка универсального алгоритма, способного адаптироваться к различным условиям съемки и типам загрязнений с минимальным количеством ложноположительных результатов.