Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Искусственный интеллект

Разработка модели детекции морского мусора

Автор: Достовалов А.А., Капустин С.А.

Журнал: Сетевое научное издание «Устойчивое инновационное развитие: проектирование и управление» @journal-rypravleni

Статья в выпуске: 1 (66) т.21, 2025 года.

Бесплатный доступ

Работа посвящена разработке модели машинного обучения для автоматической детекции морского мусора на основе анализа изображений. Проведен сравнительный анализ моделей глубокого обучения (Faster R-CNN, SSD, YOLO) с учетом точности, скорости обработки и потребления вычислительных ресурсов. Наиболее перспективной признана модель YOLOv8 благодаря высокой производительности и стабильности. Разработан и подготовлен уникальный датасет, включающий изображения морской поверхности с размеченными объектами мусора. Выполнено обучение модели, достигнуты значительные показатели точности (mAP50-95), полноты и локализации объектов. Создан веб-сервис, позволяющий загружать фотографии, автоматически определять объекты морского мусора и экспортировать результаты в формате JSON. Работа представляет вклад в автоматизацию процессов экологического мониторинга и может быть использована для дальнейших исследований в области борьбы с морским загрязнением. Результаты демонстрируют возможность интеграции модели в системы мониторинга реального времени.

Еще

Морской мусор, детекция, мониторинг загрязнений, анализ изображений, бортовые камеры, спутниковый мониторинг, автоматизация, экосистемы, пластиковые отходы, экологическое воздействие, технологии наблюдения, методы детекции

Короткий адрес: https://sciup.org/14133737

IDR: 14133737 | УДК: 004.8(55)

Текст научной статьи Разработка модели детекции морского мусора

том 21 № 1 (66), 2025, ст. 4

Количество морского мусора в океанах во всем мире увеличивается. Исследователи из Фонда морских исследований Алгалита зафиксировали увеличение количества пластикового мусора в

Центрально-Тихоокеанском круговороте в пять раз в период между 1997 и 2007 годами, где базовый уровень в 1997 году показал, что количество пластиковых частиц превышает количество планктона на поверхности океана в соотношении 6:1 [1]. В связи с этим возникает острая необходимость в разработке и внедрении эффективных методов мониторинга и детекции морского мусора.

Современные подходы к решению этой задачи включают использование различных технологий для автоматизации процесса обнаружения загрязнений, среди которых особое внимание уделяется методам анализа изображений, получаемых с бортовых камер судов, а также спутниковым методам наблюдения.

Ручной поиск — это метод, при котором специалисты физически обследуют морские и прибрежные территории с целью выявления и идентификации мусора. Обычно это включает в себя как визуальный осмотр с судов, так и сбор образцов воды для дальнейшего анализа [2]. Этот метод обладает высокой точностью, так как позволяет экспертам напрямую оценивать типы загрязнений, но ограничен территориально и требует значительных затрат времени и ресурсов (например, для судов и персонала). В дополнение к этому, правовые ограничения, такие как доступ к охраняемым территориям или необходимость получения разрешений для проведения научных исследований, могут усложнить его использование [3].

Спутниковый мониторинг использует данные с орбитальных спутников для анализа загрязнения океанов. Спутниковые данные позволяют получить информацию о масштабе загрязнения в реальном времени, однако они ограничены по точности, особенно в отношении мелких частиц мусора (например, микропластика), и могут быть подвержены атмосферным помехам, таким как облачность или дождь.

Спутниковая съемка активно используется для мониторинга нефтяных разливов и крупных загрязнений. Один из известных спутниковых проектов — это использование данных с аппаратов Sentinel Европейского космического агентства для мониторинга загрязнения в акваториях ЕС [4].

Анализ изображений с бортовых камер судов включает в себя использование камер, установленных на борту судов для съемки поверхности моря и последующего анализа полученных изображений. Технологии обработки изображений, такие как компьютерное зрение и машинное обучение, позволяют эффективно выявлять различные виды загрязнений, включая мелкие частицы пластика. Этот метод обеспечивает высокую точность, особенно при наличии качественных изображений, но ограничен площадью, которую можно обследовать с судна, а также зависит от погодных условий.

Конечно, использование нейронных сетей для детекции мусора прямиком на собирающем информации судне уже не ново, так например M. Fulton и другие в рамках своей статьи «Robotic Detection of Marine Litter Using Deep Visual Detection Models» обучали модель автоматизации поиска мусора, но, как и почти все другие похожие проекты этот проект был направлен на поиск именно подводного мусора [5].

Новизна данной работы заключается в дополнительном анализе современных методов машинного обучения, их применении в поддержке борьбы с экологической угрозой и возможного развития противодействия вредоносным действиям, а также предоставлением современного актуального бэкграунда для будущих исследований. Исследование может внести вклад в понимание современных тенденций и разработку новых методов в области контроля за экологическим состоянием вод.

Таким образом целью данной работы является готовая модель машинного обучения, способная автоматически обнаруживать и подсчитывать морской мусор на фотографиях морской поверхности. Исходя из цели сформулированы следующие задачи:

- изучение различных моделей машинного обучения и проведение их сравнения;
- изучение методов улучшения качества модели;
- сбор и подготовка датасета для обучения выбранной модели;
- обучение модели на подготовленных данных;
- разработка API модели;
- интерпретация результатов.

Для задачи детекции рассматривались популярные модели глубокого обучения, такие как Faster R-CNN, SSD и YOLO.

Критерии:

• Точность (Mean Average Precision, MAP): это основной показатель, который используется для сравнения производительности моделей детекции объектов.
• Скорость обработки: Количество кадров в секунду (FPS, frames per second), которое модель может обработать.
• Потребление ресурсов (GPU): Объем вычислительных ресурсов, которые модель требует

для работы, включая требования к памяти и графическому процессору.

Таблица 1. Сравнение моделей детекции объектов1

Критерий	Faster R-CNN	SSD	YOLOv3 (Lu Tan), YOLOv4 (DalmarDakari)
MAP, % (Lu Tan)	87.69	82.41	80.17
FPS (Lu Tan)	7	32	51
MAP, % (DalmarDakari)	61.20	56.80	54.30
FPS (Dalmar Dakari)	8	22	40
GPU, MB (Dalmar Dakari)	5400	3200	2800

На основании сравнения (Таблица 1) наиболее перспективным и эффективным методом детекции морского мусора в реальном времени является использование модели детекции YOLO, потому что модель обеспечивает наиболее высокую скорость обработки и высокую точность, что делает её оптимальным выбором для детекции морского мусора в реальном времени.

Модель SSD также может применяться для задач реального времени и представляет собой более сбалансированный подход между скоростью и точностью, однако её точность и способность детектировать мелкие объекты уступают YOLO.

Faster R-CNN подходит для высокоточных задач, но из-за низкой скорости обработки её использование ограничено в задачах реального времени. Также модель обладает высоким потреблением ресурсов из-за сложной многоступенчатой архитектуры, что делает её требовательной к памяти и вычислительным ресурсам.

Для определения наиболее перспективной и эффективной конкретной вариации YOLO было проведено исследование производительности последних моделей средних размеров (m).

Таблица 2. Сравнение моделей детекции объектов YOLO v8, v9, v10, v112

Модель	Размер входа (пиксели)	mAPval (50-95), (B)	Параметры (млн.)	FLOPs (млрд)	GPU (ms)
YOLOv8m	640	50.2	25.9	78.9	1.83
YOLOv9m	640	51.4	20.1	76.8	8
YOLOv10m	640	51.1	59.1	59.1	1.84
YOLOv11m	640	51.5	20.1	68.0	4.7 ± 0.1

Объяснение данных:

• Размер входа (pixels): Размер изображения, на котором происходит обучение или детекция.
• mAPval (50-95): Средняя точность модели при различных порогах (от 50 до 95).

¹ Сделан авторами на основании работ [6, 7].
² Сделан авторами на основании исследований [8, 9, 10, 11, 12].

• Параметры (M): Количество параметров модели в миллионах.
• FLOPs (B): Вычислительные затраты модели в миллиардах операций с плавающей запятой.
• GPU (ms): Время, необходимое для выполнения предсказания, зависит от аппаратных условий.

Таким образом, на основе проведённого исследования (Таблица 2) мы пришли к выводу что по показателям лучшим решением является 10 версия, но основываясь на огромном опыте ML-специалистов все же выбрали 8 версия, за счет больших возможностей ее интеграции с другим программным обеспечением, сервисами и инструментами, а также за счет ее большей стабильности в работе и детекции.

В самом начале работы были взяты данные предоставленные ПАО «Сбербанк», которые содержали 16000 фотографий сделанных в реальных условиях с борта судна, но на последующих этапах уже использовали датасеты размещенные другими исследователями на платформе Roboflow, поскольку первоначальный сет содержал всего 8% фотографий с мусором от всего числа, да и мусор был не четко выраженным, поэтому даже использование стратификации и аугментации не дало значительного результата.

Как и говорилось ранее первоначальное обучение модели проходило на базе реальных фотографий полученных с плаваний круизных лайнеров, торговых кораблей и других судов. После разметки всех фотографий уже предполагалось сомнительное качество модели обучаемой до этого. На рисунках ниже вы можете увидеть пример размеченной фотографии.

На Рисунке 1 показан пример размеченной фотографии и можно заметить что мусор не такой уж и большой на фотографии, хотя можно отметить что это один из самых больших объектов похожих на мусор, но основная проблема заключается в том что искомые объекты зачастую слишком сильно схожи с морской пеной, что в свою очередь сильно затрудняет их детекцию и обучение модели.

Таблица 3. Лучшие 5 эпох согласно оценке YOLO

Эпоха	Точность, (B)	Полнота, (B)	mAP50, (B)	mAP50-95, (B)
46	0,8014	0,2749	0,2912	0,1069
47	0,7865	0,2749	0,2944	0,1043
39	0,7912	0,2567	0,2676	0,1036
44	0,7221	0,2691	0,2890	0,1036
50	0,8362	0,2669	0,2918	0,1033

Электронное научное издание «Устойчивое инновационное развитие: проектирование и управление»

том 21 № 1 (66), 2025, ст. 4

Рис. 1. Пример размеченной фотографии в ее реальном размере

В Таблице 3 представленный результаты обучения модели на начальном датасете, как видно наилучшими по показателю полноты (recall) стали 46 и 47 эпохи, в которых он составил 27,5%. Это говорит о том, что в валидационном пакете фотография модель смогла найти мусор только на 27,5% фотографий с мусором, следовательно, найден мусор будет только на 1 из 4 фотографий. И это вполне логично поскольку при обучении модель сжимает фотографии до нужного формата (все опирается в вычислительные мощности) и при обучении на фотографиях 1024×1024 пикселя мусор на почти всех фотография становится размером с пару пикселей и даже человеку не сказать мусор это или нет. Поэтому следующим шагом мы провели обрезку фотографий для получения фотографий мусора без потери качества.

Использование этого метода в совокупности с методами аугментации не дал значительного прироста, оставив полноту и точность на том же уровне, но увеличив mAP50-95 на 1-2%.

Датасеты полученные с Roboflow же содержали более значимые изображения мусора, по которые значительно увеличили эффективность модели. Сам датасет содержит порядка 3000 фотографии, что больше, чем изначальный датасет.

Как видно на Рисунке 3 на фотографиях с Roboflow гораздо лучше видно мусор при этом она сильно отлична от пены, что сильно увеличило эффективность обучения модели.

Таблица 4. Лучшие 5 эпох обучения последней версии модели согласно оценке YOLO

Эпоха	Точность, (B)	Полнота, (B)	mAP50, (B)	mAP50-95, (B)
24	0.83629	0.75019	0.8345	0.4456
35	0.84384	0.74397	0.82995	0.4453
33	0.83479	0.69993	0.8111	0.4228
38	0.78569	0.75097	0.80637	0.4224
25	0.81145	0.74163	0.8151	0.4391

Электронное научное издание «Устойчивое инновационное развитие: проектирование и управление»

том 21 № 1 (66), 2025, ст. 4

Рис. 2. Пример той же самой размеченной фотографии после обрезки

В Таблице 4 можно видеть результаты 5 лучших эпох при обучении модели на нашем финальном датасете и как можно видеть лучший результат был достигнут в 24 эпоху, при этом результат значительно превосходил результаты модели, обученной на начальном датасете.

Например, mAP50 и mAP50-95 выросли в 4 раза, полнота – в 3.

Рис. 3. Пример размеченной фотографии с Roboflow в ее реальном размере

На Рисунке 4 приведены все метрики, которые получали по мере обучения итоговой модели, на них наглядно видно постепенное уменьшение ошибок локализации (box_loss) и увеличение точности, полноты и mAP50-95, которые показывали ощутимо более значимые результаты чем модели обучаемые на прошлых датасетах.

Следующим этапом стало разработка пользовательского веб-сервиса позволяющего получить доступ к модели. Он позволяет загружать фотографии, а после разметки выводит фотографии с уже размеченным на ней мусором, выделенным боксами и количеством мусора на фотографии. Результаты разметки также можно экспортировать из веб-сервиса в JSON формате.

Рис. 5. Разработанный для модели веб-сервис

На Рисунке 5 показан интерфейс пользовательского веб-сервиса, предназначенного для работы с нашей моделью по детекции морского мусора на поверхности.

{

"bbox": [

385.8293762207031,

246.02366638183594,

520.3457641601562, 319.2868957519531 ], "class": [ 0.0

], "confidence": [

0.39541617035865784

]

{ "bbox": [

329.7617492675781,

290.73809814453125,

343.5577697753906, 303.389892578125 ], "class": [ 0.0

], "confidence": [

0.36832675337791443

]

{ "bbox": [

344.1808166503906,

289.5313415527344,

370.7807922363281,

303.28448486328125 ], "class": [

0.0

], "confidence": [

0.26796528697013855

]

}

]

}

Рис. 6. JSON-файл экспортированный из веб-сервиса

Как видно на рисунке 6 JSON-файл имеет понятную структуру, которая сразу отражает название загруженной фотографии, для более быстрого сопоставления, количество обнаруженных объектов, класс объекта (в модель введен только один класс), координаты обнаруженного объекта в пикселях и уверенность модели что обнаруженный объект является мусором (где 1 это 100% мусор, а 0 вообще не мусор по мнению модели).

4. Обсуждение и заключение

По итогам работы были проведены сравнительный анализ и количественная оценка различных моделей детекции морского мусора, включая версии YOLO. На основании полученных результатов выбрана оптимальная модель (YOLOv8), которая демонстрирует высокую скорость обработки и точность при интеграции с различным программным обеспечением. Проведен тщательный процесс подготовки данных, включая разметку и аугментацию изображений, что позволило улучшить качество обучения модели.

Разработанный веб-сервис расширяет возможности применения модели, позволяя пользователям удобно загружать и анализировать фотографии с детекцией объектов морского мусора, а также экспортировать результаты. Это решение обеспечивает не только автоматизацию задач мониторинга, но и предоставляет инструмент для дальнейших исследований в области анализа загрязнений.

Для перспективного развития темы возможно проведение более глубокого исследования эффективности других методов детекции и интеграция с системами спутникового мониторинга. Кроме того, комбинирование YOLO с другими алгоритмами глубокого обучения, такими как SSD и Faster R-CNN, может открыть новые возможности повышения точности и надежности детекции. В долгосрочной перспективе идеальным решением станет разработка универсального алгоритма, способного адаптироваться к различным условиям съемки и типам загрязнений с минимальным количеством ложноположительных результатов.