Влияние типа модели Ultralytics и размера BATCH SIZE на точность обнаружения людей на аэрофотоснимках

Белокрылов К.В.; Порохин Ю.М.; Сыркин И.С.; Садовец В.Ю.; Belokrylov K.V.; Porokhin Yu.M.; Syrkin I.S.; Sadovets V.Yu.

doi:10.18469/ikt.2025.23.3.12

Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Искусственный интеллект

Влияние типа модели Ultralytics и размера BATCH SIZE на точность обнаружения людей на аэрофотоснимках

Автор: Белокрылов К.В., Порохин Ю.М., Сыркин И.С., Садовец В.Ю.

Журнал: Инфокоммуникационные технологии @ikt-psuti

Рубрика: Новые информационные технологии

Статья в выпуске: 3 (91) т.23, 2025 года.

Бесплатный доступ

Рост интереса к применению беспилотных летательных аппаратов для мониторинга и обеспечения безопасности актуализирует задачу точного и надежного обнаружения людей на аэрофотоснимках. Однако особенности ракурса, масштабов и фона таких изображений создают сложности для алгоритмов компьютерного зрения. Настоящая работа посвящена исследованию конфигурации моделей YOLOv11 для решения задачи детекции людей на изображениях, полученных с дронов. Несмотря на очевидную направленность темы, статья фокусируется на эмпирическом сравнении производительности различных версий моделей, влияния размера batch size, а также связи архитектурных особенностей и условий обучения. В рамках исследования проведены эксперименты с различными предобученными версиями моделей YOLOv11, а также влияние batch size на обобщающую способность моделей. Полученные результаты могут служить основой для внедрения в системы анализа изображений в реальном времени.

Машинное обучение, нейросети, машинное зрение, обучение, обнаружение людей, аэрофотоснимки, дроны, batch size

Короткий адрес: https://sciup.org/140313589

IDR: 140313589 | УДК: 004.852 | DOI: 10.18469/ikt.2025.23.3.12

Influence of Ultralytics Model Type and Batch Size on People Detection Accuracy in Aerial Photographs

The increasing interest in the use of unmanned aerial vehicles for monitoring and security makes the task of accurate and reliable detection of people in aerial photographs relevant. However, the specific angle, scale, and background of such images create difficulties for computer vision algorithms. This paper is devoted to the study of the configuration of YOLOv11 models for solving the problem of detecting people in images obtained from drones. Despite the obvious focus of the topic, the article focuses contains on an empirical comparison of the performance of different model versions of the models, the influence of the batch size influence, as well as the interaction of architectural features and training conditions. As part of the study, experiments were conducted with various pre-trained versions of YOLOv11 models, and the influence of the «batch size» on the generalization ability of the models was investigated. The results obtained can serve as a basis for implementation in real-time image analysis systems.

Текст научной статьи Влияние типа модели Ultralytics и размера BATCH SIZE на точность обнаружения людей на аэрофотоснимках

Обнаружение людей на изображениях, полученных с беспилотных летательных аппаратов, представляет собой актуальную и сложную задачу компьютерного зрения. Применение дронов в таких сферах, как охрана общественной безопасности, поисково-спасательные операции, мониторинг массовых мероприятий, а также в промышленных условиях (например, на горнодобывающих объектах) требует высокой точности и надежности систем автоматического анализа визуальной информации [1]. В частности, развитие систем автономной навигации и логистики в карьерах, включая беспилотные грузовые перевозки, усиливает потребность в точных алгоритмах обнаружения людей и объектов в зоне действия машин [2].

Одними из наиболее эффективных технологий в этой области на сегодняшний день являются сверточные нейронные сети, в частности, модели семейства YOLO (You Only Look Once), демонстрирующие высокую производительность в задачах детектирования объектов в реальном времени [3]. Однако, несмотря на значительный прогресс в развитии архитектур YOLO, точность обнаружения объектов на аэрофотоснимках остается ограниченной. Это связано со спецификой данных, полученных с дронов: высокой вариативностью ракурсов, масштабов объектов, неоднородным фоном, а также изменчивыми условиями освещения и плотностью сцены. Стандартные конфигурации моделей, обученные на общих датасетах, зачастую недостаточно адаптированы к этим условиям, что приводит к увеличению количества ложных срабатываний или пропущенных объектов.

Ранее проведенные исследования были преимущественно сосредоточены на улучшении архитектурной составляющей моделей или на расширении обучающих выборок за счет синтетических данных. Вместе с тем, в ряде прикладных решений (например, в модулях кластеризации объектов для анализа плотности и локализации скоплений) подчеркивается значимость адаптации детекторов к реальным условиям эксплуатации [4]. Однако вопрос комплексной настройки модели YOLO к специфике аэровизуальных данных, включая выбор архитектурной модификации, остается недостаточно изученным. Именно этот аспект рассматривается в данной работе.

Настоящая статья направлена на поиск оптимальной конфигурации нейросетевой модели YOLO для решения задачи обнаружения людей на изображениях с дронов. В рамках исследования проводится серия экспериментов, в том числе сравнение различных версий модели, а также изменение размера batch size. Такой подход позволяет не только повысить точность детекции, но и выявить закономерности, характеризующие чувствительность модели к различным аспектам настройки при работе с аэровизуальными изображениями.

Цель статьи заключается в обоснованном подборе параметров и конфигурации модели YOLO, обеспечивающих максимальную точность обнаружения людей в условиях аэрофотосъемки.

Результаты данного исследования могут быть полезны как для дальнейших теоретических разработок в области глубокого обучения и интеллектуального анализа визуальных данных, так и для практического внедрения в системы наблюдения и безопасности на базе беспилотников.

Методы

Предметной областью в нашем исследовании служит задача поиска людей на аэрофотоснимках, которую мы решали в ходе технологического конкурса UP GREAT «Автономный поиск: СОФТ». Конкурсная задача состояла в создании программного обеспечения для поиска людей на снимках, снятых с беспилотного воздушного судна (БВС). Организаторы предоставили датасет для обучения и валидации моделей, создаваемых в ходе конкурса. Данные представлены в виде изображений формата jpg и меток формата txt (рисунок 1). Для корректной работы нейронной модели исходный датасет был преобразован с помощью метода скользящего окна в квадратные изображения размером 640 на 640 пикселей.

а)

0 0.582764 0.814287 0.013673 0.071794

б)

Рисунок 1. Пример подготовки изображения для обучающего набора данных: а) исходное изображение с нарисованными рамками, описывающие местоположение людей на изображении; б) содержание формата txt с пиксельными координатами людей на изображении в формате YOLO

Формат записи пиксельных координат задан в следующем виде: label , xc , yc , w , h – для каждого объекта поиска с новой строки. Каждый параметр имеет следующее описание (формат YOLO):

1 . label – код класса, у всех Объектов поиска равен 0;
2 .xc – центр ограничивающего прямоугольника по ширине изображения, разделенный на ширину изображения;
3 .yc – центр ограничивающего прямоугольника по высоте изображения, разделенный на высоту изображения;
4 .w – ширина ограничивающего прямоугольника, разделенная на ширину изображения;
5 .h – высота ограничивающего прямоугольника, разделенная на высоту изображения.

К каждому изображению приложен файл в формате txt, где в каждой строке записана аннотация месторасположения Объекта поиска. Таким образом получается следующая структура обучающей и валидационной выборок:

root/

|--labels/

F |— i.txt

F F— 2.txt

F F

F '--- n.txt

[--images/

F F

F— 1.jpg

F— 2.jpg

F•

1— n.jpg

Для решения поставленной задачи мы использовали модель YOLOv11. Семейство моделей YOLO – это одностадийные модели, обрабатывающие изображения за один проход, что положительно сказывается на скорости обработки. Выбор 11-й версии модели обусловлен хорошими показателями при решении задач компьютерного зрения, простотой использования благодаря подробной документации, наличием предобученных на датасете COCO моделей (таблица 1), готовых к использованию и позволяющих ускорить процесс обучения.

Таблица 1. Предобученные модели YOLOv11

Модель	Размер входного изображения	mAPval 50-95	Скорость CPU ONNX (мс)	Скорость T4 TensorRT 10 (мс)	params (M)	FLOPs (B)
YOLO11n	640	39,5	56,1 ± 0,8	1,5 ± 0,0	2,6	6,5
YOLO11s	640	47,0	90,0 ± 1,2	2,5 ± 0,0	9,4	21,5
YOLO11m	640	51,5	183,2 ± 2,0	4,7 ± 0,1	20,1	68,0
YOLO11l	640	53,4	238,6 ± 1,4	6,2 ± 0,1	25,3	86,9
YOLO11x	640	54,7	462,8 ± 6,7	11,3 ± 0,2	56,9	194,9

Обучение производилось на сервере машинного обучения в нашем Центре. Конфигурация сервера: AMD Ryzen Threadripper PRO 5975WX 32-Cores, 256 Гб ОЗУ, 6 RTX 4090. Процесс обучения проводился распределено на четырех видеокартах.

В рамках данного исследования были проведены группы экспериментов с целью выявления наилучшей конфигурации модели для конкретной задачи:

1. Эксперименты с типом модели YOLO.
2. Эксперименты со значением batch size.

На каждом этапе была выявлена наилучшая модель по определенным метрикам, показатели которой использовались для последующих экспериментов.

В качестве оптимизатора был выбран Stochastic Gradient Descent (SGD) из-за его популярности, а также ввиду того, что при значении optimizer в модели по умолчанию auto, оптимизатор и его параметры подбираются автоматически, что отнимает возможность исследовать их влияние на результат. Остальные параметры, которые затрагивали бы показатели исследуемые показатели модели, были оставлены по умолчанию.

Для выбора наилучшего типа модели было проведено обучение всех типов модели: n , s , m , l , x . Обучение было запущено на 50 эпох для обеспечения сходимости модели. Также была использована выборка из датасета в 10% от исходного количества изображений из бытовых соображений для обеспечения быстрого получения результатов. Значение batch size было задано равным 32, так как является хорошим стартовым значением для машинного обучения. На данном этапе был выявлен тип модели, показавший наилучшие результаты, который будет использоваться в дальнейших экспериментах.

При использовании алгоритма SGD для оптимизации параметров модели при обучении значение batch size оказывает влияние на генерализацию модели, что в итоге отражается на качестве модели [5]. С целью выявить наилучшее значение batch size модель была обучена с разными значениями данного параметра от маленьких до больших: 8, 16, 32, 64. Так как наилучшее значение batch size зависит от размера обучающих данных, размер выборки был увеличен до полного объема [6]. Чтобы снизить время на обучение, количество эпох было понижено до 20. На данном этапе было выявлено оптимальное значение batch size в данных условиях, которое будет использоваться в дальнейшем.

Результаты исследования

В результате экспериментов с типами моделей были выявлены наилучшая и наихудшая модели. Показатели метрик и оценку моделей можно увидеть на таблицах 2 и 3. Если сравнивать по лучшим и худшим значениям параметров, наилучшая модель – x , она показала лучшие значения трех метрик из шести: TP (29), F1 (0,168) и Recall (0,097). Наихудшая модель – m , она показала худшие значения пяти из шести метрик: TP (11), Accuracy (0,402), F1 (0,066), Precision (0,542) и Recall (0,037). Если сравнить насколько больше в среднем были значения метрик у каждой модели от остальных, то наилучшей моделью становится l , у которой значения метрик в среднем на 30,071% лучше, чем у остальных моделей. Наихудшей моделью при таком подсчете остается m : ее значения метрик оказались в среднем на 31,544% меньше значений метрик других моделей. В данной работе далее будет рассматриваться только модель x .

В результате экспериментов с значением batch size было выявлено наилучшее значение этого параметра для данной задачи: Модель с этим значением показала лучшие значения всех метрик (TP – 210; TN – 200; Accuracy – 0,82; F1 – 0,824; Precision – 1; Recall – 0,7), которые в среднем на 1,721% больше, чем значения при других значениях batch size. Наихудшее значение данного параметра – 64. Модель с этим значением показала худшие значения четырех из шести метрик (TP – 204; Accuracy – 0,802; F1 – 0,805; Recall – 0,68), которые в среднем на 1,235% меньше, чем значения при других значениях batch size. Показатели метрик и оценку значений batch size можно увидеть на таблицах 4 и 5.

Таблица 2. Значения метрик для каждого типа модели

Модель	TP	TN	Accuracy	F1	Precision	Recall
n	14	196	0,42	0,088	0,778	0,047
s	18	196	0,428	0,112	0,818	0,06
m	11	190	0,402	0,066	0,524	0,037
l	27	195	0,444	0,163	0,844	0,09
x	29	183	0,424	0,168	0,63	0,097

Таблица 3. Типы модели, показавшие лучшие и худшие значения каждой метрики

Метрика	Лучшее значение	Худшее значение
TP	x	m
TN	n, s	x
Accuracy	l	m
F1	x	m
Precision	l	m
Recall	x	m

Таблица 4. Значения метрик для моделей со значениями batch size

Batch size	TP	TN	Accuracy	F1	Precision	Recall
8	208	198	0,812	0,817	0,99	0,693
16	210	200	0,82	0,824	1	0,7
32	206	196	0,804	0,808	0,981	0,687
64	204	197	0,802	0,805	0,986	0,68

Таблица 5. Значения batch size, модели с которыми показали лучшие и худшие значения каждой метрики

Метрика	Лучшее значение	Худшее значение
TP	16	64
TN	16	32
Accuracy	16	64
F1	16	64
Precision	16	32
Recall	16	64

Обсуждение

В ходе экспериментов с версиями предобу-ченных моделей было выявлено, что наилучшие результаты показали крупные модели x и l, а самый худший результат показала модель m. На первый взгляд, парадоксально, что модель m оказалась хуже, чем модели s и n, но в то же время модели x и l, как и следовало ожидать, оказались наилучшими. На наш взгляд, это обусловлено несколькими причинами. Во-первых, YOLOv11 имеет свои архитектурные особенности в сравнении с предыдущими версиями, например блок C3k2, и параллельный пространственный механизм внимания, которые помогают модели фокусироваться на важных областях изображения [7]. Во-вторых, мы использовали малое количество данных (10% от исходного датасета) для ускорения процесса проведения эксперимента, что могло привести к результатам, в которых для модели m (с меньшей глубиной и шириной) в сравнении с x и l, не хватило данных для обучения, что привело к плохому результату обобщения в сравне- нии с легковесными моделями s и n, для которых малое количество данных не приводит к таким проблемам [8; 9].

Таким образом, модели x и l оказались лучшими, благодаря архитектурным способностям, которые получилось раскрыть, используя их глубину и ширину, в сравнении со всей линейкой моделей. В то же время, модель m , показала результаты хуже, чем s и n , несмотря на превосходящую глубину и ширину. Это связано с большей зависимостью от количества данных для обучения.

В ходе экспериментов с batch size было выявлено, что оптимальные значения используемых метрик достигаются при batch size равном 16. Этот результат согласуется с рядом теоретических и эмпирических исследований, указывающих на то, что слишком большой размер batch size может негативно сказываться на способностях модели к обобщению [10]. При обучении с использованием алгоритма стохастического градиентного спуска (SGD) или его производных, малые и средние значения batch size способствуют введению шума в процесс обновления весов. Такой шум позволяет модели избегать локальных минимумов с плохими обобщающими свойствами и способствует нахождение более «плоских» минимумов, которые ассоциированы с лучшей обобщающей способностью [11].

Кроме того, при обучении модели на сложных и разнообразных данных, таких как аэрофотоснимки с различными ракурсами, масштабами и фонами, важно сохранять элемент стохастично-сти в градиентных обновлениях [12]. При больших размерах batch size градиенты становятся более «чистыми», но могут переобучаться на представленных в каждой итерации закономерностях, снижая способность модели к выявлению менее выраженных объектов, таких как люди в тени, частично перекрытые или имеющие малый масштаб на изображении.

Выводы

В результате проведенных исследований установлена зависимость качества обнаружения людей на аэрофотоснимках от архитектурных особенностей используемых моделей YOLOv11 и параметров их настройки. Оптимальная конфигурация модели достигается при использовании более крупных моделей (x и l), обладающих архитектурными преимуществами и способных эффективнее извлекать признаки при достаточном объеме данных. Модель m, несмотря на свою промежуточную архитектуру, показала худшие результаты вследствие недостаточной способно- сти к обобщению при ограниченном объеме обучающей выборки.

Найдено, что использование среднего значения batch size (16) способствует лучшему балансу между стабильностью градиентных обновлений и стохастичностью, что критично для обобщающей способности моделей на сложных и разнообразных аэрофотоснимках. Оптимизация гиперпараметров обучения улучшила точность локализации и повысила чувствительность модели к сложным визуальным признакам.

Таким образом, наилучшие результаты достигаются при использовании моделей с высокой архитектурной сложностью и тщательно подобранным размером batch size.

В данной работе была показана возможная адаптации методики настройки моделей YOLOv11 к задачам детекции людей в условиях съемки с дронов, что может быть полезно для поисково-спасательных операций, охраны территорий и мониторинга скоплений людей. Дальнейшие шаги работы включают расширение обучающего набора с учетом различных климатических и географических условий, исследований влияния тюнинга модели, а также его автоматизации с применением методов байесовской оптимизации и интеграцию моделей в реальное программное обеспечение для бортовых систем дронов.

Работа выполнена при финансовой поддержке Министерства науки и высшего образования Российской Федерации по соглашению от 30.09.2022 г. № 075-15-2022-1198 с ФГБОУ ВО «Кузбасский государственный технический университет имени Т.Ф. Горбачева» Комплексной научно-технической программы полного инновационного цикла «Разработка и внедрение комплекса технологий в областях разведки и добычи твердых полезных ископаемых, обеспечения промышленной безопасности, биоремедиации, создания новых продуктов глубокой переработки из угольного сырья при последовательном снижении экологической нагрузки на окружающую среду и рисков для жизни населения» (КНТП «Чистый уголь – Зеленый Кузбасс») утвержденной распоряжением Правительства Российской Федерации от 11 мая 2022 г. № 1144р в рамках реализации мероприятия «Разработка и создание беспилотного карьерного самосвала челночного типа грузоподъемностью 220 тонн» в части выполнения научно-исследовательских и опытно-конструкторских работ.