Анализ современных методов распознавания малоразмерных воздушных объектов на основе машинного обучения

Автор: Гарин Е.Н., Гладышев А.Б., Копылов Н.В., Ратушняк В.Н., Нечаева Е.А.

Журнал: Журнал Сибирского федерального университета. Серия: Техника и технологии @technologies-sfu

Рубрика: Информационно-коммуникационные технологии

Статья в выпуске: 1 т.19, 2026 года.

Бесплатный доступ

В последние годы возросло применение малоразмерных беспилотных летательных аппаратов (БПЛА), что вызвало необходимость их точного распознавания на фоне объектов с аналогичными радиолокационными характеристиками, прежде всего птиц. Несмотря на развитие методов машинного обучения, задача надёжного выделения признаков БПЛА остаётся актуальной. Целью работы является сравнительный анализ существующих отечественных и зарубежных подходов к распознаванию малоразмерных воздушных объектов, основанных на алгоритмах машинного обучения. В статье представлены результаты оценки эффективности традиционных методов (метод опорных векторов, случайные леса), глубоких нейронных сетей, а также трансформерных архитектур. Исследованы возможности выделения информативных признаков из микродоплеровских время- частотных спектрограмм, полученных в различных частотных диапазонах. Установлено, что свёрточные нейронные сети и трансформеры достигают точности распознавания до 97 % при низком уровне помех, однако их применение сопряжено со значительными вычислительными затратами и необходимостью больших объёмов обучающих данных. Выделены перспективы применения гибридных нейросетевых архитектур, интегрирующих преимущества различных методов, для повышения точности и устойчивости анализа. Результаты работы имеют практическое значение для разработки эффективных алгоритмов распознавания БПЛА в условиях реального времени и ограниченных вычислительных ресурсов. Представленные выводы расширяют существующие представления о потенциале и ограничениях современных алгоритмов машинного обучения в радиолокационных системах.

Еще

Беспилотные летательные аппараты, машинное обучение, микродоплер, свёрточные нейронные сети, трансформеры

Короткий адрес: https://sciup.org/146283257

IDR: 146283257 | УДК: 623.76

Текст научной статьи Анализ современных методов распознавания малоразмерных воздушных объектов на основе машинного обучения

В последние годы существенно возросла интенсивность применения малоразмерных беспилотных летательных аппаратов (БПЛА), что актуализировало задачу их надежного распознавания на фоне схожих по радиолокационным характеристикам природных объектов, прежде всего птиц. Специфика летно-технических характеристик малоразмерных БПЛА обусловливает ряд дополнительных преимуществ их построения: низкая радиолокационная заметность, высота полета и скорость движения, вплоть до нулевой для мультикоптеров, малая визуальная заметность [1]. Даже если эхосигнал БПЛА и будет выделен системой селекции движущейся цели радиолокационной станции, то невозможно однозначно различить малоразмерный БПЛА и небольшую стаю птиц или одиночную птицу средних размеров. Связано это с тем, что отражения от одиночных птиц в диапазоне волн 7,5–12 см соответствуют отражению от цели с эффективной площадью рассеяния (ЭПР) 10–4–10–2 м2 [2]. Как правило, птицы летают на высоте ниже 2000 м, что совпадает как с высотами полета, так и с ЭПР малоразмерных БПЛА. Скорость полета птиц лежит в интервале от 30 до 70 км/ч, а с учетом силы ветра радиальные скорости для птиц могут составлять до 150 км/ч, что снова совпадает с типовыми скоростями полета малоразмерных БПЛА. Таким образом, на сегодняшний день актуальной является задача по распознаванию малоразмерных БПЛА на фоне подстилающей поверхности и других малоразмерных воздушных объектов, например птиц или их стай. Использование методов распознавания на основе машинного обучения позволяет формировать информативные признаки непосредственно на основе исходных измерений, исключая необходимость предварительного ручного отбора признаков. Тем не менее данные подходы характеризуются рядом существенных ограничений, среди которых высокая чувствительность к помехам и шумам, ограниченная способность к обобщению при малом объеме обучающих выборок, а также сложность обработки данных с выраженной временной динамикой [3]. Цель работы заключается в проведении обзора и сравнительного анализа отечественных и зарубежных подходов к распознаванию малоразмерных воздушных объектов на основе машинного обучения, выявлении их достоинств и ограничений, а также формулировании перспективных направлений исследований.

В области распознавания малоразмерных воздушных объектов ранние исследования концентрировались преимущественно на извлечении вручную подобранных признаков, включающих геометрию траектории, параметры манёвренности и основные статистические характеристики микродоплеровского спектра [2]. Эти признаки затем обрабатывались традиционными методами (байесовские классификаторы) и алгоритмами машинного обучения, такими как метод опорных векторов и случайные леса. Подобные подходы обладают высокой интерпретируемостью и простотой реализации, однако их эффективность существенно снижается при увеличении числа классов, усложнении условий наблюдения и появлении помех [3].

Рис. 1. Операция свертки изображения

Fig. 1. Image convolution operation к более абстрактным представлениям путём выделения существенных деталей и отбрасывания незначимых [5].

Математически свёртка [6] между входным изображением X и ядром фильтра W выражается следующим уравнением:

Y(i,D = X (i - m,j - n)W(m, n),

m n где Y(i, j) – результат свёртки в точке (i, j), W(m, n) – параметры фильтра размером m × n, а сумма выполняется по всем элементам фильтра. В процессе обучения веса фильтра W оптимизируются с использованием алгоритма обратного распространения ошибки. Одной из ключевых операций в СНС является нелинейная активация, чаще всего представленная функцией ReLU:

f(x) — max(O, x), что позволяет модели обучаться сложным нелинейным представлениям данных. В дополнение к свёрточным слоям часто используются слои подвыборки, такие как Max Pooling, который уменьшает размерность представления, выделяя наиболее значимые признаки:

Y(i,j) = maxX(i + m,j + ri),

m,n где m и n задают размер окна подвыборки.

СНС эффективно используются для обработки радиолокационных спектрограмм, изображений и видеопоследовательностей, особенно в задачах классификации БПЛА и птиц (рис. 2). Исследования показывают успешное применение одномерных, двумерных и трёхмерных СНС для извлечения информативных микродоплеровских характеристик и пространственно- – 111 –

Рис. 2. Стандартная схема сверточной сети

Fig. 2. Standard convolutional network design временного анализа [7–11]. Двумерные СНС демонстрируют высокую эффективность в обработке спектрограмм благодаря способности адаптивно выделять пространственные и временночастотные паттерны.

Авторы в работе [10] применили как классические методы машинного обучения (метод опорных векторов), так и глубокие СНС для автоматического выделения признаков из микро-доплеровских спектрограмм, собранных радиолокатором в X-диапазоне (10 ГГц). Эксперименты показали, что глубокие СНС достигают точности порядка 95 %, тогда как точность SVM не превышала 80 %. Преимущество нейросетевых методов заключается в способности выделять и обобщать сложные признаки при высокой зашумлённости данных и изменяющихся условиях наблюдения. Недостатком является необходимость больших обучающих выборок и высокая вычислительная сложность, особенно в глубоких архитектурах, что затрудняет внедрение в реальном времени. Авторы подчёркивают важность формирования репрезентативных наборов данных для повышения устойчивости моделей.

В работе [7] предложена глубокая СНС для классификации объектов по микродопле-ровским признакам, отражающим движение лопастей. Модель обучалась на спектрограммах симулированных радиолокационных сигналов от пяти типов БПЛА в X- и W-диапазонах (94 ГГц). При отношении сигнал/шум свыше 10 дБ точность классификации превышала 98 %, что подтверждает эффективность СНС в извлечении значимых признаков. Однако при ухудшении качества сигнала точность снижалась, демонстрируя чувствительность к шуму. В исследовании [8] показано, что модифицированная мульти-масштабная СНС, использующая параллельные свёртки с фильтрами разных размеров (3×3, 5×5, 7×7), достигала точности выше 92 % при классификации БПЛА и птиц. Такая архитектура позволяет извлекать признаки на разных временных и частотных масштабах, что особенно важно для анализа микродоплеров, содержащих как быстрые, так и медленные компоненты. Классические СНС в таких условиях уступают по эффективности из-за ограниченного охвата масштабов спектральной информации.

Рис. 3. Архитектура ResNet-SP

Fig. 3. ResNet-SP architecture

В работе [12] была предложена модификация ResNet-SP (Residual Networks) (рис. 3) в отличие от стандартного подхода, основанного на последовательности остаточных блоков с обычными 3×3 свёртками, использование разрежённых свёрток даёт возможность расширить рецептивное поле без увеличения числа параметров модели. Это особенно важно при работе с длинными спектрограммами, где требуется улавливать паттерны на больших интервалах, не теряя при этом способность сети обнаруживать ключевые особенности сигнала. Это решение достигло точности распознавания БПЛА около 94 %, превысив показатели стандартных СНС и ResNet за счёт лучшего захвата длительных временных паттернов. Это открывает возможность более эффективной обработки данных в реальном времени или на ресурс-ограниченных устройствах, где критичны как точность классификации, так и скорость работы сети.

Несмотря на свою эффективность, архитектура ResNet-SP не лишена недостатков. Разрежённые свёртки могут приводить к упрощению локальной структуры спектрограммы, поскольку между элементами фильтра вводятся пропуски. Если для задачи классификации особенно важны мельчайшие детали сигнала, такая потеря локальной информации способна негативно сказаться на итоговой точности. Кроме того, хотя ResNet-SP действительно сокращает вычислительные затраты по сравнению с полными свёртками, она по-прежнему остаётся более ресурсоёмкой, чем облегчённые модели, такие как Light СНС, которые ориентированы именно на максимально возможную экономию вычислительных ресурсов. Таким образом, вы- – 113 –

Рис. 4. Структура light свёрточной нейронной сети

Fig. 4. Structure of a light convolutional neural network бор оптимальной архитектуры свёрточной сети зависит от требований к точности, объёмам и разнообразию обрабатываемых данных, а также от доступных аппаратных возможностей.

В статье [13] описана облегчённая архитектура свёрточной нейронной сети (Light СНС) для классификации малоразмерных БПЛА по микродоплеровским сигнатурам (рис. 4). Её отличие от традиционных моделей, например ResNet, заключается в сохранении узких сверточных блоков при увеличении глубины, что снижает общую вычислительную нагрузку и число обучаемых параметров. Это достигается за счёт групповых свёрток, при которых входные данные делятся на подгруппы, обрабатываемые отдельными наборами фильтров. В экспериментах на реальных радиолокационных данных Light СНС обеспечила точность порядка 92 % при увеличении скорости обработки в 1,5–2 раза по сравнению с классическими глубокими сетями. Однако из-за ограниченного числа фильтров модель менее эффективна в извлечении сложных пространственно-временных паттернов и глобальных контекстов, что сказывается при анализе спектрограмм с высокой изменчивостью и помехами.

Трёхмерные свёрточные нейронные сети применяются для анализа видеопоследовательностей, поскольку они позволяют одновременно учитывать пространственные и временные связи на уровне движущихся объектов (рис. 5).

В работе [14] исследованы архитектуры R(2+1) D и ResNet18 для распознавания беспилотных летательных аппаратов и птиц. R(2+1) D сочетает двумерные пространственные и одномерные временные свёртки, что позволяет эффективно анализировать пространственновременные признаки. Точность распознавания с использованием R(2+1) D составила около 93 %. Архитектура ResNet18 достигла сходной точности при меньших вычислительных затратах за счёт упрощённой структуры. Однако авторы отмечают, что обе архитектуры требуют значительных вычислительных ресурсов и памяти, затрудняя их применение в режиме реального времени на устройствах с ограниченными аппаратными возможностями. Подчёркнута необходимость оптимизации моделей для практического использования с большими объёмами данных.

Также рассмотрим архитектуру Google Neural Network (GoogLeNet), известную также под названием Inception Network, представляет собой глубокую архитектуру СНС, в основе кото-

Рис. 5. Архитектура 3D-свёрточной нейронной сети

Fig. 5. 3D convolutional neural network architecture

Рис. 6. Архитектура GoogLeNet

Fig. 6. GoogleNet Architecture рой лежит использование «инцепшн»-модулей, направленных на параллельное извлечение признаков на разных уровнях абстракции. Архитектура (рис. 6) включает 22 слоя с обучаемыми параметрами и использует несколько типов свёрток в одном модуле, включая фильтры 1×1, 3×3 и 5×5, а также max pooling. Такая конструкция позволяет эффективно совмещать векторизованные представления различных масштабов и при этом обеспечивает высокую пропускную способность сети. В задаче классификации микродоплеровских сигналов GoogLeNet демонстрирует значительное улучшение качества распознавания благодаря способности «инцепшн»-блоков обрабатывать локальные и глобальные особенности спектрограмм одновременно.

Авторами работы [15] была использована архитектура нейронных сетей GoogLeNet, а также разработана собственная серийная СНС архитектура, предназначенная специально для клас-– 115 – сификации серых изображений спектрограмм в K-диапазоне (24 ГГц) и W-диапазоне (94 ГГц). Для обучения были сформированы две отдельные базы данных, одна – с RGB-изображениями, другая – с монохромными. Данные были разделены на 4-классовые (БПЛА, птицы, помехи и шум) и 2-классовые (БПЛА и не-БПЛА) выборки. Для обучения выделялось 80 % данных, а оставшиеся 20 % использовались для валидации. При проведении экспериментов на проверочных данных точность классификации на тестовом наборе составила около 99 % для GoogLeNet и около 94–9 9 % для разработанной серийной сети. К преимуществам предложенных подходов можно отнести высокую точность классификации при использовании реальных данных, устойчивость модели к разнородности входных спектрограмм и способность обрабатывать данные без предварительного выделения признаков, что существенно уменьшает задержку обработки и подходит для систем реального времени. Однако недостатками метода являются необходимость большого объема и разнообразия данных для качественного обучения, чувствительность моделей к изменениям цветовых схем спектрограмм (особенно при использовании GoogLeNet), к увеличению шума, а также сложность подбора оптимальных параметров сети. Экспериментальные исследования показали, что применение GoogLeNet совместно с PST-обработкой микродоплеровских спектрограмм позволило увеличить классификационную точность БПЛА на 10 % по сравнению с классическими подходами. Эксперименты проводились на наборе реальных радиолокационных данных, охватывающих различные условия наблюдения, уровни шумов и дистанции до объектов. Таким образом, продемонстрирована эффективность интеграции современных нейросетевых архитектур с передовыми алгоритмами предварительной обработки радиолокационных данных в задаче распознавания малоразмерных воздушных объектов.

Другое исследование [16] изучало эффективность нейросетевой архитектуры GoogLeNet для классификации беспилотных летательных аппаратов. Основные преимущества GoogLeNet заключаются в её способности к параллельной обработке признаков разного масштаба и сравнительно меньшей вычислительной нагрузке по сравнению с другими глубокими моделями, такими как ResNet. В результате экспериментов было показано, что использование GoogLeNet позволило достичь аналогичной или более высокой точности классификации БПЛА при снижении общего количества параметров и вычислительных затрат примерно на 15–20 % в сравнении с архитектурой ResNet. Однако авторы подчеркнули, что модульная структура GoogLeNet, построенная на основе «инцепшн»-блоков с параллельными операциями свёрток различного размера, приводит к существенным трудностям при реализации и отладке. Это затрудняет процесс равномерного распараллеливания вычислений и требует точной настройки гиперпараметров, что усложняет адаптацию модели к новым задачам и изменяющимся условиям обработки. Также было выявлено, что сложность структуры затрудняет быстрое прототипирование и делает необходимой детальную экспертную настройку. Несмотря на перечисленные ограничения, исследование подтвердило перспективность применения GoogLeNet в задачах, где требуется эффективное выделение и объединение признаков разных масштабов при ограниченных вычислительных ресурсах.

Архитектуры YOLO, Faster R-СНС, VGG16 и AlexNet представляют собой одни из наиболее широко используемых моделей для классификации объектов, включая беспилотные летательные аппараты, на изображениях и видеопоследовательностях. YOLO реализует одно-– 116 – шаговый регрессионный подход, когда входное изображение разбивается на сетку, и каждая ячейка параллельно предсказывает несколько ограничивающих рамок и вероятность присутствия объектов в них [18]. YOLO обеспечивает почти реальное время детекции объектов за счёт одновременного определения координат и классов, что особенно важно для систем видеомониторинга (рис. 7). Однако при этом усложняется распознавание мелких объектов, что может снижать точность обнаружения БПЛА на больших расстояниях. В контрасте Faster R-CNN использует двухэтапную стратегию (RPN для областей-кандидатов и Fast R-CNN для классификации), обеспечивая более высокую точность, но уступая YOLO в скорости, что ограничивает работу в реальном времени.

Рис. 7. Обнаружение объектов с помощью архитектуры YOLO

Fig. 7. Object Detection Using the YOLO Architecture

VGG16, состоящая из последовательных слоёв 3 m , n 3 свёрток и пулинга, обладает высокой эффективностью, но характеризуется значительной вычислительной сложностью из-за большого числа параметров, затрудняющей применение в ресурсозависимых системах. AlexNet, будучи менее глубокой, быстрее, но значительно уступает современным моделям в точности. Выбор архитектуры для распознавания БПЛА определяется балансом между требуемой пропускной способностью, доступными ресурсами и спецификой целей анализа. По данным [19], YOLO показывает высокую скорость и практичность для радиолокационных систем, в то время как Faster R-CNN достигает точности около 96 %, но работает медленнее.

Таким образом, результаты работы подчёркивают, что приоритет использования той или иной архитектуры зависит от конкретных условий и требований задачи: YOLO предпочтительна в сценариях, где критически важна скорость обработки и оперативность принятия решений, тогда как Faster R-СНС более эффективна в ситуациях, требующих высокой точности классификации при менее жестких временных ограничениях.

2. Рекуррентные нейронные сети (англ. Recurrent Neural Network, РНН)

Представляют собой класс моделей, способных эффективно обрабатывать последовательные данные за счёт циклов обратной связи, позволяющих учитывать контекст предыдущих элементов при формировании текущих выходных сигналов. РНН представляет собой алгоритмизацию, где входные данные, которые поступают на вход РНН, обрабатываются в цикле, и всякий раз, когда поступает новый вектор входных данных, сеть собирает информацию из цикла и дает свой отклик (выполняет прогноз). Такая способность к «запоминанию» особенно важна в задачах, где временная динамика играет ключевую роль, например, в анализе временных рядов, обработке сигналов или идентификации объектов по эволюции их характеристик. Однако классические архитектуры РНН подвержены проблемам исчезающего и взрывающегося градиента, существенно ограничивающим их эффективность при моделировании долгосрочных зависимостей. В связи с этим особую популярность приобрели сети с долговременной кратковременной памятью (англ. Long Short-Term Memory, LSTM) (рис. 8), где использование механизма гейтов (входного, выходного и забывающего) обеспечивает управляемое хранение и обновление информации в ячейках памяти, позволяя более надёжно отслеживать протяжённые во времени взаимосвязи [21].

Рис. 8. Архитектура LSTM

Fig. 8. LSTM architecture

В задачах распознавания БПЛА архитектура на основе LSTM демонстрирует высокую эффективность, поскольку микродоплеровские спектрограммы требуют учёта длительных зависимостей и адаптации вывода к поступающим данным. Исследования [22, 23] подтверждают, что LSTM превосходит классические СНС по устойчивости к шуму и сохраняет точность даже при слабом сигнале, учитывая накопленную информацию. Это особенно важно в условиях помех, неоднородностей и увеличенной длины временного окна, необходимого для различения объектов, таких как птицы и БПЛА. Однако высокая вычислительная сложность LSTM ограничивает её применение в реальном времени из-за роста требований к памяти и вычислениям. Для радиолокационных систем с жёсткими ограничениями по времени реакции актуальна оптимизация параметров сети, обеспечивающая баланс между скоростью обработки и точностью. Таким образом, LSTM остаётся перспективным решением для ана-– 118 – лиза сложных временных паттернов, но требует учёта аппаратных ограничений и оптимизации вычислений.

В работе [11] предложена гибридная архитектура, объединяющая ResNet и LSTM для классификации птиц и БПЛА по радиолокационным спектрограммам. ResNet извлекает пространственные признаки, а LSTM – временные зависимости. Эксперименты на реальных данных показали повышение точности на 8–12 % по сравнению с отдельными СНС или РНН, достигая 95–97 % в зависимости от уровня шума, расстояния и типа движения объектов. Однако модель отличается высокой вычислительной сложностью из-за большого числа параметров ResNet и последовательной обработки в LSTM, что ограничивает её применение в реальном времени, особенно на ресурсозависимых устройствах. Тем не менее архитектура демонстрирует высокий потенциал для задач, требующих точного пространственно-временного анализа.

В исследовании [24] проведено сравнение архитектур LSTM и Fully Convolutional Network (FCN) для классификации микродоплеровских сигналов БПЛА при низком отношении сигнал/ шум. Рекуррентная сеть LSTM продемонстрировала устойчивость к шуму за счёт гейтов, эффективно выделяющих релевантные временные зависимости. При уровнях сигнал/шум 0–5 дБ точность LSTM сохранялась на уровне 88–92 %, тогда как точность FCN снижалась до 75–80 % из-за низкой адаптивности свёрток к изменяющимся условиям. Однако LSTM увеличивает время инференса в 1,5–2 раза, что ограничивает её применение в задачах реального времени. Это подчёркивает актуальность разработки облегчённых рекуррентных моделей, сочетающих высокую точность и устойчивость с меньшей вычислительной сложностью.

3. Трансформеры

Представляют собой класс современных архитектур глубокого обучения, нацеленных на параллельную обработку последовательных данных с помощью механизма самовнимания. Нейросеть-трансформер состоит из двух наборов слоев: энкодеров и декодеров, каждый из которых содержит несколько слоев. Энкодер извлекает информацию из входной последовательности, например текста. Декодер использует эту информацию для генерации элементов выходной последовательности, например перевода текста на другой язык [26].

В отличие от рекуррентных нейросетей, где учёт временной или контекстной информации осуществляется через скрытые состояния, и от свёрточных сетей, полагающихся на фильтры локальной свёртки, трансформеры позволяют моделировать глобальные взаимосвязи между элементами последовательности независимо от их положения.

Математическая основа трансформеров основана на механизме самовнимания, который вычисляет взвешенные представления входных данных, используя три основных компонента: ключи, запросы и значения. Эта операция позволяет каждому элементу последовательности динамически взвешивать важность всех остальных элементов, что критически важно при анализе видеопоследовательностей и сложных временных данных. Данный механизм особенно полезен при работе с длинными временными рядами, видеопоследовательностями и радиолокационными спектрограммами, где важно учитывать как краткосрочные, так и долгосрочные зависимости [27].

Помимо обработки текстов трансформеры всё активнее применяются в задачах компьютерного зрения, включая анализ движущихся объектов. Примером является архитектура ViT – 119 –

Рис. 9. Архитектура модели ViT

Fig. 9. ViT model architecture

(рис. 9), использующая факторизованное самовнимание с разделением пространственных и временных компонентов. На первом этапе изображение разбивается на фрагменты 16×16, которые проходят через обучаемую линейную проекцию, формируя векторы фиксированной размерности [28].

К ним добавляются позиционные кодировки, сохраняющие информацию о расположении фрагментов. Особенностью является наличие 0-го класса – обучаемого, но не связанного с конкретным изображением, информация о котором встроена в архитектуру. Без позиции трансформер не способен корректно интерпретировать порядок фрагментов. Последовательность векторов подаётся на вход кодировщика, использующего слои нормализации перед блоками и остаточные соединения после них [27]. В завершение добавляется модуль классификации (MLP Head), формирующий финальный вывод модели.

Отдельное внимание привлекает класс так называемых гибридных трансформеров, они представляют собой расширение классической структуры, в которой блоки самовнимания и полносвязные слои пополняются дополнительными компонентами или модулями обработки сигналов. К таким расширениям можно отнести предварительную обработку спектрограмм, учёт статистических признаков, извлечённых из сигналов, или интеграцию сверточных фильтров для уточнения локальных деталей. Подобная мультимодальная или многокомпонентная организация делает архитектуру более гибкой и универсальной, поскольку позволяет опираться не только на исходную структуру данных, но и на заранее вычисленные характеристики. Однако подобное усложнение ведёт к росту вычислительной нагрузки и требует более тонкой настройки гиперпараметров.

Эффективность гибридных трансформерных архитектур в радиолокационных задачах наглядно продемонстрирована в исследовании [29], посвящённом идентификации беспилотных летательных аппаратов с использованием данных миллиметрового радиолокатора диапазо-– 120 – на 60 ГГц. Авторами была проведена сравнительная оценка производительности нескольких нейросетевых моделей, включая LSTM, GRU, одномерные свёрточные сети (Conv1D) и базовую трансформерную архитектуру в различных условиях помех: белого шума, шумов Парето и импульсных выбросов. В результате проведённых экспериментов базовая трансформерная модель показала наивысшую точность классификации (до 94–96 %) по сравнению с другими подходами, особенно в условиях белого шума и импульсных помех. Однако при столкновении с шумом Парето наблюдалось снижение точности (до 85–88 %) из-за нестационарности этого типа помех. Для повышения устойчивости классификации авторы разработали гибридную мультимодальную модель, интегрировавшую базовый трансформер с дополнительными статистическими признаками, такими как асимметрия и эксцесс распределения сигнала.

Гибридная архитектура с включением статистических признаков сохраняет высокую точность классификации (92–95 %) в условиях нестационарного шума, что подтверждает её потенциал для радиолокационных систем реального времени, обеспечивающих надёжную идентификацию объектов в сложной шумовой среде. В работе [30] исследовано применение видеотрансформеров (ViViT) для анализа видеоданных, включая задачи, связанные с беспилотными летательными аппаратами. ViViT эффективно обрабатывает пространственновременные признаки, обеспечивая точность распознавания действий и траекторий объектов на уровне 93–95 % при высокой динамике сцен, изменениях освещения и частичном перекрытии. Особенно эффективны ViViT в идентификации манёвров БПЛА за счёт отказа от рекуррентных механизмов и способности к одновременной обработке пространственно-временной информации. Результаты подтверждают применимость трансформерных моделей для задач мониторинга и анализа поведения беспилотных систем в динамичной среде. Преимущество гибридных трансформеров – в интеграции разнородных признаков, что позволяет точнее моделировать сложные процессы. Однако такие модели требуют значительных вычислительных ресурсов и объёмных обучающих выборок, а также подвержены переобучению при неудачном выборе гиперпараметров или недостаточной репрезентативности данных.

Гибридные трансформеры объединяют различные источники данных, повышая точность описания сложных процессов и объектов. Их основу составляет механизм самовнимания, обеспечивающий глобальные зависимости и параллельную обработку, что важно для анализа видеопоследовательностей и радиолокационных сигналов в реальном времени. Однако интеграция визуальных, временных и статистических признаков усложняет подготовку обучающих выборок, увеличивает вычислительные затраты и требует тщательного подбора гиперпараметров, иначе возрастает риск переобучения. Наряду со свёрточными и рекуррентными блоками гибридные трансформеры могут включать специализированные слои для спектрального анализа, ковариационные матрицы и адаптивные фильтры, усиливая извлечение информативных признаков. Такие решения позволяют охватить как локальные, так и глобальные особенности сигнала, что особенно важно при распознавании БПЛА. При этом требуется достаточный объём данных, отражающих многообразие паттернов, а также оптимизация вычислительных процедур для поддержания высокой пропускной способности и точности распознавания [31].

В работе [32] представлен гибридный подход, реализованный в модели, обрабатывающей комплексные радиолокационные данные для классификации микродоплеровских сигналов. В отличие от традиционных методов, преобразующих сигнал в действительную часть или мо- дуль и фазу, архитектура сохраняет комплексное представление, что критично для учёта фазовой информации о движении и структуре объектов. Применение комплекснозначных свёрток и весов позволяет точнее моделировать амплитудно-фазовые характеристики сигнала, повышая точность распознавания в условиях шума и неоднородности. Такая модель демонстрирует потенциал комплекснозначных нейросетей в улучшении извлечения и интерпретации признаков, недоступных при использовании только реальных величин.

Заключение

Анализ современных методов распознавания малоразмерных воздушных объектов на основе машинного обучения показывает перспективность и эффективность гибридных архитектур глубоких нейронных сетей. Основное достоинство таких подходов заключается в интеграции различных методов обработки данных: свёрточных и рекуррентных сетей, трансформерных архитектур, комплекснозначных моделей и специализированных математических преобразований, включая механизмы внимания и спектрального анализа. Это позволяет одновременно извлекать пространственные, временные, спектральные и фазовые признаки сигналов, что критически важно при работе с микродоплеровскими спектрограммами и видеопоследовательностями, обладающими высокой степенью сложности и значительным уровнем шумов. Однако в существующих исследованиях остаётся выраженный научный пробел, обусловленный недостаточным вниманием к интеграции различных нейросетевых подходов. В частности, отдельные исследования часто концентрируются на применении одного типа архитектур, игнорируя потенциал их совместного использования, что ограничивает возможности разработки универсальных и эффективных решений. Перспективными примерами гибридных решений являются комбинации таких сетей, как ResNet и LSTM, трансформерные модели типа ViViT и архитектуры с внедрением механизмов внимания, учитывающих временные и пространственные свойства входных данных.

Особо актуальным направлением является разработка способа распознавания малоразмерных БПЛА на основе гибридной нейронной сети с адаптивным пространственно-временным вниманием, особенно в низкочастотном радиолокационном диапазоне (3–10 ГГц). Это направление пока ещё мало изучено, однако является чрезвычайно актуальным с точки зрения практической востребованности и возможности обеспечения необходимой вероятности правильного распознавания малозаметных воздушных объектов в существующих и перспективных радиолокационных системах.

Таким образом, приоритетными направлениями дальнейших исследований являются:

– разработка новых гибридных нейросетевых архитектур, способных интегрировать преимущества различных подходов и эффективно анализировать разнородные данные;
– повышение вероятности правильного распознавания воздушных объектов за счёт совершенствования алгоритмов обучения и адаптивных механизмов обработки шумовых сигналов;
– оптимизация вычислительной сложности нейронных моделей для обеспечения их работы в режиме реального времени;
– проведение исследований и практическое внедрение гибридных моделей в низкочастотных радиолокационных системах, наиболее востребованных в реальных условиях эксплуатации.

Реализация указанных направлений позволит существенно расширить возможности современных радиолокационных систем по распознаванию малоразмерных воздушных объектов, повысить их эффективность и обеспечить успешное применение в широком спектре практических задач.