Структурно-ориентированный предварительный отбор видеокадров беспилотного летательного аппарата для задач кросс-модального сопоставления со спутниковыми изображениями

А.С. Фатеев; Д.П. Кричевец; Е.Л. Киселев; Д.А. Гаврилов; А.А. Фортунатов; Е.А. Татаринова; A.S. Fateev; D.P. Krichevets; E.L. Kiselev; D.A. Gavrilov; A.A. Fortunatov; E.A. Tatarinova

Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Прикладные информационные (компьютерные) технологии. Методы основанные на применении компьютеров

Структурно-ориентированный предварительный отбор видеокадров беспилотного летательного аппарата для задач кросс-модального сопоставления со спутниковыми изображениями

Автор: А.С. Фатеев, Д.П. Кричевец, Е.Л. Киселев, Д.А. Гаврилов, А.А. Фортунатов, Е.А. Татаринова

Журнал: Научное приборостроение @nauchnoe-priborostroenie

Рубрика: Информатика, вычислительная техника и управление

Статья в выпуске: 2, 2026 года.

Бесплатный доступ

Рассматривается задача предварительного отбора наиболее информативных видеокадров для системы визуальной навигации беспилотных летательных аппаратов, основанной на кросс-модальном сопоставлении со спутниковыми изображениями в условиях ограниченных вычислительных ресурсов. Высокая частота формирования видеопотока приводит к существенному объему входных данных, тогда как модели сопоставления обладают ограниченной пропускной способностью. В результате в режиме реального времени обрабатывается лишь часть кадров, что повышает риск пропуска наиболее информативных изображений. Показано, что кадры, содержащие геометрически устойчивые структуры сцены, наблюдаемые на разных масштабах изображения и имеющие согласованную ориентацию границ, обладают более высокой вероятностью успешного сопоставления со спутниковыми изображениями. Обоснована необходимость использования структурных критериев, ориентированных на задачи сопоставления.

Беспилотные летательные аппараты, кросс-модальное сопоставление изображений, предварительный отбор кадров, структурная информативность, вейвлет-преобразование, мультимасштабный анализ, спутниковые изображения, визуальная навигация

Короткий адрес: https://sciup.org/142247755

IDR: 142247755 | УДК: 004.932.72'1

Structure-based preselection of unmanned aerial vehicle video frames for cross-modal matching with satellite imagery

The problem of preliminary selection of the most informative video frames for the visual navigation system of unmanned aerial vehicles based on cross-modal comparison with satellite images in conditions of limited computing resources is considered. The high frequency of the video stream generation leads to a significant amount of input data, whereas the matching models have limited bandwidth. As a result, only a fraction of the frames are processed in real time, which increases the risk of missing the most informative images. It has been shown that frames containing geometrically stable structures of the scene, observed at different image scales and having a consistent orientation of the boundaries, possess a higher probability of successful comparison with satellite images. The necessity of using structural criteria oriented to the tasks of comparison is substantiated.

Текст научной статьи Структурно-ориентированный предварительный отбор видеокадров беспилотного летательного аппарата для задач кросс-модального сопоставления со спутниковыми изображениями

Кросс-модальное сопоставление изображений, направленное на установление пространственных соответствий между изображениями, полученными различными сенсорными системами и при существенно отличающихся условиях съемки, является одной из ключевых задач компьютерного зрения. В контексте дистанционного зондирования и автономных систем данная задача приобретает особую значимость, поскольку точное сопоставление изображений служит основой для географической привязки, навигации, реконструкции сцены и принятия решений в реальном времени.

В частности, сопоставление изображений, полученных с беспилотных летательных аппаратов (БПЛА) и спутников, представляет собой крайне сложную кросс-модальную задачу. Изображения с камеры БПЛА и спутников принципиально различаются по масштабу, ракурсу наблюдения, пространственному разрешению и геометрической структуре сцены. Спутниковые изображения, как правило, формируются в ортогональной проекции и охватывают обширные территории, тогда как изображения БПЛА характеризуются ограничен- ным полем зрения, выраженными перспективными искажениями и высокой вариативностью ракурсов. Эти различия существенно усложняют установление устойчивых соответствий между изображениями.

Современные системы БПЛА [1] оснащаются камерами с высокой частотой кадров, что приводит к формированию плотных видеопоследовательностей и значительных потоков визуальных данных. В то же время методы кросс-модального сопоставления изображений с камеры и спутника, как правило, основаны на вычислительно сложных моделях, включая глубокие нейронные сети, плотные [2] или полуплотные [3] алгоритмы сопоставления и процедуры геометрической нормализации. В результате пропускная способность таких моделей оказывается существенно ниже скорости поступления данных от сенсоров, что делает обработку всех кадров в режиме реального времени практически невозможной. В условиях ограниченных вычислительных ресурсов система вынуждена выполнять частичную обработку входного потока, что повышает вероятность пропуска кадров, обладающих наибольшей информативностью и обеспечивающих оптимальные условия для кросс-модального сопоставления.

В таких условиях особую важность приобретает задача предварительного отбора кадров, целью которой является сокращение входного потока данных за счет исключения кадров, малопригодных для последующего кросс-модального сопоставления. В отличие от классических задач видеоселекции, здесь требуется отбор не просто визуально качественных изображений, а кадров, обладающих высокой информативностью именно с точки зрения успешного сопоставления со спутниковыми изображениями.

Наиболее распространенные подходы к отбору кадров основываются на использовании общих метрик качества изображения, таких как резкость, контрастность или энергия в частотной области [4–6]. Подобные критерии эффективно выявляют технически дефектные кадры, например, размытые или зашумленные изображения. Однако в задачах кросс-модального сопоставления такие метрики оказываются недостаточными. Визуально четкие и контрастные кадры БПЛА не гарантируют наличия устойчивых структурных признаков, согласованных с геометрией спутниковых изображений, и, следовательно, не обязательно приводят к успешному сопоставлению [6, 7].

Основной причиной этого является то, что классические метрики качества оценивают преимущественно низкоуровневые визуальные характеристики, не учитывая структурную и геометрическую совместимость изображений различных модальностей. В частности, мелкие текстурные детали, тени, подвижные объекты и локальные изменения освещения могут существенно повышать визуальное "качество" кадра, но при этом не вносить полезной информации для сопоставления со спутниковыми изображениями, в которых доминируют крупномасштабные и стабильные геометрические структуры, такие как дорожная сеть, застройка или границы ландшафта.

Таким образом, возникает необходимость в разработке методов предварительного отбора кадров, ориентированных не на субъективное или визуальное качество изображения, а на оценку его потенциальной пригодности для кросс-модального сопоставления. Такие методы должны учитывать структурную информативность кадров, их устойчивость к изменениям масштаба и ракурса, а также способность сохранять согласованную пространственную организацию сцены между изображениями БПЛА и спутника.

В данной работе предлагается подход к предварительному отбору кадров с камеры БПЛА, направленный на повышение эффективности кросс-модального сопоставления со спутниковыми изображениями в условиях ограниченных вычислительных ресурсов [8, 9]. В отличие от существующих методов, ориентированных на общие метрики качества изображения, предлагаемый метод фокусируется на анализе структурных характеристик изображения, релевантных задаче сопоставления. Это позволяет существенно сократить количество обрабатываемых кадров без потери точности географической привязки и повысить практическую применимость систем кросс-модального сопоставления в реальных сценариях.

ПОСТАНОВКА ЗАДАЧИ

Пусть F = 1^= 1) — видеопоследовательность, полученная с бортовой камеры беспилотного летательного аппарата с высокой частотой кадров, где T обозначает общее число кадров в рассматриваемом временнóм интервале, а I_s — спутниковое изображение соответствующей территории.

Ввиду ограниченных вычислительных ресурсов обработка всех T кадров видеопоследовательности для кросс-модального сопоставления является практически невозможной. В связи с этим требуется выбрать подмножество кадров

F' с F, F '| « T, которые обладают наибольшей пригодностью для последующего сопоставления изображений БПЛА со спутниковыми данными.

В отличие от традиционных методов отбора кадров, основанных на визуальных метриках качества изображения, в данной работе ставится задача оценки структурной информативности кадра, отражающей его способность обеспечивать устойчивые геометрические соответствия в задаче кросс-модального сопоставления.

МУЛЬТИМАСШТАБНЫЙ СТРУКТУРНЫЙ АНАЛИЗ С ИСПОЛЬЗОВАНИЕМ

2D-ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ

Описание преобразования

Для анализа структурных характеристик изображения на различных пространственных масштабах используется двумерное дискретное вейвлет-преобразование [10, 11], обеспечивающее совместную пространственно-частотную локализацию признаков.

Пусть I e R H * W — входное изображение. Двумерное дискретное вейвлет-преобразование строится на основе последовательного применения одномерных фильтров по строкам и столбцам изображения. Пусть g и h обозначают соответственно высокочастотный и низкочастотный фильтры анализа. Тогда операции вейвлет-разложения могут быть записаны в виде

L = ( I * h ) Ф 2, G = ( I * g ) Ф 2, где (*) обозначает свертку, а ↓2 — операцию двукратной дискретизации (downsampling).

После последовательной фильтрации по строкам и столбцам формируются четыре поддиапазона:

(A,, Hi, V Di), где Al — аппроксимирующий поддиапазон (низкие частоты по обоим направлениям), а Hl , Vl и Dl представляют соответственно горизонтальные, вертикальные и диагональные детали изображения.

Аппроксимирующий поддиапазон A_l рекурсивно используется для построения следующего уровня разложения, что приводит к иерархическому мультимасштабному представлению изображения:

I ^{Al , Hl , VL, Dl ,^, H1, V, D1}, где L обозначает число уровней разложения.

Такое представление позволяет выделять структурные компоненты изображения на различных пространственных масштабах, что делает вейвлет-разложение удобным инструментом для анализа геометрически устойчивых элементов сцены, таких как контуры, текстурные паттерны и направленные структуры. Пример вейвлет-разложения синтетического изображения представлен на рис. 1. В качестве входных данных используется искусственно сформированная сцена, содержащая горизонтальные, вертикальные и диагональные линейные структуры. Применение синтетического изображения позволяет наглядно продемонстрировать направленную селективность 2D-вейвлет-преобразования в условиях контролируемой геометрии сцены, исключая влияние текстурных и фотометрических факторов, характерных для реальных данных.

Как видно из рис. 1, коэффициенты детализации первого уровня разложения выделяют структуры в соответствии с их ориентацией: горизонтальные компоненты концентрируются в поддиапазон H_L , вертикальные — в V_L , а диагональные — в D_L . При этом аппроксимирующий компонент сохраняет общую геометрию сцены. Данный пример иллюстрирует способность вейвлет-пре-образования выполнять пространственно локализованный и направленно-чувствительный анализ изображения, что является ключевым свойством при оценке структурной информативности кадров для сопоставления.

В отличие от преобразования Фурье [12], обладающего глобальной частотной локализацией, вейвлет-преобразование сохраняет пространственную локализацию структурных элементов. Это особенно важно для изображений, полученных с камеры БПЛА, которые часто содержат выраженные границы объектов, линейные структуры (дороги, здания, границы полей) и текстурные элементы различного пространственного масштаба. В ряде работ для оценки информативности изображений используются более простые локальные показатели, такие как энтропия изображения [13], градиентные метрики [14], мера резкости на основе Лапласиана [15], а также характеристики, основанные на тензоре структуры [16]. Данные методы отражают отдельные аспекты локальной контрастности или статистического разнообразия изображения, однако не учитывают взаимосвязь структурных элементов на различных пространственных масштабах. Использование вейвлет-разложения позволяет анализировать распределение энергии структурных компонент одновременно в пространственной и частотной областях, что делает данный подход более подходящим для выявления геометрически устойчивых структур сцены, значимых для задач установления межизображенческих соответствий.

а б в г

Рис. 1. Пример 2D-вейвлет-разложения синтетического изображения.

a — исходное изображение; б — диагональные коэффициенты детализации D ₁ первого уровня; в — горизонтальные коэффициенты H ₁ первого уровня; г — вертикальные коэффициенты V ₁ первого уровня

Оценка структурной информативности в вейвлет-домене

Пусть для изображения I выполнено L -уровневое 2D-вейвлет-разложение, в результате которого получены аппроксимирующие и детализирующие поддиапазоны

( A, , H i , V , D i ) , l = 1,...,L .

Поддиапазоны H_l , V_l и D_l представляют собой матрицы коэффициентов детализации на уровне l , соответствующие горизонтальным, вертикальным и диагональным структурам изображения.

Предполагается, что геометрически устойчивые структуры сцены проявляются в виде локальных максимумов энергии в детализирующих поддиапазонах на нескольких масштабах. Для количественной оценки вводится нормированная энергетическая характеристика уровня l :

Ei=гЛг xHi (i )2+Л XV (o'+Л xD (i )2.

| H i\i eHi Vl\i eV \Dl\i eDi где Hi (i) обозначает i-й коэффициент соответствующего поддиапазона, а модульные скобки |. „| — число коэффициентов в поддиапазоне.

Использование квадрата коэффициентов соответствует оценке энергии сигнала нормы L 2 :

II H i l 12 = X H i ( i ) 2 ,

i что согласуется с энергетической интерпретацией вейвлет-преобразования как ортонормированного разложения. При использовании ортонормальных вейвлетов выполняется сохранение энергии, что позволяет интерпретировать El как долю структурной энергии изображения, локализованной на масштабе l.

Нормировка на число коэффициентов H_l , V_l , D_l обеспечивает инвариантность оценки к размеру поддиапазона и позволяет корректно сравнивать уровни разложения различной размерности.

Таким образом, величина E_l отражает суммарную интенсивность направленных границ и протяженных структур на масштабе l , подавляя вклад случайного шума и мелкомасштабных текстур за счет квадратичного усреднения.

Межмасштабная согласованность структур

Для повышения устойчивости оценки структурной информативности вводится мера межмасштабной согласованности, отражающая степень сохранения энергетических характеристик изображения при переходе между соседними масштабами разложения.

Для уровней l и l+ 1 межмасштабная согласованность определяется как

C = 1 _ JE-EJ-, i Ei + Ei+1 + г где г > 0 — малый регуляризирующий параметр, обеспечивающий численную устойчивость при Ei = Ei+1 = 0.

Величина C l принимает значения в диапазоне 0 < C_i < 1 и характеризует степень сходства распределения энергии на соседних масштабах. Значения C l , близкие к единице, соответствуют случаям, когда энергетические характеристики практически не изменяются при переходе между масштабами, что свидетельствует о наличии геометрически устойчивых и протяженных структур сцены.

Напротив, малые значения C l указывают на существенные различия между E_i и E_i ₊ ₁, что характерно для мелкомасштабных текстур, шума или локальных артефактов, энергия которых быстро затухает при укрупнении масштаба.

Функция оценки и стратегия отбора кадров

Для обеспечения сопоставимости различных масштабов энергетические ристики нормируются по полной детализирующих поддиапазонов:

вкладов характе-энергии

E l

У L Ek + г ’ k=1 k где ε > 0 — малый регуляризирующий параметр, обеспечивающий численную устойчивость при малых значениях энергии.

Такая нормировка устраняет зависимость оценки от общей яркости изображения и обеспечивает выполнение условия

X E, ~ 1.

i = 1

Итоговая оценка структурной информативности кадра I определяется как взвешенная комбинация нормированных энергетических и межмасштабных характеристик:

L L - 1

S ( I ^ZaE + X e i C i , = 1 = 1

Рис. 2. Схема вычисления оценки структурной информативности кадра S ( I ) на основе трехуровневого вейвлет-разложения изображения

где коэффициенты α l и β l задают вклад соответствующих масштабов и выбираются эмпирически. Первая сумма отражает распределение структурной энергии по масштабам разложения, а вторая — степень межмасштабной устойчивости выявленных структур.

Кадры видеопоследовательности ранжируются по значению S ( I_t ) , после чего формируется подмножество

F = {It: S(It)входит в топ K}, где K — заданное число отбираемых кадров ≪ T.

Упрощенная схема вычисления предложенной оценки представлена на рис. 2. На вход метода подается изображение перекрестка, снятого с камеры БПЛА, которое подвергается многоуровневому вейвлет-разложению. Для каждого уровня вычисляются энергетические характеристики детализирующих коэффициентов E _l и показатели межмасштабной согласованности C l . Полученные величины агрегируются в итоговую оценку структурной информативности S ( I ) , которая используется для ранжирования кадров видеопоследовательности.

Для анализа вклада отдельных компонент рассмотрим декомпозицию итогового значения кри- терия S (I). В данном примере весовые коэффициенты приняты равными единице (al = 1, el = 1), что позволяет непосредственно оценить относительный вклад энергетических и межуровневых компонент критерия. Результаты декомпозиции представлены в табл. 1.

Табл. 1. Вклад отдельных компонент в итоговую оценку структурной информативности S ( I )

Компонент	Значение	Вклад, %
~ ^E 1	0.013690	0.7
~ ^E 2	0.169649	8.8
~ E 3	1.275887	66.5
^C 1	0.183256	9.6
^C 2	0.275206	14.4
S ( I )	1.917688	100

Из данных, приведенных в табл. 1, следует, что основной вклад в значение критерия S ( I ) вносит энергетическая компонента третьего уровня разложения E ₃ , доля которой составляет около 66.6% от общего значения оценки. Это указывает на то, что значительная часть структурной информации сцены представлена на более крупных пространственных масштабах. Подобное распределение энергии характерно для изображений городской инфраструктуры. В рассматриваемой сцене присутствуют выраженные геометрические структуры — дорожные линии, перекрестки и границы городских кварталов, — которые проявляются преимущественно на более грубых уровнях вейв-лет-разложения.

Суммарный вклад компонент согласованности между уровнями разложения C_l составляет около 24% от итогового значения критерия, что свидетельствует о наличии пространственных структур, устойчиво проявляющихся на соседних уровнях разложения.

При необходимости может быть введено дополнительное ограничение на минимальный временной интервал между выбранными кадрами для обеспечения разнообразия ракурсов наблюдения. Стоит отметить, что вычисление оценки S ( I ) не требует информации о спутниковом изображении и может быть выполнено на ранних этапах обработки.

Вычислительная сложность

Предлагаемый метод имеет вычислительную сложность O ( HW ) на кадр, где H и W обозначают соответственно высоту и ширину изображения в пикселях. Таким образом, величина HW соответствует общему числу пикселей изображения. При стандартной пирамидальной реализации 2D-вейвлет-разложения и фиксированной длине фильтра сложность алгоритма остается линейной по числу пикселей.

Линейность обеспечивается тем, что суммарный объем вычислений по всем уровням разложения убывает геометрически, поскольку каждый последующий уровень применяется к аппроксимирующему поддиапазону, имеющему вдвое меньший размер по каждой координате. В результате число операций на уровне l пропорционально HW /4 ^l , а суммарная сложность по всем уровням остается порядка O ( HW ).

Таким образом, при обработке видеопоследовательности из T кадров общая вычислительная сложность этапа структурного анализа составляет O ( T • HW ) .

По сравнению с последующим этапом кросс-модального сопоставления изображений вычислительные затраты на вейвлет-анализ являются незначительными. В частности, для современных моделей плотного сопоставления [17. 18], основанных на построении глобальной корреляционной матрицы или механизме внимания, вычислительная сложность может достигать O ( N ² ) , по числу токенов или пространственных позиций. Здесь N обозначает количество элементов пространственного представления изображения (признаковых точек после дискретизации признакового пространства). Поскольку N обычно пропорционально числу пространственных позиций признаковой карты, квадратичная зависимость приводит к значительно более высоким вычислительным затратам по сравнению с линейной сложностью предварительного вейвлет-анализа.

ОПИСАНИЕ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ Видеоизображения

Основной целью экспериментов является анализ влияния предварительного отбора кадров на точность сопоставления, устойчивость регистрации и вычислительную эффективность системы в целом. В экспериментальном исследовании использовались открытые наборы данных, содержащие изображения, полученные с беспилотных летательных аппаратов, а также спутниковые снимки соответствующих участков местности. Основная часть экспериментов проводилась на данных датасета UAV-VisLoc [19], предназначенного для задачи визуальной локализации БПЛА по спутниковым изображениям. Данный датасет содержит пары изображений: полученные с борта БПЛА и соответствующие спутниковые снимки одной и той же территории. Изображения характеризуются значительными вариациями масштаба, ракурса наблюдения и структурного состава сцены, что делает задачу сопоставления существенно более сложной. Для анализа поведения методов в инфракрасном диапазоне дополнительно использовались изображения из датасета VisDrone-DroneVehicle [20]. Данный набор данных содержит изображения, полученные с беспилотных летательных аппаратов в видимом и инфракрасном диапазонах спектра. Поскольку инфракрасные изображения данного датасета не сопровождаются точной географической привязкой, соответствующие спутниковые фрагменты для них подбирались эмпирически на основе визуального сходства структуры сцены. С целью моделирования

в г

Рис. 3. Примеры кадров экспериментальной выборки.

a, б — кадры в видимом диапазоне; в, г — кадры в инфракрасном диапазоне

условий сложного сценария полета БПЛА, связанных с резкими маневрами и ухудшением качества изображения, к части кадров применялись методы искусственной деградации изображения. В частности, использовались операции размытия, добавления засветки и аддитивного шума, имитирующие эффекты движения камеры, изменения освещенности и деградации сенсора. Такие преобразования позволяют приблизить экспериментальные условия к реальным полетным сценариям, при которых наблюдаются резкие изменения поля зрения камеры, геометрические искажения и снижение контрастности изображения. Сформированная экспериментальная выборка содержит кадры с существенно различной структурной информативностью. Часть изображений содержит выраженные геометрические элементы сцены, такие как границы объектов, дорожная сеть и контрастные текстуры, тогда как другие характеризуются слабой структурной выраженностью или значительными искажениями. Это позволяет объективно оценить способность предлагаемого метода предварительного отбора выявлять кадры, обладающие наибольшим потенциалом для успешного кросс-модального сопоставления со спутниковыми изображениями. Примеры кадров экспериментальной выборки представлены на рис. 3.

Протокол экспериментальной оценки

Для обеспечения корректности сравнения все методы предварительного отбора кадров оценивались в идентичном вычислительном протоколе. Эксперименты проводились с использованием двух моделей кросс-модального сопоставления: LoFTR [17] и RoMa [18]. Поскольку используемые открытые датасеты не содержат видеопоследовательностей в явном виде, для проведения экспериментов из изображений датасетов UAV-VisLoc и VisDrone-DroneVehicle были сформированы искусственные видеопоследовательности.

Оценка выполнялась на десяти видеопоследовательностях, каждая из которых содержала

60 кадров. Последовательности 1–7 соответствовали изображениям, полученным в видимом диапазоне спектра и сформированным на основе данных датасета UAV-VisLoc. Последовательности 8– 10 содержали инфракрасные изображения и сформированы на основе датасета VisDrone-DroneVehicle.

Для каждой модели сопоставления все стратегии предварительного отбора кадров сравнивались при неизменной архитектуре сети, фиксированных параметрах и одинаковых весах модели. Это позволяло исключить влияние параметров сопоставления и сосредоточиться на анализе эффективности методов предварительного отбора.

Геометрическая верификация выполнялась с использованием алгоритма RANSAC [21] c фиксированными параметрами, включая максимальное число итераций и порог репроекционной ошибки τ . В результате различия в числе найденных инлайеров * определяются исключительно качеством предварительного отбора кадров при прочих равных условиях сопоставления и геометрической фильтрации.

Метрики оценки

Типы метрик

Пусть последовательность содержит N кадров:

s , :,

где S_i — значение структурного показателя для i -го кадра, а M_i — число инлайеров, полученных после этапа геометрической верификации.

Для количественной оценки эффективности предложенного подхода используются две группы метрик:

1) корреляционные метрики, характеризующие статистическую зависимость между S_i и M_i ;
2) метрики эффективности отбора, отражающие практический выигрыш при выборе топ K кадров.

Корреляционные метрики

Данная группа метрик предназначена для анализа статистической зависимости между значением структурного показателя S_i и числом инлайеров M_i . В работе используются два коэффициента корреляции.

Линейная зависимость оценивается коэффициентом корреляции Пирсона:

Монотонная зависимость оценивается коэффициентом ранговой корреляции Спирмена:

P = corr rank ( ^S. , Mi ) .

Для каждого коэффициента вычисляется соответствующее значение p , характеризующее статистическую значимость выявленной зависимости.

В рамках проверки статистической гипотезы рассматривается нулевая гипотеза H ₀ об отсутствии корреляционной связи между величинами S и M . Значение p определяется как вероятность получить наблюдаемое значение коэффициента корреляции при условии справедливости H ₀.

При p < а нулевая гипотеза отклоняется и выявленная зависимость считается статистически значимой. В работе используется уровень значимости а = 0.05.

Метрики эффективности отбора кадров

Данная группа метрик предназначена для оценки практической полезности предложенного критерия при выборе подмножества кадров.

Отбор Top-K кадров . Обозначим через T_k множество из k кадров с наибольшими значениями показателя S :

T k = Top- K ( S ) .

Среднее число инлайеров для выбранных кадров определяется как:

^ top = 1 E M .

k iTt

В качестве базового уровня рассматривается случайный выбор k кадров из последовательности. Пусть R k — случайное подмножество мощности k . Оценка среднего числа инлайеров при случайном выборе вычисляется методом Монте-Карло:

^ rand ^ER_t

1 _M .^k * R_t

в дальнейшем Random = μ rand .

Абсолютный выигрыш от использования предложенного критерия определяется как:

∆ @ k = µ _top - µ _rand.

Относительный выигрыш по сравнению со случайным выбором определяется как:

Ratio = µ ^top . µ rand

ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ

Табличное представление результатов

В данном разделе приводится анализ результатов оценки предложенного критерия предварительного отбора кадров. Поскольку абсолютное число инлайеров Mi существенно зависит от используемой модели сопоставления, эксперименты проводились для двух архитектур матчинга: ELoFTR и RoMa. В экспериментах использовались предобученные веса моделей из работы MatchAnything [22]. Эти модели представляют собой архитектуры ELoFTR и RoMa, дополнительно адаптированные для задачи кросс-модального сопоставления изображений (БПЛА ↔ спутник). В процессе обучения параметры сетей были оптимизированы с учетом различий в спектральных характеристиках, контрасте и масштабе между аэровизуальными и спутниковыми данными. Таким образом, сравнение проводится не между исходными универсальными моделями, а между их специализированными версиями, адаптированными для условий кросс-модального сопоставления.

Эксперименты проводились на десяти видеопоследовательностях (Sequence), каждая из которых содержала N = 60 кадров. Из каждой последовательности отбиралось k = 15 наиболее информативных кадров согласно предложенному структурному критерию. Сводные количественные результаты экспериментов представлены в табл. 2, 3.

Табл. 2. Результаты оценки качества отбора кадров для модели на основе архитектуры ELoFTR

Sequence	N	k	r	ρ	Top- k	Random	Δ @ k	Ratio
1	60	15	0.966	0.760	2095.3	1286.0	809.3	1.63
2	60	15	0.980	0.816	3445.7	2248.5	1197.2	1.53
3	60	15	0.420	0.548	932.3	324.5	607.8	2.87
4	60	15	0.992	0.721	3446.3	2403.9	1042.4	1.43
5	60	15	0.979	0.515	3160.7	2351.5	809.2	1.34
6	60	15	0.990	0.418	3501.0	2588.5	912.5	1.35
7	60	15	0.989	0.697	3711.0	2521.3	1189.7	1.47
8	60	15	0.950	0.418	981.3	764.8	216.5	1.28
9	60	15	0.960	0.491	983.4	746.4	237.0	1.32
10	60	15	0.973	0.406	959.6	732.8	226.8	1.31

Табл. 3. Результаты оценки качества отбора кадров для модели на основе архитектуры RoMa

Sequence	N	k	r	ρ	Top- k	Random	Δ @ k	Ratio
1	60	15	0.578	0.552	8353.3	8045.5	307.9	1.04
2	60	15	0.965	0.564	8008.3	6954.7	1053.6	1.15
3	60	15	0.723	0.909	8326.7	4804.6	3522.1	1.73
4	60	15	0.883	0.879	8201.3	7703.9	497.4	1.06
5	60	15	0.065	0.164	7956.3	7860.3	96.0	1.01
6	60	15	0.729	0.479	7851.7	7728.3	123.4	1.02
7	60	15	0.966	0.491	8274.7	7264.8	1009.9	1.14
8	60	15	0.586	0.505	2552.2	2546.1	6.1	1.00
9	60	15	0.892	0.515	2518.5	2324.1	194.4	1.08
10	60	15	0.824	0.709	2716.3	2510.8	205.5	1.08

Анализ данных табл. 2

Табл. 2 содержит результаты для архитектуры ELoFTR, тогда как табл. 3 соответствует архитектуре RoMa. В таблицах для каждой последовательности (Sequence) приведены значения корреляционных метрик ( r , ρ ) и показателей практической эффективности отбора (Top- k , Random , A @ k , Ratio ). Корреляционные метрики характеризуют степень согласованности структурного показателя с фактической успешностью сопоставления, в то время как метрики Top- к , A @ k , Ratio отражают практическую эффективность отбора кадров.

Статистическая значимость коэффициентов корреляции оценивалась по соответствующим p -значениям. Значимыми считались коэффициенты, для которых выполнялось условие p < 0.05 .

Как следует из табл. 2, в большинстве последовательностей наблюдается высокая положительная корреляция между значением структурного показателя и числом инлайеров. Для девяти из десяти последовательностей коэффициент Пирсона превышает 0.95, что свидетельствует о сильной линейной зависимости между оценкой структурной информативности кадра и успешностью сопоставления. Исключением является последовательность 3 ( r = 0.420, ρ = 0.548), где корреляционная связь выражена заметно слабее.

Высокие значения корреляционных метрик указывают на то, что предложенный структурный показатель адекватно отражает вероятность успешного сопоставления кадра со спутниковым изображением. Иными словами, кадры с более выраженной структурной организацией на разных масштабах, как правило, обеспечивают большее число устойчивых геометрических соответствий после этапа верификации. Это подтверждает гипотезу о том, что структурная информативность изображения является важным показателем успешности кросс-модального сопоставления.

Практическая эффективность предложенного критерия отбора подтверждается значениями показателя Ratio, который для всех последовательностей превышает единицу. Это означает, что отбор кадров по структурному критерию стабильно превосходит случайный выбор. Относительный выигрыш варьируется в диапазоне от 1.28 до 2.87. Наиболее выраженный эффект наблюдается в последовательности 3 (Ratio 2.87), несмотря на относительно низкие значения корреляционных метрик. Данный результат указывает на то, что даже при ослаблении глобальной корреляционной зависимости критерий способен выделять небольшое подмножество кадров, содержащих наиболее информативные структурные элементы сцены. Веро- ятной причиной такого поведения является неоднородность структуры видеопоследовательности, когда лишь небольшая часть кадров содержит геометрически устойчивые элементы (дороги, границы застройки, контуры объектов), обеспечивающие высокое число соответствий.

Даже в последовательностях с умеренными значениями ранговой корреляции (например, последовательности 5–10) практический выигрыш остается заметным. Это свидетельствует о том, что предложенный критерий выполняет не только функцию ранжирования кадров, но и эффективно концентрирует вычислительные ресурсы на наиболее информативных фрагментах видеопоследовательности, что особенно важно в условиях ограниченного вычислительного бюджета бортовых систем.

Анализ данных табл. 3

В табл. 3 приведены аналогичные результаты для модели RoMa. Абсолютные значения числа инлайеров в данной конфигурации существенно выше по сравнению с архитектурой ELoFTR, что отражает более высокую плотность найденных соответствий. Это согласуется с особенностями архитектуры RoMa, ориентированной на получение более плотных и пространственно распределенных соответствий.

Для большинства последовательностей наблюдается положительная корреляция между структурным показателем и числом инлайеров, однако степень этой зависимости варьируется заметно сильнее, чем в случае ELoFTR. Наиболее высокая ранговая корреляция наблюдается в последовательностях 3 и 4 ( ρ ≈ от 0.88 до 0.91), тогда как в отдельных последовательностях (например, последовательность 5) корреляционная связь практически отсутствует. Это может быть связано с тем, что RoMa менее чувствительна к локальным структурным особенностям изображений и способна находить соответствия даже в условиях сла-бовыраженной геометрической структуры.

Практический выигрыш предварительного отбора для RoMa в среднем является более умеренным. Значения Ratio в большинстве последовательностей находятся в диапазоне от 1.01 до 1.15, что указывает на сравнительно небольшое, но стабильное превосходство структурного отбора над случайным выбором. Наиболее выраженный эффект наблюдается в последовательности 3 ( Ratio 1.73), где структурный критерий позволяет существенно увеличить число найденных инлайеров. В последовательностях 5 и 8 выигрыш практически отсутствует, что может быть связано со структурной однородностью сцены или малой вариативностью кадров внутри последовательности.

Сравнение двух конфигураций позволяет сделать несколько важных наблюдений. Во-первых, для обеих моделей предложенный структурный критерий демонстрирует положительную связь с успешностью сопоставления, что подтверждает его модельно-независимый характер и переносимость между различными архитектурами матчинга. Во-вторых, для конфигурации ELoFTR наблюдается более выраженный выигрыш от предварительного отбора кадров. Это указывает на более высокую чувствительность данной архитектуры к качеству входного набора изображений и подчеркивает важность этапа предварительной фильтрации при использовании менее плотных методов сопоставления.

Для RoMa влияние предварительного отбора оказывается менее контрастным, что может быть связано с большей устойчивостью архитектуры к вариациям структурной информативности кадров. Благодаря более плотному механизму сопоставления RoMa способна извлекать соответствия даже из менее информативных изображений, вследствие чего эффект предварительного отбора проявляется слабее. Тем не менее положительный выигрыш сохраняется в большинстве последовательностей, что подтверждает практическую целесообразность использования структурного критерия в качестве этапа предварительной фильтрации кадров видеопотока.

Сравнение с базовыми метриками качества изображения

Для оценки преимуществ предложенного критерия предварительного отбора было выполнено его сравнение с рядом широко используемых метрик информативности изображения. В качестве базовых методов рассматривались: энтропия, градиентная метрика, метрика лапласиана и метрика тензора структуры. Выбор данных показателей обусловлен тем, что они отражают различные аспекты визуальной информативности кадра: энтропия характеризует общее разнообразие яркостных значений, градиент и лапласиан — выраженность локальных перепадов яркости и контурных структур, а тензор структуры — интенсивность и направленную согласованность локальных градиентов.

Каждая из перечисленных метрик использовалась в качестве критерия ранжирования кадров видеопоследовательности аналогично предложенному вейвлет-критерию. Иными словами, для каждой последовательности кадры сортировались по убыванию значения соответствующего показателя, после чего выбиралось подмножество из k лучших кадров, на котором далее оценивалась успешность сопоставления со спутниковым изображением.

Во всех экспериментах для сравнительных методов использовались одинаковые параметры отбора: объем последовательности составлял N = 60 кадров, а число отбираемых кадров k = 15. Поскольку значение Random является общим для всех методов внутри одной последовательности, в сравнительных таблицах оно не приводится. Для каждого метода указывались коэффициенты корреляции Пирсона r и Спирмена ρ , а также показатели практической эффективности отбора: Top- k , Δ @ k и Ratio .

Сравнение проводилось отдельно для двух архитектур матчинга: ELoFTR и RoMa. Такое раздельное рассмотрение необходимо, поскольку эффективность предварительного отбора может зависеть от особенностей используемой модели сопоставления. Результаты сравнения представлены в Приложении в табл. П1 и П2. Табл. П1 содержит результаты для архитектуры ELoFTR, а табл. П2 результаты для архитектуры RoMa. Такое представление позволяет оценить не только абсолютное качество предложенного критерия, но и его устойчивость относительно различных схем кросс-модального сопоставления.

Как следует из табл. П1, для архитектуры ELoFTR предложенный вейвлет-критерий демонстрирует наиболее высокую согласованность с числом инлайеров в большинстве рассмотренных последовательностей. В частности, в последовательностях 01, 02, 04–08 он обеспечивает максимальные или близкие к максимальным значения коэффициента Пирсона r , что указывает на его высокую способность отражать изменение успешности сопоставления при переходе от кадра к кадру. Иными словами, вейвлет-представление лучше других рассматриваемых метрик описывает количественную связь между структурной выраженностью изображения и числом корректных геометрических соответствий.

При этом по практическим показателям Top-k, Δ@k и Ratio преимущество вейвлет-критерия носит более неоднородный характер. В ряде последовательностей простые градиентные метрики (градиент, лапласиан, тензор структуры) демонстрируют сопоставимые или даже более высокие значения практического выигрыша. Это особенно заметно в последовательностях 01, 06 и 08, где локальные меры контрастности и контурной выраженности оказываются достаточно информативными для отбора кадров. Тем не менее вейвлет-критерий показывает существенное преимущество в последовательностях 02, 03 и 04, где он обеспечивает наибольшие значения Top-k, Δ@k и Ratio. Наиболее показательной является последовательность 03: если для всех базовых методов значение Ratio составляет около 1.67, то для вейвлет-критерия оно возрастает до 2.87. Это указывает на то, что в условиях структурно неоднородной сцены многошкальный анализ позволяет выделять действительно информативные кадры, тогда как простые локальные показатели оказываются недостаточно селективными.

Следует также отметить, что для ряда последовательностей градиент, лапласиан и тензор структуры дают практически одинаковые значения Top- k , Δ @ k и Ratio . Такое поведение закономерно, поскольку все три показателя основаны на анализе локальных градиентов и в значительной степени отражают один и тот же тип структурной информации, а именно интенсивность границ и контуров. В отличие от них, предложенный вейвлет-критерий учитывает распределение структурной энергии по нескольким масштабам, что обеспечивает более надежное различение кадров в сложных сценах.

Результаты для архитектуры RoMa, приведенные в табл. П2, демонстрируют иную картину. С одной стороны, вейвлет-критерий и здесь показывает высокие значения корреляционных метрик в ряде последовательностей, особенно в последовательностях 03, 04 и 07. С другой стороны, его преимущество по практическим показателям становится менее устойчивым. Во многих последовательностях градиентные метрики обеспечивают сопоставимый или более высокий выигрыш, а различия между методами оказываются существенно меньше, чем в случае ELoFTR.

Наиболее яркий результат для RoMa наблюдается в последовательности 03. Если энтропия, градиент, лапласиан и тензор структуры приводят к снижению качества отбора относительно случайного выбора ( Ratio ≈ 0.82), то вейвлет-критерий, напротив, обеспечивает выраженное улучшение ( Ratio 1.73, ρ = 0.99). Это свидетельствует о том, что в сложных последовательностях подход на основе вейвлет способен выявлять устойчивые многошкальные структуры, которые оказываются значимыми и для более мощной архитектуры сопоставления. Однако в большинстве остальных последовательностей выигрыш вейвлет-критерия для RoMa либо невелик, либо уступает более простым базовым метрикам.

Сравнение двух таблиц позволяет сделать несколько обобщающих выводов. Во-первых, предложенный вейвлет-критерий обладает модельнонезависимой полезностью: для обеих архитектур он демонстрирует положительную связь с успешностью сопоставления и в отдельных последовательностях обеспечивает наилучший практический результат. Во-вторых, его преимущество наиболее ярко проявляется для архитектуры ELoFTR, то есть для модели, более чувствительной к качеству предварительно отобранного набора кадров. В этом случае анализ структуры изо- бражения на разных масштабах действительно дает преимущество по сравнению с простыми локальными метриками. В-третьих, для RoMa влияние предварительного отбора оказывается менее выраженным, что, вероятно, связано с большей внутренней устойчивостью данной архитектуры к вариациям структурной информативности кадров.

Таким образом, предложенный критерий целесообразно рассматривать не просто как альтернативу традиционным метрикам качества изображения, а как специализированный разномасштабный показатель, ориентированный именно на задачу предварительного отбора кадров для последующего кросс-модального сопоставления. Его основное преимущество проявляется в сложных сценах, где локальные контрастные характеристики не позволяют надежно отделить действительно информативные кадры от менее полезных.

ЗАКЛЮЧЕНИЕ

В работе рассмотрена задача предварительного отбора информативных кадров для систем кросс-модального сопоставления изображений БПЛА и спутника в условиях ограниченных вычислительных ресурсов. Высокая частота формирования видеопотока в системах визуальной навигации БПЛА приводит к значительному объему входных данных, тогда как вычислительная сложность современных алгоритмов сопоставления ограничивает число кадров, которые могут быть обработаны в режиме реального времени. В этих условиях возникает необходимость приоритизации входных изображений и выделения подмножества кадров, обладающих наибольшей пригодностью для последующего сопоставления.

Предложен структурный критерий отбора кадров, основанный на анализе структуры изображения на разных масштабах и согласованности ориентированных компонент. В отличие от традиционных метрик качества изображения общего назначения, предложенный показатель ориентирован на выявление геометрически устойчивых структур, которые играют ключевую роль при установлении соответствий между изображениями.

Экспериментальная оценка проводилась на последовательностях, сформированных из открытых датасетов UAV-VisLoc и VisDrone-DroneVehicle для двух конфигураций кросс-модального сопоставления: ELoFTR и RoMa. Полученные результаты демонстрируют устойчивую положительную корреляцию между значением структурного показателя и числом инлайеров, что подтверждает связь разномасштабной структурной информативности кадра с успешностью процедуры сопоставления.

Показано, что предварительный отбор кадров на основе предложенного критерия обеспечивает увеличение числа корректных соответствий по сравнению со случайным выбором кадров. Для конфигурации ELoFTR выигрыш достигает от 1.3 до 1.8 раза, что свидетельствует о высокой чувствительности данной архитектуры к качеству входного набора изображений. Для модели RoMa эффект отбора выражен слабее, однако в большинстве последовательностей также наблюдается положительный прирост числа найденных соответствий.

Сравнение с рядом базовых метрик информативности изображения показало, что предложенный вейвлет-критерий обеспечивает более устойчивую корреляцию с успешностью сопоставления и демонстрирует преимущество в сценах со сложной структурной организацией. Это подтверждает целесообразность использования разномасштабного анализа для оценки пригодности кадров в задачах визуальной навигации. Таким образом, предложенный подход может рассматриваться как вычислительно эффективный механизм предварительной выборки кадров в системах визуальной навигации БПЛА. Его применение позволяет повысить устойчивость кросс-модального сопоставления без увеличения вычислительных затрат на этапе матчинга.

В дальнейшем представляется перспективным исследование адаптивных стратегий отбора кадров, учитывающих динамику сцены и параметры движения, а также интеграция предложенного структурного показателя непосредственно в процесс обучения кросс-модальных моделей сопоставления.

ПРИЛОЖЕНИЕ

Табл. П1. Сравнение предложенного вейвлет-критерия с популярными метриками качества изображения для архитектуры ELoFTR (для каждой последовательности приведены корреляционные метрики и показатели практической эффективности отбора кадров)

Sequence	Метод	r	ρ	Top- k	Δ @ k	Ratio
01	Энтропия	0.884	0.815	2148.3	862.3	1.67
	Градиент	0.756	0.851	2223.3	937.3	1.73
	Лапласиан	0.870	0.881	2223.3	937.3	1.73
	Тензор структуры	0.836	0.863	2223.3	937.3	1.73
	Вейвлет	0.966	0.760	2095.3	809.3	1.63
02	Энтропия	0.918	0.558	3108.3	859.8	1.38
	Градиент	0.957	0.791	3265.3	1016.8	1.45
	Лапласиан	0.953	0.791	3265.3	1016.8	1.45
	Тензор структуры	0.950	0.791	3265.3	1016.8	1.45
	Вейвлет	0.980	0.816	3445.7	1197.2	1.53
03	Энтропия	–0.008	0.333	540.7	216.1	1.67
	Градиент	0.206	0.569	540.7	216.1	1.67
	Лапласиан	0.245	0.569	540.7	216.1	1.67
	Тензор структуры	0.224	0.569	540.7	216.1	1.67
	Вейвлет	0.420	0.548	932.3	607.8	2.87
04	Энтропия	0.919	0.491	3382.7	978.8	1.41
	Градиент	0.710	0.455	3382.7	978.8	1.41
	Лапласиан	0.730	0.479	3382.7	978.8	1.41
	Тензор структуры	0.673	0.406	3382.7	978.8	1.41
	Вейвлет	0.992	0.721	3446.3	1042.4	1.43
05	Энтропия	0.933	0.733	3278.7	927.2	1.39
	Градиент	0.849	0.600	3125.7	774.2	1.33
	Лапласиан	0.878	0.600	3125.7	774.2	1.33
	Тензор структуры	0.761	0.576	3125.7	774.2	1.33
	Вейвлет	0.979	0.515	3160.7	809.2	1.34

Табл. П1. (окончание)

Sequence	Метод	r	ρ	Top- k	Δ @ k	Ratio
06	Энтропия	–0.121	0.285	3419.3	830.9	1.32
	Градиент	0.658	0.818	3419.3	830.9	1.32
	Лапласиан	0.718	0.745	3419.3	830.9	1.32
	Тензор структуры	0.634	0.915	3547.0	958.5	1.37
	Вейвлет	0.990	0.418	3501.0	912.5	1.35
07	Энтропия	0.823	0.600	3506.0	984.7	1.39
	Градиент	0.911	0.758	3711.0	1189.7	1.47
	Лапласиан	0.910	0.661	3711.0	1189.7	1.47
	Тензор структуры	0.889	0.733	3711.0	1189.7	1.47
	Вейвлет	0.989	0.697	3711.0	1189.7	1.47
08	Энтропия	0.428	0.103	1022.8	257.9	1.34
	Градиент	0.802	0.648	1044.0	279.1	1.36
	Лапласиан	0.813	0.636	1022.8	257.9	1.34
	Тензор структуры	0.771	0.552	1044.0	279.1	1.36
	Вейвлет	0.950	0.418	981.3	216.5	1.28

Табл. П2. Сравнение предложенного вейвлет-критерия с популярными метриками качества изображения для архитектуры RoMa (для каждой последовательности приведены корреляционные метрики и показатели практической эффективности отбора кадров)

Sequence	Метод	r	ρ	Top- k	Δ @ k	Ratio
01	Энтропия	0.523	0.430	8342.3	296.9	1.04
	Градиент	0.675	0.770	8901.3	855.9	1.11
	Лапласиан	0.586	0.661	8901.3	855.9	1.11
	Тензор структуры	0.490	0.624	8901.3	855.9	1.11
	Вейвлет	0.578	0.552	8353.3	307.9	1.04
02	Энтропия	0.903	0.697	8197.0	1242.3	1.18
	Градиент	0.956	0.648	8323.3	1368.6	1.20
	Лапласиан	0.945	0.648	8323.3	1368.6	1.20
	Тензор структуры	0.947	0.697	8323.3	1368.6	1.20
	Вейвлет	0.965	0.564	8008.3	1053.6	1.15
03	Энтропия	–0.169	-0.108	3958.7	–845.9	0.82
	Градиент	0.275	0.439	3958.7	–845.9	0.82
	Лапласиан	0.320	0.439	3958.7	–845.9	0.82
	Тензор структуры	0.258	0.439	3958.7	–845.9	0.82
	Вейвлет	0.723	0.909	8326.7	3522.1	1.73
04	Энтропия	0.745	0.770	7929.0	225.1	1.03
	Градиент	0.478	0.685	7929.0	225.1	1.03
	Лапласиан	0.516	0.733	7929.0	225.1	1.03
	Тензор структуры	0.433	0.636	7929.0	225.1	1.03
	Вейвлет	0.883	0.879	8201.3	497.4	1.06

Табл. П2. (окончание)

05	Энтропия	–0.063 0.196 0.181 0.258 0.065	-0.152 0.248 0.309 0.394 0.164	7623.3 8347.0 8347.0 8347.0 7956.3	–237.0 486.7 486.7 486.7 96.0	0.97 1.06 1.06 1.06 1.01
	Градиент
	Лапласиан
	Тензор структуры
	Вейвлет
06	Энтропия	0.134	0.309	8228.0	499.7	1.06
	Градиент	0.664	0.576	8228.0	499.7	1.06
	Лапласиан	0.704	0.612	8228.0	499.7	1.06
	Тензор структуры	0.640	0.588	7995.0	266.7	1.03
	Вейвлет	0.729	0.479	7851.7	123.4	1.02
07	Энтропия	0.821	0.503	8301.0	1036.2	1.14
	Градиент	0.890	0.576	8274.7	1009.9	1.14
	Лапласиан	0.880	0.636	8274.7	1009.9	1.14
	Тензор структуры	0.865	0.564	8274.7	1009.9	1.14
	Вейвлет	0.966	0.491	8274.7	1009.9	1.14
08	Энтропия	–0.047	-0.255	2521.5	–24.6	0.99
	Градиент	0.299	0.340	2597.2	51.1	1.02
	Лапласиан	0.337	0.267	2521.5	–24.6	0.99
	Тензор структуры	0.289	0.401	2597.2	51.1	1.02
	Вейвлет	0.586	0.505	2552.2	6.1	1.00