Жестовое управление полетом малого беспилотного летательного аппарата
Автор: Абрамов Н.С., Саттарова В.В., Фраленко В.П., Хачумов М.В.
Журнал: Программные системы: теория и приложения @programmnye-sistemy
Рубрика: Искусственный интеллект и машинное обучение
Статья в выпуске: 2 (61) т.15, 2024 года.
Бесплатный доступ
Рассмотрена задача построения жестовых команд для управления малым беспилотным летательным аппаратом, таким как квадрокоптер. Получаемые видеокамерой команды идентифицируются классификатором на основе сверточной нейронной сети, а мультимодальный интерфейс управления, оснащенный интеллектуальным решателем, преобразует их в команды управления квадрокоптером. Нейронные сети из библиотеки моделей нейронных сетей Ultralytics позволяют выделять целевые объекты в кадре в режиме реального времени. Команды управления квадрокоптером поступают в специализированную программу на смартфоне, разработанную на базе симулятора полетов DJI SDK, которая посылает команды по радиоканалу дистанционного управления. Исследовано качество распознавания разработанных жестовых команд для квадрокоптеров DJI Phantom 3 standard edition. Представлено краткое руководство в виде сценариев работы оператора с беспилотными транспортными средствами. Раскрыты перспективы жестового управления несколькими транспортными средствами в экстремальных условиях с учётом сложностей безопасности совместного полета и взаимодействия летательных аппаратов в ограниченном пространстве.
Беспилотный летательный аппарат, управление, жесты, сверточная нейронная сеть, ultralytics, интеллектуальный интерфейс, распознавание
Короткий адрес: https://sciup.org/143183241
IDR: 143183241 | DOI: 10.25209/2079-3316-2024-15-2-21-36
Текст научной статьи Жестовое управление полетом малого беспилотного летательного аппарата
В настоящее время большое количество исследований и разработок посвящено развитию беспилотных летательных аппаратов (БПЛА). Для повышения надежности и удобства взаимодействия с БПЛА в дополнение к типовым пультовым операциям управления применяют жестовые и речевые команды [1] . Для реализации такого подхода необходимы многомодальные человеко-машинные интерфейсы, адаптированные к различным типам БПЛА. Жесты подразделяются на статические и динамические и используются для передачи информации в компьютер с целью управления компьютером, летательным аппаратом, роботом и т.д.
В диссертационной работе [2] представлена комплексная методология захвата, отслеживания и распознавания динамических жестов в видеопотоке. В рамках этой методологии разработаны алгоритм захвата и отслеживания кисти человека в видеопотоке на сложном фоне; алгоритм и вычислительно-эффективная модель для распознавания жестов, основанная на нечетких конечных автоматах. Разработана методология мультимодального распознавания сцен, определяемых жестами, с использованием нечетких операторов агрегирования. Экспериментально показано, что предложенная архитектура системы распознавания динамических жестов позволяет с высокой степенью надежности распознавать в реальном времени жесты независимо от индивидуума.
В диссертационной работе [3] предложены метод извлечения изображения руки из дальностного изображения человека на основе анализа связанности точек изображения в трехмерном пространстве; метод распознавания позиции кончиков пальцев и точек соединения пальцев с ладонью руки на основе анализа контура изображения руки; метод скелетизации дальностного изображения, основанный на непрерывном скелетном представлении бинарного изображения, поиске граничных точек фигуры и создании диаграммы Вороного для этих точек; метод распознавания статических и динамических жестов рук и пальцев руки для жестовой азбуки глухонемых.
В исследовании [4] представлено решение проблемы восстановления и отслеживания трехмерного положения, ориентации и полной артикуляции человеческой руки по данным от Kinect-сенсора. Решается задача оптимизации, в которой осуществляется поиск параметров модели руки, которые минимизируют расхождение между внешним видом и трехмерной структурой данных от сенсора. 3D-трекинг движения рук выполняется в реальном времени.
В работе [5] представлена техника взаимодействия, позволяющая с помощью жестов рук управлять функциями камеры, такими как панорамирование, наклон и затвор. В основе предложенной техники –– алгоритм Лукаса-Канаде.
В исследовании [6] выполнена оценка возможности нейронных сетей помогать в распознавании жестов рук в арабском жестовом языке, проведены эксперименты с нейронными сетями прямого распространения и рекуррентными нейронными сетями. Предложенная система с полностью рекуррентной архитектурой демонстрирует точность 95% при распознавании статических жестов.
В работе [7] представлен интерактивный интерфейс пользователя для распознавания жестов рук американского жестового языка с использованием буквосочетаний на пальцах. Жесты классифицируются с помощью метода случайных лесов (от англ. «random forest»). Классификатор жестов интегрирован с английским словарем для ускорения написания текстов.
В исследовании [8] представлен прототип мультимодальной системы, который интегрирует методы распознавания лица, жестов и речи для поддержки мультимодальной возможности взаимодействия человека с компьютером. Разработана многоуровневая система с несколькими камерами для наблюдения за лицом пользователя, жестами тела и пространственным расположением в комнате. Используя речевой ввод, система более точно воспринимает намерения пользователя.
В работе [9] описан механизм управления квадрокоптером с помощью жестов и поз. Этот механизм делает человеко-машинное взаимодействие более интуитивным, удобным и отзывчивым на потребности пользователя.
Управление жестовыми командами может осуществляться с использованием различных сенсорных устройств. Например, для квадрокоптера Parrot AR.Drone 2.0 URL от компании Parrot в работе [10] была предложена бесконтактная система управления с использованием трехмерного сенсора Kinect. Однако, универсальным и распространенным видом современного устройства ввода информации является, несомненно, видеокамера. Перспективным шагом можно считать построение комбинированных интерфейсов, отличающихся большей надежностью. Например, такой интерфейс представлен в работе [11] , где для распознавания жестов оператора БПЛА используется нейросетевая архитектура Yolo 5, а для обработки и распознавания речи — различные многослойные искусственные нейронные сети (ИНС).
Выделим несколько инструментальных средств распознавания образов.
Метод инвариантных моментов [12] . Здесь распознавание позиции и ориентации руки в бинарном изображении осуществляется посредством вычисления моментов изображения, при условии, что фон изображения однороден и рука является доминирующим объектом в изображении. Метод реализуется для 2D-и 3D-режимов и позволяет упростить процесс сравнения жеста с эталонами. Методы позволяют корректно, в пределах точности представления изображений, сравнивать два изображения. Инвариантный подход к распознаванию допускает точную математическую постановку задачи, позволяющую задавать классы объектов. Метод был практически применен в диссертационной работе [3] .
Метод DTW URL (англ. Dynamic Time Warping, алгоритм динамической трансформации временной шкалы). Идентификация формы осуществляется путем сравнения «скелета» руки с эталонами. Под скелетом здесь понимается набор опорных точек ладони, идентифицирующих положение ладони и пальцев. Для оценки степени схожести предварительно производится развертка скелетов, где по оси абсцисс откладываются номера точек в строгом соответствии с номерами их обхода в скелете, а по оси ординат координаты точек. После развертки расстояние между объектами оценивается за полиномиальное время с помощью алгоритма динамической трансформации шкалы времени.
Известно, что рекуррентная ИНС с архитектурой LSTM (Long ShortTerm Memory) [13] показывает хорошие результаты при распознавании жестов, пример ее использования приведен в исследовании [14] , где полученное значение показателя «точность» («accuracy») не менее 0.90, а в среднем 0.93. В работе [15] было проведено обучение нейронной сети Mask-RCNN для распознавания жестов рук, проанализированы существующие способы распознавания жестов, исследованы преимущества и недостатки рассмотренных методов. Предложена собственная архитектура сверточной нейронной сети для решения задачи классификации жестов. Проведена оценка точности работы сети в зависимости от расстояния между камерой и рукой, а также в зависимости от сложности жеста.
Предлагаемый в настоящей работе интерфейс управления БПЛА обеспечивает повышенную надежность и гибкость за счет использования стандартного кнопочного управления в комбинации с голосовыми и жестовыми командами. При управлении со стационарного рабочего места управление оказывается максимально эффективным. Однако, беспилотники могут работать и в режиме передачи управления людям, находящимся в местах, где имеются пожары, задымления, высокий уровень шума. Именно в этих условиях важно получать надежно команды управления, по этой причине и вводится мультимодальность управления, позволяющая продублировать команды, при этом с помощью ИНС определяется степень уверенности и выбирается наиболее вероятная команда.
Управление БПЛА с помощью жестов включает несколько ключевых элементов:
-
(1 ) видеокамера, способная регистрировать жесты пользователя;
-
(2) алгоритмы распознавания, способные классифицировать и преобразовать жест в команду;
-
(3) команды управления, осуществляющие преобразование набора жестов в команды БПЛА;
-
(4) интеллектуальный интерфейс — программно-техническое средство, через которое пользователь взаимодействует с аппаратом.
Оценка эффективности управления квадрокоптером на основе системы жестовых команд
В настоящем исследовании исходным материалом служили базовые команды управления. Рассматривались движения по всем направлениям пространства, включая перемещение, поворот вокруг вертикальной оси, взлет и посадку. Для экспериментов с управлением жестами использовался квадрокоптер модели DJI Phantom 3 Standard Edition . Данный аппарат оснащен многофункциональной двухповоротной видеокамерой. Общий вид квадрокоптера и его основные характеристики представлены в таблице 1.
Таблица 1. Общий вид и основные характеристики задействованного БПЛА
Квадрокоптер DJI Phantom 3 Standard Edition |
Основные характеристики |
/®шг^^ |
3-осевой подвес с камерой;
аккумулятор 15.2 V, 480 mAh. |
Предлагаемая система команд управления БПЛА приведена в табли це 2 .
Таблица 2. Система команд для управления БПЛА
Команда |
Назначение |
Описание способа управления |
Вид жеста |
||
Взлет |
Взлет на высоту 2.3 метра. |
Жестовая команда «палец вверх» . |
|||
Приземление |
Снижение и посадка в текущих координатах. |
Жестовая команда «палец вниз» . |
9 |
||
Перемещение |
Перемещение по трем осям пространства. |
Перемещение ладони по трем осям в шести направлениях: G1 — вперед, G2 — назад, G3 — влево, G4 — вправо, G5 — вниз, G6 — вверх. |
$2 G1 G5 |
||
Домой |
Взлет на высоту 30 м. и возврат по прямой в координаты начальной точки, посадка. |
Жестовая команда «руки, сложенные в форме крыши» , команда может выполняться автоматически в случае потери связи с БПЛА. |
S! |
||
Поворот |
Поворот вокруг оси рыскания. |
Наклон ладони по двум направлениям: G7 — поворот вокруг оси против часовой стрелки, G8 — поворот вокруг оси по часовой стрелке. |
ш G8 th G7 ГМ |
||
Остановка |
Прекращение движения (зависание в воздухе). |
Жестовая команда «поднятый кулак» . |
^1 |
Инструкции для БПЛА, сформированные наземной станцией после обработки жестовых команд оператора, поступают в специализированную программу на смартфоне, разработанную на базе DJI SDK, которая посылает команды через пульт и далее радиоканал.
Для оценки возможностей актуальной версии 8.1.47 программного пакета Ultralytics URL по локализации целевых объектов (жестов для управления БПЛА) проведен ряд экспериментов с поддерживаемыми этим пакетом конфигурациями ИНС: Yolo 5, Yolo 8, Yolo 8 Ghost, Yolo 8 Rtdetr, Yolo 9 и оригинальной архитектурой Rtdetr от Baidu [16] . Во всех случаях, кроме последнего и предпоследнего, использовались m -модификации ИНС, для Yolo 9 — c -модификация, а в последнем случае — l -модификация. Работа ИНС проверялась на собственном датасете с командами для управления БПЛА, содержащем жестовые команды «взлет», «приземление», «остановка» и «домой», применяемые при мультимодальном управлении БПЛА [11] ; использовалась разметка с помощью ориентированныхURL и неориентированных URL прямоугольных областей; всего 247 обучающих изображений и 122 тестовых. Тестирование выполнялось в режиме с половинной точностью (параметр half =True).
Повышение параметра imgsz (влияет на масштабирование поступающих изображений) с исходных 640 пикселей, заложенных по умолчанию в программный код библиотеки, до 1120 позволяет уверенно распознавать жесты, показываемые оператором на удалении. В процессе валидации результатов с пороговым значением conf (уровень уверенности ИНС) отсеиваются те зоны, потенциально содержащие жест, для которых conf ⩾ 0.01 . Среди оставшихся выбираются те, у которых значение iou ⩾ 0.7 (уровень пересечения с оригинальным жестом в зоне). Значения параметров подобраны экспериментально.
Для исследования качества распознавания на вход ИНС подавались изображения, измененные до размера 1120x640 пикселей. При тестировании использовалось следующее аппаратное обеспечение: процессор общего назначения Intel Core i7-6850k (6 ядер / 12 потоков, 4 ГГц), оперативная память 32 ГБ, видеокарта Nvidia GeForce RTX 3060.
Результаты решения задачи выделения управляющих жестов (для неориентированных прямоугольников) представлены в таблице 3. Основные показатели качества — mAP50-95 и значение F1-меры, достигаемой при указанном в таблице пороге уверенности.
Таблица 3. Результаты работы ИНС для локализации управляющих жестов (для неориентированных прямоугольников)
Вид ИНС |
Команда |
Точность |
Полнота |
mAP50-95 |
F1 |
Порог уверенности |
взлет |
1.000 |
0.965 |
0.871 |
|||
приземление |
0.999 |
1.000 |
0.869 |
|||
Yolo 5 |
остановка |
0.997 |
1.000 |
0.841 |
||
домой |
0.997 |
1.000 |
0.802 |
|||
все |
0.998 |
0.991 |
0.846 |
0.99 |
0.723 |
|
взлет |
1.000 |
0.924 |
0.749 |
|||
приземление |
1.000 |
0.850 |
0.659 |
|||
Yolo 8 |
остановка |
1.000 |
0.997 |
0.694 |
||
домой |
0.928 |
1.000 |
0.591 |
|||
все |
0.982 |
0.943 |
0.673 |
0.96 |
0.583 |
|
взлет |
1.000 |
0.999 |
0.868 |
|||
приземление |
0.971 |
1.000 |
0.853 |
|||
Yolo 9 |
остановка |
1.000 |
1.000 |
0.851 |
||
домой |
1.000 |
1.000 |
0.854 |
|||
все |
0.993 |
1.000 |
0.856 |
1.00 |
0.242 |
|
взлет |
1.000 |
1.000 |
0.812 |
|||
Yolo 8 Ghost |
приземление |
0.996 |
1.000 |
0.861 |
||
остановка |
1.000 |
1.000 |
0.829 |
|||
домой |
0.997 |
1.000 |
0.825 |
|||
все |
0.998 |
1.000 |
0.831 |
1.00 |
0.795 |
|
взлет |
0.998 |
1.000 |
0.857 |
|||
Yolo 8 Rtdetr |
приземление |
0.986 |
1.000 |
0.794 |
||
остановка |
0.998 |
1.000 |
0.758 |
|||
домой |
0.997 |
1.000 |
0.864 |
|||
все |
0.995 |
1.000 |
0.818 |
1.00 |
0.861 |
|
взлет |
0.971 |
1.000 |
0.805 |
|||
Rtdetr (Baidu) |
приземление |
0.882 |
1.000 |
0.736 |
||
остановка |
0.995 |
1.000 |
0.634 |
|||
домой |
0.954 |
1.000 |
0.756 |
|||
все |
0.950 |
1.000 |
0.733 |
0.97 |
0.616 |
В случае использования неориентированных прямоугольников архитектуры Yolo 8 Ghost, Yolo 8 Rtdetr и Yolo 9 обеспечили безошибочное выделение всех жестовых команд без ложных срабатываний, однако, максимальную точность локализации обеспечивает новая Yolo 9, она же имеет самое высокое значение mAP50-95 = 0.856. Детальное исследование данных, получаемых от ИНС, показало, что иногда в кадре находится несколько объектов (не более двух, как показали эксперименты), однако за счет порога уверенности можно добиться полного исключения ложного обнаружения. В данном случае Yolo 9 обрабатывает кадр видеопотока за 19.5 мс.
Результаты решения задачи выделения управляющих жестов (для ориентированных прямоугольников) представлены в таблице 4. Вариант Yolo 8 Rtdetr исключен из рассмотрения ввиду того, что слой RTDETR-Decoder в этой архитектуре нельзя заменить на OBB-слой.
Таблица 4. Результаты работы ИНС для локализации управляющих жестов (для ориентированных прямоугольников)
Вид ИНС |
Команда |
Точность |
Полнота |
mAP50-95 |
F1 |
Порог уверенности |
взлет |
1.000 |
1.000 |
0.914 |
|||
приземление |
1.000 |
1.000 |
0.978 |
|||
Yolo 5 |
остановка |
0.996 |
1.000 |
0.965 |
||
домой |
0.996 |
1.000 |
0.935 |
|||
все |
0.988 |
1.000 |
0.948 |
1.00 |
0.785 |
|
взлет |
0.994 |
1.000 |
0.937 |
|||
приземление |
1.000 |
1.000 |
0.977 |
|||
Yolo 8 |
остановка |
0.998 |
1.000 |
0.951 |
||
домой |
1.000 |
1.000 |
0.961 |
|||
все |
0.998 |
1.000 |
0.956 |
1.00 |
0.793 |
|
взлет |
1.000 |
1.000 |
0.918 |
|||
приземление |
1.000 |
1.000 |
0.977 |
|||
Yolo 9 |
остановка |
1.000 |
1.000 |
0.960 |
||
домой |
0.993 |
1.000 |
0.913 |
|||
все |
0.998 |
1.000 |
0.942 |
1.00 |
0.747 |
|
взлет |
0.988 |
1.000 |
0.924 |
|||
Yolo 8 Ghost |
приземление |
1.000 |
1.000 |
0.961 |
||
остановка |
0.998 |
1.000 |
0.936 |
|||
домой |
0.996 |
1.000 |
0.926 |
|||
все |
0.996 |
1.000 |
0.937 |
1.00 |
0.796 |
|
взлет |
0.991 |
1.000 |
0.928 |
|||
Rtdetr (Baidu) |
приземление |
0.999 |
1.000 |
0.971 |
||
остановка |
0.998 |
1.000 |
0.964 |
|||
домой |
1.000 |
1.000 |
0.949 |
|||
все |
0.997 |
1.000 |
0.953 |
1.00 |
0.745 |
Все варианты архитектур обеспечили 100%-ые полноту и F1-меру.
Однако, Yolo 8 обеспечила самое высокое значение показателя mAP50-95 = 0.956 (среднее для всех жестов) в сочетании с точностью 0.998. Если сравнивать эту ИНС с лучшей для неориентированных прямоугольников, переход к ориентированным обеспечил рост mAP50-95 на величину 0.1, что весьма существенно. Yolo 8 обрабатывает кадр видеопотока за 12.8 мс. Yolo 8 Ghost решает ту же задачу за 9.6 мс, то есть позволяет снизить временные затраты на 25%. Учитывая, что в данной задаче обе сети обеспечивают F1-меру 100%, приоритет следует отдать Yolo 8 Ghost.
Далее приведем краткий сценарий работы оператора с БПЛА:
-
(1 ) подготовить полетный план: задать координаты доступных для полета точек (широта, долгота, высота);
-
(2) активировать составляющие систему: БПЛА, пульт (для связи БПЛА с наземной станцией), мобильное приложение (клиент) и главную программу (сервер); для управления жестами к серверу должна быть подключена видеокамера;
-
(3 ) в мобильном приложении выбрать настройки: установить порт для связи с сервером и координаты «домашней точки», флаги передачи телеметрической информации, видеопотока с бортовой камеры БПЛА и использования режима симулятора компании-разработчика квадрокоптера; после этого установится связь между сервером и БПЛА, и главная программа будет готова принимать команды оператора;
-
(4 ) зафиксировать положение оператора в кадре видеокамеры сервера таким образом, чтобы в кадр попадали руки оператора;
-
(5 ) для управления жестами оператор показывает в видеокамеру один из них: «взлет», «приземление», «домой», «остановка»; при этом следует показывать жест несколько секунд: это сделано для того, чтобы исключить ложные срабатывания системы распознавания;
-
(6 ) посредством нажатия левой кнопки мыши по кнопкам интерфейса главной программы оператор может отдать команды БПЛА в соответствии с таблицей 2;
-
(7 ) посредством зажатия левой кнопки мыши на трехмерной карте местности полета в центральной части интерфейса, в которой отображено текущее положение БПЛА, осуществляется смещение «камеры-наблюдателя» 3D-сцены; зажатие колеса мыши позволяет поворачивать сцену, а зажатие правой кнопки мыши — позволяет управлять «зумом»;
-
(8 ) после выполнения полетного задания оператору следует дать команду «приземление» или «домой» любым описанным выше способом;
-
(9 ) после завершения полета выключить БПЛА, пульт, мобильное приложение и остановить работу сервера.
Заключение
Рассмотрен и прошел первичную апробацию подход к управлению малым БПЛА типа квадрокоптер на основе жестовых команд. Базовые команды управления движением летательного аппарата включают перемещения в пространстве, повороты вокруг вертикальной оси, взлет и посадку. Эксперименты показали достаточную для практического использования точность распознавания ряда жестовых команд с применением сверточных искусственных нейронных сетей, соответствующую зарубежным аналогам [4 –9 , 15] , задача полностью решена с помощью архитектур Yolo 8 Ghost и Yolo 9 для режимов с ориентированными и неориентированными прямоугольниками для выделения зон с жестами.
Дальнейшим расширением подхода может служить управление жестами несколькими БПЛА. Выполнение сложных групповых заданий вызывает необходимость решения задач, связанных с безопасным совместным полетом и взаимодействием автономных летающих роботов в процессе функционирования на одних и тех же участках. Например, когда в условиях пожара перед несколькими БПЛА в процессе выполнения спасательных работ возникает необходимость в совместном поднятии в воздух тяжелого объекта для смены его местоположения. В этом случае каждый БПЛА должен быть способным к коллективному взаимодействию элементов группы как интеллектуальных агентов. Подобные сложные задачи интеллектуального взаимодействия автономных БПЛА требуют расширения системы команд для придания специфики каждому летательному аппарату. Кроме того, требуется наделение интерфейса и БПЛА некоторыми интеллектуальными функциями.
Список литературы Жестовое управление полетом малого беспилотного летательного аппарата
- Абрамов Н. С., Талалаев А. А., Фраленко В. П., Хачумов М. В. Система мультимодального управления и визуализации полета беспилотного летательного аппарата // Авиакосмическое приборостроение.– 2023.– №9.– С. 3–11. https://doi.org/10.25791/aviakosmos.9.2023.1358
- Алфимцев А. Н. Разработка и исследование методов захвата, отслеживания и распознавания динамических жестов, Диссертация на соискание ученой степени кандидата технических наук.– М..– 2008.– 167 с.
- Нагапетян В. Э. Методы распознавания жестов руки на основе анализа дальностных изображений, Диссертация на соискание ученой степени кандидата физико-математических наук.– М..– 2008.– 117 с.
- Oikonomidis I., Kyriazis N., Argyros A. A. Efficient model-based 3D tracking of hand articulations using Kinect // Proceedings of the 22nd British Machine Vision Conference 2011, BMVC’11 (Dundee, UK, August 29–September 2, 2011).– 2011.– ISBN 1-901725-43-X.– 11 pp.
- Shaowei C., Tanaka J. Interacting with a self-portrait camera using motion-based hand gestures // Proceedings of the 11th Asia-Pacific Conference on Computer-Human Interaction 2013, APCHI’13 (Bangalore, India, September 24–27, 2013), New York: ACM.– 2013.– ISBN 978-1-4503-2253-9.– Pp. 93–101. https://doi.org/10.1145/2525194.2525206
- Maraqa M. R., Al-Zboun F., Dhyabat M., Zitar R. A. Recognition of Arabic Sign Language (ArSL) using recurrent neural networks // Journal of Intelligent Learning Systems and Applications.– 2012.– Vol. 4.– No. 1.– Pp. 41–52. https://doi.org/10.4236/jilsa.2012.41004
- Pugeault N., Bowden R. Spelling it out: real-time ASL fingerspelling recognition // Proceedings of the IEEE International Conference on Computer Vision Workshops 2011, ICCV’11 (Barcelona, Spain, 06–13 November 2011).– 2011.– Pp. 1114–1119. https://doi.org/10.1109/ICCVW.2011.6130290
- Zhao R., Wang K., Divekar R., Rouhani R., Su H., Ji Q. An immersive system with multi-modal human-computer interaction // Proceedings of the 13th IEEE International Conference on Automatic Face & Gesture Recognition 2018 (Xi’an, China, 15–19 May 2018).– 2018.– Pp. 517–524. https://doi.org/10.1109/FG.2018.00083
- Sanna A., Lamberti F., Paravati G., Manuri F. A kinect-based natural interface for quadrotor control // Entertainment Computing.– 2013.– Vol. 4.– No. 3.– Pp. 179–186. https://doi.org/10.1016/j.entcom.2013.01.001
- Нагапетян В. Э., Хачумов В. М. Распознавание жестов руки в задаче бесконтактного управления беспилотным летательным аппаратом // Автометрия.– 2015.– Т. 51.– №2.– С. 103–109. [РИНЦ]
- Абрамов Н. С., Емельянова Ю.Г., Талалаев А. А., Фраленко В. П., Хачумов М. В. Архитектура мультимодального интерфейса для управления беспилотным летательным аппаратом // Известия высших учебных заведений. Авиационная техника.– 2022.– №3.– С. 55–63. [РИНЦ]
- Hu M. K. Visual pattern recognition by moment invariants // IRE Transactions on Information Theory.– 1962.– Vol. 8.– No. 2.– Pp. 179–187. https://doi.org/10.1109/TIT.1962.1057692
- Hochreiter S., Schmidhuber J. Long short-term memory // Neural Computation.– 1997.– Vol. 9.– No. 8.– Pp. 1735–1780. https://doi.org/10.1162/neco.1997.9.8.1735
- Жуковская В. А., Пятаева А. В. Рекуррентная нейронная сеть для распознавания жестов русского языка с учетом языкового диалекта Сибирского региона // ГрафиКон 2022: материалы 32-й Международной конференции по компьютерной графике и машинному зрению (Рязань, 19–22 сентября 2022 г.).– 2022.– С. 538–547. UhtRtpLs://www.graphiconh.rtut/phs:t/m/ld/o2i0.o2r2g//p1a0p.2e0rs9/4p8a/pgerarph0i5c5o.np-d2f022-538-547
- Булыгин Д. А., Мамонова Т. Е. Распознавание жестов рук в режиме реального времени // Научный вестник НГТУ.– 2020.– №1(78).– С. 25–40. https://doi.org/10.17212/1814-1196-2020-1-25-40
- Zhao Y., Lv W., Xu S., Wei J., Wang G., Dang Q., Liu Y., Chen J., DETRs beat YOLOs on real-time object detection.– 2023.– 14 pp. arXivarXiv 2304.08069 [cs.CV] https://doi.org/10.48550/arXiv.2304.08069