Интеллектуальный анализ данных на базе глубокого обучения с подкреплением для прогноза рабочих частот и полос в системе когнитивного радио

Андрей Андреевич Толстых; Андрей Николаевич Голубинский

doi:10.15622/ia.25.2.2

Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Специальные определители для вычислительной техники

Интеллектуальный анализ данных на базе глубокого обучения с подкреплением для прогноза рабочих частот и полос в системе когнитивного радио

Автор: Андрей Андреевич Толстых , Андрей Николаевич Голубинский

Журнал: Информатика и автоматизация (Труды СПИИРАН) @ia-spcras

Рубрика: Искусственный интеллект, инженерия данных и знаний

Статья в выпуске: Том 25, №2, 2026 года.

Бесплатный доступ

В работе предложен метод решения задачи выбора канала связи в когнитивном радио на основе информации о текущем состоянии всех доступных каналов связи с использованием математического аппарата обучения с подкреплением. Метод заключается в формализации задачи выбора каналов связи в терминах «среда-агент» и обучении агентов с помощью алгоритмов Reinforce, SARSA и A2C. Приведён расчёт затрат памяти на решение задачи выбора каналов связи классическими методами. Оценка по памяти составляет 4×22n байт для случайного состояния каналов (занят/свободен) и 4×n2 байт – для одного свободного канала на каждом шаге при решении задачи табличным алгоритмом Q-обучения. Приведены две различные формализации вознаграждения для агента в рамках решаемой задачи при использовании обучения с подкреплением – для тривиального случая (бинарная доступность / недоступность частотного канала) и для более сложного случая – с учётом мощности (в дБ) в выбранном канале связи. Ограничение на первую формализацию состоит в том, что на каждой итерации должен быть только один свободный канал связи из всех доступных. Вторая предложенная формализация функции вознаграждения не накладывает подобных ограничений и более универсальна. Проведены вычислительные эксперименты для обеих формализаций функции вознаграждения, агенты обучающиеся с помощью алгоритмов SARSA и A2C, в среднем, достигают безошибочного решения задачи за 8000 эпизодов обучения для обеих формализаций обучения в модельной задаче для различных реализаций агентов. Алгоритм REINFORCE не позволяет достигать безошибочного решения, однако, формализация вознаграждения с учётом мощности повышает стабильность обучения алгоритмом REINFORCE. Даны теоретические оценки вычислительной сложности рассматриваемых методов, согласующиеся с вычислительными экспериментами.

Когнитивное радио, обучение с подкреплением, глубокое обучение, искусственная нейронная сеть, многослойный персептрон, функция вознаграждения, программно-определяемое радио, синтетические данные, аугментация, искусственный интеллект

Короткий адрес: https://sciup.org/14135264

IDR: 14135264 | УДК: 004.032.26; 621.396 | DOI: 10.15622/ia.25.2.2