Обучение долговременной памяти через предсказание событий высокой неопределенности

Автор: Сорокин А. Ю., Пугачев Л. П., Бурцев М. С.

Журнал: Труды Московского физико-технического института @trudy-mipt

Рубрика: Информатика и управление

Статья в выпуске: 4 (52) т.13, 2021 года.

Бесплатный доступ

Во многих задачах обучения с подкреплением агенту требуется запоминать информацию из прошлого, необходимую для принятия эффективных решений. Причем момент наблюдения полезной информации может быть удален от момента использования этой информации на тысячи или миллионы временных шагов. К сожалению, применение методов обратного распространения ошибки для обнаружения и выучивания подобных временных зависимостей потребует хранения в оперативной памяти всех промежуточных вычислений нейросети для каждого из временных шагов. Однако, как мы покажем в данной работе, эти вычислительные ограничения можно обойти, если заранее найти критические моменты, когда агенту будет полезно обращение к своей рабочей памяти. Мы добавим в архитектуру агента подсеть памяти, которая будет обучаться предсказывать исходы событий, характеризующихся высокой степенью неопределенности исхода. Данную архитектуру памяти мы протестируем на классической задаче T-лабиринта и в трехмерной среде ViZDoom. Эксперименты демонстрируют, что предложенный нами метод обучается быстрее и стабильнее, чем альтернативные подходы.

Еще

Обучение с подкреплением, глубокое обучение, искусственные нейронные сети, рабочая память, частично обозреваемые среды

Короткий адрес: https://sciup.org/142231497

IDR: 142231497   |   DOI: 10.53815/20726759_2021_13_4_39

Список литературы Обучение долговременной памяти через предсказание событий высокой неопределенности

  • Duan Y. [et al.\. RL2: Fast Reinforcement Learning via Slow Reinforcement Learning // arXiv preprint arXiv:1611.02779. 2016.
  • Peng X.B. [et al.\. Sim-to-real transfer of robotic control with dynamics randomization // IEEE International Conference on Robotics and Automation (ICRA). 2018. P. 1-8.
  • Hausknecht M., Stone P. Deep recurrent q-learning for partially observable mdps // arXiv preprint arXiv: 1507.06527. 2015.
  • Mnih V. [et al.\. Asynchronous methods for deep reinforcement learning // International conference on machine learning. 2016. P. 1928-1937.
  • Bakker B. Reinforcement Learning with Long Short-Term Memory // Advances in Neural Information Processing Systems. 2001. P. 1475-1482.
  • Mnih V. [et al.\. Human-level control through deep reinforcement learning // Nature. 2015. V. 518. P. 529-533.
  • Silver D. [et al.\. Mastering chess and shogi by self-plav with a general reinforcement learning algorithm // arXiv preprint arXiv: 1712.01815. 2017.
  • Santoro A. [et al.\. Relational recurrent neural networks // Advances in Neural Information Processing Systems. 2018. P. 7310-7321.
  • Kapturowski S. [et al.\. Recurrent Experience Replay in Distributed Reinforcement Learning // 7th International Conference on LearningRepresentations, ICLR. 2019.
  • Oh J. [et al.}. Control of Memory, Active Perception, and Action in Minecraft // Proceedings of the 33nd International Conference on Machine Learning, ICML. 2016. V. 48. P. 27902799.
  • Graves A. [et al.}. Hybrid computing using a neural network with dynamic external memory 11 Nature. 2016. V.*538. P. 471.
  • Parisotto E., Salakhutdinov R. Neural Map: Structured Memory for Deep Reinforcement Learning // 6th International Conference on Learning Representations, ICLR. 2018.
  • Vaswani A. [et al.}. Attention is All you Need // Advances in Neural Information Processing Systems. 2017. P. 5998-6008.
  • Parisotto E. [et al.}. Stabilizing Transformers for Reinforcement Learning // arXiv preprint arXiv:1910.06764. 2019.
  • Beck J. [et al.}. AMRL: Aggregated Memory For Reinforcement Learning // 8th International Conference on Learning Representations, ICLR. 2020.
  • Wayne G. [et al.}. Unsupervised Predictive Memory in a Goal-Directed Agent // arXiv preprint arXiv:1803.10760. 2018.
  • Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. 1997. V. 9. P. 1735-1780.
  • Dabney W. [et al.}. Distributional reinforcement learning with quantile regression // Thirty-Second AAAI Conference on Artificial Intelligence. 2018.
  • Geman S., Bienenstock E., Doursat R. Neural networks and the bias/variance dilemma // Neural computation. 1992. V. 4. P. 1-58.
  • Jaeger H. Tutorial on training recurrent neural networks, covering BPPT, RTRL, EKF and the «echo state network» approach. Bonn : GMD-Forschungszentrum Informationstechnik. 2002. V. 5.
  • Devlin J. [et al.}. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT. 2019. P. 4171-4186.
  • Brown T.B. [et al.}. Language models are few-shot learners // arXiv preprint arXiv:2005.14165. 2020.
  • Wang S. [et al.}. Linformer: Self-Attention with Linear Complexity // arXiv preprint arXiv:2006.04768. 2020.
  • Zaheer M. [et al.}. Big Bird: Transformers for Longer Sequences // Advances in Neural Information Processing Systems. 2020.
  • Baker B. [et al.}. Emergent Tool Use From Multi-Agent Autocurricula // 8th International Conference on Learning Representations, ICLR. 2020.
  • Ha D., Schmidhuber J. Recurrent World Models Facilitate Policy Evolution // Advances in Neural Information Processing Systems. 2018. P. 2455-2467.
  • Hung C.C. [et al.}. Optimizing agent behavior over long time scales by transporting value // Nature communications. 2019. V. 10. P. 1-12.
  • Mishra N. [et al.}. A Simple Neural Attentive Meta-Learner // 6th International Conference on Learning Representations, ICLR. 2018.
  • Kempka M. [et al.}. Vizdoom: A doom-based ai research platform for visual reinforcement learning // IEEE Conference on Computational Intelligence and Games. 2016. P. 1-8.
  • Schulman J. [et al.}. Proximal policy optimization algorithms // arXiv preprint arXiv:1707.06347. 2017.
  • Vinyals O. [et al.}. Grandmaster level in StarCraft II using multi-agent reinforcement learning 11 Nature. 2019. V. 575. P. 350-354.
  • Stooke A., Abbeel P. rlpvt: A research code base for deep reinforcement learning in pvtorch 11 arXiv preprint arXiv:1909.01500. 2019.
  • Espeholt L. [et al.}. IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor Learner Architectures // Proceedings of the 35th International Conference on Machine Learning, ICML. 2018. P. 1406-1415.
  • Kumar S., Parker J., Naderian P. Adaptive Transformers in RL // arXiv preprint arXiv:2004.03761. 2020.
  • Beeching E. [et al.}. Deep Reinforcement Learning on a Budget: 3D Control and Reasoning Without a Supercomputer // arXiv preprint arXiv:1904.01806. 2019.
Еще
Статья научная