Посилене навчання нейромережі в уяві в системах керування безпілотними рухомими об’єктами
DOI:
https://doi.org/10.15407/intechsys.2025.04.003Ключові слова:
безпілотні рухомі об'єкти, глибоке посилене навчання, ментальна модель світу, нейромережі, навчання агентів, багатоагентне середовище, рекурентна модель простору станівАнотація
Проаналізовано зарубіжний досвід розроблення та застосування засобів штучного інтелекту, а саме глибокого посиленого навчання за моделлю для розв’язання проблем поведінки рухомих об’єктів у невідомих частково спостережуваних середовищах. Досліджено задачу керування рухомими об’єктами в одно- та багатоагентних системах із застосуванням ментальної моделі світу. Такі системи діють за аналогією роботи мозку людини. Для розв’язання задачі керування рухомими об’єктами застосовують великі рекурентні нейронні мережі — моделі, які здатні навчатися за даними виміряними у часі та просторі. Для вибору оптимальної стратегії дій агентів й точного відтворення середовища, вхідні дані мають бути високої розмірності. На основі проведеного аналізу запропоновано застосування відомого підходу на основі глибинного посиленого навчання для розв’язання задачі керування рухомими об’єктами. Мета керування за цим підходом досягається шляхом побудови моделі уявлення світу замість проведення реальних дорогих випробувань.
Посилання
Oursatyev, O., & Volkov, O. Approaches to Creating Multiagent Systems and Deep Reinforcement Learning of Drones. Information Technologies and Systems, 3(3), 30–55. https://doi.org/10.15407/intechsys.2025.03.030
Ha D., Schmidhuber J. World Models. Can agents learn inside of their own dreams? NIPS 2018, March 27 2018, Oral Presentation. https://doi.org/10.5281/zenodo.1207631
Schmidhuber J. On Learning to Think: Algorithmic Information Theory for Novel Combinations of Reinforcement Learning Controllers and Recurrent Neural World Models, 2015, 36 p. https://doi.org/10.48550/arXiv.1511.09249
Gronauer S., Diepold K. Multi-agent deep reinforcement learning: a survey. Artificial Intelligence Review, 2021, 1–49. URL: https://link.springer.com/article/10.1007/s10462-021-09996-w
Schmidhuber J. Deep Learning in Neural Networks: An Overview. Neural Networks, 2015, Vol. 61, 85–117. https://doi.org/10.1016/j.neunet.2014.09.003
Sutton R. S., Barto A. G. Reinforcement Learning: An Introduction. A Bradford Book, The MIT Press Cambridge, Massachusetts, London, England, 2015, 1–337. URL: https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf
Schmidhuber J. Making the World Differentiable: On Using Self-Supervised Fully Recurrent Neural Networks for Dynamic Reinforcement Learning and Planning in Non-Stationary Environments. IDSIA, 1990. URL: https://people.idsia.ch/~juergen/FKI-126-90_(revised)bw_ocr.pdf
Schmidhuber J. An on-line algorithm for dynamic reinforcement learning and planning in reactive environments. IJCNN International Joint Conference on Neural Networks, 1990, Vol. 2, 253–258. https://doi.org/10.1109/IJCNN.1990.137723
Schmidhuber J. Reinforcement Learning in Markovian and Non-Markovian Environments. IDSIA, 1991. URL: https://sferics.idsia.ch/pub/juergen/nipsnonmarkov.pdf
Schmidhuber, J., A Possibility for Implementing Curiosity and Boredom in Model-building Neural Controllers. The First International Conference on Simulation of Adaptive Behavior on From Animals to Animats, 1990. 222–227. MIT Press/Bradford Books, 1991. https://doi.org/10.7551/mitpress/3115.003.0030
Arulkumaran K. et al. Deep reinforcement learning: A brief survey, 2017. https://doi.org/10.1109/MSP.2017.2743240
Kingma D. P. and Welling M. Auto-Encoding Variational Bayes. Cornell University, 2013. URL: https://pure.uva.nl/ws/files/2511146/162970_1312.6114v10.pd.pdf
Hansen (TAO). The CMA Evolution Strategy: A Tutorial. 2016, 1–39. URL: https://arxiv.org/abs/1604.00772v2
Kaiser L. et al., Model-Based Reinforcement Learning for Atari. ICLR 2020, 1-28. URL: https://arxiv.org/abs/1903.00374
Hessel M. et al. Rainbow: Combining Improvements in Deep Reinforcement Learning. AAAI 2018. https://doi.org/10.1609/aaai.v32i1.11796
Hafner D. et al. Mastering Atari with Discrete World Models. ICLR 2021, 1–26. URL: https://arxiv.org/abs/2010.02193
Mastering Atari with Discrete World Models. February 18, 2021, Posted by Hafner D., Google Research. URL: https://research.google/blog/mastering-atari-with-discrete-world-models/
Oursatyev O. Data Research in Industrial Data Mining Projects in the Big Data Generation Era. Control Systems and Computers, Issue 3, 33–54. [In Ukrainian: Урсатьєв О.А., Дослідження даних у промислових data-mining-проєктах в епоху генерації великих даних] https://doi.org/10.15407/csc.2023.03.033
Hafner D. et al., Learning Latent Dynamics for Planning from Pixels, 2018. URL: https://arxiv.org/abs/1811.04551
Introducing PlaNet: A Deep Planning Network for Reinforcement Learning, Febr. 2019, Posted by Danijar Hafner. URL: https://research.google/blog/introducing-planet-a-deep-planning-network-for-reinforcement-learning/
Introducing Dreamer: Scalable Reinforcement Learning Using World Models. March, 2020. Posted by Danijar Hafner. URL: https://research.google/blog/introducing-dreamer-scalable-reinforcement-learning-using-world-models/
Sutton R.S., Barto A.G. Reinforcement Learning: An Introduction. MIT Press,Cambridge, Massachusetts, London, England, 2018, 526 p. URL: https://www.google.com/url?sa=t&source=web&rct=j&opi=89978449&url=https://www.andrew.cmu.edu/course/10-703/textbook/BartoSutton.pdf
Egorov V., Shpilman A. Scalable Multi-Agent Model-Based Reinforcement Learning. The 21st International Conference on Autonomous Agents and Multiagent Systems (AAMAS), 381–390. https://dl.acm.org/doi/abs/10.5555/3535850.3535894
Egorov V., Shpilman A. Scalable Multi-Agent Model-Based Reinforcement Learning. ArXiv, 2022. URL: https://arxiv.org/abs/2205.15023v1
Sunehag P. et al. Value-Decomposition Networks For Cooperative Multi-Agent Learning. ArXiv, 2017. URL: https://arxiv.org/abs/1706.0529625.
Vaswani A. et al.Attention Is All You Need. ArXiv, 2017. URL: https://arxiv.org/abs/1706.03762
Bahdanau D., Cho K., Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate. ArXiv. URL: https://arxiv.org/abs/1409.0473
Cho K. et al. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. https://doi.org/10.3115/v1/D14-1179
Downloads
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Information Technologies and Systems (Інформаційні технології та системи)

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Стаття публікується на умовах відкритого доступу за ліцензією CC BY-NC-ND 4.0 - Із Зазначенням Авторства – Некомерційною – Без Похідних 4.0 Міжнародною.