Посилене навчання нейромережі в уяві в системах керування безпілотними рухомими об’єктами

О.А. Урсатьєв; О.Є. Волков

doi:10.15407/intechsys.2025.04.003

Автор(и)

О.А. Урсатьєв Інститут інформаційних технологій та систем НАН України https://orcid.org/0009-0009-8323-0525
О.Є. Волков Інститут інформаційних технологій та систем НАН України https://orcid.org/0000-0002-5418-6723

DOI:

https://doi.org/10.15407/intechsys.2025.04.003

Ключові слова:

безпілотні рухомі об'єкти, глибоке посилене навчання, ментальна модель світу, нейромережі, навчання агентів, багатоагентне середовище, рекурентна модель простору станів

Анотація

Проаналізовано зарубіжний досвід розроблення та застосування засобів штучного інтелекту, а саме глибокого посиленого навчання за моделлю для розв’язання проблем поведінки рухомих об’єктів у невідомих частково спостережуваних середовищах. Досліджено задачу керування рухомими об’єктами в одно- та багатоагентних системах із застосуванням ментальної моделі світу. Такі системи діють за аналогією роботи мозку людини. Для розв’язання задачі керування рухомими об’єктами застосовують великі рекурентні нейронні мережі — моделі, які здатні навчатися за даними виміряними у часі та просторі. Для вибору оптимальної стратегії дій агентів й точного відтворення середовища, вхідні дані мають бути високої розмірності. На основі проведеного аналізу запропоновано застосування відомого підходу на основі глибинного посиленого навчання для розв’язання задачі керування рухомими об’єктами. Мета керування за цим підходом досягається шляхом побудови моделі уявлення світу замість проведення реальних дорогих випробувань.

Посилання

Oursatyev, O., & Volkov, O. Approaches to Creating Multiagent Systems and Deep Reinforcement Learning of Drones. Information Technologies and Systems, 3(3), 30–55. https://doi.org/10.15407/intechsys.2025.03.030

Ha D., Schmidhuber J. World Models. Can agents learn inside of their own dreams? NIPS 2018, March 27 2018, Oral Presentation. https://doi.org/10.5281/zenodo.1207631

Schmidhuber J. On Learning to Think: Algorithmic Information Theory for Novel Combinations of Reinforcement Learning Controllers and Recurrent Neural World Models, 2015, 36 p. https://doi.org/10.48550/arXiv.1511.09249

Gronauer S., Diepold K. Multi-agent deep reinforcement learning: a survey. Artificial Intelligence Review, 2021, 1–49. URL: https://link.springer.com/article/10.1007/s10462-021-09996-w

Schmidhuber J. Deep Learning in Neural Networks: An Overview. Neural Networks, 2015, Vol. 61, 85–117. https://doi.org/10.1016/j.neunet.2014.09.003

Sutton R. S., Barto A. G. Reinforcement Learning: An Introduction. A Bradford Book, The MIT Press Cambridge, Massachusetts, London, England, 2015, 1–337. URL: https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf

Schmidhuber J. Making the World Differentiable: On Using Self-Supervised Fully Recurrent Neural Networks for Dynamic Reinforcement Learning and Planning in Non-Stationary Environments. IDSIA, 1990. URL: https://people.idsia.ch/~juergen/FKI-126-90_(revised)bw_ocr.pdf

Schmidhuber J. An on-line algorithm for dynamic reinforcement learning and planning in reactive environments. IJCNN International Joint Conference on Neural Networks, 1990, Vol. 2, 253–258. https://doi.org/10.1109/IJCNN.1990.137723

Schmidhuber J. Reinforcement Learning in Markovian and Non-Markovian Environments. IDSIA, 1991. URL: https://sferics.idsia.ch/pub/juergen/nipsnonmarkov.pdf

Schmidhuber, J., A Possibility for Implementing Curiosity and Boredom in Model-building Neural Controllers. The First International Conference on Simulation of Adaptive Behavior on From Animals to Animats, 1990. 222–227. MIT Press/Bradford Books, 1991. https://doi.org/10.7551/mitpress/3115.003.0030

Arulkumaran K. et al. Deep reinforcement learning: A brief survey, 2017. https://doi.org/10.1109/MSP.2017.2743240

Kingma D. P. and Welling M. Auto-Encoding Variational Bayes. Cornell University, 2013. URL: https://pure.uva.nl/ws/files/2511146/162970_1312.6114v10.pd.pdf

Hansen (TAO). The CMA Evolution Strategy: A Tutorial. 2016, 1–39. URL: https://arxiv.org/abs/1604.00772v2

Kaiser L. et al., Model-Based Reinforcement Learning for Atari. ICLR 2020, 1-28. URL: https://arxiv.org/abs/1903.00374

Hessel M. et al. Rainbow: Combining Improvements in Deep Reinforcement Learning. AAAI 2018. https://doi.org/10.1609/aaai.v32i1.11796

Hafner D. et al. Mastering Atari with Discrete World Models. ICLR 2021, 1–26. URL: https://arxiv.org/abs/2010.02193

Mastering Atari with Discrete World Models. February 18, 2021, Posted by Hafner D., Google Research. URL: https://research.google/blog/mastering-atari-with-discrete-world-models/

Oursatyev O. Data Research in Industrial Data Mining Projects in the Big Data Generation Era. Control Systems and Computers, Issue 3, 33–54. [In Ukrainian: Урсатьєв О.А., Дослідження даних у промислових data-mining-проєктах в епоху генерації великих даних] https://doi.org/10.15407/csc.2023.03.033

Hafner D. et al., Learning Latent Dynamics for Planning from Pixels, 2018. URL: https://arxiv.org/abs/1811.04551

Introducing PlaNet: A Deep Planning Network for Reinforcement Learning, Febr. 2019, Posted by Danijar Hafner. URL: https://research.google/blog/introducing-planet-a-deep-planning-network-for-reinforcement-learning/

Introducing Dreamer: Scalable Reinforcement Learning Using World Models. March, 2020. Posted by Danijar Hafner. URL: https://research.google/blog/introducing-dreamer-scalable-reinforcement-learning-using-world-models/

Sutton R.S., Barto A.G. Reinforcement Learning: An Introduction. MIT Press,Cambridge, Massachusetts, London, England, 2018, 526 p. URL: https://www.google.com/url?sa=t&source=web&rct=j&opi=89978449&url=https://www.andrew.cmu.edu/course/10-703/textbook/BartoSutton.pdf

Egorov V., Shpilman A. Scalable Multi-Agent Model-Based Reinforcement Learning. The 21st International Conference on Autonomous Agents and Multiagent Systems (AAMAS), 381–390. https://dl.acm.org/doi/abs/10.5555/3535850.3535894

Egorov V., Shpilman A. Scalable Multi-Agent Model-Based Reinforcement Learning. ArXiv, 2022. URL: https://arxiv.org/abs/2205.15023v1

Sunehag P. et al. Value-Decomposition Networks For Cooperative Multi-Agent Learning. ArXiv, 2017. URL: https://arxiv.org/abs/1706.0529625.

Vaswani A. et al.Attention Is All You Need. ArXiv, 2017. URL: https://arxiv.org/abs/1706.03762

Bahdanau D., Cho K., Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate. ArXiv. URL: https://arxiv.org/abs/1409.0473

Cho K. et al. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. https://doi.org/10.3115/v1/D14-1179

Посилене навчання нейромережі в уяві в системах керування безпілотними рухомими об’єктами

Автор(и)

DOI:

Ключові слова:

Анотація

Посилання

Downloads

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

Мова

Інформація

Подати статтю

Поточний номер

Browse

© Інститут інформаційних технологій та систем НАН України, 2025
© Видавець ВД «Академперіодика» НАН України, 2025