Обґрунтування за допомогою формалізму Гамільтона—Понтрягіна методу зворотного просування похибки для навчання неопуклих негладких нейронних мереж

Автор(и)

  • В.І. Норкін Інститут кібернетики ім. В.М. Глушкова НАН України, Київ НТУ України “Київський політехнічний інститут ім. Ігоря Сікорського”

DOI:

https://doi.org/10.15407/dopovidi2019.12.019

Ключові слова:

багатошарові нейронні мережі, глибоке навчання, машинне навчання, негладка неопукла оптимізація, стохастична оптимізація, стохастичний узагальнений градієнт

Анотація

Простежується аналогія між задачами оптимального керування дискретними стохастичними динамічними системами та задачами навчання багатошарових нейронних мереж. Увага концентрується на вивченні сучасних глибоких мереж з негладкими цільовими функціоналами і зв’язками. Показано, що задачі машинного навчання можуть трактуватися як задачі стохастичного програмування, і для їхнього аналізу застосовано теорію неопуклого негладкого стохастичного програмування. Як модель негладких неопуклих залежностей використано так звані узагальнено диференційовані функції. Обґрунтовано метод обчислення стохастичних узагальнених градієнтів функціонала якості навчання для таких систем на основі формалізму Гамільтона—Понтрягіна. Цей метод узагальнює відомий метод “зворотного просування похибки” на задачі навчання негладких неопуклих мереж. Узагальнені (стохастичні) градієнтні алгоритми навчання поширено на неопуклі негладкі нейронні мережі.

Завантаження

Дані завантаження ще не доступні.

Посилання

Goodfellow, I., Bengio, Y. & Courville, A. (2016). Deep learning. Cambridge: The MIT Press. Retrieved from http://www.deeplearningbook.org

Bottou, L., Curtisy, F. E. & Nocedalz, J. (2018). Optimization methods for large-scale machine learning. SIAM Rev., 60, No. 2, pp. 223-311. Doi: https://doi.org/10.1137/16M1080173

Newton, D., Yousefian, F. & Pasupathy, R. (2018). Stochastic gradient descent: recent trends. INFORMS TutORials in Operations Research, pp. 193-220. Doi: https://doi.org/10.1287/educ.2018.0191

Rumelhart, D. E., Hinton, G. E. & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323, pp. 533-536. Doi: https://doi.org/10.1038/323533a0

Schmidhuber, J. (2015). Deep learning in neural networks: An overview. Neural Networks, 61, pp. 85-117. Doi: https://doi.org/10.1016/j.neunet.2014.09.003

Davis, D., Drusvyatskiy, D., Kakade, S. & Lee, J. D. (2019). Stochastic subgradient method converges on tame functions. Found. Comput. Math., pp. 1-36. Doi: https://doi.org/10.1007/s10208-018-09409-5

Clarke, F. H. (1990). Optimization and nonsmooth analysis. Classics in Applied Mathematics, Vol. 5. 2nd ed. Philadelphia, PA: SIAM. Doi: https://doi.org/10.1137/1.9781611971309

Norkin, V.I. (1980). Generalized differentiable functions. Cybernetics, 16, No. 1, pp. 10-12. Doi: https://doi.org/10.1007/BF01099354

Mikhalevich, V. S., Gupal, A. M. & Norkin, V. I. (1987). Methods of nonconvex optimization. Moscow: Nauka (in Russian).

Norkin, V. I. (1986). Stochastic generalized-differentiable functions in the problem of nonconvex nonsmooth stochastic optimization. Cybernetics, 22, No. 6, pp. 804-809. Doi: https://doi.org/10.1007/BF01068698

Bryson, A. E. & Ho, Y-C. (1969). Applied optimal control: optimization, estimation, and control. Waltham: Blaisdell Publ. Co.

Ermoliev, Y. M. (1976). Methods of stochastic programming. Moscow: Nauka (in Russian).

Norkin V. I. (2019). Generalized gradients in problems of dynamic optimization, optimal control, and machine learning. Preprint. V.M. Glushkov Institute of Cybernetics of the National Academy of Sciences of Ukraine, Kyiv. Retrieved from http://www.optimization-online.org/DB_HTML/2019/09/7374.html

Ermol’ev, Yu. M. & Norkin, V. I. (1998). Stochastic generalized gradient method for solving nonconvex nonsmooth stochastic optimization problems. Cybern. Syst. Anal., 34, No. 2, pp. 196-215. Doi: https://doi.org/10.1007/BF02742069

Ermoliev, Y. M. & Norkin, V. I. (2003). Solution of nonconvex nonsmooth stochastic optimization problems. Cybern. Syst. Anal., 39, No. 5, pp. 701-715. Doi: https://doi.org/10.1023/B:CASA.0000012091.84864.65

##submission.downloads##

Опубліковано

24.04.2024

Як цитувати

Норкін, В. (2024). Обґрунтування за допомогою формалізму Гамільтона—Понтрягіна методу зворотного просування похибки для навчання неопуклих негладких нейронних мереж . Reports of the National Academy of Sciences of Ukraine, (12), 19–26. https://doi.org/10.15407/dopovidi2019.12.019

Номер

Розділ

Інформатика та кібернетика