Новый подход к обучению нейронных сетей с помощью натурального градиентного спуска с импульсом на основе распределений Дирихле
Автор: Абдулкадиров Руслан Ибрагимович, Ляхов Павел Алексеевич
Журнал: Компьютерная оптика @computer-optics
Рубрика: Численные методы и анализ данных
Статья в выпуске: 1 т.47, 2023 года.
Бесплатный доступ
В данной работе мы предлагаем алгоритм натурального градиентного спуска с импульсом на основе распределений Дирихле для ускорения обучения нейронных сетей. Данный подход учитывает не только направления градиентов, но и выпуклость минимизируемой функции, что значительно ускоряет процесс поиска экстремумов. Представлены вычисления натуральных градиентов, базирующихся на распределениях Дирихле, и реализовано внедрение предложенного подхода в схему обратного распространения ошибок. Результаты по распознаванию изображений и прогнозированию временных рядов во время проведения экспериментов показывают, что предложенный подход дает более высокую точность и не требует большого количества итераций для минимизации функций потерь, по сравнению с методами стохастического градиентного спуска, адаптивной оценки момента и адаптивным по параметрам диагональным квазиньютоновским методом для невыпуклой стохастической оптимизации.
Распознавание образов, машинное обучение, оптимизация, распределения дирихле, натуральный градиентный спуск
Короткий адрес: https://sciup.org/140296254
IDR: 140296254 | DOI: 10.18287/2412-6179-CO-1147
Список литературы Новый подход к обучению нейронных сетей с помощью натурального градиентного спуска с импульсом на основе распределений Дирихле
- Gardner WA. Learning characteristics of stochastic-gradient-descent algorithms: A general study, analysis, and critique. Signal Proces 1984; 6(2): 113-133. DOI: 10.1016/0165-1684(84)90013-6.
- Loizou N, Richtarik P. Momentum and stochastic momentum for stochastic gradient, Newton, proximal point and subspace descent methods. Comput Optim Appl 2020; 77: 653-710. DOI: 10.1007/s10589-020-00220-z.
- Gao S, Pei Z, Zhang Y, Li T. Bearing fault diagnosis based on adaptive convolutional neural network with Nesterov momentum. IEEE Sens J 2021; 21(7): 9268-9276. DOI: 10.1109/JSEN.2021.3050461.
- Hadgu AT, Nigam A, Diaz-Aviles E. Large-scale learning with AdaGrad on Spark. 2015 IEEE Int Conf on Big Data (Big Data) 2015: 2828-2830. DOI: 10.1109/BigData.2015.7364091.
- Wang Y, Liu J, Misic J, Misic VB, Lv S, Chang X. Assessing optimizer impact on DNN model sensitivity to adversarial examples. IEEE Access 2019; 7: 152766-152776. DOI: 10.1109/ACCESS.2019.2948658.
- Xu D, Zhang S, Zhang H, Mandic DP. Convergence of the RMSProp deep learning method with penalty for noncon-vex optimization. Neural Netw 2021; 139: 17-23. DOI: 10.1016/j.neunet.2021.02.011.
- Melinte DO, Vladareanu L. Facial expressions recognition for human-robot interaction using deep convolutional neural networks with rectified Adam optimizer. Sensors 2020; 20: 2393. DOI: 10.3390/s20082393.
- Noh S-H. Performance comparison of CNN models using gradient flow analysis. Informatics 2021; 8: 53. DOI: 10.3390/informatics8030053.
- Huang Y, Zhang Y, Chambers JA. A Novel Kullback-Leibler divergence minimization-based adaptive student's t-filter. IEEE Trans Signal Process 2019; 67(20): 54175432. DOI: 10.1109/TSP.2019.2939079.
- Asperti, A. Trentin. M. Balancing reconstruction error and Kullback-Leibler divergence in variational autoencoders. IEEE Access 2020; 8: 199440-199448. DOI: 10.1109/ACCESS.2020.3034828.
- Martens J. New insights and perspectives on the natural gradient method. J Mach Learn Res 2020; 21(146): 1-76.
- Ma X. Apollo: An adaptive parameter-wise diagonal quasi-newton method for nonconvex stochastic optimization. arXiv Preprint. 2021. Source: (https://arxiv.org/abs/2009.13586).
- Li W, Montufar G. Natural gradient via optimal transport. Information Geometry 2018; 1: 181-214. DOI: 10.1007/s41884-018-0015-3.
- Alvarez F, Bolte J, Brahic O. Hessian Riemannian gradient flows in convex programming. SIAM 2004; 43(2): 68-73. DOI: 10.1137/S0363012902419977.
- Abdulkadirov RI, Lyakhov PA. Improving extreme search with natural gradient descent using Dirichlet distribution. In Book: Tchernykh A, Alikhanov A, Babenko M, Samoylenko I, eds. Mathematics and its applications in new computer systems. Cham: Springer Nature Switzerland AG; 2022: 19-28. DOI: 10.1007/978-3-030-97020-8_3.
- Graf M. Regression for compositions based on a generalization of the Dirichlet distribution. Stat Methods Appt 2020; 29: 913-936. DOI: 10.1007/s10260-020-00512-y.
- Li Y. Goodness-of-fit tests for Dirichlet distributions with applications. A PhD dissertation. 2015.
- Haykin SS. Neural networks: a comprehensive foundation. Prentice Hall; 1999.
- Aghdam HH, Heravi EJ. Guide to convolutional neural networks: A practical application to traffic-sign detection and classification. Cham: Springer International Publishing AG; 2017.