Оптимизация времени обучения нейронных сетей с адаптивными параметрами скорости обучения
Бесплатный доступ
В работе выполнен анализ классического метода градиентного спуска и предложен способ динамического изменения шага обучения на основе вычисляемых параметров τ и p. Основной акцент сделан на алгоритме, который позволяет вычислять оптимальные значения параметров τ и p для минимизации времени обучения. Эксперименты демонстрируют, как изменения этих параметров влияют на скорость обучения для различных топологий нейронных сетей и функций активации. Результаты моделирования показывают, что правильный выбор τ и p может значительно сократить временные затраты при обучении нейронных сетей с фиксированной структурой. Использование этих параметров позволяет улучшить процесс обучения, предотвращая застревание в локальных минимумах и обеспечивая баланс между скоростью обучения и точностью результата. Исследования продемонстрировали эффективность адаптивного подхода при различных топологиях нейронных сетей и функциях активации. Представленные графики и численные расчёты показывают зависимость средней скорости обучения от выбранных параметров.
Нейронная сеть, градиентный спуск, оптимизация, скорость обучения, адаптивные параметры, корректировка
Короткий адрес: https://sciup.org/148331171
IDR: 148331171 | УДК: 004.032.26 | DOI: 10.18137/RNU.V9187.25.02.P.43
Optimization of training time of neural networks with adaptive learning rate parameters
The paper analyzes the classical gradient descent method and suggests a method for dynamically changing the learning step based on the calculated parameters τ and p. The main focus is on an algorithm that allows calculating the optimal values of the parameters τ and p to minimize the training time. The experiments demonstrate how changes in these parameters affect the learning rate for various neural network topologies and activation functions. The simulation results show that the correct choice of τ and p can significantly reduce the time required for training neural networks with a fixed structure. Using these parameters allows to improve the learning process, preventing getting stuck in local minima and ensuring a balance between the learning rate and the accuracy of the result. Research has demonstrated the effectiveness of an adaptive approach for various neural network topologies and activation functions. The presented graphs and numerical calculations show the dependence of the average learning rate on the selected parameters.