Методы борьбы с переобучением в нейронных сетях

Бесплатный доступ

Представленная статья посвящена актуальному вопросу из области развития искусственных нейронных сетей, связанного с переобучением. В статье анализируются такие основные сведения о представленной проблеме, как актуальность, а также необходимость и инструменты для ее разрешения. В результате работы автором приводятся одни из наиболее распространенных и эффективных методов, направленных на борьбу с переобучением в нейронных сетях. Автором выделяются принципы работы и основные особенности каждого из представленных метода. В заключение приводится результат работы, а также отмечаются тенденции, связанные с темой представленного исследования. В работе применяются теоретические методы исследования, а также результаты научных исследований зарубежного и отечественного авторства.

Еще

Информационные технологии, искусственные нейронные сети, переобучение, сеть, интеллектуальные технологии

Короткий адрес: https://sciup.org/170194996

IDR: 170194996   |   DOI: 10.24412/2500-1000-2022-7-2-99-103

Текст научной статьи Методы борьбы с переобучением в нейронных сетях

Распространение и становление информационных технологий является фактом в современном мире. Сегмент информационных технологий в течение последних десятилетий определял основные тенденции развития различных профессиональных секторов современного человека, основным из которых является технологический прогресс в целом [1].

Развитие ИТ-рынка является основным направлением среди большинства развитых стран современного мира. Современный технологический прогресс отличается разработкой и становлением различных информационных технологий, способствующих повышению рациональности использования ресурсов и повышению эффективности работы современных предприятий. На сегодняшний день существует огромное множество прикладных и профессиональных задач, наиболее эффективное решение которых предполагает использования различного рода информационных технологий. ИТ-индустрия представляет из себя неотъемлемую часть профессиональной жизни современного человека.

Одной из наиболее значимых технологий из данной отрасли являются искус- ственные нейронные сети (ИНС). Именно посредством данного инструмента на сегодняшний день решаются одни из самых сложных и трудно-вычислимых задач. Несмотря на все свои преимущества, эффективная разработка и использование ИНС затрудняется ввиду возникающих сложностей и задач, одной из которых является переобучения. На сегодняшний день активно используется целое множество методов борьбы с переобучением. Далее в статье будут более подробно рассмотрены одни из наиболее эффективных и распространенных методов борьбы с переобучением в искусственных нейронных сетях.

Переобучение происходит в случае, когда модель пытается предсказать тенденцию в слишком зашумленных данных. Это вызвано сложностью сети, имеющей слишком большое количество параметров. Переобученные ИНС являются неэффективны так как тренд не отражает реальность, представленную в данных. Данный факт подтверждается в том случае, если модель дает верные результаты на тренировочном наборе, но плохо работает на невидимых данных (тестовом наборе). На рисунке 1 зеленой линией показывается пример переобученной модели [2].

Рис. 1. Обработка данных переобученной сетью

Основная цель обучения искусственной нейронной сети состоит в том, чтобы эффективно и правильно обобщать обучающие наборы на любые данные из предметной области. Это является важным фактором, так как основная задача состоит в том, чтобы в будущем модель смогла делать прогнозы на основе данных, которые она никогда раньше не «видела».

Первым шагом при работе с переобучением является уменьшение сложности модели. Чтобы уменьшить сложность, можно просто удалить слои или уменьшить количество нейронов. При этом важно рассчитать входные и выходные размеры различных слоев, задействованных в нейронной сети. Не существует общего правила относительно того, сколько нужно удалить или насколько большой должна быть ваша сеть. Но если нейронная сеть переобучает- ся, первым делом необходимо попробовать ее уменьшить [3].

Ранняя остановка представляет метод регуляризации при обучении модели с помощью итеративного метода, похожего на градиентный спуск. Поскольку все нейронные сети обучаются исключительно с помощью градиентного спуска, ранняя остановка – это метод, применимый ко всем задачам. Данный метод обновляет модель, чтобы она лучше соответствовала обучающим данным с каждой итерацией (рис. 2). До определенного момента это улучшает производительность модели на данных в тестовом наборе. Однако после этого улучшение соответствия модели обучающим данным приводит к увеличению ошибки обобщения. Правило ранней остановки дает представление о том, сколько итераций можно выполнить, прежде чем модель начнет переобучаться.

Рис. 2. Ранняя остановка

Данная техника показана на приведенной выше схеме (рис. 2). Как можно увидеть, после некоторых итераций ошибка теста начала увеличиваться, в то время как ошибка обучения продолжает уменьшаться. Следовательно, модель переобучается. Именно поэтому необходимо останавливать модель в тот момент, когда это начинает происходить [4].

Каждый слой в классической нейронной сети включает в себя множество входов и выходов. Сети обучаются посредством метода обратного распространения ошибки (по батчам). Таким образом, ошибка счи- тается по какому-либо из подмножеств обучающей выборки. Стандартным способом нормировки является рассмотрение для каждого набора элементов батча. Вычитая среднее и деля на дисперсию выборки, получается распределение с центром в 0 и дисперсией 1. Такое распределение позволит сети быстрее обучатся, т.к. все числа получатся одного порядка. Но ещё лучше ввести две переменные для каждого признака.

Разработчики этого метода рекомендовали располагать нормировку для величин перед функцией активации (рис. 3).

Рис. 3. Нормировка для батч нормализации

Но сейчас уже имеются результаты исследований, которые показывают, что этот блок может давать хорошие результаты и после функции активации. Получим среднее, дисперсию. Эти параметры будут входить в алгоритм обратного распространения ошибки. Тем самым получается batch normalization слой с 2*k параметрами, который и будет добавлен в архитектуру предложенной сети для решения тех или иных задач, снижая риск переобучения в нейронной сети.

Основная идея, заложенная в данном методе, заключается в необходимости обучения не одного, а нескольких слоев искусственной нейронной сети с последующим усреднением результатов. Dropout представляет метод регуляризации, который приближается к параллельному обучению большого количества нейронных сетей с различной архитектурой [5].

Графическое представление данного метода представлено на рисунке 4 (a – ИНС до применения метода, b – ИНС после применения Dropout).

Рис. 4. ИНС до и после применения метода

Его можно использовать с большинством типов ИНС, таких как рекуррентных, сверточных и иных. Метод Dropout имеет множество видов и вариаций, каждые из которых являются наиболее подходящими для решения тех или иных практических задач. Также стоит отметить, что данный метод значительно увеличивает скорость обучения, качество обучения на тренировочных данных, а также повышает качество предсказаний модели на новых тестовых данных.

Как было выяснено, искусственные нейронные сети используются в абсолютно различных областях науки. Однако во время их обучения может возникнуть ряд проблем, затрудняющих точность и эффективность при работе ИНС. Одной из таких проблем является переобучение, то есть явление, при котором построенная модель плохо работает на не участвовавших в обучении примерах.

Для решения данной проблемы активно разрабатываются новые и уже давно ис- пользуются на практике различные методы борьбы с переобучением. В рамках данной статьи были рассмотрены одни из наиболее фундаментальных и эффективных методов, реально используемых на практике при создании искусственных нейронных сетей. В результате представленного анализа стоит отметить, что каждый из дан- нако применение того или иного инструмента может отличаться относительно вида и назначения ИНС.

Стоит подчеркнуть, что приведенные в рамках данной статьи методы не являются единственными. На сегодняшний день производятся активные разработки и исследования, направленные на создание наиболее эффективных методов, предотвращающих переобучение в нейронных сетях. Современный технологический прогресс и становление информационных технологий предъявляют серьезные требования к качеству и эффективности работы интеллектуальных решений, одними из которых и являются ИНС. Совокупность данных факторов актуализирует вопрос и необходимость дальнейших исследований в вопросе борьбы с переобучением в нейронных сетях [6-7].

Таким образом, основной целью данной статьи являлось изучение методов борьбы с переобучением в искусственных нейронных сетях. В результате работы были рас- смотрены такие аспекты, как: актуаль ность становления сегмента информаци онных технологий и развития ИНС; актуа лизация проблемы переобучения в ИНС различные методы борьбы с переобучени ем в ИНС. Научная значимость статьи за ключается в систематизации знаний и воз можности использования полученных ре ных методов имеет единое назначение, од- зультатов в последующих исследованиях.

Список литературы Методы борьбы с переобучением в нейронных сетях

  • Афанасьев Д.Ю. Применение аугментации для улучшения качества классификации // StudNet. - 2022. - №4.
  • Пырнова О.А., Зарипова Р.С. Методы и проблемы переобучения многослойной нейронной сети // Казанский государственный энергетический университет. - 2020. - №2.
  • Zemlyansky A.D. Investigation of the architecture of convolutional neural networks for the task of pattern recognition // Bulletin of Science and Education. - 2017. - №6.
  • Астапов Р.Л., Дубатов Р.С. Классификация текстов с помощью сверточных нейронных сетей // Вестник науки. - 2020. - №8.
  • Андреев В.В. Метод остаточного обучения глубоких нейронных сетей // Решетневские чтения. - 2018. - №4.
  • Hermikhanova H.R. Methods of neural network training (some aspects) // Innovative aspects of the development of science and technology. - 2020. - №2.
  • Тихонов А.А. Большие данные и глубокое машинное обучение в искусственных нейронных сетях // Наука и образование сегодня. - 2018. - №6.
Статья научная