Анализ обучения нейронной сети задачам, содержащим скрытую закономерность
Автор: Лоренц В.А., Гавриков В.Л., Хлебопрос Р.Г.
Журнал: Вестник Красноярского государственного аграрного университета @vestnik-kgau
Рубрика: Математика и информатика
Статья в выпуске: 5, 2012 года.
Бесплатный доступ
Анализируется динамика ошибок обучения нейронной сети в процессе решения задач, содержащих скрытую закономерность. Выявлено сходство обучения нейронной сети и способностей животных и человека.
Нейронная сеть, обучение, ошибка, динамика, скрытая закономерность
Короткий адрес: https://sciup.org/14082447
IDR: 14082447
Текст научной статьи Анализ обучения нейронной сети задачам, содержащим скрытую закономерность
Введение . Область науки, специализирующаяся на разработке и исследовании нейронных сетей, развивается в настоящее время очень интенсивно, это обусловлено фундаментальным интересом во всем мире к созданию искусственного интеллекта, а также широким применением нейронных сетей для решения различных практических задач, связанным с уникальным свойством нейросетей решать задачи, не поддающиеся человеческим способностям.
То обстоятельство, что нейронная сеть является совокупностью простых элементов, взаимодействие которых порождает новые свойства, не присущие каждому ее элементу в отдельности, породило идею о потенциальной возможности сопоставления нейронных сетей с природными объектами. Предполагается, что нейросеть может выступать в роли универсального эвристического модельного объекта «живого» и использоваться для выявления общих зависимостей поведения системы от ее структуры и свойств ее компонентов [1].
Среди всех возможных функций, осуществляемых живыми организмами, одной из важнейших является их способность к обучению. Исследовать это эволюционно значимое качество живых систем можно разнообразными способами, и сравнительный подход, включающий параллельное рассмотрение естественных и искусственных адаптивных систем, представляется весьма плодотворным.
Количество публикаций в области исследования обучения живых систем чрезвычайно велико, так как данная тема находится на стыке многих научных дисциплин – нейрофизиологии, психологии, педагогики, математики, нейрокомпьютинга – и каждая из них претендует на особую значимость в сфере исследования обучения. Существует несколько подходов [2,3] к определению понятия обучения, которые можно свести к двум его аспектам: обучение – это, с одной стороны, способность, а с другой – сама динамика процесса.
Исторически исследования обучения берут начало на рубеже XIX–XX веков и основываются на экспериментах с различными животными [4, 5], из которых следовало, что по типу обучения живые существа разделяются на небольшое число классов, которые можно качественно определить, рассматривая временную динамику обучения. Тип «кошка» характеризуется относительно быстрым выявлением животным наиболее грубых своих ошибок и постепенным асимптотическим снижением их общего числа, но при этом количество ошибок никогда не падает до нуля. Описываемая динамика поддается математическому моделированию и анализу относительно простыми средствами [6]. Тип «обезьяна» выделен тем, что динамика обучения в начальный период эксперимента не всегда связана с уменьшением количества ошибок. Однако предполагается, что при этом идет «скрытый процесс обучения», который в определенный непредсказуемый момент заканчивается резким падением количества ошибок до нуля. В дальнейшем число ошибок остается на нулевом уровне, что, вероятно, свидетельствует о «понимании» объектом сути задания.

На сегодняшний день остается открытым вопрос, являются ли эти типы дискретными или допускают плавные переходы между собой. Один из вариантов анализа и моделирования континуальности типов обучения может быть осуществлен на основе теории катастроф [7].
Что касается машинных подходов к решению задач, то создатели нейронных сетей изначально реализовали такой алгоритм работы нейросети, который осуществляет тактику обучения по типу «кошка». Это означает, что нейросеть в процессе обучения минимизирует размер ошибки обучения и только. Соответственно, не предполагается, что нейросеть способна понять принцип или сущность задачи, однако она может приближаться к желаемому результату с достаточно высокой точностью. При таком подходе внимание концентрируется на результате обучения: возможности решить некоторую задачу с ее максимальной точностью. Вместе с тем, глубокое понимание свойств искусственных адаптивных систем и механизмов их обучения, по-видимому, невозможно без анализа динамики их обучения при решении задач различного уровня сложности.
Так как в реальных условиях незнакомой обстановки живые организмы вынуждены учиться отделять значимые сигналы от незначимых, то только адекватная реакция на значимые сигналы дает им возможность решить свою главную задачу – выживание. В нейрокомпьютинге аналогом сигналов среды служат входы нейросети, при этом наличие многих входов у нейронной сети позволяет реализовать такое свойство задачи, как «плохая определенность». Предполагается, что нейросеть «не знает», какой ее вход несет нужную с точки зрения решения задачи информацию.
Экспериментальное исследование динамики обучения нейронных сетей как процесса приобретения «знания» при решении плохо определенных незнакомых проблем, называемых задачами со скрытой закономерностью, является целью настоящей работы.
Методика исследований . В эксперименте была использована надстройка «Модели», реализующая оперативный синтез аналитических моделей, функционирующая в среде MS Excel. В математическом отношении программа осуществляет нелинейную многомерную регрессию, а в качестве интерполирующего метода используется один из вариантов многомерных представлений в виде интегралов Фурье с заменой интегралов конечными суммами. Используемая нейросеть содержит «основной» слой нелинейных элементов типа A·sin(ω·x+φ) и дополнительный слой линейных элементов. При оптимизации используется back propagation, другой частью алгоритма является метод сопряженных градиентов [8].
В работе рассматривается зависимость различных параметров от времени работы нейросети. Роль единичного интервала времени играет «итерация», под которой понимается дискретное изменение весовых коэффициентов нейронной сети. Отслеживаемыми параметрами нейросети являются: ошибка обучения (среднеквадратичное отклонение предсказаний сети от эмпирических входных данных, составляющих обучающую выборку) и ошибка прогноза (аналогичный параметр для тестовых данных, не участвующих в обучении).
Нейросети, формируемой в вышеописанной среде, предлагалось решить задачу распознавания функции sin(x). Значения функции подавались на единственный вход нейронной сети, и они же являлись эталоном, с которым сеть должна была сравнивать прогнозируемые значения. Выбор задания обусловлен требованием наиболее простой задачи со скрытой закономерностью, ход решения которой легче контролировать. На втором этапе сложность задачи увеличивали: на два входа нейронной сети попеременно в случайном порядке подавали значения функции sin(x) и так называемого «зашумленного» синуса, имеющего вид 10·sin(2.5·x+2.5); на выходе нейронной сети предлагалось выдать значения функции sin(x).
Результаты и обсуждение . В поисковых экспериментах установлено, что нейросеть в большинстве случаев демонстрирует обучение, которое можно отнести к типу «кошка», отображенное на рисунке 2.
к 0,0000006

Рис. 2. Динамика обучения нейронной сети с одним входом в большинстве экспериментов (картина при параметрах сети: число нейронов – 2, спектр – 0,1)
Гладкие убывающие кривые зависимости величины ошибки обучения от количества итераций (см. рис. 2) согласуются с теоретическими представлениями об алгоритме поиска решения задачи нейронной сетью. Необходимо отметить, что пологая часть кривой характеризуется очень низкими, но ненулевыми значениями ошибки, так как при компьютерном моделировании нулевые значения ошибки обучения нейросети как таковые алгоритмически не могут возникать.
В небольшом числе случаев наблюдается иная картина обучаемости нейронных сетей, представленная на рисунке 3. Обучение этого типа характеризуется тремя стадиями: а) быстрое уменьшение ошибки на первых итерациях; б) пологая фаза на высоком уровне ошибок, где уровень обучения сети не меняется с ростом числа итераций; в) пологая фаза на низком уровне ошибок, которая, как и на рисунке 2, является асимптотической.

Рис. 3. Динамика обучения нейросети с одним входом в 15% экспериментов (при параметрах сети: число нейронов – 11, спектр – 0,1)
Интересной особенностью такой динамики является резкий скачок от фазы б к фазе в, который означает, что в поиске решения на фазе б нейросеть сначала «зашла в тупик» (каждая следующая итерация не улучшает предсказания). Последующий резкий переход между фазами сродни «озарению» наиболее интеллектуально развитых живых организмов. После выхода на новый уровень «понимания» задачи нейросеть продолжает поиск решения в рамках модели «кошка». Данный эффект является новым в том смысле, что подобное поведение не заложено в алгоритм обучения нейросети, а значит – является следствием взаимодействия элементов ее структуры.

Номер итерации
Рис. 4. Динамика обучения нейронной сети с двумя входами в некоторых случаях (картина при параметрах сети: число нейронов – 25, спектр – 20)
Необходимо отметить, что из-за многообразия полученных динамик дать количественную оценку встречаемости разных типов обучения на втором этапе эксперимента представляется затруднительным. Тем не менее, сравнивая динамику обучения нейросети с двумя входами при решении плохо определенной задачи с большинством кривых обучения для более простой задачи (с одним входом, см. рис. 2), следует отметить, что в некоторых случаях картина их обучаемости качественно совпадает (рис. 4).
Динамика обучения нейронной сети с двумя входами, представленная на рисунке 5, содержит 3 фазы: а) быстрое уменьшение ошибки; б) пологая фаза на высоком уровне ошибок; в) пологая фаза на низком уровне ошибок. В определенном смысле можно полагать, что картина обучаемости приближается к типу «обезьяна», описанному для задачи с одним входом (см. рис. 3).

Рис. 5. Динамика обучения нейронной сети с двумя входами во многих случаях (картина при параметрах сети: число нейронов – 12, спектр – 20)
Самой распространенной формой динамик обучения нейросетей с двумя входами, обучающих решать плохо определенную задачу распознавания синуса на двух входах, является картина, отображенная на рисунке 6. Эта динамика содержит несколько резких переходов между фазами медленного уменьшения ошибки и демонстрирует типичное поведение нейросети в «плохих условиях» для обучения, когда переход на новый «уровень понимания» задачи не позволяет значительно улучшить обучаемость, и сеть совершает новый скачок.

Число итераций
Рис. 6. Динамика обучения нейросети с двумя входами во многих случаях (картина при параметрах сети: число нейронов – 17, спектр – 10)
Остальные картины обучения, полученные для нейросети с двумя входами, могут быть отнесены к перечисленным выше трем типам: обучение по типу «кошка», по типу «обезьяна» либо смешанному типу.
Выводы
Из анализа динамики ошибок обучения нейронной сети в процессе решения задач со скрытой закономерностью следует, что обучение нейросети может происходить согласно типам, выявленным в природе обучения животных, однако имеет ряд особенностей. Выявлено сходство обучения нейросети со способностями животных и человека: эффект резкого выхода на определенный уровень «понимания» нейросетью задачи, сопровождающийся улучшением обучаемости. Обнаруженный эффект предположительно связан с уникальной способностью нейронной сети избегать «застревания» в локальных минимумах многомерной поверхности пространства возможных решений.
Может быть сформулирован принцип проявления описанных типов обучения для обучающихся систем: в нормальных условиях характерно обучение по типу «кошка»; в условиях же «плохой определенности» задачи адаптивные системы чаще прибегают к обучению по типу «обезьяна», при этом «живые» системы могут достигать нулевого значения ошибки, что отличает их от нейросетей. Чем хуже определена задача, тем больше эффектов «озарения» будет демонстрировать динамика обучения искусственных адаптивных систем.