Обучение с подкреплением: введение

Автор: Ротова О.М., Шибанова А.Д.

Журнал: Теория и практика современной науки @modern-j

Рубрика: Математика, информатика и инженерия

Статья в выпуске: 1 (55), 2020 года.

Бесплатный доступ

В данной статье рассмотрены основные положения алгоритма машинного обучения с подкреплением. Сформулированы модели обучения с подкреплением. Также рассмотрены три фундаментальные проблемы, которые обучение с подкреплением должно решить: компромисс между исследованием и эксплуатацией, проблема отсроченного вознаграждения и необходимость обобщения.

Искусственный интеллект, машинное обучение, обучение с подкреплением, марковские процессы принятия решений, переходы состояний, вознаграждение

Короткий адрес: https://sciup.org/140275028

IDR: 140275028

Текст научной статьи Обучение с подкреплением: введение

Обучение с подкреплением – это задача заставить ИИ (искусственный интеллект) действовать в реальном мире так, чтобы максимизировать его вознаграждение. Например, вы можете научить собаку новой команде: вы не можете сказать ей, что делать, но вы можете вознаградить ее или наказать, если она делает правильные или неправильные вещи соответственно. Собака должна выяснить, что она сделала, что заставило ее получить вознаграждение или наказание. Это явление известно как вопрос определения ответственности за конечный результат. Мы можем использовать подобный метод при обучении компьютеров выполнению многих задач, таких как игра в шахматы или нарды, планирование заданий и управление конечностями робота.

Мы можем сформулировать задачу обучения с подкреплением следующим образом. Среда моделируется как стохастическая конечная машина с входными данными (действия, посылаемые агентом) и выходными (наблюдения и вознаграждения, посылаемые агенту)

• Функция перехода состояния P(X(t)| X(t-1), A(t));
• Функция наблюдения (вывода) P(Y(t)|X(t), A(t));
• Функция вознаграждения E(R(t)| X(t), A(t)).

(Обратите внимание: то, что видит агент, не зависит от того, что он делает. Это отражает тот факт, что восприятие является активным процессом.) Агент также моделируется как стохастическая конечная машина с входными данными (наблюдения или награды, отправленные из среды) и выходными данными (действия, отправленные в среду).

• Функция перехода состояния: S(t) = f(S(t-1), Y(t), R(t), A(t));
• Функция политики/выхода: A(t)=n(S(t)).

Цель агента состоит в том, чтобы найти политику и функцию обновления состояния, чтобы максимизировать ожидаемую сумму вознаграждения

E (R0+yR1+y2R2+_] = E ^t=0YtRt, где 0<=γ<=1 – дисконтирующий множитель, который моделирует факт того, что будущее вознаграждение стоит меньше, чем немедленное вознаграждение (потому что завтра вы можете умереть).

(Математически, нам нужна γ<1, чтобы сделать бесконечную сумму сходящейся, если среда не имеет поглощающих состояний с нулевым вознаграждением.)

Среда

Рис. 1 (Переходы состояний)

В особой ситуации, когда Y(t)=X(t), мы говорим, что мир является полностью наблюдаемым, и модель становится марковским процессом

принятия решений (MDP). В таком случае, агенту не требуется никакого внутреннего состояния (памяти) для оптимального действия. В более реалистичном случае, когда агент видит только часть состояния мира, модель называется частично наблюдаемым MDP (POMDP).

MDP

Марковский процесс принятия решений (MDP) подобен цепи Маркова, за исключением того, что матрица перехода зависит от действия, которое предпринимает принимающий решение агент на каждом временном шаге [1]. Агент получает вознаграждение, которое зависит от действия и состояния. Цель состоит в том, чтобы найти функцию, называемую политикой, которая определяет, какое действие предпринять в каждом состоянии, чтобы максимизировать некоторую другую функцию (например, среднюю или ожидаемую дисконтированную сумму) последовательности вознаграждений. Можно сформулировать это в терминах уравнения Беллмана, которое может быть решено итеративно с помощью итерации политики. Единственной фиксированной точкой этого уравнения является оптимальная политика.

Конкретнее, определим матрицу перехода и функции вознаграждения следующим образом:

T (s, a, s') = P [S(t+1)=s' | S(t)=s, A(t)=a];

R (s, a, s') = E [R(t+1) | S(t)=a, A(t)=a, S(t+1)=s'].

(Предполагаем, что состояния, действия и время дискретны. Непрерывные MDP также могут быть определены, но обычно они решаются путем дискретизации.)

Определим значение выполнения действия а в состояниях следующим образом:

Q (s, a) = 5 $' T⁽s, a, s') [R(s, a, s')+ yV(s')]

где 0<=у<=1 - сумма, на которую мы дисконтируем будущие вознаграждения, а V(s) - общее значение состояний, заданное уравнением Беллмана:

V(s) = maxQ(s,a) = max5$'T(s,a,s') [R(s,a,s') + yV(s')] a a

Другими словами, ценность состояния - это максимальная ожидаемая награда, которую мы получим в этом состоянии, плюс ожидаемая дисконтированная стоимость всех возможных состояний-преемников, s' . Если определить

R (s, a) = E [R(s, a, s')] = 5{$'} T(s, a, s')R(s, a, s'), то приведенное выше уравнение упрощается до более распространенной формы:

V(s) = max R (s, a) + 5$' T(s, a, s') yV(s') a

которая для фиксированной политики и табличного (непараметрического) представления функций V, Q, T, R может быть переписана в матрично-векторной форме как V = R+ y TV. Решение этих n совместных уравнений называется определением значения (n - число состояний).

Если V, Q удовлетворяют уравнению Беллмана, то «жадная» политика p(s) = arg max Q(s, a) a оптимальна. Если нет, мы можем установить p(s) к arg max Q(s, а) и a повторно оценить V (и, следовательно, Q) и повторить вычисления. Это называется итерацией политики и гарантированно сходится к уникальной оптимальной политике. На практике число шагов равно O(n). Формулируя проблему в виде линейной задачи, можно доказать, что оптимальную политику можно найти за полиномиальное время.

Для приложений ИИ состояние обычно определяется в терминах переменных состояния. Если существует k двоичных переменных, то существует n = 2k состояний. Как правило, существуют некоторые независимости между этими переменными, так что функции T, R (и функции V, Q) структурированы; это может быть представлено с помощью динамической байесовской сети (DBN), которая похожа на вероятностную версию линейного правила, используемого в классическом планировании ИИ.

Обучение с подкреплением

Если мы знаем модель (т. е. функции перехода и вознаграждения), мы можем найти оптимальную политику примерно за n2 времени, используя итерацию политики. К сожалению, если состояние состоит из k двоичных переменных состояний, то n = 2k, что слишком медленно. Кроме того, что мы делаем, если модель неизвестна?

Обучение с подкреплением (RL) решает обе проблемы: мы можем приблизительно решить MDP, заменив сумму по всем состояниям приближением Монте-Карло. Другими словами, мы только обновляем функции V, Q (используя методы временной разницы) для состояний, которые фактически посещаются во время действия в мире. Если мы будем следить за совершенными переходами и полученными наградами, мы также сможем оценить модель, а затем "смоделировать" эффекты действий, не выполняя их на самом деле.

Есть три фундаментальные проблемы, которые RL должно решать: компромисс между исследованием и эксплуатацией, проблема отсроченного вознаграждения (присвоение кредита) и необходимость обобщения [2]. Мы обсудим каждый по очереди.

Мы упоминали, что в RL агент должен создавать траектории через пространство состояний для сбора статистики. Компромисс между исследованием и эксплуатацией заключается в следующем: должны ли мы исследовать новые (и потенциально более полезные) состояния или придерживаться того, что мы знаем, чтобы быть хорошими (использовать существующие знания)? Эта проблема была широко изучена в случае k-вооруженных бандитов, которые являются MDP с одним состоянием и k действиями. Цель состоит в том, чтобы выбрать оптимальное действие для выполнения в этом состоянии, что аналогично решению, какой из рычагов тянуть в случае k-вооруженного бандита (в игровом автомате).

Проблема отсроченного вознаграждения хорошо иллюстрируется такими играми, как шахматы или нарды. Игрок (агент) делает много ходов и получает вознаграждение или наказание только в конце игры. Какой ход в этой длинной последовательности поспособствовал победе или поражению? Это называется проблемой присвоения кредита. Мы можем решить ее, по существу, выполнив стохастический градиентный спуск по уравнению Беллмана, используя обратное распространение сигнала вознаграждения по траектории и усреднение по многим испытаниям. Это называется изучением временных различий.

Принципиально невозможно узнать значение состояния до того, как будет получен сигнал вознаграждения. В больших пространствах состояний случайное исследование может занять много времени, чтобы достичь полезного состояния. Единственное решение - определить действия более высокого уровня, которые могут достичь цели быстрее. Каноническим примером является путешествие: чтобы добраться из Москвы в Санкт-Петербург, я сначала планирую действия на высоком уровне (я решаю ехать на поезде, например), затем на более низком уровне (я еду на вокзал), затем на еще более низком уровне (как я передвигаю ноги) и т. д. Автоматическое изучение иерархий действий (временная абстракция) в настоящее время является очень активной областью исследований.

Последняя проблема, которую мы обсудим - обобщение. Учитывая, что мы можем посетить только подмножество (экспоненциального числа) состояний, как можно узнать значение всех состояний? Наиболее распространенным подходом является аппроксимация функций Q, V с использованием нейронной сети. Более перспективный подход использует факторную структуру модели, чтобы обеспечить безопасную абстракцию состояния.

Было несколько успешных применений RL. Наиболее известным, вероятно, является Tesauro's TD-gammon, который научился играть в нарды чрезвычайно хорошо, используя аппроксиматор функций нейронной сети и временную разницу. Другие применения включали в себя управление конечностями робота и различные проблемы планирования. Тем не менее, это все еще очень простые проблемы по стандартам ИИ и требуют много человеческой инженерии; мы далеки от мечты о полностью автономных учебных агентах.

Частично наблюдаемые MDP (POMDP)

MDP предполагают, что агенту видно полное состояние мира. Это явно очень нереалистично (представьте себе робота в комнате с ограждающими стенами: он не может видеть состояние мира за пределами комнаты). POMDP моделируют информацию, доступную агенту, задавая функцию из скрытого состояния в наблюдаемое [3]. Цель теперь состоит в том, чтобы найти отображение от наблюдений (не состояний) к действиям. К сожалению, наблюдения не являются Марковскими (потому что два разных состояния могут выглядеть одинаково), что делает недействительными все методы решения MDP. Оптимальным решением этой задачи является построение MDP состояния веры, где состояние веры - это распределение вероятностей по состояниям.

Теория управления занимается решением POMDP, но на практике теоретики управления делают сильные предположения о природе модели (обычно линейно-Гауссовой) и функции вознаграждения (обычно отрицательной квадратичной потери), чтобы иметь возможность сделать теоретические гарантии оптимальности. Напротив, оптимальное решение общего дискретного POMDP является трудноразрешимым. Поиск приемлемых частных случаев (например, структурированных моделей) является актуальной темой для исследования.

Модели первого порядка

Основным ограничением (частично наблюдаемых) марковских процессов принятия решений является то, что они моделируют мир в терминах набора переменных состояния фиксированного размера, каждая из которых может принимать определенные значения, например true и false или -1.2. Они называются пропозициональными моделями. Казалось бы, более естественно использовать модель первого порядка, которая допускает (переменное число) объектов и отношений. Однако, это достаточно актуальная исследовательская проблема.

Заключение

Обучение с подкреплением – это метод, показывающий «чудеса» машинного обучения, когда модель, ничего не зная об окружающей среде, обучается и находит оптимальное состояние, при котором награда за действия максимальна, причем награда присуждается не сразу, за какое-либо действие, а за последовательность действий.

Этот метод будет активно использоваться в различных областях еще долгое время, ввиду его высокой эффективности и относительной простоты.

Список литературы Обучение с подкреплением: введение

Баранов В.В. Процессы принятия управляющих решений, мотивированных интересами. ФИЗМАТЛИТ, 2005. - 296c.
Саттон Ричард С., Барто Эндрю Г. Обучение с подкреплением. Бином. Лаборатория знаний, 2017. - 400с.
Mahdi Naser-Moghadasi. The Incremental Pruning Filters for POMDPs - Past Present Future. LAP LAMBERT Academic Publishing, 2012. - 68с.

Статья научная