Обзор методов оценки неопределенности в офлайн обучении с подкреплением

Автор: Никулин A.П.

Журнал: Труды Московского физико-технического института @trudy-mipt

Статья в выпуске: 3 (67) т.17, 2025 года.

Бесплатный доступ

Офлайн обучение с подкреплением предполагает обучение агента на заранее собранных траекториях без дополнительных взаимодействий со средой, что крайне полезно для практического применения. Однако отказ от интерактивного исследования порождает новый класс сложностей, связанный со сдвигом распределений: поведения, встречающиеся во время работы агента, могут значительно отличаться от тех, что содержатся в тренировочном наборе данных. В статье представлен обзор ключевых методов оценки неопределённости в офлайн обучении с подкреплением, направленных на преодоление проблем сдвига распределений. Рассмотрены два фундаментальных типа неопределённости — эпистемическая, обусловленная ограниченностью данных, и алеаторная, связанная со стохастической природой среды. Методы оценки неопределённости классифицированы по трём основным направлениям: оценка неопределенности для динамики среды, для функции ценности и для политики.

Еще

Офлайн обучение с подкреплением, оценка неопределенности, обзор области

Короткий адрес: https://sciup.org/142245838

IDR: 142245838 | УДК: 004.89

Текст научной статьи Обзор методов оценки неопределенности в офлайн обучении с подкреплением

Офлайн обучение с подкреплением (offline reinforcement learning) нацелено на обучение эффективных ИИ агентов исключительно на основе статических, заранее собранных наборов данных, без какого-либо дополнительного взаимодействия со средой [1,2]. В отличие

(с) Никулин А.П., 2025

(с) Федеральное государственное автономное образовательное учреждение высшего образования «Московский физико-технический институт (пациопальпый исследовательский университет)», 2025

от обучения с учителем, в котором также используются статические наборы данных, задачей агента остается максимизация награды, и, как следствие, возможность значительно превзойти экспертность, заложенную в данных. Таким образом, у инженеров и исследователей появляется возможность использовать «грязные» данные, в которых содержатся примеры как экспертного, так и крайне неоптимального поведения, значительно упрощая сбор данных. Именно это свойство делает область офлайн обучения с подкреплением привлекательной, способствуя бурному развитию и росту популярности в последние годы [1,2].

Несмотря на вводимые ограничения по сравнению с онлайн обучением, подобная постановка задачи крайне полезна для реальных приложений (например, в здравоохранении, автономном вождении, робототехнике, генеративных рекомендациях), где активное и свободное исследование среды агентом стоит дорого или может быть даже опасно. Действительно, ведь в процессе обучения с подкреплением агенту необходимо исследовать среду, постоянно совершая действия, обладающие новизной [4]. Без заранее настроенных протоколов безопасности (что требует немалых усилий) агент может нанести вред себе, окружающему оборудованию или людям [5]. Например, совершить слишком резкое действие, выведя из строя двигатель робота-манипулятора, нарушить правила дорожного движения или порекомендовать небезопасный контент в соцсетях. Собрав статический набор данных в контролируемых условиях, можно избежать подобных проблем, не рискуя оборудованием или чьей-то безопасностью.

Однако отказ от интерактивного исследования порождает новый класс сложностей, главным образом связанный со сдвигом распределений: поведение, встречающееся во время работы агента, могжет значительно отличаться от того, что содержится в тренировочном наборе данных. Ни один конечный набор данных не в состоянии охватить всё многообразие реального мира, и в «малонаселённых» областях пространства состояний-действий модель неизбежно демонстрирует высокую степень неопределённости, что приводит к переоценке действий и потенциально к опасным или неэффективным стратегиям.

Данный обзор посвящён методам оценки неопределённости в офлайн обучении с подкреплением. Подобные методы позволяют оценить доверие к предсказанию действия, функции ценности или следующего состояния. Оценки неопределенности могут далее послужить для сдерживания агента, ограничения выбора действий в зонах с большой неопределенностью, тем самым предотвращая переоценку и нежелательное поведение. Обзор начинается с краткого формального определения задачи офлайн обучения с подкреплением. Далее производится классификация двух фундаментальных типов неопределённости — эписте-мической и алеаторной, а также их места в офлайн обучении с подкреплением (см. и. 3). Наконец, производится систематизация существующих подходов к оценке неопределённости в трёх основных компонентах алгоритмов (см. и. 4): при моделировании динамики среды (см. и. 4.1), при оценке функции ценности (см. и. 4.2) и при построении политики (см. и. 4.3). Итогом обзора является систематизация существующих решений и выделение перспективных направлений.

Обучение с подкреплением основано на формализме марковского процесса принятия решений [6] (Markov Decision Process, MDP) M = (5, A,P,R,y ), где

• 5 — множество состояний среды,
• A — множество действий агента,
• P(s' | s,a) ~ динамика среды (распределение перехода из s в s' при действии а),
• R(s, a, s') — функция вознаграждения,
• у G [0,1) — коэффициент дисконтирования.

В офлайн постановке дается фиксированный датасет Н = {(s«, ад гд s')}^, заранее собранный с помощвю какой-либо поведенческой политики (или смеси политик). Задача заключается в том, чтобв! на основании Н найти политику л(а | s), максимизирующую ожидаемую дисконтированную награду

∞

J (л) = E_T.^р [ ^ ^Rfa, a_t, s_t+1^L t=0

не обращаясь к дополнительной генерации данных в среде [1,2]. При этом необходимо минимизировать риск принятия действий, слабо представленных в Н, во избежание неверных оценок Р или Q-функций. Для обучения многих алгоритмов производится минимизация ошибки Беллмана. Формально, для Q-функции ценности она определяется как

5(s, а} = Q(s, а) - [г(щ а) + у Es‘,a‘ Q(s', а')], и измеряет, насколько текущая оценка Q расходится с её «правильным» таргетом [6].

В области глубокого обучения и обучения с подкреплением в частности, выделяют два фундаментальных вида неопределенности [7,8], а именно эпистемическая (epistemic) и алеаторная (aleatoric).

Эпистемическая неопределённость — неопределенность, возникающая из-за неполноты знаний обучающейся системы (политики), отражающая те аспекты среды, о которых политика не имеет полного представления из-за ограниченности обучающей выборки данных [7-9]. В отличие от алеаторной неопределенности, фундаментальное свойство эписте-мической неопределенности заключается в том, что она может быть уменьшена до нуля при поступлении дополнительных данных. В контексте офлайн обучения с подкреплением эпистемическая неопределенность максимальна в тех областях пространства состояний-действий, которые слабо представлены в обучающей выборке, что, как было замечено во введении, практически невозможно избежать из-за многообразия ситуаций, возникающих в реальном мире. Таким образом, эпистемологическая неопределенность является основным источником проблем, связанных со сдвигом распределения между обучающей выборкой и тестовой средой.

Алеаторная неопределенность — неопределенность, связанная с внутренней случайностью среды, вариативностью исходов или погрешностью измерений [7-9]. Подобную неопределенность невозможно сократить даже при бесконечно большом объеме данных. Более того, даже если динамика среды Р(Pls, а) известна в точности (то есть эпистемическая неопределенность равна нулю), из-за своей стохастической природы, мы всегда будем получать вариативность в будущих состояниях, что и составляет алеаторную неопределенность. В контексте офлайн обучения с подкреплением, алеаторная неопределенность может быть высока даже там, где покрытие данных достаточно и агенту необходимо учитывать ее во время выбора действия.

Оба типа неопределённости играют важные роли в офлайн обучении с подкреплением. Однако ключевой проблемой данной области является эпистемическая неопределенность [3], поскольку неправильная оценка своих действий или функции ценности может привести ко множеству негативных исходов [1,2]: расхождению алгоритма во время обучения, неоптимальному и небезопасному поведению, замедлению сходимости до оптимального результата. Большинство методов придерживаются принципа «пессимизма перед неопределенностью», который гласит, что агент должен действовать пессимистично в зонах высокой неопределенности. Это позволяет бороться с переоценкой предсказанной будущей награды, а также поступать предсказуемым образом, не отходя от поведения, продемонстрированного обучающей выборкой, что крайне полезно для практических применений.

4. Обзор методов оценки неопределенности

Далее мы рассмотрим, как разные семейства алгоритмов, основаннв1е на моделях динамики, на функциях ценности и на политиках, оценивают и используют неопределённость, чтобы решать основные проблемы офлайн обучения с подкреплением.

4.1. Динамики среды

Методы, основанные на модели динамики среды (model-based), напрямую пытаются восстановить функцию динамики Р (s'Is, а), а также воз награждения R(s,a,s') на основе имеющегося набора данных [10]. Далее модель динамики используется для планирования, обучения политики или генерации дополнительных данных. В подобных методах необходимо учитывать эпистемическую неопределённость модели динамики: обученная модель динамики может быть ненадёжна за пределами областей, представленных в данных, что может привести к серьёзным сбоям в планировании, из-за чего политика разойдется.

Классическим и самым популярным методом оценки являются ансамбли [11]. Наиболее известными примерами методов, использующих ансамбли динамик для оценки неопределенности, служат МОРО [12] и MOReL [13], а также их многочисленные более современные аналоги [14]. Подобные методы обучают К нейронных сетей { fg. }f=_1; каждая из которых по входу (s, а) выдаёт предсказание следующего состояния s^ = fg.(s,a) (и, при необходимости, вознаграждения rf. На основе ансамбля определяется мера неопределенности u(s,a). Например, в MOReL каждый член ансамбля предсказывает параметры нормального распределения, а в качестве оценки неопределенности берется максимальная дисперсия среди членов ансамбля. Часто используется также просто усредненная дисперсия или дисперсия средних предсказаний [10, И, 14,15]. Далее, МОРО и MOReL подобные методы штрафуют (или фильтруют) те переходы в данных, для которых u(s, а) велико, подменяя оригинальное вознаграждение г на r_penaii_zed(s, а) = r(s,a) — au(s,a), где а — гиперпараметр степени «пессимизма» в ответ на неопределённость. Фактически конструируется модифицированный марковский процесс принятия решений, в котором переходы в области с высокой неопределённостью приводят к сниженным вознаграждениям. Максимизируя награды в этой «штрафуемой» среде, обучаемая политика поощряется оставаться в тех частях среды, в которых модель уверена в своих прогнозах. Подобным методам надо уделять особое внимание балансированию между оценкой эпистемической и алеаторной неопределенности, что в подробностях разбирается в [11].

Главным недостатком ансамблей являются высокие вычислительные затраты, т.к. приходится обучать в N раз больше моделей, поэтому исследователи ищут альтернативные подходы для оценки неопределенности. Так, RAMBO [16] рассматривает неопределенность с точки зрения теории игр. В RAMBO обучается антагонистическая модель динамики, задача которой — находить наихудшие реалистичные исходы: модель обучается минимизировать функцию ценности (при условии согласованности с офлайн-данными), в то время как политика стремится максимизировать её. Эта двухсторонняя игра с нулевой суммой порождает политику, которая вынуждена планировать в модели динамики, максимально враждебной с точки зрения награды, тем самым формируя робастную стратегию, готовую к наихудшему возможному сценарию, тем не менее совместимому с данными. А именно, вместо штрафа за дисперсию вводят «игру» между политикой л и моделью М:

min ы еМЕ

max Er ^ ^,m[ ^G ⁽ ^t )],

где Че — множество моделей, близких к обучающей выборке, a G(t) — суммарное вознаграждение по эпизоду т. В COMBO [17] не вычисляют u(s,a), а генерируют короткие синтетические траектории через модель динамики и подмешивают их в обучающую выбор- ку. Для таких «синтетических» данных обучают функцию ценности с регуляризацией:

£ = E(s,a)~p [г + 7maxQ(s',a') - Q(s,a)]2 + A E(s,a)~M [Q(s,a) — Qconservative(s, a)] 2, ^ V ^ a V ✓ реальные синтетические где Qconservative берётся как более низкая оценка (например, усеченный минимум по ансамблю). Таким образом, «штраф» за неопределённость реализуется регуляризацией на синтетических данных, не требуя явного вычисления дисперсии.

В качестве оценки неопределенности также можно использовать оценку новизны конкретной пары состояние-действие (s,a). В офлайн обучении с подкреплением оценка новизны помогает в эффективном исследовании среды, однако, если вместо поощрения штрафовать, получится эффективный метод без использования ансамбля, например МоМо [18]. В нем ансамбль заменяется дистилляцией рандомных сетей (random network distillation) [19]. При таком подходе инициализируются две идентичные нейронные сети, предсказательная и таргетная, причем таргетная замораживается и не обновляется во время обучения. Целью же предсказательной сети является предсказать выходы таргетной на входящих данных:

ОД = EUZ9(s,a) - /(s,a)h2.

За счёт того, что после обучения новая (неизведанная) область состояний даёт большую ошибку предсказания, т.к. предсказательная сеть не знает выход таргетной для этих состояний, ошибку можно использовать в качестве оценки новизны: u(s,a) = ll/e (s,a) — /_target(s, a)|². В отличие от ансамбля такой подход требует только две дополнительные сети, значительно ускоряя обучение. При этом на наборе данных D4RL [20, 21], являющимся стандартом оценки методов офлайн обучения с подкреплением, МоМо показывает результаты, сравнимые с другими методами (см. табл. 1).

Таблица!

Агрегация результатов рассмотренных в обзоре методов на наборе данных D4RL. Точные значения взяты (если возможно) из соответствующих оригинальных статей

Dataset	MoReL	MOPO	COMBO	RAMBO	М0М0	TD3-N+BC	MSG	APE-V	SAC-N	EDAC	SAC-RND
halfcheetah- random	25.6	34.4	38.8	40.0	39.6 ± 3.7	-	-	29.9 ± 1.1	28.0 ± 0.9	28.4 ± 0.8	29.0 ± 1.5
hopper-random	53.6	11.7	17.9	21.6	18.3 ± 2.8	—	—	31.3 ± 0.2	31.3 ± 0.0	25.3 ± 10.4	31.3 ± 0.1
walker2d-random	37.3	13.6	7.0	11.5	26.8 ± 3.3	—	—	15.5 ± 8.5	21.7 ± 0.0	16.6 ± 7.0	21.5 ± 0.1
halfcheetah- medium	42.1	42.3	54.2	77.6	77.1 ± 0.9	62.9 ± 0.5	65.6	69.1 ± 0.4	68.2 ± 1.3	67.7 ± 1.0	66.6 ± 1.6
hopper-medium	95.4	28.0	97.2	92.8	110.8 ± 2.3	101.8 ± 4.05	70.4	—	40.82 ± 9.9	101.7 ± 0.3	97.8 ± 2.3
walker 2 d- medium	77.8	17.8	81.9	86.9	95.0 ± 1.4	98.2 ± 1.33	78.9	90.3 ± 1.6	87.5 ± 0.7	93.4 ± 1.4	91.6 ± 2.8
halfcheetah- medium- replay	40.2	53.1	55.1	68.9	72.9 ± 1.8	61.4 ± 0.58	59.2	64.6 ± 0.9	60.7 ± 1.0	62.1 ± 1.1	54.9 ±0.6
hopper-me dium-repl ay	93.6	67.5	89.5	96.6	104.0 ± 1.8	99.7 ± 0.72	62.5	98.5 ± 0.5	100.3 ± 0.8	99.7 ± 0.8	100.5 ± 1.0
walker 2 d- me dium- re play	49.8	39.0	56.0	85.0	90.4 ± 7.7	86.9 ± 2.17	81.1	82.9 ± 0.4	79.0 ± 0.5	87.1 ± 2.8	88.7 ± 7.7
halfchee tah- medium- expert	53.3	63.3	90.0	93.7	107.9 ± 1.9	93.6 ± 8.39	93.7	101.4 ± 1.4	99.0 ± 9.3	104.8 ± 0.6	107.6 ± 2.8
hopper-medium-expert	108.7	23.7	111.1	83.3	109.1 ± 0.4	88.6 ± 23.8	80.5	105.7 ± 3.7	101.3 ± 11.6	105.2 ± 10.1	109.8 ± 0.6
walker2d-medium-expert	95.6	44.6	103.3	68.3	118.4 ± 0.9	115.9 ± 0.77	106.9	110.0 ± 1.5	114.9 ± 0.4	114.8 ± 0.7	105.0 ± 7.9

4.2. Функция ценности

Самым многочисленным и популярным классом методов обучения с подкреплением являются алгоритмы, основанные на функции ценности, а также минимизации ошибки Беллмана. Такие алгоритмы, как DQN [22], DDPG [23], SAC [24], TD3 [25], лежат в основе самых громких достижений области. Однако они не переносятся без изменений в постановку офлайн обучения. Основная причина - переоценка действий, которых нет в да-тасете: офлайн-набор содержит только тройки (s,a,s'), а следующего действия a' нет, и при попытке оценить Q(s, a') нейросеть выдает «произвольное» (часто слишком оптимистичное) значение. Такая случайная переоценка нескольких неизведанных действий ведёт к взрывному росту ошибки. Поэтому в офлайн обучении с подкреплением большинство методов вводят консервативноств — занижают Q-оценки для потенциалвно «неизвестных» действий, чтобы удержать политику в зонах, близких к обучающей выборке.

Аналогично методам, основанным на функции динамики, самым популярным способом оценить неопределенность являются ансамбли, однако применяются они для минимизации ошибки Беллмана. Поскольку проблема возникает в функции ценности при подсчете таргета для ошибки Беллмана:

Jq (Qp) • — Е(8,а,«‘)~Р ^Qp('®,®) (^(А ®) + 7 Ea'^^-g (•|s‘)[ Qp‘ (•8,0 )])^ j, то в SAC-N и EDAC [26] методах, чтобы добавить пессимизма в незнакомых состояниях-действиях, обучается N функций ценности. Во время подсчета ошибки для обновления берется минимум из предсказаний ансамбля min^i,...^ Qp4 (s’, a‘). В EDAC показывается, что взятие минимума эквивалентно:

E Uminw^(s,o)]

N - ? \

m(s,a) - Ф ( N - ^ + 1 ^(5,а), где m,a это среднее и дисперсия ансамбля соответственно. Таким образом, мы неявно штрафуем предсказание ценности в регионах, где наибольшая неопределенность, т.к. в таком случае дисперсия будет больше. Вместо взятия минимума можно считать среднее и дисперсию явно, однако это вводит дополнительный гиперпараметр на месте константы, в то время как взятие минимума вычислительно проще.

Регуляризация с помощью ансамблей на практике оказывается не только самой простой в техническом плане, но и крайне эффективной на практике. SAC-N и EDAC до сих пор занимают высокие позиции по результатам на D4RL [20,21], общепринятом наборе данных для оценки алгоритмов офлайн обучения с подкреплением (см. табл. 1). Тем не менее даже при кажущейся простоте небольшие детали имплементации алгоритмов могут сильно влиять на итоговый результат. Например, в отличие от SAC-N, EDAC добавляет дополнительный компонент в функцию ошибки, поощряющий разнообразие ансамбля, что позволяет значительно уменьшить количество членов в ансамбле без потери качества. Важно также и то, как ансамбль обучается. В MSG [27] авторы обнаруживают парадоксальный результат. Если обучать каждого члена ансамбля предсказывать минимум ансамбля, то итоговый результат может оказаться, наоборот, оптимистичным. В MSG разделяют таргетные значения таким образом, что каждый член ансамбля минимизирует ошибку Беллмана, посчитанную только по значениям его самого же. Однако для обучения агента все еще используется минимум по ансамблю, тем самым сохраняя пессимизм. Как показывают эксперименты, подобная схема обучения значительно улучшает результаты.

Помимо ансамблей, в методах, основанных на ценностей функции, применяются и другие способы оценки неопределенности: байесовские нейронные сети для Q-функции [28], методика дропаута (Monte-Carlo dropout) [29] или набирающие популярность диффузионные модели [30]. Аналогично подходам, основанным на динамике, применяются методы антиисследования, когда функция ценности штрафуется за новизну действия, а не неопределенность. SAC-RND [31] показывает результаты, сравнимые с ансамблями, но обучается гораздо быстрее, т.к. требует только две дополнительные нейронные сети. Тем не менее ансамбли остаются самым популярным и эффективным решением, т.к. при хорошем результате крайне просты в имплементации.

4.3. Функция политики

Методы, использующие оценки неопределенности для функции политики (агента), сравнительно немногочисленны, и в нее попадают преимущественно алгоритмы с комбинированным подходом, т.к. регуляризация агента без регуляризации функции ценности зачастую неэффективна.

В TD3-N+BC [32] также используется ансамбль функций ценности, однако отличается способ его использования. Во время обучения учатся два агента, где один максимизирует функцию ценности, а второй минимизирует ошибку предсказания действий из обучающих данных. Далее, в среде по мере выбора действий происходит оценка эпистемической и алеаторной неопределенности. Если она превышает некоторый порог, то агенты меняются, и действия начинает выбирать агент, который обучался предсказывать действия из данных. Таким образом контролируется и сдерживается степень отклонения поведения от содержащегося в обучающих данных. Похожий подход применяется также в APE-V [33] и CCVL [34]. В CCVL во время обучения функций ценности происходит обусловливание на различные уровни неопределенности, поэтому после обучения можно получать предсказания награды для любого уровня уверенности. С помощью такой функции ценности можно также контролировать выбор действий агентом в среде, корректируя поведение либо делая его более консервативным, либо более оптимистичным, относительно знаний, выученных агентом из обучающей выборки. APE-V использует байесовскую интерпретацию и учит ансамбль функций ценности, чтобы оценить априорное распределение динамики, а агент во время действий в среде учится адаптивно обновлять свою оценку по истории предыдущих состояний, так чтобы аппроксимировать байес-оптимальную политику. Результаты на D4RL показывают, что только пессимизма в оценке ценности недостаточно, важно, чтобы агент мог адаптивно принимать решения в среде на основе оценок эпистемической неопределенности: в знакомых ситуациях агрессивно максимизировать награду, а в незнакомых осторожно придерживаться знакомых стратегий.

5. Заключение

В офлайн обучении с подкреплением ключевым остаётся контроль эпистемической неопределённости для избежания переоценки и небезопасного поведения. Ансамбли моделей динамики и Q-функций ценности продолжают оставаться самым популярным способом из-за простоты и эффективности, однако их вычислительная тяжесть стимулирует разработку новых подходов. Можно выделить следующие перспективные направления:

• Объединение подходов model-based и value-based для более точной калибровки неопределённости.
• Развитие байесовских и контрастивных методов для уменьшения числа нужных моделей в ансамбле.
• Адаптивное управление пессимизмом во время выполнения политики на основе онлайн-мониторинга уверенности.

Систематизация существующих методов и понимание компромиссов между точностью оценки и вычислительной сложностью поможет в дальнейшем продвижении практических приложений офлайн обучения с подкреплением, от автономных систем до рекомендаций и медицины.