О связи имитационной логит-динамики в популяционной теории игр и метода зеркального спуска в онлайн оптимизации на примере задачи выбора кратчайшего маршрута

Автор: Гасников А.В., Лагуновская А.А., Морозова Л.Э.

Журнал: Труды Московского физико-технического института @trudy-mipt

Рубрика: Доклады

Статья в выпуске: 4 (28) т.7, 2015 года.

Бесплатный доступ

В работе описывается метод зеркального спуска для задач стохастической онлайн оптимизации на симплексе и прямом произведении симплексов. На базе этого метода строятся оптимальные стратегии пользователей транспортной сети при выборе маршрутов следования. Поведение всех пользователей, действующих согласно таким стратегиям, порождает имитационную логит-динамику в популяционной игре, соответствующей модели Бэкмана равновесного распределения потоков по путям. Таким образом, на конкретном примере (The Shortest Path Problem) в работе показывается связь онлайн оптимизации и популяционной теории игр. Обнаружение отмеченной связи составляет основной результат данной работы.

Еще

Короткий адрес: https://sciup.org/142186090

IDR: 142186090

Текст научной статьи О связи имитационной логит-динамики в популяционной теории игр и метода зеркального спуска в онлайн оптимизации на примере задачи выбора кратчайшего маршрута

  • 1.    Введение

  • 2.    Метод зеркального спуска для задач стохастической онлайн оптимизации с неточным оракулом

В литературе по онлайн оптимизации почетное место занимает так называемая «Задача о выборе кратчайшего пути» («The Shortest Path Problem»), см., например, п. 5.4 [1]. Основной результат здесь заключается в описании «оптимальной» стратегии пользователя транспортной сети (на базе алгоритма «Follow the Perturbed Leader»), из дня в день выбирающего маршрут следования, исходя из истории загрузок графа транспортной сети.

В литературе по равновесной теории транспортных потоков наиболее популярными являются модели равновесного распределения потоков по путям. Одной из первых (и по-прежнему наиболее популярных) моделей такого рода является модель Бекмана [2] (также называемая BMW-моделью). Современные исследования этой модели связаны с ее пониманием как популяционной игры загрузок (как следствие, потенциальной игры [3]), поиск равновесия (Нэша) в которой сводится к задаче выпуклой оптимизации. Упомянутый эволюционный подход, в частности, приводит к изучению различных естественных динамик (наилучших ответов, репликаторов, имитационной логит-динамики и др.), отражающих «нащупывание» пользователями транспортной сети равновесия [4]. Все эти динамики положительно коррелированы с антиградиентной динамикой, поэтому все они приводят в конечном итоге к одному и тому же равновесию (или в более общем случае к одному и тому же множеству равновесий). Тем не менее возникает желание глубже разобраться с природой этих динамик, понять, чем та или иная динамика дополнительно (помимо отражения рациональности игроков/пользователей транспортной сети) примечательна.

В данной работе мы постараемся изложить, чем примечательна имитационная логит-динамика, пояснив ее связь с алгоритмом поведения «Follow the Perturbed Leader», а точнее, с переформулировкой этого алгоритма на языке современной выпуклой онлайн оптимизации: с методом зеркального спуска [5–11].

В разделе 2 статьи описаны различные варианты классического метода зеркального спуска применительно к задачам стохастической онлайн оптимизации с шумами. Ввиду последующих приложений мы сосредоточимся на множествах вида симплекса и прямого произведения симплексов. Хотя во многом эти результаты ранее были известны, тем не менее в такой общности, в которой они приведены в данной статье, нам не удалось найти точной ссылки, поэтому было решено посвятить этому отдельный раздел 2. В разделе 3 мы используем результаты раздела 2 (в данной статье не в максимальной общности) для объяснения имитационной логит-динамики, возникающей при описании поведения пользователей транспортной сети в модели Бекмана.

Сформулируем основную задачу стохастической онлайн оптимизации с неточным оракулом. Требуется подобрать последовательность {ж^} G Q так, чтобы минимизировать псевдорегрет [6–11]:

  • 1    N                 1 N

Regret tv ({ffe ( ) } , {ж/г}) = — ^ f k (V) - m a in — ^ f k (ж)             (1)

  • V k=1            x 4 N k =1

на основе доступной информации:

{Vx/1 (ж1^1) ;...; VxA-1 (ж^Леfc-1)} при расчете жк. Причем выполнено условие :1

  • 1)    для любых к = 1,..., — (S fc -1 - сигма алгебра, порожденная е 1 , • • •, е^ -1 )

\\v xfk ( х к к) -V / к х Лк) ||* 6 5, E ■ \к к )] = V / к к ) .

Здесь случайные величины {^к} могут считаться независимыми и одинаково распределенными. Онлайновость постановки задачи допускает, что на каждом шаге к функция /к ( ) может выбираться из рассматриваемого класса функций враждебно по отношению к используемому нами методу генерации последовательности {хк}. В частности, /к ( ) может зависеть от

{ж 1 1 ,/ 1 ( );...; Ж к - 1 ,^ к -1 ,/к - 1 ( );х к} .

Относительно класса функций, из которого выбираются { / к ( ) } , в данной работе будем предполагать выполненными следующие условия :

  • 2)    { / к ( ) }  - выпуклые функции;

  • 3)    для любых к = 1,..., N , х Е Q

v . (х,е)\ \ 2 2 .

Опишем метод зеркального спуска для решения задачи (1) (здесь можно следовать огромному числу литературных источников, мы в основном будем следовать работам [12, 13]). Введем норму |||| в прямом пространстве (сопряженную норму будем обозначать ||П*) и прокс-функцию d (х), сильно выпуклую относительно этой нормы, с константой сильной выпуклости не меньше 1. Выберем точку старта х1 = arg mind (х), XEQ считаем, что d (х1) = Vd (х1) = 0.

Введем брэгмановское «расстояние»

V x (у) = d (у) - d (х) - (V d (х), у - х} .

Везде в дальнейшем будем считать, что d (х) = Vxi (х) 6 В для всех х Е Q.

Определим оператор «проектирования» согласно этому расстоянию:

Mirrx k (9) = arg m l in { ( 9, У -хк) + V x k (у) } .

Метод зеркального спуска (МЗС) для задачи (1) будет иметь вид, см., например, [13]:

х k +1 =Mirr x k (a V x / к к , ^ к )) , к = 1,..., N.

Тогда при выполнении условии (2) для любого и Е Q, к = 0,..., N 1 имеет место неравенство, см., например, [13]:

а ( V x/к (х к , Е ) , хк - и ) 6 ^ || V x / к ^ , Е ) 112 + V x k (и) - V x k +1 (и).

2/2

Это неравенство несложно получить в случае евклидовой прокс-структуры d (х) = | х |

  • [14]    (в этом случае МЗС для задачи (1) есть просто вариант обычного метода проекции

градиента). Разделим сначала выписанное неравенство на а и возьмем условное математическое ожидание E^k+i [ • | Нк], затем просуммируем то, что получится по к = 1,...,N, используя условие 1. Затем возьмем от того, что получилось при суммировании, полное математическое ожидание, учитывая условие 3. В итоге, выбирая и = ж* (решение задачи

N

52 f k (ж) ^ min), получим при условиях 1, 2, 4 [11]:

к =1     №

N Е [RegretN ( { fk ( ) } , {ж к })] 6 ^^ - + Q м 2 а + R 8^n 6

6?+( 2м 2 “+R6)N- выбирая2

R р2 а = М\N, получим

Е [RegretN ( { fk( ) } , {ж к })] 6 MRJ Nn + R 5.

Немного более аккуратные рассуждения (использующие неравенство Азума–Хефдинга) позволяют уточнить оценку (2) следующим образом (см., например, [15]):

RegretN ( { fk ( ) } , {ж к }) 6 Ма^2 (R + 2jR VM ^ 1 )) -I           (3)

с вероятностью не меньше 1 ст.

Оценки (2), (3) являются неулучшаемыми с точностью до мультипликативного числового множителя. Причем верно это и для детерминированных (не стохастических) постановок, в которых нет шумов (5 = 0), при этом можно ограничиться классом линейных функций [1].

Рассмотрим три примера, которые понадобятся нам в дальнейшем [11, 15].

Пример 1 (симплекс). Предположим, что

Q = S n (1) =

0:

п         Л

Еж. = 1 .

. =1        )

Выберем

п

IHI = IH^, d (ж) = 1n n + У^ж. 1п ж..

. =1

Тогда МЗС примет следующий вид (а = М 1 ^21n n /N):

ж1 = 1/n,   г = 1,..., n, при к = 1,..., N, г = 1,..., n

( А дЛ(жг ,§г )\         к (    8Jk(xk^k )\ exp |^— ^ а)      жк exp -а  vd$1   )

е( 5^ о8^( х Т ,^ Г) ^ 5^ ж к exп (— а Э ^ к ( ж к ,^ к ) А Zx^ exp I 2_^а —s^i— ) ^ж/ exp а Эх і J

Оценки псевдорегрета будут иметь вид

Е [RegretN ( { fk ( ) } , {ж к })] 6 М^ ^N^ + 2 5,

RegretTV ( { /к ( ) } , {x k }) 6 M\PN ( ^ inn + Win (ст 1 )) + 25 с вероятностью не меньше 1 с.

Пример 2 (прямое произведение симплексов). Предположим, что x = (z1,

..

.,<) e Q

m

= П S n 3 (d j ).

j=1

Выберем

m

0 x 0 = . £ V 0 1 , N 3=1

d (x)=£ m(a j =1

n NA d3 (z 3 ) = d j in n + £ ln (dj) ■

Тогда, вводя обозначения

R p2 a = mN N,

R 2

m

£ d2 in nj, j=1

МЗС можно записать следующим образом:

4 = d j / n j ,

г = 1, ...,n j ,

при к = 1,..., N, г = 1, ...,n j , j = 1,..., m

3,к +1 A

= d j

( к exp X a \ r=1

^3 ,^ ) dz i

)

x ^ exp

n      к   к

X exP — X a

1=1      \ r=1

->Г'хл

8z i

— = dj —

\

)

/1=1

-- a ^

k (    9Jk (xk,^ )\ ■ x exp (-a N )

Оценки псевдорегрета будут иметь вид

Е

R R egretv ({/к ( ) } ,

m

{x; k })] 6H N А £ d j ln n j +25 \ j=1

N

m

£ d2, j=1

Regretv { /fk ( ) } ,

m

{x k }) 6Mv n (\£ d 2 ln

\ N з =1

m nj+4^ £ d2 vin(c-1)

+ 25^

m

£ dj j=1

с вероятностью не меньше 1 т.

Пример 3 (выбор среди вершин симплекса). Вернемся к примеру 1 и будем дополнительно считать, что по условию задачи {xk} должны выбираться среди вершин единичного симплекса S n (1). Так же, как и раньше, онлайновость постановки задачи допускает, что на каждом шаге к функция / к может подбираться из рассматриваемого класса функций враждебно по отношению к используемому нами методу генерации последовательности {x^1}. В частности, / к может зависеть от

{x1,^1,/1(•); ...;xk-1,^k-1,/k-1(•)} и даже от распределения вероятностей рк, согласно которому осуществляется выбор x/c. Чтобы можно было работать с таким классом задач, нам придется наложить дополнительные условия :

  • 4)    /к (x) = (Jk ,x), к = 1,...,N.

  • 5)    На каждом шаге генерирование случайной величины ж к согласно распределению вероятностей р к осуществляется независимо ни от чего. Выбор /к осуществляется без знания реализации ж к .

Следуя примеру 1, положим р 1 = ж 1 = ^, г = 1, ...,п. При к = 1, ...,N , г = 1, ...,п согласно распределению вероятностей (а = М -1 ^ 2lnn/N)

( А эДх' ,0 Л      к (  эЦхк Д А exp — £ а 1             Pi exP —а   дхг рк+1 = ____£^=________/  = ______V/

*     £ ex"P (— Д “■)   gP-'exP (-«')’ генерируем случайную величину г (к + 1) и полагаем ж^+і) = 1, жк+1 = 0, j = г (к + 1).

Оценки псевдорегрета будут иметь вид

Е [Regret^ ( { /к ( ) } , {ж к })] 6 М ^2 n " + 25,

Regret V ({/к ( ) } , {ж к }) 6 M^N ( V lnn + б^іп (ст -1 )) + 25

  • с вероятностью не меньше 1 ст.

  • 3.    Приложение к задаче о выборе кратчайшего пути

Рассмотрим транспортную сеть, которую будем представлять ориентированным графом ( V,E ) , где V - множество вершин, а Е - множество ребер. Обозначим множество пар источник-сток через OD С V 0 V ( | OD | = m); d w - корреспонденция, отвечающая паре w; ж р - поток по пути р; P w - множество путей, отвечающих корреспонденции w, Р = U P w w e OD - множество всех путей. Обозначим через L - максимальное число ребер в пути из Р . Будем считать, что затраты на прохождениe ребра е Е Е описываются неубывающей (и ограниченной в рассматриваемом диапазоне значений) функцией

0 6 Те (/е) 6 м, где /е - поток по ребру е:

(ж) = ^ 5 ер ж р , 5 ер = I о е Е р

P E P                 V

Положим М = ML. Введем G P (ж) - затраты на проезд по пути р:

GP (ж) = ^2те (/е (ж)) 5 ер .

e E E

Введем также множество (прямое произведение симплексов), на котором транспортная сеть «будет жить»:

X = ж >  0 :

У^ жр = dw, w Е OD > , PEPw и функцию, порождающую потенциальное векторное поле G (ж):

/ е (х )

Ф

(ж) I е ЕЕ 0

т е (г) dz.

Основное свойство этой функции заключается в том, что

V Ф(ж) = G (ж).

Будем считать, что число пользователей транспортной сети большое:

dw := dw • N, N » 1, w E OD, но в функциях затрат это учитывается:

Т е (fe) := T e (fe/N ) .

Таким образом, далее под d w , ж, f будем понимать соответствующие прошкалированные (по N ) величины [4].

Выберем корреспонденцию w E OD и рассмотрим пользователя транспортной сетью, соответствующего этой корреспонденции. Стратегией пользователя является выбор одного из возможных путей следования р E Pw. Будем считать, что пользователь мало что знает об устройстве транспортной системы и о формировании своих затрат. Все, что доступ- но пользователю на шаге к + 1, — это история затрат на разных путях, соответствующих

{'; = g (ж' ) }„„ . }‘ _1

его корреспонденции, на всех предыдущих шагах

. Для простоты

рассуждений мы не зашумляем эту информацию, считая, что доступны точные значения имевших место затрат. Все последующие рассуждения (ввиду общности выбранной в разделе 2) можно обобщить и на случай зашумленных данных (детали мы вынуждены здесь опустить).

Допуская, что 0 6 {Zp} 6 М могут выбираться враждебно, пользователь стремится действовать оптимальным образом, то есть так, как предписывает стратегия из примера 3 (с г = р, п = \ P W | ). Заметим, что при некоторых дополнительных оговорках (см. п. 5.4 [1]) случайный выбор пути (согласно примеру 3) может быть осуществлен за время O ( | Е | ), что не зависит от п, которое может быть намного больше (например, для манхетенской сети, см. п. 5.4 [1]).

Представим себе, что остальные пользователи ведут себя аналогичным образом, но независимо (в вероятностном плане) друг от друга. Тогда в пределе N ^ то такая стохасти- ческая марковская динамика в дискретном времени вырождается в детерминированную динамику в дискретном времени [16], описываемую итерационным процессом из примера 2 с j =w, Z3 = {жр}реРш, п = |pw|, а, = М-1 2lnn,/N,

N Regret N 6 max a

3=1,...,m •

' 3

1 ( R 2 +— М 2 N max a2 ) ,

\        2         j=1,...,m

для задачи не онлайн оптимизации:

Ф (ж) ^ min, xEX

f k (ж) = Ф (ж) , ж^ = N ^ ж к ,  Ф * = Ф (ж * ) ,

N к=1

Ф (ж^) - Ф * 6 Regret N 6

max { ln п 3 }

М    j=1,...,m       3

NN /2 min { Inn у j=1,...,m

m       \

E d 3 + 1) .

3 =1       /

Решение задачи (4) иногда называют равновесием Нэша(–Вардропа) в описанной популяционной игре [4, 17], соответствующей модели Бэкмана равновесного распределения потоков по путям [2]. Для простоты формулировок будем далее считать, что решение единственно.

Введем теперь схожий процесс (совпадающий с описанным ранее в пределе N ^ то ): дискретный аналог имитационной логит-динамики с произвольным параметром а >  0, популярной в эволюционной теории игр [4]. Пусть отрезок времени [0, Т ] разбит на Т N ^ 1 одинаковых отрезков, соответствующих шагам. На каждом шаге к = 1,...,TN каждый пользователь корреспонденции j = w Е OD независимо от всех остальных пользователей с вероятностью N -1 принимает решение выбрать потенциально новую стратегию (маршрут следования) согласно распределению вероятностей г Е P j (в действительности, тут требуются некоторые оговорки на случай, когда x k = 0, мы опускаем здесь эти детали, за подробностями отсылаем к монографии [4]):

Р^1 =

x k exp ( aG i (x k ))

Z xk exp (—aGi (xk)), ip а с вероятностью 1 — N-1 — использовать стратегию предыдущего шага. Аналогично действуют пользователи, принадлежащие другим корреспонденциям: j = 1, ...,m. Тогда в пределе N ^ то эта динамика превратится на отрезке [0, Т] в имитационную логит-динамику в непрерывном времени [4, 16], в которой с каждым пользователем связан свой (независимый) пуассоновский процесс с интенсивностью 1. В моменты скачков процесса пользователь принимает решение о потенциальной смене маршрута следования согласно распределению вероятностей г Е Pj, j = 1, ...,m:

( t ) = X i (t) exp ( aGi (x (t))) P i Z x i (t) exp ( aGi (x (t))).

i ^ P i

При T ^ то описанный эргодический марковский процесс выходит на стационарную вероятностную меру [4]:

~ exp (—N • (Ф (х) + о (1))) , которая при N ^ то экспоненциально концентрируется в окрестности решения задачи (4).

Если описанные предельные переходы выполнить в обратном порядке: сначала N ^ то , потом Т ^ то , то марковский процесс, отвечающий имитационной логит-динамике, выродится в СОДУ г Е P j , j = 1, ...,m:

dx i (t)         X i (t)exp( aG i (x (t)))

dt j Z x l (t) exp ( aG l (x (t))) i ^ P j

-

X i .

Эта динамика (на внутренности инвариантного относительной данной динамики множества X ) имеет глобальным аттрактором неподвижную точку, определяемую как решение задачи (4). Более того, СОДУ (5) имеет функцию Ляпунова Ф (x) [4] (это общий факт: функционал Санова является функционалом Больцмана [18]), причем [5]

1 m

— Ф * 6 ат ^' 2 ;.

j=i

Заметим также, что СОДУ (5) можно понимать как непрерывный аналог (см., например, [19]) примера 2.

Работа выполнена при финансовой поддержке РФФИ (коды проектов 13-01-12007-офи_м, 15-31-20571 мол_а_вед, 15-31-70001 мол_а_мос). Исследования первого автора, связанные с п. 2, выполнены в ИППИ РАН за счет гранта Российского научного фонда (проект № 14-50-00150).

Список литературы О связи имитационной логит-динамики в популяционной теории игр и метода зеркального спуска в онлайн оптимизации на примере задачи выбора кратчайшего маршрута

  • Lugosi G., Cesa-Bianchi N. Prediction, learning and games. New York: Cambridge University Press, 2006
  • Patriksson M. The traffic assignment problem. Models and methods. Utrecht, Netherlands: VSP, 1994
  • Algorithmic game theory. Editors N. Nisan, T. Roughgarden, E. Trados, V.V. Vazirani. Cambridge University Press., 2007
  • Sandholm W.H. Population games and Evolutionary dynamics. Economic Learning and Social Evolution. MIT Press; Cambridge, 2010
  • Немировский А.С., Юдин Д.Б. Сложность задач и эффективность методов оптимизации. М.: Наука, 1979
  • Sridharan K. Learning from an optimization viewpoint. PhD Thesis, Toyota Technological Institute at Chicago, 2011
  • Bubeck S. Introduction to online optimization. Princeton University: Lecture Notes, 2011. http://www.princeton.edu/sbubeck/BubeckLectureNotes.pdf
  • Shalev-Shwartz S. Online learning and online convex optimization//Foundation and Trends in Machine Learning. 2011. V. 4, N 2. P. 107-194
  • Bubeck S., Cesa-Bianchi N. Regret analysis of stochastic and nonstochastic multi-armed bandit problems//Foundation and Trends in Machine Learning. 2012. V. 5, N 1. P. 1-122. http://www.princeton.edu/sbubeck/SurveyBCB12.pdf
  • Hazan E. Introduction to online convex optimization. e-print, 2015. http://ocobook.cs.princeton.edu/OCObook.pdf
  • Гасников А.В., Нестеров Ю.Е., Спокойный В.Г. Об эффективности одного метода рандомизации зеркального спуска в задачах онлайн оптимизации//ЖВМ и МФ. 2015. Т. 55, № 4. С. 55-71
  • Nemirovski A. Lectures on modern convex optimization analysis, algorithms, and engineering applications. Philadelphia: SIAM, 2013
  • Allen-Zhu Z., Orecchia L. Linear coupling: An ultimate unification of gradient and mirror descent. e-print, 2014. arXiv:1407.1537
  • Nesterov Y. Primal-dual subgradient methods for convex problems//Math. Program. Ser. B. 2009. V. 120(1). P. 261-283
  • Juditsky A., Nemirovski A. First order methods for nonsmooth convex large-scale optimization, I, II. In: Optimization for Machine Learning. Eds. S. Sra, S. Nowozin, S. Wright. MIT Press, 2012
  • Ethier N.S., Kurtz T.G Markov processes. Wiley Series in Probability and Mathematical Statistics: Probability and Mathematical Statistics. John Wiley & Sons Inc., New York, 1986
  • Гасников А.В., Гасникова Е.В., Мендель М.А., Чепурченко К.В. Эволюционные выводы энтропийной модели расчета матрицы корреспонденций//Математическое моделирование. 2016. Т. 28. arXiv:1508.01077 (принята к печати)
  • Баймурзина Д.Р, Гасников А.В., Гасникова Е.В. Теория макросистем с точки зрения стохастической химической кинетики//Труды МФТИ. 2015. Т. 7, № 4. C. 95-103
  • Wibisono A., Wilson A.C. On accelerated methods in optimization. e-print, 2015. arXiv:1509.03616
Еще
Статья научная