Суперпозиция метода балансировки и универсального градиентного метода для поиска энтропийно-регуляризованного барицентра Вассерштейна и равновесий в многостадийных моделях транспортных потоков
Автор: Гасников А.В., Двуреченский П.Е., Спокойный В.Г., Стецюк П.И., Суворикова А.Л.
Журнал: Труды Московского физико-технического института @trudy-mipt
Рубрика: Информатика, вычислительная техника и упровление
Статья в выпуске: 3 (31) т.8, 2016 года.
Бесплатный доступ
Представлен обзор современных численных методов поиска барицентра Вассерштейна конечного семейства вероятностных мер с одинаковым конечным носителем. Такие задачи в последнее время стали очень популярны в связи с всевозможными приложениями к сравнительному анализу изображений, в частности, к обнаружению разладок в ряде изображений. Например, подобные задачи возникают при изучении деятельности головного мозга. В основном мы исходили из цикла работ M. Cuturi с соавторами. Общая идея этих работ - найти барицентр вероятностных мер согласно энтропийно-регуляризованному расстоянию Вассерштейна. Такое (регуляризованное) расстояние можно заметно эффективнее посчитать, чем исходное расстояние Вассерштейна. В одной из работ отмеченного цикла [8] содержалась идея сочетания метода Синхорна (балансировки) для решения внутренней задачи (расчета соответствующих регуляризованных расстояний и их субградиентов) и быстрого градиентного метода для решения внешней задачи (поиск барицентра). К сожалению, в описанном авторами виде метод оказался не пригодным для использования на практике (не было также никаких теоретических гарантий его сходимости). В [1] показано, как можно доработать данный метод (в частности, доказана сходимость предложенной модификации). Однако мы были сконцентрированы на другом приложении (к поиску равновесий в многостадийных транспортных моделях). В данной работе мы рассматриваем оба отмеченных приложения. Главным результатом работы является разработка в общем случае (не только для этих двух приложений) концепции суперпозиции методов, когда мы можем выделить в исходной задаче часть переменных, по которым задача эффективно решается внутреннем методом (но допускается, что лишь приближенно) при замороженных остальных переменных. А по оставшейся группе переменных запускается внешний метод, на каждой итерации которого требуется запускать внутренний метод. В статье получен частичный ответ на довольно общий вопрос: как оптимально сочетать эти методы (внутренней и внешний), т.е. насколько точно надо решать на каждой итерации внешнего метода внутреннюю задачу, чтобы минимизировать общее время работы метода при заданной точности решения, которую хотим получить?
Седловая задача, энтропия, метод балансировки, метод синхорна, универсальный метод, неточный оракул, задача монжа-канторовича, расстояние вассерштейна, барицентр вассерштейна
Короткий адрес: https://sciup.org/142186147
IDR: 142186147
Текст научной статьи Суперпозиция метода балансировки и универсального градиентного метода для поиска энтропийно-регуляризованного барицентра Вассерштейна и равновесий в многостадийных моделях транспортных потоков
min
E 7 =i ^ i3 = L, E ? =i ^ i3 = W j x ij > 0, i, j = 1,..., n
П max< y^Q I i,j = 1
X ij ln X ij +
П f Cij (VWij + g(y)^ = i,j=1
= max max yeQ х.ргу—
{
( A, L) + (ц, W}- f exp( -С <7- (y) - 1 + A i + i,j=1
ц ) + g(y)},
где g(y) и C ij (y) > 0 — вогнутые гладкие функции (если ищутся не стохастические равновесия, то C ij (y) могут быть негладкими), Q - множество простой структуры, например,
Q = {y Е R n : y > у}.
Легко понять, что система балансовых ограничений в (1) либо несовместна п п
X ^ і = 52 W j , либо вырождена (имеет не полный ранг). В последнем случае это приво- і=1 з=1
дит к тому, что двойственные переменные (А, м) определены с точностью до произвольной постоянной С :
(А + Се,ц-Се), е = (1,..., 1).
^ '- 1 у п
Задачу (1) также можно переписать следующим образом (не ограничивая общности, п п считаем 52 ^ =52 Wj = 1):
і=1 з=1
min п п
£ xгj = L^, £ a^j = Wj j = 1 г = 1
п xtj > 0, £ x^j = 1,i,j = 1, ..., n
п max< yGQ I .^ і,3 = 1
Хц ln Х із +
п
^ С із (У) х із + 9^ = і,3=1
п
= maQ A maK -{(А ,^ + ( ^ ,W ^ - lnl ^ ехР (—С із Ы + А і + M )] + 9(у^ =
У Q ,ц і,з = 1
= - mmf (у), v^Q где выпуклая функция /(у) определяется как п п
/ (У) =
max п п
£ x^j = L£, £ x^j = Wj j = 1 г = 1
п,п xгj > 0, Й xгj = 1,i,j = 1,..., n
{ — ^ Х із ln Х із — ^ С із (у)Х із — 9(у)} =
-
і,з = 1 і,з = 1
п
A minn{ln [^ exp( —С із (у) + А і +^ j )]-(A, L ) - ( м, W) - 9(у)}. (3)
,^ і,з=1
п
Поскольку мы добавили в ограничения условие X Х із = 1, являющееся следствием і,з=1
балансовых уравнений, то это привело к тому, что двойственные переменные (А, м) определены с точностью до двух произвольных постоянных С \ , С ^ : (А + С \ е, м + С ^ е).
Заметим, что расчет градиента V /(у) (в ряде транспортных приложений вогнутые функции С із (у) — негладкие, тогда вместо градиентов стоит понимать суперградиенты С із (у) и субградиент / (у)) осуществляется по следующей формуле (Демьянова-Данскина-Рубинова, см., например, [2, 6]):
І2 exp( — С із ( у ) + А * + M * ) V c із (у)
V /(у) = — і-,з=-п --V9(у) =
X exP ( — С із (у) + А * +м*)
і,з=1
п
= — ^ Х із (А*, M*) Vc із (у) — V 9(у) , (4)
где (А*,м*) — решение задачи (3), не важно какое именно, градиент V/(у) от выбора С\, Сц (см. выше) не зависит. В данной статье мы (так же, как ив [1]) ограничимся изучением только полноградиентных методов для задачи (2), т.е. не будем рассматривать, например, рандомизацию при вычислении градиента по формуле (4). Планируется отдельно исследовать вопрос о возможности ускорения вычислений за счет введения рандомизации для внешней задачи. На данный момент нам представляется (см. формулу (13) в п. 3), что это может принести дивиденды только в случае, когда вспомогательная задача расчета V Cij (у) достаточно сложная. Тут требуется много оговорок, в частности, в большинстве приложений умение рассчитывать Vcij (у) для конкретной пары (i,j) без дополнительных затрат позволяет заодно рассчитать и все Vc^j(у), j = 1,..., п. Также отдельно планируется исследовать вопрос о том, какие подходы и насколько хорошо допускают распараллеливание. Вопрос о целесообразности рандомизации оказывается завязанным и на вопрос о возможности распараллеливания.
Структура статьи следующая. В п. 2 мы рассматриваем популярную в последнее время (в связи с большим числом приложений) задачу вычисления барицентра Вассерштейна различных вероятностных мер [7]. Эта задача оказывается тесно связанной с задачей (1). Мы разбираем в статье этот пример, потому что он хорошо проясняет возможные альтернативы предлагаемому нами основному подходу решения задач (1), (2), изложенному в п. 3. В основе подхода п. 3 (см. также [1, 8]) лежит сочетание метода балансировки для решения внутренней задачи оптимизации по двойственным множителям и универсального градиентного метода с неточным оракулом для внешней задачи (2). В работе [1] мы сконцентрировались на обобщении универсального метода на случай неточного оракула. В данной работе акцентируем внимание на получении условий на шум оракула для внешней задачи, исходя из оценок точности решения внутренней задачи. Таким образом, данная статья дополняет работу [1] в теоретическом плане. Практическим экспериментам планируется посвятить отдельную работу.
-
2. Поиск барицентра Вассерштейна
К похожей на (1) задаче приводит поиск барицентра Монжа–Канторовича (в западной литературе чаще говорят барицентра Вассерштейна [7, 8]) 1 . Изложим вкратце постановку задачи [8] – [10]. Вводится энтропийно регуляризованное транспортное расстояние (см. рис. 1 в [11]) с матрицей H c ^j H „jn , сформированной из квадратов попарных расстояний C ij = I 2j от носителя i меры L до носителя j меры W (L, W Е £ „ (1)):
A(L,W ) =
min п п
£ x ^j = L ^ , £ x ^j = W j
7 = 1 г = 1
X ij > 0, г, j = 1, ..., n
П
{7 £ $ ij lnx ij i,j=1
n
+ £ C ij X ij^ = i,j=1
{ n
(A,L) + (M,W)- 7 £ exp(- i,j=1
C ij + A i + ^ j
- 1
{n„ max
Ae R n
< A , L )— 7 £W , ln[ wW £ exp( -2^ )] .
j=1 j i=1 ')
^..
h w (A)
Определим при L Е £ n (1) функцию Н\ ү (L) = A(L, W). Эта гладкая на L Е £ n (1) функция с градиентом (см. утверждение 3 [10]):
VHW (L) = A*, где А* — единственное решение (5), удовлетворяющее условию2 (А*, е) = 0. Отсюда следует, что
H W (А) = max |(A,L ) - H w (L)} =
L e s n (1) n n
= 7£ »', ln[± £exp( - )].
J=1 J 1=1 '
Теперь можно перейти к изложению основной конструкции. Задача поиска барицентра Вассерштейна 3 записывается следующим образом:
m
£ H w k ( L )
k=i
^ min . LeS n (i)
К сожалению, в такой формулировке мы не можем оценить константу Липшица градиента функционала (6), явно входящую в большинство современных быстрых (ускоренных) численных методов. Однако оказывается (см. п. 3), что существуют быстрые методы, которым для работы не требуется такая информация (константа Липшица градиента).
Перепишем задачу (6), следуя п. 3 работы [10], следующим образом:
- £H W k ( L k ) ^
m max
L i = L m | A 1 ,L 1 e S n (1)
k=1 ...
L m - 1 = Lm| A m-1 ,L m e S „ (1)
m—1
£ max ( А к ,L k ) - H wk (L k ) ■ + max
L k GS n (1)l ) L m e 8 n (1)
k=1
m—1
I ( — £ А ^ , L m ) - H W m ( L m ) I
k=1
^ min , A 1 ,...,A m-1
m—1m
Положим t > 0: |
- = ф у ( ж, у) - V У( ж ) t У Х 11фу( ж, у) -V У( ж )h 2 , |
получим |
11 ф у ( ж, у) - V У( ж ) 11 2 6 у + 5 . |
Минимизируя правую часть неравенства по t > 0, при t = ^25/1 получаем
||ф у ( ж, у) - V у( ж )|| 2 6 2^1.
Отсюда и из утверждения 1 находим
У(У) 6 У( ж ) + ( V У( ж ) , У -ж ) + 1 11 У - ж |1 2 6
6 у( ж ) + (ф у ( ж, у) , у -ж ) + V^^ -ж || 2 + |||у — ж | 2 6
6 Ф(ж,у) - 25 + (Ф у (ж, у), у - ж) + V 25L||y - ж| ^ + ^^ - ж || 2 + 25 6
6 Ф(ж,у) - 25 + (Ф у (ж, у), у - ж) + Ь^у - ж ^ 2 + 65.
С учетом того, что (см. утверждение 1)
у(у) > У( ж ) + (Фу ( ж , у), у - ж( - 5
> фу (ж, у) - 25 + (Фу (ж, у), у - ж), из определения 1 получаем доказываемое утверждение.
Это утверждение позволяет установить гладкость задачи (2), (3) (но не (5), (6)). Таким образом, для (5), (6) необходимость использования универсального метода для внешней задачи является отражением надежды сходиться быстрее, чем в негладком случае, в то время как для (2), (3) использование универсального метода для внешней задачи является скорее отражением желания настраиваться на правильную константу Липшица градиента. Можно, конечно, пытаться использовать приведенные выше формулы, однако из способа рассуждений (см., например, доказательство утверждения 3) видно, что полученная таким образом константа Липшица может оказаться завышенной.
К сожалению, практическое применение утверждения 3 натыкается на следующие сложности:
-
1) необходимости отступать от границы множества Q во внутрь на ^25/1,
-
2) необходимости рассмотрения ситуации (см. доказательство утверждения 3):
II д ж г /ду ^ 11 = - Ф -1 ф Ж у ,
-
3) необходимости предположения о компактности множества Q, иначе невозможно будет добиться выполнения условия
тах{Ф ж (х, у), х — г) 6 5. z e Q
Первая сложность на практике разрешима за сче т возможности доопределения функционала задачи с сохранением всех свойств на ^25/L-окрестность множества Q (заметим, что доопределение часто не требуется, поскольку функционал и так задан «с запасом»). Например, для рассматриваемых нами транспортных приложений с Q = { у : у > у } это возможно [2] – [5]. Сложность 2 часто вообще не возникает (разве что оговорка о существовании Ф -1 , впрочем, приведенные выше рассуждения можно провести, сохранив все результаты в идентичном виде, так, что эта оговорка будет не нужна), поскольку Q совпадает со всем (двойственным) пространством. А вот сложность 3, действительно, портит дело. К сожалению, простых теоретически обоснованных способов борьбы с этой сложностью мы пока не знаем. Тем не менее полезно заметить, что в действительности нужно гарантировать выполнение (см. доказательство утверждения 1)
(Фж(х(у),у),х(у) — х(у'Х) 6 5, где точки у и у' близки, поскольку возникают на соседних итерациях внешнего метода. С учетом ожидаемой ««близости» X = Х(у) и х(у), мы можем заменить в этом критерии настоящее множество Q, которое, как правило, совпадает со всем пространством, на шар конечного радиуса. Более детальные исследования (для задачи (2), (3)) и практические эксперименты показывают, что для выполнения приведенного выше условия достаточно обеспечить для внутреннего итерационного процесса {хк} ^ х(у) условия
||Ф х (Я к ,у) І 2 ||Xfc H 2 6 5/2, ||Ф ж (х к ,у) І 2 6 5.
Соответствующее х к = (Х к , ^ к ) порождает нужное х(у) = х к . С учетом специфики рассматриваемой нами задачи (2), (3), имеем следующий критерий (возвращаемся к обозначениям (2), (3)):
^Ах(Ак,Цк) — b^ ||(Afc,цк)||2 6 5/2, ||Ax(Xfc,цк) — b^ 6 5, где х(\к, ^к) определяется в формуле (4), а введённая линейная система балансовых уравнений Ах = b есть общая запись аффинных (транспортных) ограничений:
п п
У^ х ^з =Ь г/^ хц = W j , г,] = 1, ...,П.
j=1 г=1
В связи со сказанным выше заметим, что (это следует из оценки (10)) метод балансировки обеспечивает сходимость и по аргументу, что для других методов (без введения регуляризации) решения двойственной задачи, вообще говоря, нельзя гарантировать. Это свойство наряду с линейной скоростью сходимости метода (со скоростью геометрической прогрессии) позволяет надеяться, что выбранный критерий является достаточно точным (точнее, не слишком грубым).
Принципиально важно для гладкого случая (aj (у) - функции с липшицевым градиентом), как это будет следовать из дальнейших оценок (см. теорему 1), не просто уметь решать двойственную задачу, т.е. находить (X, ^) так, чтобы была сходимость по аргументу, а делать это так, чтобы сложность решения задачи зависела от точности ее решения логарифмическим образом. Выше мы отмечали, что это имеет место для метода балансировки. Также это имеет место и для быстрых методов, примененных к регуляризованной двойственной задачи. При фиксации параметра регуляризации, исходя из итоговой желаемой точности, быстрые градиентные методы (для сильно выпуклых функций) решают регуляризованную двойственную задачу так, что зависимость сложности от точности ее решения – логарифмическая.
Хочется, чтобы при решении внешней задачи в (2), т.е. задачи min / (у), yeQ можно было не задумываться ни о какой гладкости. Если она есть, то метод бы это хорошо учитывал, не требуя знания констант Липшица градиента (это намного более существенно для возможности применять описанный подход к поиску барицентра Вассерштейна вероятностных мер, см. п. 2), если ее нет, то метод также работал бы оптимальным (для негладкого случая) образом. Именно таким свойством и обладает универсальный метод [27], работающий и в концепции неточного оракула [31] (см. определение 1).
Заметим [27], что можно погрузить задачу с гёльдеровым градиентом (v Е [0,1])
IV(у ‘ ) — V /(у) һ * 6 L v || у ' - у һ "
(в том числе и негладкую задачу с ограниченной нормой разности субградиентов при v = 0) в класс гладких задач с оракулом, характеризующимся точностью 6 и
L = L „
L v (1 — v ) 26(1 + v)
1-^ і+^
Это позволяет даже в случае, когда можно рассчитывать только на 6-субградиент 11 (с ограниченной нормой субградиента (разности субградиентов), причем, какой именно константой ограниченной, методу знать не обязательно), все равно работать в концепции (6, L)-оракула.
Итак, у нас есть внешняя задача (2)
min / (у), yeQ для которой обращение к (6, L)-оракулу за значением функции и градиента стоит ~ ln(6 1). Насколько быстро мы можем решить такую задачу, т.е. при каком N(е) можно гарантиро- вать, что
/ (У N (е) ) — тіп / (у) 6 е ? y e Q
Ответ можно получить из следующего результата.
Теорема 1 (см. [1, 21, 27, 31]) . Cуществует однопараметрическое семейство универсаль ных градиентных методов (параметр р Е [0,1]) , не получающих на вход, кроме р, больше никаких параметров (в частности, не использующих значения L p и R - «расстояние» от точки старта до решения, – априорно не известное ) , которое приводит к следующей оценке на требуемое число итераций:
N p ( e )=O| inf ^G[0,1]
LX+
е
1+2pv+v
,
если 6 < О (eN p (е) p ).
11 На 5-субградиент всегда можно рассчитывать согласно утверждению 1. Причем, как уже отмечалось раньше, для получения 5-субградиента не нужна сходимость по аргументу для вспомогательной задачи.
Из теоремы 1 можно заключить, что если мы рассчитываем на некоторую гладкость /(у), то стоит выбирать значение параметра р = 1, при этом общие трудозатраты машинного времени будут
о(^( £ )(Т ln( £ -1 ) + Т)), (13)
где Т - время вычисления (суб-)градиента функционала (в основном это вычисления {Vc -j (у)}^ =1 [29,30]), Т - время решения вспомогательной задачи методом балансировки с относительной точностью 1%. Численные эксперименты показывают, что на одном современном ноутбуке при п ~ 10 2 время Т ~ 1 с. [31], что сопоставимо с временем Т для таких п [29].
Выгода от описанной выше конструкции по сравнению с обычным способом решения исходной задачи минимизации (2), (3) сразу по совокупности всех переменных (см., например, [5]) заключается в гарантированном не увеличении константы Липшица градиента в оценке необходимого числа итераций (см. утверждение 3) и ожидаемое уменьшение в этой же оценке расстояния от точки старта до (неизвестного априори) решения. Выгода здесь вполне может достигать одного порядка и более. При этом можно ожидать лишь незначительного увеличения стоимости одной итерации. Причем стоит иметь в виду, что при оптимизации сразу по всем переменным требуется рассчитывать градиент функционала по большему числу переменных, чем в описанном выше подходе, что также играет нам на пользу. В конечном итоге, сокращение числа итераций заметно превалирует над небольшим увеличением стоимости одной итерации.
Что касается задач (5), (6), то описанный выше подход представляется естественным и не имеющим альтернатив в рассматриваемом классе. Альтернативные методы, с которыми можно сравнивать, мы упоминали по ходу статьи, но все они были предложены из принципиально других подходов. Сравнению (практическому) всех этих методов планируется посвятить отдельную публикацию.
Резюмируем ключевой результат этого раздела (и всей статьи) следующим образом.
Для решения задач типа (2), (6) или (8) предлагается использовать универсальный метод из работы [27] (а точнее его модификацию из [31]) . Если рассчитываем на гладкость 12 /(у) , то полагаем в методе р = 1 . Если на гладкость рассчитывать не приходится 13 , то полагаем р = 0 . В обоих случаях, кроме априорной подсказки относительно параметра р, методу больше ничего от нас знать не надо!
Авторы выражают глубокую признательность Ю. Е. Нестерову за серию продуктивных обсуждений.
Исследование А. В. Гасникова, П. Е. Двуреченского, В. Г. Спокойного и А. Л. Сувориковой в части 2 выполнено в ИППИ РАН за счет гранта Российского научного фонда (проект № 14-50-00150); исследование П. Е. Двуреченского в части 3 выполнено при поддержке гранта РФФИ 15-31-20571-мол_а_вед; исследование А. В. Гасникова в части 3 выполнено при поддержке гранта РФФИ 15-31-70001 мол_а_мос.
Список литературы Суперпозиция метода балансировки и универсального градиентного метода для поиска энтропийно-регуляризованного барицентра Вассерштейна и равновесий в многостадийных моделях транспортных потоков
- Гасников А.В., Двуреченский П.Е., Камзолов Д.И., Нестеров Ю.Е., Спокойный В.Г., Стецюк П.И., Суворикова А.Л., Чернов А.В. Поиск равновесий в многостадийных транспортных моделях//Труды МФТИ. 2015. Т. 7, № 4. С. 143-155
- Гасников А.В., Дорн Ю.В., Нестеров Ю.Е, Шпирко С.В. О трехстадийной версии модели стационарной динамики транспортных потоков//Математическое моделирование. 2014. Т. 26:6. C. 34-70. arXiv:1405.7630
- Гасников А.В. Об эффективной вычислимости конкурентных равновесий в транспортно-экономических моделях//Математическое моделирование. 2015. Т. 27, № 12. С. 121-136. arXiv:1410.3123
- Бабичева Т.С., Гасников А.В., Лагуновская А.А., Мендель М.А. Двухстадийная модель равновесного распределения транспортных потоков//Труды МФТИ 2015. Т. 7, № 3. С. 31-41. https://mipt.ru/upload/medialibrary/971/31-41.pdf
- Гасников А.В., Гасникова Е.В., Мациевский С.В., Усик И.В. О связи моделей дискретного выбора с разномасштабными по времени популяционными играми загрузок//Труды МФТИ. 2015. Т. 7, № 4. С. 129-142. arXiv:1511.02390
- Гасников А.В., Гасникова Е.В., Нестеров Ю.Е., Чернов А.В. Об эффективных численных методах решения задач энтропийно-линейного программирования//ЖВМ и МФ. 2016. Т. 56, № 4. С. 523-534. arXiv:1410.7719
- Agueh M., Carlier G. Barycenters in the Wasserstein space//SIAM J. Math. Anal. 2011. V. 43, N 2. P. 904-924
- Cuturi M., Doucet A. Fast Computation of Wasserstein Barycenters//ICML. 2014. http://www.iip.ist.i.kyoto-u.ac.jp/member/cuturi/
- Benamou J.D., Carlier G., Cuturi M., Nenna L., Peyr´e G. Iterative Bregman Projections for Regularized Transportation Problems//e-print, 2015. (to appear in SISC) arXiv:1412.5154
- Cuturi M., Peyr´e G., Rolet A. A Smoothed Dual Formulation for Variational Wasserstein Problems//e-print, 2015. arXiv:1503.02533
- Cuturi M. Sinkhorn Distances: Lightspeed Computation of Optimal Transport//NIPS. 2013
- Немировский А.С., Юдин Д.Б. Сложность задач и эффективность методов оптимизации. М.: Наука, 1979. http://www2.isye.gatech.edu/simnemirovs/Lect_EMCO.pdf
- Boissard E., Le Gouic T., Loubes J.-M. Distribution’s Template Estimate with Wasserstein Metrics//e-print, 2013. (to be published in Bernoulli) arXiv:1111.5927
- Bigot J., Klein T. Consistent estimation of a population barycenter in the Wasserstein space//e-print, 2015. arXiv:1212.2562
- Nesterov Y. Smooth minimization of nonsmooth function//Math. Program. Ser. A. 2005. V. 103, N 1. P. 127-152
- Fercoq O., Richtarik P. Accelerated, Parallel and Proximal Coordinate Descent//e-print, 2013. arXiv:1312.5799
- Qu Z., Richtarik P. Coordinate Descent with Arbitrary Sampling I: Algorithms and Complexity//e-print, 2014. arXiv:1412.8060
- Boyd S., Parikh N., Chu E., Peleato B., Eckstein J. Distributed optimization and statistical learning via the alternating direction method of multipliers//Foundations and Trends in Machine Learning. 2011. V. 3(1). P. 1-122. http://stanford.edu/boyd/papers.html
- Boyd S., Vandenberghe L. Convex optimization. Cambridge University Press, 2004. http://stanford.edu/boyd/cvxbook/
- Поляк Б.Т. Введение в оптимизацию. М.: Наука, 1983
- Nemirovski A. Lectures on modern convex optimization analysis, algorithms, and engineering applications. Philadelphia: SIAM, 2013. http://www2.isye.gatech.edu/simnemirovs/Lect_ModConvOpt.pdf
- Rabin J., Pey´er G., Delon J. Bernot M. Wasserstein barycenter and its applications to texture mixing//LNCS. 2011. Proc. SSVM’11. Springer. V. 6667. P. 435-446. https://hal.archives-ouvertes.fr/hal-00476064/document
- Bonnel N., Pfister H. Sliced Wasserstein barycenter of multiple densities // Harvard Technical Report. 2013. TR-02-13. ftp://ftp.deas.harvard.edu/techreports/tr-02-13.pdf
- Стецюк П.И. Методы эллипсоидов и 𝑟-алгоритмы. Кишинев: Эврика, 2014
- Стецюк П.И., Гасников А.В. NLP-программы и 𝑟-алгоритм в задаче энтропийнолинейного программирования//Теория оптимальных решений. Киев: Институт кибернетики им. В.М.Глушкова НАН Украины, 2015. С. 73-78
- Franklin J., Lorenz J. On the scaling of multidimensional matrices//Linear Algebra and its applications. 1989. V. 114. P. 717-735
- Nesterov Yu. Universal gradient methods for convex optimization problems//CORE Discussion Paper 2013/63. 2013; Math. Program. Ser. A. 2015. V. 152. P. 381-404. https://www.uclouvain.be/cps/ucl/doc/core/documents/coredp2013_26web.pdf
- Nesterov Yu. http://www.youtube.com/watch?v=Fm9h92pcbvg
- Гасников А.В., Двуреченский П.Е., Дорн Ю.В., Максимов Ю.В. Численные методы поиска равновесного распределения потоков в моделях Бэкмана и стабильной динамики//Математическое моделирование. 2016. Т. 28, № 10. С. 40-64. arXiv:1506.00293
- Гасников А.В., Гасникова Е.В., Ершов Е.И., Двуреченский П.Е., Лагуновская А.А. Поиск стохастических равновесий в моделях равновесного распределения потоков//Труды МФТИ. 2015. Т. 7, № 4. С. 114-128. arXiv:1505.07492
- Гасников А.В, Двуреченский П.Е., Камзолов Д.И. Градиентные и прямые методы с неточным оракулом для задач стохастической оптимизации//Динамика систем и процессы управления. Труды Международной конференции, посвященной 90-летию со дня рождения академика Н.Н. Красовского. Екатеринбург, 15-20 сентября 2014. Издательство: Институт математики и механики УрО РАН им. Н.Н. Красовского (Екатеринбург). 2014. С. 111-117. arXiv:1502.06259
- Devolder O. Exactness, inexactness and stochasticity in first-order methods for large-scale convex optimization. CORE UCL, PhD thesis, March 2013
- Anikin A., Dvurechensky P., Gasnikov A., Golov A., Gornov A., Maximov Yu., Mendel M., Spokoiny V. Modern efficient numerical approaches to regularized regression problems in application to traffic demands matrix calculation from link loads//Proceedings of International Сonference ITAS-2015. Russia, Sochi, September, 2015. arXiv:1508.00858
- Zhang F. The Schur Complement and Its Applications. Springer, 2005