Рандомизация и разреженность в задачах huge-scale оптимизации на примере работы метода зеркального спуска
Автор: Аникин А.С., Гасников А.В., Горнов А.Ю.
Журнал: Труды Московского физико-технического института @trudy-mipt
Рубрика: Информатика, вычислительная техника и упровление
Статья в выпуске: 1 (29) т.8, 2016 года.
Бесплатный доступ
В работе исследуются различные рандомизации метода зеркального спуска для задач huge-scale оптимизации с разреженной структурой. В качестве одного из примеров приложения приводится задача PageRank.
Huge-scale оптимизация, рандомизация, метод зеркального спуска, разреженность, оценки вероятностей больших уклонений
Короткий адрес: https://sciup.org/142186111
IDR: 142186111
Текст научной статьи Рандомизация и разреженность в задачах huge-scale оптимизации на примере работы метода зеркального спуска
Структура статьи следующая. В п. 2 мы описываем рандомизированный МЗС. Стоит обратить внимание на случай, когда оптимизация происходит на неограниченном множестве, и при этом выводятся оценки вероятностей больших уклонений. Тут есть некоторые тонкости, проработка которых делает п. 2 не просто вводным материалом для последующего изложения, но и представляющим самостоятельный интерес. В п. 3 результаты п. 2 переносятся на задачи с функциональными ограничениями, на которые мы не умеем эффективно проектироваться. В детерминированном случае (когда используется обычный градиент) такого типа задачи рассматривались достаточно давно. Разработаны эффективные способы их редуцирования к задаче с простыми ограничениями. Предлагались различные эффективные методы (Поляк–Шор–Немировский–Нестеров). Однако в случае, когда вместо градиента мы используем его несмещенную оценку (для функционала и ограничений), нам не известны оценки, поэтому в п. 3 приводится соответствующее обобщение МЗС и устанавливаются необходимые в дальнейшем оценки. В п. 4 на основе теоретических заготовок пп. 2 ,3 мы описываем класс разреженных задач (обобщающих задачу PageRank), для которых удаётся за счет рандомизации получить дополнительную выгоду.
Рассмотрим задачу выпуклой оптимизации
/(ж) ^ min . (1)
x ^ Q
Под решением этой задачи будем понимать такой Ж N G Q С R n , что с вероятностью > 1 — а имеет место неравенство
/(sN) — А < Е, где А = /(ж*) — оптимальное значение функционала в задаче (1), ж* G Q — решение задачи (1). На каждой итерации к = 1, ...,N нам доступен стохастический (суб-)градиент Vxf к(ж,^к) в одной, выбранной нами (методом), точке жк.
Опишем метод зеркального спуска (МЗС) для решения задачи (1) (мы в основном будем следовать работам [5, 6]). Введем норму ‖ · ‖ в прямом пространстве (сопряженную норму будем обозначать || • ||*) и прокс-функцию d(ж) сильно выпуклую относительно этой нормы, с константой сильной выпуклости > 1. Выберем точку старта ж1 = argmin d(ж'), xEQ считаем, что d(ж1) = 0, Vd(ж1) = 0.
Введем брэгмановское «расстояние»
V X (y) = d ( y ) — d ( x ) — (V d(ж),y — ж ) .
Определим «размер» решения
d(ж * ) = V x i (ж * ) = R 2 .
Определим оператор «проектирования» согласно этому расстоянию
-
^"^ + ' X / (y)} .
Mirr x fe (v) = argmin < Gy у yeQ 1 x
МЗС для задачи (1) будет иметь вид, см., например, [6]
ж к+1 = Mirr x fe ^« V x / k (ж к ,G )) , к = 1,..., N.
Будем считать, что {^ k } Ni представляет собой последовательность независимых случайных величин, и для всех ж G Q имеют место условия (к = 1,..., N)
-
1) Е ■ ^7 x fk Е k) ] = V f(x);
-
2) Е [ || V fk ^ ) | * ] < M 2 .
В ряде случаев нам также понадобится более сильное условие
-
3) И V f k (x,f k ) II * < MM 2 почти наверное по f k .
При выполнении условия 1 для любого u Е Q,k = 1,..., N имеет место неравенство, см., например, [6]
а ( V f k (x k Е/ ) ,x k - u) < '2 2 || v f k (x k ,f k ) | 2 - V (u) - V x k +i (u).
Это неравенство несложно получить в случае евклидовой прокс-структуры [7]
d ( x ) = ||x|| 2 /2, V x ( y ) = \\ y - x \ 2 /2.
В этом случае МЗС для задачи (1) есть просто вариант обычного метода проекции градиента (см. примеры 1, 2 ниже).
Разделим сначала выписанное неравенство на а и возьмем условное математическое ожидание E ^k [•| S k - 1] (S k -1 — сигма алгебра, порожденная £ 1 ,..., £ k - 1 ), затем просуммируем то, что получится по к = 1,..., N, используя условие 1. Затем возьмем от того, что получилось при суммировании, полное математическое ожидание, учитывая условие 2. В итоге, выбрав и = х * , и определив
" x " = N Е x k . k=1
получим
N • Е [f (х " )] - f * )< - EV ■ x * + 1 M 2 аN < R + - M 2 aN.
L ' а а 2 а 2
Выбирая 1
R ПГ а = Mv N, получим
E [f (x " )] - f * < MR^|. (2)
Заметим, что в детерминированном случае вместо x" можно брать x" = argmin f (xk).
k=1,...,N
Немного более аккуратные рассуждения (использующие неравенство Азума–Хефдинга) с
“ = JI
MN N позволяют уточнить оценку (2) следующим образом (см., например, [8, 9]):
f (x " ) - f * < Ml^|-N ( r + 2-RVln(2/^>) (3)
с вероятностью > 1 - ст, где
R = sup \x - x* II, xEQ
Q = {x G Q : ||x — x * ||2 < 65 R 2 ln(4V/CT)} .
Собственно, для справедливости оценки (3) достаточно требовать выполнение условий 1–3 лишь на множестве Q С Q. Это замечание существенно, когда рассматриваются неограниченные множества Q (см., например, п. 4).
Оценки (2), (3) являются неулучшаемыми с точностью до мультипликативного числового множителя по V ист. Наряду с этим можно обеспечить и их неулучшаемость по размерности пространства п путем «правильного» выбора прокс-функции [5] (такой выбор всегда возможен и известен для многих важных в приложениях случаев выбора множества Q). Собственно прокс-структура (новая степень свободы по сравнению с классическим методом проекции градиента) и вводилась для того, чтобы была возможность обеспечить последнее свойство.
Ввиду того, что мы используем рандомизированный метод и всегда
/(xN) — /* > 0, то, используя идею амплификации (широко распространенную в Computer Science), можно немного «улучшить» оценку (3). Для этого сначала перепишем оценку (2) в виде
Е [/(xN)] —/* < Е, где (здесь V, конечно, должно быть натуральным числом, поэтому эту формулу и последующие формулы такого типа надо понимать с точностью до округления к наименьшему натуральному числу, большему написанного)
V =
2 М 2 R 2
Е2
Отсюда по неравенству Маркова
Р (/ (X N ) — / * > 2 е ) < Е[/ ( Х 2 " Е )] f * < 2.
Можно параллельно (независимо) запустить log 2 (CT - 1 ) траекторий метода. Обозначим x Nin тот из x N на этих траекториях, который доставляет минимальное значение /(x N ). Из выписанного неравенства Маркова получаем, что имеет место неравенство
Р (/ (® Nin ) — / * > 2 е ) < ст.
Таким образом, можно не более чем за
V =
8М 2 R 2
Е 2
lo g 2 ( CT 1 )
обращений за стохастическим градиентом и не более чем за log 2 (CT - 1 ) обращений за значением функции найти решение задачи (1) x N с требуемой точностью е и доверительным уровнем ст.
Как уже отмечалось, во многих приложениях множество Q неограничено (см., например, п. 4). Поскольку х * априорно не известно, то это создает проблемы для определения R, которое входит в формулу для расчета шага метода
R р2 а = M\V.
Однако если мы заранее выбрали желаемую точность е , то с помощью формулы (4) можно выразить шаг следующим образом:
Q = -- ~.
М 2
Рассмотрим три конкретных примера множества Q, которые нам понадобятся в дальнейшем (см. п. 4). В примерах 1, 2 мы не приводим оценки скорости сходимости, поскольку они будут иметь вид (2), (3), т.е. никакой уточняющей информации тут не появляется в отличие от примера 3.
Пример 1 (все пространство) . Предположим, что Q = R n . Выберем
INI = «-« 2 , d^ = 2 « х | 2 .
Тогда МЗС примет следующий вид (а = е/М 2 , х 1 = 0):
х к+1 = х к - а^ к (х к ..) , к = 1,...,V. □
Пример 2 (неотрицательный ортант) . Предположим, что
Q = R + = { х € R n : х > 0 } .
Выберем
11-1 = Л • « 2 , d ( x ) = 2 « х - х « 2 , х € intQ.
Тогда МЗС примет следующий вид (а = е/М 2 , х 1 = х):
хк+1 = [хк - a^xfk х$к,£к)] = max |хк - а^х f к х^Лк^ , о} , к = 1,..., V,
где max {} берется покомпонентно. □
Пример 3 (симплекс) . Предположим, что
Q = £ п (1) =
х > 0 : ^^ х г = 1 J^ .
Выберем
п
II • || = || • ||1 , d(x)=lnx + ^ln х г .
г=1
Тогда МЗС примет следующий вид:
х1 = 1/п, г = 1,..., п, при к = 1,..., V, г = 1,..., п
. к+1 ■ г
exp (- /М ')
22 exp ( - 12 а 8-Муа )
1=1 \ Г=1 ' /
х к exp (-а 8f kdX;^k ))
t£ х к exp ( - J2^ ^^^^ )
Оценки скорости сходимости будут иметь вид:
E [f (х ^ )] - f * < M
1 2lnn N V
(при а = M 1 ^2lnn/V);
f (х ^ ) - f * < M l^^ ( V lnn + 4^ln(^ 1 )^ (при а = M l 1 ^ 2 In n/V ) с вероятностью > 1 - ст. □
Представим себе, что задача (1) видоизменилась следующим образом:
f (х) ^ min . g(x)<0
x E Q
Можно ли к ней применить изложенный выше подход, если «проектироваться» на множество (в отличие от Q)
{ж G Q : д(ж) < 0} мы эффективно не умеем? В случае, когда мы знаем оптимальное значение f*, то мы можем свести новую задачу к задаче (1):
min { f (ж) — f * , д(ж) } ^ min . x e Q
Несложно записать рандомизированный МЗС для такой задачи и применить к ней все, что изложено выше. Однако мы не будем здесь этого делать, поскольку в следующем пункте мы приведем более общий вариант МЗС, который не предполагает, что известно f * .
-
3. Рандомизированный метод зеркального спуска с функциональными ограничениями
Рассмотрим задачу f (ж) ^ min . (5)
дМ<0 x E Q
Под решением этой задачи будем понимать такой Ж ^ G Q, что имеют место неравенства
Е [f (ж^)] - f* < EJ = МЕд, д(^) < Ед, где f * = f (ж*) — оптимальное значение функционала в задаче (5), ж* G Q — решение задачи (5). Будем считать, что имеется такая последовательность независимых случайных величин {£к} и последовательности {Vжfk(ж,^к)}, {Vжgk(ж,^к)}, к = 1, ...,N, что для всех ж G Q имеют место следующие соотношения (можно считать их выполненными при ж G Q, см. п. 2 и последующий текст в этом пункте)
Е [Vxfk (х, V )] = Vf (ж), Е [Vxgk (ж, : )] = V g(ж);
Е [^ V ж f k (ж,е к ) | | 2] < М 22 , Е ^ж д к (ж,е к ) | | 2] < М д2 .
МЗС для задачи (5) будет иметь вид (см., например, в детерминированном случае двойственный градиентный метод из [10]):
жк+1 = Mirr^ (hf Vxfk^k ,^к)), если д (жк) < Ед, жк+1 = Mirr^k ^hgV хдк ж®,Л^
если д
(■■
> Е д ,
где h д = Е д /М д , h j = Е д / ( M j M g ), к = 1, ...,N. Обозначим через I множество индексов к, для которых д ( ж к ) < Е. Введем также обозначения
[N ]= { 1,...,N } , J =[N] \ I, N = | I | , N j = I J | , Ж ^ = 4- Е ж к .
Nr ‘— J кеі
Тогда имеет место неравенство hjNi • (Е [f (Ж^)] — f*) <
< 4 е
ТЛЕк [^к(жк ,e к)] . кеі
,ж к
-
ж *
< 1 ЕЕ [І |V ^ f k (ж к -і к )|[* ] - кеі L J
-
h g е Е E 5^ [v - g k X x k ’^k) ]’X k k e J '------------------v-----------
-
X *
) + '2 Е Е [I |v.gk ; )||2] + keJ L J
Будем считать,
> g ( - k ) - g($ * )>e 9
+ Е ( E Wx k ( x * )] — E \ V x k+i ( x * )]) < ke[N ]
< 2 h f M f N i - 2 M 2 E<g N J + е \^ - 1 ( х * )] - е \^ ® w +1 ( x * )] =
= 2 ^M f + M rgg^ Ni - 2MM g E g N + д 2 - Е'' '/, х ' ( х * )] .
что (следует сравнить с формулой (4)):
2Mn' Д
N = N ( E g ) = --- " + 1.
E g
Тогда N i > 1 и
Е [f (X N )] - f * < 2 ^f M f +
Е 2
M g h l
MiF
) = M g E g =E f .
Соотношение
g (XN) < Eg следует из того, что по построению g(xk) < Eg, к Е I и из Заметим, что в детерминированном случае вместо XN
выпуклости функции д(х). можно брать
X N
= argmin f (хк\ . kei '
Если известно, что для всех х Е Q и почти наверное по £k
\\^к E’ek ) I 2 < м 2 ,
||v-gk (x,ek)| 12 < M2, к = 1,...,N, то для описанного в этом пункте метода (с е = Ef = Eg и hf = hg = e/M2) вид оценки вероятностей больших уклонений (3) из п. 2 сохранится (оценка получается чуть лучше, чем нижняя оценка из работы [11], когда ограничений-неравенств больше одного, поскольку мы имеем доступ к точному значению д(х))
f (xN) - f* < 2M^N , д + 2.RУШ(27^)) , если N = 2N(e) (см. формулу (6)). К сожалению, трюк с амплификацией (см. п. 2) здесь уже не проходит в том же виде, как и раньше, поскольку теперь уже нельзя гарантировать f (XN) - f* > 0.
Однако если ввести обозначение
Ед = f* — min f(х) = min f(х) — min f(х), g(-) P (f (XN) — /. + ЕД > 2 (Ef + Ед)) < Е^^? Lf) + ЕД < 1 2 2 (Ef + Ед) Можно параллельно (независимо) запустить log2 (ст-1) траекторий метода. Обозначим :т^п тот из ж^ на этих траекториях, который доставляет минимальное значение f (ж^). Из выписанного неравенства Маркова получаем, что имеет место неравенство Р (f (^min) -f* > 2Еу + Ед) < С. К сожалению, этот подход требует малости Ед, что, вообще говоря, нельзя гарантировать из условий задачи. Немного более аккуратные рассуждения (без новых идей) позволяют развязать во всех приведенных выше в п. 3 рассуждениях Еу и Ед, допуская, что они могут выбираться независимо друг от друга. Детали мы вынуждены здесь опустить. Основные приложения описанного подхода, это задачи вида f (ж) ^ min max ^^(АТ х)<0 к = 1 ,...,т с разреженной матрицей А = [Аъ...,Ат]т. В частности, задачи вида f (ж) ^ min Ах<Ь и приводящиеся к такому виду задачи f (ж) ^ min . Ах<Ь Сх=а В этих задачах, как правило, выбирают || • || = || • Ц2, ^(ж) = ||ж|2/2. Подобно [10] можно попутно восстанавливать (без особых дополнительных затрат) и двойственные множители к этим ограничениям. Причем эта процедура позволяет сохранить дешевизну итерации даже в разреженном случае. 4. Примеры решения разреженных задач с использованием рандомизированного метода зеркального спуска Начнем с известного примера [12], демонстрирующего практически все основные способы рандомизации, которые сейчас активно используются в самых разных приложениях. Рассмотрим задачу поиска левого собственного вектора ж, отвечающего собственному значению 1, стохастической по строкам матрицы Р = Цр^ Ц^^і 1 (такой вектор называют вектором Фробениуса–Перрона, а с учетом контекста – PageRank вектором). Изложение рандомизации, связанной с ускоренными покомпонентными методами, мы опускаем, поскольку она не завязана на МЗС. Тем не менее приведем ссылки на работы, в которых такой подход к поиску PageRank описан: замечание 5 [4] и пример 4 [13] (см. также замечания 10, 11 [14]). Перепишем задачу поиска вектора PageRank следующим образом [3]: f(ж)= ~ |Аж|2 ^ min,, 2 xES„(1) где 5П(1) — единичный симплекс в R”, А = РТ — I, I — единичная матрица. Далее будем использовать обозначения А^ — к-й столбец матрицы А, А" — транспонированная к-я строка (то есть А" — это вектор) матрицы А. Следуя [12], воспользуемся для решения этой задачи рандомизированным МЗС со стохастическим градиентом2 Vxfk (ж,^) = (Р — I)^)> — (Р — I)^> , где ^k = г с вероятностью ж^, г = 1,..., п; j (^) = j с вероятностью р^к j, j = 1, -,п. Несложно проверить выполнение условия 1 п. 2, если генерирование использующихся вспомогательных случайных величин осуществляется независимо. Ввиду симплексных ограничений естественно следовать при выборе прокс-структуры примеру 3 п. 2. Таким образом, можно оценить М2= max ||Vxfk (ж,^) || < 4. же5„(1)Лк V /Н^ Даже в случае, когда матрица Р полностью заполнена, амортизационная (средняя) стоимость одной итерации будет О(п) (вместо О(п2), в случае честного расчета градиента). Таким образом, общее число арифметических операций будет О(п1nп/е2). К худшей оценке приводит другой способ рандомизации (рандомизации суммы [4]). Чтобы его продемонстрировать, перепишем исходную задачу следующим образом: п 1 1 f(ж) = п (АГж)2^ min . V п 2 V к ’ xES„(1) k=1 Из такого представления следует, что можно определить стохастический градиент следу- ющим образом Vx fk^,Ck) =nASkASkj(x), где ^k = г с вероятностью 1/п, г = 1, ...,п; j(ж) = j с вероятностью Жj, j = 1,..., п. Амортизационная (средняя) стоимость одной итерации будет по-прежнему О(п), но вот оценка М2получается похуже. Здесь мы имеем пример, когда М2и М2существенно отличаются, в действительности, можно вводить промежуточные условия, не такие жесткие, как условие 3, и получать более оптимистичные оценки вероятностей больших уклонений [4]. К сожалению, эти методы не позволяют полноценно воспользоваться разреженностью матрицы Р, которая, как правило, имеет место. Собственно, этот пункт отчасти и будет посвящен тому, как можно сочетать рандомизацию и разреженность. В частности, если переписать задачу PageRank следующим образом: Ажх ^ minА, xGS„(1) что равносильно (факт из теории неотрицательных матриц [15]) max АТж ^ min , k=1,...,n xESn(1) то исходя из примера 3 (в детерминированном случае), можно получить следующую оценку [16] на общее число арифметических операций О(п 1пп/е2), при условии, что число элементов в каждой строке и столбце матрицы Р не больше О( ^п/ 1пп). Здесь не использовалась рандомизация, а использовалась только разреженность матрицы Р (следовательно, и А). По-сути, способ получения этой оценки всецело базируется на возможности организации эффективного пересчета субградиента функционала, подобно [1–3]. Далее мы распространим этот пример на более общий класс задач, и постараемся привнести в подход рандомизацию. Итак, рассмотрим сначала класс задач с Q из примера 1 или 2 п. 2 max № (АГж) ^ min, k=1,...,m k V k ’ xEQ где ст/ () — выпуклые функции с константой Липшица, равномерно ограниченной известным числом М, (суб-)градиент каждой такой функции (скалярного аргумента) можно рассчитать за 0(1). Введем матрицу А = [А1,..., Ат]т и будем считать, что в каждом столбце матрицы А не больше 8 т < т ненулевых элементов, а в каждой строке — не больше 8 п < п. Заметим, что некоторую обременительность этим условиям создает требование, что в «каждом» столбце/строке. Это требованиe можно ослаблять, приближаясь к некоторым средним показателям разреженности (численные эксперименты в этой связи также проводились [3]), однако в данной работе для большей наглядности и строгости рассуждений мы ограничимся случаем, когда именно в каждом столбце/строке имеет место такая (или еще большая) разреженность. Из работ [1–3] следует, что МЗС из примеров 1, 2 (в детерминированном случае) для задачи (7) будет требовать М2max ||Afe 12-^2 /=1,...,т Е2 итераций, где А2 — квадрат евклидова расстояния от точки старта до решения, а одна итерация (кроме первой) будет стоить 0(min{8„8m log2 т, п}). И все это требует препроцессинг (предварительных вычислений, связанных с «правильным» приготовлением памяти) объема О(т + п). Таким образом, в интересных для нас случаях общее число арифметических операций для МЗС из примеров 1, 2 будет / М2max ЦА/ ||2^2 \ О I 8п8т log2 т------’...’тI . (8) I Е2 I Постараемся ввести рандомизацию в описанный подход. Для этого осуществим дополнительный препроцессинг, заключающийся в приготовлении из векторов А/ вектора распределения вероятностей. Представим А = А+ - А где каждый из векторов А+, А— имеет неотрицательные компоненты. Согласно этим векторам приготовим память таким образом, чтобы генерирование случайных величин из распределений А+/| А+|1 и А-/||А-11 занимало бы O(log2n). Это всегда можно сделать [3]. Однако это требует хранения в «быстрой памяти» довольно большого количества соответствующих «деревьев». Весь этот препроцессинг и затраченная память будут пропорциональны числу ненулевых элементов матрицы А, что в случае huge-scale задач сложно осуществить из-за ресурсных ограничений. Тем не менее далее мы будем считать, что такой препроцессинг можно осуществить, и (самое главное) такую память можно получить. Введем стохастический (суб-)градиент V.A(^) = А/ ||1 еі($,) - Ц4-Д W„ где k(x) G Argmax о^ (Ат$) , /=1,...,т причем не важно, какой именно представитель Argmax выбирается; п ⏞⏟ ег = (0,..., 0,1, 0,..., 0); ⏟⏞ г ‘И = ‘ с вероятностью А**! Һл+<»>Һі, ‘ = 1,..., п; ^'И = 3 с вероятностью А- v k(Aj / ІК-)ІІ1, 3 = 1,..., п; Легко проверить выполнение условия 1 п. 2 (заметим, что V /(ж) = А^)). Также легко оценить ЛЛ2<М2max ^k||1. k=1,...,m И получить из примеров 1, 2 следующую оценку числа итераций (ограничимся для большей наглядности сходимостью по математическому ожиданию, т.е. без оценок вероятностей больших уклонений) Л2max ^k ||1 R2 k=1,...,m E2 Основная трудоемкость тут в вычислении ^(ж). Однако за исключением самой первой итерации можно эффективно организовать перерешивание этой задачи. Действительно, предположим, что уже посчитано ^(ж/), а мы хотим посчитать ^(ж/+1). Поскольку согласно примерам 1, 2 ж/+1может отличаться от ж/только в двух компонентах, то пересчитать max CTk (А^ж^1), исходя из известного max CTk (А^ж^, можно за (см., например, [1,3]) k=1,...,m k=1,...,m O(2smlog2 m). Таким образом, общее ожидаемое число арифметических операций нового рандомизированного варианта МЗС из примеров 1, 2 для задачи (7) будет O ЛЛ2max || Ak ||1 R2 k=1,...,m Sm log2 m---------5--------- E2 Для матриц А, все отличные от нуля элементы которых одного порядка, скажем 0(1), имеем max ||Ak |2 = sn, max ||Ak ||1 = s2. k=1,...,m k=1,...,m В таком случае не стоит ожидать выгоды (формулы (8) и (9) будут выглядеть одинаково). Но если это условие (ненулевые элементы А одного порядка) выполняется не очень точно, то можно рассчитывать на некоторую выгоду. Рассмотрим теперь более общий класс задач, возникающих, например, при поиске равновесий в транспортных сетях [9] 1 r - max ст/ (А^ж) ^ min, Г 2—' /=ак + 1,...,bk xEQ k=1 0 = а1< b1= а2< b2 = аз < ... < br-1 = аг< br = m. Матрица А и числа sn, sm определяются аналогично. Привнося (при расчете стохастического градиента) к описанным выше двум подходам для задачи (7) сначала равновероятный (и независимый от других рандомизаций) выбор одного из слагаемых в этой сумме, получим соответствующие обобщения (для задачи (10)) оценок (8), (9), которые будут иметь точно такой же вид. Только матрица А собирается теперь из всех слагаемых суммы (10). Возвращаясь к примеру 3, заметим, что все описанные выше конструкции (в том числе, связанные с задачей (10)) можно перенести на этот пример, в случае, когда CTk (А^ж) = А^ж - bk. При этом R2 ^ Inn, ЛЛ = 1 (для (8), (9)) max Щк||2 ^ max |Ajj|, min{snsm log2 m,n} ^ max{snsm log2 m,n} (для (8)) k=1,...,m г=1,...,т J j=1,...,n max ||Ak ||1 ^ max Щк ||i, Sm log2 m ^ max{sm log2 m,n} (для (9)). k=1,...,m k=1,...,m Собственно, пример PageRank, изложенный в начале этого пункта, как раз подходил под применение оценки (8). С помощью п. 3 все написанное выше переносится и на задачи вида f (ж) ^ min Ax 5. Заключение Исследование в части 2 выполнено при поддержке гранта РФФИ 14-01-00722-а, исследования в частях 3, 4 — при поддержке гранта РФФИ 15-31-20571-мол_а_вед.
Список литературы Рандомизация и разреженность в задачах huge-scale оптимизации на примере работы метода зеркального спуска
- Nesterov Y.E. Subgradient methods for huge-scale optimization problems//CORE Discussion Paper 2012/2. 2012
- Nesterov Yu., Shpirko S. Primal-dual subgradient method for huge-scale linear conic problem//Optimization online. 2012. http://www.optimization-online.org/DB_FILE/2012/08/3590.pdf
- Аникин А.С., Гасников А.В., Горнов А.Ю., Камзолов Д.И., Максимов Ю.В., Нестеров Ю.Е. Эффективные численные методы решения задачи PageRank для дважды разреженных матриц//Труды МФТИ. 2015. Т. 7, № 4. С. 74-94. arXiv:1508.07607
- Гасников А.В., Двуреченский П.Е., Нестеров Ю.Е. Стохастические градиентные методы с неточным оракулом//Труды МФТИ. 2016. Т. 8 (в печати). arxiv:1411.4218
- Nemirovski A. Lectures on modern convex optimization analysis, algorithms, and engineering applications. Philadelphia: SIAM, 2013. http://www2.isye.gatech.edu/~nemirovs/Lect_ModConvOpt.pdf
- Allen-Zhu Z., Orecchia L. Linear coupling: An ultimate unification of gradient and mirror descent//e-print, 2014. arXiv:1407.1537
- Nesterov Y. Primal-dual subgradient methods for convex problems//Math. Program. Ser. B. 2009. V. 120(1). P. 261-283
- Juditsky A., Nemirovski A. First order methods for nonsmooth convex large-scale optimization, I, II. In: Optimization for Machine Learning/eds. S. Sra, S. Nowozin, S. Wright. MIT Press, 2012
- Гасников А.В., Двуреченский П.Е., Дорн Ю.В., Максимов Ю.В. Численные методы поиска равновесного распределения потоков в модели Бэкмана и модели стабильной динамики//Математическое моделирование. 2016. Т. 28 (в печати). arXiv:1506.00293
- Nesterov Yu. New primal-dual subgradient methods for convex optimization problems with functional constraints//International Workshop «Optimization and Statistical Learning». 2015, January 11-16. France. Les Houches. http://lear.inrialpes.fr/workshop/osl2015/program.html
- Немировский А.С., Юдин Д.Б. Сложность задач и эффективность методов оптимизации. М.: Наука, 1979
- Назин А.В., Поляк Б.Т. Рандомизированный алгоритм нахождения собственного вектора стохастической матрицы с применением к задаче PageRank//Автоматика и телемеханика. 2011. № 2. C. 131-141
- Гасников А.В., Двуреченский П.Е., Усманова И.Н. О нетривиальности быстрых (ускоренных) рандомизированных методов//Труды МФТИ. 2016. Т. 8 (в печати). arXiv:1508.02182
- Аникин А.С., Двуреченский П.Е., Гасников А.В., Тюрин А.И., Чернов А.В. Двойственные подходы к задачам минимизации сильно выпуклых функционалов простой структуры при аффинных ограничениях//ЖВМ и МФ. 2016. Т. 56 (подана). arXiv:1602.01686
- Никайдо Х. Выпуклые структуры и математическая экономика. М.: Мир, 1972
- Гасников А.В., Дмитриев Д.Ю. Об эффективных рандомизированных алгоритмах поиска вектора PageRank//ЖВМ и МФ. 2015. Т. 55, № 3. С. 355-371