Обзор архитектуры рекуррентного трансформера в контексте нейронных сетей с памятью

Автор: Булатов А.С., Куратов Ю.М., Бурцев М.С.

Журнал: Труды Московского физико-технического института @trudy-mipt

Рубрика: Информатика и управление

Статья в выпуске: 4 (64) т.16, 2024 года.

Бесплатный доступ

Проводится обзор нейросетевых архитектур с дополненной памятью (Memory-Augmented Neural Networks, MANN) с фокусом на модель рекуррентного трансформера с памятью (Recurrent Memory Transformer, RMT) для задач с длинным контекстом. Архитектура Трансформер показазывает высокую эффективность в обработке текстов, изображений и речи, однако их применение к длинным последовательностям ограничено квадратичной вычислительной сложностью механизма внимания и сложностью раздельного хранения локальной и глобальной информации. Рассматриваются ключевые модели с памятью с фокусом на обработку естественного языка. В этом контексте мы анализируем архитектуру RMT, которая преодолевает эти ограничения с помощью рекуррентного механизма памяти, добавляя специальные токены, позволяющие сохранять и передавать информацию между сегментами последовательности. Это решение дает возможность модели обрабатывать как локальные, так и глобальные зависимости, сохраняя вычислительную эффективность и масштабируемость. Экспериментальные данные показывают, что RMT превосходит аналоги, такие как Transformer-XL, в обработке длинных последовательностей, демонстрируя высокую эффективность даже при ограниченных ресурсах памяти. Данная архитектура представляет собой перспективное решение для широкого класса задач, требующих учёта длинного контекста, таких как алгоритмическое моделирование и рассуждения.

Еще

Глубокое обучение, рекуррентные нейронные сети, обработка естественного языка

Короткий адрес: https://sciup.org/142243844

IDR: 142243844   |   УДК: 004.855.5

Текст научной статьи Обзор архитектуры рекуррентного трансформера в контексте нейронных сетей с памятью

1.    Введение Рис. 1. Рекуррентный Трансформер с памятью [1]. Модель основана па архитектуре Трансформер и применяется к последовательности, разбитой па сегменты. Также во входную последовательность модели (segment 1) добавляется память в виде токенов (mem), а выход памяти передается в следующий сегмент (segment 2). Для эпко-дера (а) память добавляется в начале, а в декодере (Ь) - в начале и конце. Во время обучения градиенты проходят от текущего сегмента через память к предыдущему сегменту

Архитектуры нейронных сетей с памятью (Memory-Augmented Neural Networks, MANN) играют важную роль в решении задач, требующих использования длительного контекста и учёта сложных зависимостей, особенно в области обработки естественного языка (NLP). Такие модели позволяют хранить и использовать информацию на протяжении всей последовательности, что особенно важно для задач, где необходимо учитывать как локальные, так и глобальные зависимости. Развитие MANN включает множество подходов, начиная с ранних моделей с внешней памятью, таких как RNN и LSTM [2] до более современных подходов, использующих внутренние механизмы внимания [3,4] и памяти [1,5,6].

В данной статье обсуждается эволюция и ключевые этапы развития нейросетевых архитектур с памятью, с фокусом на их преимущества и ограничения. Анализируются причины появления и усовершенствования моделей с памятью, таких как Transformer-XL [7] и Longformer [8], которые вводят механизмы для обработки длинных последовательностей и частичного внимания для повышения вычислительной эффективности. Эти архитектуры расширили возможности стандартного Трансформера, однако остаются ограниченными в обработке по-настоящему длинных последовательностей.

На этом фоне выделяется архитектура Рекуррентного Трансформера с памятью (Recurrent Memory Transformer, RMT) [1], которая представляет собой значительное развитие в области нейросетевых моделей с памятью. RMT использует специальные токены памяти, что позволяет модели эффективно сохранять и передавать как локальные, так и глобальные признаки через всю длину последовательности. В отличие от многих других архитектур, RMT способен рекуррентно обрабатывать последовательности произвольной длины, разделяя их на сегменты и передавая состояния памяти между ними.

В данной работе обсуждаются основные результаты, полученные с использованием рекуррентного Трансформера с памятью [1, 9-11] в контексте области исследований нейросетевых архитектур с памятью (Memory-Augmented Neural Networks, MANN). Мы делаем акцент на моделях нейронных сетей с дополненной памятью и их применении для решения задач, связанных с обработкой длинных последовательностей. Рассматриваются преимущества RMT и его способность обобщать операции с памятью на различные задачи и длины последовательностей, демонстрирующие значительное преимущество перед аналогами в вычислительной эффективности и масштабируемости.

Вклад данной работы

В данном исследовании рассматривается направление исследований и ochobhbic нейросетевые модели с памятвю для обработки естественного языка. В указанном контексте обсуждается модификация архитектур bi Трансформер с добавлением памяти в виде токенов и рекуррентноствю на уровне сегментов (RMT). RMT сравнивается с аналогами, такими как базовая модель Трансформер, Transformer-XL, в том числе на задачах, требующих интенсивного использования памяти, таких как копирование, реверсирование, ассоциативный поиск, моделирование языка и другие задачи. Обсуждаются преимущества, недостатки и область применимости данной архитектуры.

2.    Нейросетевые архитектуры с памятью

Память в нейросетевых моделях напрямую связана со временной составляющей решаемой задачи. Временная обработка возникает в основном в двух случаях: обработка одной и той же информации последовательно либо добавление дополнительной информации на каждом временном шаге. В нейросетевых моделях с памятью (Memory-Augmented Neural Networks, MANN) память естественным образом выступает в качестве связующего звена между временными этапами, однако существует и множество других применений.

2.1.    Ассоциативная память

Одной из ключевых задач ранних подходов к моделированию памяти была реализация операции адресации по содержимому. Для того чтобы сделать операции с памятью более выразительными, необходимо реализовать способ доступа к информации из памяти на основе ее содержания, или, другими словами, используя ассоциацию с текущим запросом. Ранние модели ассоциативной памяти представляли собой системы, хранящие информацию в виде паттернов активации нейронов. [12] усовершенствовал физически обоснованную голографическую память, а [13] разработал концептуальную структуру сетей, способных улавливать контекстно-чувствительные высокоуровневые ассоциации.

Прямой способ реализации более общей адресации содержания был предложен Джоном Хопфилдом в 1982 году [14]. Простейшая ассоциативная память представляет собой весовую матрицу W, построенную как сумма внешних произведений N бинарных паттернов {хД^1; Xi G {—1,1}d, г де d - длина паттернов. Основной способ извлечения ассоциации с паттерном состояния £ заключается в многократном умножении паттерна на матрицу весов, извлечении вектора смещения (порога) b и взятии знака до тех пор, пока Д+1 = £*:

Этот процесс извлечения подкреплен теоретическими гарантиями сходимости, поскольку правило обновления минимизирует энергетическую функцию системы.

2.2.    Память в весах

Введение и популяризация обучения с помощью градиентного спуска и обратного распространения [15-17] привели к тому, что более сложные и общие архитектуры стали поддаваться обучению. Таким образом, веса нейронной сети w выступают в качестве неявного хранилища памяти, которое сохраняет паттерны из обучающих данных в параметры и повторно использует их в дальнейшем для выполнения задачи на новых данных. Хранение информации в весах имеет некоторые ограничения. Запись в память осуществляется с помощью градиентного спуска, что приводит к необходимости задачи обучения и явной функции потерь. Кроме того, после обучения нельзя легко добавить новые данные в память без дополнительного обучения и изменения производительности модели.

2.3.    Быстрые веса

Для решения проблемы хранения памяти в «медленных» регулярных весах модели предлагается альтернативная концепция быстрых весов. Предлагаемые веса обновляются чаще, чем медленные веса, и в целом могут обновляться без необходимости использования функции потерь.

В работе [18], вдохновленной более ранними работами ([19, 20]), реализуются быстрые веса в качестве кратковременной ассоциативной памяти, которая улучшает временное обучение и рекурсивную обработку. В других работах быстрые веса интегрируются в различные нейронные архитектуры для улучшения их свойств запоминания. [21] использует отдельный набор весов в качестве контроллера для «медленной» рекуррентной нейронной сети. Добавленные веса определяются на основе входных и выходных данных RNN на данном временном шаге и служат дополнительным хранилищем временной информации и адаптивной привязкой временных переменных. Авторы [22] черпают вдохновение в физиологии и понятии рабочей памяти, постепенно деконструируемой из текущего состояния. Быстрая ассоциативная память действует между временными шагами во внутреннем цикле, постепенно обновляя матрицу быстрых весов с помощью правила внешнего произведения. [23] показывает формальную эквивалентность механизма линейного внимания контроллерам быстрых весов, улучшая емкость памяти на основе этих наблюдений.

3.    MANN для обработки последовательностей

Некоторые задачи требуют обработки последовательностей различного происхождения, например, данные из всех типов языков обычно воспринимаются как последовательность слов или букв. Данные различной длины также часто обрабатываются последовательно, чтобы сохранить фиксированное количество параметров. Еще одним источником последовательных данных являются задачи с временными зависимостями, например временные ряды, дискретные или непрерывные сигналы или видеокадры.

Естественным способом обработки последовательных типов данных является рекуррентный, когда элементы последовательности обрабатываются по очереди, начиная с одного конца последовательности и переходя к другому.

3.1.    RNN

Рекуррентная нейронная сеть (RNN) - это простая нейронная архитектура для обработки последовательностей. Согласно [24], первые необучаемые RNN появились еще в 1920-х годах [25] и позже обсуждались в [26], а первые обучаемые версии были опубликованы в [27]. В данной работе рассматривается простая модель RNN, основанная на полносвязных слоях W с нелинейной функцией активации у? и одним скрытым состоянием ht. На каждом временном шаге t RNN получает входной сигнал xt и выдает вых одной сигнал yt. Для передачи информации между временными шагами RNN использует состояние памяти ht, которое можно представить как рекуррентную связь, соединяющую выход модели с ее входом на следующем временном шаге. Рекуррентная связь обычно реализуется как скрытое состояние ht - вещественно-значимый вектор, который сохраняется на временном шаге t и используется в качестве входа на следующем шаге t + 1. Рекуррентная связь -это форма кратковременной памяти, сохраняющая информацию из прошлого. Иногда ее рассматривают как аналог обратной связи в мозге человека, которая соединяет одни внутренние узлы с другими, позволяя им работать совместно.

Т1тобы обучить RNN с помощью обратного распространения, нужно, чтобы градиент с выхода ячейки через рекуррентную связь перетекал в прошлые временные шаги. Эта техника называется обратным распространением по времени (ВРТТ) [28,29]. При увеличении числа шагов обучение сталкивается с проблемой исчезающего или взрывающегося градиента, как было показано в 1991 году и позже исследовано в [30]. Интуитивно понятно, что RNN полностью переписывает содержимое своей памяти на каждом шаге, что делает все более трудным сохранение информации в памяти в течение длительных периодов времени. Кроме того, не существует явных механизмов для фильтрации ненужных входов или удаления информации из памяти, эти задачи возлагаются на основной слой feed-forward.

3.2.    LSTM

Архитектура с длинной краткосрочной памятью (Long short-term memory, LSTM) [2] вводит отдельное состояние ячейки с, которое хранится и обновляется иначе, чем RNN-подобное скрытое состояние h. Это дополнительное состояние обеспечивает явное пространство для хранения, специально для памяти, увеличивая возможный объем сохраняемой информации. Операции с входом и памятью выполняются отдельными гейтами памяти: гейтом забывания, входным гейтом, производящим состояние состояния-кандидата, и выходным гейтом. Раздельная обработка памяти с более тонкими изменениями памяти обеспечивает «постоянный поток ошибок» на этапе обратного распространения и позволяет улавливать более длинные временные зависимости. Архитектура LSTM завоевала популярность в академических и промышленных приложениях, решая широкий спектр задач -от завершения текста и машинного перевода до обработки сигналов.

Прямой преемник LSTM под названием Gated Recurrent Unit [31] предлагает способ уменьшить количество гейтов и сохранить только одно состояние памяти, но при этом сохранить экспрессивность архитектуры. Операции сброса и обновления объединяются в одном затворе, выполняющем обновление состояния памяти. Таким образом, архитектура становится более простой и легче поддается обучению, а ее производительность в целом не уступает LSTM.

3.3.    Память на основе механизма внимания

В течение многих лет рекуррентные модели преобладали в области обработки естественного языка, включая задачи преобразования последовательности в последовательность, такие как машинный перевод. RNN часто используются в более сложных архитектурах, таких как двунаправленные RNN, глубокие многослойные модели и структуры энкодер-декодер. Однако, когда длина транслируемых последовательностей увеличивается, рекуррентным моделям становится все труднее поместить всю последовательность в свое скрытое состояние. Это приводит к так называемому «узкому месту в скрытом состоянии», когда RNN ограничена емкостью своего единственного состояния памяти фиксированной длины. Чтобы решить эту проблему, авторы [3] предлагают добавить «модель выравнивания» в де-кодерную часть. Кодер BiRNN получает аннотацию каждого входного слова, и на каждом шаге генерации контекстный вектор вычисляется как взвешенная сумма входных аннотаций. Веса вычисляются моделью выравнивания и имеют значение релевантности текущему контексту, или, другими словами, внимания.

Использование внимания устраняет узкое место в скрытых состояниях, поскольку информация может быть распределена по скрытым состояниям каждого входного элемента, а не сжиматься в одном состоянии памяти.

Можно рассматривать внимание как механизм ассоциативной памяти, который может извлекать релевантную информацию из нескольких состояний прошлой памяти. Такая организация памяти может рассматриваться как противоположная той, что существует в RNN. В рекуррентной памяти вся информация из прошлого должна быть эффективно сжата в одно состояние, что требует обучения сложным и глубоким операциям сжатия, выполняемым за несколько временных шагов. Распределенная память, используемая в механизме внимания, может быть более поверхностной и необработанной и, как правило, может быть независимой друг от друга, объединяясь только с помощью внешней операции.

Понятие внимания становится все более популярным в исследованиях по обработке естественного языка. Оно используется наряду с рекуррентностью в нейронной машине Тьюринга (NTM) [32]. Эта архитектура эквивалентна машине Тьюринга, но заменяет все операции на дифференцируемые, чтобы сделать возможным обучение с помощью градиентного спуска. Память разделена на несколько мест, и каждая операция чтения, по сути, извлекает взвешенную сумму векторов памяти, реализуя доступ по содержанию. Веса внимания вычисляются аналогичным образом, используя косинусоидальное сходство между векторами памяти и произведенным ключевым вектором. Другой тип доступа - по местоположению - реализуется с помощью вращательного сдвига, обогащающего операции с памятью. Запись в память осуществляется шагами «стирание» и «добавление», реализуя фильтрацию ввода и удаление из памяти.

NTM, Дифференцируемый нейронный компьютер (DNC) [33] и Sparse DNC [34] реализованы как рекуррентные нейронные сети, способные записывать данные в память с течением времени. Все эти модели дифференцируемы и могут быть обучены методом обратного распространения по времени (ВРТТ). Параллельное направление исследований расширяет рекуррентные нейронные сети, такие как LSTM, с помощью таких структур данных, как стеки, списки или очереди [35,36].

Вышеупомянутые модели используют память в основном для обработки коротких зависимостей, имитируя кратковременную память в человеческом мозге. Другое направление работы направлено на реализацию аналогов для долговременной памяти, использующих схожие концепции и механизмы. Memory Networks [5] реализуют более долговременное хранение данных путем формализации класса моделей, дополненных памятью и компонентами стандартных операций Input feature map, Generalization, Output feature map и Response. В предложенной модели используется скоринговая функция для объединения воспоминаний о прошлых временных шагах и рекуррентная нейронная сеть для генерации. Операции памяти отделены от операций обработки основной последовательности, что позволяет сфокусировать память на улавливании более долгосрочных зависимостей. Еще одним важным отличием является то, что авторы рассматривают обширную память объемом до 14 миллионов предложений.

3.4.    Архитектура Трансформер

В конечном итоге подходы, основанные на внимании, стали стандартом в [4], когда была представлена архитектура трансформера. Предложенный энкодер-декодер был построен исключительно из блоков внимания, а позиционная информация была включена в представления токенов с помощью позиционного кодирования, представляющего собой функцию, зависящую от времени. Энкодер внимания позволил взаимодействовать двум элементам на каждом уровне, что привело к созданию плотных и глубоко контекстуализированных репрезентаций.

Существенным отличием энкодера трансформера является то, что он изначально не имеет доступа к временным зависимостям между запомненными представлениями, поэтому информацию о времени приходится добавлять извне. Это противоречит рекуррентным сетям, которые обновляют свои представления вместе с шагами последовательности и наследуют от них временную информацию. Еще одно важное изменение заключается в том, что глубина представлений, получаемых энкодером трансформера, фиксирована по отношению к количеству слоев, в отличие от RNN, которые обновляют представление скрытого состояния на каждом временном шаге, увеличивая глубину и сжимая хранимые воспоминания. Это ограничение может привести к недостаточной выразительности архитектуры Трансформера и недостаточной производительности в задачах, требующих сложных многоэтапных рассуждений. Universal Transformer [37] допускает промежуточные вычисления между временными шагами, следуя более ранним методам для RNNs [38]. Это значительно улучшает выразительность архитектуры модели, делая ее Тыоринг-полной. В этом случае память, хранящаяся в скрытых состояниях, служит не только для передачи информации из прошлого, но и для хранения промежуточных результатов между этапами вычислений.

3.5.    Трансформеры с памятью

Как уже говорилось ранее, Трансформер хранит воспоминания в скрытых состояниях, чтобы передать их будущим токенам во время операции внимания. Однако те же скрытые пространства и веса модели, которые работают с памятью, должны использоваться для основной задачи, например, для предсказания следующего токена. Это приводит к смешиванию локальных особенностей, связанных с задачей, и глобальных особенностей контекста в одних и тех же скрытых состояниях. Трансформер с памятью (Memory Transformer, МТ) [6] использует глобальные токены как отдельное хранилище глобальных признаков и промежуточных результатов вычислений в виде токенов памяти, конкатенированных и обрабатываемых вместе с токенами последовательности. Такая память МТ существенно отличается по назначению от рассмотренных ранее методов и больше связана с понятием рабочей памяти.

Дополнительные токены могут быть использованы и для решения другой фундаментальной проблемы Трансформера. Введенное попарное взаимодействие между состояниями памяти привело к новой проблеме - квадратичной вычислительной сложности по отношению к размеру входных данных. Это делало масштабирование размера окна внимания и, соответственно, улавливание долгосрочных зависимостей все более дорогостоящим. За прошедшие годы было предложено множество методов снижения сложности. Одно из основных направлений связано с разнесением маски внимания и введением дополнительных механизмов, снижающих потери от уменьшения охвата входных данных. Longformer [8] ограничивает расстояние внимания фиксированным значением, используя внимание со скользящим окном. Чтобы позволить более удаленным токенам общаться, авторы вводят глобальные токены, которые могут обслуживать всю входную последовательность, а также могут быть видны всем токенам на каждом слое. Big Bird [39] добавляет случайное разреженное внимание для дальнейшего увеличения охвата, сохраняя при этом линейную сложность.

Transformer-XL [7] решает проблему обработки длинных контекстов путем введения рекуррентности на уровне сегментов. Модель разбивает входной сигнал на сегменты фиксированного размера и обрабатывает их рекуррентным образом. Чтобы сохранить информацию из прошлых сегментов, Transformer-XL создает кэш скрытых состояний фиксированной длины и повторно использует их для привлечения внимания в будущих сегментах. Память в этом случае состоит из представлений всех кэшированных токенов на всех слоях, что делает хранение и доступ к памяти дорогим. По этой причине Compressive Transformer [40] и Memformer [41] вводят дополнительные операции сжатия кэша в хранилище фиксированного размера. MART [42] использует подход, схожий с Memformer, но использует правила обновления памяти, аналогичные LSTM [2] и GRU [31]. Модель ж-former [43] использует механизм внимания в непрерывном пространстве и представляет входную последовательность в виде непрерывного сигнала, что позволяет сделать память неограниченной. В модели Memory Layers [44] используется слой памяти на основе ключевых продуктов вместо слоя прямого распространения в Трансформерном блоке для увеличения емкости модели.

3.6.    Современные рекуррентные сети

В то время как Трансформер преобладает в области NLP, появляется все больше работ, подчеркивающих неэффективность его архитектуры и предлагающих альтернативные решения. Недавнее возрождение RNN было вызвано множеством работ, которые обеспечили связь с теорией пространства состояний, улучшив обучение и возможности классической архитектуры RNN [45-47]. Такой взгляд на RNN позволил использовать теорию SSM для улучшения качества сжатия различных типов сигналов в условиях ограниченной памяти. Впоследствии RWKV [48] предложил переформулировку механизма линейного внимания для эффективного обучения и вывода, a Mamba [49] ввел операции фильтрации и сброса памяти, чтобы сделать взаимодействие с памятью более выразительным. В более сложных архитектурах, таких как Jamba [50], чередуются слои трансформера и рекуррентного трансформера, что позволяет эффективно сочетать их сильные стороны в обработке последовательностей.

4.    Рекуррентный трансформер с памятью

Рекуррентный Трансформер с памятью (Recurrent Memory Transformer, RMT) [1] расширяет концепцию МТ до рекуррентности на уровне сегментов. Промежуточные результаты вычислений, хранящиеся в токенах памяти, передаются на вход следующего сегмента, образуя рекуррентное соединение. Результирующая архитектура имеет два типа памяти: кратковременная память хранится в представлениях токенов сегментов, а долговременная версия из прошлых сегментов хранится в токенах памяти и доступна на каждом слое. Операции с памятью изучаются и выполняются самой моделью, что позволяет изучать сложные паттерны запоминания. Явное место хранения в токенах памяти позволяет обобщить модель на последовательности с миллионами токенов [9, 11]. Опираясь на эти идеи,

Ассоциативный рекуррентный Трансформер с памятью [51] улучшает механизм памяти RMT, вводя отдельные веса для операций памяти и отдельную ассоциативную память для каждого слоя, вдохновленный линейным вниманием и [23].

В отличие от Transformer-XL, который сохраняет состояния слоёв для каждого сегмента и использует их с помощью механизмов стоп-градиента, RMT хранит меньше токенов памяти — лишь фиксированное число m токенов на сегмент, что значительно снижает требование к ресурсам памяти при долгосрочном хранении информации. Это упрощает модель и повышает её масштабируемость. Важным преимуществом RMT является интеграция токенов памяти на каждом слое сети, что делает память более глубокой и позволяет токенам текущего сегмента обращаться к полным представлениям прошлых сегментов на уровне всех слоев. Это расширяет возможности модели в запоминании и использовании более долгосрочных зависимостей без ограничения эффективной длиной контекста.

Важная особенность RMT заключается также в его способности сохранять сквозное распространение градиентов между сегментами в процессе обратного распространения по времени (ВРТТ). Эта методика позволяет модели аккумулировать долгосрочные зависимости, обеспечивая лучшее сохранение информации между сегментами в сравнении с механизмом остановки градиента в Transformer-XL. Гиперпараметр глубины распространения градиента позволяет управлять балансом между точностью и требуемыми вычислительными ресурсами, а применение техник оптимизации, таких как градиентные чекпоинты, позволяет адаптировать модель к высоким вычислительным нагрузкам, делая RMT эффективной и гибкой для различных задач и последовательностей большой длины.

5.    Анализ эффективности RMT5.1.    Алгоритмические задачи

Эксперименты, проведенные в [1], оценивали способность RMT сохранять долгосрочные зависимости для выполнения различных алгоритмических задач, требующих запоминания и обработки полной входной последовательности. Модель RMT сравнивалась с традиционным Трансформером и Transformer-XL на задачах Копирование - воспроизведение входной последовательности после специального токена, Реверсирование - генерация входной последовательности в обратном порядке, Ассоциативный поиск - поиск значения, соответствующего выбранному ключу из списка пар ключ-значение, Решение квадратных уравнений - генерация решения и проверка корректности ответа для квадратного уравнения.

Результаты показали, что RMT превосходит Transformer-XL и базовый Трансформер в задачах, требующих сохранения долгосрочных зависимостей, особенно при увеличении количества сегментов. В задачах копирования и реверсирования RMT демонстрирует устойчивую производительность даже при разделении последовательности на б и более сегментов, в то время как точность Transformer-XL значительно падает. В задаче ассоциативного поиска RMT справляется с увеличением числа сегментов до 4, тогда как производительность Transformer-XL снижается. Также RMT сохраняет высокую точность при увеличении длины последовательности, в отличие от Transformer-XL, производительность которого деградирует с ростом длины последовательности.

5.2.    Языковое моделирование

Эксперименты по языковому моделированию на Wikitext-ЮЗ и enwik8 показали [1], что RMT лучше сохраняет долгосрочные зависимости и обрабатывает повторяющиеся шаги, чем стандартный Трансформер и Transformer-XL. В задачах на уровне слов (Wikitext-103) RMT и Transformer-XL значительно превосходят базовые модели за счёт использования памяти: RMT достигает аналогичной с Transformer-XL производительности при меньшем объёме памяти (например, RMT с размером памяти 10 показывает результаты, сопоставимые с Transformer-XL с памятью 75). Это делает RMT более эффективным в использовании GPU-памяти. При уменьшении размера сегментов (50 токенов для Wikitext-ЮЗ) и увеличении числа рекуррентных шагов RMT остаётся устойчивой и сохраняет производи- тельность. Более того, комбинирование RMT с кэшем Transformer-XL как кратковременной памяти улучшает результаты, особенно на Wikitext-ЮЗ, где такая архитектура превосходит стандартный Transformer-XL, эффективно поддерживая как кратковременные, так и долгосрочные зависимости.

Результаты по масштабированию RMT на большие длины последовательностей [9] показали, что использование RMT в сочетании с обучением по расписанию (curriculum learning) позволяет эффективно адаптировать модели, изначально обученные на более коротких последовательностях, к задачам, требующим значительно большей длины контекста. Это показывает, что изначально заданная моделью длина входной последовательности не ограничивает её потенциальные возможности, что открывает новые перспективы в адаптивности трансформеров.

5.3.    Другие задачи

В экспериментах на задачах, требующих запоминания и базового рассуждения, RMT продемонстрировала способность эффективно обрабатывать последовательности, значительно превышающие изначально заданную длину сегмента [10]. Начальное обучение на коротких последовательностях позволило модели быстрее осваивать более длинные задачи, показывая высокую обобщаемость на последовательности, включающие до 5 сегментов. Интересно, что при обучении на 5 и более сегментах RMT способна обобщать на задачи почти в два раза большей длины. Для проверки предела обобщаемости длина последовательностей увеличивалась до 4096 сегментов (или более 2 миллионов токенов). В таких условиях модель сохраняет высокое качество, особенно на задачах «Найти и запомнить», тогда как задачи с элементами рассуждения оказались более сложными.

Бенчмарк BABILong [11] представляет собой набор логических задач для оценки способностей языковых моделей к размышлению на больших контекстах. Несмотря на простоту задач, большинство лидирующих моделей испытывают сложности при увеличении размера контекста. Напротив, модель RMT с небольшим числом параметров (127 миллионов), обученная на 16 тысячах токенов, показывает высокие способности к логическому мышлению и обобщению на большие длины последовательностей до десятков миллионов токенов.

На основе архитектуры RMT также появляются модели в других областях машинного обучения. В области обработки геномных данных RMT используется для расширения контекста базовых моделей, таких как GENA-LM [52] на длины последовательностей до 3 • 104 нуклеотидов [53]. Модификация приводит к улучшению качества решения таких задач, как определение вида и предсказания эпигенетических признаков. В области обучения с подкреплением основанная на RMT архитектура RATE (Recurrent Action Transformer with Memory) [54] использует рекуррентный механизм для сохранения информации от предыдущих моментов времени, что позволяет достигать наилучших результатов в средах, требующих интенсивного использования памяти. RMT-BVQA (Recurrent Memory Transformer based Blind Video Quality Assessment) [55] использует архитектуру, основанную на RMT для оценки качества видеоконтента. Данный метод показывает наилучшую корреляцию с мнением оценщиков по сравнению с другими методами VQA.

6.    Заключение

Развитие нейросетевых архитектур с памятью привело к ряду значимых улучшений в обучении и работе языковых моделей, включая трансформеры. С момента появления трансформеров проблема масштабирования на длинных последовательностях привлекала активное внимание исследователей. В данной работе изучается рекуррентный Трансформер с памятью (RMT), который расширяет базовую архитектуру трансформера с помощью механизмов памяти и рекуррентности, что позволяет эффективно справляться с задачами на длинных последовательностях. Основное преимущество RMT состоит в использовании специальных токенов памяти, сохраняющих и передающих как локальные, так и глобальные зависимости между сегментами, тем самым устраняя ограничения на длину входных данных и снижая вычислительные затраты.

Архитектура RMT выделяется среди других нейросетевых моделей с памятью своей способностью эффективно сохранять и использовать долгосрочные зависимости в последовательностях, при этом оставаясь устойчивой на очень длинных входных данных, что достигается благодаря рекуррентной передаче токенов памяти между сегментами. В отличие от моделей, таких как Transformer-XL, где применяется ограниченная память с механизмом остановки градиента, RMT сохраняет сквозное распространение градиентов, позволяя лучше запоминать связи между удаленными сегментами. Этот подход делает модель более простой и менее ресурсозатратной при обработке длинных последовательностей, снижая требования к объему GPU-памяти, что особенно полезно при работе с задачами на больших входных последовательностях, такими как языковое моделирование и алгоритмические задачи.

RMT применима в задачах, где требуется последовательная обработка либо запоминание последовательностей большого объема, например, в сложных алгоритмических задачах, языковом моделировании и решении задач, связанных с длительными контекстами и взаимодействием разных частей текста. Её эффективность особенно проявляется при использовании curriculum learning, что позволяет масштабировать модель на последовательности, выходящие за пределы изначально заданной длины.

Данная архитектура имеет ограничения: по мере роста длины и сложности задач, особенно на более сложных уровнях рассуждения, наблюдается снижение производительности. В таких случаях модель RMT требует тщательной настройки гиперпараметров и использования оптимизаций, таких как градиентные чекпоинты, для балансировки между точностью и вычислительными затратами. Также RMT наследует преимущества и недостатки рекуррентных сетей, так как память выражена при помощи единственного скрытого состояния. Состояния хранятся в сжатом виде в состояниях памяти, что требует более тщательной обработки и может приводить к потерям информации. Для обхода части этих ограничений возможно сохранение нескольких состояний памяти [56] либо организации более сложного хранилища [32].

Таким образом, RMT является перспективной нейросетевой архитектурой с памятью, представляя эффективное решение для адаптации трансформеров к задачам с длинными последовательностями. Эта модель предоставляет новые возможности для работы с более сложными задачами и масштабными данными, что делает её особенно полезной для приложений, связанных с алгоритмическими задачами, рассуждением и обработкой естественного языка.

Работа выполнена при поддержке гранта для исследовательских центров в области искусственного интеллекта, предоставленного Аналитическим центром при Правительстве Российской Федерации в соответствии с соглашением о предоставлении субсидии (идентификатор соглашения 000000D730321P5Q0002) и договором с Московским физикотехническим институтом (национальным исследовательским университетом) от 1 ноября 2021 г. № 70-2021-00138.

Список литературы Обзор архитектуры рекуррентного трансформера в контексте нейронных сетей с памятью

  • Bulatov A., Kuratov Y., Burtsev M. Recurrent Memory Transformer // Advances in Neural Information Processing Systems. 2022. V. 35. P. 11079–11091.
  • Hochreiter S., Schmidhuber J. Long Short-Term Memory // Neural Computation. 1997. V. 9, N 8. P. 1735–1780. DOI: 10.1162/neco.1997.9.8.1735. URL: https://doi.org/10.1162/neco.1997.9.8.1735.
  • Bahdanau D., Cho K.H., Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate // 3rd International Conference on Learning Representations, ICLR 2015. 2015.
  • Vaswani A. Attention Is All You Need // Advances in Neural Information Processing Systems. 2017. P. 5998–6008. URL: http://papers.nips.cc/paper/7181-attention-is-all-youneed.
  • Weston J., Chopra S., Bordes A. Memory Networks // 3rd International Conference on Learning Representations, ICLR 2015. 2015. URL: http://arxiv.org/abs/1410.3916.
  • Burtsev M.S., Kuratov Y., Peganov A., Sapunov G.V. Memory Transformer // arXiv preprint arXiv:2006.11527. 2020.
  • Dai Z., Yang Z., Yang Y., Carbonell J., Le Q.V., Salakhutdinov R. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics, 2019. P. 2978–2988. DOI: 10.18653/v1/P19- 1285. URL: https://aclanthology.org/P19-1285.
  • Beltagy I., Peters M.E., Cohan A. Longformer: The Long-Document Transformer // arXiv preprint arXiv:2004.05150. 2020.
  • Bulatov A., Kuratov Y., Burtsev M.S. Scaling transformer to 1m tokens and beyond with RMT // arXiv preprint arXiv:2304.11062.
  • Bulatov A., Kuratov Y., Kapushev Y., Burtsev M. Beyond Attention: Breaking the Limits of Transformer Context Length with Recurrent Memory // Proceedings of the AAAI Conference on Artificial Intelligence. 2024. V. 38. P. 17700–17708.
  • Kuratov Y., Bulatov A., Anokhin P., Rodkin I., Sorokin D., Sorokin A., Burtsev M. BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack // arXiv preprint arXiv:2406.10149. 2024.
  • Willshaw D.J., Buneman O.P., Longuet-Higgins H.C. Non-Holographic Associative Memory // Nature. 1969. V. 222, N 5197. P. 960–962.
  • Hinton G.E., Anderson J.A. Parallel Models of Associative Memory. 1981.
  • Hopfield J.J. Neural Networks and Physical Systems with Emergent Collective Computational Abilities // Proceedings of the National Academy of Sciences. 1982. V. 79, N 8. P. 2554–2558.
  • Werbos P.J. Applications of Advances in Nonlinear Sensitivity Analysis // System Modeling and Optimization / ed. R.F. Drenick, F. Kozin. Berlin, Heidelberg: Springer Berlin Heidelberg, 1982. P. 762–770.
  • Rumelhart D.E., Hinton G.E., Williams R.J. Learning Internal Representations by Error Propagation // Biometrika. 1986. V. 71. P. 599–607.
  • Rumelhart D.E., Hinton G.E., Williams R.J. Learning Representations by Back- Propagating Errors // Nature. 1986. V. 323, N 6088. P. 533–536.
  • Hinton G.E., Plaut D.C. Using Fast Weights to Deblur Old Memories // Proceedings of the Ninth Annual Conference of the Cognitive Science Society. 1987. P. 177–186.
  • Von Der Malsburg C. The Correlation Theory of Brain Function // Models of Neural Networks: Temporal Aspects of Coding and Information Processing in Biological Systems. Springer, 1994. P. 95–119.
  • Feldman J.A., Ballard D.H. Connectionist Models and Their Properties // Cognitive Science. 1982. V. 6, N 3. P. 205–254.
  • Schmidhuber J. Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Networks // Neural Computation. 1992. V. 4, N 1. P. 131–139.
  • Ba J.L., Hinton G.E., Mnih V. Using Fast Weights to Attend to the Recent Past // Advances in Neural Information Processing Systems. 2016. V. 29.
  • Schlag I., Irie K., Schmidhuber J. Linear Transformers Are Secretly Fast Weight Programmers // International Conference on Machine Learning. PMLR, 2021. P. 9355–9366.
  • Schmidhuber J. Annotated history of modern AI and deep learning // arXiv preprint arXiv:2212.11279. 2022.
  • Lenz W. Beitrag zum VerstГ¤ndnis der magnetischen Erscheinungen in festen Korpern // Z. Phys. 1920. V. 21. P. 613–615.
  • McCulloch W.S., Pitts W. A logical calculus of the ideas immanent in nervous activity // The Bulletin of Mathematical Biophysics. 1943. V. 5, N 4. P. 115–133.
  • Amari S.-I. Characteristics of random nets of analog neuron-like elements // IEEE Transactions on Systems, Man, and Cybernetics. 1972. N 5. P. 643–657.
  • Werbos P.J. Generalization of backpropagation with application to a recurrent gas market model // Neural Networks. 1988. V. 1, N 4. P. 339–356.
  • Williams R.J., Zipser D. Gradient-based learning algorithms for recurrent networks and their computational complexity // Backpropagation. Psychology Press, 1992. P. 433–486.
  • Bengio Y., Simard P., Frasconi P. Learning long-term dependencies with gradient descent is difficult // IEEE Transactions on Neural Networks. 1994. V. 5, N 2. P. 157–166.
  • Cho K. On the Properties of Neural Machine Translation: Encoder–Decoder Approaches // Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation. Doha, Qatar: Association for Computational Linguistics, 10.2014. P. 103–111. DOI: 10.3115/v1/W14-4012. URL: https://aclanthology.org/W14-4012.
  • Graves A., Wayne G., Danihelka I. Neural Turing Machines // arXiv preprint arXiv:1410.5401. 2014.
  • Graves A., Wayne G., Reynolds M., Harley T., Danihelka I., Grabska-Barwinska A.,... Hassabis D. Hybrid computing using a neural network with dynamic external memory // Nature. 2016. Oct. V. 538, N 7626. P. 471–476. ISSN 00280836. URL: http://dx.doi.org/10.1038/nature20101.
  • Rae J., Hunt J.J. Danihelka I., Harley T., Senior A.W., Wayne G.,... Lillicrap T. Scaling Memory-Augmented Neural Networks with Sparse Reads and Writes // arXiv preprint arXiv:1610.09027. 2016.
  • Joulin A., Mikolov T. Inferring Algorithmic Patterns with Stack-Augmented Recurrent Nets // arXiv preprint arXiv:1503.01007. 2015.
  • Grefenstette E., Hermann K.M., Suleyman M., Blunsom P. Learning to Transduce with Unbounded Memory // arXiv preprint arXiv:1506.02516. 2015.
  • Dehghani, M., Gouws, S., Vinyals O., Uszkoreit J., Kaiser L. Universal Transformers // International Conference on Learning Representations. 2019. URL: https://openreview.net/forum?id=HyzdRiR9Y7.
  • Graves A. Adaptive computation time for recurrent neural networks // arXiv preprint arXiv:1603.08983. 2016.
  • Zaheer M., Guruganesh G., Dubey K.A., Ainslie J., Alberti C., Ontanon S.,... Ahmed A. Big Bird: Transformers for Longer Sequences // Advances in Neural Information Processing Systems. V. 33 / ed. H. Larochelle. Curran Associates, Inc., 2020. P. 17283–17297. URL: https://proceedings.neurips.cc/paper_files/paper/2020/file/c8512d142a2d849725f31a9a7a361ab9-Paper.pdf.
  • Rae J.W. Compressive Transformers for Long-Range Sequence Modelling // International Conference on Learning Representations. 2020. URL: https://openreview.net/forum?id=SylKikSYDH.
  • Wu Q. Memformer: A Memory-Augmented Transformer for Sequence Modeling // Findings of the Association for Computational Linguistics: AACL-IJCNLP 2022. Online only: Association for Computational Linguistics, 11.2022. P. 308–318. URL: https://aclanthology.org/2022.findings-aacl.29.
  • Lei J. MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning // arXiv preprint. 2020. arXiv:2005.05402 [cs.CL].
  • Martins P.H., Marinho Z., Martins A.F. ∞-former: Infinite Memory Transformer // arXiv preprint. 2021. arXiv:2109.00301.
  • Lample G. Large Memory Layers with Product Keys // arXiv preprint. 2019. arXiv:1907.05242 [cs.CL].
  • Gu A. HiPPO: Recurrent Memory with Optimal Polynomial Projections // Advances in Neural Information Processing Systems. 2020. V. 33. P. 1474–1487.
  • Gu A. Combining Recurrent, Convolutional, and Continuous-Time Models with Linear State Space Layers // Advances in Neural Information Processing Systems. 2021.
  • Gu A., Goel K., Re C. Efficiently Modeling Long Sequences with Structured State Spaces // International Conference on Learning Representations. 2021.
  • Peng B. RWKV: Reinventing RNNs for the Transformer Era // arXiv preprint. 2023. arXiv:2305.13048.
  • Gu A., Dao T. Mamba: Linear-Time Sequence Modeling with Selective State Spaces // arXiv preprint. 2023. arXiv:2312.00752.
  • Lieber O., Lenz B., Bata H., Cohen G., Osin J., Dalmedigos I.,... & Shoham Y. Jamba: A hybrid transformer-mamba language model // arXiv preprint. 2024. arXiv:2403.19887.
  • Rodkin I, Kuratov Y, Bulatov A, Burtsev M. Associative Recurrent Memory Transformer // arXiv preprint. 2024. arXiv:2407.04841.
  • Fishman V., Kuratov Y., Shmelev A., Petrov M., Penzar D., Shepelin D.,... Burtsev M. GENA-LM: A Family of Open-Source Foundational DNA Language Models for Long Sequences // bioRxiv. 2023. P. 2023–06.
  • Kuratov Y., Shmelev A., Fishman V., Kardymon O., Burtsev M. Recurrent Memory Augmentation of GENA-LM Improves Performance on Long DNA Sequence Tasks // ICLR 2024 Workshop on Machine Learning for Genomics Explorations.
  • Bessonov A., Staroverov A., Zhang H., Kovalev A.K., Yudin D., Panov A.I. Recurrent Memory Decision Transformer // arXiv preprint. 2023. arXiv:2306.09459.
  • Peng T. RMT-BVQA: Recurrent Memory Transformer-Based Blind Video Quality Assessment for Enhanced Video Content // arXiv preprint. 2024. arXiv:2405.08621.
  • Chevalier A., Wettig A., Ajith A., Chen D. Adapting Language Models to Compress Contexts // Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing / ed. by H. Bouamor, J. Pino, K. Bali Singapore: Association for Computational Linguistics, 12.2023. P. 3829–3846. DOI: 10.18653/v1/2023.emnlp-main.232. URL: https://aclanthology.org/2023.emnlp-main.232.
Еще