Создание модели для генерации изображений по текстовым описаниям методом авторегрессии по разрешению
Автор: Воронов А.Д.
Журнал: Труды Московского физико-технического института @trudy-mipt
Рубрика: Информатика и управление
Статья в выпуске: 4 (68) т.17, 2025 года.
Бесплатный доступ
В данной работе мы адаптируем VAR, недавно предложенную архитектуру для генерации изображений определённого класса, к задаче генерации изображений по текстовым описаниям (text-to-image). Для этого мы предлагаем несколько модификаций к оригинальной архитектуре, позволяющих обуславливаться на любой текст, а также улучшающих стабильность и сходимость обучения. Одна из таких модификаций — это замена маски внимания на блочно-диагональную, позволяющую быстрее сэмплировать изображения на инференсе и потреблять меньше памяти во время обучения. Итоговая модель, Scale-Wise Autoregressive Transformer (SWAT) — способна генерировать изображения в разрешении 512×512, сравнимые по визуальному качеству с генерациями лучших диффузионных моделей, превосходя их по скорости в семь раз. Наша работа показывает, что недиффузионные архитектуры могут стать новой парадигмой в texttoimage генерации, балансируя между качеством и эффективностью.
Генерация изображений, авторегрессия, трансформер
Короткий адрес: https://sciup.org/142247114
IDR: 142247114 | УДК: 004.932