Кэш-осознанная оптимизация больших языковых моделей для микроконтроллеров
Автор: Худайберидева Г.Б., Кожухов Д.А., Пименкова А.А.
Журнал: Теория и практика современной науки @modern-j
Рубрика: Основной раздел
Статья в выпуске: 8 (122), 2025 года.
Бесплатный доступ
Распространение больших языковых моделей (LLM) на устройства Интернета вещей (IoT) сдерживается ограниченными ресурсами микроконтроллеров (MCU), в частности, малым объемом и высокой латентностью энергонезависимой памяти (Flash) и оперативной памяти (RAM). Традиционные подходы фокусируются на уменьшении размера модели. Данная работа предлагает инновационный подход, смещающий акцент на оптимизацию паттернов доступа к данным как основного источника задержек в системах с медленной памятью. Исследуются алгоритмы переупорядочивания весов модели и стратегии управления последовательностью вычислений (включая порядок обработки слоев и группировку операций) с целью максимизации использования быстрых, но крайне ограниченных кэшей L1/L2 промышленных CPU и минимизации обращений к медленной внешней памяти. Представленная методология требует глубокого анализа целевой микроархитектуры. Экспериментальные результаты демонстрируют значительное снижение количества промахов кэша и времени выполнения инференса LLM на типовых MCU. Ключевой вклад заключается в доказательстве эффективности аппаратно-ориентированной реорганизации данных и вычислений для ускорения LLM на ресурсоограниченных платформах.
Большие языковые модели, микроконтроллеры, оптимизация инференса, кэш-память, кэш-осознанные вычисления, переупорядочивание весов, управление вычислениями, аппаратно-зависимая оптимизация, энергоэффективность
Короткий адрес: https://sciup.org/140312536
IDR: 140312536 | УДК: 004.89