Кэш-осознанная оптимизация больших языковых моделей для микроконтроллеров

Автор: Худайберидева Г.Б., Кожухов Д.А., Пименкова А.А.

Журнал: Теория и практика современной науки @modern-j

Рубрика: Основной раздел

Статья в выпуске: 8 (122), 2025 года.

Бесплатный доступ

Распространение больших языковых моделей (LLM) на устройства Интернета вещей (IoT) сдерживается ограниченными ресурсами микроконтроллеров (MCU), в частности, малым объемом и высокой латентностью энергонезависимой памяти (Flash) и оперативной памяти (RAM). Традиционные подходы фокусируются на уменьшении размера модели. Данная работа предлагает инновационный подход, смещающий акцент на оптимизацию паттернов доступа к данным как основного источника задержек в системах с медленной памятью. Исследуются алгоритмы переупорядочивания весов модели и стратегии управления последовательностью вычислений (включая порядок обработки слоев и группировку операций) с целью максимизации использования быстрых, но крайне ограниченных кэшей L1/L2 промышленных CPU и минимизации обращений к медленной внешней памяти. Представленная методология требует глубокого анализа целевой микроархитектуры. Экспериментальные результаты демонстрируют значительное снижение количества промахов кэша и времени выполнения инференса LLM на типовых MCU. Ключевой вклад заключается в доказательстве эффективности аппаратно-ориентированной реорганизации данных и вычислений для ускорения LLM на ресурсоограниченных платформах.

Еще

Большие языковые модели, микроконтроллеры, оптимизация инференса, кэш-память, кэш-осознанные вычисления, переупорядочивание весов, управление вычислениями, аппаратно-зависимая оптимизация, энергоэффективность

Короткий адрес: https://sciup.org/140312536

IDR: 140312536   |   УДК: 004.89