Разложение весов на интерпретируемые компоненты и их связь сo статистиками слоя нормализации

Автор: Шокоров В.А., Самосюк А.В.

Журнал: Труды Московского физико-технического института @trudy-mipt

Рубрика: Информатика и управление

Статья в выпуске: 4 (68) т.17, 2025 года.

Бесплатный доступ

В линейных пространствах существует определенный порог, описывающий уровень шума или уровень случайной корреляции. Линейные слои нейросетевых моделей, векторы (фичи) которых работают на взаимодействие с определенными фичами данных, также подвержены данному эффекту. Это позволяет OOD данным демонстрировать активации в пределах дисперсии обучающего домена в слоях нормализации (BatchNorm). Для оценки уровня случайного срабатывания используется декомпозиция матрицы весов линейного слоя на интерпретируемые компоненты: сигнальную (𝑊Δ) и шумовую (𝑊𝑟𝑎𝑛𝑑), основанная на границах распределении Марченко – Пастура. Эксперименты на ResNet-50 (обученная за счет ArcFace на MS1Mv3) с OOD-данными (COCO) показывают, что: (1) Взаимодействие обучающих данных с 𝑊Δ значимо выше, чем с 𝑊𝑟𝑎𝑛𝑑; (2) Распределение активаций OOD-данных при взаимодействии с 𝑊𝑟𝑎𝑛𝑑 и 𝑊Δ статистически неразличимо, что соответствует уровню случайного срабатывания. Мы заключаем, что 𝑊𝑟𝑎𝑛𝑑 служит эффективным индикатором порога случайной активации.

Еще

Статистики BatchNorm, спектральное разложение весов, объяснимый искусственный интеллект, распределение Марченко – Пастура

Короткий адрес: https://sciup.org/142247122

IDR: 142247122   |   УДК: 004.93’1, 004.825