Yet Another Intermediate-Level Attack

Yet Another Intermediate-Level Attack（ECCV 2020）

代码：https://github.com/qizhangli/ila-plus-plus

本篇也是利用网络中间层进行攻击，是[1]的延续。本文的主要思想是建立一个由中间层特征到对抗损失的映射$W$，生成具有最大预期对抗损失的像素级扰动。在本文中定的对抗扰动是交叉熵损失。作者认为映射$W$包含了baseline攻击方法的每一步的信息，比单独使用最后一次迭代的结果更具有引导作用。

主要方法

由上面的动机可知本文的关键是如何利用baseline方法每一步的信息构建映射$W$。假设中间层特征用$h_t^{adv}=g(x_t^{adv})$表示。baseline每一步生成的对抗样本$x_0^{adv},...x_t^{adv},...x_{p}^{adv}$，可以得到一系列的中间层差异和对抗损失$\{(h_t^{adv}-h_0^{adv},l_t)\}$，建立一个映射$W$直接由中间层差异预测对抗损失，$W$可以看成下面的优化问题： \[ \min _{\mathbf{w}} \sum_{t=0}^p\left(\mathbf{w}^T\left(\mathbf{h}_t^{adv}-\mathbf{h}_0^{adv}\right)-l_t\right)^2+\lambda\|\mathbf{w}\|^2 \tag{1} \] $W\in \mathbb{R}^m，H\in \mathbb{R}^{(p+1)\times m}，r \in \mathbb{R}^{p+1}$，上面优化问题写成向量/矩阵形式： \[ \min _{\mathbf{w}} \|\mathbf{r}-\mathbf{HW}\|^2+\lambda\|\mathbf{W}\|^2 \] 上述问题有闭式解$\mathbf{W^{\star}}=(\mathbf{H^{\top}H+\lambda I_m})^{-1}\mathbf{H^{\top}r}$，整个优化过程： \[ \max _{\Delta_w}\left(g\left(\mathbf{x}+\Delta_x\right)-\mathbf{h}_0^{\text {adv }}\right)^{\top} \mathbf{w}^{\star}, \quad s.t. \left(\mathbf{x}+\boldsymbol{\Delta}_x\right) \in \Psi \] $(\mathbf{H^{\top}H+\lambda I_m}) \in \mathbb{R}^{m\times m}$$p$，计算它的逆矩阵困难，$m$一般都远大于$p$，使用Woodbury等式变换 \[ \begin{aligned} \mathrm{H}^{\top} \mathrm{H}+\lambda \mathrm{I}_m & =\frac{1}{\lambda} I-\frac{1}{\lambda^2} \mathrm{H}^{\top}\left(\frac{1}{\lambda} \mathrm{HH}^{\top}+\mathrm{I}_p\right)^{-1} \mathrm{H} \\ & =\frac{1}{\lambda} I-\frac{1}{\lambda} \mathrm{H}^{\top}\left(\mathrm{HH}^{\top}+\lambda \mathrm{I}_p\right)^{-1} \mathrm{H} \end{aligned} \] 现在只需要计算$\mathbf{HH^{\top}+\lambda I_p}$的逆即可，当正则化参数$\lambda$非常大时，$\mathrm{H}^{\top}\left(\mathrm{HH}^{\top}+\lambda \mathrm{I}_p\right)^{-1} \mathrm{H}\approx 0$，这种情况下优化问题近似于$ _{_w}(g(+_x)-_0^{a dv} )^{} ^{} $，如果只考虑$x_p^{{adv}$和干净样本的差异或者baseline时单步攻击，优化问题退化为ILA。$}{} $也可以看作是一系列投影方向的线性组合，充分利用baseline的时序信息提高迁移能力。

考虑到不同迭代步数是中间层差异数值差异较大，在求解公式1之前对中间层差异进行归一化，用$\tilde{H}$代替$H$，$\tilde{H}$第$t$行表示为$(h_t^{adv}-h_t^{0})/\|h_t^{adv}-h_t^{0}\|$。

总结与改进

充分利用baseline每步迭代信息值得借鉴。

参考文献

[1] Enhancing adversarial example transferability with an intermediate level attack.