Towards Transferable Adversarial Attacks on Vision Transformers
目前是关于transformer迁移攻击sota,发表在AAAI 2022,代码链接:https://github.com/zhipeng-wei/PNA-PatchOut
对于transformer的攻击要同时考虑patch和self-attention,本文提出 Pay No Attention (PNA) 攻击和 PatchOut 攻击,在反向传播时跳过注意力可以提高迁移性,同时攻击最优的一部分patch比攻击所有的patch效果好。实验证明所提方法可以提高ViTs之间的迁移和ViTs到CNNs的迁移。
PNA攻击固定attention前向计算数值,在反向传播时跳过这一部分梯度的计算,这阻止了不同patch之间的交互,图像不同区域之间的交互强度和迁移性是负相关的[1]。
PatchOut 攻击在每一次迭代随机选择一部分patch攻击,有点像drop-out缓解过拟合,这和随机森林随机选择特征和DIM攻击相似。
本文主要贡献点
- PAN攻击不经过对attention的反向传播构造对抗样本。
- 研究扰动随机patch子集可以提高迁移性,提出PatchOut 方法在每轮迭代时使用不同的patch作为输入。
- 4个不同白盒ViTs,8个黑盒ViTs,4个黑盒CNNs,3个鲁棒训练CNNs进行实验,两种攻击方法有效并且可以和其他方法结合。
对于第一二点贡献进行了两个toy experiments,ViT-B/16白盒模型的BIM攻击(\(L_{\infty}\)范数下,迭代10次,\(\epsilon = 16\)),PNA攻击,将12个Self-attention Block分为3组,反向传播时就有八条路线,攻击成功率见下图
PatchOut 攻击随机选取10个patchs作为一种输入模式,记为“ten-patch”,进行多次“ten-patch”攻击成功率高
方法
Pay No Attention (PNA)
给定一个patch embedding \(Z\in \mathbb{R}^{N\times D}\),query,key,和value 权重\(W^{Q}\),\(W^{K}\),\(W^{V}\)\(\in\) \(\mathbb{R}^{D\times D_h}\),attention计算如下 \[ A=\operatorname{softmax}\left(Z W^{Q}\left(Z W^{K}\right)^{T} / \sqrt{D_{h}}\right) \] \(A\in\mathbb{R}^{N\times N}\)表示注意力权重,一个head的输出定义如下 \[ Z^{\prime}=A\left(Z W^{V}\right) \] 输出\(Z^{\prime}\)对于输入\(Z\)的梯度如下 \[ \frac{\partial Z^{\prime}}{\partial Z}=(\mathbb{I} \bigotimes A) \frac{\partial\left(Z W^{V}\right)}{\partial Z}+\left(\left(Z W^{V}\right)^{T} \bigotimes \mathbb{I}\right) \frac{\partial A}{\partial Z} \] PNA方法忽视注意力部分的梯度,\(\frac{\partial A}{\partial Z}=0\),这相当于将attention weights固定为一个常数。最终梯度计算如下 \[ \frac{\partial Z^{\prime}}{\partial Z} \approx(\mathbb{I} \bigotimes A) \frac{\partial\left(Z W^{V}\right)}{\partial Z}=(\mathbb{I} \bigotimes A)\left(\left(W^{V}\right)^{T} \bigotimes \mathbb{I}\right) \] \(\bigotimes\)表示克罗内克积,PNA迫使扰动只通过使用特征表征来利用网络,而不是通过利用注意力的高度模型特定属性。这导致了具有高迁移性的对抗样本。跳过注意力也允许梯度关注每个patch,而不是依赖patch之间的复杂相互作用。
PatchOut Attack
DIM攻击表明输入多样性有利于对抗向本迁移,PatchOut Attack每次迭代随机选择patch子集攻击。
用\(T\)控制每一轮使用的patch数量,\(x_s=\{x_s^{1},...,x_s^{t},...,x_s^{T}\}\)表示被选择的patch,攻击的mask \(M\in {0,1}^{H\times W\times C}\) 定义如下 \[ M_{p}^{i}= \begin{cases}1, & \text { if } x_{p}^{i} \text { in } x_{s} \\ 0, & \text { otherwise }\end{cases} \] \(M_{p}^{i} \in\{0,1\}^{P \times P \times C}\)是\(x_p ^{i}\)在图像中区域,整个攻击的优化目标 \[ \underset{\delta}{\arg \max } J(f(x+M \odot \delta), y)+\lambda\|\delta\|_{2}$, s.t. $\|\delta\|_{\infty}<\epsilon \] \(\odot\)是element-wise乘法,第二项鼓励扰动有一个较大的\(l_2\)范数,两种攻击的伪代码如下
实验结果
在CNNS上的效果
数据集:ImageNet val中1000张不同类所有模型正确分类图像,白盒模型 ViT-B/16,PiT-B,CaiT-S-24,Visformer-S,图中每个数据都是四种替代模型迁移攻击成功率的平均。
本文方法和之前方法的结合,白盒模型ViT-B/16,表中是平均迁移攻击成功率,8个ViTs:ViT-B/16,DeiT-B,TNT-S,LeViT-256,PiT-B ,CaiT-S-24,ConViT-B 和 Visformer-S,4个CNNs:Inception v3 (Inc-v3),Inception v4 (Incv4),Inception ResNet v2 (IncRes-v2), 和 ResNet v2-152 (Res-v2)。
消融实验
白盒模型 ViT-B/16,数据 2000张随机采样图像,平均迁移攻击成功率
三部分都有效,一起使用效果最佳
超参数影响,ViTs 平均攻击成功率 \(T=N\) PatchOut 退化成 BIM,
[1] Wang, X.; Ren, J.; Lin, S.; Zhu, X.;Wang, Y.; and Zhang, Q.2020. A unified approach to interpreting and boosting adversarial transferability. arXiv preprint arXiv:2010.04055.