本文发表于ICLR2022,代码链接:https://github.com/fiveai/GFCS
摘要
最近关于黑盒对抗性攻击的一系列工作,通过将其整合到基于查询的搜索中,恢复了对代替模型迁移的使用。然而,我们发现,现有的这种类型的方法没有发挥出它们的潜力,而且除此之外还可能过于复杂。在这里,我们提供了一个简单的算法,通过使用代替网络的类别分数梯度进行搜索,实现了最先进的结果,而不需要其他先验因素或启发式方法。该算法的指导性假设是,所研究的网络在基本意义上是在学习类似的功能,因此,从一个网络转移到另一个网络的攻击应该是相当 "容易 "的。这一假设被极低的查询次数和失败率所验证:例如,使用 ResNet-152 作为代理网络对 VGG-16 ImageNet 网络进行无目标的攻击,产生的中位查询次数为6,成功率为99.9%。
介绍
本文针对 “score-based” 攻击,待攻击的受害者模型可以通过查询获得样本分类的类别和置信度。这类方法面临的最大问题是如何在不影响梯度估计质量的情况下,限制查询次数。"score-based"和"transfer-based"的攻击方法实际上是互补的:基于查询的策略可以从先验的、更有希望的搜索方向中获益,而基于转移的策略可以从灵活的优化器中获益,该优化器可以动态地纠正近似错误并考虑替代假设。此类的方法有[1,2,3,4]:
本文提出的方法称为“GFCS:Gradient First, Coimage Second“,它的搜索方向代表了对抗损失本身的代用梯度,或者,就是从代用Jacobian 的行空间中随机选择的(称为 "coimage")。前者代表标准的迁移攻击,后者涉及搜索局部线性替代模型表现出任何反应的特征空间,其本身就是一种广义的梯度转移形式。优化方法这里采用的仅仅是结合上下文的标准梯度投影上升(PGA)的SimBA[5]变体,方法效率的关键是识别有效的低维局部空间:对于普通ImageNet Inception-v3实现,将搜索限制在coimage 上, 将维度从299-299-3(输入分辨率)减少到1000(输出类的数量)。当然,损失梯度是一维的。
从安全的角度来看,一个假设可以访问类别分数和替代模型的威胁模型是否是现实的,这是一个有争议的问题,我们对这个问题不了解。我们对这个问题的兴趣是分析性的,我们有两个主要观点要提出。首先,如果这个威胁模型被认为是有意义的(就像在现有技术中一样),那么就应该理解目前提出的问题是多么的 "容易":即使是一个替代模型,也会把查询次数减少到可数。其次,GFCS在完全依靠网络间的梯度转移时表现出的事实表明,这些网络在一个重要意义上是非常相似的。
方法
上图就是GFCS的伪代码,第16行是PGA的实现,\(\Pi_{\mathbf{x}_{\text {in }}, \nu}\)是投影操作,算法中使用的损失是边际损失\(L_{\mathbf{f}}(\mathbf{x})=\mathbf{f}_{c_{t}}(\mathbf{x})-\mathbf{f}_{c_{s}}(\mathbf{x})\),其中\(c_{s}=\operatorname{argmax}_{c} \mathbf{v}_{c}(\mathbf{x})\) 并且\(c_{t}=\operatorname{argmax} c_{c \neq c_{s}} \mathbf{V}_{c}(\mathbf{x})\),代表最高和第二高类别的置信度之差。注意到类别 \(c_t\) 和 \(c_s\) 在替代模型 \(\text{v}\) 输出排序结果上定义,但损失通过网络 \(\text{f}\) 的参数计算,\(\text{f}\) 是 \(\text{v}\) 或者 \(\text{s}\) ,取决于算法第几步(算法第9,15行)。 对于替代模型的自然的假设是,替代模型能为受害模型提供有用的信息,但除了是映射\(\mathcal{X}\)→\(\mathcal{Y}\)的一次可微函数之外,对替代模型\(s\in \mathcal{S}\)没有 "硬 "要求。网络 f 和输入 x 对于ODS方向的定义\(\text{d}_{\text{ODS}}\) 和 [3] 中一样。 \[ \mathbf{d}_{\mathrm{ODS}}(\mathrm{x}, \mathrm{f}, \mathrm{w})=\frac{\nabla_{\mathrm{x}}\left(\mathrm{w}^{\top} \mathbf{f}(\mathrm{x})\right)}{\left\|\nabla_{\mathbf{x}}\left(\mathrm{w}^{\top} \mathbf{f}(\mathrm{x})\right)\right\|_{2}}=\frac{\mathrm{w}^{\top}\left(\nabla_{\mathrm{x}} \mathbf{f}(\mathrm{x})\right)}{\left\|\nabla_{\mathrm{x}}\left(\mathrm{w}^{\top} \mathbf{f}(\mathrm{x})\right)\right\|_{2}} \] 其中w是从\([-1, 1]^c\)上的均匀分布中取样的。根据定义,它是所有类别分数的随机加权和的归一化梯度。等价地,通过线性,它是所有类分数梯度(即Jacobian矩阵的行)的随机加权和,这些梯度本身是 \(\text{f}\) 的线性近似的 coimage 的基准:\(\text{f}\) 表现出任何非零响应的子空间。
上述方法的逻辑很简单,在任何给定的迭代中,该方法试图以类似SimBA的方式进行,沿候选方向以固定步长的步骤测试对抗性损失的变化,必要时投影回可行集。它完全使用输入集合中的代用品的归一化损失梯度(以随机顺序抽取,没有替换),除非并且直到它在该迭代中用尽它们而没有成功。正如我们将在第3.2节中证明的那样,这种中间的失败状态很少会达到。然而,如果达到这种状态,该方法就会随机抽取一个替代(替换原来的扰动),并从该替代中抽取一个ODS方向,每次都尝试进行SimBA更新,直到实现损失的提高。一旦出现这种成功的更新,该方法就会将候选替代集重设为输入集,并恢复只使用归一化损失梯度。该方法在找到一个对抗样本或超过查询次数的上限时终止。
实验
非目标攻击
本文将所提 GFCS 和[1,3,4] 对比,所有的方法都是在 \(l_2\) 范数限制下的无目标攻击,数据集是2000张来自 ILSVR2012 验证集,能够被所有受害模型正确分类的样本。单个样本最大查询次数上限10,000,\(l_2\) 边界设置为 \(\sqrt{0.001D}\) , \(D\) 是受害模型输入图像维度,受害模型采用 VGG-16,ResNet-50 和 Inception-v3。实验在两个替代模型集合重复:只有 ResNet-152,{VGG-19, ResNet-34, DenseNet-121, MobileNet-v2},所有模型使用预训练的模型,可以从PyTorch/torchvision获取。LeBA 以 "训练 "模式在1000张图像中运行,然后以 "测试 "模式在所有其他方法使用的2000张图像中进行评估。P-RGF总是使用自适应系数模式。P-RGF和ODS-RGF是基于我们自己的PyTorch参考P-RGF代码,该代码将与本文一起发布:目前还没有ODS-RGF的公开实现。我们包括无替代的 [6] 进行比较。
表1报告了攻击成功率和查询次数的中位数,图2绘制了累积成功次数与每个样本花费的最大查询次数的对比图(CDFs,归一化模式)。与之前的工作不同,我们不报告平均值,因为这不适合总结这些方法产生的长尾分布。不确定性在表1中以标准误差表示,在图2中以95%的置信区间表示,这两种情况都是通过 bootstrap sampling 得到的。在表1中,有两点是很明显的。首先,所有研究的方法在这个问题上都有很高的成功率,针对所有的受害者网络:观察到的最低比率是Inception-v3 上 SimBA-ODS ,以ResNet-152作为唯一的替代模型。第二,GFCS 产生了极低的中位查询次数,同时取得了与所有其他方法类似的高成功率。这一事实可以在图2a、2b 和 2c 的单替代结果中更详细地看到,在这些结果中,GFCS 明显地在低查询系统中占优势,而在多个替代模型,图 2d、2e 和 2f 中则更加引人注目。尽管 GFCS 很简单:将 Alg. 1 和 LeBA 训练其替代模型的单独步骤进行比较。请注意,我们选择 SimBA-ODS 作为 coimage 采样器的部分原因是为了简化:正如结果所显示的,当它被单独使用时,会有非常少的失败发生,而我们则有效地继承了它们。但代价是在实现上增加了一些复杂性,例如 ODS-RGF 可以被替代,并可能导致失败率的进一步提高,同时仍然代表一种 GFCS 的形式。到还有一个现象注意:表1还显示了现有方法的性能对其自身参数选择的依赖性。惊人的是,ODS-RGF相对于早期的P-RGF的大部分经验优势是由于各自方法中默认参数的不同选择:当P-RGF仅仅使用ODS RGF 的默认参数时,它实际上在ResNet-50上的中位查询次数方面大大超过了它,代价是单一替代模型失败率增加了0.05%。
SimBA-ODS从其步长参数的数量级增加中获益匪浅。这本身就进一步证明了我们的中心论点,即在这种情况下,转移通常被追求得太谨慎了。当然,我们也可以过于激进:请看表格中的消融线,它代表了对损失梯度的完全使用,即 "没有CS的GF"。
对算法表现的分析
为了深入研究第3.1节的结果,我们将每个被攻击的例子绘制成一个二维点,其x坐标是算法的代理损失梯度块所消耗的查询次数,其y坐标是 coimage 块的类似计数。这就得到了图3的散点图,对应于其对面轴的边际直方图来作为补充。该图显示了使用 Inception-v3 作为受害者的结果:VGG-16 和 ResNet-50 的类似数字见附录 A.3。请注意,主散点图的坐标轴用对数刻画,而边际直方图的轴是线性—对数。其一,有很大一部分样本(由图中底部密集的横排点代表)在很低的查询次数内(1-10次)就能成功,这完全或几乎完全是由于替代梯度转移,很少或根本没有使用ODS。由于这些低查询量的集群非常密集,为了量化这些集群,应该查阅相应的边际数据(最好在缩放状态下)。另外,当使用四种替代物集而不是单独使用ResNet-152时,这个体系之外的例子数量大大减少,通过比较图中的左右两边可以看出这一点。很明显,依靠基于梯度和基于 coimage 的之间的相互作用生成方向的样本被减少到一个非微不足道的(即如果不处理,足以影响失败率),但也是相对较小的一组。总的来说,在从底部密集的低查询集群延伸开来的点中,即依靠两种子方法的样本中,替代损失梯度查询和ODS查询有一个数量级的差异。也就是说,当需要ODS块时,它通常需要更多的查询来推进优化器,而在更常见的情况下,梯度就足够了。
SimBA-ODS从其步长参数的数量级增加中获益匪浅。这本身就进一步证明了我们的中心论点,即在这种情况下,迁移在这种情况下过于谨慎。当然,我们也可以过于激进:见表中的消融线,代表完全使用损失梯度,也就是 "没有 CS 的 GF "。
目标攻击
此部分实验设定和无目标攻击类似,目标类别为从 ImgeNet 1000个类别中均匀采样得到。对比实验方法这里仅对比了 SimBA-ODS [5]和 Square Attack[6],其他方法都没有提供目标攻击的结果或代码。
参考文献
[1] Shuyu Cheng, Yinpeng Dong, Tianyu Pang, Hang Su, and Jun Zhu. Improving black-box adversarial attacks with a transfer-based prior. Advances in Neural Information Processing Systems, 32: 10934–10944, 2019.
[2] Yiwen Guo, Ziang Yan, and Changshui Zhang. Subspace attack: Exploiting promising subspaces for query efficient black-box attacks. In H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alch´e-Buc, E. Fox, and R. Garnett (eds.), Advances in Neural Information Processing Systems, volume 32. Curran Associates, Inc., 2019b.
[3] Yusuke Tashiro, Yang Song, and Stefano Ermon. Diversity can be transferred: Output diversification for white-and black-box attacks. Advances in Neural Information Processing Systems, 33, 2020.
[4] Jiancheng Yang, Yangzhou Jiang, Xiaoyang Huang, Bingbing Ni, and Chenglong Zhao. Learning black-box attackers with transferable priors and query feedback. Advances in Neural Information Processing Systems, 33, 2020.
[5] Chuan Guo, Jacob Gardner, Yurong You, Andrew Gordon Wilson, and Kilian Weinberger. Simple black-box adversarial attacks. In International Conference on Machine Learning, pp. 2484–2493. PMLR, 2019a.
[6] Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion, and Matthias Hein. Square attack: a query-efficient black-box adversarial attack via random search. In European Conference on Computer Vision, pp. 484–501. Springer, 2020.