摘要
引言
尽管深度学习在各个领域取得了巨大的成功,但最近的研究表明,深度学习方法很容易受到对抗性实例的影响。换句话说,攻击者可以通过故意在例子中添加小的扰动来使深度学习模型进行错误分类,这被称为对抗性实例。在Szegedy等人关于图像分类的研究中指出,对抗性的例子已经被用在其他许多领域,包括自然语言处理,语音识别和恶意软件检测。此外,还有一些研究演示了一个基于对抗性实例的实际攻击场景,通过在自动驾驶标志上贴纸,使自动驾驶系统对停车标志进行错误分类。
这些对抗实例通常是通过干扰输入数据而产生的,通过限制扰动的大小,使人类不会注意到合法输入样本和敌对例子之间的差异。还有一些研究引入了生成式对抗 络(GAN)来准备那些可能作为自然图像出现的对抗性例子。在这些研究中,GAN被用来生成接近预先给定的自然图像分布的对抗实例。
基于GAN的方法的一个缺点是,在某些攻击场景中,自然对抗性的例子并不总是类似于输入或自然图像。例如,要攻击自动驾驶汽车,在停车标志上放置小虫子会比修改整个标志更自然。更一般的说,通过在输入图像的一部分上叠加一个模拟自然物体的扰动,与攻击场景一致,我们可以创建不太可能被注意到的通用示例。这种策略可以扩展到图像以外的领域,例如,通过产生听起来像环境噪声的扰动来攻击语音分类模型。
鉴于图像分类和语音识别在现实世界中的广泛应用,分析这些模型和人类感知之间的差距是非常重要的。特别是,如果我们能够系统地研究它们,就有可能设计模型和训练程序,克服这些差距。
背景
大多数方法都使用优化算法来生成对抗性的示例。让我们考虑一个场景,其中攻击者希望修改输入图像x,以便目标模型f使用特定的标签t对其进行分类。生成过程可以表示如下:
早期的方法,如Szegedy等人使用L2- norm来限制扰动的大小。相比之下,su等人使用L0-norm来限制修改像素的数量,并表明即使修改一个像素也可以产生敌对的例子。
最新的研究引入了GAN,而不是直接优化扰动,目的是确保对抗例子的自然性。例如,肖等人训练了一个鉴别器 络来区分对抗性的例子和自然图像,以便生成器 络产生作为自然图像出现的对抗对例子。
然而,我们希望通过在图像中放置小物体,而不是通过修改整个图像来生成对抗性的例子。在这方面,布朗等人提出了一种对抗性补丁,通过将补丁放置在输入图像的任意位置来改变分类结果。A(p、x、θ)表示放置一个具有参数θ指定的位置和旋转的操作,其生成过程如下所示:
现有的方法主要通过关注扰动的大小或大小,如扰动的有限方面,来降低人类的可感知性。相比之下,我们的方法关注于干扰本身的内容,并通过模仿自然物体或信 ,如错误图像或鸟鸣来注意到它们,使它们难以掩盖欺骗。此外,不像谢里夫等人。(2016),由于该方法可以系统地用于模拟任意对象的广泛攻击场景。我们相信,通过操纵扰动的内容来适应攻击的情况,可以创建一种新的不明显的攻击的策略。
现有的方法主要通过关注扰动的某些方面(如扰动的大小)来最小化人类的感知能力。相比之下,我们的方法侧重于扰动本身的内容,并通过模仿自然对象或信 (如虫子图像或鸟鸣)来进行掩饰,从而使扰动难以被注意到。此外,我们所提出的方法可以系统地用于广泛的攻击场景,因为GAN可以模拟任意对象。我们相信,通过操纵扰动的内容以符合攻击情况,可以创建一种新的不可见攻击策略。
方法
1. 基于补丁
Siao等人提出了一种使对抗性的例子类似于任何类的自然图像的方法。我们对其进行扩展,在放置扰动的位置上有一个自由度,由于目标不是修改整个区域,而是覆盖小块。因此,我们引入了一种机制,使扰动对位置变化的稳健,所提出的方法呈现如下:
2. 基于PEPG
基于补丁的方法可以产生不考虑放置位置的扰动。然而其目标变量从补丁本身更改为生成补丁的 络参数。考虑到这种复杂性,通过基于补丁的方法对对抗性示例的生成过程预计将更难处理。
因此,我们基于输入图像中的局部信息使用策略梯度方法优化扰动的位置。换句话说,每个输入图像都存在一个最优的扰动位置来欺骗目标模型。如果我们能找到这样的位置,生成过程将变得更容易。
我们使用了一种参数探索策略梯度(PEPG)方法,以优化扰动的位置和旋转角度。该方法假设在参数上的分布,并训练分布的超参数,而不是参数本身。该方法的优点是,除了不需要参数的梯度外,还可以探索广泛的参数。
当使用PEPG方法时,我们的方法最初应用于从先验高斯分布中采样的各种位置。然后,根据试验中目标模型的损失值,逐步更新超参数,以便从分布中采样。通过这样做,我们可以同时训练超参数和生成器 络。
实验结果
为了测试我们的方法,我们首先用路标分类器进行了初步实验,以研究该方法的可行性。然后,我们用ImageNet分类器进行了一个实验,以确认该方法对各种输入图像和目标类别的可用性。在这两个实验中,我们比较了基于补丁和基于PEPG的方法。
对于GAN的架构,我们使用了WGAN-GP。并在32×32、64×64和128×128像素之间改变输出扰动的大小,以评估扰动大小的影响。对于所有的测试,我们使用了来自哥斯达黎加的蛾图像数据集。为了保证训练的稳定性,我们预先训练了没有损失值的目标模型,并确认它输出类似蛾子的图像。
1. 路标分类
我们首先用在德国交通标志识别基准上训练的路标分类器探讨了所提出的方法的可行性,我们使用Eykholt等人的基于卷积神经 络的分类器对目标模型进行分类,结果显示准确率为95.7%。对于输入图像,我们使用了相同的256×256停止标志图像,并试图将其识别为限速80标志。与Eykholt等人的研究方法相同。关于扰动大小和生成方法的每一种组合,我们检验了在给定的迭代次数中是否可以获得对抗实例。
所获得的对抗性示例如图。结果表明,生成的成功在很大程度上取决于扰动的大小,当扰动的大小被限制在32×32时,我们不能在20,000次迭代后生成一个对抗性的例子。这与Brown等人的结果相对应:对抗性的补丁越大,成功率就越高。
通过比较基于补丁和基于PEPG的方法,我们发现基于PEPG的方法所花费的时间要少得多。例如,在128×128像素的情况下,基于PEPG的方法需要大约6分钟和753次迭代来生成100个对抗性示例,而基于补丁的方法需要大约一个小时和5,340次迭代。
2. ImageNet分类
我们使用InceptionV3分类器对所提出的方法进行了评估。2016年)在ImageNet上进行了训练。对于输入图像和目标类的组合,我们在对抗性的例子上使用了与NIPS的17个竞争对手相同的任务。在这里,由于所提出的方法涉及到每个组合的训练过程,并且需要一些时间,所以我们选择了前50个任务。
与测试路标分类时相同,我们检查了我们是否可以在每个扰动大小和生成方法组合的50,000次迭代中获得100个对抗性的例子。然后,我们比较了超过50个任务的成功率和成功情况下的平均迭代次数。生成结果如图,我们证实了更大规模的扰动有助于产生对抗性的例子;也就是说,它增加了成功率,减少了所需的迭代次数。
3. 分析
我们基于上述结果和附加调查分析所提出方法的特征。首先我们研究了由基于补丁的方法得到的扰动的鲁棒性。然后我们研究了PEPG算法对成功生成的有效性。
基于补丁的扰动的鲁棒性正如前文中所讨论的,基于补丁的方法产生了对位置变化具有鲁棒性的扰动。因此,我们可以通过以类似于Brown等人所描述的方式重新定位扰动,从而产生新的对抗性的例子。我们通过对前文ImageNet分类中的每个对抗例中随机重定位,并验证其分类结果。
基于补丁的方法得到的扰动比基于PEPG的方法的结果更具有鲁棒性。特别地,我们发现,在基于补丁的方法获得的对抗性例子中,成功的样本在不同的位置有扰动,然而,从基于PEPG的方法获得的样本显示了有限数量的成功案例,其中扰动位置与原始对抗性示例中的相似。结果显示修改图像中3%像素时的成功率约为20%,尽管提出的方法使用GAN生成扰动,而不是直接优化。
对于PEPG算法的有效性,我们证实了基于PEPG的方法所获得的扰动对重定位鲁棒性有限。但相反的,它表明PEPG算法成功地找到了扰动作为一个对抗性例子的有限区域,例如由基于PEPG的方法获得的所有对抗性示例在相同输入图像的相似位置都有扰动。
因此,我们研究了当我们将扰动移动到不同的位置时,分类结果是如何改变的。如图显示了通过将扰动中心移动到每个像素而获得的图像被分类为目标标签。结果表明,PEPG算法成功地找到了扰动作为对抗性例子的有限位置,特别是在扰动很小的情况下。
我们的分析表明,在应用基于补丁和基于PEPG的方法时,鲁棒性和成功率之间存在一些权衡。换句话说,我们可以从它们中选择一种合适的方法来适应不同的情况。
音频对抗性实例
与图像对抗的例子一样,有许多生成音频对抗的例子的方法。例如,Alzantot等人生成了针对语音命令分类器的对抗性例子,并获得了87%的成功率。Yakura和Sakuma通过模拟音频生成过程中的噪声和混响,实现了对 DeepSpeech的攻击。然而,他们都没有人试图操纵扰动的内容来匹配攻击场景,比如用环境噪声来伪装扰动。
对于目标模型,我们使用了与Alzantot等人相同的语音命令分类器,采用WGAN-GP产生扰动。对于参考音频,我们使用了VB100鸟类数据集,生成的干扰被添加到语音命令数据集的两个音频片段中。然后,我们检查获得的对抗样例是否被归为目标标签。我们成功地生成了被归类为“停止”的对抗性例子,尽管它们听起来像是有人在背景中用唧唧喳喳的小鸟说“是”或“不是”。
实验结果表明,我们所提出的扰动模拟不可见物体的方法也适用于音频领域,人类难以对其感知。
局限性与未来展望
虽然我们的结果证实了通过使扰动模拟特定对象或信 来生成对抗性例子的新方法的有效性,但是仍然存在一些局限性。特别是,尽管我们对基于PEPG的方法的有效性进行了实验研究,但其理论背景仍然不清楚。
攻击场景的讨论也是一个重要的研究方向。我们所提出的方法可以在不被人类注意的情况下增加扰动的幅度,考虑到许多防御方法出现在相对较小的扰动下被击败的情况,这种方法可能会带来进一步的攻击可能性,我们必须讨论这种可能性,以确保基于机器学习的 会技术系统的安全。
结论
致谢
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!