使用对抗性示例对深度学习系统进行实用的黑盒攻击

2020-12-15 17:57 1604 30

该攻击基于一种使用合成数据生成的新型替代训练算法,旨在制作被黑盒 DNN 分类错误的对抗样本。我们的工作是朝着放宽对先前攻击的对抗能力的强大假设迈出的重要一步

机器学习(ML)模型,例如深度神经网络(DNNs),容易受到对抗样本的攻击: 恶意输入经过修改以产生错误的模型输出,而对于人类观察者而言却没有发生变化。潜在的攻击包括将恶意内容(如恶意软件)识别为合法或控制车辆行为。然而,所有现有的对抗样本攻击都需要了解模型内部或其训练数据。我们将介绍攻击者在没有此类知识的情况下控制远程托管 DNN 的第一个实际演示。事实上,我们黑盒对手的唯一能力是观察 DNN 给选定输入的标签。我们的攻击策略是使用对手综合生成的并由目标 DNN 标记的输入来训练局部模型从而替代目标 DNN。我们使用本地替代拼来制作对抗样本,发现他们被目标 DNN 误分类了。为了执行真实世界和适当的盲法评估,我们攻击了由在线深度学习 API MetaMind 托管的 DNN。我们发现,他们的 DNN 错误地分类了 84.24%的用我们的替代品制作的对抗样本。

1、引言

分类器是学习输入和一组类之间映射的 ML 模型。安全领域和机器学习领域的研究揭示了分类器遭受完整性攻击的脆弱性。这种攻击通常以对抗样本为例: 通过添加较小的(通常是不易察觉的)扰动来改变合法输入,以迫使分类器对所得的对抗性输入进行错误分类,同时保持人类观察者的正确分类。以如下两张图片为例:

使用对抗性示例对深度学习系统进行实用的黑盒攻击

对人类来说,这些图像看起来是一样的:我们的生物分类器(视觉)将每个图像识别为停止标志。左边的图像是一个 STOP 标志的普通图像。我们通过添加一个精确的扰动来产生右边的图像,这个扰动迫使一个特定的 DNN 将其归类为 yield 符号。在这种情况下,对手可能会利用修改后的图像导致没有故障保险的汽车出现危险行为。这种攻击需要通过物理交通标志的转换来修改汽车内部使用的图像。相关的工作显示了这种物理转换对于最先进的视觉分类器和人脸识别模型的可行性。因此,可以想象,通过恶意修改标志本身,例如用贴纸或油漆,可以产生物理的对抗性交通标志。

在本文中,我们首次演示了针对 DNN 分类器的黑盒攻击对于不了解该模型的现实对手是切实可行的。我们假设对手(a)没有关于 DNN 的结构或参数的信息,并且(b)不能访问任何大的训练数据集。对手的唯一功能就是以类似于加密密码的方式观察 DNN 为选定输入分配的标签。

我们新颖的攻击策略是用合成数据集训练本地替代 DNN:输入是合成的,由对手生成,而输出是目标 DNN 分配的标签,由对手观察。对抗样本是使用我们已知的替代参数制作的。由于两个模型的决策边界相似,因此它们不仅会被替代者误分类,还会被目标 DNN 误分类。

我们证明了我们的黑盒攻击可应用于许多基于 ML 决策的远程系统,因为它结合了三个关键属性:(a)所需的功能仅限于观察输出类标签,(b)查询的标签数量有限 (c)该方法除适用于最新的 DNN 外,还适用于不同的 ML 分类器类型。 相反,以前的工作未能同时提供所有这三个关键属性。

2、威胁模型

在我们的工作中,对手试图迫使分类器将输入错误地分类到不同于其正确类别的任何类别中。为了实现这一点,我们考虑只访问 DNN 输出的弱对手。对手不知道设计 DNN 的架构选择,包括层数、类型和大小,也不了解用来学习 DNN 参数的训练数据。这种攻击被称为黑盒,攻击者无需知道系统的内部细节即可对其进行破坏。

使用对抗性示例对深度学习系统进行实用的黑盒攻击

图 1:下面一行的对抗样本(错误分类)是从上面一行的合法样本中创建的。DNN 输出在样本下方标出。

目标模型:我们考虑攻击者以多类 DNN 分类器为目标。它输出概率向量,其中每个向量分量编码 DNN 对输入的置信值为预定义类别的一部分。

**对抗能力:**oracle O 是目标 DNN。它的名字指的是对手的唯一能力: 通过查询 oracle O 访问任意输入 x->的标签 O(x->)。输出标签 O(x->)是被 DNN 分配了最大概率的类的索引:

使用对抗性示例对深度学习系统进行实用的黑盒攻击

其中 Oj(x->)是 DNN O 输出的概率向量 O(x->)的第 j 个分量。访问 DNN O 产生的标签 O~是我们威胁模型中假定的唯一功能。 我们无权访问 oracle 内部或训练数据。

对抗目标:我们想产生任意输入 x->的最小变化版本,命名为对抗样本,并表示为 x-> ∗,由 oracle O:O(x-> ∗) ≠ O(x-> )错误分类。 这对应于对 Oracle 输出完整性的攻击。对抗样本解决了以下优化问题:

使用对抗性示例对深度学习系统进行实用的黑盒攻击

对抗样本示例如图 1 所示。第一行包含合法样本,第二行包含相应的、分类错误的对抗性样本。这种错误的分类必须通过增加最小的扰动 δx->以逃避人类的检测。即使完全了解用于训练模型 O 的体系结构及其由训练得出的参数,找到这样的最小扰动也不是一件容易的事,因为 DNN 的属性排除了线性或凸优化问题。 我们的威胁模型加剧了这一点:删除模型 O 的架构知识和训练数据会使得更难找到满足 O(x-> +δx->) ≠ O(x->)的扰动。

3、黑盒攻击策略

我们介绍了黑盒攻击。如第 2 节所述,对手希望利用访问由分类器为任何选定的输入 x->指定的标签 O~(x->)的唯一能力来精心制作由 ML 模型错误分类的输入。该策略是使用由对手生成并通过观察 oracle 输出进行标记的生成数据集学习目标模型的替代物。 然后,使用该替代品制作对抗样本。 由于架构之间的可移植性,我们期望目标 DNN 对其进行误分类。

在本文中,我们展示了黑盒攻击可以以更低的成本完成,而不需要标记一个独立的训练集。在我们的方法中,为了使对手能够在没有真实标记数据集的情况下训练替代模型,我们使用目标 DNN 作为 oracle 来构建合成数据集。输入是综合生成的,输出是从 oracle 观察到的标签。利用这个合成数据集,攻击者构建了从 oracle 中学习的模型 O 的近似 F。这个替代网络 F 然后被用来制作由 F 错误分类的对抗样本。事实上,由于它完全知道替代 DNN F 的参数,对手可以使用前面描述的攻击之一来制作由 F 错误分类的对抗样本。只要可传递性在 F 和 O 之间成立,为 F 制作的对抗样本也将被 O 错误分类。这导致我们提出以下策略:

1)替代模型训练:攻击者使用基于 Jacobian 启发式方法选择的合成输入来查询 oracle,以建立近似于 oracle 模型 O 决策边界的模型 F。

2)对抗样本制作:攻击者使用替代网络 F 制作对抗样本,然后由于对抗样本的可传递性,这些样本被 oracle O 错误地分类。

3.1 替代模型训练

使用对抗性示例对深度学习系统进行实用的黑盒攻击

图 2:训练替代 DNN F:攻击者(1)收集初始替代训练集 S0,(2)选择架构 F。使用 oracle O~,攻击者(3)标记 S0 和(4)训练替代 F。在(5)基于雅可比的数据集扩充之后,对几个替代时期 ρ 重复步骤(3)至(5)。

训练一个近似 oracle O 的替代模型 F 是有挑战性的,因为我们必须1)在不知道目标 oracle 架构的情况下为我们的替代选择一个架构,以及(2)限制对 oracle 的查询数量,以确保该方法是可处理的。

图 2 所示的方法主要通过引入一种合成数据生成技术——基于雅可比的数据集扩充——来克服这些挑战。我们强调,这种技术不是为了最大限度地提高替代 DNN 的准确性,而是为了确保它以较少的标签查询接近 oracle 的决策边界。

替代架构:这个因素不是最大的限制,因为对手必须至少对 oracle 输入(例如图像,文本)和预期输出(例如分类)有一定的了解。 对手因此可以使用适合于输入-输出关系的架构。 例如,卷积神经网络适用于图像分类。

生成合成数据集:为了更好地理解对合成数据的需求,请注意,对于属于输入域的任何输入 x->,我们可能进行无数次查询以获得 oracle 的输出 O(x->)。 这将为我们提供 oracle 的副本。 但是,这是不容易处理的:考虑具有 M 个输入分量的 DNN,每个输入分量在一组 K 个可能值中采用离散值,要查询的可能输入数为 KM。 对于连续域中的输入,难解性更加明显。 此外,进行大量查询使对抗行为易于检测。

替代 DNN 训练算法如下所示:

使用对抗性示例对深度学习系统进行实用的黑盒攻击

3.2 对抗样本制作

一旦对手训练了一个替代 DNN,就用它来制作对抗样本。这主要通过两种算法来实现,两者有其相似性,即评估模型对输入修改的敏感性,以便选择一个小的扰动来实现错误分类目标。

Goodfellow**等人的算法:**这种算法也被称为快速梯度符号法。给定一个带有相关成本函数 c(F,x->,y)的模型 F,对手通过计算以下扰动为给定的合法样本 x->制作一个对抗样本 x-> ∗ = x->+δx->:

使用对抗性示例对深度学习系统进行实用的黑盒攻击

其中扰动 sgn(∇x->c(F,x->,y))是模型成本函数梯度的符号。使用样本 x->和标签 y 作为输入,针对 x->计算成本梯度。符号矩阵的输入变化参数 ε 的值控制扰动的幅度。

Papernot**等人的算法:*此算法适用于源目标错误分类攻击,在此攻击中,对手试图从任何合法源类中抽取样本到任何选定的目标类中。给定模型 F,对手通过向输入分量 x->i 的子集添加扰动 δx->,为给定的合法样本 x->制作对抗样本 x-> = x-> +δx->。

为了选择形成扰动 δx->的输入分量,可以将分量按对抗性显著性值递减排序。 对抗目标类 t 的分量 i 的对抗显着性值 S(x->,t)定义为:

使用对抗性示例对深度学习系统进行实用的黑盒攻击

每种算法都有其优缺点。Goodfellow 算法非常适合快速制作许多具有相对较大扰动的对抗样本,因此可能更容易检测。Papernot 算法以更大的计算代价来减少扰动。

4、攻击 MetaMind Oracle

Oracle**描述:**我们使用 MNIST 手写数字数据集来训练 DNN。它包括 6 万份手写数字的训练和 1 万份测试图像。与数据集相关联的任务是识别与每个图像对应的数字。将每个 28x28 灰度样本编码为区间内的像素强度向量[0,1],通过行方向读取图像像素矩阵得到。

我们在 MetaMind 的网站上注册了一个 API 键,它允许我们访问三个功能:数据集上传、自动模型训练和模型预测查询。我们上传了 MNIST 训练集中的 5 万个样本到 MetaMind 上,然后使用 API 训练数据集上的分类器。我们强调训练是自动化的:我们不能访问训练算法、模型架构或模型参数。我们所给出的是结果模型的准确性,由 MetaMind 使用一个由分离 10%的训练样本创建的验证集来计算。

经过 36 个小时的训练,得到一个准确率为 94.97%的分类器。由于我们无法访问或修改模型的规格和训练算法,因此无法提高这种性能。一旦训练完成,我们就可以通过 API 访问我们选择的任何输入的模型预测。预测采用类标签的形式。

初始化替代训练集:首先,对手收集初始的替代训练集。我们描述了两个用于攻击 MetaMind oracle 的集合:

1)MNIST 子集:此初始替代训练集由 MNIST 测试集的 150 个样本组成。

2)手工制作的集合:为确保我们的结果不会源于 MNIST 测试集和训练集之间的相似性,我们还考虑了手工制作的初始替代训练集。我们使用笔记本电脑触控板为 0 至 9 之间的每个类手写了 10 位数字,从而手工制作了 100 个样本。 然后,我们将其调整为 28x28 灰度像素的 MNIST 格式。 一些如下所示。

使用对抗性示例对深度学习系统进行实用的黑盒攻击

替代 DNN 训练:对手使用初始替代训练集和 oracle 来训练替代 DNN。替代 DNN 在我们的机器上训练了 6 个替代 epoch。在这 6 个 epoch 中,模型从头开始训练 10 个 epoch,学习率为 10-2,动量为 0.9。在替代 epoch 之间,我们以步长 λ= 0.1 进行基于 Jacobian 的数据集扩充,以生成额外的合成训练数据,我们使用 MetaMind oracle 对其进行标记。

使用对抗性示例对深度学习系统进行实用的黑盒攻击

图 3:替代 DNN 准确性

图 3 报告了两个替代 DNNs 的准确性。它是用 MNIST 测试集(减去第一个初始替代训练集使用的 150 个样本)计算的。对手无法访问这个完整的测试集:我们只使用它来分析我们的结果。两个替代 DNNs 经过 6 次替换训练后,在 MNIST 测试集上分别达到 81.20%和 67.00%的准确率。在这项任务上,这些精度低于目前最先进的精度。然而,对手得到的样本数量有限(在这种情况下,6,400 = 100×26,而不是最先进模型的 50000 个样本)。此外,对抗的目标是制造被 oracle 错误分类的对抗样本。对手不是学习具有最佳准确性的替代 DNN,而是对学习能够模仿 Oracle 决策边界的替代感兴趣。

使用对抗性示例对深度学习系统进行实用的黑盒攻击

图 4:对抗样本在 MetaMind 攻击中的成功率和可传递性

对抗样本制作:然后,利用替代 DNN,我们使用 Goodfellow 的算法来制作对抗样本。 我们决定将 MNIST 测试集中的 10,000 个样本用作我们的合法样本。我们使用两个指标来评估样本制作:成功率和可传递性。 成功率为替代 DNN 误分类对抗样本的比例。 我们的目标是验证这些样本是否也被 Oracle 误分类了。 因此,对抗样本的可传递性是指使用替代 DNN 制作的对抗样本的 Oracle 误分类率。

图 4 详细列出了每个替代 DNN 和输入变化 ε 的几个值的度量。 第一个替代 DNN 的可传递性达到 84.24%,第二个替代 DNN 的可传递性达到 78.72%,输入变化 ε= 0.3。 因此,我们的攻击策略可以有效地严重破坏 MetaMind oracle 的输出完整性。

5、结论

我们介绍了一种攻击,该攻击基于一种使用合成数据生成的新型替代训练算法,旨在制作被黑盒 DNN 分类错误的对抗样本。我们的工作是朝着放宽对先前攻击的对抗能力的强大假设迈出的重要一步。我们仅假设对手能够观察模型为其选择的输入分配的标签。我们以 MetaMind 提供的远程 DNN 为目标,验证了我们的攻击设计,迫使它对 84.24%的对抗样本进行了误分类。

推荐阅读
第一台计算机核心功能设计者朱传榘(中国) 2019-11-29 18:30
英伟达NVIDIA GeForce RTX 30系列 GPU 规格有哪些? 2020-07-16 15:51
OPPO Reno 2 10倍变焦版AI相机表现不逊Reno 2019-11-12 18:20
三星 Galaxy S20 系列手机耐用度、 易碎性测试评分最高 2020-03-11 16:10
全球前五大电信设备供应商市场份额排名,三星抢先发布5G白盒基站 2020-07-09 14:40