本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】学界 | OpenAI探讨人工智能安全:用对抗样本攻击机器学习(2)

时间:2017-02-17 17:09来源:香港现场开奖 作者:118KJ 点击:
「梯度掩模」是一个由 2016 年的论文《使用对抗样本对深度学习系统进行实际的黑盒攻击(Practical Black-Box Attacks against Deep Learning Systems using Adversarial Exam

「梯度掩模」是一个由 2016 年的论文《使用对抗样本对深度学习系统进行实际的黑盒攻击(Practical Black-Box Attacks against Deep Learning Systems using Adversarial Examples)》引入的术语,其描述了一整类试图通过拒绝攻击者对有用梯度(useful gradient)的访问权限而进行防御的失败方法。

大多数对抗样本构建技术都使用了模型的梯度来进行攻击。打个比方,它们查看了一张飞机图片,它们测试在图片空间中哪个方向会使「猫」类别的概率增加,然后它们在那个方向上给予一点推动(换句话说,它们干扰输入)。这样,新的修改过的图像就会被认为是一只猫。

但如果其中并没有梯度呢——如果图片上一个无穷小的修改不会给模型的输出造成任何改变呢?这似乎就能够提供一定程度的防御,因为攻击者无法获悉向哪个方向「推动」图像。

我们可以轻松地想象出一些非常简单的避免梯度的方式。比如,大部分图像分类模型都可归于两种模式:一是它们仅输出识别出的最有可能的类别,二是它们输出概率。如果一个模型的输出是「99.9% 的概率是飞机,0.1% 的概率是猫」,那么对输入的一点微小改变也会给输出带来一点微小的改变,而梯度就会告诉我们哪些改变会增加属于「猫」类的概率。如果我们运行的模型的模式是仅仅输出「飞机」而没有概率,那么一点微小的改变就不会对输出产生任何影响,梯度也不会让我们了解任何东西。

下面让我们进行一个思想实验,看我们的模型在处于「最有可能类别」模式而非「概率模式」类别时,可以如何防御对抗样本。攻击者不再需要寻找将被分类为「猫」的输入,所以我们可能已经有了一些防御。不幸的是,之前被分类为「猫」的图像现在仍然还是被分类为「猫」。如果攻击者可以猜测哪些点是对抗样本,那么这些点仍然可被错误地分类。所以这种方法不能让该模型更稳健;只是让攻击者在寻找模型防御的漏洞时没有那么多的线索罢了。

更不幸的是,事实证明攻击者在猜测防御漏洞时具有非常好的策略。攻击者可以训练一个他们自己的模型——一个有梯度的平滑的模型,并为他们的模型制作对抗样本,然后只需要部署这些对抗样本和我们的非平滑模型进行对抗即可。很多时候,我们的模型也会错误分类这些样本。最后,我们的思想实验表明:隐藏梯度不会给我们带来任何好处。

执行「梯度掩模」的防御策略通常会导致得到一个在特定方向上和训练点的附近非常平滑的模型,这会使得对手更难以找到指示了好的候选方向的梯度,从而更难以以破坏性的方式干扰该模型的输入。但是,对手可以训练一个「替代(substitute)」模型:一个模仿被保护的模型的副本——这可以通过观察被保护模型分配给对手仔细选择的输入的标签而实现。

这篇黑盒攻击论文介绍了一种用于执行这种模型提取攻击(model extraction attack)的方法。然后对手可以使用这种替代模型的梯度来寻找被被保护模型错误分类的对抗样本。在上图(该图来自论文《关于机器学习中的安全和隐私的科学(Towards the Science of Security and Privacy in Machine Learning)》中关于梯度掩模的讨论)中,我们给出了这种攻击策略在一个一维机器学习问题上的应用。该梯度掩模现象(gradient masking phenomenon)在更高维的问题上会加剧,但这是难以描述的。

我们发现对抗训练和 defensive distillation 都会偶尔执行一定类型的梯度掩模。这两种算法明显都不是为梯度掩模而设计的,但当机器学习算法要进行保护自己的训练而未被给出明确的方法指令时,梯度掩模显然是该机器学习算法能相对轻松地发明的一种防御。如果我们将对抗样本从一个模型迁移到另一个也经过对抗训练或 defensive distillation 训练过的模型,那么这个攻击通常会成功——即使当对第二个模型的直接进攻会失败时。这表明这两种模型做得更多的是展平模型和移除梯度,而不是确保其正确分类更多的点。

为什么防御(defend)对抗样本很难?

对抗样本难以防御是因为很难构造对抗样本处理过程的理论模型。对抗样本是许多机器学习模型非线性、非凸性优化问题的解决方案,包括神经网络在内。因为我们没有好的理论工具来描述这些复杂的优化问题的解决方案,所以也很难作出理论性争辩说一种防御能够排除一系列的对抗样本。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容