本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】学界 | OpenAI探讨人工智能安全:用对抗样本攻击机器学习

时间:2017-02-17 17:09来源:香港现场开奖 作者:118KJ 点击:
参与:微胖、李亚洲、吴攀 对抗样本是扮演攻击角色、试图用来引发模型出错的机器学习模型的输入;如同机器产生的光影幻觉。在这篇博文中,我们将为读者展示对抗样本在各种不

参与:微胖、李亚洲、吴攀

对抗样本是扮演攻击角色、试图用来引发模型出错的机器学习模型的输入;如同机器产生的光影幻觉。在这篇博文中,我们将为读者展示对抗样本在各种不同介质中的运作原理,还会讨论为什么系统难以防御它们。

OpenAI , 我们认为,对抗样本问题属于人工智能安全研究(我们正在从事)好的一面,因为它们代表着一个能在短期内加以解决的具体问题,由于解决它们比较难,因此需要进行严肃的科学研究。(尽管为了确保打造出一个安全、广为分布的人工智能系统,我们需要研究许多机器学习安全许多方面的问题。)

为了搞清楚对抗样本的庐山真面,请考虑一下这篇研究《解释并驯服对抗样本(Explaining and Harnessing Adversarial Examples)》中的例证:开始是一张熊猫图片,接着,攻击方给图片添加了小的扰乱,足以让这只熊猫被认定为一只长臂猿。

报码:【j2开奖】学界 | OpenAI探讨人工智能安全:用对抗样本攻击机器学习

叠加在典型图片输入上的对抗输入会让分类器产生错觉,atv,误将熊猫识别为长臂猿。

这一办法十分稳健;近期的一些研究也已经表明,在标准论文上打印出对抗样本,用一部标准像素智能手机拍下来后,这些样本仍然可以捉弄系统。

  

报码:【j2开奖】学界 | OpenAI探讨人工智能安全:用对抗样本攻击机器学习

对抗样本可以在论文上打印出来,用标准像素手机拍下后,仍然可以捉弄分类器,在这个例子中,分类器将「洗衣机」识别为「保险箱」。

对抗样本具有潜在危险性。比如,攻击者可能会用贴纸或者一幅画做一个对抗式「停止(stop)」交通标志,将攻击对象瞄准自动驾驶汽车,这样,车辆就可能将这一「标志」解释为「放弃」或其他标识,进而引发危险。Practical Black-Box Attacks against Deep Learning Systems using Adversarial Examples 讨论过这个问题。

一些新近的研究,比如,伯克利,OpenAI 以及宾大联合发表的论文 Adversarial Attacks on Neural Network Policies, 内华达大学 Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks ,表明强化学习智能体也能被对抗样本操控。研究表明,广为采用的强化学习算法,atv,比如,DQN , TRPO 以及 A3C ,都经不起对抗样本的捉弄。这些对抗样本输入会降低系统性能,即使扰乱微妙地让人类也难以察觉,智能体会在应该往上移动的时候却将球拍向下移动,或者在 Seaquest 中识别敌人的能力受到干扰。

如果各位看官想玩坏自己的模型,不放试一下 cleverhans 这个开源库,它是 Ian Goodfellow 和 Nicolas Papernot 一起研发的,旨在测试面对对抗样本,你的人工智能模型有多脆弱。

在人工智能安全问题方面,对抗样本提供了一些牵引力

当你思考人工智能安全时,经常会考虑这个领域中最难的问题——我们如何能确保成熟的强化学习智能体(比人类要智能得多)能按照最初设计意图行事?

对抗样本向我们展示了这样一个事实:即使是简单的现代算法,不管是监督学习还是强化学习,都能以出乎人类意料的方式行事。

力图防卫对抗样本

让机器学习模型更加稳健的传统技术,比如权重衰减或者 dropout,通常无法切实防范对抗样本。到目前为止,仅有两个办法可以提供显著的防范措施。

对抗训练:这是一种蛮力解决方案。我们简单地生成许多对抗样本,明确训练模型不要被这些样本给骗了。cleverhans 库提供了一个开源的对抗训练实现,这个教程里有指南(https://github.com/openai/cleverhans/blob/master/tutorials/mnist_tutorial_tf.md)。

Defensive distillation (https://arxiv.org/abs/1511.04508): 在这一策略中,我们训练模型生成关于输入属于不同类别的概率,而不是硬让系统决定输入到底属于哪一类。这一概率由更早一些的模型提供,该模型是针对同一任务,用比较难的类别标签训练过的。这会让我们得到一种模型——其表面在对手通常会加以利用的方向上是平滑的,这会使得对手很难发现导致错误分类的对抗输入调整。(Distilling the Knowledge in a Neural Network (https://arxiv.org/abs/1503.02531) 最初将这个办法视为一种模型压缩技术,为了节省计算资源,小模型被训练用来模拟大模型。)

然而,只要个敌方再添加些计算火力,这些专门的算法也会被轻易攻下。

失败的防御:「梯度掩模(gradient masking)」

为了给出一个关于简单防御可能如何失败的案例,让我们思考一下为什么一种叫做「梯度掩模(gradient masking)」的技术没有效果。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容