→带有未知权重的目标模型,机器学习算法、训练集;也许是不可微分的——(训练你自己的模型)→替代模型使用已知的可微分的函数来模拟目标模型——(对抗性的设计来对抗替代)→对抗样本——(部署对抗样本来对抗目标;迁移性导致它们的成功)→ 对抗样本的实际应用 欺骗通过远程托管的 API(MetaMind、亚马逊、谷歌)训练的真实分类器 欺骗恶意软件检测器网络 在物理世界中展示对抗样本,通过一个相机欺骗机器学习系统相信它们 物理世界中的对抗样本 用于强化学习的对抗样本。伯克利、OpenAI 以及宾大联合发表的论文《Adversarial Attacks on Neural Network Policies》,内华达大学《Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks》等研究表明强化学习智能体也能被对抗样本操控。研究表明,广为采用的强化学习算法(比如,DQN、TRPO 以及 A3C)都经不起对抗样本的捉弄。这些对抗样本输入会降低系统性能,即使扰乱微妙地让人类也难以察觉,智能体会在应该往上移动的时候却将球拍向下移动,或者在 Seaquest 中识别敌人的能力受到干扰。 失败的防御方法,其中包括生成式预训练、使用自动编码器移除干扰、纠错代码、权重衰减、多种非线性单元等等 在对抗样本上的训练 一匹叫做 Clever Hans 的马。刚出现的时候人们认为这匹马会做算术,但实际上它只是会阅读人的表情,当它点马蹄的次数接近正确答案时,人们的表情会更兴奋,它就知道该这个时候停止了。 OpenAI 开源的 cleverhans 项目,支持 TensorFlow 和 Theano;是对抗样本生成的标准实现,可用于对抗训练和再现基准。项目地址:https://github.com/openai/cleverhans 差分隐私 PATE:教师全体的私有聚合 (Private Aggregation of Teacher Ensembles)。该方法通过黑箱的方式组合多个由互斥数据集(如用户数据的不同子集)训练的模型。因为这些模型都依赖于敏感性数据,所以它们并不会发布,但是它们还是可以作为「学生」模型的「教师」。学生在所有教师间的投票中选择学习预测输出,其并不会直接访问单一的教师或基础参数与数据。学生的隐私属性可以直观地理解(因为没有单一的教师和单一的数据集决定学生的训练),正式地即依据不同隐私训练模型。即使攻击者不仅可以访问学生,还能检查内部运行工作,这一属性还将保持不变。与以前的研究相比,该方法对教师的训练只增加弱假设条件:其适应于所有模型,包括非凸模型(如深度神经网络)。由于隐私分析和半监督学习的改进,我们的模型在 MNIST 和 SVHN 上实现了最先进的隐私/效用(privacy/utility)权衡。 总结 现在机器学习已经有效了,让我们让它更稳健 对抗样本可以发生在训练时间,也可以出现在测试时间 对抗训练是一种人们偏爱的对对抗样本的防御方法 PATE-G 是一种高准确度的算法,带有差分隐私的保证 (责任编辑:本港台直播) |