摘要 对抗样本(adversarial examples)是被设计用来愚弄机器学习模型的恶意输入。它们总是从一种模型迁移到另一个,直播,让 attackers 在不知道目标模型的参数的情况下进行黑箱攻击。对抗训练(adversarial training)是在对抗样本上明确地训练模型的过程,从而使它可在面临攻击时更稳健或可减少它在干净输入上的测试错误率。目前,对抗训练主要被用于一些小问题。在此研究中,我们将对抗训练应用到了 ImageNet。我们的贡献包括:(1)推荐如何将对抗训练成功地规模化到大型模型和数据集上。(2)观察对抗训练对单步 attack 方法的稳健性。(3)发现多步 attack 方法要比单步 attack 方法有较小的可迁移性,所以单步 attack 对进行黑箱 attack 更好。(4)分辨出是「lable leaking」效应造成对抗训练的模型在对抗样本上的表现比在干净样本上的表现更好,因为对抗样本构造流程使用真实标签(true label),所以该模型能学习利用构造流程中的规律。 ©本文为机器之心编译文章,atv,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |