在 2000 年以后,随着移动互联网的发展,有大量设备产生各式各样的日志,因此在日志管理和分析方面,有了长足的发展。而包括关联分析等机器学习算法也被大量使用。 在机器学习中,童宁表示,监督学习则是一个高效的多维度特征发现方法,适用于恶意程序、勒索病毒以及垃圾邮件的防治。但监督学习也面临着挑战:一,模型的新鲜度,因为威胁每天都在变化,而监督学习并不是每天都在学习,如果不每天学习,最新的威胁就识别不出来。二,模型的准确率,学习是一回事,但真正使用时的精度又是另一回事。三,模型的召回率,也就是说漏掉了多少威胁,有多少威胁没有抓住。 因此,监督学习并不是万能的,比如反欺诈、态势感知、用户行为分析则更适合无监督学习。然而,无监督学习也面临着另外的挑战,因为无监督学习一般是在客户的网络环境中进行,因而很有可能面临投毒攻击。 「机器学习技术的优势是它的多维识别能力,然而机器学习技术再强大也需要与其他手段综合起来利用,效果才更好。」童宁说。 肖煌同样指出,将机器学习用于网络安全,在很多场景,预测精度并不能达到他们要求的 0.000001 的误报标准。从这个角度来说,人工智能也只是辅助手段,还需要与传统手段结合。 然而,肖煌认为,将人工智能用于网络安全则有另外的优势,那就是提高分析效率。人工智能的典型作用是代替人类做大量重复的劳动,比如用人工智能分析影像图片,将影像医生从低效率的重复劳动中解放了出来。 网络安全行业,也同样如此。 数据显示,中国目前对网络安全人才的总需求量超过 70 万,每年增加的人才却不过两三万,缺口高达 95%。而且,一个分析师每天能分析的漏洞却是非常有限的。 「如果不通过自动化的手段,将来物联网连接设备数爆发的时候,大量的信息安全隐患只依赖人来分析是不太可能的。」肖煌表示,一个信息安全分析师每天最多能看一两千条 log 数据,或者一两百个代码片,而对人工智能来说,几百万条数据,只需花费几分钟时间。 根据肖煌的观察,信息安全和人工智能,领域不同,思维方式也有一定区别,前者更偏向于系统工程,后者则更偏向于数学思维。因此,肖煌的很多同事认为人工智能解决的问题有限,更愿意使用传统的方法,但也会朝着分析自动化的方向思考。 「我相信任何一个做信息安全的人必然要向这个方向靠拢。」肖煌希望能用趋于成熟的自动化手段完成垂直领域的性能提升,包括分析的效率、时效性、规模和可解释性。 人工智能时代的攻与防 网络安全是道高一尺魔高一丈的世界。安全人员使用人工智能技术阻挡黑客攻击,反过来这也会使黑客使用人工智能技术发起更复杂的攻击。而随着大量人工智能模型开源,黑客入侵的工具也愈发多样化。 肖煌表示,只要稍加学习,黑客就可以利用开源工具欺骗识别系统,而技术难度的降低会促使很多人成为黑客,或者是进行一些此前做不到的攻击。 这并非杞人忧天。 在网络钓鱼电子邮件中已有这样的案例,黑客通过模仿人类的说话习惯和内容,使得企业或个人被入侵时更加难以识别。 肖煌认为,以后的病毒变种会越来越多,检测越来越难,规模越来越大,生成的时间越来越短。 叠加在典型图片输入上的对抗输入会让分类器产生错觉,误将熊猫识别为长臂猿 2017 年 2 月,OpenAI 在发表的最新研究中,指出人工智能安全领域的另一大隐忧:对抗样本。在图像识别问题中,攻击者将对抗样本输入机器学习模型,让机器在视觉上产生幻觉,从而让系统产生误判。而在论文《解释并驯服对抗样本》(Explaining and Harnessing Adversarial Examples)中有一个例子:一张熊猫图片,被加入人为设计的微小噪声后,就导致系统将熊猫识别为长臂猿。 多年来,肖煌一直在研究对抗性机器学习,致力于攻克机器学习算法本身的缺陷。他分析道,依赖于数据的机器学习算法、深度学习算法本身存在很大的缺陷。对抗性生成网络,则利用这种缺陷,设计新的架构去生成模型。 (责任编辑:本港台直播) |