「因为目前的机器学习严重依赖于数据的分布,如果数据分布本身很复杂,或者是人为地把它变得复杂,黑客如果有手段去生成恶意的样本,就会导致识别不出来,或者识别错误。」肖煌进一步解释。 肖煌表示,如果干扰被用在无人驾驶领域,后果则不堪设想。比如,在无人驾驶测试路段德国 A9 高速公路上,有专门的标识引导无人驾驶车。如果路边的标识被恶意修改,误导依赖标识的无人驾驶车,则会造成极度危险的情况。 肖煌认为,因为算法本身的缺陷,在大规模使用人工智能之后,网络安全则需要更换思路,设计新的方法。 对此,他提供了以下路径。 一,增加分析端的可解释性。肖煌分析,如果是病毒威胁入侵,用机器学习检测的方法,很难解决,因此希望能在信息安全泄露事故时,用统计学的方法理解其中的关联,黑客如何入侵系统,攻击的路径是什么,又是哪个环节出现了问题,找出这些关联,或者从因果关系图谱角度进行分析,从而增加分析端的可解释性。 二,目前的机器学习算法模型太复杂,需要使用大量的数据,就存在 Tradeoff(权衡取舍)的情况。肖煌认为,降低算法复杂度的方法有很多,比如,引入先验的知识,引导模型往一个方向学习。这样学习的模型复杂度会降低,需要的数据也比较少。 三,信息安全情报的共享也非常重要。比如,模型存在某个缺陷,把这个缺陷提取出来,用一种高效的手段,编译到另一种模型中去,另外的模型则无此缺陷。肖煌认为,这类似迁移学习(Transfer learning),只是迁移学习是迁移中间的学习结果,实际上中间学习出来的异常也可以迁移,从而增加算法的安全性。 (责任编辑:本港台直播) |