5月21日,在音乐,科技与艺术相结合的MTA天漠音乐节,投身CV领域创业的中科院计算所山世光教授,从计算机视觉的视角与我们分享了这一轮人工智能热潮的特点,以及他本人投身创业后的一些进展。 首先,山世光教授从事实层面列举了我们应用计算机视觉技术的一些例子,计算机也已经开始能够执行像我们小时候进行的“看图说话”的语言任务,这就是自动图题技术。而最典型的应用可能就是时下诸多公司参与的自动驾驶。此外,近五年来,计算机分类识别物体的错误率基本上都是以每年下降一半的速度在提升。 而计算机视觉技术的进步,得益于3大引擎的推动作用:1.GPU的普及所带来的计算能力的提升;2.大数据的运用;3.深度学习算法的复兴。 针对人工智能的探讨,永远引人入胜的话题还包括人类和智能的比较。对这一类问题,山世光教授也分享了他的认识。 他引用了李开复老师在公开发表过场合的观点:10年后,人工智能会取代世界上很多职业,50%的工作都可能被取代,开奖,其中包括翻译、记者、助理,包括保安、司机、销售等。 或许观点上存在“仁者见仁,智者见智”,那么究竟如何评判什么职业会被取代,这就先要解答AI更容易在哪些领域超越人类,又在哪些地方还有待突破。 山世光教授介绍,AI擅长的是通过大量的数据进行归纳学习。而人类学习除了归纳法外,还包括演绎推理,但需要推理的部分,深度学习目前还没有办法解决。通过自我判断对错的增强学习,也是目前机器无法做到的。所以现阶段的AI,比较适合于数据采集、获取、标注比较便利的领域,包括计算机视觉、语音识别等领域。 由此可见,AI容易超越人类的领域有两大类别:第一类是巨量空间的搜索问题或者检索问题;第二类是通过经验习得技能的领域,如自动驾驶、医疗读图。 那么,人类的机会在哪里?山世光教授认为,尽管人类在认知能力没有像机器一样日新月异的进步,但人脑除了数据学习能力外,还有逻辑推理能力。人类能够主动为自己设计算法模型,还能够主动收集数据。通用的AI还没有出现的迹象,当前的AI都是针对特定领域的。 最后,山世光教授分享了他本人投身创业后的一些进展。他在去年创办了中科视拓,为各行各业的用户、客户,提供基于私有数据,生产自己的AI引擎的能力。目前他们已经为华为做了手机里的人脸识别,也与中国移动、中国平安等客户进行了合作。 以下是山世光的演讲原文: 大家好!我是来自中科院计算所的山世光。在大概2、3年前,我们进入了新一轮的人工智能的热潮,我们称之为第三次人工智能的热潮。我下面从计算机视觉,也就是我们希望机器能够像人一样看世界的视角来探索一下人工智能这一轮热潮有什么特点。 首先,简单举几个例子,计算机视觉,也就是说在机器有了摄像头之后,它可以做什么?比如说,最典型的例子,自动驾驶,或者是汽车辅助驾驶里,特别是以特斯拉为代表的自动驾驶的,或者是辅助驾驶的,已经可以实现对道路上的汽车、行人、车道线等这样一些物体的检测、识别。同时,利用检测到的车、人,能够帮助我们进行驾驶。 例子二:从计算机视觉做算法的角度来讲,在过去3、4年时间里,我们可以明确地看到,从2012年到2015年,我们让计算机正确的分类它所看到的物体是什么这样一个问题上,错误率基本上都是以每年下降一半的速度在提升。 例子三:自动图题技术 我们可以想象成,给大家一张照片,让机器自动描述,或者写一段话来介绍这张照片里有什么样的内容。比如说有一张照片,机器可以自动生成一句话来描述这是在一个开放的市场上,有很多人在购物(菜市场)。这是类似于我们小时候看图作文的任务,这也是计算机视觉非常重要的任务。 大家在过去1、2年里,每年刷脸的次数也在不断增加。我相信,在未来的时间,我们每年刷脸的次数,在明年也许会增加到10次,未来会是上百次,甚至是更多的场景。我们用这样一个系统来刷你的身份证,来判断你是不是这个身份证合法的持有人。 这样一些计算机视觉技术的进步,有三大引擎在起作用:1、非常强大的计算能力,这一点大家已经看到了,特别是GPU的普及,使得我们可以训练非常复杂的算法。2、大数据。人脸识别系统,谷歌采用了800万人两亿张照片来训练他们深度学习的模型。这一点,地球上任何一个人都不可能在这一辈子见到这么多的人,用来训练自己大脑里的人脸识别算法。我们的系统可以通过刷身份证判断他是否是合法持有人。 (责任编辑:本港台直播) |