陈玉荣:我们先看一看数据,现在大家都知道手机可以拍照,基本上视觉的数据在云端还有终端上都能计算。整个互联网上,视频流量占据了所有消费者流量的80%以上,而且这个比例还在持续增加。留下一个问题就是,这么多海量的数据人基本上看不过来,唯一的办法就是用机器去看,机器看主要就是要采取一些视觉理解的一些技术。 为了解决视觉数据爆炸的问题,实际上我们成立了一个跨多个实验室的研究规划,它研究的内容基本包括了视觉理解的每一个方面,还包括一些基础组件,包括视觉索引等等。 我们英特尔中国研究院在这个规划下面做一些前沿的视觉理解、视觉认知等等工作,目前我们主要涉及三个方面:人脸分析和情感识别;针对视觉识别高效的CNN视觉压缩;视觉和语言和知识融合。这样我们不光能够做人脸检测、识别物体,还能对物体的关系进行描述,把视觉识别一直到视觉理解对应起来。 下面我介绍一下我们的主要工作。我们对人脸的技术进行了长期的研究,从人脸的识别到性别、年龄、表情识别都有,实际上我们这些算法上都是我们有自己IP的,然后我们用这些算法和一些BU合作,来帮助英特尔的硬件、软件、应用和一系列解决方案。像比如说人脸检测,实际上它已经在英特尔的显卡里面有东西。另外软件里面我们有SDK。 另外就是情感识别,实际上情感识别是人工智能很重要的一块。对于我们人来说表情是我们表达情感最直接的方式,2015年我们就做了一个算法,对人脸肌肉的运动和内在交互关系进行解码。基于这个算法我们参加了一个会议——有个比赛叫做自然环境下的情感识别比赛,我们获得冠军。 去年我们实际上也有开发了一个新的解决方案,采用了最新的设计,它对网络的低层、中层、高层结构进行了设计,最终在一百个团队里面获得了第二名, 当时,我们的算法是新的,因为第一名他们都是没有太多的创新,所以我们这个工作实际上被选为最有影响的工作,我们的速度是其他团队的200倍以上,因为我们本身是一个非常高效的模型,这个就满足了很多适应性的需求,比如在机器人,在自动驾驶里面,驾驶舱的乘客还有驾驶员都可以用。 今年的比赛实际上正在进行,我们也参加,它的截止日期应该是在下个月5号,我们也希望有新的技术出来,所以大家可以期待。 另外就是物体检测这一块,传统方法都是基于大数据分析,实际上近年来基于机器学习算法基本处于一个基本算法。分两类,一类是区域算法,这里面有一个算法是我们做的HyperNet,这个工作实际上我们让BU做了一个开源的代码叫PVNet,它是基于HyperNet做的标准算法。 另外一个算法就是不需要区域的算法,我们把两类算法的一个点结合在一起做了一个新的算法叫RON,这个工作第一作者是我们英特尔,所有的IP都是使用我们的。 (注:该论文被今年的CVPR录取。此前新智元曾做过报道:《CVPR清华大学研究,高效视觉目标检测框架RON》 ) (责任编辑:本港台直播) |