RON它实际上是基于一个减速区域网络连接的侦查结构,解决了两个问题,一个是采用连接的网络来使用在多层占比目标定位,这样就在CNN多个方面进行目标检测。另外采用了接线网络的挖掘算法,通过这两个方式来提高它的精度和速度问题。这个是我们最新的一个工作。 当然我们还有别的新工作,目前像谷歌、Facebook都有很重要的网络,我们也有自己的网络,所以希望在这方面拼一把。另外,很重要的一点就是一般的检测算法都是基于一个模型去做检测,我们最近有一个工作,不需要对model,只要有一个少量的标准就可以做一个模型,这个实际上对类别,物体检测算法会有一个全新的改变,就是说你可以定制自己的结构,不会依赖于找一个对称的模型,这样可以解决一些应用场景的需求。 另外很多网络都有IP的,虽然大家不说但是你在商用会涉及到IP问题,这个会避开IP的问题。 上面是基于我们的算法做的一个模型,目标是在复杂场景里面进行多类物品检测,要实现实时性和准确性的要求。另外一个就是模型压缩,大家知道深度学习它的精度很高,但是它的复杂性比较高,因为它的模型参数上百万、上千万、上亿,这样除了高效的网络结构设计另外就是对模型结构压缩,这里我们提出了深度压缩的解决方案,它可以实现把一个DNS模型转化成低精度的,实现近百倍的压缩。 这个解决方案包括三个部分,一个是DNS,主要是优化对DNS的结构。中间是INQ,优化完结构要对它的位置进行压缩,用二进制表示,这样我们也是通过一些巧妙的设计,包括一些机制来保证它。最后一个是VLE,可以实现对机器学习的加速。 这个是一个简单的对比,我们和目前最好的深度压缩解决方案的比较,实际上它的所有位置都做了硬件。我们实现上百倍的稍微有点损失,但是也是基本上可以达到上百倍的压缩,如果不损失精度的话差不多也是70倍的压缩。 我们最后一个方向是做视觉相关的工作,我们在CVPR上面做的工作可以产生对一个短视频的描述,简单看一看它的一个例子。这个是一个简单的视频,在这个视频上可以产生一个描述,分为三段:第一段就是穿红衣服的女士在给孩子们拍照,下面这一段孩子们在接受采访。另外还有一种方式就是说对于同一个视频可以产生不同的视频区域的序列,对于不同的区域序列可以用这个产生不同的描述。这就是我们今年的一个工作。 这个工作不光是在DVC,另外也在深度描述里面获得了最好的结果,我们看一看它的一个例子,这是一个Demo,下面的字母都是我们产生的,基本上你看它这个算法差不多是30帧做一次,而且基本上符合效果。所以这个离我们的水平还差很远,但是已经可以在一些视频网站上做一些标注,所以这个还是很重要的设计。 所以简单的总结一下,我们英特尔研究院实际上正在做一些智能识别和数据处理研究,以应对数据爆炸的挑战。另外就是我们英特尔中国研究院主要是做人脸分析,精准识别,物体检测,DNN的压缩,以及视频描述相关的一些工作,这一块我们做得还是比较好的。有好的工作我们希望能够跟工业界,跟学术界加强合作,能够把识别率技术进一步发展的更快,帮助大家挖掘视觉信息的价值。谢谢大家!返回搜狐,查看更多 (责任编辑:本港台直播) |