【商汤科技23篇论文横扫CVPR】林达华教授重磅揭秘冠军论文 2017-07-25 13:13来源:新智元 原标题:【商汤科技23篇论文横扫CVPR】林达华教授重磅揭秘冠军论文 1新智元报道 - CVPR 2017 专题 作者: 林达华 编辑:零夏 【新智元导读】新智元昨天介绍了谷歌在CVPR2017的21篇论文大总结,开奖,今天介绍的商汤科技与香港中大-商汤科技联合实验室共同发表的论文多达23篇。香港中大林达华教授亲自精选五篇论文与大家分享。这五篇论文的研究成果在各个专业数据集、竞赛如ImageNet、Visual Genome、DAVIS Challenge、MPII中,atv,取得第一名的成绩。 国际计算机视觉与模式识别大会 (CVPR) 是人工智能尤其是计算机视觉领域的顶级学术会议。今年CVPR的文章录取率大约29%。在CVPR上发表的论文被公认为代表了该领域科技发展的最高水平。从今年7月21日开始这个一年一度的盛会就在美丽的夏威夷火奴鲁鲁召开。本届CVPR大会商汤科技与香港中大-商汤科技联合实验室共发表了23篇论文,超过了以人工智能技术著称的科技巨头Google (21篇)和FacebookAI Research (7篇)。这23篇论文涵盖了计算机视觉的多个领域,不仅提出了很多新型的应用,也在核心技术的研发上取得了多项国际领先的成果。在本文中我们将以其中5篇论文为代表一窥商汤这个AI独角兽背后的核心技术创新之路。 PolyNet:深度网络设计的里程碑,多项比赛夺冠 深度学习在这几年取得了令世人瞩目的成就。这些成就背后的最主要的技术因素就是深度网络设计技术的不断突破。深度网络的进步首先反映在ImageNet1000类图像分类的准确率上它是业界公认的衡量深度网络性能的一个重要指标。从AlexNet、GoogLeNet到ResNet网络越来越深准确率也在不断提升。在过去五年ImageNet分类准确率从84%提高到了97%。可是随着网络深度持续增加性能的进一步提升开始遇到了瓶颈。比如ResNet从一百多层增加到一千层性能也没有显著的提高。面对这样的困难此论文[15]提出了一种新的破局思路增强网络的结构多样性(Structuraldiversity)。这个思路源自于我们在实践中的一个重要观察多个不同结构的超深网络的简单结合往往能带来性能的进一步显著提升。沿着这个思路我们设计了PolyNet。它由多个不同形态的称为PolyInception的基本元组叠合在一起构成。因为每种元组都可以通过一个数学多项式表达出它的结构所以称为PolynomialInception简称PolyInception。如上图所示每个PolyInception是内部合成了多个不同深度的并行通路。这个设计把结构多样性的思想往前推进了重要一步把它融入到每个单元的设计之中。此论文的作者透过系统性的对照实验对PolyNet的设计进行测试发现它相比于主流的设计包括ResNet以及由Google提出的InceptionResNet v2有更高的效率即在相同的计算量下能获得明显更高的性能。文中描述的Very Deep PolyNet在ImageNet大规模图像分类测试集上获得了single-crop错误率4.25%和multi-crop错误率3.45%的性能显著超过了Google提出的InceptionResNet v2和Facebook在同一时间发表的ResNeXt成为已发表的性能最高的网络也是深度网络设计领域的新标杆。在ImageNet2016的比赛中商汤科技与香港中大-商汤科技联合实验室在多项比赛中选用了这种网络结构并取得了三个单项第一的优异成绩。这一成绩反映了一个高效的深度网络架构对于提升应用性能的重要作用。PolyNet的模型结构已在Github公开https://github.com/CUHK-MMLAB/polynet 论文标题:PolyNet:A Pursuit of Structural Diversity in Very Deep Networks 论文作者:Xingcheng Zhang, Zhizhong Li, ChenChange Loy, Dahua Lin Relational Net: Visual Genome上把关系识别准确率从48%大幅度提高到82% 物体检测与识别一直是计算机视觉研究的重要方向。近年来随着Faster RCNN等基于深度学习的检测框架的发展物体检测的性能有了长足的进步但这对于图像理解仍然是不足够的。出现了同类型物体的图片它们背后传递的含义可能是截然不同的。要理解这样的图片我们不仅需要判断图中出现的物体的类型而且需要理解物体之间的关系。最近一段时间关系识别逐步进入计算机视觉研究的视野。在这个问题上的一个有代表性的工作是斯坦福大学李飞飞团队在2016年10月发表在ECCV上的论文。该工作把语言先验用于关系识别相比于之前的方法取得了不错的进展关系识别的准确率提高到了48%。然而这样的准确率显然离满足实用需求仍有较大的距离同时它也反映的问题的难度。这个问题的主要挑战在于关系与物体有着显著不同的性质。某种类型的物体它的外观表现往往比较一致而同一种关系的外观表现往往千差万别。此论文[12]提出了一种新的建模方法把统计学习和深度网络有机地结合起来。此方法把一个基于条件随机场(ConditionalRandom Field)的迭代推断方法解开从而把它表达为一个前向计算网络。这个前向网络和CRF一样具有统计推断的能力但是它可以被嵌入到一个更大的深度学习系统中和其它模块一起进行端对端的学习。基于这种方法此论文提出了一个称为DeepRelational Net的关系理解框架把特征学习以及跨领域关系学习结合成一个统一网络。这个框架在关系理解领域的主要数据集Visual Genome上把关系识别准确率从48%大幅度提高到82%从而为这个问题设立了新的性能标杆。这篇论文在CVPR 2017被接收为Oralpresentation。该论文相关代码与模型结构已经在Github公开https://github.com/doubledaibo/drnet。 论文标题:Detecting Visual Relationships with Deep Relational Networks 论文作者:Bo Dai, Yuqi Zhang, Dahua Lin Deep Layer Cascade: 斩获第一届DAVIS Challenge 视频语义分割比赛冠军 (责任编辑:本港台直播) |