【新智元导读】在谷歌研究院工作是一种怎样的体验?新智元近日专访了谷歌研究员朱梦龙,他作为谷歌团队G-RMI的核心成员,从去年9月开始一直盘踞在COCO的物体检测榜首。此外,他作为团队核心成员发布的,通过分解降维卷积层,以及早期采用stride 2等,把计算量压缩至VGG的1/30,让终端模型的图像检测达到VGG的效果。谈到在谷歌研究院的体验,他认为就像在读PhD,跟一群天才(包括曾经在谷歌的贾扬清)一起讨论有趣的想法,以及做有意思的项目;不同的是,这些项目还能在现实中被广泛应用。 粽情 AI,新智元祝读者端午安康! 在这一中国传统节日,新智元为大家带来对身在海外的华人 AI 新星学者朱梦龙的专访。
朱梦龙(来自其个人主页) 在加入谷歌前,朱梦龙在宾夕法尼亚大学获得计算机信息科学博士学位,师从Kostas Daniilidis。 他本科就读于复旦大学,于2010年获得学士学位。目前在谷歌主要研究计算视觉和深度学习。 谷歌研究院近日发布的用于终端设备的计算机视觉模型MobileNet引起了广泛的关注,新智元联系到了研究背后的华人作者朱梦龙,请他来为大家解读这一“要将深度学习带到终端设备”的技术。 具体说来,该研究的方向是物体检测,朱梦龙所在的G-RMI团队最近在尝试的一种方法是“通过改变速度/内存条件搭配FasterRCNN,R-FCN,SSD等算法而得到新的不同精确度的模型”。MobileNet是其中一种,在极端条件下(当速度和内存要求特别高的情况下)同时能够以实时速度并且获得的相对较高精确度的模型(特征提取器),该模型特别适合在移动终端中,比如在现有的手机平台上,达到实时的效果。移动端的物体检测,准确性的重要性毋庸置疑,因而,他们提供了一种在COCO物体检测中达到超高水平的检测器。
值得一提的是,这一工作自从2016年9月18日一直高居COCO物体检测排行榜第一名! COCO是2015年被提出的,它的训练、验证和测试集,共包含超过20万张图像和80个对象类别。所有对象实例都使用详细的分割掩码(segmentation mask)进行标注。其中训练和验证集的注释(具有超过500,000个对象实例分割)是公开的。COCO 物体检测挑战赛鼓励团队在两种对象检测挑战(或两者)中竞争:使用边界框输出或对象分割输出。
谷歌的团队对一些影响物体检测的速度和精确度的主要因素进行了实验性的比较。希望帮助研究者选择适合的方法以部署物体识别应用。他们还总结了一些新的技术,能够在不牺牲太多精确度的前提下提升速度。
准确度/时间,不同颜色和性质代表不同的特征提取器,每一对(元架构,特征提取器)根据不同的输入大小和stride等不同映射到以上散点图 居COCO物体检测榜首至今无人破,集成5个Faster RCNN是制胜武器 从2016年9月18日开始,朱梦龙所在的谷歌G-RMI团队一直占据COCO物体检测的榜首。
根据COCO网站上的资料,朱梦龙所在的G-RMI团队集成了5个Faster R-CNN的模型,由纯Tensorflow接口与可微分的ROI剪裁进行端对端的训练,使用了Inception-Resnet和(stride 8)Resnet-101的组合做特征提取器的基础。所有模型都基于train+val (minus minival)训练,并且,他们在测试时使用了多剪裁推理。 Jonathan Huang, Chen Sun, Vivek Rathod, Anoop Korattikara, Alireza Fathi, Kevin Murphy, Zbigniew Wojna, Ian Fischer, Menglong Zhu, Yang Song, Sergio Guadarrama Ensemble of five Faster RCNN based models jointly trained end-to-end using a pure Tensorflow implementation with differentiable ROI cropping. We use a combination of Inception-Resnet and (stride 8) Resnet-101 base feature extractors. All models are trained on train+val (minus minival) and we use multi-crop inference at test time. COCO物体检测榜首团队G-RMI成员和方法介绍 这一成果的论文《Speed/accuracy trade-offs for modern convolutional objectdetectors》已于四月发布在arxiv,同时即将在今年的CVPR发表。 (责任编辑:本港台直播) |