在资源和准确率的不同权衡条件下,他们进行了广泛的实验,与ImageNet分类任务的其他流行模型相比,MobileNet显示出很好的性能,同时也证明了MobileNet在一系列应用和使用情况中的有效性,包括对象检测,细粒度识别,人脸属性提取,以及大规模地理定位。
朱梦龙说:“MobileNet所用的其中一个压缩模型的方法是线性减少每个卷积层的kernel数量,我们称之为width multiplier。通过调整width multiplier可以改变模型的复杂度,相对的准确率会有类似线性的下降,这个手段给实际应用提供的一个很好的trade-off曲线。” 理想是混合终端和云端的方式,未来可以在终端训练模型 MobileNet不仅仅是一项研究,跟云端模型相比,它有一些特殊的应用场景。从朱梦龙的个人看来,MobileNet在手机和其他智能设备包括机器人和自动车上都可以有很多应用场景,比如实时的物体检测和分类识别,人脸,atv,体态姿势的识别都是可能的应用方向。 与云端模型相比MobileNet在及时性,交互性,保护个人隐私的角度更有优势。比如在机器人或无人机上,需要实时的视觉识别,在本地高效运行的MobileNet就更加实际。此外,未来AR应用中实时检测会有更强的交互性,在信号不好的时候,比如在野外徒步的时候希望了解遇到的一些花草或者野生动物的种类信息,这时候就应使用终端模型。 目前MobileNet是服务器上训练,未来甚至会考虑直接在终端训练,可以参考也是谷歌研究院的成果:联合学习方法(Federated Learning): https://research.googleblog.com/2017/04/federated-learning-collaborative.html 朱梦龙也认为,本地终端模型也有它的限制,他说:“比较理想的模式是一个混合终端和云端的方式,一部分的计算在本地进行,其他的对延时要求较低的任务就交给云端处理。” 在谷歌研究院工作是一种怎样的体验? 回到做出这些成绩的谷歌研究院,这个机构会让我们想到关于极客、梦想、天才等关键词。能够进入谷歌研究院想必也是不少人的dreamjob,特别是做AI技术的人。朱梦龙跟新智元分享了他是如何选择并进入谷歌研究院的“简单过程”:“…我在进入谷歌之前在宾夕法尼亚大学读的PhD,做的是计算机视觉方面的研究,也和谷歌的一些研究员有学术交流,而且也一直关注谷歌的研究成果。毕业的时候,我比较想除了研究之外做一些实际的产品,谷歌基本上是最好的选择了。外加个人也有些谷歌情节吧,毕竟每天用谷歌的产品:搜索,地图,安卓,youtube和chrome等等,后来就面试来了谷歌研究院里继续相关研发。” 关于在谷歌研究院工作是一种怎样的体验? 朱梦龙表示:“谷歌研究院整体的氛围挺像在大学读PhD的时候的感受,大家很愿意分享idea一起讨论合作,有特别多有意思的想法和项目。不同的是,谷歌里的很多研究成果很多都是有望或者已经能够应用于实际产品之中,直接给全世界用户带来更好的的产品和服务。谷歌的同事都特别厉害,很多都是非常知名的研究员。在谷歌研究院的这些时间下来我跟很多人都有非常愉快的合作(其中也包括caffe的founder贾扬清,在他去Facebook之前也很有幸跟他有不少交流合作),也学到了特别多的东西。” 接下来,朱梦龙除了计划把MobileNet做得更好之外,他目前精力主要集中在物体检测上,例如文中最开始提到的COCO物体检测挑战中,他们在第一名的位置很久了,他表示会在近期开源他们Tensorflow的物体检测系统的源代码。 朱梦龙对不少最新的、有意思的技术很感兴趣,比如说GAN,深度强化学习等。总体来说深度学习给计算机视觉带来很多新的机会和探索的空间,他期待能做出跟多又好又实用的研究。详情会发布在谷歌博客,新智元也会第一时间给您报道。 (责任编辑:本港台直播) |