新智元:您是指这样的情况吗——有论文提出了新的想法,但由于种种原因结果并不出彩,或者在现有条件下论证还没那么充分;而使用深度学习方法的论文做出的效果很好,或者在各项基准测试都取得了当前最好的结果,于是,后者被接收,而前者被拒绝了? 华刚:这是其中一种。深度学习在计算及视觉领域这一波的浪潮是从2012年开始兴起的。那么2012年以后进入计算机视觉领域的学生,按照时间来讲,今年正好是博士毕业。这一批人会慢慢成为会议审稿的主要力量,由于接受的训练主要以深度学习为主,就可能会进一步产生这种倾向。这类审稿人对问题理解的深度,还有思维模式(mindset)需要重塑。现在我们对深度学习的局限性也有了更全面的认识,这也是为什么我说要多看10年、20年前论文的原因。 新智元:您对计算机视觉技术未来2年的发展有什么预期——作为CVPR 2019的程序主席,您需要掌握领域的总体发展趋势,深度学习、神经网络还会继续盛行吗?您认为什么技术和研究方向会成为届时的热点?什么新技术会崛起?什么现在尚未解决的问题到时候有可能被攻克? 华刚:这个问题提得很好。就像我以前说过的一样,研究的英文是“Research”,也就是“Re-Search”——再搜索。有时候,完全脱离领域历史沿革的全新(brand-new)技术的出现是很少的。任何新的研究工作和思想,或多或少都会受到前人的工作和思想的影响。就如牛顿说的,“我比别人看到更远,是因为我站在巨人的肩膀上”。我想一个健康的研究领域,更多还是要一种多样性的融合,共同推动领域发展,比如将深度学习和以前的方法相结合,所谓“老树开新花”。什么技术或方向会成为热点?谈一个我个人感兴趣的方向吧:知识描述、知识表征,也就是用语言的方式将视觉内容表征出来,成为知识的一种载体,来更好的解决计算机视觉的问题。就好比人类使用语言可以传递信息和知识,只有有了对知识的表征,智能体相互之间才能沟通学习。不过,要完成这个项目,两年的时间估计不够(笑)。 宽泛一些来说,我认为以下3个方面在接下来两年会有所发展: 一是基于图像、视频建模的无监督学习; 二是基于任务的视觉建模机制; 三是基于知识和小样本学习进行视觉建模。 这3点的排列也是由易到难,基于“任务”就是理解有一个明确的目标,而基于“知识”则是知道该怎么去做这件事。打个比方,j2直播,两者的区别就像是知道了“授人以鱼”和“授人以渔”中的“鱼”和“渔”。总之,最终的目标都是朝着一个综合、集成的智能系统去服务。 作为CVPR 2017领域主席:很高兴看到更多的反思深度学习机制的论文出现,CMU运动姿态论文印象深刻 新智元:您是这届CVPR的领域主席(area chair)。现在CVPR 2017接收论文已确定,能透露一下这届会议从论文中体现出了什么趋势吗,果然深度学习、神经网络还是关键词?有什么其他亮点吗? 华刚:这届CVPR 我是领域主席,每个领域主席可以选择自己感兴趣和负责的研究议题(topic)——我的研究兴趣和研究方向比较广,所以大概覆盖了30多个topic中的10多个,我在评审过程中全权负责的论文有三四十来篇,加上评议圆桌讨论和别的领域主席复议的论文,了解到的论文大约只占最后全部接收论文的1/6~1/5。令人欣喜的是,这届CVPR涌现了很多结合领域知识(domain knowledge)尝试去理解、去反思深度学习机制的论文。不过,让我现在谈CVPR 2017的整体论文体现了什么趋势、有什么亮点,这还得等到会议开始后才能知道。 新智元:那在您所了解的范围内,有什么研究让您印象特别深刻吗? 华刚:CMU有一篇估计运动姿态的论文,里面的Demo给我们领域主席圆桌讨论复议时留下了非常深刻的印象,实现了多线程的多人关键点实时检测,将同一个视频里很多人的运动姿态都同时捕捉下来。这篇论文也是CVPR 2017口头汇报的论文之一,其代码赢得了2016年MSCOCO关键点挑战赛以及2016年ECCV最佳演示奖。论文提出了一种自下而上的方法进行多人姿态估计,而不需要任何行人检测的算法。
摘要 (责任编辑:本港台直播) |