wzatv:【j2开奖】Face++旷视科技首席科学家孙剑首次接受专访：计算机视觉亟待解决哪些问题？(4)_本港台直播_J2开奖直播

认知层面的东西当然也要研究，不然人工智能解不掉。最近的 Image Caption（看图说话）是一个非常好的研究课题，它把图像感知和这个语义理解串在一起了，而且它可以反过来帮助解决感知的问题。感知经常会出错，出的错又是很不合理的。不合理是因为没有常识，比如在房子上识别出马。常识其实在语言里面，要通过语言才能表示出来，人是通过语言、通过概念抽象来表示的。这个东西不研究清楚，就没法表示知识，没法表示房子上一般不可能有马这件事情。

机器之心：深度学习是图像识别最主流的一个方法，去年《Science》也发表了一篇关于通过贝叶斯程序学习识别手写体的文章。要让图像识别能够发展得更快更好，除了深度学习是不是也需要一些其他的方法或模型？

孙剑：深度学习是个广泛的概念，是端对端的，具体表现形式是深层神经网络。我觉得再发展下来，他可能就是一个无监督学习、增强学习内的部件，它和其他方法并不相互排斥。

深度学习狭义的讲是有监督的深度学习，或者有监督训练的神经网络。广义的讲它已经渗透在无监督学习和增强学习里面了，它是一个大的概念集合。

机器之心：最近图像识别比较火的方向是医疗，Hinton 认为不需要放射科医生了，因为图像处理技术已经足够成熟。在您看来医疗上的图像识别已经到这个程度了吗？或者接下来需要做什么?

孙剑：我觉得今天在整体还不成熟，个别问题有希望。医疗数据还是不够大规模而且不够开放，医疗数据经常是 3D 的，3D 既有优点也有缺点。另外医生做出判断也并不是只是看图像，还设计很多背景知识。从好的一方面讲，医疗影像识别相对一般的自然图像识别容易，因为自然图像中的事物特别多，涉及我们对常识的理解和对知识的表达；而医疗图像是相对比较限定的，它的歧义、困难都少很多。今天的问题可能是数据不够，研究的人不够多，数据平台不够开放，还有病人隐私问题。种种问题综合在一起，现在可能非常个别情况下是可以用，大多情况据我所知还需要研究。

关于首席科学家与 Face++ 旷视科技

机器之心：您为什么会在半年前加入 Face++？

孙剑：我就想试试，想有这段经历。接触计算机视觉已经 20 年了，最早在大三就接触了图像处理，后来在我大四末做的毕业设计「混沌神经网络的硬件实现」，当然那时候的神经网络是另一番模样。我也很早就研究过人脸识别，但是用的是上上一代的技术了。现在有了深度学习，真的让以前不能落地的一些事情能落地了。

其实在微软，我一直是同时注重研究方法和实际应用的风格，做了很多研究工作应用到公司产品上去了。我上大学期间我从教我自动控制的老师学习了这样一个理念：做好事情要即做神也做鬼，做神是说要把方法搞明白、作对了，做鬼是说要用实践来检验、来指导。

想加入创业公司是因为今天创业公司跟以前创业公司不一样了。你可以认为今天的创业公司就是大公司的一个部门，并且投入全部的人力、心力和财力，200% 聚焦在做一件事情。我想参与在这个非常专注的过程中。

旷视科技目前的主要产品

机器之心：Face++ 很早就有研究院这样的设置吗？

孙剑：Face++ 是技术公司，最早全是研究员，而且非常早的采用了深度学习的方法。所以可以认为一开始 Face++ 就是一个研究院，然后慢慢的有产品、商务、销售，然后慢慢就变成现在这样子。

因为深度学习，特别是计算机视觉，在纯研究性的工作之外有很多工程性的事情要做。它是实践性非常强的一门学科，必须动手做实验，动手处理数据、理解问题，所以我们研发不分家。做好的研究成果会以内部的算法库、SDK，交付给产品部门；产品部门在 SDK 基础上，再去开发他们的产品，然后产品再到销售。

机器之心：您接下来要主要研究的方向，或者说研究院要研究的方向是什么？

孙剑：就像之前说的，研究院的主要聚焦在 4 个核心研究课题上（图像分类、物体检测、语义分割、和序列学习），这和我在微软所做的完全一致，我们会继续推进在这些问题上的进展。新的方向我们也在探索，但还不是主线。

机器之心：那是产品引导我们的研究工作，还是研究工作相对独立，更贴近于前沿技术？

(责任编辑：本港台直播)