认知层面的东西当然也要研究,不然人工智能解不掉。最近的 Image Caption(看图说话)是一个非常好的研究课题,它把图像感知和这个语义理解串在一起了,而且它可以反过来帮助解决感知的问题。感知经常会出错,出的错又是很不合理的。不合理是因为没有常识,比如在房子上识别出马。常识其实在语言里面,要通过语言才能表示出来,人是通过语言、通过概念抽象来表示的。这个东西不研究清楚,就没法表示知识,没法表示房子上一般不可能有马这件事情。 机器之心:深度学习是图像识别最主流的一个方法,去年《Science》也发表了一篇关于通过贝叶斯程序学习识别手写体的文章。要让图像识别能够发展得更快更好,除了深度学习是不是也需要一些其他的方法或模型? 孙剑:深度学习是个广泛的概念,是端对端的,具体表现形式是深层神经网络。我觉得再发展下来,他可能就是一个无监督学习、增强学习内的部件,它和其他方法并不相互排斥。 深度学习狭义的讲是有监督的深度学习,或者有监督训练的神经网络。广义的讲它已经渗透在无监督学习和增强学习里面了,它是一个大的概念集合。 机器之心:最近图像识别比较火的方向是医疗,Hinton 认为不需要放射科医生了,因为图像处理技术已经足够成熟。在您看来医疗上的图像识别已经到这个程度了吗?或者接下来需要做什么? 孙剑:我觉得今天在整体还不成熟,个别问题有希望。医疗数据还是不够大规模而且不够开放,医疗数据经常是 3D 的,3D 既有优点也有缺点。另外医生做出判断也并不是只是看图像,还设计很多背景知识。从好的一方面讲,医疗影像识别相对一般的自然图像识别容易,因为自然图像中的事物特别多,涉及我们对常识的理解和对知识的表达;而医疗图像是相对比较限定的,它的歧义、困难都少很多。今天的问题可能是数据不够,研究的人不够多,数据平台不够开放,还有病人隐私问题。种种问题综合在一起,现在可能非常个别情况下是可以用,大多情况据我所知还需要研究。 机器之心:您为什么会在半年前加入 Face++? 孙剑:我就想试试,想有这段经历。接触计算机视觉已经 20 年了,最早在大三就接触了图像处理,后来在我大四末做的毕业设计「混沌神经网络的硬件实现」,当然那时候的神经网络是另一番模样。我也很早就研究过人脸识别,但是用的是上上一代的技术了。现在有了深度学习,真的让以前不能落地的一些事情能落地了。 其实在微软,我一直是同时注重研究方法和实际应用的风格,做了很多研究工作应用到公司产品上去了。我上大学期间我从教我自动控制的老师学习了这样一个理念:做好事情要即做神也做鬼,做神是说要把方法搞明白、作对了,做鬼是说要用实践来检验、来指导。 想加入创业公司是因为今天创业公司跟以前创业公司不一样了。你可以认为今天的创业公司就是大公司的一个部门,并且投入全部的人力、心力和财力,200% 聚焦在做一件事情。我想参与在这个非常专注的过程中。 旷视科技目前的主要产品 机器之心:Face++ 很早就有研究院这样的设置吗? 孙剑:Face++ 是技术公司,最早全是研究员,而且非常早的采用了深度学习的方法。所以可以认为一开始 Face++ 就是一个研究院,然后慢慢的有产品、商务、销售,然后慢慢就变成现在这样子。 因为深度学习,特别是计算机视觉,在纯研究性的工作之外有很多工程性的事情要做。它是实践性非常强的一门学科,必须动手做实验,动手处理数据、理解问题,所以我们研发不分家。做好的研究成果会以内部的算法库、SDK,交付给产品部门;产品部门在 SDK 基础上,再去开发他们的产品,然后产品再到销售。 机器之心:您接下来要主要研究的方向,或者说研究院要研究的方向是什么? 孙剑:就像之前说的,研究院的主要聚焦在 4 个核心研究课题上(图像分类、物体检测、语义分割、和序列学习),这和我在微软所做的完全一致,我们会继续推进在这些问题上的进展。新的方向我们也在探索,但还不是主线。 机器之心:那是产品引导我们的研究工作,还是研究工作相对独立,更贴近于前沿技术? (责任编辑:本港台直播) |