典型的应用包括手机上的人脸检测,无人车中的车辆/行人/交通标志的检测,视频分析中的各类物体检测。这个问题是图像理解中研究内容最丰富的核心问题,也是一个非常复杂的感知智能问题。 我们关心的若干子问题是: 1)如何有效地解决遮挡问题。这个问题对人来说好像是很容易的,atv,但其实涉及到了人脑中对不可见部分自动做联想和补充的能力,已经部分属于人类的认知智能能力范畴; 2)如何有效的利用图像或视频的上下文(context)信息或我们的常识(common sense)。上下文和常识对我们避免一些明显错误和小物体检测十分重要。目前的物体对小物体检测的性能非常不理想,和人眼的能力差距还是非常大的。如果我们单独把小物体从图像中裁剪出来,人也很难识别。但是当小物体放回整副图像中,人却做得非常出色。 我个人认为对这个两个子问题的深入研究真的可以对理解认知智能提供有意义指导,甚至是突破。 语义分割就是对每个像素分类,这是一个更为精细的分类任务。 比如说把识别出来的人体分割成具体部位,把人脸分割成五官,把场景分成蓝天、建筑、道路和物体等。目前在这个问题上统治性的方法是 Berkeley 在 2014 年提出的全卷积网络(FCN)。这个方法使得神经网络具有了有强大的结构化输出能力,进而将深度学习有效地推进到很多中期和初期视觉理解(例如立体匹配和光流计算)问题上。我当年博士论文就是在研究初期视觉中的立体匹配问题,十几年后的方法发生了根本性的变化,当年是想也不敢想的。我们研发部门的一名实习生在最近的 CVPR 投稿中设计了一个简单有效的 FCN 模型,在公开评测集上取得了非常好的效果。(顺便插个广告,Face++ 一直面向全国招收实习生、兼职或全职均可,欢迎来我司对众多有意思、有难度的视觉理解问题进行深入理解和有效解决。) 序列学习是最有趣的问题,它的形式多样,可以输入一个序列(视频或音频)进行分类,也可以针对一副图像输出一个描述性的文字序列,或输入输出都是序列(例如识别图像中的多行文字)。 解决这三类问题的算法在 Face++ 的产品中都有应用。目前解决这个问题的主流方法是递归神经网络(RNN),也是现在在语音识别和自然语言处理中的大杀器。由于人的智能本质是在实时的「处理」连续不断感知到的信号流,这使得序列学习成为当下的最热的研究方向之一。尤其是最近引入外部记忆读写机制和执行单元的 RNN,让我看到了解决人工智能不少难题的一丝曙光。Face++ 的研究员们也正在这方面积极思考,积极实践。 我们在旷视如何开展研究? 推进研究部门的工作,核心是培养人做事的能力,并给予最好的研发环境。 培养什么人才。人才是研发的生命线。创造一个良好的环境吸引人才,培养人才,留住人才是我们的第一优先级。信息学竞赛 ( NOI/IOI ) 和大学生程序设计竞赛 ( ACM/ICPC ) 的选手们构成了研究部门的第一批战士。我们后续更多的战士来自五湖四海,拥有相当不同的背景:既有以前做视觉的,也有以前做机器学习的,既有研究基本问题的,也有专注特定应用的。一个多样性的环境也使得我们看问题的角度更全面。在这样的基因下,我们大致将人才向两个方向培养:研究科学家,和全栈人工智能工程师。研究科学家主要聚焦在算法上,寻求对问题的本质解,我们的培养目标是成为能独挡一面领域专家;全栈人工智能工程师是我们内部的叫法,目的是培养即能上九天揽月(算法设计和训练),又能下五洋捉鳖(算法的工程化,研究问题和方式系统化)的全能战士,他们既能做 research , 又懂 system,能建系统、造轮子。针对目前 AI 发展的趋势,我们需要大量的全能人才来将 AI「+」到不同的行业上,解决实际问题。这就对人才提出了更高的要求。我们相信即便没有 AI 背景的工程师,在这里工作 1-2 年后就能成为独当一面的人才。 (责任编辑:本港台直播) |