我们与300多家工业界的厂商客户进行合作,积累了大量的数据,数亿的图片,我们有300多人的团队专门做这个数据标注。包括几千类车型的数据、人群的大数据以及衣服的搜索和分类的数据库,这些对于学术界以及工业界都是很有益的。实际上谷歌所做的数据体量更大,他们和National Institutes of Health (NIH)合作很快会开放一个非常大的医疗图像的数据库。在医疗方面我相信大家很快会有大量的数据进行处理,这个时候对于我们的高性能计算又提出了一些新的要求。 实验室有幸对深度学习研究较早。在计算机视觉包括人脸检测等各个方面起步较早,这里列了18项计算机视觉领域由我们在全球最早提出来深度学习解决方案的问题,也相当于对创新的一些贡献。我们被评为全亚洲唯一的人工智能研究十大先驱实验室,非常荣幸跟MIT、斯坦福、伯克利这样的名校,以及深度学习的顶级工业实验室脸书、谷歌的深度学习负责人团队等等在一起获选。我们也在研究一些现在没有的技术,比如说,大家可能以前见过很多依赖深度摄像头才能做的人体跟踪算法(比如Kinect)。目前我们团队做的算法,用很便宜的单个RGB摄像头就可以做到同样效果,这是非常不容易的,尤其要做到实时,在智能家居,自动驾驶等方面都有很大的应用前景。 下面这个工作是去年做的,根据一张照片里两个人的姿势,可以自动判断两个人之间的情感,是友好的还是敌对的。同时可以根据两个人的表情也可以判断两个人的关系。所以以后如果你把你的照片上载到互联网上,实际上我们可以判断出来跟你一起照相的这个人和你具体是什么关系。 这有什么用途呢?大家经常会把照片放到网上,我们用这些照片分析这些人,如果你跟一个非常有名的人,或者跟一个非常有钱的人照了一张合照,那你这个人可信度可能就增加。或者你和一个罪犯、或者信誉不好的人拍了一张照片,你的可信度就下降。我们用这项技术可以做金融的征信,把不同人的关系网建立起来,把信用度传递出去。这个关系问题还可以做得更多,把一张图片任何物体之间,哪个在上面,哪个在后面,互相是什么关系,可以由一张照片判断出来。 下面这是最新的工作,我们以前定义了70种人的特性,根据这个特性进行视频搜索。现在定义一个新的搜索模式,是用自然语言来搜索,即我说一段话来描述这个人,把这个人描述出来以后用这段话去搜索我要找的这样一个人。实际上,其中涉及的信息量是很大的,寻找也更加精准,我们已经建立了一个大的开源的数据库来帮助大家做这个研究。 在这些数据中,从这些自然语言里面我们可以抽出不同的词,用词来描述不同的人,其信息量巨大,搜索准确率也大幅度提高。这是具体的监控方面应用的结果。用自然语言做人的搜索。大家可以想像一下在医疗上的应用,如在多模态的医疗诊断上。一个是医疗的图像,一个是医生的文字诊断,可以实时的识别出来,进行自然语言的分析,把两个进行结合再进行诊断。 下面这个也是一项新的研究工作,根据这个Video,识别内容,判断剧情属性。以泰坦尼克号电影为例,你可以看到那两个曲线,现在是浪漫的场景,代表浪漫的线就上来了,如果是灾难,那个灾难的绿线就上来了,实时根据这个内容判断剧情,这也是去年的工作。 今年目前团队又做了一个新的工作,atv直播,可以根据电影的实时计算分析,来理解判断这里面的剧情,可以把一个演员,在整个电影里面,在什么地方出现,在那段时间是什么剧情,用自然语言描述出来,把整个电影的内容分析,用计算机视觉和自然语言自动可以分析出来了。将来可以用来分析和插播广告,还可以直接用自然语言搜索各种不同的片段。 我们还有一项工作是超分辨率,就是把很小的图像放大,最大化还原细节。这是好莱坞电影的图像,视频抓到一个很模糊的嫌疑罪犯的图像,然后把它实时的放大变得很清晰。这只是谍影重重电影上演的效果,atv,还是很震撼的。 2016年的时候,推特跟谷歌密集发表了几篇关于超分辨率的文章,其核心就是深度学习。而我们早于他们,就已经做了大量先期研究。我们在2014年发表了全球第一个用深度学习研究超分辨率的论文,在2015年又发表了一篇相关文章,2016年发表了两篇,取得了更大的突破,而在2017年紧接着发表了三篇。我们的Cavan教授团队是第一个做的,也是目前做的最好的。目前超分辨率已经走向实时以及效果实用化的阶段,利用这项技术在某些实时监控,公安监控摄像头可以把人看的比较清晰了。 (责任编辑:本港台直播) |