深度学习到底在做什么事情?实际上他所做的事情抽象出来是比较简单的,就是在做一个从X到Y的回归、或者说从A到B的Mapping(对应)——你给它一个输入,我怎么样给出一个对应的输出?特殊的地方就是深度学习把这件事情做得非常非常好。以前也有其他算法可以做,只不过一直做不过人,现在深度学习做到了极致。比如说给了一张人脸照片,它就可以给你对应出这个人的名字;给你一个物体的形状,它就可以告诉你是什么物体;给一个车的行驶场景,我就可以给你输出这个车应该往哪儿拐;给一个棋局,它能算出下一步怎么走;给一个医疗的图像,能帮你判断这是什么病……实际上就是这样的一个过程。不要把人工智能想象成可以超越人类,可以控制人类,这些都是所谓的“好莱坞的人工智能”或者想象中的人工智能,真正人工智能在现在这个阶段其实就是做这么简单个事。当然做成这个简单的事情其实已经很不简单了。 最近这几年深度学习确实在学术界、工业界取得了重大的突破。第一个突破是在语音识别上。Hinton和微软的邓力老师,在2011年用深度学习在语音识别上取得了巨大的成功。昨天可能大家在微信也刷屏了,我们中国科大毕业的师兄邓力老师从微软出来到顶级对冲基金工作。我的理解这也是一个A to B的mapping 的过程:把邓老师的深度学习的经验等内容都输入到对冲基金的算法里,这个对冲基金的钱就自动Map到了邓老师口袋里。 语音识别取得了巨大成功以后,紧接着在视觉方面又取得了重大突破。2012年时,Hinton在ImageNet上将图像识别一下子提高了十几个点,以前我们都一年一个点在推,他一年就推了十年的进步,在学术界引起了很大的轰动。2014年我们团队做人脸识别,通过深度学习,做到算法首次超过人眼的成绩。 最后,在2016年,还是谷歌最厉害,每年120亿美金的研发投入没有白投,下了一盘棋叫AlphaGo,这盘棋下完之后人工智能就不需要我们解释了,大家忽然都明白了,人工智能原来是这么回事儿,就是下棋。 接着人工智能在自动驾驶领域也取得了一些重大的突破。现在比较热门的是医疗影像方面,借助人工智能进行诊断。 深度学习有三个核心的要素: .学习算法的设计,你设计的大脑到底够不够聪明; .要有高性能的计算能力,训练一个大的网络; .必须要有大数据。 接下来分享我们在深度学习方面做的一些工作。我们从2011年开始做这项工作,一开始没有开源的框架,所以要自己做很多的工作。做的时间长了,我们就做了一套Parrots系统,这个系统目前还不是开源的。 我们用这套系统训练的网络可以做到非常深,原来AlexNet是8层,后来GoogleNet在2014年做到了22层,后来Resnet做到了150多层,去年我们的PolyNet做到了1000多层。大家可以看到这个网络发展趋势,越来越深。这是我们设计的1000多层的网络,比较细的线就是整个网,中间一个格往下走,放大出来的部分就是网络的细节结构,这个网叫做Polynet,Dahua团队的这个网络设计和Facebook的Kaiming团队的Resnet,在图像分类上做了目前为止全球最好的结果,最后基本上成了我们实验室出来的两个学生之间的竞赛。这个网络的最后形状有点像 DNA 的双螺旋。 在物体检测上大家也可以看到这个进步速度,2013年一开始的时候,200类物体的平均检测准确率是22%,但是很快谷歌可以做到43.9%,我们做到50.3%,紧接着微软是62%,现在我们做到最好结果是66%。这个速度是几年之内翻了三倍,也是深度学习的力量,我们这方面的工作是Xiaogang和Wangli团队做的。 我们训练出来这样一个大脑,可以把它应用到各个方向,做出很多不同领域的不同技术。在人脸方面我们做了人脸检测、人脸关键点定位、身份证对比、聚类以及人脸属性、活体检测等等。智能监控方面,做了人,机动车,非机动车视频结构化研究,人体的属性,我们定义了大约70种。人群定义了90多种属性。下面这些是衣服的搜索、物体的检测、场景的分类和车型的检测,车型检测我们标注了几千种车型的分类。在文字方面,小票的识别、信用卡的识别、车牌的识别,这些都是由深度学习的算法来做的。同时在图像的处理方面,在去雾、超分辨率、去抖动、去模糊,HDR、各种智能滤镜的设计都是用深度学习的算法,我们基本上用一套大脑做很多的任务。 (责任编辑:本港台直播) |