IDC有过一个报告指出,在2013年的人类产生数据是4.4个ZB,到了2020年的话这个数字将会增加到44个ZB,增加10倍,年增长率是40%。今天每4小时沃尔玛用户产生数据超过2.5PB,每天Twitter产生推文有5亿条,今天今日头条的用户请求超过60亿次,每天头条处理数据量超过6.3PB,这是每天人们产生的数据。假如说这些数据又有很好的跟踪和标注,这些数据可以驱动人工智能,驱动人工智能的算法。 大数据:机器学习的驱动燃料 人脸数据库的进步大大提高了计算精度; Jim Grey的科研四范式:从观察、实验到计算模型,到数据推动的模型; 大数据正在成为企业AI的标配。 讲一个人脸识别的例子。 今天大家觉得人脸识别已经过关了,一系列的公司在人脸识别上做的比人的识别率还要高。这个功能在手机上也已经做的非常好。之前一个人拍了很多照片,开始找这些照片的时候就发现比较麻烦了,但现在你想找某一个人,可能需要记住什么时候照的照片。但更方便的是记住了和哪些人照的照片,通过识别人脸能使得找照片变得非常容易。这种功能是我们20多年前的梦想,今天在手机上就可以做成了。 这是我手机上的一个屏幕,我自己的照片,我太太的照片,小孩的照片都在这儿。以前我工作的老板雷军照片也在上面。我一点,所有雷军照片全都出来了。我想看某一个具体的照片,这是雷军和戴尔电脑创始人Michael Dell的合影,还有和Dell团队的其他人的合影。我们看到手机把这些人名字自动标出来了,这个人是谁,那个人是谁,以后他所有的照片进来就全部能够识别了。这个在今天的品牌手机上都提供了这种功能。 我20年前在惠普实验室申请过一个美国专利。这个专利的内容恰恰就是我刚才所说的那个整个流程:拍了新的照片以后把它的数据库照片进行比较,从而识别出这个人是谁。在20年前我们很清楚移动设备计算能力有限,我们觉得这个处理的能力应该是分布式的计算,今天我们叫做云。20年过去,现在恰恰把20年前的事情变成现实,这个中间可以说是算法的进步,也可以说是计算资源的进步。 我实际上想跟大家说是人脸数据库的进步。 在20年前做人脸的时候,我们手里面拿到几百个标准的照片,今天我们拿到上亿张的照片。最早90年代的时候你只有几百个人,几百张照片的数据库,90年代末2000年的时候到了上千张、上万张照片,从而可以看到识别率的提高。到了工业时代,也就是5、6年前谷歌、Facebook分别用深度学习的方法做人脸识别,做训练的数据量比以前增加了非常多,使识别精度增加。 当用户的数据大量增长的时候,同一个算法的识别的精度也在快速的成长。而且当我用的计算量,CPU用得多的时候。性能也有快速的提高。所以这再次证明了刚才的观点,数据本身可能比算法还要重要。或者说没有这么多数据的时候根本不可能想象深度的神经网络。 再难的事情到了中国人手里面就有改善,世界上没有任何一个地方像中国有如此多的摄像头,如此多的头像和身份证的照片,就形成了中国的优势。今天不是两亿张照片,是几十亿张的照片,上亿被标注的人。只有有了大量数据之后你才可以用深度神经网络,才可以把这些内容、这些信息提取出来。 今天人脸识别的这些公司已经远远超过了人眼识别率,而且在世界上走在前列。当你在一张照片跟数据库进行比较这个人是不是你的时候,这种精度已经到了万率级的误差。基本上用摄像头以及算法,在中国最好什么坏事都不要做,哪怕在你的汽车里面,在加油站的时候拍了一张你的手放在不该放的地方,很快就会被传播出来,识别精度如此之准确的。 一年多以前微软亚洲研究院的孙剑带领着团队用了152层的神经网络作出了超过人类的图象识别精度的算法。再次想跟大家验证的是,当我们模型复杂度刚刚开始增加,从8层到152层的时候,我们看到计算量增加,看到持续的训练数据的增加。在2012年8层神经网络的时候,相应的神经元超过65万个,连接超过6亿。152层网络的时候神经元到了2200万,因为有新的算法,但参数调整更加准确,因为它的连接可以看到有113亿,我们大脑里面神经元的突触链接应该是一百万亿的。 (责任编辑:本港台直播) |