码报:【j2开奖】前金山软件CEO张宏江：数据是AI公司最终的护城河 | 投资人说(2)_本港台直播_J2开奖直播

IDC有过一个报告指出，在2013年的人类产生数据是4.4个ZB，到了2020年的话这个数字将会增加到44个ZB，增加10倍，年增长率是40%。今天每4小时沃尔玛用户产生数据超过2.5PB，每天Twitter产生推文有5亿条，今天今日头条的用户请求超过60亿次，每天头条处理数据量超过6.3PB，这是每天人们产生的数据。假如说这些数据又有很好的跟踪和标注，这些数据可以驱动人工智能，驱动人工智能的算法。

码报:【j2开奖】前金山软件CEO张宏江：数据是AI公司最终的护城河 | 投资人说

大数据：机器学习的驱动燃料

　　人脸数据库的进步大大提高了计算精度；

　　Jim Grey的科研四范式：从观察、实验到计算模型，到数据推动的模型；

　　大数据正在成为企业AI的标配。

讲一个人脸识别的例子。

今天大家觉得人脸识别已经过关了，一系列的公司在人脸识别上做的比人的识别率还要高。这个功能在手机上也已经做的非常好。之前一个人拍了很多照片，开始找这些照片的时候就发现比较麻烦了，但现在你想找某一个人，可能需要记住什么时候照的照片。但更方便的是记住了和哪些人照的照片，通过识别人脸能使得找照片变得非常容易。这种功能是我们20多年前的梦想，今天在手机上就可以做成了。

这是我手机上的一个屏幕，我自己的照片，我太太的照片，小孩的照片都在这儿。以前我工作的老板雷军照片也在上面。我一点，所有雷军照片全都出来了。我想看某一个具体的照片，这是雷军和戴尔电脑创始人Michael Dell的合影，还有和Dell团队的其他人的合影。我们看到手机把这些人名字自动标出来了，这个人是谁，那个人是谁，以后他所有的照片进来就全部能够识别了。这个在今天的品牌手机上都提供了这种功能。

我20年前在惠普实验室申请过一个美国专利。这个专利的内容恰恰就是我刚才所说的那个整个流程：拍了新的照片以后把它的数据库照片进行比较，从而识别出这个人是谁。在20年前我们很清楚移动设备计算能力有限，我们觉得这个处理的能力应该是分布式的计算，今天我们叫做云。20年过去，现在恰恰把20年前的事情变成现实，这个中间可以说是算法的进步，也可以说是计算资源的进步。

我实际上想跟大家说是人脸数据库的进步。

在20年前做人脸的时候，我们手里面拿到几百个标准的照片，今天我们拿到上亿张的照片。最早90年代的时候你只有几百个人，几百张照片的数据库，90年代末2000年的时候到了上千张、上万张照片，从而可以看到识别率的提高。到了工业时代，也就是5、6年前谷歌、Facebook分别用深度学习的方法做人脸识别，做训练的数据量比以前增加了非常多，使识别精度增加。

当用户的数据大量增长的时候，同一个算法的识别的精度也在快速的成长。而且当我用的计算量，CPU用得多的时候。性能也有快速的提高。所以这再次证明了刚才的观点，数据本身可能比算法还要重要。或者说没有这么多数据的时候根本不可能想象深度的神经网络。

再难的事情到了中国人手里面就有改善，世界上没有任何一个地方像中国有如此多的摄像头，如此多的头像和身份证的照片，就形成了中国的优势。今天不是两亿张照片，是几十亿张的照片，上亿被标注的人。只有有了大量数据之后你才可以用深度神经网络，才可以把这些内容、这些信息提取出来。

今天人脸识别的这些公司已经远远超过了人眼识别率，而且在世界上走在前列。当你在一张照片跟数据库进行比较这个人是不是你的时候，这种精度已经到了万率级的误差。基本上用摄像头以及算法，在中国最好什么坏事都不要做，哪怕在你的汽车里面，在加油站的时候拍了一张你的手放在不该放的地方，很快就会被传播出来，识别精度如此之准确的。

一年多以前微软亚洲研究院的孙剑带领着团队用了152层的神经网络作出了超过人类的图象识别精度的算法。再次想跟大家验证的是，当我们模型复杂度刚刚开始增加，从8层到152层的时候，我们看到计算量增加，看到持续的训练数据的增加。在2012年8层神经网络的时候，相应的神经元超过65万个，连接超过6亿。152层网络的时候神经元到了2200万，因为有新的算法，但参数调整更加准确，因为它的连接可以看到有113亿，我们大脑里面神经元的突触链接应该是一百万亿的。

(责任编辑：本港台直播)