今年六月份,我问学术界的人,人和机器在语音识别上的区别,究竟怎么破解?我们用机器的时候,采用立体声的方式做定向的识别,直播,也就是说我们做一个麦克风矩阵,通过立体的方式知道其中一个人在说话,把另外一个人说话去掉,但人本身是这样干的吗?如果把一只耳朵堵上,我是否没办法分离出谁在说话?或者把两个说话的声音录在一个单声道里面,人可以识别吗?人当然是可以的,所以人的方法和机器不一样。人怎么识别?因为人的音色不一样,还是因为两个人的一个声音大一个声音小,还是因为他们不同的语音,博士说但凡同时两个人说话的时候,只要能够找到差别,人就能够把其中的一个声音识别出来,所以人在和机器处理过程当中有巨大的不同。语音识别最成熟的领域其实还是和人有很大的区别。 另外一件事情是语义靠谱吗?对语言的理解,谷歌在之前是用知识图谱的方法解决,现在遇到了瓶颈,也是今年六月,我在一个实验室看到最先进的人机对话系统,这个系统可以帮你订餐订酒店,对话过程当中机器的表现非常惊艳,我们上去试,有一个环节,机器问你:“你是需要停车位还是不要停车位?”这个时候我们回答要或者不要都没问题,如果回答“我没车”,大家知道机器会怎么样吗?他们完全不理解我没车代表着我不需要停车位,因为今天的机器,在自然语言概念的理解方面,还是远远不够的。所以自然语言处理是可以做的,但是语义理解到现在还是一个不靠谱的阶段。谷歌也在今年发布了一套对于自然语言能够做句子分析的引擎,把主语、谓语、宾语提出来,但是准确度只有90%,提不上去了,因为这个时候光靠统计靠语法已经不能支撑,往下是需要对句子当中的具体概念有理解才能消除歧义。我们知道不能把马路放在冰箱上面,这对于人来讲非常好理解,但是对计算机的挑战非常大,这是深度学习人工智能还不够的地方。 很敏感的问题,无人驾驶靠谱吗?今天百度在大会上也提出了发布无人驾驶汽车,但是从我的了解,如果以今天人类的技术,我们确实再见过的场景和封闭场景中都可以使用。但是对于真正开放的环境,不只跑在高速上的汽车,以现在人类的技术是不安全的,因为这个场景只要没见过,可能会犯严重的错误,就像AlphaGo下棋一样会突然发疯,所以作为辅助驾驶是可以的,无人驾驶在真正的技术突破以前还做不到。今天的深度学习缺乏推理,缺乏对符号的理解,如果没有符号,对自然语言的理解就会成为瓶颈。 即便是这样,我们也提到了(人工智能)能够取代一些行业,比如说棋手、医生、司机,机器在里面都可以做很好的辅助,但是对于大家没见过的创造性的事情,比如规划、科研,其实对于机器来说还很难,今天在媒体上机器自动写文章、自动画图,在科研层面展示出了一些魔力,但是还没有到可以取代人的阶段,所以在这里面我先把大家对人工智能预期降低下来。 有人在问,(人工智能)是否会出现第三次退潮,前两次我们都认为人工智能到来了,但是这次可能会比之前好,之前的人工智能两次退潮前,我们问一个老师,说你是研究人工智能的吗?这是骂他的话。因为(大家认为)人工智能不靠谱,这次是(人工智能)第一次真正进入到了使用,切实在语言处理、声音处理、图象处理,和在一些高维数据空间上能够比人做的更好。所以这次的区别就是大量资金、资本投入到了人工智能。也有大量的研究人员在毕业以后从事人工智能工作,这是和之前不一样的。所以一方面我们开始使用这项技术,另外一方面我们开始期待不断产生新的突破。 我个人对这次人工智能的浪潮是乐观的,但是我也很紧张,也许我们自己做的搜索引擎就是会被颠覆的一部分。 在这里面我们开始畅想未来的路在什么地方,从我自己的描述来看,搜索的未来就是人工智能时代的皇冠,为什么这么说,搜索的未来是什么,人工智能的未来又是什么,为什么是皇冠? 简单来讲,我认为搜索的未来就是问答机器人。因为我们习惯了一件事情:做搜索的时候我们先输入关键词,然后搜索给你十条结果,或者叫十条链接。但是这真是最好的方法吗?肯定是不够的。我们也会提到是否我们用个性化的方法能够使得搜索的结果更准,但是其实个性化能够提供的信息非常的有限。真正能够使得这个系统变得有用的办法是用问句。以前不用问句的原因是因为机器听不懂你在说什么,真正到了问句以后,机器会从给你十条链接,变成给你一个答案,就会好很多。如果你去问机器四个字,“乌镇大会”,机器不可能给你想要的内容,最多把新闻,乌镇的百科或者是官网介绍给你,只有你问乌镇大会哪天开,这个时候机器才能理解你要什么,才有机会给你最好的答案,我相信随着技术的突破,搜索引擎会自然而然演化成为问答引擎。 (责任编辑:本港台直播) |