继上周五百度的小度机器人在《最强大脑》节目中的中击败了人类顶级选手后,周五晚上,小度再次在声纹识别任务上迎战了人类最强大脑,并最终以 1:1 的成绩和人类打成了平手。节目之后,机器之心对百度首席科学家吴恩达进行了独家专访,请他谈论了小度在这场比赛中所用到的技术、百度的人工智能研究和团队以及他对中国和世界人工智能研究的思考。
作为机器之心新栏目 AI Talk 的一部分,我们对这次视频专访的内容进行了剪辑,完整采访可见下面文字整理版本。 关于小度和声音/语音技术 机器之心:简单介绍一下,小度在本期节目中使用到的识别技术及其原理? 吴恩达:在比赛中,小度使用了 2 种前沿的声纹识别算法,为了识别出某个人,会把两种算法的结果结合在一起。 其中一种方法是基于卷积神经网络,这是一种端对端的方式。卷积网络把输入切成声音片段,然后尝试识别这些片段是不是来自同一个人。这个神经网络是在 2 万多人的大约 5000 多小时的音频数据上训练出来的。这是一个很大的音频数据集,它使得神经网络变得相当准确。 我们的第二个系统也有神经网络,但结构不同。第二个系统采用声音片段作为输入,神经网络输出 5000 维表征语音,并基于此进行统计建模。通过统计建模后的结果,抽离出说话人相关的信息,选择出 500 个特征来表征说话人的属性,而不是说话的内容。随后,使用这 500 个特征匹配两个说话人,并判断出是否是同一个说话人。 最终,我们用这两个神经网络让它们投票,从而做出最终决策。 机器之心:看起来语音识别要比语义识别更简单一些,你认为什么时候可以实现人类水平的机器语义识别,从而让人类可以和机器顺畅地交流? 吴恩达:让计算机以人类的水平来完全理解自然语言,这还需要很长的时间,可能需要几年,也可能是几十年,我们难以确定。但我们可以预见在一些非常垂直的应用领域,比如询问天气、叫外卖、拿快递,或者推送今天的新闻这样的基础问题。这些方向非常的垂直,我们看到了自然语言处理在这些方向上的快速发展。以百度的度秘为例,你已经能与这个机器人进行交流,它可以给你合理的答案。在垂直领域它可以做得很好,研究人员有时间考虑到所有的可能性。 我认同你所说的语音识别在过去两年已经取得了巨大的发展。事实上,语音识别如今很准确,使得更多用户用它作为文本输入。 几个月前,斯坦福大学联合百度与华盛顿大学做了一项研究,表明目前的手机端语音输入要比键盘输入快 3 倍还要多。事实上,过去 12 个月里,我们看到所有百度产品上的语音日使用量增加了一倍,也就是语音服务的使用增长了一倍。所以,那些想要更高效、更便利地使用手机的用户更倾向于使用语音输入。 机器之心:百度语音平台免费提供了一些 API,它能实现什么功能?如何从中受益? 吴恩达:语音已经变成一个非常重要的人机交互方式,在百度大脑,我们正在努力实现越来越多的语音功能并帮助人们用上这种强大的能力。在我们的网站上,最受欢迎的语音功能是语音识别、TTS(尤其是情感 TTS)以及语音唤醒。我们的团队在不断努力将越来越多百度的最好语音技术放到网站上。我们知道,对于第三方公司来说,获取这些技术是非常有用的,但也还需要知道如何有效地使用这些技术。所以百度大脑做的另一件事情是创造能够帮助第三方组织、开发者和公司了解如何最有效地在他们的产品中使用这些技术的材料。所以我们也正在将越来越多这些训练材料放到我们的面向公众的网站上。 机器之心:百度是如何提升语音输入法的识别精度的?其中最困难的部分是什么? 吴恩达:你知道,机器学习系统得到最好表现的一种最可靠的方式是在大量的数据上训练大型模型。如今百度的语音识别系统是建立在 5 万小时的数据上的,这是一个超过 5 年的音频数据。此外,我们在超级计算机上训练模型,它给了我们非常大的计算能力,从而建立足够大的神经网络吸收这些数据。 (责任编辑:本港台直播) |