除此之外,我们面临的一些挑战是在缺少资源的语言和方言中。我们在尝试让百度语音识别系统覆盖更多的方言。在有很小数据集的方言上,我们尝试了在普通话上学到的东西,并将这些知识用到不同的方言上。所以,百度有很多积极性的研究是关于在没有普通话那样大量数据的情况下,研究在方言上做到最好的算法。 另一个研究挑战是如何让语音识别在没有很多数据的新领域、新应用场景中有好的表现。例如,在不同的语音应用场景,语音片段听起来也各不相同,比如很多口语化的语音的识别问题。在这些小的新垂直应用中,我们没有很多的数据。所以我们也在做大量的研究,想要搞清楚从现有收集到的 5 万小时的数据中能学到什么,然后专门应用到新的垂直领域与新应用中,这些领域中的音频质量或说话方式与我们的训练数据有很大不同。 你知道,语音识别有了极大的发展,在很多领域有很大的应用。但在语音上,仍有许多的研究需要完成。 机器之心:在 CES 2017 上,百度发布了 DuerOS,你也曾提到今年是对话机器元年,应该如何理解? 吴恩达:我认为我们进入了语音对话接口成为必要事物的计算新时代。20 年前,我们大部分使用台式计算机或笔记本的键盘。大约 10 年前,乔布斯发布了 iPhone,开启了手触屏幕与手机以及其他设备交互的时代。 我认为人机交流的下一个时代是语音交流接口,而且我认为这一趋势如今刚好起飞。因为这一技术刚好到达了这样一个点,你可以坐在家中与对话计算机进行交流,询问航班以及其他信息,而且它们能了解你说的什么,并为你提供有用的信息和服务。 所以,我对对话计算时代黎明的到来非常乐观。事实上,我们在中国感受到的一件令人激动的事是我们看到了很多的创新,不同的团队建立了不同的很有创意的硬件。比如,小鱼在家、智能音箱、电视盒子等等。 有了 DuerOS,我们希望能帮助所有的这些硬件制造者将人工智能、语音对话智能加入到硬件中,从而让更多这样的设备进入家庭。 机器之心:你认为语音识别技术未来将在哪些领域发挥最大作用? 吴恩达:我认为语音在 4 个类别中将会快速起飞。 第一个是手机。因为在智能手机上语音输入要比键盘输入更快,所以百度在手机的语音识别上增长迅速。 第二个是家居场景。我们看到了智能音响(smart speakers)的崛起,出了智能音响,我认为小鱼在家、电视盒子这样的设备也在增加。我们把这种坐在家的体验叫做背靠式体验(lean back experience),也就是你能背靠沙发发号施令,然后各种家居设备会了解你的需求并作出回应。 第三种是汽车场景。在你驾驶的时候,手放在方向盘上用说的方式与汽车交流,它就知道你想做什么。所以我认为在这个场景中也会发展。 最后是可穿戴设备。大部分可穿戴设备没有很大的界面,比如智能手表等。所以我认为在这个垂直领域,语音会慢慢发展。 所以,我认为语音是让你与机器交流如此高效的一个接口,它会在这些垂直领域有很快的发展。可能也有其他领域。 机器之心:您怎么看语音识别技术的商业前景? 吴恩达:在手机百度、百度地图、百度输入法等许多百度的产品中,我们可以看到过去几年中语音的使用变得越来越频繁了,j2直播,因为这对用户来说是一个方便得多的文本输入方式。所以有大量第三方硬件制造商、软件开发商和开发者想使用语音来帮助他们的用户与他们的应用或设备进行更加自然和方便的交流;百度大脑项目也是一样,我们通过我们免费的语音识别 API 发布了我们的产品,让第三方也能用上我们的技术。语音识别是最难、门槛最高的技术之一,在百度,我们有幸能够使用足够的资源开发出非常好的语音系统。所以我们希望能够通过我们的技术来帮助许多开发者和企业组织,让他们的用户也能将语音作为一种输入方式。 百度的人工智能研究团队 机器之心:百度人工智能团队的日常工作是怎样的?是什么创新机制在支撑团队保持创造力? (责任编辑:本港台直播) |