语音信号处理、语音识别、语义理解这三个环节组成了一个完整的解决方案,尤其需要注意的是前端语音信号处理,它发挥了很重要的作用。举个简单例子,在语音识别环节很重要的就是对数据进行扰动、加噪。那么加噪怎么加?加多少?这其实跟音频信号处理关系是非常大的。如果只专注于语音识别这件事情而不做音频前端的信号处理、优化,就会导致在具体产品上出现性能不好,或者成本过高等问题。 最后,我们在软硬件配合方面做了大量工作。硬件体现在两方面,一方面是在前端信号处理上的麦克风阵列,另一方面是在中间的语音识别,尤其在嵌入式的语音识别,需要我们设计专用的、针对深度学习优化的计算架构芯片。 所以我们认为语音交互这件事情,首先是云端+嵌入式;其次是语音信号处理、语音识别、语义理解三个环节都要做;最后,你要软硬结合。这三个维度缺一不可。 机器之心:地平线之前推出的雨果平台、安徒生平台上面使用到的语音交互解决方案也都是我们自己的? 黄畅:雨果 1.0 平台是一个基于 FPGA 的平台,它主要面对的是汽车市场。安徒生平台面向的是智能家居。现阶段,车载语音暂时还没有放在我们的工作范畴之内,我们专注的是智能家居的语音应用。所以说我们的语音目前主要是在安徒生平台上的应用。 这其实也反映了另外一个问题。表面上看车载语音和家居语音都是语音应用,但实际上因为场景不同,可以接受的功耗和成本不一样,这导致你所采用的技术方法的差距非常大。 所以在研究方面我们要把信号处理、语音识别和语义理解三个环节都做。但在其他的维度上,比如在具体应用场景中,我们要有所收敛。因为毕竟我们不可能像一个大公司一样,投入非常多的资源在所有的维度上。 机器之心:地平线之前一直在做图像识别方面的研究,也有语音识别方面的研究。如果两者部署到同一个平台,比如说同一个机器人平台上,它们是相互促进?还是彼此独立的存在? 黄畅:这恰恰是我们努力在做的。表面上看语音和图像好像是是两个不同的东西,但实际在交互的过程中我们追求的是一种多模态的交互。 举个简单的例子,我们通常说语音是比较自然的交互,但是在有些场景中你会发现手势、人脸这些来自于图像的信号也能够很好的辅助你进行交互。尤其是在复杂的场景中,比如说开 party,你会发现在嘈杂的声音中把语音分离出来是很难的。 针对这种复杂场景中的问题,虽然我们有增强的方法,但是你一开始甚至不知道应该往哪个方向进行增强。所以我们可以结合一些来自于图像的 indicator,比如说手势识别,比如说类似前段时间 DeepMind 做的唇语识别。它(指 DeepMind 的 LipNet)是个很有意思的应用,也是在做语音识别,但它不是靠语音信号而是靠图像信号,而且准确率十分惊人。 这就说明一个很有趣的问题:如何让机器所感知的信息,像人机交互一样,也是一种多模的交互?从逻辑上来讲,是把语音和图像的交互结合起来。从执行上来讲,你必须把两个东西放在一套系统里面,非常完美地同时运行这两个东西。 再往深处去挖,图像和语音发展到现在,在计算模式上已经有了非常大的相似性,这使得我们可以设计一套对这两种问题通用的计算架构,这也是我们之所以非常看重专用的芯片架构设计的原因。因为我们相信用一套专门设计的新架构,能够做好包括语音、图像、决策在内的很多人工智能问题的运算。 机器之心:把语音技术部署到产品上面接下来有什么计划吗? 黄畅:前期主要是在智能家居方面,比如说跟科沃斯的合作,将语音识别技术用于智能扫地机器人上。此外我们也在跟其它家电厂商研发基于语音识别的技术应用。 地平线认为 2017 年是语音识别广泛应用的关键年。所以我们在这一年会非常重视整个语音的技术研发和产品推广,包括市场拓展,这是今年公司最重要的方向之一。 地平线的语音技术 机器之心:两位能从技术角度讲解下地平线的语音研究吗?模型与算法? 牛建伟:前面也讲到了,地平线在很多方面都有一些工作:音频信号处理、语音识别、语义理解、语音合成等。 (责任编辑:本港台直播) |