【j2开奖】机器之心独家专访：首度揭秘地平线语音战略与研究(2)_本港台直播_J2开奖直播

语音信号处理、语音识别、语义理解这三个环节组成了一个完整的解决方案，尤其需要注意的是前端语音信号处理，它发挥了很重要的作用。举个简单例子，在语音识别环节很重要的就是对数据进行扰动、加噪。那么加噪怎么加？加多少？这其实跟音频信号处理关系是非常大的。如果只专注于语音识别这件事情而不做音频前端的信号处理、优化，就会导致在具体产品上出现性能不好，或者成本过高等问题。

最后，我们在软硬件配合方面做了大量工作。硬件体现在两方面，一方面是在前端信号处理上的麦克风阵列，另一方面是在中间的语音识别，尤其在嵌入式的语音识别，需要我们设计专用的、针对深度学习优化的计算架构芯片。

所以我们认为语音交互这件事情，首先是云端+嵌入式；其次是语音信号处理、语音识别、语义理解三个环节都要做；最后，你要软硬结合。这三个维度缺一不可。

机器之心：地平线之前推出的雨果平台、安徒生平台上面使用到的语音交互解决方案也都是我们自己的？

黄畅：雨果 1.0 平台是一个基于 FPGA 的平台，它主要面对的是汽车市场。安徒生平台面向的是智能家居。现阶段，车载语音暂时还没有放在我们的工作范畴之内，我们专注的是智能家居的语音应用。所以说我们的语音目前主要是在安徒生平台上的应用。

这其实也反映了另外一个问题。表面上看车载语音和家居语音都是语音应用，但实际上因为场景不同，可以接受的功耗和成本不一样，这导致你所采用的技术方法的差距非常大。

所以在研究方面我们要把信号处理、语音识别和语义理解三个环节都做。但在其他的维度上，比如在具体应用场景中，我们要有所收敛。因为毕竟我们不可能像一个大公司一样，投入非常多的资源在所有的维度上。

机器之心：地平线之前一直在做图像识别方面的研究，也有语音识别方面的研究。如果两者部署到同一个平台，比如说同一个机器人平台上，它们是相互促进？还是彼此独立的存在？

黄畅：这恰恰是我们努力在做的。表面上看语音和图像好像是是两个不同的东西，但实际在交互的过程中我们追求的是一种多模态的交互。

举个简单的例子，我们通常说语音是比较自然的交互，但是在有些场景中你会发现手势、人脸这些来自于图像的信号也能够很好的辅助你进行交互。尤其是在复杂的场景中，比如说开 party，你会发现在嘈杂的声音中把语音分离出来是很难的。

针对这种复杂场景中的问题，虽然我们有增强的方法，但是你一开始甚至不知道应该往哪个方向进行增强。所以我们可以结合一些来自于图像的 indicator，比如说手势识别，比如说类似前段时间 DeepMind 做的唇语识别。它（指 DeepMind 的 LipNet）是个很有意思的应用，也是在做语音识别，但它不是靠语音信号而是靠图像信号，而且准确率十分惊人。

这就说明一个很有趣的问题：如何让机器所感知的信息，像人机交互一样，也是一种多模的交互？从逻辑上来讲，是把语音和图像的交互结合起来。从执行上来讲，你必须把两个东西放在一套系统里面，非常完美地同时运行这两个东西。

再往深处去挖，图像和语音发展到现在，在计算模式上已经有了非常大的相似性，这使得我们可以设计一套对这两种问题通用的计算架构，这也是我们之所以非常看重专用的芯片架构设计的原因。因为我们相信用一套专门设计的新架构，能够做好包括语音、图像、决策在内的很多人工智能问题的运算。

机器之心：把语音技术部署到产品上面接下来有什么计划吗？

黄畅：前期主要是在智能家居方面，比如说跟科沃斯的合作，将语音识别技术用于智能扫地机器人上。此外我们也在跟其它家电厂商研发基于语音识别的技术应用。

地平线认为 2017 年是语音识别广泛应用的关键年。所以我们在这一年会非常重视整个语音的技术研发和产品推广，包括市场拓展，这是今年公司最重要的方向之一。

地平线的语音技术

机器之心：两位能从技术角度讲解下地平线的语音研究吗？模型与算法？

牛建伟：前面也讲到了，地平线在很多方面都有一些工作：音频信号处理、语音识别、语义理解、语音合成等。

(责任编辑：本港台直播)