从创立之初,地平线的愿景就是为包括智能家电、服务机器人、自动驾驶汽车在内的众多设备装上「大脑」,让它们具有从感知、交互、理解到决策的智能。人机之间的自然交互一直是人工智能领域的一个美好愿景,而语音是人机交互中最重要的手段之一。 虽然过去的一年中,我们听到更多的是地平线关于图像、芯片方面的研究,但据机器之心了解,地平线在创立之初(2015 年)就拥有了一支十分强大的语音团队,很早就在进行语音方面的研究,积累起独特的技术优势。 在近日,机器之心对地平线联合创始人、算法副总裁黄畅博士以及首席语音算法工程师牛建伟进行了专访,从公司的整体战略、语音技术两个角度揭开地平线语音的神秘面纱。
黄畅博士,地平线机器人技术联合创始人、算法副总裁。深度学习专家,前百度主任架构师 ( T10 )。长期从事计算机视觉、机器学习、模式识别和信息检索方面的研究,作为相关学术界和工业界的知名专家,发表的论文被引用超过 3350 次,拥有多项国际专利。他开发的人脸检测技术,创造了世界上首次计算机视觉技术被大规模应用的成功范例,占领 80% 数码相机市场,并且被苹果 iPhoto 等诸多图像管理软件所采用。 牛建伟,地平线机器人技术首席语音算法工程师、语音识别团队负责人。牛建伟毕业于西北工业大学语音识别专业。曾任百度语音技术部资深工程师,在百度期间研发了国内第一个采用深度学习技术的大规模商用语音识别系统,并建立了一套国内领先的离线语音识别系统。牛建伟 2015 年加入地平线后,主导搭建了地平线的语音识别系统。 地平线的语音战略 机器之心:请黄畅博士介绍一下地平线在语音方面所做的工作? 黄畅:请容许我首先介绍一下我在语音方面的同事牛建伟。牛建伟在加入地平线之前就职于百度语音技术部,是国内语音行业中最早一批接触并运用深度学习算法的人,至今从事语音方面的研发工作已经 7 年有余。事实上,地平线从创立伊始就开始语音技术的研发,原因很简单——万物智能意味着人机交互需要变得更加自然,而语音正是其中最重要的手段之一。在家居场景中,各种智能终端上的语音技术与手机上的相比,会复杂很多,具体表现为:语音的获取从近场变为远场、对交互响应时间的要求更为苛刻、需要对接的服务种类更加繁杂。这些特点决定了智能终端不能简单沿用手机上的语音技术架构。 为了更好地处理远场语音问题,我们开展了语音信号处理(包括麦克风阵列)相关的算法和硬件研发;为了降低交互响应时间,我们采用了云端+嵌入式的语音识别架构;在嵌入式端,受限于计算资源,我们仅仅运行信号处理、唤醒、命令词和小规模通用语音识别模型,以保证低延时的交互响应以及网络条件不好情况下的用户体验;而在云端我们可以采用更大规模的声学模型、更复杂的解码器和语言模型,在网络条件良好的情况下确保更好的用户体验;最终,通过语义理解、知识库和对话系统,做出决策并对智能设备进行有效的控制,将用户和广泛的服务对接起来。 机器之心:现在的语音团队大约发展到了多少人? 黄畅:除了北京,我们还在南京设立了语音研发中心,整个团队加起来正式员工有 20 多人。 机器之心:国内也有一批语音方面的人工智能创业公司,比如思必驰、云知声等,我们和他们比起来有什么不同? 黄畅:我们的角度是不一样的。首先据我所知,他们还是非常偏重云端的。地平线的语音则一开始就强调云端+嵌入式。语音信号处理、唤醒、命令词以及语音小模型放在嵌入式端,以保证实时性和网络不佳条件下的必要功能,而将语音大模型和语义理解放在云端,以提供更佳的性能并能对接服务,这种云端+嵌入式端的整体方案,可以提供更好的用户体验。 我们注重的是语音全自然交互的解决方案,也就是前端语音信号处理与后端语音识别、语义理解相结合。 (责任编辑:本港台直播) |