从当前的技术水平来看,这四项技术已经达到了商业初级可用的阶段,但是距离我们满意还应该有3-5年时间的距离。即便是被国内几家公司号称最为成熟的语音识别,其实也处在近场到远场的技术升级期。 以Siri为代表的近场语音识别已经发展了60多年,特别是在2009年以后借助深度学习有了实质性提高,但是正如扎克伯格所说的,当真正产品落地的时候,我们发现用户真正需要的却是类似Echo所倡导的远场语音识别。显然,atv,这又是一个崭新的技术领域,因为拾音距离的扩大带来的问题不仅仅是语音信号的衰减,而且还带来了复杂的真实环境以及复杂的用户习惯。 以Siri为代表的近场语音识别要求必须是低噪声、无混响、距离声源很近的场景,比如用户总是要对着手机讲话才能获得符合近场语音识别要求的声音信号,同时还要求用户满足标准发音,其识别率才有可能达到95%以上。但是,若声源距离距离较远,并且真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这就会严重影响语音识别率。同样的,我们人类在复杂远场环境的表现也不如两两交耳的窃窃私语。 通常近场语音识别引擎在远场环境下,若没有声学处理的支持,比如麦克风阵列技术的适配,其真实场景识别率实际不足60%。而且,由于真实场景总是有多个声源和环境噪声叠加,比如经常会出现周边噪声干扰和多人同时说话的场景,这就更加重了语音识别的难度。因为当前的语音识别引擎,都是单人识别模式,无法同时处理多人识别的问题。 远场语音交互技术正在逐步成熟,Amazon通过Echo已经证明了远场语音交互已经迈过用户可接受的门槛,而国内的科大讯飞和声智科技也在发力这个领域。 从市场层面来看,语音交互毋庸置疑是继键盘、鼠标和触摸屏之后的主流交互方式,但是距离真正走入国内市场还总是差那么一点。技术链条仅仅是其中一个小部分原因,从战略认知、资金投入到需求挖掘,国内公司都欠缺了很大的火候,而国内各大巨头更应该在战略决心和技术链条上发力。智能语音交互的全球竞争之中,国内的AI巨头似乎才刚刚苏醒。 -End- 撰稿:袁媛 编辑:孙沛文 热门文章推荐 (责任编辑:本港台直播) |