王砚峰:最直观的就是车内的智能导航,以及一些周围查询和用车问题。目前不管是主机厂还是后装设备厂商,大家都在不遗余力的往这个方向去奔。因为你在车内双手和双眼就是被占用的,当你有临时性需求的时候,语音是一种最好的满足方式。 当然,从产业端来讲,大家希望最后在车内实现服务化,做好整个“车联网”,希望语音最终能够和服务结合起来,把商业上的闭环跑通。但是目前不管是语音交互的能力,还是服务落地能力,距离最终目标尚有差距。举例子就是用户很难通过车内的语音交互去定附近的酒店,这个需求既不高频,同时解决方案也不如直接把车停下来查携程好。 所以我们会更务实一些,第一个目标是在导航,以及用户在路上产生的常见问题比如顺便加油、听FM,回微信消息等做到良好稳定的用户体验,把这方面的用户价值做起来,然后再去考虑服务延伸的事情。 提问4 毛杨 华为 业务规划 良好的智能语音体验,对网络是否有要求? 王砚峰:当然对网络有要求。除非像导航这种特殊的需求。其实导航上对于离线语音的需求,也是因为存量市场很多导航都是离线的,以及一些偏远公路网络信号差,所以不得不使用离线的语音。但是从识别的品质来看,在线的识别能力一定会比离线的强很多,计算力的差距摆在那里。更好的识别能力,就能够带来更好的语义理解以及内容返回。而且所谓智能语音,绝大部分后面要接一个搜索,可能是垂直的搜索,也可能是通用搜索。如果没有网络,搜索和服务的能力也不能接入,那又何谈智能。 提问5 王楠 中科创达 战略投资经理 搜狗目前在智能语音领域,是否有比较成功的行业应用可以分享,比如语言教育、汽车、智能设备等。谢谢。 王砚峰:搜狗是互联网公司,因此目前太重的行业(内容上的重或者商务上的重)我们还没有涉足,比如教育。但是只要是面向用户消费类的产品,哪怕最一开始模式是2B的,我们也会涉足,因为实际上这是一个B2B2C的模式,最终使用你能力的还是互联网用户本身。比如车内导航以及智能电视等。 至于成功的行业应用,如果是以用户量为判断标准,至少我们当前还不敢这么讲。我们目前暂时不以铺量作为业务目标,而是希望能够找每个领域的少数优秀的合作伙伴,共同去做出体验更好的产品。先解决目前市场上问题最大的“产品体验”的环节,然后再考虑如何去复制。既然这个市场大家用户体验都不好,而且大家都对好的用户体验的产品很敏感,所以只看量不看体验完全是本末倒置,到时候抢来的量也会流失掉。 所以目前在车上,我们和四维联合做了飞歌导航的一款产品,后面也会有几款后视镜以及车机导航产品面世;在智能电视方面,我们和魅族联合在魅族盒子上做了语音交互和搜片,另外也有几家好的合作伙伴处于产品即将上线状态。 然后我们的重点会放在通过对用户消费数据的迭代,不停地提升我们语音和语义能力,让产品的体验更好。当我们的产品体验能够形成行业口碑的时候,快速的铺量自然不会是问题。当然,作为新加入智能语音行业2B市场的我们来说,能有各行业巨头优秀合作伙伴进行深度紧密的合作,赢得这些我们尊敬的公司的认可,已经是一种“成功”。[愉快] 当然我们要走的路还很长,用户在语音产品上的体验还太差,所以我们和伙伴们一起推动产品的进步。 提问6 安迪 深圳新驱动力有限公司 项目工程师 科大讯飞的语音输入宣称准确率达97%,应用到智能机器人等设备,需要怎么做,才能达到理想的智能对话? 王砚峰:首先解释一下97%的问题。搜狗对外也宣称97%,这个数字实际上是人工评测得到的数据,确实我们和讯飞都是在97%这个数字上面。但是放到更真实复杂的环境,比如远场、方言、多个说话人等问题,准确率就会打折扣。所以语音识别的鲁棒性问题,还是一个从技术上需要进一步长期投入需要持续解决的一个问题。 你拿一个语音输入法,用非常自然的方式和他说话,或者在一个很嘈杂的环境中,一定是达不到97%的。所以要达到理想的对话,一方面像我之前提到的技术制高点,是需要不断去努力让技术更加得到本质性的改进的。这个技术包括语音增强、阵列以及说话人分离等多个领域,目前确实也是研究界的大热,以及工业界新的增长点。另一方面,可能要从产品设计上进行优化,在承认语音识别有错误的情况下,怎么能够通过进一步的交互来让语音识别变得更准。比如搜狗在今年上半年推出的语音修改功能。实际上这个功能对于车内、音箱上甚至“机器人”都是非常实用的。 提问7 张青涛 大疆创新 工程师 智能语音处理对硬件平台有什么要求?例如延迟、精度、实时性。 (责任编辑:本港台直播) |