在语音交互这条路上,很多厂商吃了不少苦头,尤其在涉及一些专业术语的时候,语音识别的效果往往让人不敢恭维。同样,搜狗语音也经历了类似的苦恼。近日,搜狗语音交互中心总监陈伟在中信双创沙龙的活动上便分享了搜狗在语音识别与交互上趟过的坑与得到的经验。此外,本次沙龙活动还请来了人工智能领域其他从业者,银弗科技联合 COO 朱梓鸣、健康诺数据总监董云帆、ARK 董事长张文新等。
据了解,正是基于语音输入对未来人机交互至关重要的作用,搜狗于 2011 年开始组建语音团队,并在搜狗输入法上使用语音识别功能,而且在搜狗输入法上率先上线了谷歌语音识别 API。陈伟介绍称,最初搜狗语音识别能力和谷歌当时 API 能力基本字错误率维持在 40%左右,不过近年来有了突飞猛进的发展。“这几年(错误率)从 40%、30%降到了 5%左右,而现在错误率基本是 3%。同时伴随语音量的增长,目前每天有 2 亿次识别请求,对应语音时长超过 18 万小时。”陈伟表示。 数据、算法、计算能力三管齐下 众所周知,大数据的兴起、深度学习算法的普及、计算能力的提升是近年来人工智能迅速发展的三大技术前提。同样,搜狗也从这三方面出发,不断推进其人工智能技术的进步。陈伟表示,当他们的产品上线后,新老用户产生了大量数据,从最早的 500 小时变成了数万小时。而在算法上,搜狗也紧追行业最新成果,在 2010 年,通过深度学习技术,错误率直接下降了 30%;此后其又先后通过引入 CNN 卷积神经网络以及时序概念;并将深度学习“深度”继续加升,“在我们语音这边做到 30 层到 50 层(神经)是非常常见的现象”;同时,在运算能力建设方面,搜狗也逐渐从 CPU 转换到了单片 GPU 再到多机多卡(CPU、GPU 等),运算能力从之前的几 T 变成了上 P。 目前, 搜狗围绕语言提出了搜狗人工智能战略,主要分为两个部分:自然交互和知识计算,其中陈伟团队的工作重心则主要放在自然交互上。 提到自然交互,就不得不提及登陆苹果的 Siri。多年以前,创业者们纷纷跟风,做出了很多类似的助手类产品,但这些产品在火了一段时间之后,开奖,最后基本上都逐渐消失了。搜狗同样也是其中一个跟随者,开奖,“我们当时做得是比较不错的,比如有调戏的功能,另外可以满足用户查询类的需求等。”陈伟认为包括搜狗等企业当时犯的错误主要就是 未能及时认识到产品边界,过早地做了通用型的语音识别。 “然而,目前的技术能力还远远达不到通用的能力。比如说语音,当我们在做语音识别的时候,就会面临通用或者口语类的语音识别。比如,识别科技类或者体育类的专有名词时,准确率就会下降。语义理解也一样,依然有我们无法覆盖到的。”陈伟如此解释。因此,搜狗的解决之道便自然而然地落在了“产品边界需要做一些区分”上面。
正是在这样的思路下,搜狗去年推出了自己基于语音交互的搜狗知音引擎,并重点关注垂直细分场景,“一个是在车内,解放人的双手和眼睛,比如可以通过语音控制听歌、导航等操作;另外就是客厅,出现电视这种场景,人和机器之间已经有了一定距离,这时候语音成为重要的交互方式;最后就是户外,解决边走路边打字的问题。” 陈伟认为关注于垂直场景后,企业就可以将精力集中在可控范围内,从而提升产品性能。 以下技术,使自然语音交互更有效 陈伟认为,想要做好语音交互,第一就是要具有多轮对话能力,人和机器目前交流的内容依赖于我们之前交流的历史信息来共同决定机器目前给出的反馈;第二是当语音识别错了要有纠错能力;第三就是内容理解,就是人和人之间交流的过程中往往会有多处出现打断的情况,或者出现两个人共同说话的情况,那么怎么解决这种真实的对话的场景呢? 据陈伟介绍,把引擎下垂到具体场景,其实就是为了做到多轮对话。而搜狗累积的大量包括命令操作、生活消息、娱乐消费、知识问答等数据,更是有利于搜狗建立完善的知识图谱,解决内容理解问题。 (责任编辑:本港台直播) |