文|李东楼 又到年末,回顾一年来人工智能的发展,语音识别技术正处于快速发展阶段。正如在之前由国际知名科技期刊《麻省理工科技评论》(MIT Technology Review)评选出的“2016年十大突破技术”,语音接口技术位列其中,该技术可将语音识别和自然语言理解相结合,为全球互联网市场创造切实可用的语音接口。 在东楼看来,随着场景声音辨识技术的加速完善,语音识别技术有望迎来真正的拐点,未来发展空间将进一步扩大。而国外的谷歌、苹果,以及国内的科大讯飞、搜狗等公司都是这一领域的大玩家。 从智能语音识别、语义理解到如今最热的实时翻译,搜狗语音并不是一开始就有如此优秀的表现,而是经过了数年的产品演进和技术进化才达到今天这样的水平。而回顾搜狗在智能语音技术方面的进化历史,甚至还能够看到未来的智能语音技术发展的方向和前景。 智能语音的进化史 首先让时间回到移动互联网的爆发初期的2012年,当时由于苹果Siri功能推出,语音助手软件曾经风行一时。不仅包括搜狗、百度等搜索引擎公司基于自身的搜索引擎的基因,纷纷推出了独立的语音助手应用,还有一些创业公司也希望能够从语音搜索入手,期望成为下一代搜索引擎入口。不过,与Siri一样,这些语音助手产品不仅语音识别率低,而且还经常答非所问,直播,且只能提供一些简单的询问天气、介绍餐厅等初级功能,无法进行复杂的多轮交互对话,因此在经过了短暂的市场预热之后迅速进入低潮,而这些语音助手们也纷纷沉寂,甚至停止了更新。 在此之后,包括搜狗在内的这些提供智能语音服务的公司纷纷转入技术积累的低调期,并陆续推出了基于云服务推出语音云开放平台,希望能够开放自己的语音识别、语义理解等语音技术能力,吸引更多的第三方合作伙伴,一起搭建生活服务入口。不过,尽管搜狗在智能语音的技术一直在向前演进,语音识别率越来越高,但是由于更多将服务转向了b端,因此并不被普通用户熟悉。直到罗永浩在对锤子手机功能的演示时提及,才使得人们第一次意识到原来智能语音技术已经演进到了现在这个地步。 实际上,第一次引爆智能语音技术并让其受到追捧的人并不是罗永浩,而是搜狗CEO王小川。就在今年7月,搜狗CEO王小川在参加极客公园“奇点·创新者峰会”上已经完成进化的搜狗语音来了一次”首秀“。利用搜狗公司的语音识别技术,王小川的演讲内容在现场实时生成了滚动字幕显示,目测准确率高达95%以上。同步的字幕引起了现场观众极大的兴趣,纷纷起立拍照。不仅如此,王小川甚至还现场邀请了一位观众上台体验了搜狗输入法的新功能“语音修改”。用户对着手机说出一段文字后,再通过自然语言的方式将语音识别错误的地方进行修正,赢得了现场热烈的掌声。 紧接着,搜狗马不停蹄的在今年8月初发布了语音交互引擎“知音”,继续展示其在智能语音技术方面取得的重大突破,不仅在语音识别率方面达到业界领先的97%,而且还能进行快速纠错,更解决了此前一直困扰业界的复杂多轮交互的问题。简单的说,就是不仅要实现“能听会说”,还要求具有“能理解会思考”的能力,这使得智能语音的应用场景被大大延伸。而搜狗还宣布,已经将智能语音技术应用到了包括搜狗搜索、搜狗输入法、搜狗地图等全线产品当中。至此,搜狗的语音技术完成再次进化,在智能语音方面的能力已经到达了国内领先的水平。 而在11月乌镇举行的第三届世界互联网大会上,王小川在分论坛演讲现场更是发布了搜狗人工智能新产品——机器同传,展示了实时机器翻译技术,将演讲嘉宾的中文讲话实时语音识别并同步翻译为英文上屏显示,atv直播,引起轰动。这也是全球首次基于神经网络的实时机器翻译技术在大型活动上的展示,效果可靠、准确率已接近人类同传翻译结果。 基于大数据和深度学习,搜狗语音实时翻译涵盖了搜狗自主研发的语音识别、机器翻译两项重要技术,代表着这两大技术在实时性和实用性上迈出了较大的一步,并且高效的结合了起来。 未来,智能语音技术该如何演进? 另一方面,前面提到,目前搜狗在语音识别率方面已经达到97%,并能够进行快速纠错和处理复杂的多轮交互对话,而且已经应用到搜狗的全线产品当中。那么,接下来,智能语音技术还会向那些方面演进呢?我认为主要有以下三个突破点: (责任编辑:本港台直播) |