文/黑君 搜狗突围 究竟是资本的到来助推了AI的发展,还是AI研发的进步触动了资本的神经,总之,2016年成了AI年。在这一轮AI风潮中,语音识别俨然取代了VR、AR等概念,“攻陷”了大众的眼球,也成为了各家科技公司必争之地。 仅就下半年风头正劲、曝光最多的,当属搜狗。 先是在奇点大会上,实时语音识别大出风头,将搜狗CEO王小川的演讲内容同步为文字,显示在现场屏幕上; 继而,搜狗又正式对外发布搜狗知音引擎——一个可以以语音对话、多轮交流的语音引擎; 在11月世界互联网大会上,搜狗CEO王小川又再次让公司研发的实时同传大放异彩。机器翻译准确率达到90%,据说接近人类水平; 11月21日,搜狗最先公布,其语音识别的准确率已经达到了97%。 这些功能的背后,则是研发人员的不断测试、调整、技术攻克。看似简单的“搜狗知音引擎”不仅具有“灵敏的耳朵”,更拥有一个“聪明的大脑”,以及强大的语音合成能力。 在外界眼里,近年来搜狗最大的新闻则是腾讯入股搜狗,搜狗是什么时候开始默默致力于AI研发,谁让这些功能得以实现?语音识别技术研发到了什么程度?搜狗语音识别还有什么秘密武器? 带着一系列疑问,黑君独家采访搜狗语音交互中心语音技术部负责人,为大家揭晓台前幕后。 幕后英雄团队 无论是知音语音引擎、还是实时翻译,技术都来自于搜狗语音交互技中心,脱胎于4年前的一个语音小组,今年1月份已经升格为中心。 如今,这个技术小组已经扩增至60多人,据说,还在增加研发人员。 陈伟是语音交互中心语音部技术负责人,2012年加盟搜狗,是语音组最早的成员之一。 正是搜狗的语音交互技术,让搜狗在AI领域大放光彩。 ○陈伟,j2直播,搜狗公司桌面事业部专家研究员,语音交互中心语音技术部负责人。负责搜狗语音识别、语音合成、音乐检索、声纹识别、手写识别、机器翻译等多项技术的研发工作,同时负责搜狗知音引擎语音技术的研发。 97%准确率的打开方式 11月21日,搜狗率先公布自己的语音识别数据,准确率在97%。 黑君:97%的准确率是指测试了哪些维度之后的结果? 陈伟:准确率97%的意思是代表说100个字错了3个字,是指错误率是3%。 黑君:是一个人说了100个字,错了3个字吗? 陈伟:我们准确率97%这个数据,是由800个人,每个人说200字,共计16万字测试后的结果,错了3%。 黑君:是在什么条件下的16万字? 陈伟:在北京、深圳两地各400人,在学校进行,atv,主要测试口音和噪声。 黑君:行业都是这么测试的吗? 陈伟:其他公司我不清楚,我们主要是委托了第三方机构来做的测试。现在每天用搜狗输入法的语音数据就有1.9亿次,每天差不多能产生16万小时的数据。 语音识别谁家强 随着人工智能的风潮席卷,作为感知识别的语音识别被越来越多的提及。我们甚至可以看到,多家科技公司都在争抢语音识别的头把交椅,谁能最终走向宝座,背后需要强大的技术支撑。 黑君:语音识别的难点在什么地方?怎样辨别谁家技术力量更强? 陈伟:交互逻辑里最关键的几个技术, 1、把语音转化成文字这种语音识别的能力; 2、语义理解能力; 3、语义理解之后让机器来说话,语音播报的能力。 整个交互过程,涵盖了接收信息、理解并反馈、输出答案整个过程。 关于“语音识别技术哪家强”的问题,要从多个维度来看,一种是评测——来自第三方、内部、合作厂商;一种是技术维度——使用识别技术的前沿程度以及效果;还有产品维度(我认为这是最重要的)——用户体验和反馈是否足够好。目前看来,我们搜狗的技术是领先的。 黑君:语音识别准确率提高的障碍在什么地方? 陈伟:语音识别的难点——口音、噪音等; 比如,车载设备需要在车高速行驶时风声、雨声,汽车鸣笛声以及各种干扰声环境下,清晰辨别指令。 方言、中英文混杂的语言习惯等等。还有就是给机器学习大量的语料数据。我们的数据则是来自于用户每天接近2亿次的语音输入搜索请求。 商业化进行时 作为最接地气的感知识别技术,语音识别商业化的“天赋”正在凸显。 搜狗通过数据分析发现,人们使用语音最为频繁的场景是在wifi环境下,以及餐厅里。 目前,搜狗认为,车体内、家居环境以及穿戴设备领域都是语音识别适用的领域。 黑君:搜狗一直致力于toC端的业务,有没有toB端的打算? (责任编辑:本港台直播) |