李先刚:这项技术会在搜索产品,如手机百度的语音搜索先使用,然后再推广到其他产品。近一年来,手机百度上的语音识别的准确率提升了 20% 以上,效果感觉完全不一样。这次会带来效果的再次提升。 机器之心:你提到,现在做的技术研究都是要和产品相结合。对于整个语音识别行业来说,识别率一直在提升,但目前语音识别产品还没有被大范围使用,这里的原因是识别准确度还没有达到一个临界点?还是说产品层面的原因? 李先刚:有各方面的问题,首先,识别率如果从现在的 97% 达到 99% ,那肯定会不一样。其次,产品上也有很多问题,你要做好一个输入法,或者语音搜索,是要把很多方面结合在一起的。像我们的语音搜索很早也具备了语音纠错功能,语音纠错对整个语音输入和搜索非常关键,仅仅做好一个识别率还不错,怎么样让你的产品体验更好,还有很多事情要做。因此,一方面是从研究的角度提高准确度,另一个是从产品角度提升用户体验。还有一个是用户习惯的养成,我们发现小孩对语音输入的接受程度很高。此外,之前百度硅谷人工智能实验室和斯坦福合作过一篇论文,在实验中,相比于在手机屏幕上打字,人类能够语音识别能更快、更准确的组织文本消息。 机器之心:能否介绍一下百度目前整体的语音技术研究,这次 Deep CNN 对百度语音研究有着怎样的意义? 李先刚:此前,百度语音每年的模型算法都在不断更新,从 DNN ,到区分度模型,到 CTC 模型,再到如今的 Deep CNN 。基于 LSTM-CTC 的声学模型也于 2015 年底已经在所有语音相关产品中得到了上线。比较重点的进展如下:1)2013 年,基于美尔子带的 CNN 模型;2)2014年,Sequence Discriminative Training(区分度模型);3)2015 年初,基于 LSTM-HMM 的语音识别 ;4)2015 年底,基于 LSTM-CTC 的端对端语音识别;5)2016 年,atv,Deep CNN 模型。
百度语音识别技术每年迭代算法模型 在识别精度提升方面,通常在海量数据库上稳定提升 10% 以上就可以称作显著进步(significant improvement),这次我们就达到了这样一个效果。举个例子,我们语音技术部最开始用 CTC 提升了 15% ,这次用 Deep CNN 又提升了 10% 。 我们正在努力推进 Deep Speech 3 ,这项研究不排除将会是 Deep Speech 3 的核心组成部分。而在工程领域,我们一直在做一些语音识别应用,手机百度和输入法要提升性能。我们希望在未来的几年内,将语音识别的准确率在某些任务上做到 99% ,从现在来看是有希望的。同时还有一些周边技术也在研究,包括说话人切分、远场语音识别应用等。 ©本文由机器之心原创,转载请联系本公众号授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |