Adam Coates表示Deep Speech 2开发过程中,第一大难点就是获得标记的数据。大家想象中百度应该有大量的数据,然而大部分我们日常APP使用中产生的数据都是没有标记的,比如我们发了一个语音,对应的中文文本我们往往没有提供,这些都是没有标记的数据,无法用于语音识别的训练。即使有一些标记的数据,我们也不能保证其准确性,而数据清理往往耗费更多的时间。 Deep Speech 2的开发过程,除了通过把会话片段标记出文字(tran)作为训练数据,还使用了大量的朗读数据(就是提供文本,然后花钱请人朗读成音频)。虽然后者的质量不如前者,但是非常便宜,而且能够获得大量的数据。 Deep Speech 2这个大规模的深度学习系统需要丰富的标记训练数据,这个系统使用了11940小时含800万标注的英文语音片段,以及普通话系统采用9400小时含1100万话语标记的讲话语音。 除了训练数据的获取,建立这样一个高性能计算系统(HPC)也是一个很大的调整。Adam表示他们拥有一个团队致力于构建深度学习系统。当然也少不了喜闻乐见的调参过程。 Deep Speech 2未来的发展方向 Deep Speech 2已经从Deep Speech的8%的错误率提升到了5%,Deep Speech的下一个目标就是继续降低识别错误率,并且处理语音识别的各种极端情况,atv,比如重噪以及交叉谈话等场景。 目前Deep Speech 2只是纯软件和算法层面,没有涉及到硬件相关的优化,在问到是否可以结合硬件来提升Deep Speech 2的性能时,Adam表示结合硬件有提升识别率的可能性,但目前AI Lab没有尝试。 Adam把语音识别的噪音环境分成两大类,一大类是有噪音但是人类能无干扰的听到目标声音,第二大类则是有噪音干扰下人耳都听不清目标声音,在第一类环境下通过软件和算法优化就有很大的提升空间,而第二类则可能需要硬件参与进来获得超越人类听力的能力。 语音是未来 在问道最看好未来的下一件大事时(next big thing),Adam表示非常看好语音的前景。 目前语音识别能力还有提升空间,虽然语义理解、自然语言处理等的进步还需要更多时间,但是语音识别加上非常简单的自然语言处理就能显著的改善我们的生活。 Adam举了一个例子,斯坦福和华盛顿大学等高校的研究表明,用语音输入代替键盘输入,能提升约3倍的效率。 Adam希望语音识别的持续进步,能够使得语音成为一个大家真正放心使用的交互方式。 号外:Adam Coates会作为演讲嘉宾参加AI Frontier大会,同台演讲的还有Google大神Jeff Dean,欢迎读者们点击原文链接报名参与,j2直播,近距离接触来自各大公司的技术大牛,报名链接点击阅读原文打开,后台回复“人工智能”将获得150美元优惠,前20名有效。 (责任编辑:本港台直播) |