2009 年底搞了一个 NIPS 讲习会,将深度学习各种不同的方法在语音识别上的应用总结一下,那时候已经有初步的结果出来,但是结果不是特别好。当时所有的深度学习在语音识别上面都是聚集在非常小的数量上面——大概只有100万帧左右的的数据量,非常有限。
当时大规模的神经网络威力还没显示出来。这之后我们在微软花了大概一年多的时间,发明了一些很有效的方法,使得深度信念网络(DBN)、深度神经网络(DNN),加上隐马尔可夫模型(HMM),这三个不同的技术整合到一起就成为以上这组架构。把神经网络跟其他的机器学习、人工智能方法联合在一起,很快让深度神经网络在工业界上面的语音识别产生巨大的影响。 这有点像 AlphaGo,也有三种不同的方法联合在一起。 所以,怎么样把不同的人工智能和机器学习方法同深度学习方法整合到一起是非常重要的。
当时 Hinton 和我们在学术界(我所在的微软研究院,也算学术界工业界的一个混合单位)合写了一篇文章,三年多前发表的,成为深度学习在语音识别方面的经典工作。大部分的内容和方法在这个文章当中写到的,现在工业界还一直在用。文章讲了深度神经网络对语音识别产生的影响,怎么把不同的机器学习方法,包括深度神经网络的方法整合起来,使得大规模的语音识别得到进展。
当我们微软公司把深度学习用到语音识别并取得大规模成功的时候,微软大老板 Rick Rashid 2012 年在天津举行的一次会议上当场演示,第一次向世界宣布深度神经网络是一个非常强大的技术。他用深度学习做语音识别演示,几乎没什么错误,因为他非常配合,帮我们采集了很多他自己的 speaker-dependent 的数据。大规模的场合演示语音识别和翻译几乎没任何错误。另外,用机器翻译的方法,把识别出的英文文字翻译成中文,再用语音合成的方法产生中文语音。他用英文讲,他的中文声音就出来了,而且中文合成的声音跟他自己的声色非常相像,当时产生很大的影响。
演示之后,《纽约时报》的记者 John Markoff 到微软采访了我,也采访了 Hinton,我们讲了一些我们合作的事情,在《纽约时报》报道。最重要的写的一条,我们不约而同跟这个记者说,这么好的一个技术能够在演示上这么成功,几乎没有任何专利的保护。记者就把它写到了报纸上,这个可能跟整个工业界对深度学习引起兴趣有很大关系。
我们也写了论文,2010 年到 2012年写了不少微软同多伦多大学合作的论文,之后 IBM、谷歌、科大讯飞、百度也用类似的方法。科大讯飞确实跟进我们做得比较早,我这里没时间展开讲太多。识别自然语音的错误率在 1993 年几乎每个字都会错掉。美国的 DARPA 第一次做这方面的研究时,数据没采集多,1993 年之后,DARPA 每次投资语音识别的研究基本有1/4左右的资源是用来采集有标注的数据的。所以之后语音的大数据有了。这也是为什么深度学习在语音识别上是第一个成功的例子。
感谢胡郁总裁寄给了我当时在科大(我的母校)访问的照片,那时候我在 2010年到 2012年之间接受侯建国校长的邀请访问了科大和科大讯飞、也多次到微软亚洲研究院、台湾中央研究院和中国其他地方,讲深度学习的方法并进行学术讨论。这三年内我到中国各地走了十多次,开始于科大。可以这么说,科大讯飞的深度学习技术确实在中国是非常早就已经开始应用,只稍稍滞后于微软,跟这些学术讨论有很大的关系。深度学习从加拿大和美国到中国有很有趣的历史,具体的过程刘庆峰总裁跟胡郁总裁他们有更多的材料。近两年来在吴恩达的带领下百度语音的深度学习技术也有巨大的进展。【此处为新增内容】 (责任编辑:本港台直播) |