“语音识别的发展有四个阶段,”黄学东对新智元说,“第一个阶段,从孤立短语开始应用;第二个阶段,做成连续的,但是中间字和字需要停顿;第三个阶段是李开复当时博士论文做的,可以识别连续的语音,是人和机器交流,不需要训练;第四个阶段,对话式的语音识别早在二十多年前就已提出,其错误率一直徘徊在30%-50%之间,直到最近几年才有突破性进展。” 这四个阶段,横跨了语音识别探索四十余年的艰辛与梦想。 1971年,由Allen Newell领导的语音识别研究小组建议引入更多知识来源,他的报告讨论了六个层次的知识:声学、参量、音素、词汇、语句和语义。DARPA资助的各种语音理解系统,正是为了实现Newell报告的目标。得到资助的研究小组不多,黄学东导师Raj Reddy 1976年在CMU领导的小组是其中之一。 1982年,黄学东在清华读研究生,那是他涉足语音识别领域的开始。他在接受新智元专访时说:“大家看到更多的是我在CMU 和微软的成就,但是我不会忘记我的母校清华和湖南大学的功劳,是清华把我带入语音技术领域。是湖大帮我打下追求科学和工程的坚实基础。”
此后,黄学东先后进入英国爱丁堡大学和CMU 继续语音识别的研究。在CMU他加入Raj Reddy的学生李开复(前微软全球副总裁)负责的Sphinx项目。第一代Sphinx是最早演示话者无关语音识别的系统。李开复离开之后,黄学东成为第二代Sphinx负责人,并首次开源了该项目。1992年研发的Sphinx-II在同年DARPA资助的语音基准评测中获得了最高的识别准确度,黄学东也因此于1992年获得了Allen Newell 优秀研究奖章。值得一提的是 AllenNewell也是来自CMU 。洪小文(微软资深副总裁)也参与了Sphinx 的开发和研究,也是非常著名的语音专家。
1998年微软亚洲研究院前身”微软中国研究院“,左三为黄学东,其它依次为沈向洋、洪小文、凌大任(时任微软美国研究院院长)、李开复、刘志成、陈宏刚) CMU之后,黄学东于1993年加入微软。1995年,数顾茅庐之后,黄学东最终把洪小文也拉入微软。此后黄学东几乎一直在微软研发语音识别技术,其间在Bing工作了一段时间,一直跟随微软全球执行副总裁沈向洋博士。新智元问及他在同一个领域坚持攻关几十年的感受。他说: 第一个感受是“脚踏实地”,语音多年来有很好的评测系统,这是没有办法忽悠的。做的东西是驴子是马,拿出来遛遛就知道了。 第二个感受是“创新”,也就是说,只要效果好,不管白猫黑猫都会上。语音识别是第一个用统计的方法取代了传统的人工智能专家系统的应用,也是第一个将深度学习和隐马科夫模型结合,成功大幅降低识别错误率的案例。深度学习在语音识别的应用推动了其他深度学习的成功,是微软研究院第一次把深度学习加入隐马尔可夫的方法。今天所谓的人工智能“三大法宝”:算法、算力、大数据,早在几十年前,做语音技术的人基本上最先注意到了这三个东西的重要性。 第三个感受是“坚持”。研究过程中,自然有很多困难,例如90年代在Switchboard上测试的错误率降不下来,机器不够用,跑的实验永远比机器多,学习训练的数据量不够大,缺乏同时具有人工智能深度知识和实践大型系统工程能力的专业人才等等。回过头来,有时才意识到,已经坚持了这么久。 第四个感受是“团队”。黄学东认为自己一直很幸运,有一群天才的队友在自己周围共同奋斗。团队的力量是最重要的力量。
如今,业界的普遍共识是,语音交互是下一代人机交互方式,国外有亚马逊Echo的热销,有微软在Cortana上的投入,有苹果在Siri上的投入,国内则有陆奇成立度秘事业部。李彦宏也曾在亚布力论坛上说:移动互联网是人与触摸屏的交互,到了人工智能时代,人机交互的方式会变成自然语言,带来很大变化。而语音识别技术可以说是语音交互之争的胜负关键手。 结语 (责任编辑:本港台直播) |