大会进行到第二天,一篇名为《Conversational Speech Tranion Using Context-Dependent Deep Neural Networks》(使用上下文相关深层神经网络进行交谈语音转写)的论文发表,并迅速引起了科研界的高度重视。 论文提出了基于人工神经网络的语音识别新方法,实验结果显示,新方法大幅降低了语音识别的错误率。这意味着,曾于20世纪80年代末掀起热潮并最终沉寂下去的人工神经网络被再次引入语音识别研究领域,开启了语音识别的深度学习时代。 俞栋正是这一成果的主要研究人员。
俞栋 2011年距今日人工智能热潮第三次兴起尚有六年,人工神经网络在学术界几经起落,彼时并不被看好。 俞栋对腾讯科技回想起当时的情景,仍颇有感慨:“这项工作(将深度学习的方法引入语音识别领域)一开始受到很多怀疑,很多同事或者朋友都经历过80年代末90年代初,神经网络从高潮跌落到低潮的过程,所以他们都对此有一定的怀疑。” 但俞栋及其团队开辟的新方法用实际成果回应了质疑,“基本上两年之内,很多公司重复了我们的工作,发现确实对识别率有很大帮助,很快变成行业标准。但在我们这项工作之前,这类论文发表其实有一定困难,但是两年之后,变成没用深度学习技术就很难发文章了,反过来了。” 深度学习的钥匙打开了语音识别研究的新大门,进入深度学习时代后,语音识别也在不断取得突破。 2016年9 月中旬,微软报告了在语音识别方面取得的新里程碑:在Switchboard这一电话交谈基准测试集上新系统的识别词错率降至 6.3%;一个月后,微软又公布了在这一基准测试集上成功实现了历史性突破:他们的语音识别系统词错率(WER)和专业转录员相当甚至更低,达到5.9%。 数据背后的意义是,语音识别的识别率在近场上已经可以做到超过实用的门槛,在很多应用场景里可以应用。比如微信里面的语音转文字、语音输入法以及各类APP的语音输入框等。 在实际应用层面,语音输入已经成为许多APP必备的一项功能;但在研究层面,语音识别仍有许多留待攻克的难点。 俞栋介绍,当下更困难环境下比如远场、高噪音、或带口音的语音识别是仍需解决的问题;自适应方法(adaptation)也是重要的研究方向。 身处语音领域最前沿,俞栋的研究重点在往更深的层次走。而在加入腾讯AI Lab之后,俞栋也将带领团队主攻远场语音识别以及自然语言理解两个方向。在腾讯AI Lab的人工智能布局中,由俞栋带领的AI Lab西雅图实验室,将是另一个主场。 来自腾讯的邀约 作为最早把深度学习技术应用于语音识别领域的研究者之一,俞栋已经是语音识别和深度学习方向的顶级专家,出版了两本专著,发表了160多篇论文,是60项专利的发明人及深度学习开源软件CNTK的发起人和主要作者之一。曾获2013年和2016年IEEE信号处理协会最佳论文奖。现担任IEEE语音语言处理专业委员会委员,曾担任IEEE/ACM音频、语音及语言处理汇刊、IEEE信号处理杂志等期刊的编委。 2016年,俞栋与微软研究院同事邓力合著的《解析深度学习——语音识别实践》在国内出版,首次专门讲述了如何将深度学习方法,特别是深层神经网络(DNN)技术应用于语音识别(ASR)领域。 1998年即加入微软公司的俞栋,见证了翡翠之城如何在硅谷之外崛起成为美国人工智能研究集聚地的过程。 总部位于西雅图的老牌IT巨头微软从早期就开始对人工智能有比较大的投入,培养了众多在人工智能方面比较有经验的人才,如今微软旗下的人工智能及研究院事业群已经拥有五六千人,这是一个巨大的人才库。 微软的投入在几年前逐渐吸引了包括谷歌、Facebook、苹果在内的科技巨头到西雅图设立大规模的研发中心。如今,总部同样位于西雅图的亚马逊也建立了超过一千人的人工智能团队。 众多科技巨头扎堆下,西雅图对人才的吸引力越来越强,人才集聚效应使得很多专业人才都从硅谷或其他的地方转到西雅图,如今西雅图每年的流入人口非常大。 (责任编辑:本港台直播) |