wzatv:【j2开奖】讲堂|黄学东：微软是如何利用人工智能技术做好语音识别的_本港台直播_J2开奖直播

wzatv:【j2开奖】讲堂|黄学东：微软是如何利用人工智能技术做好语音识别的

前不久，微软人工智能及微软研究事业部技术院士、微软首席语音科学家黄学东博士，作为清华大学的校友在母校举办了一场讲座，为大家回顾了微软在人工智能领域的最新成就，并详细解释了微软是如何使用微软认知工具包CNTK在语音识别和机器翻译研究中取得最新进展的。

想知道微软语音识别技术达到人类专业水平背后的惊天大秘密么？快来一起听听黄学东博士的分享。

视频由学堂在线提供

今天我想给大家分享一下微软在人工智能领域取得的一些最新突破，也分享一下我们在20多年的历程中，是怎样持之以恒取得这些突破的。

先看看今年《经济学人杂志》的封面故事——我们终于可以和机器讲话了。里面有一个很有名的图表总结了整个领域从1954年IBM科学家第一次进行机器翻译的探索，到2016年微软第一次在会话语音识别上达到人类水平的历史性突破。

wzatv:【j2开奖】讲堂|黄学东：微软是如何利用人工智能技术做好语音识别的

在几十年的历程中，有非常多优秀的公司在语音和语言领域进行了不懈地探索，终于在今天，达到了和人一样精准的语音识别，这是非常了不起的历史性突破。

1982年我在清华做硕士论文时，做的就是语音识别。硕士毕业读博士时，我在计算机系方棣棠先生的带领下，继续做这方面的研究。很难想象在我的有生之年，我们能让计算机语音识别可以达到如此精准的水平。所以想跟大家分享一下，我们是怎样追求这个梦想，持之以恒，通过不懈的努力达到历史性突破的。

近两年人工智能受到热议，其实人工智能包括了两个主要的类别以及三个主要的因素：

第一，平台。比如我要到清华演讲，一定会有个场地，有一个舞台，而这个舞台就相当于计算。今天的计算通过英特尔、英伟达等公司的不懈努力和1982年我们在苹果、IBM PC/XT上面做的语音识别是有天壤之别的。当时我们在IBM PC/XT上用了德州仪器公司的TMS320，我还用汇编语言在上面写了第一个开发程序。如今，要做先进的语音识别训练也需要GPU，这和当年的TMS320有异曲同工之妙。这是第一，要有一个平台。

第二，数据。我在这里讲话要有氧气。人工智能和语音识别也是一样的，要有大数据才能把算法做得精准。

第三，算法。算法很重要，要有内容。

这三点，缺一不可。

再来人工智能包括感知和认知这两大块。可以毫无疑问地说，在感知这个领域，人工智能已经几乎达到人类同样的水平，但这当然是在特定任务的情况下。在认知领域，包括自然语音理解、推理、知识学习等，我觉得还差的很远。所以大家在说人工智能达到了前所未有的高度时，一定要搞清楚，说的是在认知领域还是在感知领域。

下面让我们来看看微软在人工智能领域所取得的一些成果。首先，微软有二十多年的积累，微软研究院在建院时的第一个愿景就是希望让计算机能听、能看、能说、能够学习。这和现在人工智能所发展的方向以及能做到的工作基本上是一模一样。

2015年，微软亚洲研究院率先在计算机视觉领域有了很大的突破。研究员们在当年的ImageNet图像识别挑战赛中使用了神经网络有152层的深度学习，atv，这是非常了不起的突破。而去年微软在语音识别的Switchboard上再次取得重大突破，使得计算机的语音识别能力超过世界上绝大多数人，与人类专业高手持平。

语言是人类特有的交流工具。今天，计算机可以在假定有足够计算资源的情况下，非常准确地识别你和我讲的每一个字，这是一个非常大的历史性突破，也是人工智能在感知上的一个重大里程碑。

所以，我想简单回顾一下语音识别的发展历程。几年前我和James Baker，Raj Reddy合写了一篇文章。Raj Reddy是图灵奖得主，James Baker是第一个用马尔可夫模型做语音识别的人，当年创建了Dragon公司并一直担任CEO，我最年轻。所以文章可以说表达了我们三代人在语音领域过去40年里的一些追求。虽然文章发表在两年前，但现在看里面讲的很多东西已经过时了，因此可以看出这个领域的进展有多么神速。

wzatv:【j2开奖】讲堂|黄学东：微软是如何利用人工智能技术做好语音识别的

(责任编辑：本港台直播)