CNTK 和其他的开源软件最大的不一样,是它能做大规模、分布式深度学习,性能体验也非常好。一般开源软件只能在一台4 个GPU 的电脑上运行。但CNTK 在64 台机器上运行都没问题,是真正的大规模、分布式的深度学习开源软件。我们今天能刷新语音识别纪录,真是归功于CNTK 这个开源工具。 CNTK 是我们的“秘密武器”。我们把秘密武器开源了,但在里面装什么样的子弹、弹药,你自己决定。 事实上微软是开源最大的贡献者,可以称为“无名英雄”。我们将时间和精力全部投入在创新最优秀的技术,服务于我们的客户。Switchboard词错率创新低不是谁都可以做出来的,这体现了微软在人工智能技术、深度学习技术上二三十年的积累。 记者:在整个人工智能布局上,您认为语音识别的定位是怎样的? 黄学东:就像我们在跟人讲话的时候把他的嘴去掉,或者把他耳朵去掉,语音识别对人工智能是非常重要的。当然脑子最重要,人工智能就像孟子讲,“劳心者治人,劳力者治于人。”有脑子、能推理,能理解周围的环境、能了解人心,有EQ、有IQ,这才是最强大的。 人工智能最重要的是要有知识,能理解语言,能帮助人沟通,能推理、能分析大数据,能得出最优秀的结论。最后能做梦,那才了不起。语音识别是把音频转换成文字的过程,这个过程相当复杂,体现了人工智能今天最优秀的技术能达到的水平。 图象识别也是类似都是从A 到B 转换的学习。到了理解语言、理解语义、深刻地领会意思,就不再是简单的A 到B 的映射过程。因为语意没有音义,我讲了一句话具体是什么意思?你要把它翻译成文字定义是非常清楚的,但意义每个人都有不同的理解。这才是人工智能最核心的关键。 通过语音识别做机器翻译,开奖,或是通过计算机视觉技术描述图像,只是做到了Perception(感知)。人工智能不仅仅要有感知,还要有认知(Cognition),这才到了高级阶段。除了认知还要有情感(Emotional Intelligence),这是更高级的,是“劳心者”了。我觉得人工智能最高级阶段是要“劳心”,不仅仅要感知,要有认知,还要“心知”。“知心”最难,人都不一定能达到这个水平。 现在人工智能最优秀的进步是在感知阶段,包括语音识别,视觉图像识别等等。目前机器翻译还是从A 到B 的转换,对语意的理解非常肤浅。认知现在还没有大的突破,“心知”就更没有戏了。 不知道这是不是太悲观,但我们还在感知和认知的过渡阶段。感知这个门槛基本上会进步非常快。今后两年,语音识别的水平基本上是没有问题。然后下一步大的任务是认知,自然语音的理解、语意的理解和知识的积累。别小看这个东西,如果能理解语言,人工智能会很强大,它可以读世界上所有的教科书、所有的文章。 现在没有一个机器人能把世界所有海量的知识,各个语言、各个国家、新闻、报纸、教科书所有东西都积累起来。当然,现在通过搜索引擎要查什么就可以查什么,但它并没有理解,只是把文字摘下来。有了什么都能理解的人工智能,它就像爱因斯坦一样聪明,上知天文、下知地理,从海洋到物理到数学,什么都知道。 但这个路途还相当遥远,即使要做好了,无非是IQ 很高了,可是离EQ 还很远。
后排左起:Wayne Xiong, Geoffrey Zweig, Frank Seide;前排左起:黄学东, Dong Yu, Mike Seltzer, Jasha Droppo,Andreas Stolcke;摄影:Dan DeLong 你可能还想看:
微软研究院AI头条期待你的评论与投稿。 微软小冰住进微软研究院AI头条微信啦!快去和她聊聊天吧。 (责任编辑:本港台直播) |