上周,IBM在旧金山举办的Interspeech会议(国际语音传播和技术大会)上,宣布他们实现了6.6%的错误率。这无疑让人惊叹,因为在二十年前,世界上最好的语音识别系统所能实现的最低错误率还高达43%。黄学东博士认为,“这一新的里程碑得益于过去 20 年中,各种人工智能研发团队与组织研究出的各种新技术的碰撞。” 如今,很多研究员坚信,飞速发展的技术能很快实现让计算机能像人类一样完全理解人类自己的语言。而这个场景正如微软向大家所描绘的个人计算未来图景相呼应。例如微软在Windows 10中提供的智能个人助理Cortana(微软小娜),或者是Skype Translator实时语音翻译技术,还有今年Build开发者大会上推出的包含语言及语音在内的一系列智能API服务——微软认知服务(Microsoft cognitive services)。 针对语音的研究也对微软的人工智能战略意义重大。语音识别技术更像是一个人工智能的入口,它能让计算机更准确的理解用户的需求,并作出回应。这也让构建一个能够帮助人类工作的,会听、会说、会看、会理解的智能系统愿景,不再只是空想。 IBM和微软都承认深层神经网络极大地促进了近年来语音识别技术的快速发展。过去十几年来,计算机科学家们都在努力让计算机能像人类一样看懂图像,理解语音与语言。但直到现在,这些识别系统仍存在着一些不可避免的误差。 类似于人脑,神经网络包含多级非线性处理层。从理论上说,越多的层级应该能带来越好的学习结果及准确度。但实际实验中的最大挑战是,在通过每一层级的反传训练中,反穿监督信号幅度会迅速衰减,这让整个神经网络系统的训练极为困难。去年12月,微软亚洲研究院的研究员运用了一种称之为“深层残差网络(deep residual networks)”的系统,重构了学习的过程,并重新定向了深层神经网络中的信息流,成功解决了此前深层神经网络层级与准确度之间的矛盾问题,最终赢得了ImageNet的计算机视觉挑战,并使得系统错误率低至3.57%,远低于人眼辨识的5.1%的错误率。 微软研究员们在深度学习上取得的另一个重要成就就是开源的深度学习工具包CNTK,它在面对超大规模深度学习的运算需求时,在多GPU下表现极佳。CNTK实现了复杂的最优化,极大的提高了深度学习算法的运行速度,并采用了Block Momentum并行技术,在多GPU下,可以同时保证大规模机器学习的精度和效率。 虽然GPU一开始主要用于计算机图像处理,但近几年,研究员们发现它们对于运行如语音识别和图像识别这样的复杂算法也具有显著作用。微软早已在人工智能个人助理微软小娜开发中运用了CNTK。通过结合运用CNTK和GPU群组,小娜(Cortana)现在已可以在相同时间段内接收之前10倍以上的数据。
Geoffrey Zweig 主要负责Switchboard语音识别研究的微软首席研究员及微软语音对话组的经理Geoffrey Zweig认为,公司之所以能在语音识别领域做到行业领先,主要得益于研究员们出色的专业能力。正是因为这些拥有高水准专业能力的研究员,才会让新训练算法得到发展,才会有高度优化的神经网络模型,才会实现如CNTK的各种工具的发展。“我们的研究团队拥有长期的语音技术研发经历和经验,这正推动着语音识别技术的不断发展。” Zweig说道。 对话即平台战略 黄学东博士补充说道,这次技术突破不仅是语音识别技术的里程碑,这也是微软在人工智能研究之路上的一个重要标志。微软在人工智能发展策略中关键的一环就是对话即平台(Conversation as a Platform, CaaP)战略。微软在今年的Build开发者大会上就曾强调了“对话即平台”战略。在会议中,微软CEO 萨提亚·纳德拉提到,对话即平台战略将会对未来的计算体验产生重大影响,就像当初图形用户界面所带来的影响一样——“这个概念很简单,但它带来的影响却不容小觑。这是将人类语言的力量,更普遍的应用到我们的计算体验上。” 纳德拉说道。 你也许还想看:
会听、会说、会聊天:人工智能语音技术的漫漫长路 微软小冰住进微软研究院微信啦!快去和她聊聊天吧。 (责任编辑:本港台直播) |