记者:今年,微软发布了 CNTK认知工具包。您能说一下 CNTK 跟 Theano、TensorFlow、Torch、Caffe 这些工具的区别吗?以及在微软语音系统上是怎么样应用 CNTK 的? 俞栋:所有的这些开源工具现在都做得相当好了,都能够满足一般的研究或者是工程的需要。但是每一个开源工具都有自己的长处和弱点。CNTK 是唯一一个对 Windows 和 Linux 都有比较好的支持的深度学习工具。对比其他工具,CNTK 对多 GPU 并行训练有更好的支持, 不仅并行效率高,而且简单易用。CNTK 对 C++的支持也是最全面的,你可以完全使用 C++来构建、训练、修改、和解码模型。CNTK 版本 1 对 Python binding 支持比较弱。但是刚刚发布的版本 2.0 提供了非常强大的 Python binding。另外,CNTK 提供了许多运行效率很高的并行文件阅读模块,大大提升了并行效率。这里我想提一下,我的很多同事都对 CNTK 2.0 有很大贡献。尤其值得一提的是 Amit Agarwal,他是我见过的非常难得的优秀软件工程师和架构师,他主导设计了 CNTK2.0 的主要 API。我在他身上学到很多东西,我非常享受与他讨论的时间。 我和几个同事刚开始写 CNTK1.0 的时候,主要用户是语音识别研究员和工程师,所以 CNTK 对语音相关的模型、数据结构、和文件格式支持得相对比较好。因为语音识别系统训练数据很大,我们很早就在 CNTK 中实现了并行训练的算法。目前,微软产品线所有的语音识别模型都是用 CNTK 训练的。最近我们的语音识别系统在 SWB 数据集上能做到比专业转录员错误率还低,。
微软首席语音科学家黄学东和他的团队。后排左起:Wayne Xiong, Geoffrey Zweig, Frank Seide;前排左起:黄学东, Dong Yu, Mike Seltzer, Jasha Droppo,Andreas Stolcke;摄影:Dan DeLong 记者:您曾说过,人工智能的成功在于将多种方法的整合到一个系统。在你们最近发表的论文中,我们看到目前最新的语音识别的研究用到了多任务优化(Multitask Joint learning)以及多种模型混合(ensembles of models)的方法,能谈谈各自的优势吗? 俞栋:相对来说,语音识别是一个任务比较单一而非通用的人工智能系统,语音识别的问题定义得也比较清晰。在这样的系统里面,把深度学习模型与其他模型进行整合的重要性相对来说比较小。这也就是为什么只要你有足够的数据和运算能力,即便是完全的 deep learning end-to-end system 表现也不错。不过目前来讲,深度学习和 HMM 相结合的混合模型在大多数场景下仍然表现最佳。 语音识别中使用多任务优化的主要目的,是增加模型的泛化能力或利用一些不能直接利用的辅助信息,而多种模型混合(ensembles of models)的主要目的是利用模型间的差异来增强混合后模型的表现。值得指出的是,由于深度学习模型属于非线性非凸的优化问题,当初始模型不同时,最后的模型也不同。尽管这些模型的平均表现很接近,但因为它们收敛到的点不一样,模型之间仍有差异,融合这些模型也能提升一些性能。 更通用的人工智能系统还需要能做决策(decision-making)、要做推理、要能理解。对于这样的系统来说,单靠深度学习方法远远不够,而要结合过去几十年里人工智能其他分支取得的一些进展,比如说增强学习、逻辑推理、知识表达以及最优和次优搜索。还有,如果我们想让一群人工智能系统自己从与环境的交互中快速寻找答案,那么诸如蚁群算法和遗传算法一类的算法就变得很重要了。 记者:今年您觉得在语音识别方面有哪些比较重量级的论文值得关注? (责任编辑:本港台直播) |