本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【图】专访 | 顶级语音专家、MSR首席研究员俞栋:语音识别的四大前沿研究(4)

时间:2016-10-31 20:17来源:118图库 作者:118开奖 点击:
机器之心:今年,微软发布了 CNTK。您能说一下 CNTK 跟 Theano、TensorFlow、Torch、Caffe 这些工具的区别吗?以及在微软语音系统上是怎么样应用 CNTK 的? 俞栋

机器之心:今年,微软发布了 CNTK。您能说一下 CNTK 跟 Theano、TensorFlow、Torch、Caffe 这些工具的区别吗?以及在微软语音系统上是怎么样应用 CNTK 的?

俞栋:所有的这些开源工具现在都做得相当好了,都能够满足一般的研究或者是工程的需要。但是每一个开源工具都有自己的长处和弱点。CNTK 是唯一一个对 Windows 和 Linux 都有比较好的支持的深度学习工具。相比较其他工具,CNTK 对多 GPU 并行训练有更好的支持, 不仅并行效率高,而且简单易用。CNTK 对 C++的支持也是最全面的,你可以完全使用 C++来构建、训练、修改、和解模型。CNTK 版本 1 对 Python binding 支持比较弱。但是刚刚发布的版本 2.0 提供了非常强大的 Python binding。另外,CNTK 提供了许多运行效率很高的并行文件阅读模块,大大提升了并行效率。这里我想提一下,我的很多同事都对 CNTK 2.0 有很大贡献。尤其值得一提的是 Amit Agarwal,他是我见过的非常难得的优秀软件工程师和架构师,他主导设计了 CNTK2.0 的主要 API。我在他身上学到很多东西,我非常享受与他讨论的时间。

我和几个同事刚开始写 CNTK1.0 的时候,主要用户是语音识别研究员和工程师,所以 CNTK 对语音相关的模型、数据结构、和文件格式支持得相对比较好。因为语音识别系统训练数据很大,我们很早就在 CNTK 中实现了并行训练的算法。目前,微软产品线所有的语音识别模型都是用 CNTK 训练的。最近我们的语音识别系统在 SWB 数据集上能做到比专业转录员错误率还低,CNTK 对缩短我们达到这一里程碑所需的时间有很大贡献。

机器之心:您曾说过,人工智能的成功在于将多种方法的整合到一个系统。在你们最近发表的论文中,我们看到目前最新的语音识别的研究用到了多任务优化(Multitask Joint learning)以及多种模型混合(ensembles of models)的方法,能谈谈他们的优势吗?

俞栋:语音识别相对来说是一个任务比较单一而非通用的人工智能系统。语音识别的问题定义得也比较清晰。在这样的系统里面,j2直播,把深度学习模型与其他模型进行整合的重要性相对来说比较小。这也就是为什么只要你有足够的数据和运算能力,即便是完全的 deep learning end-to-end system 表现也不错。不过目前来讲,深度学习和 HMM 相结合的混合模型在大多数场景下仍然表现最佳。

语音识别中使用多任务优化的主要目的是增加模型的泛化能力或利用一些不能直接利用的辅助信息。而多种模型混合(ensembles of models)的主要目的是利用模型间的差异来增强混合后模型的表现。值得指出的是,由于深度学习模型是非线性非凸的优化问题,当初始模型不同时,最后的模型也不同。尽管这些模型的平均表现很接近,但因为他们收敛到的点不一样,模型之间仍有差异,融合这些模型也能提升一些性能。

但是更通用的人工智能系统还需要能做决策(decision-making)、要做推理、要能理解。对于这样的系统来说,单靠深度学习方法远远不够。而需要结合过去几十年里人工智能其他分支取得的一些进展,比如说增强学习、逻辑推理、知识表达、以及最优和次优搜索。还有如果我们想让一群人工智能系统自己从与环境的交互中快速寻找答案,那么诸如蚁群算法和遗传算法一类的算法就变得很重要了。

机器之心:今年您觉得在语音识别方面有哪些比较重量级的论文值得去读,能否推荐几个给我们的读者?

俞栋:除了前面提到的 LF-MMI 、 Deep CNN(包括我们最近发表的 LACE 模型)、和 Permutation Invariant Training,另外一个比较有意思的论文是 MERL 在 arXiv 上发表的一篇文章。他们结合了 CTC 和 attention-based model,利用这两个模型各自的长处来克服对方的弱点。

机器之心:您是怎么看待监督学习、半监督学习和无监督学习这三个学习方式呢?

俞栋:监督学习是比较 well-defined,有比较明确的任务。目前来讲,深度学习对这一类问题 效果比较好。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容