第一,CNTK 比谷歌的 Tensorflow 更早开源,但是它一开始不是在GitHub上,所以了解的人也少;CNTK 当初的主要目标是服务微软人工智能的各种大数据的训练任务,他们在开源出来的时候还不知道谷歌也会做同样的事情。 第二,CNTK的性能可能是最好的。根据香港浸会大学对五大开源框架的性能测试,CNTK在小型CNN上表现一流,对于带LSTM的RNN,atv,CNTK速度最快,比其他工具好上5到10倍,可谓全面超越其它工具。多GPU卡环境下,CNTK平台在FCN和AlexNet上的可扩展性更好。
香港浸会大学对各大框架的性能评测,评测对比结果(每个mini-batch的运算时间,单位:秒)。注:FCN-S,AlexNet-S,ResNet-50,FCN-R,AlexNet-R,ResNet-56和LSTM的mini-batch大小分别为64,16,16,1024,1024,128,128。 黄学东说:“TensorFlow当然也有很多值得我们学习的地方,它的生态系统比我们好。严肃的人工智能是需要大数据来学习的,微软的工具CNTK 在大数据学习上是超一流的。” 黄学东还告诉新智元,CNTK 2.0 RC1 三月初一定会和大家见面。CNTK 2.0会充分扩展TensorFlow 的基本功能让我们的用户有更有效的选择。所以用户在选择哪一个工具将来也许不是那么重要了。因为不同的模型都可以通过 keras 或者模型转换器互相转换。比如 CNTK 2.0 将会提供 caffe 和CNTK 的转换器。TensorBoard 是谷歌的可视化工具,它也可以用来可视化CNTK。 下一步:谁能实现语义理解,谁就实现了强人工智能 黄学东介绍说,目前的语言模型难以迁移到不同的任务,通过大量正确的数据解决这一问题有一定的效果。但是究其本质,迁移问题是由于目前的语言模型缺乏语言学“头脑”,无法准确理解语义。另外,它们也不能考虑篇章结构,仅仅只涉及局部词语搭配。 同时,在一些人类听者听来难度很低或毫无难度的细微偏差,会让现有的语音识别系统的性能大幅下降。比如实际场景中可能的各种噪音,“或者是”,黄学东说,“我的湖南口音,都会使语音识别率大幅下降。人可以很快适应各种环境下的语音,机器却不能。” 黄学东也坦白说,微软的系统虽然在 Switchboard 上达到人类水平,但也不能说明在平时的应用中能达到人类水平。 黄学东认为,语音识别基本解决了,只要有足够的计算资源、有足够多的场景数据就可以做得很好。下一步,是要做好语义理解。谁能实现语义理解,谁就实现了强人工智能。 他提到了语言理解中比较有前途的一些技术方向,例如 LSTM + Attention Model + 大数据。把传统的符号系统和现代的概率系统有机的结合,是语言理解重要的研究方向之一。 黄学东说,在六七十年代传统 AI 都是符号逻辑、专家系统,直到八十年代人工智能的冬天,这些都快销声匿迹了。后来通过贝叶斯统计方法再次获得新生。为什么说下一个浪潮是两者从算法和工程上的有机结合?因为获取知识一定要理解语言,要理解语言又需要知识。在学习过程中,这两者是紧扣的。LSTM和“AttentionModel”都是人们对 RNN的改良,其中 AttentionModel是指神经网络在执行任务时知道把焦点放在何处,让神经网络在每一步都从更大的信息集中挑选所关注的信息作为输入。 黄学东认为另一个重大突破点在于怎么样把知识图谱和语言理解有机的结合起来。知识图谱包含了大量的世界知识,实体链接是实现了文本到知识的连接,是基于知识的文本语义理解的基础技术[2]。黄学东认为,关键是要把两者结合起来用深度学习方法和外部存储指导深入学习的训练,目前还没有学会怎么样有效地利用这些。 “如果计算机理解了语言,那才是真正的突破,这就是强人工智能了,它可以二十四小时学习,大大超过人类的学习效率”,黄学东说。当新智元问到微软在语言理解方面的进展,黄学东也表示,现在任务艰巨,正在努力。 语音识别的四十年,CMU语音天团的传承 (责任编辑:本港台直播) |