【新智元导读】NIPS是每年12月由NIPS基金会主办的人工智能和机器学习顶级会议,每年大会都吸引了机器学习、人工智能、统计等领域的众多国际专家前来参与。本文从NIPS 2016会议文章中精选出10篇有意思的文章,为读者解惑。 在新智元公众号回复【170331】,下载全部10篇论文 人工智能和机器学习领域的学术论文汗牛充栋。每年的各大顶级会议、研讨班录用好几千篇论文,即便是亲临现场也很难追踪到所有的前沿信息。在时间精力有限的情况下,选择精读哪些论文,开奖,学习哪些热门技术就成为了AI学者和从业人员所头痛的问题。本栏目旨在要帮助大家筛选出有意思的论文,解读出论文的核心思想,为精读提供阅读指导。 NIPS(Neural Information Processing Systems,神经信息处理系统进展大会)是每年12月由NIPS基金会主办的人工智能和机器学习顶级会议,每年大会都吸引了机器学习、人工智能、统计等领域的众多国际专家前来参与。笔者从NIPS 2016会议文章中精选出10篇有意思的文章,为读者解惑。 Using Fast Weights to Attend to the Recent Past
亮点:在Short-Term Memory、Long-Term Memory以及LSTM之外,有什么更好的Attention机制呢? 本文作者阵容豪华,有来自多伦多大学的Jimmy Ba、Google DeepMind的Volodymyr Mnih、Joel Leibo以及Catalin Ionescu,外加Geoffrey Hinton坐镇。文章一开始讲明了现在的问题,在传统的Recurrent Neural Networks(RNN)领域,有两种形式的Memory。这两种Memory形式有不一样的结构、目的和容量(Capacity)。Short-Term Memory直接通过Hidden Vector来存放信息,容量是O(H),这里H是Hidden Units的数量。而另一方面,Long-Term Memory通过现在的输入信息和Hidden Vector,来得到下一步的输出信息以及新的Hidden Vector,总共的容量是O(H2)+O(IH)+O(HO),这里I和O是输入单元以及输出单元的数量。另外一种比较传统的Long Short-Term Memory Networks(LSTM)依然只拥有O(H)的处理Short-Term Memory的能力。文章的核心是想提出一种能够更加有效地提供记忆的机制。当然,文章用了一小节从生理学的角度来讲如何有这样的启发,不过这恐怕主要想把文章的立意拔高,其实和后面的主要模型部分并没有直接的联系。简单说来,这篇文章提出的模型基于传统的RNN进行了这样的改进: 下一步的Hidden Vector来自于两个因素: 当前的Hidden Vector和当前的输入信息; 一个类似Attention机制的但这篇文章叫做Fast Weights的Matrix作用于之前的Hidden Vector。 这个Fast Weights随着时间的推移,会有一个衰减信息。 如何理解Fast Weights呢?直观来说, Fast Weights是一个Attention机制,把现在的Hidden Vector和过去的任意Hidden Vector进行比较,通过Outer Product的结果来决定Attention的强度。有了这么一种Attention机制,整个模型就能够对过去类似的记忆进行回忆,产生一个可以对近期的信息进行综合反应的效果。在稳定Fast Weights的目的下,文章还使用了Layer Normalization技术。文章的一些实验结果惊人,比如在一个人造的数据集上,模型效果能够很容易达到0错误率。而在MNIST的数据上做Visual Attention,提出的模型也能有非常不错的效果。总之,这篇文章值得泛读。对于研究Attention机制的读者来说,是一个精读的材料。 Learning Structured Sparsity in Deep Neural Networks
亮点:如何把前几年盛行的Structured Sparisity和DNN结合?这篇文章给出了思路。 这篇文章来自匹兹堡大学的研究人员,核心内容非常清晰,那就是要引入Structured Sparsity到DNN来,使得最终的DNN有一个比较紧凑的表示,加快运算速度,同时能够得到硬件友善的表现形式,让硬件能够比较快地执行。虽然之前已经有了一些工作来对DNN进行压缩,但这篇文章的作者认为,这些压缩方法(比如直接使用L1 Regularization),可能会让网络得到一些随机(Random)的链接,使得内存访问变得不常规(Iregular)。在这样的情况下,新的模型,虽然表面上有很大的Sparsity,但是并没有加快运算速度,有时候甚至还有减少。另外一种最近的思路,就是最近采用的Low-Rank Approximation方法。简单说来这种方法为先训练DNN,然后每层得到的Tensor被分解,并且被更小的Factor所替代逼近。这种方法的好处是能够达到加速,坏处则是需要最终重新Fine-Tune模型的精度。显然,这篇文章就是要解决上述缺点。文章作者把前几年火热的Structured Sparisty Learning(SSL)和DNN相结合。具体说来,就是采用了Group Lasso的方法来让DNN的参数能够结构化置0。在这篇文章里,作者采用了三种方法: 惩罚(Penalizing)不重要的Filter和Channel:把一些Filter和Channel置0; 学习任意形状的Filter:在2D空间上学习通过置0,达到学习任意形状的要求; 缩短DNN的层数:彻底移除整个层,通过增加Shortcut的方法来达到不产生断层的情况。 (责任编辑:本港台直播) |