wzatv:【j2开奖】NIPS十大机器学习论文精选，从注意力机制到集成学习（附下载）_本港台直播_J2开奖直播

　　【新智元导读】NIPS是每年12月由NIPS基金会主办的人工智能和机器学习顶级会议，每年大会都吸引了机器学习、人工智能、统计等领域的众多国际专家前来参与。本文从NIPS 2016会议文章中精选出10篇有意思的文章，为读者解惑。

　　在新智元公众号回复【170331】，下载全部10篇论文

　　人工智能和机器学习领域的学术论文汗牛充栋。每年的各大顶级会议、研讨班录用好几千篇论文，即便是亲临现场也很难追踪到所有的前沿信息。在时间精力有限的情况下，选择精读哪些论文，开奖，学习哪些热门技术就成为了AI学者和从业人员所头痛的问题。本栏目旨在要帮助大家筛选出有意思的论文，解读出论文的核心思想，为精读提供阅读指导。

　　NIPS（Neural Information Processing Systems，神经信息处理系统进展大会）是每年12月由NIPS基金会主办的人工智能和机器学习顶级会议，每年大会都吸引了机器学习、人工智能、统计等领域的众多国际专家前来参与。笔者从NIPS 2016会议文章中精选出10篇有意思的文章，为读者解惑。

　　Using Fast Weights to Attend to the Recent Past

wzatv:【j2开奖】NIPS十大机器学习论文精选，从注意力机制到集成学习（附下载）

　　亮点：在Short-Term Memory、Long-Term Memory以及LSTM之外，有什么更好的Attention机制呢？

　　本文作者阵容豪华，有来自多伦多大学的Jimmy Ba、Google DeepMind的Volodymyr Mnih、Joel Leibo以及Catalin Ionescu，外加Geoffrey Hinton坐镇。文章一开始讲明了现在的问题，在传统的Recurrent Neural Networks（RNN）领域，有两种形式的Memory。这两种Memory形式有不一样的结构、目的和容量（Capacity）。Short-Term Memory直接通过Hidden Vector来存放信息，容量是O(H)，这里H是Hidden Units的数量。而另一方面，Long-Term Memory通过现在的输入信息和Hidden Vector，来得到下一步的输出信息以及新的Hidden Vector，总共的容量是O(H2)+O(IH)+O(HO)，这里I和O是输入单元以及输出单元的数量。另外一种比较传统的Long Short-Term Memory Networks（LSTM）依然只拥有O(H)的处理Short-Term Memory的能力。文章的核心是想提出一种能够更加有效地提供记忆的机制。当然，文章用了一小节从生理学的角度来讲如何有这样的启发，不过这恐怕主要想把文章的立意拔高，其实和后面的主要模型部分并没有直接的联系。简单说来，这篇文章提出的模型基于传统的RNN进行了这样的改进：

　　下一步的Hidden Vector来自于两个因素：

当前的Hidden Vector和当前的输入信息；

一个类似Attention机制的但这篇文章叫做Fast Weights的Matrix作用于之前的Hidden Vector。

　　这个Fast Weights随着时间的推移，会有一个衰减信息。

　　如何理解Fast Weights呢？直观来说， Fast Weights是一个Attention机制，把现在的Hidden Vector和过去的任意Hidden Vector进行比较，通过Outer Product的结果来决定Attention的强度。有了这么一种Attention机制，整个模型就能够对过去类似的记忆进行回忆，产生一个可以对近期的信息进行综合反应的效果。在稳定Fast Weights的目的下，文章还使用了Layer Normalization技术。文章的一些实验结果惊人，比如在一个人造的数据集上，模型效果能够很容易达到0错误率。而在MNIST的数据上做Visual Attention，提出的模型也能有非常不错的效果。总之，这篇文章值得泛读。对于研究Attention机制的读者来说，是一个精读的材料。

　　Learning Structured Sparsity in Deep Neural Networks

wzatv:【j2开奖】NIPS十大机器学习论文精选，从注意力机制到集成学习（附下载）

　　亮点：如何把前几年盛行的Structured Sparisity和DNN结合？这篇文章给出了思路。

　　这篇文章来自匹兹堡大学的研究人员，核心内容非常清晰，那就是要引入Structured Sparsity到DNN来，使得最终的DNN有一个比较紧凑的表示，加快运算速度，同时能够得到硬件友善的表现形式，让硬件能够比较快地执行。虽然之前已经有了一些工作来对DNN进行压缩，但这篇文章的作者认为，这些压缩方法（比如直接使用L1 Regularization），可能会让网络得到一些随机（Random）的链接，使得内存访问变得不常规（Iregular）。在这样的情况下，新的模型，虽然表面上有很大的Sparsity，但是并没有加快运算速度，有时候甚至还有减少。另外一种最近的思路，就是最近采用的Low-Rank Approximation方法。简单说来这种方法为先训练DNN，然后每层得到的Tensor被分解，并且被更小的Factor所替代逼近。这种方法的好处是能够达到加速，坏处则是需要最终重新Fine-Tune模型的精度。显然，这篇文章就是要解决上述缺点。文章作者把前几年火热的Structured Sparisty Learning（SSL）和DNN相结合。具体说来，就是采用了Group Lasso的方法来让DNN的参数能够结构化置0。在这篇文章里，作者采用了三种方法：

惩罚（Penalizing）不重要的Filter和Channel：把一些Filter和Channel置0；

学习任意形状的Filter：在2D空间上学习通过置0，达到学习任意形状的要求；

缩短DNN的层数：彻底移除整个层，通过增加Shortcut的方法来达到不产生断层的情况。

(责任编辑：本港台直播)