摘要:在训练深度神经网络上,dropout 已经通过独立地使神经元的随机输出归零而取得了巨大的成功。它也在浅度学习(shallow learning)上引起了人们的兴趣,比如 logistic 回归。但是 dropout 的独立采样在用于收敛时可能并不是最优的。在这篇论文中,我们提出了用于 dropout 的多项采样(multinomial sampling),即基于不同特征/神经元的不同概率的多项分布来采样特征或神经元。为了展现出最优的 dropout 概率,我们使用多项 dropout 分析了浅度学习并建立了随机优化的风险边界(stochastic optimization)。通过最小化风险边界中一个独立于采样的因素,我们获得了独立于分布的 dropout,其带有依赖于该数据分布的二阶统计的采样概率。为了解决这种深度学习中神经元的演化分布的问题,我们提出了一种有效的自适应 dropout(名为 evolutional dropout),其可以根据 mini-batch 样本在传输过程中计算该采样分布。在多个基准数据集上的实验表明我们提出的这种 dropout 不仅能实现远远更快的收敛,而且还比标准 dropout 有更小的测试误差。比如说,在 CIFAR-100 数据上,相比于标准的 dropout,atv,该 evolutional dropout 在预测表现上实现了相对超过 10% 的提升,而在收敛速度上的提升则超过了 50%。 9.Single Pass PCA of Matrix Products:解决了大矩阵 PCA 分解问题 ★★★ 论文地址:https://papers.nips.cc/paper/6075-single-pass-pca-of-matrix-products.pdf 视频地址:https://www.youtube.com/watch?v=Ir4-eNz6tOw&feature=youtu.be 开源地址:https://github.com/wushanshan/MatrixProductPCA 摘要:在本论文中,我们提出了一种用于仅使用两个矩阵 A 和 B 的单次通过来计算乘积 [Image: https://dx903567.quip.com/-/blob/YPDAAA37MfL/XBWTd3tni6shFkdMNmR4xw] 的低秩近似(low rank approximation)的新算法。实现这种方法的直接方法是(a)首先单独描绘(sketch)A 和 B,(b)然后在该 sketch 上使用 PCA 来寻找顶部成分(top components)。和其它算法相比,我们的算法保留了关于 A 和 B 的附加概要信息(如,行和列的规范等),并使用了这种额外的信息来获取来自这些 sketch 的更好的近似。我们的主要分析结果为已有的双通道方法建立了一个可比较的谱范数保证(spectral norm guarantee);此外,我们还提供了一个 Apache Spark 的实现结果,其在真实世界的和合成的评估数据集上都实现了更好的计算和统计表现。 10.Convolutional Neural Fabrics:抽象化 CNN,学习网络结构 ★★★★ 论文地址: 视频地址:https://www.youtube.com/watch?v=bqPJFQEykbQ 尽管 CNN 已经取得了很大的成功,但为特定的任务选择出最优的架构仍然还是一个悬而未决的问题。我们的目标并不是选择出单个的最优架构,我们提出了一种嵌入了非常大量的架构的「fabric」。该 fabric 由 3D 网格构成,这些网络将不同层、规模和信道的响应图(response maps)与一个稀疏的均匀的局部连接模式(sparse homogeneous local connectivity pattern)连接到了一起。一个 fabric 仅有的超参数就是信道和层的数量。当单个架构可以被作为路径(path)而恢复时,该 fabric 可以额外地将所有嵌入的架构组合到一起,在它们的重叠路径上共享它们的权重。参数可以使用基于反向传播的标准方法进行学习,但会有 fabric 大小上的线性扩展性的成本。我们给出了在 MNIST 和 CIFAR10 的图像分类任务上、以及在 Part Labels 数据集的语义分割任务上的可与当前最佳表现媲美的基准结果。 11.Learning Deep Embeddings with Histogram Loss:提出无参的 Histogram loss 进一步优化深度模型特征嵌入;★★★ 论文地址:https://arxiv.org/pdf/1611.00822v1.pdf 视频地址:https://www.youtube.com/watch?v=FMtfi7mpirY&feature=youtu.be 摘要:我们提出了一种学习深度嵌入的损失函数. 这个新的损失函数没有引入需要调试的参数以及在一系列数据组和问题上非常好的嵌入结果。该函数的计算方法是评估两个相似性的分布(针对正匹配和负匹配的样本对),然后基于一个评估的相似性分布,计算正匹配的概率,获取一个比负匹配更加低的相似性得分。我们表明,这一操作能够使用带有软分配操作的 1D 柱状图,以一种简单、分段-可微分的方式进行。这样就得到了适合使用随机优化学习深度嵌入的损失函数,在实验中,较之近期提出的替代方案,新函数表现地很有前途。 12.Tagger: Deep Unsupervised Perceptual Grouping 很有料的文章,另外视频很赞,建议授予「最佳视频奖」:) ★★★★★ 论文地址:https://arxiv.org/pdf/1606.06724v2.pdf (责任编辑:本港台直播) |