给定前面的三个参数,我们可以找到一些有趣的论文,如用于机器理解(Machine Comprehension)的双向注意力流(Bidirectional Attention Flow)、使用强化学习的神经架构搜索(Neural Architecture Search)以及离散变量自动编码器(Discrete Variational Autoencoders)。气泡可点击交互,链接到相应的 OpenReview 页面,Perez 还添加了一些随机抖动,以便在放大时它们能相互分开。 此外,Perez 还做了排名前 10 位的论文的可视化,排序先按照平均分数,然后按照置信度(分数是原始的平均分数)。
这里给出了排名前 10 的论文,其中第一名是《Understanding deep learning requires rethinking generalization》,这也是本届 ICLR 的最佳论文之一。 最后的论文接收分布类似于上面给出的分数直方图(阈值是在 6.5 和 6 之间):
最佳论文 这一节机器之心摘要介绍了 ICLR 2017 的三篇优秀论文(其中两篇都有谷歌参与),据官网的日程安排,大会三天每天都安排了对一篇最佳论文的宣讲。 最佳论文一:理解深度学习需要重新思考泛化(Understanding deep learning requires rethinking generalization) 论文地址:https://openreview.net/pdf?id=Sy8gdB9xx
尽管深度人工神经网络规模庞大,但它们的训练表现和测试表现之间可以表现出非常小的差异。传统的思考是将小的泛化误差要么归结为模型族的特性,要么就认为与训练过程中的正则化技术有关。 通过广泛的系统性实验,我们表明这些传统的方法并不能解释大型神经网络在实践中泛化良好的原因。具体而言,我们的实验表明一个当前最佳的用于图像分类的卷积网络(该网络是使用随机梯度方法训练的)可以轻松拟合训练数据的随机标签。这个现象在质量上不受特定的正则化的影响,而且即使我们将真实图像替换为完全非结构化的随机噪声,这个现象依然会发生。我们通过一个理论构建(theoretical construction)证实了这些实验发现,表明:只要参数的数量超过了数据点的数量(实践中常常如此),那么简单的 2 层深度的神经网络就已经有完美的有限样本表达能力(finite sample expressivity)了。 我们通过与传统模型的比较而对我们的实验发现进行了解释。 最佳论文二:基于隐私数据的深度学习半监督知识迁移(Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data) 论文地址:https://openreview.net/pdf?id=HkwoSDPgg
一些机器学习应用的训练涉及到敏感数据,如临床试验中患者的病历。而模型中可能会无意中隐含一些训练数据;因此通过仔细分析该模型就能揭露一些敏感性信息。 为了解决这个问题,我们展示了一种能为训练数据提供强健隐私保障的普适性方法:教师全体的私有聚合(Private Aggregation of Teacher Ensembles/PATE)。该方法通过黑箱的方式组合多个由互斥数据集(如用户数据的不同子集)训练的模型。因为这些模型都依赖于敏感性数据,所以它们并不会发布,但是它们还是可以作为「学生」模型的「教师」。学生在所有教师间的投票中选择学习预测输出,其并不会直接访问单一的教师或基础参数与数据。学生的隐私属性可以直观地理解(因为没有单一的教师和单一的数据集决定学生的训练),正式地即依据不同隐私训练模型。即使攻击者不仅可以访问学生,还能检查内部运行工作,直播,这一属性还将保持不变。 与以前的研究相比,该方法对教师的训练只增加弱假设条件:其适应于所有模型,包括非凸模型(如深度神经网络)。由于隐私分析和半监督学习的改进,我们的模型在 MNIST 和 SVHN 上实现了最先进的隐私/效用(privacy/utility)权衡。 最佳论文三:通过递归使神经编程架构泛化(Making Neural Programming Architectures Generalize via Recursion) 论文地址:https://openreview.net/pdf?id=BkbY4psgg (责任编辑:本港台直播) |