注意前面的段落将Rademacher的复杂性与优化的动态联系起来,而不仅仅是假设集合。 这是因为在任何优化阶段(例如在SGD的步骤),算法可以随后探索的假设集合相对于算法拥有的当前假设是有限的。 有一个演变的上限,算法永远不会跳出,因为它需要“最小化”。 这个演化假设集合被称为“子水平假设集合”,这是为什么实际的Rademacher复杂性与优化过程一起演化,而不是如本文或来自社区的大多数理论论文那样假设是静止的 。 请注意,这一切适用于正确的标签或随机标签。 到目前为止,直播,我认为深度学习的从业者可以安全地忽略文章中的可能含义,因为你的问题不是泛化的问题 - 这还没有被证明是真实的,因为论文没有把优化动态 与复杂性测量结合起来思考,也没能描述随机标签问题和正确标签问题之间的区别,所以结果没有任何意义。这些内容在之前的研究中是被讨论的,因此我认为“重新思考泛化”这一标题对于曾经写过这方面论文的人是有点不公平的。 下面是关于随机标签问题和正确标签问题之间区别的一点“武断”的说法。 有一个定理,我想提一下,以激励更多关于正确标签和随机标签之间的优化差异的讨论。 它是Talagrand的收缩法。 它可以用于将Rademacher复杂度R(F(G))与 L*R(G)绑定,其中 F(G) 是复合函数 h(g)的集合,其中h中的h和G中的g, 而L是H中函数的最可能的Liptchitz常数。 注意,“深度”学习模型基本上是函数组成。因此,Talagrand的辅助定理意味着你的深度学习模型的泛化界限的质量取决于函数组成是否具有小于1的Liptchitz常数(即“收缩”)。我希望有人可以进一步思考的猜想是,凭借正确的标签,在最终的优化阶段,你可以很容易地获得约定函数组成,但不带随机标签,因为前者假定分类有意义的空间存在某些平滑。 >>关于第 5 部分的一些讨论 匿名用户1:论文非常激动人心,但对于第5部分我有几个问题,希望你们能解答。 (1)你们指出,由SGD解决的线性模型的解决方案在于数据点的跨度,假定初始点为零。 但这不仅只适用于SGD, 许多其他一阶方法也是这样,不是吗? 本部分所有与SGD相关的分析都适用于许多其他一阶方法。所以这组实验几乎不能支持您的SGD作为隐式regularizer的观点 。 (2) 你们声称,SGD通常会收敛到最小范数的解,但我认为这主要是因为初始点设置为零。 如果任何局部最小化方法从零开始,则它将收敛到接近零(最小范数解)的局部最小值。 我同意SGD可能隐式正则化一个模型,但我认为显示在这组实验中的隐含正则化的效果可能/主要是因为选择零为初始点。 匿名用户2:我看不出第5部分与论文的其余部分有何关系。 你们说:“研究线性模型的简化案例,得到一些相关的见解,对我们更好地理解神经网络是有帮助的。” 但我在本节中没有看到任何相关的见解。 论点似乎是SGD做一些隐式正则化。 之前已经证明,SGD通过找到“更平坦”的最小值隐含地正则化。 你们似乎建议SGD也可能通过寻找一个最小 l2 范数解法隐式正则化,但之后你们的实验结果表明并非如此—— 1. l2-正则化只给出了很小的改进; 2. 小波预处理提高了性能,但增加了l2范数 【编注】关于这篇“重新理解泛化”的文章,Open Review 网站上还有更多的讨论。实际上,这篇文章也可以算是近来“最受争议的最佳论文”——了解更多,请参见新智元此前的报道 会议日程 ICLR 2017 将于 4 月 24 日星期一开始,到 26 号结束。每天分上午下午两场。每场形式基本一样,先是请来的人发表演讲(invited talk),然后是讨论,也是被选为能够进行口头发表(Oral)的论文、茶歇、海报展示(poster)。 ICLR 2017 似乎是在力推深度学习领域各界的新锐,从受邀讲者名单看,几乎可以感受到一缕春风。不仅如此,由于聚焦的是深度学习,会议关注的内容也更为有针对。 - 无监督、半监督和监督的表示学习 - 规划和强化学习的表示学习 - 度量学习和内核学习 - 稀疏编码和维度扩展 - 分层模型 - 表征学习的优化 - 学习输出或状态的表征 - 实施问题、并行化、软件平台和硬件 - 视觉、音频、语音、自然语言处理、机器人、神经科学或任何其他领域的应用 下面是具体的日程。 24 号 上午 (责任编辑:本港台直播) |