编译:刘小芹 弗格森 新智元启动 2017 最新一轮大招聘:。 新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。加盟新智元,与人工智能业界领袖携手改变世界。 简历投递:j[email protected] HR 微信:13552313024 【新智元导读】深度学习力量强大,但无论是理论研究者还是实际从业者,了解深度学习的局限也是十分重要的。耶路撒冷希伯来大学的一组研究人员,其中有两位任职于 Mobileye,发表了论文及演讲,介绍了深度学习4个常见问题,这些都是基于梯度的算法可能失败或很难解决的,特别是因为几何原因。 在新智元公众号回复【深度学习局限】下载论文和ppt 近年来,atv,深度学习已经成为了大量应用转型的解决方案,经常有“超越最好水平”的性能出现,但是,对于理论研究者和实践者来说,获得对一般深度学习方法和算法的更深度的理解,是极其重要的。我们描述了四种简单的问题,每一种问题,深度学习中经常使用的基于梯度的算法通常都是失败的,至少也会面临显著的困难。通过具体的实验,我们勾勒出了这些失败,并提供了用于解释这些失败形成原因的理论分析,最后,给出可能的补救方案。
深度学习:了解它的失败与了解成功同等重要 深度学习在许多应用上取得成功,并获得最优的性能,涵盖的领域包括计算机视觉,声音和自然语言的处理与生成,以及机器人学,等等。这些成功通过许多有效的“技巧”实现甚至超越,例如不同的优化算法,参数调优方法,初始化方法,架构设计,损失函数,数据增强,等等。 目前对深度学习的理论认识还远远不足以对实践者遇到的困难进行严谨的分析。理论与实践都需要进步:从实践者的角度看,强调深度学习的困难为理论家提供了实用的启发,反过来,理论家也提供理论观点和保证,进一步加强了实践上的直观经验。特别需要强调的是,了解现有算法的失败,与了解它们的成功同等重要。 本文的目标是介绍和讨论一些简单的问题,在这些问题中,常用的深度学习方法没有表现出预期的性能。我们使用经验结果和见解作为理论分析的基础,并描述失败的根源。这些理解有时引出不同的方法,例如架构,损失函数或优化方法,并在适用某个局限时解释其优势。有趣的是,在我们的实验中,失败的原因似乎与驻点(stationary point )问题无关,例如虚假局部最小值(spurious local minima)或过多的鞍点(saddle points),这是近期引起讨论的话题。失败的原因是更小的一些问题,与梯度的信息量,信噪比,条件化等有关。所有代码可以在线获取。 从论文的第2节开始,我们讨论一类简单的学习问题。我们都知道梯度信息(gradient information)是深度学习算法的核心,但我们的实践表明,梯度信息对这类问题中我们尝试学习的目标函数来说可以忽略不计。 这个结果是学习问题本身的一个属性,并且适用于任何可选的用于解决学习问题的特定网络架构,这意味着基于梯度的方法都不可能成功。我们的分析以来统计查询文件中的工具和观点,并强调了深度学习的主要缺陷之一:深度学习依赖损失函数的局部特征,但局部特征并不代表全局。 接下来,在第3节中,我们解决了两种常见的学习方法之间存在的持续争议。大部分学习和优化问题可以被看作是一些结构化的子问题集合。第一种方法,我们称之为“端到端”方法,通过优化单一的主要目标来一次性解决所有的子问题。第二种方法,我们称之为“分解”(decomposition)方法,通过定义和优化附加目标来解决每个问题,而不仅是优化一个主要目标。端到端方法的好处是要求的标签和先验知识都更少,而且能带来更有表现力的结构,其优点不能忽视。另一方面,从直觉和经验来说,分解方法的额外监督有助于优化过程。我们尝试了一个简单的问题,应用这两种方法都可以,它们之间的区别清晰直观。我们观察到,端对端方法比分解方法慢得多,但随着问题规模变大,二者差距不大。我们从理论和实证的角度分析了这一差距,发现梯度与端对端方法相比更为嘈杂,信息量更少,与分解方法相反,这解释了实际性能上的差异。 (责任编辑:本港台直播) |