:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。 简历投递:j[email protected] HR 微信:13552313024 新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。 加盟新智元,与人工智能业界领袖携手改变世界。 【新智元导读】本文是对2016年深度学习领域的进展的综述和回顾,介绍了2016年该领域的一些重要研究成果,包括无监督学习、增强学习、生成对抗网络等,以及产业中的合作与并购,硬件和芯片方面的新动作等。本文既是回顾,也是展望,这些领域在已经开始的2017年将有什么新发展,令人期待。 在新智元微信公众号回复170103,可下载本文提到的全部论文。 一般意义上的人工智能,以及深度学习,其成功受到三个因素的影响。首先,有可用的计算能力和架构,例如快速的GPU,云服务提供商,以及工具(Tensorflow,Torch,Keras等);其次,有数量大、质量高的训练数据;以及第三,有使用训练数据,在硬件上运行的算法(CNN,LSTM,SGD)。深度学习的每一个新的发展或者进步背后,都来源于这三个因素中某一个的进步。 无监督与增强学习 2016年深度学习的许多进展是由于前两个因素的进步。我们现在已经拥有与人类水平相当的图像和语音识别系统,而且有相当丰富的数据,有各种工具可以开发这些系统。然而,几乎所有这些系统都依赖于监督学习,进一步依赖于有标记数据集的可用性。我们在2016年看到的许多革命性的成果,无论是医学成像、自动驾驶汽车还是机器翻译,也都指出一个事实,即沿着数据和计算能力的轴移动将导致边际回报减少。 这意味着,最大的好处化可能来源于第三个条件的推动,即开发能够从原始的未标记的数据,例如视频或文本中学习的算法。2016年这方面的研究取得了一些重要进展,。 深度增强学习 对于深度增强学习,Andrej Karpathy做过一个很好的概述:。 其基本的设置很简单:我们有一个代理,可以执行一系列可允许的动作,其导致的结果是由奖励函数判断给予奖励或惩罚。让我们来看这个乒乓球小游戏,这里一个代理有两个可行的动作,向上或向下,其结果是球是否被挡回或代理错过了球,根据结果代理会得到奖励或惩罚。
乒乓球代理 解决增强学习问题的目前最先进的方法是策略梯度(Policy Gradients),它与蒙特卡罗树搜索(Monte Carlo Tree Search)一起被DeepMind用于AlphaGo。与人们可能认为的相反,策略梯度非常直接,网络接收一定数量的游戏数据作为输入,包括帧序列、代理采取的动作和结果(赢/输),然后应用反向传播更新网络参数,使引向赢的结果的动作比引向输的结果的动作概率更大。
RL的成功以及它不需要高昂的标记数据这一事实也使得网络架构方面得到推进,引入了一系列的模拟平台,例如 OpenAI 的 gym / universe 平台,还有 DeepMind 与暴雪公司合作,发布了作为模拟环境的《星际争霸2》。现在任何人都可以在 GTA V 平台上训练他们的自动驾驶算法,这是增强学习在现实世界中应用和推广的重要一步。 然而,RL圈子的研究人员提出警告,学习玩游戏并不是通往更广泛的 AI 的直接路径。Hal Daume 在Whence your reward function?一文中提出,游戏提供了简单、明确的奖励函数和频繁的小奖励,这些奖励同时把人类和机器指向正确的方向,上述的乒乓球游戏就是一个很好的例子。然而,如果你想训练一个工业级的机器人,这种 “good boy” / “bad boy” 的奖励只在10亿帧结束后分配,直播,而积极的奖励只有在较大的动作空间里一系列复杂的行动结束后才能得到?Hal 的文章提出了一些解决方案,我们期待2017年及之后在算法层面取得进展。这方面的一个重要成果是 DeepMind JX Wang 等的论文 Learning to Reinforcement Learn,作者提出深度元增强学习(deep meta-reinforcement learning)的方法,使得RL方法能够快速适应新任务,从而减少训练算法对新任务所需的数据量。 生成模型 (责任编辑:本港台直播) |