本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】DeepMind 让AI 拥有记忆并实现序列学习,AlphaGo 一周年技术盘点(2)

时间:2017-03-16 01:54来源:118论坛 作者:开奖直播现场 点击:
神经网络由多个连接组成,其连接方式与大脑神经元的连接方式非常相似。在学习一个任务后,我们计算每个连接对该任务而言的重要程度。 在学习一个

  神经网络由多个连接组成,其连接方式与大脑神经元的连接方式非常相似。在学习一个任务后,我们计算每个连接对该任务而言的重要程度。在学习一个新任务时,根据每个连接对旧任务的重要程度,每个连接被保护以免受修改。因此,神经网络可以学习新任务而不重写在先前任务中已经学会的内容,并且不会导致显着的计算成本增加。从数学的角度来说,我们可以把在一个新任务中每个连接所附加的保护比作弹簧,弹簧的强度与连接的重要性成比例,因此,我们把该算法称为“弹性权重固化”(Elastic Weight Consolidation,EWC)

  为了测试我们的算法,我们依次让代理接触一个个不同的 Atari 游戏。光是根据游戏得分学会玩一个游戏已经是一项很有挑战性的任务了,要依次学会多个游戏的难度更高,因为每个游戏所需的策略都是不同的。如下图所示,如果没有 EWC,代理会在每个游戏停止播放后(蓝色)快速忘记这些游戏的内容。这意味着,平均而言,代理几乎不会学习单个的游戏。然而,如果我们使用 EWC(棕色和红色),代理不会轻易忘记,并可以一个接着一个地学会玩几个游戏。

  

报码:【j2开奖】DeepMind 让AI 拥有记忆并实现序列学习,AlphaGo 一周年技术盘点

  

报码:【j2开奖】DeepMind 让AI 拥有记忆并实现序列学习,AlphaGo 一周年技术盘点

  现在,计算机程序还不能自适应地、实时地从数据里学习。然而,我们的研究表明,灾难性遗忘不是神经网络的不可逾越的挑战。我们希望这项研究是朝着更加灵活有效的学习迈出的重要一步。

  此外,我们的研究也推进了对人类大脑中信息固化的理解。事实上,我们的工作所基于的神经科学理论在非常简单的例子中已经得到了证实。我们的研究表明,这些相同的理论可以应用在更现实和复杂的机器学习环境中。我们认为,突触巩固是保留记忆和专门知识的关键,也希望大家对这一看法予以更多思考。

  论文:克服神经网络灾难性遗忘的问题

  我们可以看看 DeepMind 这篇 PNAS 论文的摘要,相信能够帮你更好地理解这项研究。

  

报码:【j2开奖】DeepMind 让AI 拥有记忆并实现序列学习,AlphaGo 一周年技术盘点

摘要

  以顺序方式学习任务的能力对发展人工智能至关重要。直到现在,神经网络还不具备这种能力,业界也广泛认为灾难性遗忘是连接主义模型的必然特征。我们的工作表明,这个局限是可以克服的,我们能够训练网络,让它们将专业知识保留很长一段时间。我们的方法记住以往任务的方法是,选择性地减慢学习一些权重的速度,这些权重是对完成任务很重要的权重。通过识别手写数字数据集和学习一系列 Atari 2600 游戏,我们证明我们的方法是有效并且可扩展的。

  AlphaGo 一周年:盘点 DeepMind 技术发展与商业探索

  下面,在 AlphaGo 获胜一周年的今天,新智元特意盘点了 DeepMind 在学术研究和商业变现两方面的主要工作。

  

报码:【j2开奖】DeepMind 让AI 拥有记忆并实现序列学习,AlphaGo 一周年技术盘点

  深度强化学习是 DeepMind 的特长,AlphaGo 正是 DeepMind 在深度强化学习方面积累后的爆发。实际上,DeepMind 自成立以来便专攻围棋,在 AlphaGo 之前就已经发表了多项相关成果,从最早在 NIPS 2013 获得最佳论文的 “Playing Atari with Deep Reinforcement Learning”,到 2016 年登上 Nature 封面的 “Masteringthe game of Go with Deep Neural Networks & Tree Search”。

  简单说,DeepMind 的工作轨迹可以看做:

Q-learning

强化学习

Deep Q-Networks(DQN,深度强化学习)

AlphaGo

  2016 年 AlphaGo 获胜后,DeepMind 继续发展深度强化学习:学习过程稳定性、重复试验的优先排序、正常化、收集和校正结果。综合这些方面的提升,在 Atari 游戏中,智能体的平均得分提高了 300%。2016 年上半年,DeepMind 公布,在几乎所有的 Atari 游戏中,他们的智能体都达到了人类的水平。

  DQN 之后,DeepMind 发表论文 “Asynchronous Methods for Deep Reinforcement Learning”,提出了异步深度强化学习,利用 CPU 多线程能力做并行计算。这种基于异步评价器(actor-critic)的算法 A3C,结合了 DQN 与用于选择行动的策略网络,在缩短 DQN 训练时间的同时减少了计算资源的消耗。由此,他们在被誉为有史以来最难 Atari 游戏——蒙特祖玛的复仇(Montezuma's Revenge)中,取得了很好的成绩。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容