本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】DeepMind 让AI 拥有记忆并实现序列学习,AlphaGo 一周年技术盘点(3)

时间:2017-03-16 01:54来源:118论坛 作者:开奖直播现场 点击:
在 机器人控制和移动等连续控制问题 中,DeepMind 也开发了一系列深度增强学习的方法。 Deterministic Policy Gradients(DPG)算法 提供了一个具备连续性的 DQN,

  机器人控制和移动等连续控制问题中,DeepMind 也开发了一系列深度增强学习的方法。Deterministic Policy Gradients(DPG)算法提供了一个具备连续性的 DQN,利用 Q-network 的差异性来解决大量的持续控制任务。异步强化学习在这些领域也都表现得很好,在使用一个分级控制策略来增强时,智能体能在不具备任何先验知识的情况下,解决一些具有挑战性的难题,比如新智元曾经报道过的、下面视频中的蚂蚁足球(ant soccer)

  

报码:【j2开奖】DeepMind 让AI 拥有记忆并实现序列学习,AlphaGo 一周年技术盘点

  就在上个月,DeepMind 发表了探索多个智能体之间合作与竞争的研究。他们使用强化学习技术,让智能体通过电子游戏,在类似 “囚徒的困境”的模拟环境中,展示竞争与合作的关系。在题为 “Multi-agent Reinforcement Learning in Sequential Social Dilemmas” 论文的摘要中,DeepMind 的研究员写道:“我们采用深层多代理强化学习来模拟AI 智能体间合作的出现。新的连续社会困境的概念允许我们模拟理性代理如何互动,并根据环境的性质和代理的认知能力达到或多或少的合作行为。研究可以使我们更好地理解和控制复杂的多代理系统的行为,如经济,交通和环境挑战。” 这项研究的结果是,AI 的行为会随着规则的变化而变化,情况取决于获利情况。DeepMind 表示,这个试验表明,现代的人工智能技术(深度多代理强化学习),可以应用于解释社会科学中古老的问题,例如“合作”这种行为出现的奥秘。

  AlphaGo背后的英雄 David Silve 和他的研究生还发表论文,介绍了首个在没有任何先验知识的前提下,可扩展的端到端学习近似纳什均衡的方法,题目是“Deep Reinforcement Learning from Self-Play in Imperfect-Information Games”。在这项研究里,他们使用的机制和 AlphaGo 非常相似,结合了深度强化学习技术和虚拟自我对局。实验中,计算机通过自学成功掌握了德州扑克的技巧,表现已经接近人类专家水平,在只使用 6 张扑克牌 Leduc Hold'em 中,计算机会也选择博弈中的最优解。他们所用的算法具有一般性,因此可以推测这种方法可以解决所有策略性问题。

  在生成模型方面,DeepMind 也进行了探索,并取得了一些重要的进展。

  在发表有关图像生成的 PixelCNN 模型的论文之后,。DeepMind 在新闻稿中写道,WaveNet 通过生成原始的波形而不是将录音的样本拼接在一起,实现了世界上最逼真的语音合成。值得一提,DeepMind 还表示,他们计划将 WaveNet 用于谷歌的产品,让这种技术改进万千用户的产品体验。

  

报码:【j2开奖】DeepMind 让AI 拥有记忆并实现序列学习,AlphaGo 一周年技术盘点

  另一个重要研究领域就是上文提到的记忆。

  与传统计算机不同,神经网络没有“记忆”或者说存储大量信息的能力。因此,将神经网络决策能力和对复杂结构化数据的存储推理能力结合起来,是一个很大的挑战。而 DeepMind 在让神经网络拥有记忆方面,一直在努力探索。

  在 2016 年 10 月,DeepMind 发表了 ,这也是他们在 18个月之内发表的第三篇 Nature 论文。DeepMind 称,这证明“我们的模型不但可以模仿神经网络的学习过程,而且能像计算机一样存储数据”。DNC 能够理解家谱、在没有先验知识的情况下计算出伦敦地铁两站之间的最快路线,还能解决拼图迷宫。德国研究者 Herbert Jaeger 将 DNC 称为 “升级版神经图灵机(NTM)”,认为 DNC 是目前最接近数字计算机的神经计算系统,atv,该成果有望解决神经系统符号处理难题。

  

报码:【j2开奖】DeepMind 让AI 拥有记忆并实现序列学习,AlphaGo 一周年技术盘点

  在提出这些理论后,DeepMind 也花时间改进这些系统的学习过程。在一篇题为 “Reinforcement Learning with Unsupervised Auxiliay Tasks”的论文中,DeepMind 描述了一种方法,把特定任务的学习速度提高了一个数量级。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容