报码:【j2开奖】学界 | 让好奇心驱动人工智能：UC Berkeley提出自监督预测算法_本港台直播_J2开奖直播_www.wzatv.cc

本港台开奖现场直播

j2开奖直播报码现场

当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】学界 | 让好奇心驱动人工智能：UC Berkeley提出自监督预测算法

时间:2017-05-18 02:56来源:668论坛作者:开奖直播现场点击: 次

无监督学习一直被认为是让人工智能在真实世界中有效工作的研究方向，此前大多数研究都会在训练时为人工智能加入奖励机制以明确目标。UC Berkeley 最近发表的论文提出了一种更为

无监督学习一直被认为是让人工智能在真实世界中有效工作的研究方向，此前大多数研究都会在训练时为人工智能加入奖励机制以明确目标。UC Berkeley 最近发表的论文提出了一种更为先进的方式，研究人员称这种「好奇心驱动」的人工智能算法不需要奖励机制就能学会如何进行《超级马里奥兄弟》和《Doom》两种游戏，并能达到超越以前方法的表现。该论文已被将于 8 月 6 日召开的 ICML 2017 大会接收。

论文链接：https://arxiv.org/abs/1705.05363

展示页：https://pathak22.github.io/noreward-rl/

代码 GitHub：https://github.com/pathak22/noreward-rl

　　论文：Curiosity-driven Exploration by Self-supervised Prediction

报码:【j2开奖】学界 | 让好奇心驱动人工智能：UC Berkeley提出自监督预测算法

在很多现实世界场景中，对于外部人工智能代理（agent）完成任务的奖励是稀疏的，有时甚至完全不存在。在这种情况下，好奇心可以成为人工智能算法内在的回报信号，让代理可以探索环境并学习可能「终身受用」的技能。在本研究中，我们将好奇心构型，作为人工智能代理在动态环境中自我监督学习时预测自身行动结果造成的错误。我们的方法适用于图像这样的高维连续状态空间，跳过直接预测图像困难的问题，也大量忽略了不能影响代理的环境情况。我们提出的方法在两种环境中进行了评估：VizDoom（一种基于视频游戏《Doom》的人工智能研究平台）和《超级马里奥兄弟》。评估主要研究三个方面：1. 稀疏的外部奖励，这样好奇心将在达到目标的过程中占据重要位置；2. 没有外部奖励的探索，在这种情况下好奇心会推动代理进行更有效的探索；3. 全新的环境（如一个游戏的新关卡），在这种情况下此前获得的经验可以帮助人工智能快速上手。

报码:【j2开奖】学界 | 让好奇心驱动人工智能：UC Berkeley提出自监督预测算法

　　图 1.UC Berkeley 的研究人员提出了内部好奇心构型

好奇心可以帮助人工智能代理在缺乏奖励的情况下探索环境。研究人员提出的内在模型（ICM）是与代理策略共同学习的，甚至不需要任何环境中的奖励。上图为模型结构解读。

报码:【j2开奖】学界 | 让好奇心驱动人工智能：UC Berkeley提出自监督预测算法

图 3. 人工智能在 VizDoom 的 3D 环境中获得的输入：（a）常规 3D 导航情形；（b）在输入中加入噪音。

报码:【j2开奖】学界 | 让好奇心驱动人工智能：UC Berkeley提出自监督预测算法

图 4. VizDoom 的 3D 环境地图

图 4 中，（a）对于泛化实验，地图中的环境只进行了无环境奖励的好奇心预训练。S 点代表起始点。（b）在 VizDoom 中的测试地图，绿星表示目标位置，蓝点表示代理在「密集」奖励例子中生成的 17 个地点。Room 13 和 17 是代理在「稀疏」和「非常稀疏」例子中起始的位置。注意：测试和训练地图的条件略有不同。

报码:【j2开奖】学界 | 让好奇心驱动人工智能：UC Berkeley提出自监督预测算法

图 5. 以没有好奇心机制的 A3C 人工智能代理（蓝线）作为基准，对比有图像空间好奇心 ICM 的代理（绿色）和 A3C+ICM 代理（橙色）。

任务难度从左向右逐渐增加，初始点和目标位置越来越远，探索也变得越来越困难：「密集」、「稀疏」到「非常稀疏」奖励。结果表明，直播，对于 A3C 而言，后两个任务探索难度极高，而有好奇心的 A3C 能在所有情况下获得很好的表现；完全基于好奇心的方法在前两个任务中能够完成任务，而在「非常稀疏」条件下失败。

报码:【j2开奖】学界 | 让好奇心驱动人工智能：UC Berkeley提出自监督预测算法

　　图 7. 图中显示了在探索环境中人工智能代理的运行方式。红色箭头表示代理的起始点和方向。每个代理在 2100 步以内探索过的房间都被涂了颜色。前三个结果（绿色）是代理在只有内部好奇心驱动的情况下的完成情况。后两个则是随机探索的结果。结果表明，受好奇心内部奖励驱动的探索可以发现更多房间。

报码:【j2开奖】学界 | 让好奇心驱动人工智能：UC Berkeley提出自监督预测算法

UC Berkeley 的研究提出了一种生成好奇心驱动内部奖励信号的机制，并将其拓展到了高维的图像输入任务中。在实验中，开奖，这种新方法明显优于此前的 A3C 基准。在没有任何外部奖励的环境中，新的人工智能代理可以学会沿着走廊和房间移动的探索行为。在超级马里奥 Level-1 中，代理在无奖励的情况下完成了超过 30% 的进度。无法超过 38% 的原因之一是此处有一个坑，需要 15-20 个特定顺序按键操作才能通过，如果人工智能代理不按照这个操作进行，它将落入坑中，无法获得更多的环境信息。因此，它不会收到任何有关之后内容的梯度信息。

(责任编辑：本港台直播)

顶一下

(0)

0%

踩一下

(0)

0%

------分隔线----------------------------

栏目列表

推荐内容

码报:央行要求支付宝纠正支付宝年
（原标题：支付宝年度账单默认勾选引央行关注，曾要求其纠正...
紫光控股继续增持联想控股 22日再
啪啪啪讯12月22日，紫光控股发布公告称，于12月22日进一步购入...
wzatv:Alphabet董事长明年1月卸任：他
（原标题：谷歌母公司执行董事长施密特明年1月卸任：他给谷歌...
码报:和创金服房平：再过三五年会
啪啪啪讯12月21日消息，近日和创金服CEO房平在接受啪啪啪采访中...
码报:外媒：腾讯悄悄打造中国迪斯
（原标题：China's Tencent Has Quietly Built An Entertainment Empire That Wes...
wzatv:CBNData消费大数据报告：90后是
啪啪啪讯 12月20日消息，今日CBNData根据过去一年里对中国大消费...

热点内容