【重要通知】【倒计时 2 天,点击“阅读原文”抢票】新智元和行业领袖英特尔联合举办,中国 AI 2017 开年盛典启幕在即。新智元327技术峰会暨颁奖盛典现场一律凭活动行二维码入场,大会于3月27日 8:00 正式开始签到,8:50会议开始,现场座位紧张请提前签到入场。活动行在大会现场设有咨询席位,但提前换二维码节省签到时间。请团购注册的公司关注,务必提醒参会的同事们手机接收二维码,如果不清晰可以打印出来,现场在签到处换领大会嘉宾胸卡。大会将在腾讯科技、云栖社区和爱奇艺上同步直播,欢迎关注。 【新智元导读】 DeepMind 研究团队的新论文Neural Episodic Control提出了一种称为NEC的新算法,使得“更广泛环境下的学习速度大幅度提高”。他们的智能体能够在获得经验后丰富快速锁定到最成功的策略上,而不是等待许多优化步骤。这个AI可以更快地理解新的经验,并以此为依据采取行动,这将使它能够更快地达到人类学习的速度。 拥有了学习能力的机器似乎已经完胜人类,尤其是在进行面部识别、视频游戏或者下围棋时。 但且慢,atv,有一个关键领域智能机器还被人类甩在身后:学习速度。比如说,在掌握一些经典视频游戏的玩法时,人类花2小时就能学会,而机器要学习200个小时。 现在,人类学习的速度比深度学习机器快10倍。正是这样的“优越性”使得“AI战胜人类”暂且只是担忧。但是,多亏谷歌(或者都怪谷歌?),这个现状即将改变。 据位于伦敦的谷歌子公司 DeepMind 的 Alexander Pritzel 介绍,他们已经制造深度学习机器,这个AI可以更快地理解新的经验,并以此为依据采取行动,这将使它能够更快地达到人类学习的速度。 NEC算法改变了什么 深度学习通过使用神经网络层来识别数据中的模式和趋势。当一层侦测到一个模式时,它会将该信息发送到下一层,然后再发送到下下层。随着数据持续传递,所有层都知道了这一信息。 例如在面部识别中,一层可能找寻图像中的边,下一层则找出这些边的环形模式(如眼睛和嘴的轮廓),再下一层负责三角模式(如双眼和嘴构成的图形)。所有这些之后,最终输出面部的识别结果。 通过修改或调整内部因素,例如层之间的连接强度,系统学习的方式就会不同。然而,变化必须缓慢地引入,因为一层的剧烈变化对所有后续层都会产生同样的影响。这基本上就是为什么深度神经网络学习和训练的时间更长。 Pritzel 声称他们已经找到了这个问题的解决方案——他们称之为“神经情景控制”(neural episodic control)。他们表示,使用这种技术已经使得“更广泛环境下的学习速度大幅度提高”,因为他们的智能体能够在获得经验后丰富快速锁定到最成功的策略上,而不是等待许多优化步骤。 NEC算法简述 在DeepMind研究团队 3月6日提交到 arXiv 的论文《Neural Episodic Control》中指出,NeuralEpisodic Control(NEC)是一种深度强化学习智能体,可以快速吸收经验并以此为依据采取行动。该智能体使用价值函数的semi-tabular 表征:一种过去经验的缓冲,包含了表征的缓慢变化状态和价值函数的快速更新评价。该智能体包含了三个组成部分:一个处理像素图像的卷积神经网络,一组记忆模块(每个行动一个),一个将从行动记忆中读取的信息转化为Q(s, a) 值的最终网络。 对于每个行动 ,NEC有一个简单的记忆模块 ,其中 和 是动态尺寸向量束,每一个包含相同数量的向量。记忆模块则从键到相应值以随机关联的方式采取行动,很像程序中找到的词典数据类型。因此我们把这种记忆模块称为differentiable neural dictionary (DND)。 在DND上有两种可能的操作:查询和写入。如图1所示。
图1 图2展示的是作为NEC智能体执行单一行动的一部分。
图2 算法1简要描述了NEC的算法。
算法1 论文地址:https://arxiv.org/abs/1703.01988 当然,这又是一柄 双刃剑 (责任编辑:本港台直播) |