当时,DeepMind 团队并未使用无监督学习的方法的训练 NPI,其模型也只能学习合成若干种简单的程序,包括加法、排序和对 3D 模型进行正则化转换。不过,单一 NPI 能学会执行这些程序以及所有 21 个关联子程序。 可微分计算机(DNC) 2016 年 10 月,谷歌 DeepMind 团队在 Nature 发表论文,描述了他们设计的可微分神经计算机(DNC)神经网络模型。DNC 结合神经网络与可读写的外部存储器,能够像神经网络那样通过试错或样本训练进行学习,又能像传统计算机一样处理数据。 在实验中,DNC 能理解家谱、在没有先验知识的情况下计算出伦敦地铁两站之间的最快路线,还能解决拼图迷宫。德国研究者 Herbert Jaeger 评论称,这是目前最接近数字计算机的神经计算系统,该成果有望解决神经系统符号处理难题。 DNC 架构 作者在论文摘要中写道,就像传统计算机一样,DNC 能使用外存对复杂的数据结构进行表征及操纵,但同时又像神经网络一样,能够从数据中学会这样做。“使用监督学习训练后,DNC 能够成功回答人工合成的问题……能够学会找到特定的点之间距离最短的路线、从随机生成的图当中推断缺少的连接等任务,之后再将这种能力泛化,用于交通线路图、家谱等特定的图。使用强化学习训练后,DNC 能够完成移动拼图的益智游戏,其中符号序列会给出不停变化的游戏目标。综上,我们的成果展示了 DNC 拥有解决复杂、结构化任务的能力,这些任务是没有外部可读写的存储器的神经网络难以胜任的”。 深度元强化学习(deep meta-reinforcement learning) 最近,DeepMind 的研究人员还与 UCL 的神经科学家合作,提出让算法《学习强化学习》(Learning to reinforcement learn)。近年来,深加强学习(RL)系统已经在许多富有挑战性的任务领域中获得了超人的性能。然而,这种应用的主要限制是它们对大量训练数据的需求。因此,关键的目前的目标是开发可以快速适应新任务的深度 DL 方法。 “在目前的工作中,我们引入了一种新的方法来应对这种挑战,我们称之为深度元强化学习。以前的工作表明,递归网络(RNN)可以在完全监督的上下文中支持元学习。我们将这种方法扩展到 RL 设置。由此出现的是一个使用一种 RL 算法训练的系统,但是其递归的动力却来自另一个完全独立的 RL 过程。这个独立的、习得的 RL 算法可以以任意方式与原始算法不同。重要的是,因为它是经过训练习得的,这个算法在配置上(configured)利用训练领域中的结构。”
论文描述了研究人员在一系列共计 7 个概念验证实验中证明了上述观点,每个实验都检查深度元 RL 的一个关键方面。具体可以阅读 https://arxiv.org/pdf/1611.05763v2.pdf(文末有下载) 开发机器学习程序员都面临失业的风险? 随着越来越多的这类技术变得成熟,机器将会在各种各样的任务上超越人类。那么,机器为什么不能理解自己呢?更重要的是,一旦机器做到这一步,在软件能够发挥作用的所有领域,都将会经历一场颠覆性的变革。 人工智能的核心挑战之一便是教会机器学习新的程序、从既有程序中快速地编写新程序,并自动在一定条件下执行这些程序以解决广泛种类的任务。 这是否意味着就连开发机器学习的程序员都面临失业的危险? 答案是否定的,至少目前为止——创造出性能等同或超越人类设计的机器学习程序,需要大量的计算力,比如 Google Brain 使用 AI 开发的图像识别系统,虽然击败了人类,但却需要超大的 GPU 集群,这从多种意义上而言都是相当大的一笔开销。 但尽管如此,使用 AI 开发 AI 软件的优点十分明显,而且大量的资源开销也可以通过种种办法减少。将开发机器学习系统的重任交给机器,有助于解决该领域拥有专业知识的人才严重短缺。AI 产业专家指出,开发机器学习软件需要在一开始就投入巨大的人力,但将其中一些工作交给其他机器学习系统可以大大减少开始和整个过程中所需的人力。 (责任编辑:本港台直播) |