本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【j2开奖】独家 | 机器之心对话NIPS 2016最佳论文作者:如何打造新型强化学习观?(附演讲和论文)

时间:2016-12-09 22:27来源:天下彩论坛 作者:开奖直播现场 点击:
当地时间 12 月 5 日,机器学习和计算神经科学的国际顶级会议第 30 届神经信息处理系统大会(NIPS 2016)在西班牙巴塞罗那开幕。本届最佳论文奖(Best Paper Award)获奖论文是 Value Ite

  当地时间 12 月 5 日,2016/1119/172715.html">机器学习和计算神经科学的国际顶级会议第 30 届神经信息处理系统大会(2016/1209/180791.html">NIPS 2016)在西班牙巴塞罗那开幕。本届最佳论文(Best Paper Award)获论文是 Value Iteration Networks。

2016 NIPS 最佳论文《Value Iteration Networks》的作者,是加州大学伯克利分校 Aviv Tamar、吴翼(Yi Wu)等人。这篇论文介绍了一个能学习设计策略,而不是被动的完全遵循策略的神经网络。同时,这种新的强化学习观并不是基于模型的(model-free)。机器之心第一时间联系到最佳论文的作者之一吴翼(Yi Wu),为我们详细讲述 VIN 的特点、应用方式和他的研究心得。

与最佳论文作者吴翼的对话

  

【j2开奖】独家 | 机器之心对话NIPS 2016最佳论文作者:如何打造新型强化学习观?(附演讲和论文)

机器之心:谈谈你的研究方向和最近工作

答:我自己的研究兴趣比较广泛,主要考虑的问题是如何能够在 AI 模型中更好的表达人的先验知识,atv,并利用这些人的已有知识,让模型利用更少的数据,做出更好的推断。

我做过的项目包括概率编程语言(probabilistic programming language)以及概率推理(probabilistic inference),层次强化学习(hierachical reinforcement learning)。

除此之外,这个假期我在北京的今日头条实验室做了 3 个月实习,期间利用层次化模型处理了一些与自然语言处理(natural language processing)相关的问题。回到 Berkeley 之后我也和一些相关教授合作,继续利用层次化模型做一些和 NLP 有关的问题。

  机器之心:简单介绍一下《Value IterationNetwork》的主题及 VIN 网络应用的场景

答:VIN 的目的主要是解决深度强化学习泛化能力较弱的问题。

传统的深度强化学习(比如 deep Q-learning)目标一般是采用神经网络学习一个从状态(state)到决策(action)的直接映射。神经网络往往会记忆一些训练集中出现的场景。所以,即使模型在训练时表现很好,一旦我们换了一个与之前训练时完全不同的场景,传统深度强化学习方法就会表现的比较差。

在 VIN 中,我们提出,不光需要利用神经网络学习一个从状态到决策的直接映射,还要让网络学会如何在当前环境下做长远的规划(learn to plan),并利用长远的规划辅助神经网络做出更好的决策。

通俗点来说叫:授人以鱼不如授人以渔。不妨说大家生活在北京,那么要怎么才能让一个人学会认路呢?传统的方法就是通过日复一日的训练,让一个人每天都从天安门走到西直门,久而久之,你就知道了长安街周边区域大致应该怎么走,就不会迷路了。但是如果这个人被突然扔到了上海,并让他从静安寺走到外滩,这个人基本就蒙了。VIN 提出的 learning to plan 的意义就在于,让这个人在北京学认路的时候,同时学会看地图。虽然这个人到了上海之后不认识路,但是如果他会看地图,他可以在地图上规划出从静安寺到外滩的道路,然后只要他能知道自己现在处在地图上的什么位置以及周边道路的方向,那么利用地图提供的额外的规划信息,即使这个人是第一次到上海,他也能成功的从静安寺走到外滩。

在文章中,我们提出了一种特殊的网络结构(value iteration module),这种结构和经典的规划算法 value iteration 有着相同的数学表达形式。利用这种数学性质,VIN 将传统的规划算法(planning algorithm)嵌入了神经网络,使得网络具有长期规划的能力。

VIN 中所使用的特殊结构,value iteration module,在很多问题上都可以直接加入现有的强化学习框架,并用来改进很多现有模型的泛化能力。

机器之心:跟从 Russell 教授学习带来了哪些启发?

答:Berkeley 有着全世界最好的 AI 研究氛围和学者,我很幸运能够在 Berkeley 学习和研究。

我的导师 Stuart Russell 教授对我的影响是最大的。他改变了很多我对的科研观点和习惯,让我不要急功近利。在我比较艰难的时间段里他也不停的鼓励我,也对我在很多方面给予了很大的支持,信任和帮助。

此外我第一篇关于概率编程语言的论文也非常幸运得到了 Rastislav Bodik 教授的指导和帮助,不过很不凑巧,在我博士第一年结束之后他就被挖到了华盛顿大学(University of Washington)。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容