:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。 简历投递:j[email protected] HR 微信:13552313024 新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。 加盟新智元,与人工智能业界领袖携手改变世界。 【新智元导读】Facebook 人工智能组研究员、围棋项目负责人田渊栋在知乎专栏“远东轶事”撰文回顾2016年人工智能的发展,写道AlphaGo与李世石的围棋对决注定会载入史册,可微计算机赚足了眼球,而让计算机自动写代码是一个非常有意思的方向。田渊栋认为强化学习这个方向具有非常大的潜力,未来的空间很大。 2016年是波澜壮阔的一年。 这一年人工智能领域最抢眼的莫过于AlphaGo与李世石的五番棋对决。这一战,极大地扭转了大众对人工智能的认知,注定会载入史册。 我有幸参与了历史。先是开了DarkForest这个项目,在计算机围棋上做了一些工作,开源了代码,直播,给社区做了些贡献;同时在 DeepMind 公布AlphaGo的论文及人机对决前后,给大家做了一些科普,收获了许多关注。 当然,两边资源投入的量级完全不同。在八月份美国围棋大会上,我有幸见到了AlphaGo的主要贡献者黄士杰(AjaHuang)和樊麾。我问他们,我们用了大概80到90块GPU来训练模型,我是否可以在演讲时说我们用了AlphaGo百分之一的GPU? 那时Aja神秘地笑了笑说:具体数字不能讲。不过,也许小于百分之一吧。 我无言以对。或许当初选择做围棋是个鲁莽的决定,不管是经验上还是资源上,差距都很大,但至少眼光是对的。并且实践过了之后,才知道强化学习(Reinforcement Learning,RL)这个方向的潜力。这个方向虽然有DeepMind和OpenAI的牛人们领头狂奔,但从十年的长远尺度上来说,还有大量的工作可以做。与传统的监督学习相比,强化学习不仅建模“得到数据以训练模型”这个问题,还建模了“如何从世界中得到数据”这个过程,这样天地一下子就广阔了很多。另一方面 RL 与行为决策直接挂钩,这就在一定程度上跳过了“认识世界”这个可能过于复杂的环节,而直指“改变世界”这样一个终极目标。当然,要让AI真能使用,就得要求它在复杂环境,很少的样本及非常稀缺的外界激励下,做出正确的决定。在这点上,大家还完全没有头绪,所以说未来的空间仍然很大。 今年RL的一个突出特点是各种虚拟环境和新训练方案层出不穷,各家都说自己虚拟平台好,算法效果好,但是否能得到相互间可比较的结果,还是要期待明后年的工作。目前看来,Atari、OpenAI Gym或者参加各种AI比赛,都可以用来评测算法的好坏,但究竟什么样的评测是客观公正的,还需要摸索。因为各类虚拟环境实在太多,样本采集还有随机性,因此好的评测可能比设计计算机视觉中imagenet的数据集更加困难——也许最终都只能放到机器人上,在真实世界中做比较了吧。 RL的另一个有趣的地方是,研究者们需要同时具备强的研究能力、工程能力和数学基础;以后要是机器人大行其道,那就连硬件经验都要一并跟上。RL其实是个很老的跨学科领域,各时代的文章里数学符号和概念都不太一样,要读通需要花一番功夫,要发好文章则更要多思考。在工程上,相比日渐成熟的DL框架,RL的框架另有一些精巧的地方,各种小细节很多,往往错一个则全盘皆输。不过正因为如此,与在现有模型上调参数相比,做RL更具有挑战性。今年我们的Doom AI Bot拿了Track1的冠军是一个惊喜,我很幸运招到了@吴育昕 这样优秀的实习生。 如何让计算机自动写代码则是另一个非常有意思的方向。去年可微计算机(Differentiable machine)非常火爆,大家都设计出带记忆带attention的深度网络模型去学习如何给定程序输入得到算法题的输出,但却忽略了让计算机自动写代码这个更直接,更切合人类思维方式的方案。果不其然,今年年底相关文章井喷,我们也投了一篇,不知道明年又会如何发展。 --------------------------------- (责任编辑:本港台直播) |