AlphaGo 使用深度卷积网络,将棋盘当做一张 19×19 的输入「图像」(每个位置一个像素)进行处理。网络把当前局面作为输入,预测/采样下一步的走棋,尽量让机器落子向量接近人类高手的落子结果。但是,只用策略网络(policy network)不行,因为策略网络没有价值判断功能,加了搜索之后,计算机才有价值判断的能力,因此,AlphaGo 综合了深度神经网络和 MCTS 。AlphaGo 利用强化学习进行训练,通过与自己对抗,逐步改善策略来挑选行动(策略网络),以评估谁将获胜(价值网络,另一深度卷积网络)。价值网络的作用是减少搜索的深度,所以,AlphaGO 搜索深度并不是特别深,它并不是一下子搜索出直达比赛末尾的300多步,而是搜索更少的步数,比如20多步,并评估这些位置,而不是一路评估到底,看谁最终能赢。 AlphaGo 在蒙特卡洛树搜索框架下,利用深度学习和强化学习进行训练和评估,实现巨大突破。在游戏上取得了不错的成果后,深度强化学习也逐渐被引入NLP领域,比如较为热点的研究方向基于强化学习的文本生成技术(NLG)。另外,,比如 BRETT 在学习提升自己在家务劳动中的表现。 VIN。。这篇论文介绍了一个能学习设计策略,而不是完全被动遵循策略的神经网络。同时,这种新的强化学习观并不是基于模型的(model-free)。VIN 的目的主要是解决深度强化学习泛化能力较弱的问题。传统的深度强化学习(比如 deep Q-learning)目标一般是采用神经网络学习一个从状态(state)到决策(action)的直接映射。神经网络往往会记忆一些训练集中出现的场景。所以,即使模型在训练时表现很好,一旦我们换了一个与之前训练时完全不同的场景,传统深度强化学习方法就会表现的比较差。 作者提出,不光需要利用神经网络学习一个从状态到决策的直接映射,还要让网络学会如何在当前环境下做长远的规划(learn to plan),并利用长远的规划辅助神经网络做出更好的决策。 在文章中,我们提出了一种特殊的网络结构(value iteration module),这种结构和经典的规划算法 value iteration 有着相同的数学表达形式。利用这种数学性质,VIN 将传统的规划算法(planning algorithm)嵌入了神经网络,使得网络具有长期规划的能力。VIN 中所使用的特殊结构 value iteration module,在很多问题上都可以直接加入现有的强化学习框架,并用来改进很多现有模型的泛化能力。 3、NLP 方面的重要进展 实现人机流畅的交流需要解决一些问题,比如文本理解,问题回答以及机器翻译等。 (1)机器翻译 2016年 9 月底,谷歌在 arXiv.org 上发表了论文Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation,介绍了谷歌的神经机器翻译系统(GNMT),该系统实现了机器翻译领域的重大突破。 传统统计机器翻译(Statistical Machine Translation, SMT)技术,SMT 方法的最大特点是基于数据驱动的机器学习方法,只要提供足够数量的双语句对,在很短时间内可以自动构建一套统计机器翻译系统,翻译性能超过基于规则的方法。2013年提出了神经机器翻译(Neural Machine Translation, NMT)技术。其思路与传统 SMT 方法完全不同,它采用神经网络直接实现两个句子之间的自动翻译,完全没有规则方法和 SMT 方法的从小片段组装成大片段翻译的过程。2014年,Cho 和 Sutskever 提出了 Encoder-Decoder 架构的神经网络机器翻译系统。2015年,Yoshua Bengio 团队进一步加入了Attention 的概念。Bengio 团队的这个工作也奠定了后续很多NMT商业系统的基础,也包括 Google 这次发布的GNMT。GNMT 基本框架仍然是带 Attention 模块的 Encoder-Decoder。 尽管有这些进步,但 NMT 的速度和准确度还没能达到成为 Google Translate 这样的生产系统的要求。谷歌新论文描述了我们怎样克服了让 NMT 在非常大型的数据集上工作的许多挑战,以及谷歌如何打造了一个在速度和准确度上都已经足够能为谷歌的用户和服务带来更好的翻译的系统。 ByNet。DeepMind 提出了线性时间的神经机器翻译 ByNet。 (责任编辑:本港台直播) |