摘要:我们描述了一个由策略 sketch 引导的用于多任务深度强化学习的框架。Sketch 使用命名的子任务序列来标注任务,提供任务之间高层次结构关系信息,而不是如何实施它们——具体来说,就是不提供强化学习之前的学习策略抽象工作所使用的详细指导(如中间奖励、子任务完成信号、内在动机)。为了从 sketch 中学习,我们展示了一个模型,该模型将每一个子任务和模块子策略结合起来,并通过在共享子策略之间尝试参数,将全部任务特定的策略的奖励最大化。该模型通过解耦合 actor-critic 训练目标完成优化,即推动模型从多种不同奖励函数中学习普遍行为。我们在三种环境中对我们方法的有效性进行评估:离散控制环境、持续控制环境和带有完成一系列高层次子目标才能获取的稀疏函数的环境。实验证明在 sketch 的引导下使用我们的方法学习策略的性能优于现有的学习任务特定或共享策略的技术,通过我们的方法可自然归纳出一个可解释的原始行为库,该库可重新整合以快速适应新任务。 论文:A Unified Maximum Likelihood Approach for Estimating Symmetric Properties of Discrete Distributions 地址: 摘要:许多应用中出现了诸如支持大小、支持覆盖率、熵和一致性接近度(proximity to uniformity)等对称分布特性。最近,研究人员应用了不同的估计量和分析工具来为每个这些特性渐进地推导样本最优近似。我们表明,单个简单的插件估计量——profile 最大似然(profile maximum likelihood/PML)——是可与所有对称特性相竞争的样本;尤其是对于以上所有属性,PML 是渐进地样本最优的。 Test of Time Award 论文:Combining Online and Offline Knowledge in UCT 地址: 摘要:UCT 算法使用基于样本的搜索学习在线价值函数(value function)。T D(λ) 算法可以学习用于在策略分布的离线价值函数。我们考虑了三种方法在 UCT 算法中结合离线和在线价值函数。第一种,离线价值函数在蒙特卡洛模拟中作为默认策略。第二种,把 UCT 价值函数与在线评估动作值结合起来。第三种,离线价值函数在 UCT 搜索树中作为先验知识(prior knowledge)。我们在 9 × 9 围棋对战 GnuGo 3.7.10 中对这些算法进行评估。第一种算法性能优于使用随机模拟策略的 UCT 算法,但却意外地比使用较差的人工模拟策略的 UCT 算法性能要差。第二种算法性能优于 UCT 算法。第三种算法优于使用人工先验知识的 UCT 算法。我们在 MoGo(世界上最强大的 9 × 9 围棋程序)中结合了这些算法。每一种技术都显著改善了 MoGo 的下棋水平。 Honorable Mentions 论文:Pegasos: Primal Estimated sub-GrAdient SOlver for SVM 地址:~nati/Publications/PegasosMPB.pdf 摘要:我们描述分析了一个简单有效的随机子梯度下降算法(stochastic sub-gradient descent algorithm),用于解决支持向量机(SVM)提出的优化问题。我们证明了获得精确度解决方案所需的迭代次数是 O(1/ε),其中每次迭代在单个训练实例中运行。相比之下,开奖,先前 SVM 的随机梯度下降方法的分析需要 Ω(1/ε^2 ) 次迭代。如先前设计的 SVM 求解器,迭代次数随着 1/λ 线性缩放,其中 λ 是 SVM 的正则化参数。对于线性核函数,我们方法的总运行时间为 O(d/(λε)),其中 d 是每个实例中非零特征数量的约束。由于运行时间不直接依赖于训练集的大小,因此得到的算法特别适合于从大型数据集学习。我们的方法也可以扩展到非线性核函数,同时仍然仅基于原始目标函数,尽管在这种情况下,运行时确实依赖于训练集大小。我们的算法尤其适合解决大型文本分类问题,在这些问题中,我们展示了超过以前的 SVM 学习方法的数量级加速。 论文:A Bound on the Label Complexity of Agnostic Active Learning 地址: (责任编辑:本港台直播) |