摘要:在本论文中,我们通过引入一个可训练的存储器寻址方案,将神经图灵机(NTM)扩展成动态神经图灵机(D-NTM)。这个寻址方案可为每个存储器单元维持两个单独的向量——分别是内容向量和地址向量。这允许 D-NTM 学习各种基于位置的寻址策略,其中就包括线性和非线性策略。我们使用了连续可微的和离散不可微分的读/写机制来实现 D-NTM。我们调查了在 Facebook bAbI 任务中同时使用前馈技术和 GRU 控制器学习对内存进行读写实验的机制和效果。我们在 Facebook 的一组 bAbI 任务上对 D-NTM 进行了评估,结果表明,D-NTM 优于 NTM 和 LSTM 基线。同时,我们还提供了在序贯的 MNIST 数据集、联想回忆(associative recall)和复制任务上进行的实验的进一步结果。 3. 通过探索不完美的奖励来改善策略梯度算法(Improving Policy Gradient by Exploring Under-appreciated Rewards) 摘要:本文为带有改进探索性能的无模型强化学习(RL)提出了一种新的策略梯度算法。当前基于策略的方法使用熵正则化(entropy regularization)来促使对奖励景观(reward landscape)进行无向探索,但是这种方法在高维空间中对稀疏奖励是无效的。所以我们提出了一种更有针对性的探索策略,以此来对探索欠佳的奖励区域进行促进。如果动作序列的对数概率是在当前策略下估计的奖励值,则认为动作序列是不令人满意的。我们仅需要对标准 REINFORCE 算法进行一下小修改,那么所提出的探索策略就会易于实现。我们在一组算法任务中对该方法进行了评估,其中这些算法任务对于强化学习而言,是一个长期的挑战。我们发现我们的方法降低了超参数灵敏度,并且相对于基线方法有了明显的改进。值得注意的是,该方法能够解决基准多位数加法任务。据我们所知,这是纯正的强化学习方法第一次仅使用奖励反馈来解决加法问题。 4. 用神经网络拆分和征服(Divide and Conquer with Neural Networks) 我们考虑通过仅观察输入 - 输出对来学习算法任务。而不是把它作为一个在输入 - 输出映射上没有任何假设的黑盒离散回归问题(black-box discrete regression problem)。我们集中于服从分治算法的原则(principle of divide and conquer)的任务,并研究它在学习方面的影响。这个原则通过学习两个尺度不变的原子运算符:如何将给定的输入拆分(split)为两个不相交的集合和如何将两个部分求解的任务融合(merge)成一个较大的部分解来创建了一个强大的归纳偏差(inductive bias),它是我们利用递归定义的神经结构进行开发的。尺度不变性(scale invariance)创建了可以在该架构的所有阶段共享的参数,并且动态设计创建了其复杂性在可微分的形式下可以进行调谐的架构。 因此,我们的模型通过反向传播进行训练,不仅可以通过执行更浅的计算图(computation graph)来最小化输出处的误差,而且可以尽可能有效地进行。此外,由于尺度不变性,atv,可以仅使用输入/输出对来训练模型,而不需要知道中间分割和合并的方案。事实证明,准确性和复杂性不是独立的性质,同时,当学习的复杂性与底层的复杂性相匹配的时候,排序和查找平面凸包(sorting and finding planar convex hulls)这两个范式问题会得到更高的精度和更好的泛化。 5. Lie-Access 神经图灵机(Lie-Access Neural Turing Machines) 摘要:最近的工作已经证明了同时使用显式外部存储器结构和用于算法学习的深层神经模型的有效性(Graves et al., 2014; Weston et al., 2014)。这些模型利用传统离散存储器访问结构(随机存取、堆栈、tapes)的可区分版本来提供计算任务所需的可变长度存储。在这项工作中,我们提出了一个专门为神经设置(neural setting)所设计的替代模型——Lie-access 存储器。在这个范式中,使用 key-space manifold 中的连续头来访问存储器。通过由控制器生成的诸如移位或旋转的李群(Lie group)动作来移动磁头,并且根据与每个存储器相关联的键的距离来执行软存储器访问。我们认为李群(Lie group)对离散内存结构进行了自然推广,例如图灵机,因为它们在提供反向和身份运算符的同时也保持了可微分性。为了试验这种方法,我们在几个不同的李群(Lie group)上实施了几个简化的 Lie-access 访问神经图灵机(LANTM)。我们发现这种方法能够在一系列算法任务上表现良好。 6. 通过递归实现神经编程架构通用化(MAKING NEURAL PROGRAMMING ARCHITECTURES GENERALIZE VIA RECURSION) (责任编辑:本港台直播) |