本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】深度 | 深度学习概览之自然语言处理:从基本概念到前沿研究(3)

时间:2017-02-18 17:16来源:香港现场开奖 作者:本港台直播 点击:
让我们现在退一步并且来理解 RNN 的优点是什么。与传统神经网络的最明显的区别是,RNN 接受输入的序列(在我们的例子中是词)。你可以将其与典型的

让我们现在退一步并且来理解 RNN 的优点是什么。与传统神经网络的最明显的区别是,RNN 接受输入的序列(在我们的例子中是词)。你可以将其与典型的 CNN 进行对比,在 CNN 中你只需要一个单一的图像作为输入。然而,使用 RNN,输入可以是从一个短句到一篇 5 段文章等各种长度。此外,该序列中的输入的顺序(order)可以极大地影响在训练期间权重矩阵和隐藏状态向量的改变情况。在训练之后,隐藏状态将有望捕获来自过去的信息(以前的时间步骤)。

门控循环单位(GRU)

现在让我们来看门控循环单元(GRU)。这种单元的目的是为计算 RNN 中的隐藏状态向量提供一种更复杂的方法。这种方法得以使我们保留捕获长距依赖(long distance dependencies)的信息。让我们想想看为什么在传统 RNN 设置中长期依赖会成为一个问题。在反向传播期间,误差将流经 RNN,即从最近的时间步骤至最早的时间步骤。如果初始梯度是个小数字(例如<0.25),则通过第 3 或第 4 模块,梯度实际上将会消失(链式规则乘以梯度),因此较早时间步骤的隐藏状态将无法更新。

在传统的 RNN 中,隐藏状态向量通过下面的公式计算得来。

  

wzatv:【j2开奖】深度 | 深度学习概览之自然语言处理:从基本概念到前沿研究

GRU 提供了一个计算此隐藏状态向量 h(t) 的不同方式。计算分为 3 个分量,一个更新门(update gate),一个重置门(reset gate)以及一个新的记忆容器(memory container)。两个门均是前一时间步骤上输入词向量和隐藏状态的函数。

  

wzatv:【j2开奖】深度 | 深度学习概览之自然语言处理:从基本概念到前沿研究

关键区别在于每个门使用不同的权重。这种区别通过不同的上标来表示。更新门使用 Wz 和 Uz,而重置门使用 Wr 和 Ur。

现在,通过以下方式计算新的记忆容器:

  

wzatv:【j2开奖】深度 | 深度学习概览之自然语言处理:从基本概念到前沿研究

空心点表示Hadamard积

现在,如果你仔细看看公式,你将看到,atv,如果重置门单元接近 0,那么整个项也变为 0,此时可以忽略来自之前时间步骤的 ht-1 的信息。在这种情况下,单元只是新的词向量 xt 的函数。

h(t) 的最终公式写为:

  

ht 是一个由三部分构成的函数:重置门、更新门和记忆容器。通过观察当 zt 接近 1 和接近 0 时会发生什么是理解这点最好的方法。当 zt 接近 1 时,新的隐藏状态向量 ht 主要取决于先前的隐藏状态,且因为(1-zt)变为 0 使得我们会忽略当前的存储容器。当 zt 接近 0 时,新的隐藏状态向量 ht 主要取决于当前的存储容器,此时我们会忽略之前的隐藏状态。观察这三部分最直观的方法可以总结如下。

更新门, 如果 zt?1,则 ht 完全忽略当前词向量,且只复制上一个隐藏状态(如果行不通,看看 ht 方程,并且注意当 zt?1 时 1 - zt 项发生什么)。如果 zt?0,则 ht 完全忽略上一时间步骤上的隐藏状态,且依赖新的记忆容器。此门让模型控制着之前隐藏状态中应影响当前隐藏状态的信息的多少。

重置门, 如果 rt?1,则存储容器阻止来自之前隐藏状态的信息。如果 rt?0,则存储容器忽略之前的隐藏状态。如果该信息在将来不具有相关性,则此门会令模型删除信息。

记忆容器:取决于重置门。

阐明 GRU 有效性的常见示例如下。假设你有以下语段。

  

和相关问题「2 个数字的和是什么?」。由于中间语句对手头问题绝对没有影响,重置门和更新门将允许网络在一定意义上「忘记」中间语句,同时仅学习应修改隐藏状态的特定信息(这种情况下是数字)。

长短时记忆单元(LSTM)

如果你对 GRU 感到满意的话,那么 LSTM 并不会让你更加满意。LSTM 也是由一系列的门组成。

  

wzatv:【j2开奖】深度 | 深度学习概览之自然语言处理:从基本概念到前沿研究

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容