本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【组图】技术 | 词嵌入系列博客Part2:比较语言建模中近似softmax的几种方法(2)

时间:2016-10-24 23:43来源:118论坛 作者:本港台直播 点击:
具体而言,当我们遍历树的时候,我们需要计算每个分支点的左右两个分支来计算这个节点的概率。正因如此,我们要为每个节点指定一个表示。对比于规

具体而言,当我们遍历树的时候,我们需要计算每个分支点的左右两个分支来计算这个节点的概率。正因如此,我们要为每个节点指定一个表示。对比于规律的 softmax,对于每个词,我们因此不需要 v'w 的输出词嵌入——反之,直播,我们用给每个节点 n 都指定词嵌入 v′n。因为我们有 |V|?1 个节点,而每一个都拥有一个唯一的表示,H-Softmax 参数都和普通的 softmax 几乎一样。我们现在可以计算给定上下文 c 一个节点 n 的右分支(或左分支)的概率了,方式如下:

码报:【j2开奖】技术 | 词嵌入系列博客Part2:比较语言建模中近似softmax的几种方法

这个方法和普通的 softmax 的计算方式几乎一致。现在,我们不计算h和词嵌入 v′w 的点乘积,而是计算每个树节点的h和词嵌入 v′w。另外,我们不计算整个词汇库里所有词的概率分布,我们仅仅输出一个概率,在这个例子中这个概率是 sigmoid 函数的节点 n 的右分支的概率。相反地,左分支的概率是 1?p(right|n,c)。

  

码报:【j2开奖】技术 | 词嵌入系列博客Part2:比较语言建模中近似softmax的几种方法

图 2:多层次的 softmax计算

由此易得一个词w在上下文c中的为左右分支的概率之积。举个例子,在上下文「the」、「dog」「and」「the」之中,在图 2 中词「cat」的概率可以通过计算从节点1向左,经过节点2转右,再在节点后转右所得的概率来计算。Hugo Lachorelle 在他的课程视频 (https://www.youtube.com/watch?v=B95LTf2rVWM)中提供了一个更详细的介绍。Rong[7] 也很好地解释了这些概念,并且推导了 H-Softmax 的导数。

显然,树的结构十分重要。直观上来说,如果我们让模型在每个节点都来学习二元分类,比如我们可以让相似的路径获得相似的概率,我们的模型应该可以获得更好的表现。基于这一点,Morin 和 Bengio 给树提供 WordNet中的 synsets 的聚类。然而,他们的模型表现却不如常规的softmax。Mnih 和 Hinton [8] 用一个聚类算法来训练树结构来低轨地把词分成两堆,并且他们的模型在一部分的计算中表现和常规的 softmax 相当。

值得注意的是,只有在我们提前知道想要预测的那个词(以及它的路径)时,我们才能够加速训练。在测试阶段,当我们需要预测最可能出现的词时,尽管缩小了范围,我们仍然需要计算所有词的概率。

实际上,我们不需要用「左」和「右」来指定子节点,我们可以用一个对应路径的位向量来索引节点。在图 2,如果我们假设用比特 0 来表示向左和比特 1 来表示向右,我们可以用0-1-1来表示一条左-右-右的路径。

让我们回顾一下,一个平衡二叉树的路径长度是 log2|V|。如果我们设置 |V|=10000,这就相当于一条大约长度为13.3 的路径长度。相似的,我们可以用平均长度为13.3的路径的位向量来表示每一个词。在信息论中,这指代一串信息长度为 13.3 比特的字。

字的信息内容小结

首先回忆,一个词 w 的信息量(信息熵)I(w)是它的概率的负对数 I(w)=?log2p(w)。

在数据集中所有词的熵H就是在一个单词库的所有词的信息熵的期望:H=∑i∈Vp(wi)I(wi)

我们也可以把一个信息源的信息熵想成是用来编这部分信息所用的比特数。对于抛掷一枚公平的硬币,每次需要1比特;而对于一个总是输出相同符号的信息源,我们只需要0比特。对于一个平衡二叉树,我们平等对待每一个词,每个词 w 的熵 H 将拥有同样的信息量 I(w),因为每个词都有同样的概率。在一个 |V|=10000 大小的平衡二叉树中平均的词信息熵 H 就恰好是它的平均路径长度:

  

我们之前讲过,树的结构十分重要。值得注意的是,利用树的结构不但可以获得更好的表现,更可以加速运算:如果我们将更多信息加载进树中,那么更少信息的词将不意味着更短的路径,因为有些词出现频率更高,就可以用更少的信息去编它。一个 |V|=10,000 长度的信息库的词信息熵大约为 9.16。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容