本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【组图】技术 | 词嵌入系列博客Part2:比较语言建模中近似softmax的几种方法(6)

时间:2016-10-24 23:43来源:118论坛 作者:本港台直播 点击:
请回忆 Collobert 和 Weston(2008年)的成对排序标准,它将正数窗口排列在「受损的」窗口之前,这一点我们在上一篇博文已经讲到。NCE 做类似的事:我们训

请回忆 Collobert 和 Weston(2008年)的成对排序标准,它将正数窗口排列在「受损的」窗口之前,这一点我们在上一篇博文已经讲到。NCE 做类似的事:我们训练一个用来从噪音区分目标词的模型。因此,我们可以将预测正确词的任务简化到一个二元分类任务,其中模型试图从噪音样本中区分正确、真实的数据,如图4所示。

  

码报:【j2开奖】技术 | 词嵌入系列博客Part2:比较语言建模中近似softmax的几种方法

图 4:噪音对比估计

对于每个词,给定了 n 个在训练集之前出现的词 wt?1,?,wt?n+1,我们可以从噪音分布 Q 来生成 k 个噪音样本

因为在 IS 中,我们可以从训练集的一元分布中采样。因为我们需要数据标签来完成我们的二元分类任务,我们指定在上下文 ci 中所有的正确词 wi 为真(y=1),而所有噪音采样

  为假(y = 0)。

我们不去计算我们的噪音样本的期望

  

  因为获得这个期望仍然需要把所有 V 中的词加起来从而预测负标签的标准化的概率,而是再次用蒙特卡洛法近似求平均值:

  

  这可以简化为:

  

  为每个在上下文 c 中正确的单词 wi 生成 k 个噪音样本,我们有效地从两个不同的分布中生成词:正确的词从训练集 Ptrain 的实际分布中采样且依赖于它们的上下文 c,而噪音样本则来自噪音分布 Q。我们因此可以用两个分布的混合模型来表示采样到正样本或负样本的概率,它们基于分别的样本数量来取得权重:

  

码报:【j2开奖】技术 | 词嵌入系列博客Part2:比较语言建模中近似softmax的几种方法

  根据这个混合模型,我们现在可以计算一个样本来自于训练分布 Ptrain 的概率,它就是一个 y 对于 w 和 c 的条件概率:

  

码报:【j2开奖】技术 | 词嵌入系列博客Part2:比较语言建模中近似softmax的几种方法

它可以简化成:

  

码报:【j2开奖】技术 | 词嵌入系列博客Part2:比较语言建模中近似softmax的几种方法

因为我们不知道 Ptrain 的值(正是我们希望计算的),我们用我们的模型 P 的概率来替换 Ptrain:

  

码报:【j2开奖】技术 | 词嵌入系列博客Part2:比较语言建模中近似softmax的几种方法

  预测噪音样本(y=0)的概率因此就是简单的 P(y=0|w,c)=1?P(y=1|w,c)。请注意计算 P(w|c),也就是给定它的上下文 c,一个词 w 的概率本质上就是我们对于 softmax 的定义:

  

码报:【j2开奖】技术 | 词嵌入系列博客Part2:比较语言建模中近似softmax的几种方法

为了记号简便和不被混淆,让我们把 softmax 的分母命名为 Z(c),因为这个分母仅依赖于 h,它从 c 中生成(假定一个固定的 V)。Softmax 于是看起来像这样:

  

码报:【j2开奖】技术 | 词嵌入系列博客Part2:比较语言建模中近似softmax的几种方法

  Mnih 和 Teh(2012 年)和 Vaswani 等人 [20] 实际上将 Z(c) 固定在 1,他们声称这样不会影响模型的表现。这个假设有一个良好的附带效果,那就是可以减少模型的函数数量,同时保证模型可以自己标准化,而不需要依赖特意标准化 Z(c)。确实,Zoph 等人 [19] 发现即使模型学习这个参数,Z(c) 和 1 非常接近,而且具有小的方差。

如果我们在上面的 softmax 算式中可以设 Z(c) 为 1,对于在上下文 c 中的词 w,我们就得到了如下的概率:

我们现在可以插入上式的这一项来计算 P(y=1|w,c):

  

  插入这一项到我们的 logistic 回归的目标中,就能得到完整的 NCE 损失函数:

  

请注意到 NCE 有一个很好的理论上的保证:可以证明当我们增加噪音样本的数量 k 时,NCE 的梯度趋向于 softmax 函数的梯度。Mnih 和 Teh(2012 年)提出 25 个样本就足够使模型表现能够和常规的 softmax 相当,且能够提升 45 倍的运算速度。对于 NCE 的更多信息,Chris Dyer 发表了一些非常好的笔记 [21]。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容