本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】一周论文 | 解读2016年最值得读的三篇NLP论文 + 在线Chat实录(6)

时间:2017-03-26 21:54来源:本港台现场报码 作者:j2开奖直播 点击:
答: decoding 的做法是根据每一步来选概率最大的,开始的时候,概率低的那些词语基本上是不会出现在 beam 的 pool 里面的。而当 size 变大时,这些词语就

答:decoding 的做法是根据每一步来选概率最大的,开始的时候,概率低的那些词语基本上是不会出现在 beam 的 pool 里面的。而当 size 变大时,这些词语就被 cover 在 beam 的 pool 里面了,而如果他们比较早的就到了 eos 的话,整个句子的概率就会相对较大,也就很有可能选择了这样不好的答案。这点应该是和 LL 这个目标是相吻合的,所以也就是倾向于更短的句子这个意思。

问:Lambda 这个参数是 1 是如何确定的?

答:这点其实我觉得是本文可能一个不太严谨的地方,个人觉得应该得试下不同的 lambda,然后给出一个不同 lambda 对于这个问题的结果的影响。我觉得作者应该是尝试了不同的 lambda,然后发现 1 是最好的,所以才这样 report 的。不过也很好奇其他 lambda 的结果,夸张一点说,直播,如果 lambda 大于 1 又会如何呢?其实在一些不同的任务上,lambda 一般是一个 trade-off 的作用,一般应该是 lambda*x + (1-lambda)*y 这样,不过这里不一定是 trade-off,所以就暂且当做同样实验表明 lambda=1 是效果最好的吧。

问: NMT 是如何学习到词与词之间的映射关系?为什么 NMT 能够工作?

答:这个问题。不知道这里提到的词到词的映射是否指的是我理解的 x 中的词要和 y 中的词语一一对应?如果是的话,其实 nmt 本身就没有这个要求,而是强大的 seq2seq 框架,整个 seq2seq 就相当于是两个 language model 的组合(encoder,decoder),那 language model 本身就是可以产生像样的句子。这应该是回到了第二点 nmt 为何 work。那么再看本文,其实这就是一个 autoencoder 的框架,我们如果不看 y 作为单独的词语,而只看 hidden h 的话,那么整体上就是一个 autoencoder。本身其实也不是学习一个词到词的映射,而只是两个 Loglikelihood 的目标。我们从 intuition 的角度理解,他就是希望翻译出来的 y 也能更好的翻译回 x,如果 y 能够翻译回 x,那么整体所包含的语义就是比较丰富的,应该也能表明 encoder 和 decoder 中的 hidden 都有更丰富的信息。这也是这个工作效果为何的确好。

问:Reconstructor 是从翻译过的 y 重新 decoder 回 y,因为 y 有可能翻译的不好,可以理解为 noise,所以像 Denoised Autoencoder —— 如果是这样,是否可以用 DAE 那一套:deep DAE? deep DEA 后是否效果更好 —— 但是这里不是学习,只是验证前面的 seq-to-seq 的效果,所以可以 single layer 就够了。

答:关于 DAE 我没有关注过,所以不是很好回答。但是这篇文章是一个 supervised 训练过程,所以其实不是 sample 或者说翻译出来的 y 来做 reconstructor 的训练,而是用 pair 的 label data y 来做训练的,因此 y 并没有 noise 的这个说法。

  本文由机器之心转自PaperWeekly,转载请联系本公众号获得授权

  ?------------------------------------------------

加入机器之心(全职记者/实习生):[email protected]

投稿或寻求报道:[email protected]

广告&商务合作:[email protected]

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容