本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】技术 | 词嵌入系列博客Part3:word2vec 的秘密配方(3)

时间:2016-10-26 06:37来源:报码现场 作者:开奖直播现场 点击:
GloVe 的作者建议添加词嵌入和上下文向量以创建最终输出向量,例如: v?cat =w?cat +c?catv→cat = w→cat + c→cat。这增加了一阶相似性项,即 w?v。然而,该方法

GloVe 的作者建议添加词嵌入和上下文向量以创建最终输出向量,例如: v?cat =w?cat +c?catv→cat = w→cat + c→cat。这增加了一阶相似性项,即 w?v。然而,该方法不能应用于 PMI,因为 PMI 产生的是稀疏向量。

  特征值加权

SVD 产生以下矩阵:WSVD = Ud·Σd 和 CSVD = Vd。然而,这些矩阵具有不同的性质:CSVD 是标准正交的,而 WSVD 不是。

相反,SGNS 更对称。因此,我们可以用可调整的附加参数 pp 来对特征值矩阵Σd 加权,以产生以下:

WSVD = Ud·Σpd。

向量规范化

最后,我们还可以将所有向量归一化为单位长度

结果

Levy 等人在 2015 年训练了英文维基百科所有转储模型,并基于常用词语的相似性和类比数据集对它们进行了评价。你可以在他们的论文中了解有关实验设置和培训详情的更多信息。我们在下文总结出了最重要的结果和收获。

  额外收获

Levy 等人发现 SVD——而不是词嵌入算法的其中一种——在相似性任务上执行得最好,而 SGNS 在类比数据集上执行得最好。他们还阐明了与其他选择相比,超参数的重要性:

1. 超参数与算法:超参数设置通常比算法选择更重要。没有任意单一的算法能始终胜过其他方法。

2. 超参数与更多数据:在更大的语料库上训练对某些任务有帮助。在 6 个例子中有 3 个都能说明,调整超参数更有益。

揭露之前的观点

有了这些见解,我们现在可以揭露一些普遍存在的观点:

嵌入式比分布式方法优秀吗?使用正确的超参数,没有一种方法比另一种方法具有持续的优势。

GloVe 是否优于 SGNS?SNGS 在所有任务上都胜过 GloVe。

CBOW 是不是很好的 word2vec 配置?CBOW 在任何任务上都比不上 SGNS。

建议

最后——也是这篇文章中我最喜欢的一部分——我们可以给出一些具体的实际建议:

不要将迁移的 PPMI 与 SVD 一起使用。

不要「正确」使用 SVD,即不使用特征向量加权(与使用 p = 0.5 的特征值加权相比性能下降 15 个点)。

请使用具有短上下文(窗口大小为 22)的 PPMI 和 SVD。

请使用 SGNS 的许多负样本。

对于所有方法,请始终使用上下文分布平滑(将一元分布提高到α= 0.75 的幂)。

使用 SGNS 作为基准(训练更加稳健,快速和经济)。

请尝试在 SGNS 和 GloVe 中添加上下文向量。

结论

这些结果与通常假设的情况背道而驰,即词嵌入优于传统方法,并且表明它通常没有什么区别,无论使用词嵌入还是分布式方法 - 重要的是,你调整超参数并使用适当的预处理和后期处理步骤。

来自 Jurafsky 小组 [5 , 6 ] 的最新论文回应了这些发现,并表明 SVD——而不是 SGNS——通常是当你关心精确词语表达时的首选。

我希望这篇博客对于目前备受关注的,揭示传统分布语义和嵌入模式之间的联系的研究能够有所帮助。正如我们所看到的,分布式语义的知识使得我们可以改进当前的方法并开发现有方法的全新变体。为此,j2直播,我希望下一次训练词嵌入时,您会将分布式方法纳入考虑范围,或从这些思考中获益。

参考文献:

Levy, O., Goldberg, Y., & Dagan, I. (2015). Improving Distributional Similarity with Lessons Learned from Word Embeddings. Transactions of the Association for Computational Linguistics, 3, 211–225. Retrieved from https://tacl2013.cs.columbia.edu/ojs/index.php/tacl/article/view/570 ?

Pennington, J., Socher, R., & Manning, C. D. (2014). Glove: Global Vectors for Word Representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, 1532–1543.

Baroni, M., Dinu, G., & Kruszewski, G. (2014). Don’t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors. ACL, 238–247.

Levy, O., & Goldberg, Y. (2014). Neural Word Embedding as Implicit Matrix Factorization. Advances in Neural Information Processing Systems (NIPS), 2177–2185. Retrieved from

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容