本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】技术 | 词嵌入系列博客Part1:基于语言建模的词嵌入模型

时间:2016-10-23 13:29来源:本港台直播 作者:j2开奖直播 点击:
本文是词嵌入系列博客的 Part1, 全面介绍了词嵌入模型,接下来几天机器之心将继续发布 Part2、Part3,希望能对大家了解词嵌入有所帮助。 目录: 词嵌入简史 词嵌入模型 语言模型的

  本文是词嵌入系列博客的 Part1,全面介绍了词嵌入模型,接下来几天机器之心将继续发布 Part2、Part3,希望能对大家了解词嵌入有所帮助。

目录:

词嵌入简史

词嵌入模型

语言模型的简介

经典的自然语言模型

C&W 模型

C&W model

CBOW

Skip-gram

无监督学习词嵌入(word embeddings)在许多自然语言处理的任务中都取得了前所未有的成功,因此它常被视为自然语言处理的万灵药。实际上,在许多自然语言处理架构中,它们确实几乎替代了诸如布朗聚类(Brown clusters)和 LSA 特征等传统型分布式特征。

去年 ACL(计算机语言学会)和 EMNLP(在自然语言处理中实证方法会议)的会议论文很大程度都是词嵌入的研究,有些人还认为词嵌入这种嵌入方法比 EMNLP 更加适合的自然语言处理。今年的 ACL 会议有了不仅一个,而是两个的词嵌入模型的研讨会。

词嵌入之间的语义关系在外行人看起来就像变魔术。深度自然语言处理的讲座常以「国王-男人+女人≈女王」的幻灯片来做开场白,一篇最近在 Communications of the ACM 的文章向词嵌入模型致敬,并称之为自然语言处理实现突破的主要原因。

这篇博文将会是本系列第一篇全面介绍词嵌入模型的文章,将讨论词嵌入模型的热度是否会持续下去及其原因。在这个介绍里,我们将尝试把在这个领域分散的论文串联起来,强调很多模型、应用和有趣的特征,并将在后续的文章中重点关注多语言环境下的词嵌入模型和词嵌入评估任务。

这第一篇文章将呈现目前的基于语言建模的词嵌入模型。在我们深度讨论很多的模型时,我们会挖掘它们的优点,希望能够在过去和当前的研究的背景下提供新的见解。

对于命名方式的简单小结:接下来我们将使用当前热门的「词嵌入(word embeddings)」术语,来指代词语在低维度向量空间的稠密表示。「词嵌入」和「分布式表征(distributed representations)」是两种可互换的表示方法。我们将特别强调「神经词嵌入(neural word embeddings)」,即运用神经网络训练的词嵌入。

词嵌入简史

从上世纪九十年代开始,向量空间模型就已在分布式语义中得到了应用。当时,许多用于预测连续空间的词表征的模型已经被研究了出来,其中包括隐含语义分析(LSA:Latent Semantic Analysis)和隐狄利克雷分布(LDA:Latent Dirichlet Allocation)。想要详细了解词嵌入背景下的分布式语义的历史的读者可以看看这篇文章:https://www.gavagai.se/blog/2015/09/30/a-brief-history-of-word-embeddings/

Bengio 等人在 2003 年创造了词嵌入这个名词,并且在自然语言模型中将其与模型参数一起联合训练。据了解 Collobert 和 Weston 于 2008 年首次展示了预训练的词嵌入的实际应用。他们里程碑式的论文《A unified architecture for natural language processing》不仅将词嵌入确立成了一种可用于下游任务的有用工具,还引入了现在已经成为了许多方法的基础的神经网络架构。但是让词嵌入最终能流行起来的是 Mikolov 等人在 2013 年创立的 word2vec,这是一个允许无缝训练和使用预训练嵌入的工具套件。在 2014 年,Pennington 发布了一个具有竞争力的预训练的词嵌入集 GloVe,标志着词嵌入已经成为了主流。

词嵌入是目前无监督学习的成功应用之一。它们最大的好处无疑是它们不需要昂贵的人工标注,而是从未标注的现成大数据集中派生的。然后预训练的词嵌入就可以运用在仅使用少量有标注数据的下游任务中了。

词嵌入模型

自然而然地,每个前向传播的神经网络都把在词汇表中的词语当成输入,并把它们表示成低维空间中向量。然后,它们再通过反向传播进行调整,得出词嵌入作为第一层的权重。通常,这称之为「嵌入层(Embedding Layer)」。

产生词嵌入作为副产物的神经网络和 word2vec 这样的以生成词嵌入为特定目标的方法之间的主要区别是它们的计算复杂度。对于一个大的词汇集来说,使用非常高深度的架构来生成词嵌入的计算成本太高。

这就是为什么直到 2013 年词嵌入才进入自然语言处理的舞台。计算复杂度是词嵌入模型的一个关键权衡,也是我们这篇概述中会重复出现的主题。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容