本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【组图】一周论文 | 论文盘点:检索式问答系统的语义匹配模型(神经网络篇)(2)

时间:2017-05-15 00:11来源:118论坛 作者:开奖直播现场 点击:
这篇文章出自华为诺亚方舟实验室,针对短文本匹配问题,提出一个被称为 DeepMatch 的神经网络语义匹配模型。该模型的提出基于文本匹配过程的两个直觉

这篇文章出自华为诺亚方舟实验室,针对短文本匹配问题,提出一个被称为 DeepMatch 的神经网络语义匹配模型。该模型的提出基于文本匹配过程的两个直觉:1)Localness,也即,两个语义相关的文本应该存在词级别的共现模式(co-ouccurence pattern of words);2)Hierarchy,也即,共现模式可能在不同的词抽象层次中出现。

模型实现时,并不是直接统计两段短文本是否有共现词,而是先用 (Q, A) 语料训练 LDA 主题模型,得到其 topic words,这些主题词被用来检测两个文本是否有共现词,例如,若文本 X 和文本 Y 都可以归类到某些主题词,则意味着它们可能存在语义相关性。而词抽象层次则体现在,每次指定不同的 topic 个数,训练一个 LDA 模型,最终会得到几个不同分辨率的主题模型,高分辨率模型的 topic words 通常更具体,低分辨率模型的 topic words 则相对抽象。在高分辨率层级无共现关系的文本,可能会在低分辨率层级存在更抽象的语义关联。不难看到,借助主题模型反映词的共现关系,可以避免短文本词稀疏带来的问题,且能得到出不同的抽象层级,是本文的创新点。

文中提出的 DeepMatch 模型结构如下图所示:

码报:【j2开奖】一周论文 | 论文盘点:检索式问答系统的语义匹配模型(神经网络篇)

上图比较抽象,但限于篇幅,这里不详细解释。提供几点说明,相信对理解模型细节有帮助。

1)不同抽象层级的 topic words 可以构造出一系列 patches,两个文本 X, Y 在某 patch 上的共现关系构成那个抽象层次的 local decision。

2)上图左侧 Input 部分,不同的颜色代表不同的 topic 抽象层级,这一点要注意,否则很容易被图中的 "偷懒" 画法搞晕。

总之,最终的 matching score 可以构成监督信号来训练模型。文中在给定领域的 QA 语料和新浪微博语料上的实验都表明,与 PLS、SIAMESE NETWORK 等模型相比,DeepMatch 模型在文本语义匹配上,达到了 SOTA 的效果。

PS: 个人感觉 DeepMatch 在构造神经网络结构时略 tricky,不够简洁。

4. Zongcheng Ji, et al., 2014, An Information Retrieval Approach to Short Text Conversation

这篇文章出自华为诺亚方舟实验室,针对的问题是基于检索的短文本对话,但也可以看做是基于检索的问答系统。主要思路是,从不同角度构造 matching 特征,作为 ranking 模型的特征输入。构造的特征包括:1)Query-ResponseSimilarity;2)Query-Post Similarity;3)Query-Response Matching in Latent Space;4)Translation-based Language Model;5)Deep MatchingModel;6)Topic-Word Model;7)其它匹配特征。

文中的实验对比了不同的 matching features 组合对应的 ranking 效果,且对每个 matching 特征的作用做了分析,比较有参考价值。

5. Baotian Hu, et al., 2015, Convolutional Neural Network Architectures for Matching Natural Language Sentences

这篇文章出自华为诺亚方舟实验室,采用 CNN 模型来解决语义匹配问题,文中提出 2 种网络架构,分别为 ARC-I 和 ARC-II,如下图所示:

码报:【j2开奖】一周论文 | 论文盘点:检索式问答系统的语义匹配模型(神经网络篇)

上图所示的 ARC-I 比较直观,待匹配文本 X 和 Y 经过多次一维卷积和 MAX 池化,得到的固定维度向量被当做文本的隐语义向量,这两个向量继续输入到符合 Siamese 网络架构的 MLP 层,最终得到文本的相似度分数。需要说明的是,MAX POOLING 层在由同一个卷积核得到的 feature maps 之间进行两两 MAX 池化操作,起到进一步降维的作用。

作者认为 ARC-I 的监督信号在最后的输出层才出现,在这之前,X 和 Y 的隐语义向量相互独立生成,可能会丢失语义相关信息,于是提出 ARC-II 架构。

码报:【j2开奖】一周论文 | 论文盘点:检索式问答系统的语义匹配模型(神经网络篇)

上图所示的 ARC-II 在第 1 层卷积后就把文本 X 和 Y 做了融合,具体的融合方式是,分别对 X 和 Y 做 1D 卷积,然后针对两者卷积得到的 feature maps,构造其所有可能的组合(在两个方向上拼接对应的 feature map),这样就构造出一个 2D 的 feature map,atv,然后对其做 2D MAX POOLING,多次 2D 卷积和池化操作后,输出固定维度的向量,接着输入 MLP 层,最终得到文本相似度分数。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容