码报:【组图】一周论文 | 论文盘点：检索式问答系统的语义匹配模型（神经网络篇）(2)_本港台直播_J2开奖直播

这篇文章出自华为诺亚方舟实验室，针对短文本匹配问题，提出一个被称为 DeepMatch 的神经网络语义匹配模型。该模型的提出基于文本匹配过程的两个直觉：1）Localness，也即，两个语义相关的文本应该存在词级别的共现模式（co-ouccurence pattern of words）；2）Hierarchy，也即，共现模式可能在不同的词抽象层次中出现。

模型实现时，并不是直接统计两段短文本是否有共现词，而是先用 (Q, A) 语料训练 LDA 主题模型，得到其 topic words，这些主题词被用来检测两个文本是否有共现词，例如，若文本 X 和文本 Y 都可以归类到某些主题词，则意味着它们可能存在语义相关性。而词抽象层次则体现在，每次指定不同的 topic 个数，训练一个 LDA 模型，最终会得到几个不同分辨率的主题模型，高分辨率模型的 topic words 通常更具体，低分辨率模型的 topic words 则相对抽象。在高分辨率层级无共现关系的文本，可能会在低分辨率层级存在更抽象的语义关联。不难看到，借助主题模型反映词的共现关系，可以避免短文本词稀疏带来的问题，且能得到出不同的抽象层级，是本文的创新点。

文中提出的 DeepMatch 模型结构如下图所示：

码报:【j2开奖】一周论文 | 论文盘点：检索式问答系统的语义匹配模型（神经网络篇）

上图比较抽象，但限于篇幅，这里不详细解释。提供几点说明，相信对理解模型细节有帮助。

1）不同抽象层级的 topic words 可以构造出一系列 patches，两个文本 X, Y 在某 patch 上的共现关系构成那个抽象层次的 local decision。

2）上图左侧 Input 部分，不同的颜色代表不同的 topic 抽象层级，这一点要注意，否则很容易被图中的 "偷懒" 画法搞晕。

总之，最终的 matching score 可以构成监督信号来训练模型。文中在给定领域的 QA 语料和新浪微博语料上的实验都表明，与 PLS、SIAMESE NETWORK 等模型相比，DeepMatch 模型在文本语义匹配上，达到了 SOTA 的效果。

PS: 个人感觉 DeepMatch 在构造神经网络结构时略 tricky，不够简洁。

4. Zongcheng Ji, et al., 2014, An Information Retrieval Approach to Short Text Conversation

这篇文章出自华为诺亚方舟实验室，针对的问题是基于检索的短文本对话，但也可以看做是基于检索的问答系统。主要思路是，从不同角度构造 matching 特征，作为 ranking 模型的特征输入。构造的特征包括：1）Query-ResponseSimilarity；2）Query-Post Similarity；3）Query-Response Matching in Latent Space；4）Translation-based Language Model；5）Deep MatchingModel；6）Topic-Word Model；7）其它匹配特征。

文中的实验对比了不同的 matching features 组合对应的 ranking 效果，且对每个 matching 特征的作用做了分析，比较有参考价值。

5. Baotian Hu, et al., 2015, Convolutional Neural Network Architectures for Matching Natural Language Sentences

这篇文章出自华为诺亚方舟实验室，采用 CNN 模型来解决语义匹配问题，文中提出 2 种网络架构，分别为 ARC-I 和 ARC-II，如下图所示：

码报:【j2开奖】一周论文 | 论文盘点：检索式问答系统的语义匹配模型（神经网络篇）

上图所示的 ARC-I 比较直观，待匹配文本 X 和 Y 经过多次一维卷积和 MAX 池化，得到的固定维度向量被当做文本的隐语义向量，这两个向量继续输入到符合 Siamese 网络架构的 MLP 层，最终得到文本的相似度分数。需要说明的是，MAX POOLING 层在由同一个卷积核得到的 feature maps 之间进行两两 MAX 池化操作，起到进一步降维的作用。

作者认为 ARC-I 的监督信号在最后的输出层才出现，在这之前，X 和 Y 的隐语义向量相互独立生成，可能会丢失语义相关信息，于是提出 ARC-II 架构。

码报:【j2开奖】一周论文 | 论文盘点：检索式问答系统的语义匹配模型（神经网络篇）

上图所示的 ARC-II 在第 1 层卷积后就把文本 X 和 Y 做了融合，具体的融合方式是，分别对 X 和 Y 做 1D 卷积，然后针对两者卷积得到的 feature maps，构造其所有可能的组合（在两个方向上拼接对应的 feature map），这样就构造出一个 2D 的 feature map，atv，然后对其做 2D MAX POOLING，多次 2D 卷积和池化操作后，输出固定维度的向量，接着输入 MLP 层，最终得到文本相似度分数。

(责任编辑：本港台直播)