本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【组图】一周论文 | 论文盘点:检索式问答系统的语义匹配模型(神经网络篇)

时间:2017-05-15 00:11来源:118论坛 作者:开奖直播现场 点击:
slvher:助理来也后端 / 算法工程师 ,目前研发方向为多轮对话系统。 问答系统可以基于规则实现,可以基于检索实现,还可以通过对 query 进行解析或语义编码来生成候选回复(如通

  slvher:助理来也后端 / 算法工程师 ,目前研发方向为多轮对话系统

  问答系统可以基于规则实现,可以基于检索实现,还可以通过对 query 进行解析或语义来生成候选回复(如通过解析 query 并查询知识库后生成,或通过 SMT 模型生成,或通过 encoder-decoder 框架生成,有些 QA 场景可能还需要逻辑推理才能生成回复)。

具体到检索问答系统,其典型场景是:1)候选集先离线建好索引;2)在线服务收到 query 后,初步召回一批候选回复;3)matching 和 ranking 模型对候选列表做 rerank 并返回 topK。

备注:

1)matching 模型负责对 (query, reply) pair 做特征匹配,其输出的 matching score 通常会作为 ranking 模型的一维特征;

2)ranking 模型负责具体的 reranking 工作,其输入是候选回复对应的特征向量,atv,根据实际需求构造不同类型(如:pointwise, pairwise, listwise)的损失函数,其输出的 ranking score 是候选回复的最终排序依据。各种 learning2rank 模型通常就是在 ranking 阶段起作用;

3)有些检索系统可能不会明确区分 matching 和 ranking 这两个过程。

再具体到短文本场景下的检索式问答系统,由于分词后 term 数量少,导致只基于 term 本身或其 bow 向量进行匹配的检索策略无法令人满意(term 稀疏且表达方式各异导致匹配效果不佳,也没有利用 term 背后的语义)。出于语义特征补充的需求,隐语义模型(如:LSA, PLAS, LDA)得到了普遍关注。再到近几年,利用神经网络(尤其是深度学习)模型对文本做语义表示(semantic representation)后进行语义匹配的方法开始被提出并应用于检索式问答系统。

下面进入正题,盘点一些基于神经网络模型实现语义匹配的典型工作。希望能够抛砖引玉,如有遗漏或错误,欢迎补充或指出。

1. Po-Sen Huang, et al., 2013, Learning Deep Structured Semantic Models for Web Search using Clickthrough Data

这篇文章出自 UIUC 和 Microsoft Research,针对搜索引擎 query/document 之间的语义匹配问题 ,提出了基于 MLP 对 query 和 document 做深度语义表示的模型(Deep Structured SemanticModels, DSSM),结构如下图所示。

  

码报:【j2开奖】一周论文 | 论文盘点:检索式问答系统的语义匹配模型(神经网络篇)

DSSM 模型原理简述如下:

先把 query 和 document 转换成 BOW 向量形式,然后通过 word hashing 变换做降维得到相对低维的向量(备注:除了降维,word hashing 还可以很大程度上解决单词形态和 OOV 对匹配效果的影响),喂给 MLP 网络,输出层对应的低维向量就是 query 和 document 的语义向量(假定为 Q 和 D)。计算 (D, Q) 的 cosinesimilarity 后,用 softmax 做归一化得到的概率值是整个模型的最终输出,该值作为监督信号进行有监督训练。

通过挖掘搜索点击日志构造 query 和对应的正负 document 样本(实验实际使用的是 document 的 title),输入 DSSM 模型进行训练。文中与 TF-IDF、BM25、WTM、LSA、PLSA 等模型进行了对比实验,NDCG@N 指标表明,DSSM 模型在语义匹配方面效果提升明显,当时达到了 SOTA 的水平。

2. Yelong Shen, et al, 2014, A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval

这篇文章出自 Microsoft Research,是对上述 DSSM 模型的改进工作。在 DSSM 模型中,输入层是文本的 bag-of-words 向量,丢失词序特征,无法捕捉前后词的上下文信息。基于此,本文提出一种基于卷积的隐语义模型(convolutional latent semantic model, CLSM),结构如下图所示。

码报:【j2开奖】一周论文 | 论文盘点:检索式问答系统的语义匹配模型(神经网络篇)

CLSM 模型原理简述如下:

先用滑窗构造出 query 或 document 的一系列 n-gram terms(图中是 trigram),然后通过 word hashing 变换将 word trigram terms 表示成对应的 letter-trigram 向量形式(主要目的是降维),接着对每个 letter-trigram 向量做卷积,由此得到「Word-n-gram-Level Contextual Features」,接着借助 max pooling 层得到「Sentence-Level Semantic Features」,最后对 max pooling 的输出做 tanh 变换,得到一个固定维度的向量作为文本的隐语义向量。Query 和 document 借助 CLSM 模型得到各自的语义向量后,构造损失函数做监督训练。训练样本同样是通过挖掘搜索点击日志来生成。

文中与 BM25、PLSA、LDA、DSSM 等模型进行了对比实验,NDCG@N 指标表明,CLSM 模型在语义匹配上达到了新的 SOTA 水平。文中的实验和结果分析详细且清晰,很赞的工作。

3. Zhengdong Lu & Hang Li, 2013, A Deep Architecture for Matching Short Texts

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容