本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:Familia:开源的中文主题模型应用工具包(2)

时间:2017-08-04 19:31来源:本港台直播 作者:118KJ 点击:
文档的主题分布可看做是包含语义信息的一个降维过程,低维的主题分布特征可以用来对文档进行聚类。表 3 中展示了基于主题分布特征进行 K-means 聚类的

文档的主题分布可看做是包含语义信息的一个降维过程,低维的主题分布特征可以用来对文档进行聚类。表 3 中展示了基于主题分布特征进行 K-means 聚类的部分结果。从表中可以看出,新闻的主题分布可以很好的完成聚类任务,在簇 1 中显示的是与房子装修相关的新闻,簇 2 中则是聚集了与股票相关的新闻。每个簇内的新闻都具有很好的语义相关性。

wzatv:Familia:开源的中文主题模型应用工具包

内容丰富度

案例 3: 网页内容丰富度

在一些信息检索的场景中,我们需要度量网页内容的丰富度,丰富度以在一定程度上反映网页的质量。通过计算网页的主题分布,我们进一步计算该分布的信息熵,作为衡量网页内容丰富度的指标。信息熵越大,表示网页内容越丰富。网页内容丰富度可以作为一维特征引入到更为复杂的网页排序函数中。

语义匹配

工业界的很多应用都有在语义上衡量本文相似度的需求,我们将这类需求统称为「语义匹配」。根据文本长度的不同,语义匹配可以细分为三类:短文本-短文本语义匹配,短文本-长文本语义匹配和长文本-长文本语义匹配。基于主题模型的语义匹配通常作为经典文本匹配技术的补充,而不是取代传统的文本匹配技术。

短文本-短文本语义匹配

短文本-短文本的语义匹配在工业界的应用场景非常广泛。例如,在网页搜索中,我们需要度量用户查询 (query) 和网页标题 (web page title) 的语义相关性;在 query 推荐中,我们需要度量 query 和其他 query 之间的相似度。这些场景都会用到短文本-短文本的语义匹配。由于主题模型在短文本上的效果不太理想,在短文本-短文本匹配任务中词向量的应用比主题模型更为普遍。简单的任务可以使用 Word2Vec 这种浅层的神经网络模型训练出来的词向量。

比如,query 推荐任务中,我们经常要计算两个 query 的相似度,例如「推荐好看的电影」与「2016年好看的电影」。通过词向量按位累加的方式,得到这两个 query 的向量表示之后,可以利用 Cosine Similarity 来计算两者的相似度。对于较难的短文本-短文本语义匹配任务,则可以考虑引入有监督信号的训练数据并利用 Deep Structured Semantic Model (DSSM) 或 Convolutional Latent Semantic Model (CLSM) 这些更复杂的神经网络模型进行语义相关性的计算。

短文本-长文本语义匹配

短文本-长文本语义匹配的应用场景在工业界非常普遍。例如,在搜索引擎中,我们需要计算一个用户查询(query)和一个网页正文(content)的语义相关度。由于 query 通常较短,而网页 content 较长,因此 query 与 content 的匹配与上文提到的短文本-短文本不同,通常需要使用短文本-长文本语义匹配,以得到更好的匹配效果。在计算相似度的时候,我们规避对短文本直接进行主题映射,而是根据长文本的主题分布,计算该分布生成短文本的概率,作为它们之间的相似度:

其中 q 表示 query,c 表示 content,w 表示 q 中的词,

表示第 k 个主题。

案例 1:用户查询-广告页面相似度

wzatv:Familia:开源的中文主题模型应用工具包

在线广告场景中,我们需要计算用户查询和广告页面的语义相似度。这时可应用 SentenceLDA,将广告页面中各个域的文本视为句子,如图 3 所示(红框内容为句子)。我们首先通过主题模型学习得到广告的主题分布,再使用公式 (1) 计算用户查询和广告页面的语义相似度。该相似度可以作为一维特征,应用在更复杂的排序模型中。在图 4 中,对于 query=“婚庆拍摄”,我们对比了不同特征组合的结果。其中左图为 Baseline,右图则是引入 SentenceLDA 相似度(基于 SentenceLDA 计算 query 与广告页面的相似度)后得到的结果。可以看出,相比于 Baseline,引入新特征后召回的结果更加符合 query 语义,能更好的满足用户需求。

wzatv:Familia:开源的中文主题模型应用工具包

案例 2: 文档关键词抽取

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容