在分析文档时,我们往往会抽取一些文档的关键词做标签(tag),这些 tag 在用户画像和推荐任务中扮演着重要角色。从文档中抽取关键词,常用的方法是利用词的 TF 和 IDF 信息,此外,还可利用主题模型,估计一个文档产生单词的概率作为该单词的重要度指标: 其中,d 表示文档内容,w 表示词, 表示第 k 个主题。但由于 常被高频词主导,导致一些语义上重要的低频词难以被选为关键词。为了解决上述问题,我们利用 TWE 训练得到主题和单词的向量表示,直播,再使用公式 (3) 计算每个词与文档主题的相似度作为衡量语义重要度的指标。 其中, 表示��对应的词向量, 表示主题 k 对应的主题向量,并且词向量和主题向量在处于同一个向量空间中。下面一段文字是我们随机从网上取的一个新闻片段,对其进行分词处理以及应用主题模型 LDA 或 TWE 后,然后分别选取公式 (2) 或公式 (3) 计算每个词的重要度。在表 5 中,我们列出了 LDA 和 TWE 模型计算得到的 Top-10 关键词集合 (已去除停用词)。从表中可以看出,采用 TWE 得到的 Top-10 关键词 能更好地体现出新闻的重要信息。 台湾《自由时报》4 月 13 日综合外媒报道称,全美发起拒搭联航运动,并在社群网站上 发酵。居住在美国纽约的网友许柏祥表示,本身是联合航空会员,在得知联航将乘客拖下飞 机后,就向航空公司取消下个月的预订班机,并称「我不想被人打!」许柏祥说, 他完全不能 接受航空公司的处理方式, 而且是对待一名 69 岁的老人。报道称,联航会员「剪卡」风潮也 席卷社群网路,许多网友将自己的联航会员卡剪掉抵制。网友萨赫哈 (Aninda Sadhukhan) 表示,身为联航多年的乘客,在看到影片后, 让他决定不再搭联航,并将会员卡放入碎卡机内。另一名会员布朗 (Phyllis Brown) 表示, 呼吁民众剪掉联航会员卡,并改搭其他航空公司班机,以此抗议联航暴力对待乘客。 长文本-长文本语义匹配 通过使用主题模型,我们可以得到两个长文本的主题分布,再通过计算两个多项分布的距离来衡量它们之间的相似度。衡量多项分布的距离可以利用 Hellinger Distance 和 Jensen-Shannon Divergence (JSD)。 案例 3: 新闻个性化推荐 长文本-长文本的语义匹配可用于个性化推荐的任务中。在互联网应用中,当我们积累了用户大量的行为信息后,这些行为信息对应的文本内容可以组合成一篇抽象的「文档」,对该「文档」进行主题映射后获得的主题分布可以作为用户画像。例如,在新闻个性化推荐中,我们可以将用户近期阅读的新闻(或新闻标题)合并成一篇长「文档」,并将该「文档」的主题分布作为表达用户阅读兴趣的用户画像。如图 5 所示,通过计算每篇实时新闻的主题分布与用户画像之间的 Hellinger Distance,可作为向用户推送新闻的选择依据,达到新闻个性化推荐的效果。 案例 4: 小说个性化推荐 小说推荐任务是根据用户的历史偏好进行小说推荐,具体场景如图 6(a) 所示。最常见的推荐算法技术为协同过滤,其中矩阵分解是协同过滤算法中常用的技术之一,主要的思想是从评分矩阵(用户对物品的评价等)中分解出用户-特性矩阵,特性-物品矩阵,从而得到用户的偏好和物品的特性,用以预测用户对未接触过的物品的打分情况。基于特征的矩阵分解 (SVDFeature),是一个灵活的推荐框架,允许向模型中增加一些全局特征、用户特征以及物品特征,使得模型在推荐上可以取得更好的效果。考虑到每个用户有一些收藏或者下载的小说,我们可以将这些小说对应的主题分布进行聚合,从而得到用户的主题表示,作为描述用户阅读兴趣的用户画像。通过计算每篇小说的主题分布与用户画像之间的 JSD 距离,可以用来衡量用户对该小说的感兴趣程度。我们将 JSD 评分作为全局特征加入到 SVDFeature 中参与训练,对小说进行排序后推荐给用户。对比传统的 SVDFeature 打分与结合了主题模型策略的 SVDFeature 打分,后者在多个指标上的效果均超过前者,如图 6(b) 所示。 案例 5:垂类新闻 CTR 预估 (责任编辑:本港台直播) |