新闻推荐服务涉及多个垂类新闻方向,如体育、汽车、娱乐等。在这些方向上,我们往往需要做更精细的个性化推荐。为了实现这个目的,我们需要在垂类新闻数据的基础上,训练针对该垂类的主题模型。对于某个用户而言,我们把该用户历史上点击的新闻拼接成一篇文档,基于垂类主题模型做主题推断,获得文档的主题分布作为该用户的画像。垂类新闻的 CTR 预估模型利用的特征可以分为三类:新闻-用户相似度特征 (语义匹配范式),新闻主题特征 (语义表示范式) 和其他常规的统计特征。新闻-用户相似度特征指的是利用长文本-长文本语义匹配的方式计算的新闻和用户画像的相似度。新闻主题特征是该新闻的主题分布。常规的统计特征包括时间,新闻源,点击率等等。在工业界应用中,用户模型数据空间较大,会存在垂类主题分布的压缩需求,可以考虑根据 CTR 预估模型的权重进行删减和重训。上述方案在垂类新闻推荐上取得了很好的效果提升。 总结 在本文中,我们介绍了主题模型在工业界的应用范式,并结合一些案例加以讲解,希望对主题模型技术在工业界的有效「落地」起到一定的指导作用。我们会逐步开源更多垂类主题模型工具,满足不同场景的应用需求,同时,我们也将公开更多的应用案例与方法经验,供读者参考讨论。我们期望广大的开发者和研究人员将主题模型应用于更多的场景中,挖掘主题模型的应用潜力。我们乐于与大家进行深入的交流,推动主题模型的技术进一步发展与应用创新。 百度NLP往期专栏内容: 「百度NLP」专栏主要关注百度自然语言处理技术发展进程,报道前沿资讯和动态,分享技术专家的行业解读与深度思考。 (责任编辑:本港台直播) |