在前一种情况下,兴趣标签是一个可预估的最优化问题,是CTR/CVR预估体系的一部分,可以做出不同粒度的兴趣标签来,而且往往不止一套。如果有N种计算广告产品,每种广告产品可以有M种预定义的转化行为,线上的兴趣标签理论上最多可以有N x M套。标签数据的评价方式直接用线上效果评价,可以持续迭代。 在后一种情况下,兴趣标签只是一个解释性问题,在评价体系里处于最底层,实际上无法迭代。但这种兴趣标签的存在是必要的,因为并不是所有的应用场景都是广告投放,而且用特定产品的广告数据训练出的模型会比较偏,但某些场景(比如DMP的流量透视功能)需要一套不直接服务于投放效果、能完整描述用户群体的标签。因此我们根据关注和互动关系用简单统计的方法生成一版通用的兴趣标签。它只要求可解释性,所以规则越简单越好。一般禁止使用层次分析法,因为它对任何一层的评价都没有帮助。 内容兴趣
图7 微博内容兴趣标签计算 内容兴趣标签提供给除应用家之外的广告产品做定向工具。内容兴趣的做法如下: 划定一个微博上提供内容的大号列表,这个列表中用户贡献的原创内容能覆盖绝大多数被消费(阅读、互动)的原创内容。列表包括所有广告主。我们称这个列表为广义客户列表。 挖掘这些大号所提供内容的领域关键词,主要是相关性计算。 对这些大号进行聚类,然后人工整理聚类的结果,形成一个二级内容分类树。这个分类及领域关键词被称为大号的能力标签。微博上不生产的内容(比如工农业行业信息)对微博广告产品来说是无意义的,因此没有采用人工预先给出分类体系的方法。 用机器学习模型(FM或LR)来预估每个广告产品中,用户对每一类广告产生目标行为的概率,如果高于某个阈值,即看做该用户对该类别是有兴趣的。这是用于具体广告产品定向的做法。 在广告运营工作中我们经常针对某一个广告主做专属定向包,方法类似,只是特征是在用户-广告主这个粒度的。 如果需要不依赖具体广告产品的通用数据,直接统计每个用户对大号的关注关系,如果用户对某一类别的关注高于平均值,即看做对该类别是有兴趣的。 App兴趣 App兴趣标签是为应用家产品专门建立的。这项工作能够比较完整地表现微博商业数据挖掘中解决问题的思路。 App兴趣标签是应用家CVR预估体系的一部分。CVR预估体系被建设成一个漏斗式的,特征的粒度从粗到细。App兴趣标签是用户-App类别粒度的,模型中较多使用交叉特征,这一层的计算结果被包装成定向工具给客户使用;中间层的粒度是用户-App,作为一个隐式定向存在;最后一层则是线上的CVR预估模型,特征粒度是用户-广告-上下文,计算结果直接参与Rank。 在做CVR预估之前有两个数据问题。首先,应用家的功能支持广告客户指定效果目标行为:下载(推动没有安装这个App的用户下载)和唤醒(推动安装了这个App的用户重新进入该App成为当天日活)。因此至少需要知道每个用户是否安装了这些App,才能比较精准地投放。 解决这个问题的方法是: 以微博已有的数据为基础,引入第三方数据,获取尽可能多的用户安装App列表。 以1作为标注数据,预估那些1没有覆盖到的用户App安装情况。 另一个问题是,要做CVR预估就必须获取下载数据作为训练标注。但微博无法跟踪从广告点击跳转出去的用户后续行为(尤其是iOS环境下)。 解决的方法是: 跟第三方监控公司合作,获取部分客户App后续下载数据。 以1作为标注数据,预估那些1没有覆盖到的客户App后续下载情况。 这两个问题的解决方法如出一辙,都是先去找数据,找不到的部分再预估。预估的结果可以结合交叉验证,直接线上评价。 应用家数据挖掘体系如图8。
图8 App兴趣标签计算 情景挖掘 情景挖掘来源于一系列客户需求。在业务沟通中,经常接到客户类似如下的需求: 经常出入高级酒店和机场的用户; 宝马车主; 大学生; 在微博参与了某个指定话题(比如“#Angelababy大婚#”)的用户。 (责任编辑:本港台直播) |