基础数据:描述用户的一些基本信息,包括年龄、性别、常驻城市、手机型号、活跃度等。大部分信息可以直接获取或简单统计获取,有时需要对数据的准确性加以算法修正; 兴趣数据:主要描述“用户对什么感兴趣”; 情景数据:主要描述“用户是什么人”。
图3 微博商业数据体系 用户数据的计算有一套完整的高复用低耦合的数据模块体系来支撑,最终成形的数据挖掘架构如图4所示。
图4 微博商业数据挖掘架构 评价体系 四层评价 微博商业数据挖掘工作第一大重点是评价体系的建设。据我们了解,这是很多数据挖掘部门忽视的地方。我们建立了一个四层级的评价体系: 1.效果级:挖掘的结果可以直接用线上广告投放效果提升来评价。这是最强的一级评价。 示例:目前为止,只有兴趣挖掘能够使用这一级评价。 2.Ground Truth级:Ground Truth有一个规模足够的数据集来当作标注集和交叉验证的测试集,可以使用监督学习算法来做分类。这个Ground Truth数据集被当作最终可信的评估标准,也用于交叉验证。 示例:用户性别。微博所有用户都有自己填写的性别属性,但并非100%可信。但微博有很多实名认证的用户,这部分用户的性别是可信的,因此我们以这些用户作为标注,来修正那些没有实名认证的用户性别数据。 3.Case级:不具备统计意义的标准数据集,即无法获得标注数据,但对于分类的结果,少部分能够通过人工到微博用户的页面上去判断是否准确。这种情况只能通过规则来挖掘。 示例:常住城市。挖掘用户常住城市只能使用用户的IBS信息及IP地址,其余的特征对这个标签的贡献度都极其有限,因此只能使用规则来判定,然后对规则分类的结果抽样后,人工去用户微博页面上检验。只有大约5%的用户能够通过微博页面(博文、照片等信息)来人工判断他的常住城市。 4.Logic级:当以上三个级别的评价条件都不具备,只能评价逻辑完备性。即挖掘规则逻辑是否是当前情况下最合理的。 示例:差旅状态。用户当前位置不在常驻城市即判定为差旅状态,不做任何验证(但不做任何验证的情况极少,通常Case级和Logic级的评价很难完全分开,通常是偏Case或是偏Logic,总要同时看逻辑完备性和Case检验)。
图5 数据挖掘四层评价 评价体系建设 对于评价有如下原则: 任何一项数据挖掘工作都必须在开展之前确定具体评价方法,并且让这项工作的相关人员(包括PM)都知晓并认可这种评价方法。 尽可能把一项数据挖掘工作的评价方法往上一个层级推。 这是评价体系建设的重点,意味着不仅只有算法和模型工作可以不断迭代,评价方法本身也可以迭代。这项工作的重要性可能比模型的研发还要重要,如果大部分工作的评价只能停留在Case级甚至Logic级的话,整个数据挖掘体系很快就会无以为继,变得没有意义,因为这种工作的迭代余地很小,且没有方向。 我们花大量的时间解决Ground Truth数据,方法一般有两种: 引入第三方数据。这是一项长期进行的重要工作。任何互联网平台在数据上都有自己的长处和短板,微博的短板是缺少足够细分垂直领域的用户数据。因此一直致力于引入各种用户现世数据和垂直领域数据。 在现有数据的基础上用规则过滤正样本。通过规则找到一个召回率较低但准确率很高的集合作为正样本,就可以把评价推高到Ground Truth级。 除了兴趣标签外,能直接用效果来评价的数据并不多,而且业务层面的假设太多,我们在实践中仅用来参考。例如性别数据,对某些已知的强性别选择的广告行业(例如美妆),可以通过线上效果来间接判定数据准确率,atv,但这种不够直接的方法很少采用,因为中间因素太多,自洽性不强。 在这个评价体系下,数据工程师并不对兴趣标签之外挖掘结果的广告效果负责。如果用户使用了这些定向工具有好的效果,那很好,如果效果不好,数据工程师是不会就这个标签本身来进行效果优化的,因为这根本不是评价方向,这类标签在业务中的位置不处于效果的反馈环上。工程师只对兴趣标签做效果优化。 除兴趣标签之外的数据挖掘流程如图6。
图6 数据挖掘方法流程 兴趣挖掘 兴趣挖掘并没有Ground Truth可以验证,因为兴趣本身就是一个非客观、难以界定的描述。在微博商业体系内,兴趣是如下定义的: 用户如果对某类别的事物感兴趣:用户在指定广告投放场景里对这类广告的预估转化概率/点击率较高。 如果不能指定具体广告投放场景,兴趣的意思是:用户对这类内容的历史关注/互动率较高。 (责任编辑:本港台直播) |