作者:康乐,微博商业产品部算法技术专家,中科院博士,曾就职于搜狗,新浪微博。负责过广告和用户反作弊算法,Feed流分发控制算法,商业数据挖掘算法等领域,对相关的算法工作有长期实战经验和系统方法论。 责编:郭芮,关注大数据领域,寻求报道或投稿请联系[email protected]。 本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅2017年《程序员》。 本文主要介绍微博商业数据挖掘的体系及方法,但并不注重模型和算法这些细节,而是阐述数据如何贴近、支持和引导业务,如何建立合理的评价体系,以及如何围绕这两点建设数据挖掘架构。 业务及产品 微博广告生态的复杂程度在业界数一数二。由于微博本身的开放性,微博广告客户天生就有如下多样性: 类型 电商类型:投放方式大多比较传统,投放目标主要是注册或购买; App类型:投放目标主要是App下载或者用户唤醒; O2O:投放目标包括电话、到店、销售线索等; 媒体/品牌类:投放目标主要是带粉,扩大影响力和传播范围。 投放方式 不同客户对微博广告产品这项营销工具的理解和应用程度相去甚远,有一部分客户已经能熟练使用不同的自助广告产品,设置不同的创意模板,撰写有针对性的创意来达到不同的营销目的,甚至经常使用时间和空间上的组合营销形式,这些客户通常效果较好,粘性也很强;但也有一部分客户还停留在传统联盟广告的时代,投放方式比较单一,对创意的生成欠缺足够思考,效果也不尽人意。客户梯度共同构成了微博广告生态,最直接的后果就是——优秀的广告与毫无吸引力的广告并存。 定向要求 由于微博的强账号属性以及由此带来的用户画像挖掘方面的潜力,客户对广告定向工具的要求非常精细。主要包括如下几类定向条件: 基础定向:用户的年龄,性别,城市,手机型号等; 兴趣定向:用户感兴趣的实体类目,甚至兴趣关键词; 关系定向:指定大号或竞品的粉丝投放; 状态定向:指定处于某一人生状态的用户,比如车房、婚恋阶段; 情景定向:一类粒度非常细的实时触发类投放,这类需求经常来自于SCRM(社交客户关系管理)之类的业务,譬如客户可以指定投放给跟他的某条微博有互动的所有用户,或是正在首都机场的所有用户。
图1 广告客户对微博广告的细分需求 微博推出了多种计算广告产品来满足多样化需求,并且还在持续迭代和改进。每一种广告产品专门抽象一大类投放需求,有不同的广告模板、计费方式、定向条件、投放平台以及专业人员配备。这是近两年微博商业化顺畅进行的主因。
图2 主要微博广告产品矩阵商业数据体系 广告投放业务对数据的需求主要是流量细分及描述反馈,因此微博商业数据挖掘体系也是以流量细分,即通常说的以用户画像为核心来建设。周边辅助的数据挖掘模块主要包括: 内容挖掘:微博用户的一切属性都由他们的行为及其客体来描述,而这些用户行为(包括转发、评论、关注、赞、点击短链/视频)和客体(微博、广告主、大号)构成了微博产品的绝大部分,因此内容挖掘一直都是商业数据挖掘的重点工作。 关系挖掘:包括所有用户跟客体对象之间联系方式的挖掘。关系挖掘的难点主要是发现在每一个业务场景下,不同关系的产生对于广告效果的意义及影响。 App数据挖掘:微博作为开放平台接入了相当数量的第三方App,用户使用这些App的行为记录能帮助我们获取他们作为自然人的信息,用于判断用户在实际生活中的某些状态。另外,用户的App喜好能够直接帮助App类广告进行投放。 LBS数据挖掘:微博的签到数据能帮助判断用户的某些状态,同时也能满足部分客户在投放上的某些需求,比如O2O类的客户会更加关心附近的本地用户。 在长期业务实践中,我们最终将用户画像体系分为如下3个部分: (责任编辑:本港台直播) |