本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【组图】一点资讯王元元:追着效率跑的算法如何兼顾内容?(2)

时间:2016-11-24 21:40来源:本港台现场报码 作者:www.wzatv.cc 点击:
另外,算法容易预测短期指标,难以预测长期指标。长期留存率是个特别好的优化目标,但基于当前数据你很难预测准。单纯优化短期指标,会带来短期流

  另外,算法容易预测短期指标,难以预测长期指标。长期留存率是个特别好的优化目标,但基于当前数据你很难预测准。单纯优化短期指标,会带来短期流量的显著增加,但用户的次日或者7日留存不一定能有相应幅度的提升。而将长期的指标拆解成一些可优化的目标或者目标序列则是解决长期指标优化的关键。还有,现在大部分情况下,业绩追求的是用户指标的优化,但是内容平台是一个非常庞大的生态系统,尤其在自媒体的加入并参与后。如果只考虑用户,忽略了自媒体作者的话,很容易造成劣币驱良币,好的写手不再发文,伴随而至的,是有多元化需求的用户也会慢慢流失,最终系统留下的可能就是一些忠诚度较低的用户。

  充分利用海量数据和专家知识提升效率和价值

  一次推荐一般需要经过召回,排序,直播,策略几个阶段,召回是指从特别大的一个内容候选集合中挑选出用户可能感兴趣的文章,排序需要对这些用户感兴趣的文章做精确的估计,判断用户的点击可能性,策略阶段更多从用户的体验出发进行的一些规则控制,在排序阶段我们更多的关注是提升我们的效率,在召回阶段需要更多的考虑价值。

  一点的排序模型最早使用的是基于海量动态特征的GBDT,GBDT没有特别好的实时更新方法,我们使用了实时的动态特征来弥补这一点,动态特征更新非常容易并行,使用也非常的方便。除了更新慢以外,GBDT的特征维度不能太高,这对GBDT的特征工程有了更高的要求,在GBDT里面实现的特征大部分都是一些基于动态特征组合而来的超级特征,不能使用大量的ID特征,这非常不利用精确捕捉和区分一些长尾信号。

  为了解决这些问题,我们开始使用了基于大规模离散特征的在线逻辑回归,之前放在动态特征里面的组合特征直接作为模型的特征实时进行更新,从效果上看,尤其在点击率这块,提升还是非常显著的。这两个模型或者说原始的特征最终被我们融合在一起使用,融合的方法我们也经过了一些的摸索,从简单的线性组合,到将GBDT的叶子节点特征加入在线线性模型,再到利用DNN直接将GBDT使用的超级特征,一些重要的ID特征embedding表示,和海量的交叉特征一块使用,超级特征和一些embedding特征先经过几层的神经网络充分交叉,最后再与海量的交叉特征放在一块做出最后的预测。

码报:【j2开奖】一点资讯王元元:追着效率跑的算法如何兼顾内容?

  在召回阶段,我们更多的是以价值为导向,我们把问题分解成兴趣定义、兴趣发现和兴趣满足。以兴趣为核心,每个问题我们都积极引入专家和知识库知识,包括产品上鼓励用户的主动表达,这些高质量的先验知识和用户主动表达形成的高质量特征直接参与到了内容的召回和排序。

  算法还需被动反馈和主动引导相结合

码报:【j2开奖】一点资讯王元元:追着效率跑的算法如何兼顾内容?

  上图可以看到用户画像的强度和点击的关系。用户表达的兴趣越多,最后停留时长、点击数越多,它们两个之间有非常强的正相关的关系。快速发现用户兴趣意义重大,这里面有三个问题要解决,第一个是当前要试探什么,第二个是拿什么试探,第三个是如何控制试探的成本。

  第一个问题,我们需要试探的的兴趣一定是目前不确定性最大,确定以后又对用户的收益最大的兴趣,我们结合了自顶向下和顺藤摸瓜的策略,根据整体人群画像的特点训练了这样的一个试探模型;第二个问题,我们优先选择了在兴趣区分上信息增益比较大的内容;第三个问题,我们用经典的linUCB来平衡试探的收益和代价,事实上,我们可以按照用户切分流量,使用所有的用户行为,独立更新每个用户的兴趣偏好。

  现在我们整个内容分发行业,很多公司都在做同样的事情,有很多的方法和技巧。在现阶段,我们在关注流量本身的同时,需要更多的关注流量的构成,思考如何能够提供给用户更多元,更有价值的内容。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容