wzatv:【j2开奖】产品经理需要了解的算法——热度算法和个性化推荐(2)_本港台直播_J2开奖直播

　　由于新闻的强时效性，已经发布的新闻的热度值必须随着时间流逝而衰减，并且趋势应该是衰减越来越快，直至趋近于零热度。换句话说，如果一条新闻要一直处于很靠前的位置，随着时间的推移它必须要有越来越多的用户来维持。

wzatv:【j2开奖】产品经理需要了解的算法——热度算法和个性化推荐

　　我们要求推荐给用户的新闻必须是24h以内，所以理论上讲，衰减算法必须保证在24h后新闻的热度一定会衰减到很低，如果是线性衰减，当某些新闻突然有大量用户阅读，获得很高的热度分时，可能会持续排名靠前很久，让用户觉得内容更新过慢。

　　参考牛顿冷却定律，时间衰减因子应该是一个类似于指数函数：

　　T(Time) = e ^ (k*(T1 – T0))

　　其中T0是新闻发布时间，T1是当前时间。

　　而由于热度的发展最终是一个无限趋近于零热度的结果，最终的新闻的热度算法也调整为：

　　Score = ( S0(Type) + S(Users) ) / T(Time)

　　2.5 其他影响因素

　　很多新闻产品会给用户“赞”，“踩”或“不在推荐此类”的选项，这些功能不仅适用于个性化推荐，对热度算法也有一定的作用。

　　新闻的推送会造成大量的打开，在计算热度的时候需要排除掉相关的影响。类似于这样的因素，都会对热度算法产生影响，因此热度算法上线后，依然需要不断地“调教”。建议把所有的调整指标做成可配项，例如初始热度分，行为事件分，衰减因子等，从而让产品和运营能实时调整和验证效果，达到最佳状态。

　　3. 基于内容的推荐算法

　　现在，你的内容产品顺利度过了早期阶段，拥有了几万甚至十几万级别的日活。这时候，你发现热度算法导致用户的阅读内容过于集中，而个性化和长尾化的内容却鲜有人看，看来是时候开展个性化推荐，让用户不仅能读到大家都喜欢的内容，也能读到只有自己感兴趣的内容。

　　这里引入一个概念叫“新闻特征向量”来标识新闻的属性，以及用来对比新闻之间的相似度。我们把新闻看作是所有关键词（标签）的合集，理论上，如果两个新闻的关键词越类似，那两个新闻是相关内容的可能性更高。新闻特征向量是由新闻包含的所有关键词决定的。得到新闻特征向量的第一步，是要对新闻内容进行到关键词级别的拆分。

　　3.1 分词

　　分词需要有两个库，即正常的词库和停用词库。正常词库类似于一本词典，是把内容拆解为词语的标准；停用词库则是在分词过程中需要首先弃掉的内容。

　　停用词主要是没有实际含义的，例如“The”,“That”，“are”之类的助词；表达两个词直接关系的，例如“behind”，“under”之类的介词，以及很多常用的高频但没有偏向性的动词，例如“think”“give”之类。显而易见，这些词语对于分词没有任何作用，因此在分词前，先把这些内容剔除。

　　剩下对的内容则使用标准词库进行拆词，拆词方法包含正向匹配拆分，逆向匹配拆分，最少切分等常用算法，这里不做展开。

　　因为网络世界热词频出，标准词库和停用词库也需要不断更新和维护，例如“蓝瘦香菇”，“套路满满”之类的词语，可能对最终的效果会产生影响，如果不及时更新到词库里，算法就会“一脸懵逼”了。

　　因此，推荐在网上查找或购买那些能随时更新的词库，各种语种都有。

　　3.2 关键词指标

　　前面已经说过，新闻特征向量是该新闻的关键词合集，那关键词的重合度就是非常重要的衡量指标了。

　　那么问题来了，如果两条新闻的关键词重合度达到80%，是否说明两条新闻有80%的相关性呢？

　　其实不是，举个例子：

　　（1）一条“广州摩拜单车投放量激增”的新闻，主要讲摩拜单车的投放情况，这篇新闻里“摩拜单车”是一个非常高频的词汇，新闻在结尾有一句“最近广州天气不错，大家可以骑单车出去散心”。因此“广州天气”这个关键词也被收录进了特征向量。

　　（2）另外一条新闻“广州回南天即将结束，天气持续好转”，这篇新闻结尾有一句“天气好转，大家可以骑个摩拜单车出门溜溜啦”，新闻里面“广州天气”是非常高频的词汇，“摩拜单车”尽管被收录，但只出现了一次。

(责任编辑：本港台直播)