搜狐多年媒体经验,积累了大量低质量文章样本,机器虽然没法理解文本内容,但是可以通过不断学习与分析这些质量差的文章样本,描绘出低质文章的共同特征。当一篇新文章进来时,机器会计算新文章的特征并与已有的低质文章模型进行比对,如果特征相似,则会被判断为质量差的文章不予推荐。 目前机器学习的低质文章样本主要是以下几个维度: 1.广告软文(包括硬广和软文) 2.小众文章(文章受众窄) 3. 文中附二维码、活动链接等明显的推广文 以上维度具体举例如下: 广告软文 l 硬广 这类文章直接介绍商品或者服务内容,通常在题目中就带有商家或产品名称,且通篇多次重复。文章内容以广告信息为主体,且常带有广告大图。此类广告较容易识别,广告效果强,文章不会被推荐。比如, 「要火!!合肥这家性价比高到爆的商场开进滨湖了!」,文章目的为推广「红星美凯龙商场开业」活动,且整篇文章并不具备可读性。这类文章会被系统过滤掉不予推荐。 l 软文 软文是由专业人员精心策划的广告,是潜伏在软文中的广告。通常从标题上无法直接判断为广告,其正文也常与新闻热点、知识爱好、赛事公益、心灵鸡汤、文化游记等内容掺杂,常常要仔细读到文末才令读者发觉广告信息。机器对于这种文章,需要不断学习,从而达到准确判断软文的效果。例如 「车子是租来的但生活不是」这篇文章,表面上看是一篇生活感悟类型的文章,其实是租车公司的软广。 小众文章 这类文章主要是学术活动会议、小型展会、小型招聘会、小型活动等的推广文,地域性、时效性较强,用户受众较少。例如「“远东宏信杯”天津金融系统网球赛举行」这篇文章,讲天津市某机构举行的网球比赛。地域性较强,受众较少。这类文章会被系统过滤不予推荐。 推广文 l 含有二维码、电话号码、网址链接等信息 l 正文中推广图片或含推广信息水印的图片(不包括含微信公众号水印图片) 这类文章有明显的推广倾向,可读性较差,会被系统过滤不予推荐。 推荐 在传统媒体平台上,哪些文章能上首页是由编辑们决定的,编辑们会在阅读完文章后,决定是否将其推上版面。这种机制有两个个非常明显的弊端: | 首先人的精力是有限的,处理的文章数量也是有限的; | 其次,这种判断方式主要依赖于编辑的喜好,较为主观。 这些限制导致传统的推荐方式无法完全适应现在用户获取资讯的习惯。因此我们需要利用计算机来进行内容自动推荐。 在搜狐公众平台, 一篇文章经过审核、去重、低质文章过滤以后,会进入到推荐系统进行算分。文章是否被推荐、什么时候被推荐、被推荐在信息流中的什么位置,都取决于在推荐系统中的表现。 如何算分? 系统是如何给文章算分的,文章又是如何被推出来的,机器分析的部分维度如下: 时效性分析 文章的时效性是很重要的一个维度,新的文章更可能包含时下最新鲜的资讯,因而也更容易被推荐,也更容易出现在信息流的靠上的位置。 作者评分 一篇文章的质量很大程度上受作者的影响,一般而言优秀的作者写出来的文章质量会更高。推荐系统会从多个维度对作者进行评分。包括: l 作者历史发表文章的反馈表现。机器会根据作者已经发表的文章表现来初步预估该作者新发的这一篇文章的质量,从而给该文章打一个合理的分数。 l 作者发表的文章垂直性,即作者发表的文章是否和自己所在的频道一致。如果一个作者深耕某一个领域,经常在该领域发文,机器会认为该作者发文垂直性较好,那么这个作者发出来的文章得分会较高;相反,如果一个作者发文领域比较分散,今天发科技,明天发旅游,后天发财经,机器会认为该作者发文不够垂直,文章得分会相应降低。 (责任编辑:本港台直播) |