最近,小狐一直在后台收到有关文章推荐的问题。也侧面证明大家对公众平台越来越认可啦~小狐真的好嗨森! 于是,小狐决定详解搜狐公众平台 去重、过滤、推荐的过程,让大家,对公众平台的推送体系有个具体了解~ 文章去重 为什么要去重? 众所周知,在互联网上,同样的文章会被多个媒体或者平台刊登发布。原创内容除了原创来源之外,也经常会被其他媒体和网站转载或者复制。如果用搜索引擎搜索一篇文章,经常会得到多个网址。这种情况下,我们可以自行判断哪个网址更有权威,更有价值,然后点击访问。但是在搜狐自媒体内容推荐平台中,如果同样的文章在信息流中反复出现,这种体验对于用户来说是无法容忍的。用户只需要看到一篇文章即可,这篇文章最好是原创文章,而不是后来被抄袭的版本。 这种场景下,系统需要解决的问题有以下两个: 1. 系统中是否存在相同或者高度相似的内容? 2. 如果存在,那么如何选出一篇最好的、最有可能是原创的文章呢? 文章去重,就是对系统中所有文章进行分析,找出相同或相似的文章,使其不会同时出现在用户的信息流中。系统去重模块会首先通过文章去重机制,找出同样内容或相似内容的文章,然后保留最可能是原创的文章,过滤掉其他相同文章。 去重的好处 l 提升用户体验。相同内容的文章对用户来说一篇足以; l 鼓励原创。在文章相似的情况下,保留原创文章并加以推荐,是鼓励原创很好的方式; l 给更多内容以曝光机会。增加信息流内容的多样性。重复内容只推荐一次,其他位置留给其他优质文章。 文章去重过程 如何判断两篇文章内容是否相同呢?对于人来说,需要把文章逐字逐句读完才能判断,但是对于计算机而言,却完全是另外一种判断方式。通过计算,一篇文章的文本、标题、图片等都是可以转换成一串数字代码,这就像我们每个人的身份证,如果两个人的身份证号码一模一样,那么就可以肯定这是两个一样的人了,并不一定要仔细去看他们的长相。文字信息的“身份证”也能起到类似的作用。对于图片、视频等信息形式,原理也是类似的。 计算机应用领域中,常用于判断信息重复的方式是一种叫做“信息指纹"的方法。“信息指纹”的计算原理大概如下: 不管是中文、外文还是数字,在计算机系统里,都是以0或1的代码形式存储的,例如大写字母A的ASCII编码就是01000001,而小写字母z的ASCII编码是01111010(实际上也存在很多种编码标准,ASCII是一种常见的英语编码标准,采用8位二进制数字编码)。这实际上就相当于,每个字符都有一个自己专属的信息指纹。 简单来说,计算会对文本中出现的不同字符的信息指纹,结合它们各自在内容中出现的次数,反复进行算术运算,最终得到一篇内容的信息指纹。不同内容的信息指纹都是独一无二的。这个指纹一般是一个128位的二级制数字。相同文章具有不同信息指纹,或者不同文章具有相同信息指纹的概率都几乎是0。因此对于去重机制,不必担心误判,也不能心存侥幸。 原理上说,不同内容的身份证是不一样的,而相同内容的身份证是一样的。并且,相似的内容会具有相似的身份证。这就是文章去重的最基本原理。 每一篇文章都有属于自己的“身份证”,用来与平台中的其他文章进行比对。如果所有文章的身份证都是独一无二的,当然是最理想的情况,但是如果发现有身份证相同或者高度相似的文章,这时候就要决定选择哪一篇向用户推荐了。进行选择的最终目的是保证向用户推荐的内容是更有可能是原创的文章。 一篇新文章进来后,直播,直播,系统会将这篇文章的“身份证”与系统中已有的文章进行对比,如果身份证与已有文章完全一致或者重合度超过一定阈值,该文章即被判为重复文章,此时系统会考察两篇相同文章的发布时间,因为发布时间更早的文章,更有可能是原创,因此系统会选择发布时间较早的一篇进行推荐。 文章去重机制鼓励自媒体人选择搜狐自媒体平台首发文章,这样文章的发布时间会更早,也就更容易被去重机制保留并加以推荐。 低质文章过滤 (责任编辑:本港台直播) |