本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

这是一篇写给2000万自媒体人必读的文章丨内容分(6)

时间:2017-08-10 20:17来源:本港台直播 作者:118KJ 点击:
再如,他点击了五次“吴晨光”,点了两次“邹明”。但关于吴晨光的优质内容没有了,只有关于“邹明”的好文章,那是应该推一条很水的关于“吴晨光

再如,他点击了五次“吴晨光”,点了两次“邹明”。但关于吴晨光的优质内容没有了,只有关于“邹明”的好文章,那是应该推一条很水的关于“吴晨光”的文章,还是推出关于 “邹明”的好文章?

还有,他点了五次“吴晨光”的图文,要不要推一个视频、音频或者问答?或者一个用户很喜欢“吴晨光”,今天突然出了“邹明”的绯闻,是应该把“邹明”的热点推出来,还是,依然根据用户的兴趣继续推“吴晨光”?

所以,用户画像的复杂性,不是简简单单的群体划分问题。它是对人性的深刻洞察,一个行为,比如点击,背后的含义也完全不同,有的是因为真的感兴趣,有的是因为标题党。

再看文章画像。对于编辑而言,文章画像相对简单,因为这是我们的专业。在传统媒体时代,我们就对文章进行画像——比如说消息、通讯、特稿,还包括我一直在尝试的调查报道和解释性报道。

当然,今天的文章画像的复杂性远远高于传统媒体时代。因为这里的文章泛指内容,而不是单纯的文字概念。它包括:

体裁——是文字、图片、视频、音频、直播,还是问答,或者类似微博的短内容?

作者——作者其实代表着背后的自媒体号,包括它的级别、知名度、订阅数等;

标签——这是对于文章描述的领域的认知,比如体育—足球—中超—国安。我们把打标签的权力交给了自媒体作者,他们可以在自己生产的内容下打好标签。同时,我们的审核编辑、频道编辑会修正标签;算法也会对标签做进一步调整。最后综合评判,给文章一个最准确的定位。如果是算法很聪明,做了深度学习,那么还可以分析出更多关于文章的特点,也就是像人一样,去理解文章的中心思想、段落大意。当然,这个很难。特别是对视频、图片的识别更难。

内容质量——它有两个维度,第一是编辑判断,第二是算法判断。编辑的判断前面已经讲过,无非是选题、采访、写作和包装四个维度;而算法判断无非依据数据,还是点击、分享、收藏、用户停留时长等等。

用户画像有了,文章画像也有了。我们现在开始匹配。匹配的依据就是算法模型。我们可以把模型做详细拆解,分为很多模块——比如垃圾过滤模块、热点模块、本地模块等等。算法在每个模块里,进行文章的挑选、排序;不同模块里的文章也在进行竞争、排序。最后择准、择优分发给用户。

我们以热点模块为案例,做具体分析。

热点是一个很好理解的词,就是刚刚发生的、关注度较高的新闻。它有别于其它非时效性的资讯。首先,我们要告诉算法,什么是热点。这里有很多方式——比如,监控百度。百度热搜词可能就是热点。在一点资讯要闻频道,编辑置顶的也是热点。我们还可以人工定义一些文章是热点:比如挂“j2开奖直播快讯”字头的就认为是热点。这是第一步。让算法了解热点,这就是机器学习。

第二步,我们要把热点内容做“召回”。这里的召回和问题汽车的召回不一样,是指把相关热点文章聚集在某一个池子里。我们称之为“热点池”。我们会把热点池分若干层次,在3年前,我就在《超越门户》中描述了搜狐网重大突发事件的规则,从三级到特级。来一点资讯做总编辑后,又进行了进一步修订。现在,我们把标准通个案例的方式输入计算机,让算法来判断热点的大小,以决定向什么样的群体进行推送。

这是一篇写给2000万自媒体人必读的文章丨内容分

图说:《超越门户》一书中,有编辑对重大突发事件处理的详细分级标准,现在我们要让机器学习,做更精准的分发。

下面,我们再来看文章分发的全过程。注意此图:

这是一篇写给2000万自媒体人必读的文章丨内容分

文章分为两个类型——抓取源文章(RSS)和自媒体文章。但不管什么样的文章,都需要经过反垃圾模块的过滤,去除有害政治信息、低俗内容、虚假广告、“标题党”文章等。所以,反垃圾模块里应该有这些功能。如果你问,这些功能是如何实现的,那还是前面提到的答案——输入案例或者关键词,让机器学习,找到特征并举一反三。

垃圾过滤之后,算法或者编辑给文章打了标签、做了分类,文章就聚集在各种池子里。刚才说了,这个过程就叫做召回。按照文章的标签分类以及不同的属性,它们被分配到各个池子里——包括我们刚才所说的热点模块、本地模块,还包括被编辑挑出来的好文章,进入精品池模块。如果有些文章又有本地属性、又是精品,就会同时放在两个池子里。还有一些文章,被打上了体育标签或者财经标签,就放在了体育或者财经的池子里。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容