「我们基于实体抽取的公开语料对语言建模,利用这些数据我们可以提取不同信任度 (various levels of confidence) 的话题。第二层的基础设施会利用多维数据提高它的准确性。对于特定对象,我们也有些启发式算法 ( some heuristics) ,它们在抽取系统中过滤噪音,并决定什么更有报道价值。」 这种「兴趣竞争」有多可怕?2007 年,一位 Facebook 工程师透露,「只有 0.2% 的内容有资格在 feed 流中露脸,AI 视角和系统视角会共同决定哪些是让人印象深刻的东西,」,堪比新时代的「信用评级机构」。 无趣的东西是无法「贿赂」算法的。唯一的办法就是把自己在 Facebook 上塑造成一个万人迷,粉丝们蜂拥而至,点赞和评论。 那么,作弊有没有用呢?最近,Amazon 就开始对那些「具有奖励性质的评论」开刀了。类似「好评返现」的招数如果损害到了消费者判断,这些平台也不会蠢到袖手旁观。 在 2010 年的 Facebook F8 大会上,他们公布了 EdgeRank 算法的三个构成因素:
1. 亲密度(Affinity Score) 亲密度衡量你对「边」的互动程度。你和一个好哥们有 50 个共同好友、经常互相写评论……那么 Facebook 就会倾向多给你看到他的动态。 在互动中,强度、你对互动者的熟悉程度、时间间隔都是比较重要的。 在这里可以看到,Facebook 倾向于依据「直接事实」做判断。如果你属于那种「身体比较不诚实的」,或者「消极的旁观者」,那就可能要出问题。 以及, 同为「评论」,你高于你的朋友,你的朋友高于你朋友的朋友; 如果你与过去互动频繁的朋友渐渐疏远了,那他的影响力就会变弱; 亲密度是单向的:我把朋友当哥们儿,不代表他也这样想。 2. 边的权重(Edge Weight) 每种「边」都有不同的默认权重。比如评论的权重就高于点赞。Facebook 倾向于把更能「迷倒」你的东西赋予更高的权重,就像图片和视频就高于文字链接。 但每个人又不同。如果你只评论文字链,而忽略图片和视频,那么文字链权重可能就高于那些声色犬马的东西。 同时,你的「边」来源也将影响权重。比如,你通过广告而关注某个公共主页的权重,就低于你去直接搜索。 此外,Facebook 为了推广某些新功能,新功能的权重也会在初期适当提高。 3. 新鲜度(Time Decay) 旧闻不受欢迎。EdgeRank 的动态评分不会让你看到在「整个时间长河」中最受欢迎的东西,它的面貌永远是「当下」的。同时,登陆间隔时间、频率都有影响。使用越频繁,新鲜度就越明显。 但在 2013 年,Facebook 调整了此种「腐烂」 (decay) 因子(因为当你错过了某些消息,不代表那些消息是不相关的),并增加了「按照时间线排列」的选择。
总结一下,EdgeRank 算法的大致思路:如果一个 story 被你熟悉的好友最近产生过重要的行为,开奖,它在 feed 流的排序中就有较高权重。 看起来并不是太高深。但是,引入机器学习的 EdgeRank 就不可同日而语了。 2013 年前后,Facebook 开始强调他们做 feed 流的目标:让对的人在对的时间看到对的东西,并找了数千人做调查「什么是好内容」。 为了改进 EdgeRank,找到「高质量的内容」,他们加入了机器学习。 2014 年,深度神经网络的成熟带来了机器学习的突破性进展。算法从 A 事实导出 B 结论的时代过去了,直播,现在,A 事实可以导出 B、C、D、E、F 结论,发现数据中的关联,并自我学习和进化。 曾任新浪微博资深算法工程师的陈开江表示:「引入机器学习的 EdgeRank 算法前前后后一共考虑了 10 万+的变量(模型的特征空间应该会更高)。它在原来 EdgeRank 的基础上,更加细致地定义了不同层级的亲密度,并用深度神经网络理解图片内容和文字内容」。这些变量涵盖进了「适宜度、相关性、可信度」等因素。 用户增长和数据的爆发带来持续的挑战。 2014 年,Facebook 听取用户抱怨,宣布将采取措施打击「诱骗点击」行为,计算分析用户停留时间; 2015 年,他们宣布整治「欺诈」,当多名用户举报此条信息「造谣」时,平台就会降低它的分发度; 7 月,Facebook 推出「优先看」功能,除了选择「不看谁」,你还可以选择优先看到的内容; (责任编辑:本港台直播) |