极客公园微信号:geekpark 推荐算法
在这届前所未有的美国大选落幕后,陷入失望和沮丧的人们纷纷指责 Facebook 在「川普上位」这件事中起到推波助澜的作用。原因在于 Facebook 对希拉里的「假负面」消息置之不理,而它的病毒式扩散影响到了选民判断。 然而这家科技公司从未承认过自己的媒体属性。尽管在皮尤的最新调查中,它已经成为 60% 以上的美国人获取新闻的主要来源。 人们第一次大规模地将目光聚焦在这些流量大户首页的个性化 feed 流中,并深刻感受到了「算法扭曲场」在真实生活中的威力。虽然算法并非 Facebook 陷入当前窘境的唯一因素,但它隐藏在你连接世界的社交关系中,对人们的信道施加影响。了解算法如何工作,已经成为互联网时代的一种「民主权利」。 在回答「为什么个性化 feed 如此重要」时,扎克伯格曾说: 「你对家门口一只濒临死亡的松鼠的关心,也许更甚于非洲难民。」( A squirrel dying in front of your house may be more relevant to your interests right now than people dying in Africa.) Google、Netflix、Amazon、今日头条……在如今大多数人所依赖的内容、电商、工具产品中,你会渐渐看到更多自己感兴趣的、订阅相关的、点击过的、长时间阅读的、朋友或与你拥有类似特征人群所看到的东西。 简单来说,这些科技公司的产品很早以前就开始与纸媒、电视台、门户网站或所有按照时间线排序的「媒体」划清界限了。 在产品使用上,首先它需要交互,其次它对每个人来说都不一样。而在产品个性上,它的主要面貌就是「迎合」:只喂用户爱吃的东西,试图增加活跃度和停留时间。 具体表现是,很多第一次使用个性化推荐产品的人对它嗤之以鼻,「看起来它并不了解我要什么」——在你还没有付出时间成本的前提下,是的,确实是这样。但在机器追踪到你的有效数据之前,它呈现的是大多数人感兴趣的东西。 平凡和粗野,一点儿也不高贵。这也许就是互联网多数时候的面貌,不管你是厌恶还是毫无感知。
好的,欢迎进入算法的世界。我们是时候聊聊这位「新时代的守门人」了。 Facebook 究竟是如何推荐信息的? 一个大前提是,推荐系统的本质是帮助「用户」连接「物品」(这里的物品可以指内容、商品、人等等)。只有当数据足够多,且足够有效时,整个推荐系统才有意义。 根据去年 6 月 Facebook 官方公布的信息,他们使用的是分布式迭代和图像处理平台 Apache Giraph 和推荐系统最经典的算法:协同过滤 (Collaborative filtering) 。其中,EdgeRank 算法是一个重要里程碑。 Facebook 的 EdgeRank 是信息流 (Timeline) 推荐的代表,它决定了每个用户的首页显示什么信息。EdgeRank 隐藏「无聊的东西」。 当第一次登入 Facebook,你看到的是朋友们最近的动态。用户的每一个动作(上传一次状态、评论朋友的动态、为照片打标签、加入一个粉丝俱乐部、授权加入一个活动等)都被称为「边」(Edges) 。 但如果你要看完所有人的动态,也许就很有负担。为此 Facebook 写了这个「量边」(EdgeRank) 的算法,预测你对动态感兴趣的程度,动态的评分越高,位置就越靠前,以此完成对每个用户 feed 流的「清洗」。 当然这是比较用户导向的说法。精准的广告投放也是推荐系统的关键应用,它决定社交网站的商业化能力。在 Facebook 的最新一季度财报中,广告收入已经占到了 97%。目前的个性化推荐产品都坚信这个未来:当推荐足够对味,穿插其中的精准广告就可以成为一种舒心的服务。 在这套算法中,包含了轻微的「随机因素」(randomization elements) 。因为扎克伯格有次在采访中说,当用户发现算法太了解他们的时候,人们会感到恐惧。 除此之外,它还包含「关键词聚合」功能。News Feed 的发明者之一 Ken Deeter 在 Quora 上简单谈了下这个问题: (责任编辑:本港台直播) |