如今,网购的人已经习惯了收到系统为他们做出的个性化推荐。腾讯视频推荐你可能会喜欢看的视频。网易云音乐会通过预测我们想要听什么歌曲从而生成个性化歌单。 所有这些推荐结果都来自于各式各样的推荐系统。它们根据顾客的浏览、搜索、下单和喜好,j2直播,为用户选择他们可能会喜欢、有可能会购买的商品,从而为用户服务。推荐系统的设计初衷是帮助电商提高销售额,现在这是一块儿规模巨大且不断增长的业务。 随着越来越多不同类型网站的用户数据变得可用,推荐系统得以将创新算法应用于这些数据之上,推荐系统变得越发精准和垂直,常常看起来比你自己还要了解你。 推荐算法是怎么“猜你喜欢”的? 你有没有想过自己在淘宝眼中是什么样子?答案是:你是一个很大、很大的表格里一串很长的数字。这串数字描述了你所看过的每一样东西,你点击的每一个链接以及你在淘宝上买的每一件商品;表格里的其余部分则代表了其他数百万到淘宝购物的人。你每次登陆网站,你的数字就会发生改变;在此期间,你在网站上每动一下,这个数字就会跟着改变。这个信息又会反过来影响你在访问的每个页面上会看到什么,还有你会收到什么样的推送。 比如彩蛋君刚逛了淘宝看了雪板,而淘宝下面的推送全变成了雪具的推荐 许多年来,推荐系统的开发者试过用各种各样的方法来采集和解析所有这些数据。目前,多数人都选择使用被称为个性化协同推荐 (Personalized Collaborative Recommender)的算法。这也是亚马逊、Netflix、Facebook 等海外一些主站选用的算法。说它 “个性化”,是因为这种算法会追踪用户的每一个行为(如浏览过的页面、订单记录和商品评分),以此进行推荐。而所谓的 “协同”,是这种算法会根据许多其他的顾客也购买了这些商品或者对其显示出好感(评分、浏览记录等),而将两样物品视为彼此关联,它不是通过分析商品特征或者关键词来进行判断的。 User-User (用户关联)算法:计算用户之间的相似度 这种类型的算法会计算一对用户之间的 “距离”,根据的是他们对同一物品打分的相似程度。举例来说,如果王二狗和张小花都给《爱乐之城》这部电影打了 5 分,那么他们之间的距离就是 0。如果二狗给同类型的《红磨坊》打了 5 分,而小花只打了 3 分,那么他们之间的距离就变大了。按照这样的计算得出来品味相对 “靠近” 的用户,我们把他们称之为共有一个 “邻集”(neighborhood)。 但是,这种用户关联的策略效果并不是很好。首先,形成有意义的邻集很难:很多用户两两之间只有很少几个共同评分,有的就完全没有;而仅有的那几个都打了分的项目往往是票房大片,基本上人人都喜欢的那种。再来,由于用户之间的距离可以变得很快,算法必须即时进行大部分的计算;而这可能会比一个在网站上这儿点点那儿戳戳的人下一个动作发出之前需要更久的时间去计算。 Item-Item (物品关联)算法:计算物品之间的关联 大部分的推荐系统如今都依靠“物-物关联”(item-item)的算法,这种算法计算的是两本书、两部电影或者两个其他什么东西之间的距离,依据的是给它们打过分的用户的相似度。喜欢苏青的人很可能会给张爱玲的作品打高分,因此苏青和张爱玲的书就共处一个邻集。一对物品之间的距离可能是根据成百上千万的用户的评分计算得出,在一段时间里往往保持相对稳定,因此推荐系统可以预先计算距离,并更快的生成推荐结果。亚马逊和Netflix 都曾公开表示过他们使用的是物-物关联算法的变种,但对细节都绝口不提。 用户关联算法和物-物关联算法都有的一个问题,是用户评分的不一致性。当给他们机会再评一次分时,用户往往会对同一件物品给出不同的得分。品味在变、心情在变、印象也在变。而开发者们也在一直在尝试不同的方法在模型中纳入这一变量;比如用户给某个商品了打一个分,但这个评分与推荐算法所了解的关于这个人和这个商品的其他相关信息不相符,有的推荐算法就会邀请用户再次对这个商品进行评价。 降维算法:把事物特征一般化 不过,用户关联算法和物-物关联算法还存在一个比一致性更大的问题:它们太刻板了。就是说,它们能发现都喜欢同一样东西的人,但却忽略了爱好非常相似的潜在用户组合。比如说你喜欢齐白石的虾。那么,在这位大师画的 100 幅虾中,你最喜欢哪一幅?在一群喜欢齐白石的人当中,可能每个人喜欢的虾都不相同,atv,而基本的算法就可能识别不出这些人都有着共同的爱好。 (责任编辑:本港台直播) |