用户的兴趣易受多重因素影响而不断变化,这对个性化推荐来说是个不可避免的挑战。个性化推荐系统的基础部分是用户兴趣建模,用户兴趣建模的质量直接决定了个性化推荐的质量。但是用户兴趣随时都会受到社交、场景、环境等多重因素影响,用户兴趣地不断变化使得根据以往数据预测用户未来倾向的工作变得很难,也会影响推荐结果的准确性。 第二座山,隐私。 对以用户数据为基础进行的个性化推荐来说,如何保护用户隐私是个不小的难题。传统的内容推荐系统对用户的页面访问记录进行数据挖掘,找出用户的访问习惯,然后在服务器端根据用户需求进行信息筛选,试图为用户提供信息推荐服务和垃圾信息过滤服务。但如何能在保护用户隐私的同时,又为用户提供更准确的内容推荐服务是一个不小的挑战。 第三座山,价值观。 除了三座大山外,还有一个问题也值得重视。现在的机器推荐等于“没有三观”、“没有审美”,在中文圈运营,由于众所周知的原因,一定会遇到相当的挑战。 流量造假和作弊是比较明显的例子。比如有网友告诉笔者说:网上经常看到一些视频学习人数几万、几十万,数字大的得令我们怀疑人生,结果测试了一下,页面刷新一次人数就加三而新课程加几十,瞬间明了。半夜测试某些视频直播,对着墙拍,从启动直播十分钟直播粉丝还能蹭蹭往上涨,进一个真粉丝时人数又一波涨,作弊一时爽,但心里不踏实。 曾经有企业在智能推荐的客户端上投过一些非常垂直大号的广告,有的效果真好,有的造假太明显---在阅读量瞬间破万的时候带过来的流量,还不如自己阅读破千的号效果好。如此种种,数据是正经的,就看用它的人正经不正经了。 未来,个性化推荐如何在技术和管理上继续革新,人工智能因素的参与能否改善现存的诸多问题,为用户产生更优质的推荐结果将成为一个重要课题。 三、巨头正在开辟的技术路线 其实,无论支持还质疑有多么大,个性化推荐已经引得无数巨头竞折腰。 目前在市场上,依然是新老技术各占一方地盘,新派深度学习技术快速崛起,咄咄逼人;老派技术也在不断优化,开奖,以防不测。新老技术之争,是当下的一个热点,也是决定未来发展的两大路线。 (一)老派技术认为:传统推荐技术可以自我完善 1.Google新闻的套路,不断优化 Google新闻是一个在线信息门户站点,它聚集数千家信息源的新闻报道(在将相似新闻分组后)并以个性化的方法展现给登录用户。由于文章和用户数量巨大,以及给定的响应时间要求,纯粹的基于记忆的方法是不适用的,需要一种可扩展的算法,因此Google新闻组合使用了基于模型和基于记忆的技术。 Google新闻的套路依然是协同过滤的底子。它在个性化推荐方面采用的是基于模型和基于记忆的技术相结合的协同过滤技术。根据《推荐系统》一书的介绍,基于模型的那部分依赖两种聚类技术: ① 概率潜在语义索引(PLSI):协同过滤的“第二代”概率技术, 为了识别出有相似想法的用户和相关物品的聚类, 引入了隐藏变量,对应每个用户—物品对的有限状态集合,能适应用户可能同时对多个主题感兴趣的情况。 ② MinHash:根据两个用户浏览过物品的交集将两者放入相同的聚类(哈希桶)。为了让这种哈希过程具有可扩展性,采用了一种特殊方法寻找近邻,并采用Google自己的MapReduce技术在几个机群之间分发计算任务。 基于记忆的方法主要是分析“伴随浏览量”。“伴随浏览量”指的是一篇文章在预先定义的一段时间内被相同用户浏览过。预测时需要遍历活跃用户最近的历史数据和从内存里获取邻近的文章。运行时,预先设定集合里候选物品的综合推荐评分是这三种方法(MinHash、PLSI和伴随浏览)获得的分数的线性组合计算值,然后再根据计算值的高低进行推荐结果的输出。 2. Linkedin为四个场景开发的系统 Linkedin主要是通过自主研发设计的协同过滤推荐平台Browsemap实现个性化推荐。Browsemap是Linkedin开发的一个实现了物品协同过滤推荐算法的泛化平台,该平台可支持Linkedin中所有实体的推荐,包括求职者、招聘贴、企业、社会群体(如学校等)、搜索词等,若要通过该平台实现某个新的实体协同过滤推荐,开发者要做的工作仅仅包括:相关行为日志的接入、编写Browsemap DSL配置文件和调整相关过期参数等简单工作。 (责任编辑:本港台直播) |