Linkedin主要是通过自主研发设计的协同过滤推荐平台Browsemap实现个性化推荐。Browsemap是Linkedin开发的一个实现了物品协同过滤推荐算法的泛化平台,该平台可支持Linkedin中所有实体的推荐,包括求职者、招聘贴、企业、社会群体(如学校等)、搜索词等,若要通过该平台实现某个新的实体协同过滤推荐,开发者要做的工作仅仅包括:相关行为日志的接入、编写Browsemap DSL配置文件和调整相关过期参数等简单工作。 ① 给求职者推荐公司:通过Browsemap实现基于物品的协同过滤,计算用户和潜在意向公司的相似度值,得到相关公司特征;将相关公司特征和用户/公司内容特征(包括用户位置、工作经验;企业产品、相关描述)一起分析得到最终的偏好分值。 ② 相似公司推荐:与给求职者推荐公司有两点不同:一是内容特征相似度变为公司画像之间的相似度;二是基于多种用户行为构建browsemap。 ③ 相似简历(用户)推荐:通过公司详情页浏览行为和用户画像特征实现该部分推荐。同时将相似简历的属性用于补足简历的缺失属性,得到该用户的虚拟简历。 ④ 搜索词推荐提供了四种关联方式: 一是协同过滤:在计算搜索词间相关性时会加入时间和空间因素; 二是基于推荐搜索词搜索结果的点击率; 三是基于搜索词之间的重合度; 四是基于推荐搜索词的点击率。 但实验结果表明协同过滤的结果最好,甚至也好于将这四种方式综合的结果。 3.今日头条的三个阶段 作为国内当红的个性化推荐产品,今日头条技术经历了三个阶段: 中期阶段,以个性化推荐算法为主,主要基于协同过滤和内容推荐两种方式。协同过滤技术思想和前文介绍的并无差别。基于内容推荐的方式,则是先对新闻进行刻画,然后利用用户的正反馈(如点击,阅读时长、分享、收藏、评论等)和负反馈(如不感兴趣等)建立用户和新闻标签之间的联系,从而来进行统计建模。 当前阶段,以大规模实时机器学习算法为主,用到的特征达千亿级别,能做到分钟级更新模型。架构分为两层:检索层,有多个检索分支,拉出用户感兴趣的新闻候选;打分层,基于用户特征、新闻特征、环境特征三大类特征使用实时学习进行建模打分。值得一提的是,实际排序时候并不完全按照模型打分排序,会有一些特定的业务逻辑综合在一起进行最终排序并吐给用户。 头条为何能取得成功?文章分析,很多人会说是头条的个性化推荐技术做得好,其实不尽然。原因在于,今日头条的个性化推荐也是经历着复杂的演变过程:从人工推荐到机器推荐再到最终不断迭代算法和技术,反复的进行验证,日益完善。 (二)新派技术认为:深度学习才是明智选择 新派技术主要指采用了深度学习的个性化推荐系统。 深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。 当常规推荐算法已经无法及时地分析处理体量较大的数据并准确地针对独立用户做出推荐时,具备相应技术水平的公司开始利用深度学习解决海量内容分析推荐的痛点。我们以较早开始引入深度学习的YouTube、Facebook 为例进行分析。 1.YouTube的神经网络 YouTube的推荐系统是是世界上规模最大、最复杂的推荐系统之一。YouTube的全球用户已经超过十亿,每秒上传的视频长度以小时计。视频“语料”库存日益增长,就需要一个推荐系统及时、准确地将用户感兴趣的视频不断推荐给用户。 相比其他商业推荐系统,Youtube推荐系统面临三个主要的挑战: 规模。现有绝大多数可行的推荐算法,在处理YouTube级别的海量视频就力不从心了。 新鲜度。YouTube视频“语料”库不仅仅是储量巨大,每时每刻上传的新增视频也是源源不断。推荐系统要及时针对用户上传的内容进行分析建模,同时要兼顾已有视频和新上传视频的平衡。 噪声。由于用户行为的稀疏性和不可观测的影响因素,用户的历史记录本质上难以预测。 (责任编辑:本港台直播) |