千人千面模块上线,直播,每一家淘宝店铺从此都可能有一个隐形智能导购,推荐算法再升级。 电商时代,消费者对推荐系统已经不再陌生。「蓦然回首」,你发现喜欢的商品就在首页显眼处。 如今,不仅仅是电商网站首页会给你贴心推荐。你逛进一家淘宝商家的店铺,也很有可能享受到推荐算法的服务。 阿里商家事业部相关负责人介绍,单纯通过算法做出的商品推荐,未必符合商家利益。常有商家抱怨,自家想卖的商品得不到推荐,营销被算法牵着鼻子走。而「千人千面」,就是先让商家给出他们想要推送的商品集,算法再从指定候选集中为进入某家商铺的消费者做个性化推荐。如此一来,算法可以为商家的营销服务,为商家既定的 营销计划「锦上添花」。 不过要做到这一点并不简单。 业界推荐系统往往由 Matching 和 Ranking 两部分组成。Matching 部分会根据全网用户的浏览、加购、收藏等行为数据,在一个庞大的商品池中找出较小的候选集。Ranking 则是利用综合用户 Profile,偏好,以及商品特征等信息训练得出的一个打分排序模型。 但是,阿里电商目前拥有百万级别的活跃店铺,单个用户在单个特定店铺内的行为记录非常匮乏,很难按传统方法有效进行 matching。 对此,阿里商家事业部提出一种高可扩展性的 Graph Embedding(图嵌入)方法,并创新性地将它应用到商品的 embedding 中。它能够以非常小的存储空间来计算任意两个商品的相似度。就算你此前从未踏足这家店铺,算法也能根据你此前在别家的浏览记录,从店铺里挑出你可能喜欢的商品,摆在你面前。 模块投入使用后,商家的商品点击率提升了 30%,成交量提升 60%。 从学术层面来说,该 Graph Embedding 方法可学习到能够描述图中节点间高阶的、非对称相似度的低维 Embedding 向量,并且可以在理论上解释这种基于机器学习的方法和基于预定义的传统节点间相似度的关系,相关论文已被人工智能领域的顶级会议 AAAI'2017 接收。 接下来是对该论文的中文讲解,完整论文PDF可点击阅读原文下载: 工业界的推荐系统通常由 Matching 和 Ranking 两个部分组成,Matching 部分会根据全网用户的浏览、加购、收藏等行为数据,利用协同过滤一类的算法(例如基于商品的 ItemCF)在一个庞大的商品池中找出一个足够小的候选集,以缩小后续算法需要评估的范围。Ranking 则是利用综合用户 Profile,偏好,以及商品特征等额外信息训练得出的一个打分排序模型。 我们的推荐场景,即对于店铺私域内的千人千面推荐模块来说,其与公网推荐的重要区别在于,推荐的目标仅限于很小的一部分商家指定的商品集。 传统的 Matching 这部分所遇到的难题在于,阿里电商目前拥有百万级别的活跃店铺,这使得单个用户在单个店铺内的行为记录非常稀疏。而在很多情况下,用户在近期首次进入某商铺主页时,由于缺乏店内的行为信息(如足迹商品),很难有效利用店内 ItemCF 来进行推荐。 ItemCF 的核心问题之一在于如何有效衡量与计算 item 与 item 之间的相似度parencite{recsurvey05}。对于全网推荐的应用场景,由于商品数量太大,通常我们会离线计算出每个 item 前 k 个相似的 item listparencite{itemcftopk},来用于在线打分的推荐方案。 然而,如果我们直接用全网 topk item 相似度的数据,对于每个商品来说,与他相似的商品数目其实可能很多,但由于 topk 的限制(通常小于 200),只有极少数店铺的商品才能够被召回,即基于全网 top-k 的商品相似度在同店推荐中的召回能力比较有限。 当然,我们可以使用同样的方法,对于每个店铺,仅计算店铺内部的 i2i 数据,来完成推荐。这样做的缺陷在于,完全无法覆盖用户没有店内足迹的情况。 因此,为了提高相似商品的召回,以覆盖用户没有店内足迹的情况,我们使用了图嵌入算法 APP 来基于用户浏览记录来做商品嵌入——试图将商品嵌入到一个低维空间中,开奖,同时保存一些商品之间的结构特征,即商品相似度。这样就可以用稳定、较小的代价在线算出任意两个商品之间的相似度了。 「旺铺智能版智能模块」是一款面向中小商家的、商家可运营的个性化商品装修模块。在商家侧算法提供面向场景的选品,同时允许商家对算法商品池进行调整,或者完全手动建立商品池;在消费者端,个性化算法基于商家设置的商品池对访客进行实时投放。产品设计上一定程度上满足了商家确定性需求,在此基础上通过个性化算法提升成交转化。 (责任编辑:本港台直播) |