协同过滤算不算人工智能?从技术的角度来看,它也属于AI范畴。但必须指出的是协同过滤算法比较弱智,无论是基于用户的协同过滤,还是基于物品的协同过滤,推荐效果总是差强人意。 怎样通过一个成体系的方法论来引导推荐系统的不断优化?如何才能把复杂的现实因素糅合到推荐结果中?攻城狮们一度非常非常头大,重赏之下必有勇夫,后来,终于有人发现了更加灵活的思路。 (二)传统机器学习开始加速 2006 年,Netflix宣布举办 Netflix Prize。Netflix是一家老牌的在线影片租赁网站,举办大赛的目的旨在解决电影评分预测问题的机器学习和数据挖掘问题。主办方为此下了血本,宣称对于那些能够将Netflix的推荐系统 Cinematch 的准确率提升 10% 的个人或团队,奖励100 万美元! Netflix在自家blog上披露了许多庞大的数据,举例如下: * 我们有几十亿的用户评分数据,并且以每天几百万的规模在增长。 * 我们的系统每天产生几百万的播放点击,并且包含很多特征,例如:播放时长、播放时间点和设备类型。 * 我们的用户每天将几百万部视频添加到他们的播放列表。 显然,在这些海量数据面前,我们已经不能靠由纯人工或者小型系统建立起来的分类标准对整个平台用户喜好进行标准化。 比赛开始一年后,Korbell 的团队以 8.43% 的提升赢得了第一个阶段奖。他们付出了超过 2000 个小时的努力,融合了 107 种算法。其中两种最有效的算法:矩阵分解(通常被叫做 SVD,奇异值分解)和局限型玻尔兹曼机(RBM)。 矩阵分解作为协同过滤的补充,核心是将一个非常稀疏的用户评分矩阵R分解为两个矩阵:User特性的矩阵P和Item特性的矩阵Q,并用已知的数据构建这些向量,使用它们来预测未知的项。该算法在有效提高计算精度的同时,还能够加入各种建模元素,使更多元化的信息融合进来,更好地利用大量数据。 然而矩阵分解也有不足。不足之处在于,矩阵分解和协同过滤算法一样,都属于监督学习范畴,粗糙且简单,适用于小型系统。摆在网络巨头们面前的问题是,如果需要建立一个大型推荐系统,协同过滤和矩阵分解则会花费较长的时间。怎么办? 于是,一些攻城狮将眼光转移到无监督学习中。无监督学习中的聚类算法的本质是识别用户组,并对这个组内的用户推荐相同的内容。当我们拥有足够的数据,最好使用聚类作为第一步,来缩减协同过滤算法中相关邻居的选择范围。 隐语义模型运用了聚类分析方法,其一大优势是既可以做评分预测,又可以同时对文本内容建模,使得通过内容来进行推荐的效果得到较大提升。 传统的分析方式在对用户打标签,并根据标签映射到结果的两个步骤中准确度不高。比如用户填写的年龄不一定真实,或者并非所有青少年都喜欢漫画。而隐语义模型的核心,是超越这些表层语义标签的维度,通过机器学习技术,挖掘用户行为中更深层的潜在关联,使得推荐精度更高。 Netflix Prize百万美元武林大赛号令之下,天下英才频出。2009年达到了一个高峰,成为推荐系统领域最标致性的事件,这次比赛吸引了众多专业人士投身于推荐系统领域的研究,也让这项技术从专业圈子渗透到了商业领域,引发了热烈的讨论并逐渐勾起了主流网站的垂涎,基于内容的推荐、基于知识的推荐、混合推荐、基于信任网络的推荐等等走上了快速发展的通道。 这些推荐引擎与协同过滤不同,例如基于内容的推荐是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。内容过滤主要采用自然语言处理、人工智能、概率统计和机器学习等技术进行过滤。 百万美元花得值不值?据2016年的Netflix用户数据:注册会员6500万人,每天观看视频的总时长1亿个小时。Netflix说,每年靠这套系统能够节省10亿美元。 (三)深度学习带来“无人驾驶” 近些年来,用户的大痛点出现。智能手机的普及,让庞大的信息量和狭小的阅读屏幕成为一对难以化解的矛盾,用户阅读场景不再是固守于电脑屏幕,而是向移动化碎片化转变,搜索引擎失灵了,人工推荐忙不过来,机器推荐也不够用了,这种转变对大内容平台简直是生死考验。能满足需求则生,不满足则死。 (责任编辑:本港台直播) |