目前我们的成果已经应用在 IBM 的一些产品中了。我们的努力也让 Spark 达到了同类产品中的顶尖水准,我是说相比整个行业内所有的数据平台。在最近发布的 Watson 机器学习产品中出现了我们的数据科学成果。同时,我们所做的一切都是在开源的基础上进行的,这也是 Spark 团队的宗旨,在开源社区中形成生态系统。提供支持,开展活动,让全世界所有人分享和交流,建立这个社区。我们的工作目前卓有成效。 机器之心:你刚才提到推荐系统,目前的在线和离线推荐系统有什么区别? Pentreath:的确,在线推荐系统永远是很容易做的,只要能够连接网络,在移动端也可以获得很好的体验,因为在线系统可以轻易地获得数据,如果你正在运营一个网站或者手机 app,你总是会想得到实时的用户数据反馈,用户在购物车中的商品等等;你需要实时对用户行为做出反应,提供相应的推荐。你会希望用户登陆他们的账户,留下信息以供分析。这些在用户登陆网站或者手机 app 中都很容易实现。 离线推荐系统是以相似的理念建立起来的,但很难进行有效的推荐,当客人走进商店时,系统无法感知他们的到来,也无法区分不同客人的喜好。你也许可以通过识别他们携带的信用卡来读取用户身份,以发送电子邮件或用户反馈的方式收集信息,但这仍然远远不够。因为这些信息很难进入数据循环中去。首先,你需要处理这些信息,学习用户习惯;随后提取重点进行推荐。这和在线方式相似,但更具挑战性。 机器之心:IBM 目前的推荐系统中是否用上了深度学习? Pentreath:当我刚刚加入 IBM 的时候,我们的推荐系统中还没有加入深度学习或是强化学习的内容,也不包含预先输入的特化属性,这在搜索引擎的推荐系统中经常会被用到。我认为深度学习十分重要,现在非常流行,所有人都在谈论它,深度学习也可以获得很好的结果。但深度学习目前没有应用在推荐系统中,最近一些论文中的研究正在向这方面发展,我知道 Spotify 在这上面有一些工作,他们正在用深度学习提取每首歌的风格,为用户做推荐模型,那真的很棒。 在去年末的 NIPS 上有一些很有趣的论文,谷歌发表了用神经网络模型做推荐系统的新方法。深度学习可以从图像、文字、声音中获取特征,当然也可以来做推荐系统,为什么不呢?我觉得这是一个很棒的课题,我们很快就会有新进展。 机器之心:在参加学术会议和进行技术开发之间,你如何权衡两者? Pentreath:我必须时刻关注行业内的最新进展,阅读大量文献。我认为自己是个喜欢向前看的人,希望抢先了解会议和研究中的成果,然后思考这些成果能够如何实现,在 Spark 中实现。 机器之心:最近 Spark 社群非常活跃,有很多大公司,如因特尔和华为都对 Spark 做出了一些贡献,对于 IBM 而言,你们对开源社区的态度是什么样的,特别是对 Spark? Pentreath:IBM 中 Spark 部门是在 Apache Project 之下的,正如其他项目,它是开源的一部分。它运行在社区贡献者的管理之下,Apache 的这种方式非常重要,它意味着在项目中没有哪家公司是具有一票否决权的,这是开源精神的一部分。Apache 中的贡献者都是独立个人,他们中的一部分是各家科技公司的员工,他们会时不时改换门庭,但不变的是对 Spark 的热爱。正是这种精神正在帮助着 Spark 社区不断成长。 IBM 在开源社区中的责任就是让 Spark 保持绝对的开源,在任何方面。IBM 会保持这样的策略,让社群和商业化的的产品建立在 Spark 之上,让更多兼容 Spark 的硬件驱动和性能优化出现。对于其它公司而言,IBM 只是社区中的普通一员,我们希望与所有成员共同合作开发这一生态系统,并保持它的开放。 机器之心:有关竞争者的问题,最近 CMU 教授邢波宣布 Petuum 离开了实验室,开奖,成为独立公司,并,他们宣称他们的平台比 Spark 和 Hadoop 高效很多,你对此有何评论? Pentreath:这很有趣,但我得说我不太相信。竞争总是好的,竞争让整个行业能够更快发展。这对所有人都是好的,无论是开源社区,还是 Petuum 来说。我认为对于 Spark 来说,我们的优势在于我们是一个大平台,我们的框架可以用来做很多不同的任务。Spark 还有很多特定的优势,例如它可以很好地执行感知器(Sigmoid)任务,在之前也许不够好,但在 Spark2.0 和 2.1 版本中这一部分得到了进一步加强。所以我认为 Spark 在所有新方向上是领先的。同时我认为我们的生态系统也具有优势。 (责任编辑:本港台直播) |