报码:【j2开奖】独家专访 | 从跨国投行到开源社区，IBM Spark总工程师Nick Pentreath的传奇经历(2)_本港台直播_J2开奖直播

目前我们的成果已经应用在 IBM 的一些产品中了。我们的努力也让 Spark 达到了同类产品中的顶尖水准，我是说相比整个行业内所有的数据平台。在最近发布的 Watson 机器学习产品中出现了我们的数据科学成果。同时，我们所做的一切都是在开源的基础上进行的，这也是 Spark 团队的宗旨，在开源社区中形成生态系统。提供支持，开展活动，让全世界所有人分享和交流，建立这个社区。我们的工作目前卓有成效。

机器之心：你刚才提到推荐系统，目前的在线和离线推荐系统有什么区别？

Pentreath：的确，在线推荐系统永远是很容易做的，只要能够连接网络，在移动端也可以获得很好的体验，因为在线系统可以轻易地获得数据，如果你正在运营一个网站或者手机 app，你总是会想得到实时的用户数据反馈，用户在购物车中的商品等等；你需要实时对用户行为做出反应，提供相应的推荐。你会希望用户登陆他们的账户，留下信息以供分析。这些在用户登陆网站或者手机 app 中都很容易实现。

离线推荐系统是以相似的理念建立起来的，但很难进行有效的推荐，当客人走进商店时，系统无法感知他们的到来，也无法区分不同客人的喜好。你也许可以通过识别他们携带的信用卡来读取用户身份，以发送电子邮件或用户反馈的方式收集信息，但这仍然远远不够。因为这些信息很难进入数据循环中去。首先，你需要处理这些信息，学习用户习惯；随后提取重点进行推荐。这和在线方式相似，但更具挑战性。

机器之心：IBM 目前的推荐系统中是否用上了深度学习？

Pentreath：当我刚刚加入 IBM 的时候，我们的推荐系统中还没有加入深度学习或是强化学习的内容，也不包含预先输入的特化属性，这在搜索引擎的推荐系统中经常会被用到。我认为深度学习十分重要，现在非常流行，所有人都在谈论它，深度学习也可以获得很好的结果。但深度学习目前没有应用在推荐系统中，最近一些论文中的研究正在向这方面发展，我知道 Spotify 在这上面有一些工作，他们正在用深度学习提取每首歌的风格，为用户做推荐模型，那真的很棒。

在去年末的 NIPS 上有一些很有趣的论文，谷歌发表了用神经网络模型做推荐系统的新方法。深度学习可以从图像、文字、声音中获取特征，当然也可以来做推荐系统，为什么不呢？我觉得这是一个很棒的课题，我们很快就会有新进展。

机器之心：在参加学术会议和进行技术开发之间，你如何权衡两者？

Pentreath：我必须时刻关注行业内的最新进展，阅读大量文献。我认为自己是个喜欢向前看的人，希望抢先了解会议和研究中的成果，然后思考这些成果能够如何实现，在 Spark 中实现。

机器之心：最近 Spark 社群非常活跃，有很多大公司，如因特尔和华为都对 Spark 做出了一些贡献，对于 IBM 而言，你们对开源社区的态度是什么样的，特别是对 Spark？

Pentreath：IBM 中 Spark 部门是在 Apache Project 之下的，正如其他项目，它是开源的一部分。它运行在社区贡献者的管理之下，Apache 的这种方式非常重要，它意味着在项目中没有哪家公司是具有一票否决权的，这是开源精神的一部分。Apache 中的贡献者都是独立个人，他们中的一部分是各家科技公司的员工，他们会时不时改换门庭，但不变的是对 Spark 的热爱。正是这种精神正在帮助着 Spark 社区不断成长。

IBM 在开源社区中的责任就是让 Spark 保持绝对的开源，在任何方面。IBM 会保持这样的策略，让社群和商业化的的产品建立在 Spark 之上，让更多兼容 Spark 的硬件驱动和性能优化出现。对于其它公司而言，IBM 只是社区中的普通一员，我们希望与所有成员共同合作开发这一生态系统，并保持它的开放。

机器之心：有关竞争者的问题，最近 CMU 教授邢波宣布 Petuum 离开了实验室，开奖，成为独立公司，并，他们宣称他们的平台比 Spark 和 Hadoop 高效很多，你对此有何评论？

Pentreath：这很有趣，但我得说我不太相信。竞争总是好的，竞争让整个行业能够更快发展。这对所有人都是好的，无论是开源社区，还是 Petuum 来说。我认为对于 Spark 来说，我们的优势在于我们是一个大平台，我们的框架可以用来做很多不同的任务。Spark 还有很多特定的优势，例如它可以很好地执行感知器（Sigmoid）任务，在之前也许不够好，但在 Spark2.0 和 2.1 版本中这一部分得到了进一步加强。所以我认为 Spark 在所有新方向上是领先的。同时我认为我们的生态系统也具有优势。

(责任编辑：本港台直播)