郑宇:数据团队在一个项目的始终都扮演者及其重要的作用。从最开始的市场接入环节,我们的数据团队就要开始参与到其中,了解用户的需求和掌握的数据情况,甚至要帮助用户分析和提出他们的需求。在现在这些数据驱动和人工智能主导的项目中,单纯依靠销售和市场团队很难打开局面,直播,也很难形成跟客户的有效配合。最后期,我们还要对第三方运维企业做有效的培训,确保他们能够维护我们部署的系统。 Q:一个好的数据科学家最关键的品质是什么? 郑宇:你会发现在大数据时代我们真的不再缺数据了,缺得是我们的思维不够开放,思考问题A的时候不要一直看问题A的数据,其实会发现问题B和C的数据都可以拿来用,而且这个数据完全可以不是你这个领域的数据。只有你对这个问题理解深刻以后才能把别的数据背后的知识拿过来做融合。很多时候项目推动不了不是人数不够,而是因为缺乏中间灵魂的头脑,培养这样的人其实是非常困难的。以我个人的经验至少七到十年才能培养出这样一个真正的数据科学家来,这样一个人可以解决很多问题。所以我鼓励大家,你至少读一个五年PHD加两年的实战经验,基本上可以来做这样的事情。 Q:那么算法的理论知识和实际项目的实践经验哪个更重要? 郑宇:两个方面都很重要,但是后者的学习和获取过程更困难。 数据挖掘的模型你可能拿本书学个两三年基本能学会一些模型,但是很多项目的经验,你的真的很少有机会接触到这样的项目。只有把系统部署到真实世界中用起来,拿到新的反馈,再改进模型,经过这几次迭代过程你会学到很多东西,但是这个机会特别少,特别难得。而且你从后者怎么吸取和提炼这种经验也很重要,如果没有总结能力和提取能力的话,换个新问题你还是不会做。所以我觉得这两者都重要,后者培养起来更加困难一点。 Q:您怎么看待数据驱动?数据驱动在一个企业可以辅助商业决策,请列举在过去几年利用数据解决研究问题/发现观点的一个有趣的例子。 郑宇:从商业选址到空气质量预测,数据驱动的方法已经多次作出了有效的决策。比如,合理的为商业店面选址可以带来更多的人气,提升商业的收益并降低企业的投入。通过数据驱动的方法为充电桩选址,可以让有限的资源为更多车服务,并且避免过度拥堵。另外,在住宅地产选址的过程中,我们发现除了学区房,影响小区价值的另一个重要因素是该小区通向最近高速公路入口的路网距离(或者通行时间)。位置很近的两个小区,其价值(根据同一市场环境下的涨幅比来确定)可以相差很远。 关于数据模型资产的复用有两个东西可以转移 Q:北上广这些城市的数据化基础设施比较好,那么在这些地区做城市研究会相对可操作,但是,在其他的比较落后的地区如何开展相关城市计算研究呢? 郑宇:我们在研究中,会遇到有两个类似的模型应用场景的情况,但是我们不能直接把在A场景做的模型应用到B场景去,这时候,我建议基于迁移学习的方法来做不同场景间的知识的转移。有两个东西可以转移: 第一,数据和数据之间的关系可以转移:比如说出现拥堵的时候空气质量会变坏,当湿度比较高的时候容易形成雾霾。这种数据和数据之间的关系在很多地方都是普遍存在的,可以在A 城市里面用丰富的数据训练出一些字典,然后以此为基准复用到B、C、D城市去。 第二,利用隐含空间:数据本身可能不能转移,但是把数据投影到隐含空间以后,不同城市的数据就可以共享。我举个隐含空间的例子,比如北京市的交通流量和宁波市的交通流量肯定很不一样,但是它们投影到隐含空间里面可能都是早高峰堵、晚高峰堵中间不堵,如果都能投影到类似的隐含空间以后,不同城市的数据就可以共享和利用。 Q:如何选择模型特征? 郑宇:在做模型特征选择时,数据质量比特征重要,特征比模型重要。 (责任编辑:本港台直播) |