作为人群聚集区,城市是一个天然的数据集中池。 社交媒体、交通流量、气象、地理等多种大数据都在这里汇聚,物联网、传感器的发展,也让这些数据得以被追踪存储。当这些时空数据集被组合起来,并与人工智能结合,这似乎是一条解决交通拥堵、环境恶化、能耗增加等城市问题的新的角度。 “我们都生活在城市中,城市跟我们的生活密切相关。我是做计算机科学的人,那为什么不能想办法解决身边的那些最常见的问题呢?”在一次公开采访中,郑宇如此描述自己钟情城市计算的一个原因。 近年来,城市计算(Urban Computing)逐渐走入公众视野,并且越来越受到社会关注。这是是计算机科学以城市为背景,与城市规划、交通、能源、环境、社会学和经济等学科融合的新兴领域。城市计算通过不断获取、整合和分析城市中不同领域的大数据来解决城市所面临的挑战。 在2013年,郑宇因为在城市计算方面的杰出研究被《MIT科技评论评》评为全球杰出青年创新者。 雅虎创始人杨致远、谷歌联合创始人拉里?佩奇、Facebook创始人马克?扎克伯格、Twitter联合创始人杰克?多西以及苹果设计师乔纳森?艾维等多位互联网明星都曾入选TR35。而郑宇是当年入选者中仅有的两位来自中国机构的创新者之一。 微软研究院郑宇带领团队主持“城市计算”以来,通过分析和融合城市中的各种大数据,实现了一系列关于智能交通、城市规划、环境和能源的实际案例。相关技术不仅被应用于微软的产品,并且还在多个城市服务于中国政府。 3月20日,微软亚洲研究院“城市计算”领域负责人郑宇博士近期在清华大数据讲座上分享了题为“大数据驱动城市计算”的讲座。(点击查看大数据文摘推送的相关文章《》) 演讲后,我们有幸针对“数据科学团队建设问题”对郑宇博士补充了相关采访问题,针对这样一个时空数据交杂的分析领域,郑宇在组建数据团队和数据人才培养方面有着自己的独到见解,此外,针对技术和研究方向上,他也给出了基于自己经验的看法。 以下为问答实录—— 数据分析师与数据科学家的区别就像本科与博士做研究一样 Q:数据分析师和数据科学家有什么区别? 郑宇:很多公司的招聘广告上面写招聘数据科学家其实都不是招真正的数据科学家,而是数据分析师。数据分析师有明确的任务,明确的数据,结果也明确,他会用一些分析工具去跑一些报表,然后提交结果。而数据科学家要有能力自己找题目,首先要懂得行业问题,其次懂得数据背后的隐含信息,然后还要知道这个行业问题之后你要知道用什么数据如何解决这个问题。除此以外,还要对各种模型都很清楚,不光是机器学习,还有数据管理以及可视化,把很多模型要组合在一起。最后要对云计算平台有一定的了解,要学会怎么用,甚至要学会怎么改它,一个好的数据科学家是站在云平台上面看问题、想数据、关联模型,把这些模型有机组合起来部署到云平台上面,产生鲜活的知识,解决行业问题,这个才是大数据。其中的区别就像本科与博士做研究一样,本科生是老师手把手教题目,博士生是自己找题目。 我通过两个例子讲述一下什么叫数据科学家,什么叫数据分析师: 先举一个数据分析师的例子,银行向用户发信用卡,用户提交的表格上有他的年龄、职业、收入等信息,需要分析师判断是否给这个用户发信用卡。这是一个YES or NO的问题,分析师要做的是拿个人的信用记录去训练一个分类模型。任务明确,数据明确,决定也很明确。 再说一个政府向数据科学家提出的需求,“徐汇区有一条路灰很多,怎么用大数据去处理?”、“北京市建副中心到通州以后对北京整个的经济、环境、交通有什么影响?”这个问题不是因果问题,不是预测问题,也不是关联问题,需要你去想找什么样的数据,怎么展现怎么实施。没有具体问题也没有具体数据,这就是数据科学家应该解决的问题。 Q:您的团队大致有多少人组成?与数据相关的团队有多少人,有哪些不同的职位划分? 郑宇:我的核心团队其实没有大家想象的那么大。有2位研究员、4名软件工程师和八、九名研究助理组成。根据城市计算的四个层面(城市感知、城市数据管理、城市数据的分析和挖掘、服务提供)以及每个人的特长和兴趣,我会给这些组员分配不同的工作。其中一位研究员带领几名研究助理和工程师,负责数据管理层面。另一位研究员带领几名研究助理和工程师,负责城市数据的挖掘和分析层面。另外几名研究助理会分布在城市感知以及服务提供两个层面。我会参与到城市计算各个层面的项目中去。此外,我们会跟一些合作伙伴展开合作,比如,会有一些高校的团队在某些项目中帮助我们做一些可视分析. 另外,我们也会经常跟市场部门的合作伙伴一起跟客户沟通,了解他们的需求,协调数据并最终部署技术。 Q:数据相关团队在微软及您的整个团队中所处地位如何? (责任编辑:本港台直播) |