本文根据微软亚洲研究院“城市计算”领域负责人郑宇博士在中国人工智能学会AIDL第二期人工智能前沿讲习班所作报告《多源数据融合与时空数据》编辑整理而来,在未改变原意的基础上略作了删减。 郑宇主持研发的Urban Air首次利用大数据来监测和预报细粒度空气质量,该服务覆盖了中国的300多个城市,并被中国环境保护部采用。2016年,他主持了城市大数据平台的设计和实施,并成功在中国大数据示范基地贵阳市部署。2013年他被MIT Technology Review评为全球杰出青年创新者,并作为现代创新者代表登上了《时代》周刊,2016年被评为美国计算机学会杰出科学家(ACM Distinguished Scientist)。本文转载自“数据派”,ID“datapi”,转载已获得授权。 此前,我们与大家分享了郑宇博士的。现代化的生活带来了交通拥堵、环境恶化、能耗增加等问题。要解决这些问题,以前因为城市的复杂设置而几乎不可能。现在由于各种传感器技术的成熟以及云计算单位的成熟,我们有了社交媒体、交通流量、气象、地理等多种大数据。通过组合这些数据,我们就能发现问题,并进一步解决。在上篇分享中,郑宇博士介绍了城市计算的两个层面,城市感知以及城市数据管理,今天,我们将带来演讲的后续内容,城市数据的分析和挖掘与城市数据的服务和提供。
演讲正文: 讲完了数据管理层面,我们看一下数据分析和挖掘,这也是今天的重点。我们在城市数据分析层面会遇到四个方面的挑战。 第一个方面,我们以前很多做机器学习的人,他们提出算法的时候往往都是在video、graphic、text中,现在要把这些算法adapt到时空数据上来。如何将它转换过来是一个难点。 第二个方面,在于多源数据的融合。以前做数据挖掘的时候,往往只是挖掘单一数据。现在我们发现做一个应用需要把多个数据的知识融合在一起。这是一个新的难点,我认为也是大数据里面,相对来说比那个“大”更加有意思更加难的问题。 第三个方面,我们以前做database和machine learning的人是两拨人,相互之间的交集比较少。但是只有将data base以及machine learning的方法有机地融合在一起,做得又快又好才能把系统落地。 第四个难点,以前做挖掘的时候往往是一个单向过程,就是简单静态挖掘。现在变成了交互可视挖掘,英文叫做interactive visual data analytics,就是交互可视分析。刚才所讲就是一个例子,把人带进去交互可视,人机交互,把人的智能也融合进去。 上面是逻辑的框架,再回到实际平台。 我们定义了平台的下半部分,中间是一个分布式系统加上我们的时空索引方法,再往上还有中间数据分析的层面。这里面分成三个子层面。第一个是大家熟知的最简单的一些机器学习算法,包括线性回归这些最普通的方法。再往上我们构造了一些专门针对时空数据的机器学习算法。再往上我们还设计了时空数据融合的方法,尤其是后面会重点讲到的多源数据融合方法。 多源数据融合的方法按照已有的工作可以分成三大类。第一类是阶段性的方法,先用一种数据再用一种数据。第二个是基于特征拼接的方法。我们所熟知的深度学习方法,还有传统的特征串联加上一些正则化方法,都是属于这里面的分支。相对于第二个方法来说,第三类是基于语义信息融合的方法。这里面包括了多视角、基于概率学模型的方法、基于相似度的方法、以及迁移学习的方法。在这一方法里面我们要搞清楚每一纬特征是什么含义,以及特征和特征之间的关联关系、它们的语义信息。在做特征融合的时候则不必。另外这方法是根据人的思维方式设计的类人思考的方法。所以说是基于语义信息的方法。 先讲一个房价的例子来说明这种方法。 这里面我不去预测房屋的价格,而去预测高价值的房子,也就是涨的时候涨得更快,跌得时候跌得更少。同样一个环境里面我们摒弃自然因素和政策因素,房屋的涨幅除以它的基数就是涨幅比,然后按照涨幅比排序。根据这个值做一个量化把北京的房子分成五等。 可以看到有时候一类房和五类房隔得很近。所以房屋的价值是由什么决定的? 李嘉诚说过,房屋的价值第一看地段,第二看地段,第三还看地段。 (责任编辑:本港台直播) |