【组图】讲堂|郑宇：多源数据融合与时空数据挖掘（下）_本港台直播_J2开奖直播

【j2开奖】讲堂|郑宇：多源数据融合与时空数据挖掘（下）

　　本文根据微软亚洲研究院“城市计算”领域负责人郑宇博士在中国人工智能学会AIDL第二期人工智能前沿讲习班所作报告《多源数据融合与时空数据》编辑整理而来，在未改变原意的基础上略作了删减。郑宇主持研发的Urban Air首次利用大数据来监测和预报细粒度空气质量，该服务覆盖了中国的300多个城市，并被中国环境保护部采用。2016年，他主持了城市大数据平台的设计和实施，并成功在中国大数据示范基地贵阳市部署。2013年他被MIT Technology Review评为全球杰出青年创新者，并作为现代创新者代表登上了《时代》周刊，2016年被评为美国计算机学会杰出科学家（ACM Distinguished Scientist）。本文转载自“数据派”，ID“datapi”，转载已获得授权。

　　此前，我们与大家分享了郑宇博士的。现代化的生活带来了交通拥堵、环境恶化、能耗增加等问题。要解决这些问题，以前因为城市的复杂设置而几乎不可能。现在由于各种传感器技术的成熟以及云计算单位的成熟，我们有了社交媒体、交通流量、气象、地理等多种大数据。通过组合这些数据，我们就能发现问题，并进一步解决。在上篇分享中，郑宇博士介绍了城市计算的两个层面，城市感知以及城市数据管理，今天，我们将带来演讲的后续内容，城市数据的分析和挖掘与城市数据的服务和提供。

演讲正文：

讲完了数据管理层面，我们看一下数据分析和挖掘，这也是今天的重点。我们在城市数据分析层面会遇到四个方面的挑战。

第一个方面，我们以前很多做机器学习的人，他们提出算法的时候往往都是在video、graphic、text中，现在要把这些算法adapt到时空数据上来。如何将它转换过来是一个难点。

第二个方面，在于多源数据的融合。以前做数据挖掘的时候，往往只是挖掘单一数据。现在我们发现做一个应用需要把多个数据的知识融合在一起。这是一个新的难点，我认为也是大数据里面，相对来说比那个“大”更加有意思更加难的问题。

第三个方面，我们以前做database和machine learning的人是两拨人，相互之间的交集比较少。但是只有将data base以及machine learning的方法有机地融合在一起，做得又快又好才能把系统落地。

第四个难点，以前做挖掘的时候往往是一个单向过程，就是简单静态挖掘。现在变成了交互可视挖掘，英文叫做interactive visual data analytics，就是交互可视分析。刚才所讲就是一个例子，把人带进去交互可视，人机交互，把人的智能也融合进去。

上面是逻辑的框架，再回到实际平台。

我们定义了平台的下半部分，中间是一个分布式系统加上我们的时空索引方法，再往上还有中间数据分析的层面。这里面分成三个子层面。第一个是大家熟知的最简单的一些机器学习算法，包括线性回归这些最普通的方法。再往上我们构造了一些专门针对时空数据的机器学习算法。再往上我们还设计了时空数据融合的方法，尤其是后面会重点讲到的多源数据融合方法。

多源数据融合的方法按照已有的工作可以分成三大类。第一类是阶段性的方法，先用一种数据再用一种数据。第二个是基于特征拼接的方法。我们所熟知的深度学习方法，还有传统的特征串联加上一些正则化方法，都是属于这里面的分支。相对于第二个方法来说，第三类是基于语义信息融合的方法。这里面包括了多视角、基于概率学模型的方法、基于相似度的方法、以及迁移学习的方法。在这一方法里面我们要搞清楚每一纬特征是什么含义，以及特征和特征之间的关联关系、它们的语义信息。在做特征融合的时候则不必。另外这方法是根据人的思维方式设计的类人思考的方法。所以说是基于语义信息的方法。

【j2开奖】讲堂|郑宇：多源数据融合与时空数据挖掘（下）

先讲一个房价的例子来说明这种方法。

这里面我不去预测房屋的价格，而去预测高价值的房子，也就是涨的时候涨得更快，跌得时候跌得更少。同样一个环境里面我们摒弃自然因素和政策因素，房屋的涨幅除以它的基数就是涨幅比，然后按照涨幅比排序。根据这个值做一个量化把北京的房子分成五等。

可以看到有时候一类房和五类房隔得很近。所以房屋的价值是由什么决定的？

李嘉诚说过，房屋的价值第一看地段，第二看地段，第三还看地段。

【j2开奖】讲堂|郑宇：多源数据融合与时空数据挖掘（下）

(责任编辑：本港台直播)