刘铁岩:有趣的是,通过分析发现,这些outlier和天气数据有很强的相关性:比如,当飓风来临的时候,出租车密度就会减小(这可能是因为出车少,或者行人出行减少,或者出租车行驶缓慢吧)。 想要发掘出这种潜在的关系,并不容易。首先是数据集实在太多了,而且异构性很强。为了解决这个问题,Freire教授提出了一个数据匹配的框架,用于发掘不同数据集之间存在的内在联系,从而反映出城市的各个组成部分之间是如何交互的,同时支持用户的关系查询。这个系统不同于传统计算相关性的方法(如pearson相关性,互信息,dynamic time wrapping)等,因此可以避免这些方法的计算瓶颈,可以提供更好的分析分辨率。
刘铁岩:具体而言,Freire教授的团队再次利用定义在图上的时变标量函数。在这个函数的曲面上抽取出一些不同分辨率的特征点。特征点的选择可以利用多种规则,比如极大值点、极小值点以及由特定阈值界定的关键点邻域等等(阈值可以通过数据驱动的方式自动计算)。抽取这些特征点之后,就可以在其基础上定义不同数据集之间的关系了。 刘铁岩: Freire教授的团队把上述方法用MapReduce的框架进行了实现,用它处理了来自纽约市的上百个时空数据集,结果表明这个方法效率很高,200分钟内就完成了标量函数曲面的计算,而且用分布式实现可以取得线性的加速比。 这个项目叫data-polygamy,也在Github上开源了。 链接:https://github.com/ViDA-NYU/data-polygamy 除了定量的评估结果,Freire教授举了几个很有趣的具体的关系挖掘的例子。 比如:车速和交通事故的数量有正相关的关系;雨量和出租车费有正相关的关系;等等。 个人感觉,这些数据挖掘的结果,虽然直观,但并没有太多出人意料的地方。另外,这种方法计算的是相关性,而不是因果性;如果可以做一些因果分析,可能对于真正城市管理的价值更大。 总的说来,Freire教授的报告具有很浓厚的数据挖掘的味道,城市大数据很重要,传统的方法对这种新型数据处理起来有一定的困难,如何才能改进算法、build系统、实现有效的数据分析和查询,都需要继续跟进。 总结一下,城市大数据分析领域方兴未艾,还有很多有待解决的问题。这让我想起了我们微软研究院的几个相关工作。 首先,郑宇博士的团队最近在用深度学习来解决时空数据分析方面有很好的进展,有望利用现在人工智能的一些最新研究成果解决城市计算的问题。 其次,我们组的邵斌博士前不久开源了一个微软图引擎,它在图的节点上可以支持用户定义的lambda表达式,对于像城市大数据这种复杂、时变的结构化数据应该有更好的支持。 第三,城市数据的另外一个特点在这个报告里没有特别显著地指出,就是这些数据是人的活动产生的。当我们从这些数据中挖掘出一些规律,并反过来依次制定一些政策法规的时候,人的策略性反应会改变原大数据的分布,从而影响这些政策法规的有效性,atv,若要解决这个问题,就要把博弈论引进来。我们组前一段时间所从事的“博弈机器学习”,以及最近在研究的“增强学习”都为解决这个问题提供一些思路。 微软亚洲研究院:Juliana Freire教授的演讲结束了。关于城市计算的思考不能停,欢迎有兴趣的读者留言或通过文章结尾附带的电子邮件提出你们的看法。 你也许还想看: 感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:[email protected]。 微软小冰进驻微软研究院微信啦!快去主页和她聊聊天吧。 (责任编辑:本港台直播) |