AI和大数据在争分夺秒深入到商业和生活中。未来每一家公司都可能是一家大数据公司,一家AI人工智能公司,正如现在每一家公司都是互联网公司一样。 了解人工智能在城市管理和商业领域的应用,将有助于每个创业者在实践中为自己的产品和商业模式赋能。 微软亚洲研究院“城市计算”领域负责人郑宇博士在源码资本2017年码会上,分享了人工智能在城市计算领域的进展。 郑宇博士: 微软亚洲研究院资深研究员、“城市计算”领域负责人,ACM数据挖掘中国分会(KDD China)秘书长、上海交通大学讲座教授、香港科技大学客座教授、人工智能国际权威期刊(SCI一区刊物)ACM TIST主编。 他主持开发了多个城市大数据系统,其中Urban Air首次利用大数据来监测和预报细粒度空气质量,该服务覆盖了中国的300多个城市,并被中国环境保护部采用。他主持了城市大数据平台的设计和实施,并成功在中国大数据示范基地贵阳市部署。 2013年被MIT科技评论评为“全球杰出青年创新者”(TR35),并作为现代创新者代表登上了美国《时代》周刊。2014年,由于他主导的城市计算具有巨大的商业前景和改变行业格局的潜力,他被《财富》评选为中国40位40岁以下商界精英。2016年被评为美国计算机学会杰出科学家 (ACM Distinguished Scientist)。 以下是郑宇博士在2017年码会上的演讲原文: 非常高兴有机会能够跟大家分享我们在城市计算(Urban Computing)领域的工作。大家平时听到很多人工智能用于语音、图象、文本的场景。怎么样用人工智能和大数据技术改变我们的生活,我围绕这个主题探讨一下,人工智能在城市领域的进展。 做好人工智能在城市领域的应用需要四个方面的技能: 1、理解城市文化本身,数据科学家纯粹的理论无法代替行业知识; 2、理解数据本身,不仅仅要了解数据的表征,也要了解数据背后蕴含了什么样的知识; 3、掌握数据科学的模型,包括数据管理,数据挖掘,机器学习,还有可视化; 4、懂得如何利用云平台,把算法高效部署在平台上解决问题。 在城市领域,以上四点也有应用上的不同之处: 可以想象到城市里面数据特别多,链家的、搜房的,从地理信息到人流量,好像千差万别上百种、上千种的数据。实际上按照数据的结构来分的话有两种数据,一种点的数据,一种网的数据。按照数据关联的时空属性来分,可以分为三类。所以总共有六种数据。这六种中最为复杂的就是轨迹数据,因为物体的位置和在每个位置上的属性都在不断的随着时间改变,而且点和点之间存在着关联。像摩拜和滴滴的车的轨迹都属于这种类型。 我不希望来了一千种数据要建一千种模型和算法,使得系统变得非常复杂。我们希望只要定义好这个模型之后,不管你来什么数据,可以高效利用平台,利用对应的分析和挖掘算法去处理。 城市领域有大规模的数据,多元、多模,变化非常快,这么复杂的数据怎样快速更新,以及大规模的应用?必须要有一个平台。大家自然会想到,我们就用云平台把它连接到一起。可惜的是,不管哪家商用云平台都无法做好时空大数据,对城市大数据支持的并不是很好。 现有云平台处理城市大数据的限制,与MSRA的实践: 1、数据结构很不一样,跟图象文本结构不一样。 2、查询方式不一样。例如我们在找滴滴的时候,希望是找周边这个时间段内有没有空车经过,而不是关键词进去匹配一个文本出来。 3、真正我们做城市计算的时候我们往往用到多个数据源,而不是单一数据。比如说空气质量预测的时候我们需要用到气象、交通、地理信息以及人的移动数据,怎么样把这些数据多元管理起来?这是一个难题,这个技术是缺失的。所以基于它的原因,现在已有的云平台并不能支持很好支持时空大数据。 受限于已有云平台的现实限制,微软亚洲研究院去年在洛阳市落地了中国第一个城市大数据平台。 它首先定义了六种数据模型,然后利用了现有微软云计算平台的存储资源。接着我们做了一层中间件,针对不同的数据结构设计了时空索引算法,并针对不同数据设计了混合式索引算法。然后把时空索引集成到Hadoop、Spark和Storm等分布式计算环境中。 (责任编辑:本港台直播) |