它首先定义了六种数据模型,然后利用了现有微软云计算平台的存储资源。接着我们做了一层中间件,针对不同的数据结构设计了时空索引算法,并针对不同数据设计了混合式索引算法。然后把时空索引集成到Hadoop、Spark和Storm等分布式计算环境中。 这里面不光有分布式计算环境,也有时空索引算法,两者的结合把数据的访问和管理存储变得非常高效。最后向上层的机器学习和人工智能算法提供API,使得我们的机器学习算法能够快速访问下面的一些数据。想象一下,如果没有这一层的话很多机器学习算法根本不能上线,根本不能做大规模的访问和应用。 下面几个应用案例可以看到这个城市大数据平台所产生的实际效应。 城市充电桩与广告牌布局 我们要通过城市大数据平台,在贵阳市决定应该在什么位置放置充电桩,才能最大化覆盖整个城市的车流量。最终选取出五个路口,使得覆盖不同出租车的GPS轨迹数量最大化。 以前做这个工作需要一天。现在我们只需要2-3秒的计算结果。我们发现在商业应用中,部署一个东西除了需要数据科学支持,还需要行业知识支持,不仅要考虑车流量最大化的问题,还是考虑周边是不是商城,有没有配套。车主充电的两小时等待时间里,周边要有餐饮、娱乐机构供人休闲。 我们通过可视交互的分析方法实现人的智慧与人工智能的结合。人工智能先用简单的规则,用算法反馈一个初步结果让行业专家判断,行业专家认为这个点不合适可以删掉,或者保留这个点再计算,实现了一个迭代式的交互挖掘。 这个案例体现了平台的威力,性能的威力,也体现了真正把机器智能跟人的智能结合在一起。 除了充电桩,这个模型还可以分析商业门店选址、广告牌选址,这些案例体现出城市大数据平台的数据管理威力。 房价评估 在我们的这个城市大数据平台里,还有一个专门的数据分析层面,包含三个子层面:最普通的机器学习算法,专门针对时空数据设计的机器学习算法,以及多元数据融合算法。 我们看一下这个例子,我们想对房屋价值进行相应的排序,并不是预测价格。也就是说北京同样一个市场,如果涨的话谁涨的比较多,如果跌的话谁跌的相对比较慢? 在相同环境下,摒弃政策因素和环境因素。根据涨幅比将房子排序,排完序把房子排好12345等,一类房最好,五类房最差(涨的最慢,跌的最快)。李嘉诚说过,房子价值由三个方面决定,一是地段,二是地段,三还是地段。这三个地段其实可以用数据量化。 第一地段就是周边各类设施配套水平,交通,商场,学校等等这些数据都可以从路网、POI学到。同样是学区,重点学区和普通学校对房价影响非常大,好的商场比破旧的商场对这个地段的价值拉动差距很大。 所以有第二个地段:Popularity,比如人们出行规律非常重要。人们出行的规律已经刻划了这个地方的价值,一个地段坐公交地铁出去,另外一个地段基本上以开车打车出去,你觉得哪地段更高端一点,atv,人的行为可以刻划这个地段的形式。 第三个地段是房子所在的商圈,并不意味着每一个望京区域的房子都是好房子,而要用7-8种数据刻划这个地段的价值。 从每一个数据里面可以提取出来很多的特征,再进行计算。比如说这个房子周边有几个公交车站,离他最近的公交车站多远,离他最近的地铁车站多远,然后可以把它变成排序的问题。这里面体现了不是一个简单的算法就可以解决的问题,很多特征是冗余性,并不是完全独立的,相关性非常大,而且很多特征不是线性的,因此我们要加很多的约束做这个事情。 怎么做验证呢?用2013-2014年的房屋数据预测2015年的排序,2015年过完之后自然知道这个结果怎么样。用搜房网解决这个事情准确率非常高。NDC基本上达到95%以上,这是一个非常好的结果。 这个技术还被应用到上海火锅店的选址以及对城市综合商业体的价值评估。中国一线城市的商业品牌,像万达以及保利商场等等,这些综合商业的评估是非常困难的,但用我们的方法来做是有价值的。2016年的数据已经显示,北京100多个综合商业体哪个涨幅最快,最值得投入,并且形成排序。这个排序也应用于银行业信贷评估,帮助银行业评估综合商业体的价值,决定以后贷多少钱,抵多少钱,通过人工智能评估长期价格增势。 AI+共享拼车 滴滴以及摩拜,这两个案例与AI联系非常紧密。 (责任编辑:本港台直播) |