这个地段其实可以用数据量化。第一个地段就是周边的各类设施水平,j2直播,这个可以通过POI和路网数据得到。但同样是学区,好学区和坏学区对房子价值拉动有明显区别。 所以还要看第二个数据:popularity。这里面我们又参考了好几个数据。比如社交媒体上对这个地方的点评,以及人们出行的规律等。人们的出行规律一般是不能说谎的,这往往反映了地域的价值。第三个地段,就是你所在的商圈。比如你在望京的话,对你的房子有拉动作用,但并不是望京所有的房子都好,还要看前面两个因素。所以第一个地段、第二个地段、第三个地段可以用六到七种数据量化。 我们可以从每一种数据里面都抽取特征,再进行计算。对于这些特征,以前的方法是简单拼成一个向量然后做一些回归。比如说最简单的方法是做线性回归,欧米伽是系数,X是向量,后面是误差。这种方法不是很有效,因为特征之间不是完全独立的。 因此我们又加了两个约束。 第一个约束是加上pair-wised constrain,把它变成一个Learing to rank的问题,即排序学习.我们不光希望每个房子单独预测要准,还希望两个房子之间的顺序不要搞错,这在机器学习里面叫排序学习。这边简单用两个房屋的涨幅比做差,再通过一个Sigmoid函数变换到(0,1)之间的数值。如果A真的排在B前面的话,那么A本身应该涨得比B多,那么它减出来的值是正的,函数的话是这样值通过Sigmoid函数作用后,输出值比较大,而且越大越接近于1,相当于对正确排序的一个加分。反之,如果A排在B的前面,但B的单点预测值却大于了A,那么A-B的预测结果就是负值,通过Sigmoid函数变换后,就会产生一个小值,而且越小越趋近于零。相当于对错误排序的一个惩罚。 第二个约束,我们对欧米伽有约束,我们刚才说很多欧米伽可能是冗余的,就是这个特征可能是不发挥作用的,我们希望这些冗余的特征权重特别小,所以对欧米伽加上约束,是希望它的欧米伽分布符合均值为零且方差非常小的高斯分布,这样大部分欧米伽在零的附近,我们也允许个别的欧米伽以比较小的概率取得比较大的权重。在这一计算中我们还发现一个有趣的现象,就是真正的高端房子有没有地铁不在乎,但是希望交通很便利开车上下班。这个东西怎么验证呢?我们用2013和2014年的数据做学习来训练模型,然后我们预测2014年房屋涨幅排序,等到2014年结束以后我们就可以知道这个结果对不对。 接下来介绍第二个方法,涉及到深度学习。 因为这个项目也是深度学习在时空数据上第一个真正在顶尖国际会议上发表的工作。我们把城市分成均匀的网格,可以预测每个格子所对应的区域中未来会有多少人进和出。可以想象这是一个非常通用的模型。它包括预测区域内出租车的进出;包括预测有多少人需求共享单车;包括预测未来有多少人在这个区域里面会点餐;包括预测到未来多少人要送快递。这个模型做完以后可以满足很多应用。最开始做这个工作是因为上海的踩踏事件。事后第一时间我发了微博,说这个安全问题可以由大数据和人工智能的方法做一些分析和预测,做到提前分流,甚至能做到在人们的起点就告诉他你不要去了。 我发了微博以后,网上的舆论分成两派,一部分说很好这个确实是可以做的,也有一部分认为我都知道晚上肯定很多人会去了,根本不需要你预测。同样政府肯定是知道有很多人去的,所以它会加派警力。但是政府不知道“多”的程度,也无法知道人群的数量达到峰值的具体时间。而要知道什么时候是高峰点,每个单位时间进出是多少才能做决策。所以这些是政府真正需要的。 北京市地铁站也有这个需求,它希望做到对人流的预知和把握。这个不仅关系到列车调度,也关系到人民的生命安全。这个模型在贵阳市已经实施了。贵阳市划分成一公里乘一公里的格子,我们去预测每个格子里面未来会有多少出租车进和出。这里面绿色的是预测的,黑色的是过去的值,蓝色的是昨天同一时刻对应的值。人流预测是非常困难的事情,因为这个区域过去一个小时多少人进出,周边有多少人进出,还有很远地方的人的进出都会影响到这个区域未来有多少人进出。这跨领域的研究是很缺失的。另外,天气和事件也是影响因素。 (责任编辑:本港台直播) |