这里强调一点,我们做的是时空数据,它跟视频、图象、语音是不同的。这也导致传统的深度学习模型不能直接拿来用。首先,时空数据有空间属性,包括两方面,一个叫空间的距离,一个叫空间的层次。所谓空间距离,根据地理学第一定律很容易理解。另外空间有层次。比如一个城市包括几个区,几个区包括几个街道,每个层次都有特别的语义信息。不像象素里面,虽然有四个象素合并成一个象素,但在四个象素合并成一个象素的时候并没有明确的语义信息。第二个,时间属性。有三个方面的不一样。第一,时间有平滑性,就是这个小时的交通量跟上个小时的比较接近。 第二,时空数据有周期性,交通流量、人群流量都会有周期。这种周期性在视频、语音和文本里面都没有。比如说今天早上八点钟的交通流量可能跟昨天早上八点钟的交通流量很像,但跟今天中午12点钟的交通流量就很不像,隔得远的反而像,这打破了第一点的约束,导致很多算法不能应用。 第三,趋势性。周期绝对不是固定的。随着天亮的时间越来越早,大家出门的时间也越来越早,因此早高峰来临的时间越来越早。早高峰来得时间会有一个趋势性的上扬的过程,这个趋势、周期是很特别的,所以空间加时间这些因素导致了时空数据跟普通的文本、视频不同。我们把城市分成均匀的网格,然后把过去和实时收到的车子GPS轨迹信息投影到网格里面,去计算每个格子里面多少人进出,将其转化成一个矩阵,矩阵中每个单位是一个二元组,进和出,相当于每个象素有RGB一样,它就变成了一个二维的热力图,越红的地方人越多。如果我们有很多不同时间的数据就构成了这样一个像视频流的strain,并且加上事件和天气信息。这是数据的输入。 数据的应用,则是首先把相邻几个小时的数据放到一个深度卷积神经网络里面,来模拟相邻时间的时序的平滑性。然后把几天内一时刻对应的数据输入到一个相同结构的深度卷积神经网络里面,来模拟周期性。再把更大时间范围内同一时间点对应的数据做一个输入,来模拟趋势性。然后这三个数据先做一个融合,融合的时候引入权重系数,因为三个因素的输出结果并不是在每个地方都一样。比如有的地方周期性特别强,像这种主干道。有的地方周期性不是那么强,它的时间临近性就比较重要。 其次需要考虑外部的因素,比如气象事件。把这些数据融合以后,我们去反馈学习下一帧的数据,所以我们要预测下一帧这个时刻的状况。它是一个整体预测,不是分开预测。因为格子和格子之间一定有相关性,我们是同时一下预测出来每个区域有多少人进出。另外是抓住了时空的属性。时间临近性、周期性、趋势性都被抓住了,然后在内部通过深度卷积网络抓取空间性。卷积网络通过一次卷积可以把一个区域的值卷积到一个点上面,描述近距离的空间的局部相关性。经过多次卷积以后可以把越来越远的地方卷积到一起,描述距离较远的空间的相关性。当深度卷积网络比较深的时候它的训练效果就变得很差。 为了解决这一问题,我们引入深度残差神经网络,整个架构称为时空残差网络。这个比较新的模型相对于以前LSTM的模型,不需要进行连续的数据输入,只需要抽取关键帧。这样的结构大大优化了网络结构,只需要用几十帧就达到原先的模型里几百帧、几千帧的效果,甚至更好。这种深度时空残差网络,在人口流动的预测上有很大的应用前景。 下面看一下空气问题。现在环境问题非常严重,这与每个人都相关。政府建了很多的空气质量监测站点在城市里面。然而因为成本问题,子站不能无限量放置。并且城市大范围内空气质量非常不均匀。 (责任编辑:本港台直播) |