这是一个真实数据的回放,每一个图标表示一个真实的站点。上面的数字是AQI污染指数,可以看到同一时刻不同地方的空气质量读数差别非常大,有时候只差一两个街区读数可以差几百。因为空气污染指数是由很多复杂因素决定的,包括地面交通流量、周边是不是有厂矿、周边的扩散条件等。这些因素在城市里面都是非线性、非均匀变化的,所以整个城市的空气质量不可能是均匀的。也就是说,如果这个地方没有建空气站点,测出污染指数,因为污染指数不可能通过周边几个站点做一个线性差,它是非线性的,所以差别会变得很大。 所以我们用大数据的方法来做实时细粒度空气质量分析。实时是每个小时做一次,细粒度是一公里乘一公里范围这么细的状况。用了两部分大数据,一部分是已有站点的实时和历史空气质量读数,另外一部分分为五个数据源,包括气象比如风速、风向、湿度,以及车的平均速度、速度方差,人的移动性,单位时间多少人进出,区域的POI的数目,有多少酒吧、多少餐饮、多少厂矿以及房屋的密度,以及道路结构有多少高速路多少红绿灯路口等。然后采用机器学习算法来建立一个地方空气质量跟这个地方周边对应的这些数据的关系。 在模型建好以后便以这个模型推断其他地方的空气质量。即便这个地方没有建站点,因为这些数据在城市里已经全部有了,不需要额外建任何传感器。 这是一个真实的系统,现在已经部署在环保部内部系统供300多个城市使用。我们可以看到把京津冀、长三角、珠三角、东北、华东分成片区大范围地、细粒度的推断。之所以要做大范围,因为有时候光看北京是看不出问题来的。这种情况需要知道每次空气质量从好到坏的过程中区域的先后顺序,所以国家要求做到细粒度,甚至希望结果做得更细到500米。通过这个例子可以看出,大数据落地要跟行业结合。 这里面每个白圈是政府已有的站点,该区域的空气质量是已知的,蓝色圈是要预测的地方的空气质量是多少,是未知的。平行四边形表示时间点。首先一个地方的空气质量有时序相关性,用纵向的箭头表示,也就是说如果这个小时空气质量不好会影响到下个小时空气质量。第二,atv,不同地方的空气质量有空间相关性,用红色箭头表示,因为污染物会传播飘散。一个好的空气质量模型一定能够同时对一个地方的空气质量的时序相关性以及不同地方的空气质量的空间相关性进行建模。 这里有一个空间分类器和时间分类器。空间分类器可以通过周边的值来计算中心值,而时序预测则根据它自己的读数预测它未来的数值。因为污染物的来源有三:一是外部进入,二是本地排放,三是外部进入的污染物和本地排放在一定的环境因素下面发生了二次化学污染。这三个因素相当于上面提到的空间相关性、时序相关性以及它们两个时空分类器的一个迭代学习的过程。 从污染物成因的角度讲,因为有空间传播和本地排放,所以既要有行业知识也要有数据科学知识,完美结合以后才能定制一个模型让两方面的人都认可。污染物有物理传播过程也有化学过程,原来的方法单一的物理过程或者单一的化学过程都不能解决问题。现在通过数据分析的方法同时考虑到物理过程和化学过程以及它们之间的交互,所以能够把这个问题解决得很好。这个工作在2013年发表论文以后,2015年在环保部落地。 2015年以后我们又做了新的预测未来的工作。按照环保部里的要求是三步走,第一是搞清现状,第二是预测未来。所谓预测未来是知道每个站点未来48小时在不同时间区间里面的预测。这是一个空间细粒度加时间细粒度的预测。不同于预测明天北京有雾霾或者没有雾霾,这个很容易做。第一,雾霾是种天气状况,而不是一个空气质量。只是因为雾霾导致了空气污染物不利于扩散,所以才会出现空气质量变差。当然空气质量还取决于很多别的因素。所以我们做的空气质量预测比雾霾预测要难。 第二个是粒度要细。不是说大范围的整个北京明天大概多少,而是说到某一个站点怎么样。细到这个粒度在空间和时间上都非常难做。 (责任编辑:本港台直播) |