大数据文摘作品,直播,转载请联系[email protected] 作者 | Lizyjieshu 审校 | Aileen,行者 “——— 据说最贴心的男票是会记录下女票每一次大姨妈来的时间,然后绘制成一张月份折线图以监测女票的身体健康(以避开无法啪啪啪的时间)。你知不知道,这张图其实就是一个时间序列图,你看图预测未来几个月女票的大姨妈时间就叫做时间序列分析…… 咳咳,言归正传,时间序列分析是一种广泛应用的数据处理统计方法,除了计算大姨妈周期,在实际很生活还有很多应用,小白今天就来带大家探探究竟。 ———” 小白问:时间序列分析就是分析时间的么? 答:你是想问分析的是什么数据吧?简单来说,时间序列数据是在特定时间内监测或记录下的有序数据集合。太阳活动、潮汐、股票市场趋势、疾病传播等都是时间序列的典型案例。几乎在任意应用科学或工程学领域,只要涉及到基于时间的测量,atv直播,都可以找到时间序列的声影。科学的定义就是:在特定时间(例如,小时,月或年)内记录下的有序观测值集合。 下图为1720年至1980年的太阳活动图,就是典型的时间序列: 小白问:哦,就是说在规律的时间间隔内检测到的有序数据集,那怎么来分析数据呢? 答:首先,时间序列分析的前提是认为这些收集到的数据点在一段时间内的变化可能具有特定的内部结构,比如趋势啦或季节变化啦等等。在此前提下,通过比较不同时间点上单个或多个时间序列的值,对时间序列数据进行分析,进而提取出有意义的统计量或其他数据特征。 小白问:分析完了怎么用呐? 答:当然就是来预测女票大姨妈啦。哦,口误,当然是利用时间系列模型,基于前期观察到的序列规律来预测未来的数值啦。比如下图,绿线就是预测值,周边的灰色是置信区间: 小白问:什么信什么区间? 答:哈哈,我就知道你会问这个问题。举个例子,你明天要考试数学了,你觉得大概能多少分? 估计70分吧,上下不超过10分。那你对这个预测有多大把握呢?9成吧!我们就说你明天数学考试成绩90%的置信区间(Confidence Interval)为60~80,也就是你有90%的信心考出介于60~80的分数。 小白问:好像懂些了。其实我真想做个时间序列分析,然后预测女票啥时候会生气啊! 答:你还想预测女票啥时候会生气?你咋不找个机器人做女票!时间序列预测的应用可比这广泛多了,比如金融市场分析、库存控制、销售与市场预测、产量预测、地震预测、工作量预测等等,举例都举不完。 小白问:不明觉厉! 答:呃,那我再给你说明白点儿。下面这张图非常清楚地解释了一般时间序列可以被分解成的三个部分。最上面的曲线是我们实际观测到的点,它是由下面三个曲线叠加而成的结果——趋势性(第二条曲线),季节性(第三条曲线)和随机性(第四条曲线) 时间序列分析的目的主要有两个,一是要识别监测到的数据所展现出的现象及其本质,就是找到规律,这个规律往往是趋势性的或者有着较为明确的周期即季节性,因此就需要去掉一些不必要的噪音干扰(比如上面的的第四条曲线),并且把趋势性和季节性分解出来,想图示那样;二是要利用这些数据来预测未来同样时间轴上可能会出现的数值(统筹考虑三个分解部分)。 这两个目的都要求我们识别时间序列数据内在的模式并将其尽可能准确地描述出来。因为事物发展的规律在长期内相对稳定(比如你女票的大姨妈来访这样的事件的发生),所以趋势性和季节性这样代表规律的因素,它们的数值变化也相对稳定,在未来的一定时期内,还会像现在看到的这样子变化,所以一旦我们了解了数据系列的模式,就可以解释这些数据并结合其他数据来做预测(例如:季节性商品价格的变化和预测)。 不过小白你要记住,无论我们的理解有多深刻,对现象的解释有多靠谱,时间序列预测的未来越久远,准确度会愈低。 (责任编辑:本港台直播) |