通过 Python 代码实现时间序列数据的统计学预测模型

来源 | DeepHub IMBA

封图 | CSDN 付费下载于视觉中国

在本篇中，我们将展示使用 Python 统计学模型进行时间序列数据分析。 目标是：根据两年以上的每日广告支出历史数据，提前预测两个月的广告支出金额。

原始数据：2017-01-01 到 2019-09-23 期间的每日广告支出。

数据准备：划分训练集和测试集。

 df1 = data[[\'Date\',\'SF k A + o k ] epend\. U =']].set_index(\'Date\') trainz 6 Q M K m + = df1.iloc[:933,:]t, ? f u vest = df1.iloc[933:,:] test.shape,train.shape

测试集大小：(63,1)；训h / 6 U T G = s练集大小：(933,1)。

统计模型与统计要素

时间序列分析常用统计模型

单变量时间序列统计学模型，如：平均方法、平滑方R 7 ? k @ E f D法、有/无季节W a G M u ~性条件的 ARIMA 模G ^ [ f , / { W @型。
多变量时间4 ; V o序列统计学模型，如：外生回归变量、VAR。
附加或组件模型，如：Facebook Pro6 y T hphet、ETS。
结构化时间序5 F s ?列模型，如：贝叶斯结构化时间序列模型、分层时间序列模型。

在本篇文章中，我们主要关注 SARIMA 和 Holt-winters 方法。

单变量时间序列统计学模型的关键要素

如果我们想要对时间序列数据进行上述统计学模型分析，需要进行一系列处理使得：

(1)数据均值(2)数据- P %方差(3)数据自协方差

这三个指标不依赖于时间项。即时间序列数据具有平稳性。

如何明确时间序列数据是否具有平$ o *稳性？

可以从两个特征进行判断。

(1) 趋势，即均值随时间变化；

(2: 6 b c i k U) 季节性，即方差随时间变化、自协方差随时间变化。

若满足以上两个条件，则时间序列数据不符合平稳性要求。

可以通过以下方法消除上述问题：

变3 n a K = 3 f u换，如：取对数、取平方等。
平滑处理，如：移动平均等。
差分。
分解。
多项式拟合，如：拟合回归; x ; W Y C )。

ARIMA：差分整合移动平均自回归模型

Autoregressive Integrated Moving Average model (ARIMA)，差分整合移动平均自回归模型。ARIMA(p,d,q)主要包含三项：

p:AR) % m ! 8 L G项，即自回归项(autoregressiT i U ^ C W @ |on)，将时间序列下一阶段描述为前一阶段数据的线性映射。

d项，即积分项(integration)，时间序列的差分预处理步骤，使其满足平稳性要求

q:MA项，即移动平均项(moving average)，将时间序列下一阶段描述为前一阶段数据平均过程中的残留误差的线性映射。

该模型需要指定 p d q三项参数，并按照顺序执行。ARIMA 模型也可以用于开发 AR, MA 和 ARMA 模型。

ACF/ 5 V 3 ~ C K h 和 PACx / uF 图

自相关函数，autocorrelation function(ACF)，描述了时间序列数据与其之后版本的相关性（如：Y(t) 与 Y(t-1) 之间的相关性）。

偏自相关函数，partial autD 6 K Aoca j k o T 5 U Worrelation function(PACF)，描述了各个序列的相关性。

通过 PACF 图可以确定 p
通过 ACF 图可以确定 q

SARIMA

季节性差分自回归滑动平均模型，seasonaS t Kl autoregressive integrated moving averaging(SARIMA)，在 ARIMA 模型的基础上进行了季节性调节。

其形式为：SARIMA(p,d,q)(P,D,Q)s，其中P,D,Q为季节参数，sy = A 7 4 6 ]为时间序列周期。

案例：通过7 R V + ] SARIMA 预测广告支出

首先，我们建立d 0 G / o e @ .test_stationarity来检查时间序列数据的平稳性。

from statsmodels.tsa.stattools i3 R Z xmport adfuller df1=df.resample(\'D\'a E c E / 9 x j /, how=np.mean)def test_stationarity(timeseries): rolmeanH d # * 9 -  8 f = timeseries.rolling(window=30).mean rols/ a * I 2 i |td = timeserieu H ^  ds.ros { n U ; + _ p ;lling(window=30).std plt.figure(figsize=(1_ 6 .4,5)) sns.despine(left=True) orig = plt.plot(timeseries, color=\'blue\',label=\'Original\') mean = plt.plot(rolmean, color=\'red\', label=\'Rolling Mean\') st!  l U 0d = plt.plot(rolstd, color=\t d V D ~ Z R o'black\', label = \'Rolling Std\') plt.legend(loc=\'best\'); plt.title(\% 3 K h'Rolling Mean & Standard Deviation\') plt.showprint (\'<Results of Dickey-Fuller Test>\') dftest = adfuller(timeseries, autolag=\'AIC\') dfoutput = pd.SerY w [ q ries(dftest[0:4], ind1 2 9ex=[\'Test Statistic\',\'p-value\',\8 b '#Lags2 c F 5 Used\',\'Number of Observationsf q ^ 8 D j V Used\'])for key,value M # T ^ 0 in dftest[4].items: dfoutput[\'Critical Value (%s)\'%key] = value print(dfoutput) test_stati& C K r 7 D #onarity(df1.Spend.dropna)

通过 test_stationaritF L e c ~ +y函X J %数，可以绘制移动平均值以及标准差，并且通过 Augmented Dickey-FulleW | ; x ir test 输出 P 值。

对比临界值(critical value)可以看到，时间序列数据时非平稳的。

首先我们试试对数变换，能不能使数据达到平稳性要求。

可以看到，利用对数变换df1[‘log_Spend’]=np.log(df1[‘Spend’])，时间序列在阈值为5%时满足平稳性要求。接= z * r 3下来，我们试试差分操作：test_stationarity(df1[‘Sj @ z 1 | P i pend’].di+ w E p + wff(1).dropna)。

显然，通过差分操作后，效果更好，时间序列在阈值为1%时满足平稳性要求。

然后，我们就可以建立 SARIMA 模型，并且预测 2019-07-23 到 2019-09-23 这两个月间每天B | Y c T T f K 4的广告j [ = ] @ + F n &指出。

import statsmodels.api as sm fit1 =F ` m y . j j sm.tsa.statespace.SARI1  = B K X KMAX(train.Spend^ M Q, order=(7, 1,& { ] 3 y 2), seasonal_order=(0, 1, 2, 7)).fit(use_boxcox=True) test[\'SARIMA\'] = fit1k } E 6.predict(start=\"2019-07-23\", end=\V 3 }  r G D V"2019-09-23\", dynamic=True) plt.figure(fi] ~ *gsize=(16, 8)) plt.plot(train[\'Spend6 p } ( 9\']n R =  Z l, label=\'Train\') px i 5 W _ }lt.plot(test[\'Spend\'], label=\'Test\') plt.plot(test[\'SARu G / Q + @ 1 fIMA\'], l c V { p ^, label=\'SARIMA\') plt.legend(loc=\'bess 0 [ . ) u %t\') plt.s6 M # 7 [ * nhow

现在，让我们通过从 sklearn.metrics包导入mean_squared_error，mean_absolute_error函数计算o w c B q mse 和 mae 来检查这个模型的性能。结果如下：

进行数据可视化：

从 mse、maV O Ie 以及预测曲线可以看出，SARIMA 模型成功预测了时间序列变化趋势和季节性特征。但是在峰值v N A x +处的表现仍旧有待提高。

ETS：指数平滑法

ETS，Exponential Smoothing

由于时间序列数据随时间变化但具有一定的随机性，我们通常希望对数据进行平滑处理。为此，我们将使用 ETS 技术，通过指数方法为过去的数据分配较少的~ ; 2 e 5 | &权重。同时将时间序列数据分解为趋势（T）L ; & T B /、季节（S）和误差（E）分量。

三种常用 ETS 方法如下：

Linear：双指数平滑；
Additive：三指数平滑；
Multiplicative：三指数平滑。

Holt-Winter 季节性预测算法

Holt-winte* # g Sr 季节性预测算法是一种k : R { S C I三指数平滑方法。它包含三个主要部分：水平、趋势、季节性分量。

案例：$ - i ~ . A通过 Holt-Winter 季节性预测算法预测广告支出

通过 Hoi k n ]lt-winter 季节性预测算法预测 2019-07-23 到 2019-095 o u p ^-23 期间的每日广告支出，代码如下：

from statsmodels.tsa.api import ExpoJ @ g u *nentialSmoothing fit1 = ExponentialSmoothing(np.asarray(train[\'Spend\']) ,seasonal_periods=7 ,trend=\'add\'O H c v, seasonal=\'add\').fit(use_boxcox=T} ` H f U 5 h _rue)test% f _ - = * K o[\'Holt_Winter\'] = fit1.forecast(len(test)) plt.figure(figsize=(16,8)) plt.plot( train[\'Spend\'], labe= + : E J !l=\'Tr: z c Wain\') plt.plot(test[\'Spend\'], label=\'; % v Q %Test\') plt.plot(test[\'Holt_Winter\'], label=\'Holt_{ u FWiT _ - 1 e g 2 V tnter\') plt.legend(loc=\'best\') plt.show

同样，我们通过 mean_squared_error,mean_absolute_error函数查看 mse 和 mae。

可以看到，H-W 模型同样能够预测时间序列变化趋N K | a 9 ) F y X势和季节性特征。

算法对比

通过将两种算法的预测结果进行对比，可以评价哪种方法预测能力更好。

从图中可以看出，在MSE和MAE均较低的情况下，SARIMA模型的性能略优于Holt-Winter模型。尽管这两种模式都无法完美地抓住峰谷特征，但它们仍然对企业有用。根据数据，平均每月广告支出为2百万美元以上。而这两种算法的MAE大约在6000左右。换言之，对于一家平均每月广告支出为2百万美元的企业，两个月的广告支出预测误差只在6000美元左右，这是相当可z L = M i观的。

结束语

在本文中，单变量预测方法在广告支出数据上表现良好。但这些方法难以组合/合并新的E O :信号（如事件、天气）。同时这些方法对1 N p @ . #丢失数据也非常d # j敏感，通常不能很好地预测v ( { * 9很长一段时间。

你还想了解深度学习` j b O | D [技术的哪些问题，戳文末评论告诉我F @ d 0 { w g - 7们，就有机会D o y获得「AI 开发者万人[ k X 6 [ O Z / :大会」的在线直播门票哦！

前百度主= = w任架构师创业，c t b ;两年融6 % s z资千万美元，他说AI新药研发将迎来黄金十年
北京四环堵车引发的智能交通大构想
400 多行代码！超详细中文聊天机器人开发指南 | 原力计划
三大运营商将上V | # r线 5G 消息；苹果谷歌联手，追踪 30 亿用户；j8 * y A T G p jQuery 3.5.0 发布 | 极客头条
比特币当赎金，WannaRen 勒索病毒二度来袭！
你公司的虚拟~ A $机还闲着？基于 Jenkins 和 Ku% i # R ~bernetes 的持续集成测试实践了解一下！
从 Weu q } [ Sb 1.0到Web 3.0：详析这些年互联网的发展及未来方向

本文系本站编辑转载，文章版权归原作者所有，内容为作者个人观点，转载目的在于传递更多信息，并不代表本站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请与本站联系，本站将在第一时间删除内容！

通过 Python 代码实现时间序列数据的统计学预测模型

华为nova 7系列曝光：麒麟5G芯片全家桶易烊千玺代言

“华为，你以德报怨的样子，真傻”

发表评论取消回复

华为nova 7系列曝光：麒麟5G芯片全家桶 易烊千玺代言

“华为，你以德报怨的样子，真傻”

你也可能喜欢

发表评论 取消回复

华为nova 7系列曝光：麒麟5G芯片全家桶易烊千玺代言

发表评论取消回复