中华预防医学杂志    2015年12期 乘积季节自回归积分滑动平均模型在流行性腮腺炎发病率预测中的应用    PDF     文章点击量:3715    
中华预防医学杂志2015年12期
中华医学会主办。
0

文章信息

惠石生 陈立章 刘富强 欧阳艳昊
HuiShisheng,ChenLizhang,LiuFuqiang,OuyangYanhao
乘积季节自回归积分滑动平均模型在流行性腮腺炎发病率预测中的应用
Application of multiple seasonal autoregressive integrated moving average model in predicting the mumps incidence
中华预防医学杂志, 2015,49(12)
http://dx.doi.org/10.3760/cma.j.issn.0253-9624.2015.12.005
引用本文:

文章历史

投稿日期: 2015-05-24
上一篇:2010年含麻疹成分疫苗补充免疫前后北京市麻疹流行特征变化分析
下一篇:2012–2014年江苏省儿童肠道病毒71型血清流行病学特征分析
乘积季节自回归积分滑动平均模型在流行性腮腺炎发病率预测中的应用
惠石生 陈立章 刘富强 欧阳艳昊     
惠石生 410078 长沙,中南大学公共卫生学院流行病与卫生统计学系
陈立章 410078 长沙,中南大学公共卫生学院流行病与卫生统计学系
刘富强 湖南省疾病预防控制中心应急办
欧阳艳昊 410078 长沙,中南大学公共卫生学院流行病与卫生统计学系
摘要: 目的  建立流行性腮腺炎(腮腺炎)月发病率的乘积季节自回归积分滑动平均模型(ARIMA模型),并对湖南省2015年5月至2016年4月腮腺炎月发病率进行预测。方法  数据来源于中国疾病预防控制信息系统中的"疾病监测信息报告管理系统"。按发病日期收集2004年1月至2015年4月湖南省腮腺炎的月发病率资料,包括临床诊断病例和实验室确诊病例。采用SPSS 18.0软件中的ARIMA模型作为预测分析方法,利用2004年1月至2014年4月湖南省腮腺炎的月发病率资料进行建模,用2014年5月至2015年4月的月发病率数据作为模型预测效果的检验样本,采用Box-Ljung Q检验法对选定模型残差是否为白噪声进行检验。最后采用建立的模型对2015年5月至2016年4月湖南省的腮腺炎月发病率进行预测。结果  湖南省2004年1月至2014年4月期间,每年5–7月为腮腺炎的发病高峰期,11月至次年1月为次高峰。通过序列的平稳化,模型的识别、建立、诊断,建立模型ARIMA(2,1,1)×(0,1,1)12,对该模型的残差进行Box-Ljung Q检验发现,Q=8.40,P=0.868,认为残差序列为白噪声序列,说明所建立的模型对数据信息的提取较为完全,模型建立比较合理。该模型拟合度R2=0.871,BIC值为-1.646,预测值与实际值的平均绝对误差为0.025/10万,平均相对误差为13.004%,说明该模型对湖南省腮腺炎月发病率预测的相对误差较小,预测结果基本可靠。用选定的ARIMA(2,1,1)×(0,1,1)12模型对湖南省2015年5月至2016年4月腮腺炎的月发病率进行预测发现,发病率出现的高峰月份为5–7月,次高峰出现在11月至次年1月,高峰期的发病率与以往同期的发病率水平接近。结论  ARIMA(2,1,1)×(0,1,1)12较好地拟合了湖南省腮腺炎的月发病率的变化趋势,对该病的预防控制具有一定的实用价值。
关键词 :流行性腮腺炎;预测;乘积季节自回归移动平均模型
Application of multiple seasonal autoregressive integrated moving average model in predicting the mumps incidence
HuiShisheng,ChenLizhang,LiuFuqiang,OuyangYanhao     
Department of Epidemiology and Health Statistics, School of Public Health, Central South University, Changsha 410078, China
Corresponding author: Chen Lizhang, Email:ChenLiz@csu.edu.cn
Abstract:Objective  To establish multiple seasonal autoregressive integrated moving average model(ARIMA) according to mumps disease incidence in Hunan province, and to predict the mumps incidence from May 2015 to April 2016 in Hunan province by the model.Methods  The data were downloaded from " Disease Surveillance Information Reporting Management System" in China Information System for Disease Control and Prevention. The monthly incidence of mumps in Hunan province was collected from January 2004 to April 2015 according to the onset date, including clinical diagnosis and laboratory confirmed cases. The predictive analysis method was the ARIMA model in SPSS 18.0 software, the ARIMA model was established on the monthly incidence of mumps from January 2004 to April 2014, and the date from May 2014 to April 2015 was used as the testing sample, Box-Ljung Q test was used to test the residual of the selected model. Finally, the monthly incidence of mumps from May 2015 to April 2016 was predicted by the model.Results  The peak months of the mumps incidence were May to July every year, and the secondary peak months were November to January of the following year, during January 2004 to April 2014 in Hunan province. After the data sequence was handled by smooth sequence, model identification, establishment and diagnosis, the ARIMA(2,1,1) × (0,1,1)12 was established, Box-Ljung Q test found, Q=8.40, P=0.868, the residual sequence was white noise, the established model to the data information extraction was complete, the model was reasonable. The R2 value of the model fitting degree was 0.871, and the value of BIC was -1.646, while the average absolute error of the predicted value and the actual value was 0.025/100 000, the average relative error was 13.004%. The relative error of the model for the prediction of the mumps incidence in Hunan province was small, and the predicting results were reliable. Using the ARIMA(2,1,1) ×(0,1,1)12 model to predict the mumps incidence from April 2016 to May 2015 in Hunan province, the peak months of the mumps incidence were May to July, and the secondary peak months were November to January of the following year, the incidence of the peak month was close to the same period.Conclusion  The ARIMA(2,1,1)×(0,1,1)12 model is well fitted the trend of the mumps disease incidence in Hunan province, it has some practical value for the prevention and control of the disease.
Key words :Mumps;Forecasting;Multiple seasonal autoregressive integrated moving average model
全文

流行性腮腺炎(腮腺炎)是由腮腺炎病毒感染引起的一种急性呼吸道传染病,好发于儿童和青少年,传染性仅次于麻疹和水痘,很容易在学校、托幼机构中暴发/流行,疫情暴发后常造成停课,学生隔离,给社会和家庭带来较大的经济负担[1]。2004–2014年湖南省流行性腮腺炎的年平均发病率为18.62/10万,略低于2008–2010年全国累计报告流行性腮腺炎病例年平均发病率(22.8/10万),同期比较结果接近[2]。2004–2014年湖南省腮腺炎年平均发病率在所有法定传染病中排第4至7位,在丙类传染病中(除2009年外)均排在前3位。2004–2014年湖南省共报告腮腺炎暴发疫情142起,占所有传染病暴发起数的13.56%(142/1 047),且年暴发疫情起数始终排在39种法定传染病的第1位,暴发疫情的发病例数占大疫情网报告例数的比例较高[3]。本研究旨在运用乘积季节自回归积分滑动平均模型(ARIMA模型)对湖南省腮腺炎的月发病率进行预测,为湖南省开展腮腺炎的预防控制工作提供线索和依据。

材料与方法  

1.资料:  数据来源于中国疾病预防控制信息系统中的"疾病监测信息报告管理系统"。按发病日期收集2004年1月至2015年4月湖南省腮腺炎的月发病率资料,包括临床诊断病例和实验室确诊病例。

2.ARIMA模型:  (1)基本思想:ARIMA模型(Box-Jenkins模型)是由Box和Jenkins于20世纪70年代初提出的一种时间序列预测方法[4]。基本思想为:将预测对象随时间推移而形成的数据序列视为一个随机序列,即除去个别的因偶然原因引起的观测值外,时间序列是一组依赖于时间(t)的随机变量,这组随机变量所具有的依存关系或自相关性表征了预测对象发展的延续性,而这种自相关性一旦被相应的数学模型表述出来,就可以从时间序列的过去值及现在值预测未来值。而乘积季节ARIMA模型充分考虑了时间序列的趋势性、周期变化,并将影响传染病发生的自然、社会、医学等各种因素的综合效应统一蕴涵于时间变量中进行分析,短期预测的准确性较好。(2)公式:标准的具有季节性的ARIMA模型为ARIMA(p, d, q)×(P, D, Q)S,其中pdq分别表示非季节性自回归阶数、差分阶数和移动平均阶数,PDQ分别表示季节性自回归阶数、差分阶数和移动平均阶数,S表示季节性周期。(3)步骤:①序列的平稳化处理:ARIMA模型运用的前提为预测序列是一个0均值的平稳时间序列,而传染病发病相关的时间序列一般都是非平稳序列且大多数都具有季节性,需要对数据采用差分及数据转换等方式进行处理使其平稳。②模型的识别:通过差分确定dD的阶数,再依据差分后的自相关函数(ACF)和偏自相关函数(PACF)的图形来初步确定模型中的pqPQ的阶数。③模型参数估计和检验:参数估计是对识别阶段初筛的粗模型采用最小二乘法或极大似然法进行模型参数的估计,在各参数均有统计学意义的模型中,再应用贝叶斯准则(Bayesian information criterions,BIC)对初步选定的模型进行评价,该值越小模型越好。④模型的诊断检验:采用Box-Ljung Q检验法对选定模型残差是否为白噪声进行检验,若Q值对应的P<0.05,提示不是白噪声序列,残差序列还存在未被提取的信息,需要对模型进行进一步的改进。⑤模型预测:包括模型的拟合效果验证和预测。

3.方法:  采用SPSS 18.0软件中的ARIMA模型作为预测分析方法,利用2004年1月至2014年4月湖南省腮腺炎的月发病率资料进行建模,用2014年5月至2015年4月的月发病率数据作为模型预测效果的检验样本,最后再用所建立的模型对2015年5月至2016年4月湖南省的腮腺炎月发病率进行预测。

结果  

1.2004年1月至2014年4月湖南省腮腺炎月发病率:  2004年1月至2014年4月湖南省腮腺炎月发病率波动较大,且具有明显的季节周期性,表现为两个发病高峰的特点,每年的5–7月为腮腺炎的发病高峰期,11月至次年1月为次高峰,说明该序列是具有周期性季节特点的不平稳的时间序列(图1)。

图12004年1月至2014年5月湖南省流行性腮腺炎月发病率时序图

2.序列的平稳化处理:  在对原始序列进行1次自然对数转换、1次非季节性差分和1次季节性差分后绘出差分后的序列图(图2)。虽然差分后仍有些波动,但序列的均值基本在0上下摆动,说明数据基本平稳。

图2差分后2005年2月至2014年2月湖南省流行性腮腺炎月发病率时序图

3.模型定阶:  首先对序列进行了周期为12个月的季节性差分,且对原始数据进行了1次非季节性差分,所以d=D=1,初步选定模型为ARIMA(p,1,q)×(P,1,Q)12。观察差分后的ACF和PACF图,发现ACF和PACF既不截尾也不拖尾型。再根据简洁原则,确定模型参数[5]。最终确定pq的取值范围在1~3之间,然后从低阶到高阶对pq分别选取1、2、3进行逐一试验。而PQ超过2阶的情况很少见[6],本研究选择对PQ分别取0、1、2进行逐个试验。

4.模型的建立与检验:  根据BIC标化值(SBC)最小信息准则、拟合效果及残差分析进行综合判断,筛选备选模型,共进行81次试验,经过初步筛选,优选出6个模型(表1)。再对初筛的6个模型的参数进行估计和检验,最终发现ARIMA(2, 1, 1)×(0, 1, 1)12的各参数均有统计学意义(表2)。对该模型的残差进行Box-Ljung Q检验发现,Q=8.40,P= 0.868,认为残差序列为白噪声序列,说明所建立的模型对数据信息的提取较为完全,模型建立比较合理。该模型残差的自相关图和偏自相关图见图3。且该模型拟合效果为:R2= 0.871, BIC值为-1.646。

表1初筛的6种备选ARIMA模型的拟合统计量和Box-Ljung Q检验结果
表2ARIMA(2, 1, 1)×(0, 1, 1)12模型各参数估计值及其检验结果
图3ARIMA (2, 1, 1)×(0, 1, 1)12模型残差序列的ACF(A)和PACF(B)图

5.模型预测:  (1)模型预测效果的检验:预测值与实际值的比较见表3。预测值与实际值的平均绝对误差为0.025/10万,预测值与实际值的相对误差的范围为3.142%~30.149%,平均相对误差为13.004%,说明该模型对湖南省腮腺炎月发病率预测的相对误差较小,预测结果基本可靠。(2)预测:用选定的ARIMA(2,1,1) ×(0,1,1)12模型对湖南省2015年5月至2016年4月腮腺炎的月发病率进行预测发现,发病率出现的高峰月份为5–7月,次高峰出现在11月至次年1月,高峰期的发病率与上一年同期的发病率水平接近(表4)。

表32014年5月至2015年4月湖南省流行性腮腺炎月发病率预测值与实测值的比较
表42015年5月至2016年4月湖南省流行性腮腺炎月发病率预测结果

讨论  腮腺炎在我国被列为丙类法定传染病,发病率较高,每2~5年出现一次流行,发病高峰期出现在每年的5–7月和11月至次年1月[7]。对本病的防治最有效的手段是免疫接种,2007年我国将腮腺炎纳入国家免疫规划控制疾病[8]。但在腮腺炎纳入扩大国家免疫规划项目前后其发病率并未出现明显的下降趋势,反而有所上升[9,10,11]。这可能与以下几方面的原因有关:含腮腺炎成分疫苗当前在我国的接种并未完全落实,仍有相当数量的儿童未接种或未完全接种含腮腺炎成分疫苗[10,11,12,13];现存部分未接受免疫规划疫苗的高危人群;本病的报告质量提高,漏报率降低;另外还可能与病毒的变异,湖南省气象因素的变化有关。
        本研究用ARIMA(2,1,1)×(0,1,1)12模型对湖南省腮腺炎的月发病率进行预测,实际值均落在预测值的95%可信区间内,对模型检验的平均绝对误差为0.025/10万,平均相对误差为13.004%,说明模型预测精度较好。对预测结果的分析发现,从2015年5月至2016年4月湖南省腮腺炎的月发病率总体趋于稳定,发病的高峰期仍会出现在4–7月,秋冬季节还有一个小高峰,未发现有超过预测值上限的点,说明从2015年5月至2016年4月在湖南省不会有全省范围的大的腮腺炎暴发疫情出现。但该模型是以湖南省的发病率资料建立的,只适合于对湖南省全省未来一段时间腮腺炎发病率的总体趋势进行预测,而不一定适合该省的所有地区,各地可以建立基于本地发病率资料的ARIMA模型,这样可以发现当地的发病趋势。
        本研究采用季节性ARIMA模型对腮腺炎在湖南省的发病率进行预测,克服了传统时间序列模型对变量之间线性依存关系的假设,提高了预测的准确度,且本研究是首次用该模型对湖南省腮腺炎的发病率进行预测。然而本研究也存在一定的局限性:乘积季节ARIMA模型对疾病发病情况预测时存在一定的主观性,表现在对序列平稳性的判断、自相关和偏自相关函数图的分析等方面;不能对幼托机构、学校等小范围的暴发疫情做出判断;只适合短时的预测,且模型及其参数会随着纳入数据的变化而改变。
        此外,应用ARIMA模型时需注意的几个问题:ARIMA模型应用的前提条件是序列为平稳的时间序列,若为非平稳序列,需对该序列进行预处理,使之达到平稳化;ARIMA模型要求至少有7~8个周期的数据[14,15];用单次分析结果不能作为永久不变的预测模型,它仅能对短期发病率进行预测,需要不断补充新的数据,对模型进行修正或重新拟合,以提高预测敏感性[16];用该模型对疾病的发病率进行预测时,若存在对该病发病率影响较大的因素时,需要将其时间序列作为输入变量纳入模型中,此时的模型被称作ARIMAX模型[17]。本次研究未能获得含腮腺炎成分疫苗的实际使用量,因此未将含腮腺炎成分疫苗使用量的时间序列作为独立变量纳入ARIMA模型。然而如果能将含腮腺炎成分疫苗使用量的时间序列作为独立变量进行建模,可以进一步使模型的拟合效果得到改善。

参考文献
[1]鲁琴宝,王臻,徐旭卿,等.浙江省2006–2011年学校流行性腮腺炎疫情分析[J].中国学校卫生,2012, 33(10): 1271–1272.
[2]费方荣,冯录召,许真,等.2008–2010年中国流行性腮腺炎流行病学特征分析[J].疾病监测,2011, 26(9):691–693.
[3]钟贵良,林希建,刘姝.2008–2012年长沙市流行性腮腺炎流行病学特征分析[J].中华疾病控制杂志,2014, 18(02): 120–122.
[4]孙振球,徐勇勇.医学统计学[M].北京:人民卫生出版社, 2010.
[5]周水森,黄芳,沈毓祖.ARIMA模型在疟疾发病预测中的应用[J].中国病原生物学杂志,2007, 2(4):284–286.
[6]张蔚,张彦琦,杨旭.时间序列资料ARIMA季节乘积模型及其应用[J].第三军医大学学报,2002, 24(8):955–957.
[7]王长双,马雅婷,路明霞,等.河南省2007-2011年流行性腮腺炎流行病学特征分析[J].中国儿童保健杂志,2013, 21(2): 176–178.
[8]徐维祯,张国民,梁爽,等.流行性腮腺炎减毒活疫苗免疫学效果和保护效果的系统评价[J].中国疫苗和免疫,2011, 17(5):426–430.
[9]张冬艳,冯燕,钟淑玲,等.2005–2010年浙江省腮腺炎流行株与疫苗株S79全基因组序列比较分析[J].中华预防医学杂志,2012, 46(3):252–257.
[10]张磊,王建军.不同流行性腮腺炎疫苗接种率及剂次保护效果比较[J].中国学校卫生,2013, 34(5):575–576, 579.
[11]HelfensteinU.Box-Jenkins modelling in medical research[J]. Stat Methods Med Res,1996, 5(1):3–22.
[12]KaoJJ, HuangSS. Forecasts using neural network versus Box-Jenkins methodology for ambient air quality monitoring data[J].J Air Waste Manag Assoc,2000, 50(2):219–226.
[13]MumbareSS, GosaviS, AlmaleB, et al.Trends in Average Living Children at the Time of Terminal Contraception:A Time Series Analysis Over 27 Years Using ARIMA (p,d,q) Nonseasonal Model[J].Indian J Community Med,2014, 39(4): 223–228.
[14]SatoRC.Disease management with ARIMA model in time series[J].Einstein(Sao Paulo),2013, 11(1):128–131.
[15]谈婷,陈立章,刘富强.乘积季节自回归积分滑动平均模型在长沙市手足口病发病率预测中的应用[J].中南大学学报(医学版),2014, 39(11):1170–1176.
[16]漆莉,李革,李勤.ARIMA模型在流行性感冒预测中的应用[J].第三军医大学学报,2007, 29(3):267–269.
[17]梁雪枫,李慧,高丽,等.ARIMA模型预测甲肝发病[J].预防医学情报杂志,2009, 25(4):252–254.