文档库 最新最全的文档下载
当前位置:文档库 › 基于多变量的Granger因果检验方法_李永立吴冲

基于多变量的Granger因果检验方法_李永立吴冲

网络出版时间:2012-05-11 10:21

网络出版地址:https://www.wendangku.net/doc/5c17326084.html,/kcms/detail/11.2242.O1.20120511.1021.001.html

基于多变量的Granger因果检验方法

李永立吴冲

哈尔滨工业大学管理学院,哈尔滨 150001

【摘要】针对既有的Granger因果检验方法只能处理两个变量间的因果关系问题,指出这种方法会导致间接因果与直接因果的混淆及由于数据同源而产生的伪因果问题,提出一种可以消除以上问题的多变量因果检验方法。该方法立足于原有的Granger因果检验,适用于短时相依的和平稳的时间序列数据,并根据蒙特卡罗方法给出了统计推断的检验量,设计了方法的实施步骤。最后,应用一个仿真的实例具体展示了方法的使用过程和方法的有效性。

关键词:因果检验; 多变量; 中介变量; 蒙特卡罗方法; 时间序列分析

中图分类号:F224.9;F830.9文献标识码:A

The Granger Causality Test Method Based on the Multiple Variables

Li Yongli Wu Chong

School of Management, Harbin Institute of Technology, Harbin, 150001

【Abstract】The traditional Granger causality test could only deal with the causality relationship between two variables, so it would lead to the problem of confusing indirect cause with direct one and pseudo-cause according to homologous data. The paper proposed a new multi-variable causality test method to erase the above problems. The new method, which is proper for short-time dependent and stationary time series data based on original Granger causality, adopted the Monte Carlo method to give statistical inference and designed the method steps to implement. In conclusion, the method is proved to be effective through a stimulation practice and verification.

Key Words:causality test; multiple variables, mediator variable; Monte Carlo method; time series analysis

投稿日期:2012年2月20日

基金项目:国家自然科学基金(60979016);高等学校博士点专项基金资助项目(20092302110060),教育部新世纪优秀人才支持项目资助(NCET-08-0171).

作者简介:李永立(1985—),男(汉族),辽宁沈阳人,博士研究生,主要研究领域为数据挖掘、统计学习理论、管理决策方法,E-mail:0440004@https://www.wendangku.net/doc/5c17326084.html,,联系方式:136********。吴冲(1971—),男(汉族),黑龙江哈尔滨人,教授,博士生导师,主要研究领域为管理科学与工程。

联系方式:黑龙江省哈尔滨市南岗区哈尔滨工业大学管理学院,邮编:150001。

0 引言

由Granger 提出的为避免虚假回归的因果检验方法[1,2],目前已被经济学和管理学的研究广泛采用,用以讨论经济或管理时间序列变量之间的关系[3,4]。就这种方法本身的适用性和有效性的讨论也成为许多学者关注的问题,比如:Toda 和Phillipp [5]、He 和Koichi [6]、周建和李子奈[7]研究了时间序列数据的平稳性对于Granger 因果检验的影响,指出Granger 因果检验方法适用于平稳序列,对于不平稳序列会产生错误的因果推断,需要将数据转化为平稳序列;Caporate 和Pittis [8]、Hassapis 等 [9]针对数据的不平稳问题,进一步讨论了单位根检验、Granger 因果检验和协整检验之间的关系问题,给出了Granger 因果检验适用于刻画数据短期间的因果关系,而长期的关系则需协整检验来判定的结论;进一步,Ray 和Tsay [10]、华仁海和陈百助[11]、许友传等[12]指出还有一类数据介于平稳和单整之间,表现为一定的长记忆性,提出了应用分数阶差分及时序数据的分解方法来检验这类数据的长记忆因果特性及短记忆因果特性的方法。

以上的研究,重点关注了数据的平稳特征及长短时的相依特征对于因果检验的影响,在Granger 因果检验中,还有一个特点是只能检验两个变量之间的因果关系,这一点在周建和李子奈[7]、张书云[13]、高铁梅[14]、许友传等[12]、Chen 等[15]的研究文献中都有提及。本文指出只能检验两个变量间的因果关系会产生两个缺陷:一类是由于变量间传递而产生的间接因果关系,而不是两个变量间存在固有的因果关系问题;另一类是变量由于同源而产生的虚假因果关系问题。在对这些问题分析的基础上,本文提出了检验这两类因果关系的统计方法,并通过仿真分析验证了方法的有效性、指出该方法在刻画多个变量间关系的意义并进行总结。以上内容分别呈现在本文的第一至第四部分。

1 两变量Granger 因果检验的回顾及局限

1.1 两变量Granger 因果检验的简要回顾

传统的Granger 因果检验方法只涉及两个变量间的因果检验,以时间序列,t t x y 为例,包括三个关系:序列x 是序列y 的原因,序列y 是序列x 的原因及两者互为因果,检验过程如下所示。首先建立基准方程:

111111t i t i t i t i t i t

i x a x y b y εη∞

?=∞

?==+=+∑∑ (1)

其中,

1t ε与1t η表示白噪声,1i a 与1i b 为系数。注意到方程中滞后项的阶数取无穷是一种通用的表达,

在实际的模型中,滞后项一般都是有限阶的,比如(1)式中第一个方程滞后项为p 阶时,仅相当于10i a =,当i p >时。

在确定以上方程的滞后项阶数时,通常综合应用AIC 准则和BIC 准则,具体可参见Lee 等[16]的论述,

这里不再赘述。由此得到残差1?t ε

和1?t η的方差—协方差矩阵1Η为: 1J

J xx

xy

J

J xy

yy ??ΣΣΗ=????ΣΣ??

(2) 然后建立如下的比较方程:

2221122211t i t i i t i t i i t i t i i t i t

i i x a x b y y c x d y εη∞∞

??==∞

??===++=++∑∑∑∑ (3)

变量及参数的意义可以参考式(1)类推。由此得到残差的方差—协方差矩阵2Η为:

2xx

xy xy

yy ??

ΣΣΗ=?

???ΣΣ??

(4) 为检验序列t x 是序列t y 的原因,定义检验的统计量Δ为:

()//()

J yy yy x y yy p n p q →Σ?ΣΔ=

Σ?? (5)

其中,n 为样本容量,p 表示(3)式第二个方程,即t y 方程中t x 项的滞后阶数,q 表示该方程中t

y 项的滞后阶数。Pierc 等[17]的研究已经证明了:在原假设为t x 不是t y 的原因时,这个统计量满足分布

(,)F p n p q ??。只需通过查F 分布表即可判定其是否在某个置信度下统计显著:如果拒绝原假设,则认为t x 到t y 的因果关系成立。同理可知:为检验序列t y 是序列t x 的原因,设定统计量Δ为:

()/'/('')

J xx xx y x

xx q n p q →Σ?ΣΔ=Σ?? (6) 其中,n 为样本容量,'q 表示(3)式第一个方程,即t x 方程中t y 项的滞后阶数,'p 表示该方程中t

x 项的滞后阶数。与上同理可知,其满足分布(','')F q n p q ??,检验方法与上面相同。

当两者互为因果时,只需同时检验(5)和(6)式定义的统计量即可。 1.2 两变量Granger 因果检验的局限

为中介变量三个变量间的因果关系图示

之间没有直接的因果关系,这种关系是通过变量中传统的因果分析法,得出的结论将是这三个变量间有着如图

传统方法分析含有中介变量的因果关系图示

所示的因果关系与图是不同的,图2显示序列而这是由传统方法的局限所产生的。

情况二:传统的方法无法分辨来自于同一个数据源而产生的虚假因果关系,如下图3所示:

图3 由于同源而发生伪因果关系的图示

图3中实线箭头表示真实存在的因果关系,虚线箭头表示由于传统方法的局限而检验出的虚假的因果关系。事实上,这种关系可能是由于同源于序列y 造成的。

针对以上这些问题,需要对原方法进行改进,使之能够辨识通过中介传递而发生的间接因果关系以及由于同源而引起的因果关系问题,为准确辨识这些序列间的关系奠定基础。

2 多变量间Granger 因果检验方法的建立

2.1 多变量方法的基本原理

针对传统方法的局限,类似于1.1中传统检验方法的描述过程,提出如下的检验方法,其变量的意义可以参照公式(1)类推。

首先建立如下的基准方程:

3331133311t i t i i t i t i i t i t i i t i t

i i y a y b z z c y d z ηγ∞∞

??==∞

??===++=++∑∑∑∑ (7)

由此得到残差的方差—协方差矩阵3Η为:

3J

J yy

yz

J

J yz

zz ??ΣΣΗ=????ΣΣ??

(8) 然后建立如下的比较方程:

444411144441114444111t i t i i t i i t i t

i i i t i t i i t i i t i t i i i t i t i i t i i t i t

i i i x a x b y c z y d x e y g z z h x m y n z εηγ∞

???===∞

???===∞

???====+++=+++=+++∑∑∑∑∑∑∑∑∑ (9) 由此得到残差的方差—协方差矩阵4Η为:

4xx

xy xz xy

yy yz xz

yz

zz ??ΣΣΣ??

Η=ΣΣΣ????ΣΣΣ??

(10) 当以序列y 为中介时,定义检验序列x 是序列z 的原因的因果统计量Δ为:

|J zz zz

x z y

zz

→Σ?ΣΔ=Σ (11)

注意到上式的统计学意义:当三个序列之间的关系如图1所示,即序列x 和z 之间的关系完全依赖于序列y 做中介时,这时(7)中t z 的方程与(9)中t z 的方程应是一致的,因为(1,2,)t i x i ?="没有提供额外的信息,其信息全部被(1,2,)t i y i ?="所包含,即有J

zz zz Σ=Σ,可得|0x z y →Δ=;如果不是这样,必然

(1,2,)t i x i ?="会提供额外的信息,这时t z 有更多的信息得到了解释,必然方差J

zz zz Σ<Σ,可得|0x z y →Δ>。

同理,对于序列y 为共同信息源时,如图3所示,序列x 和z 之间关系的发生可能依赖于序列y 的共同信息,当以(1,2,)t i y i ?="做解释变量时,(9)中t z 方程中的(1,2,)t i x i ?="没有提供额外的信息,这时应有40(1,2,)i h i =="的原假设成立,也即与(7)式中t z 的方程一致。由此可得:当序列y 为同源时,检验序列x 是序列z 的原因的因果统计量Δ与(11)式是相同的,即为:

|J zz zz x z y

zz

→Σ?ΣΔ=Σ

比较图1和图3可以发现:虽然这个检验量是相同的,但是结构是不同的,一个以序列y 为中介,一个以序列y 为源头。有了这个一致的公式,大大简化了对多变量因果分析的运算量,只需计算一次即可,

由此可以简记为“一个公式,两种结构”。

由于随机性的存在,以上 |0x z y →Δ>的程度值得关注,也即其大于多少可以认为是统计显著的,而不是由于随机干扰造成的结果。关于这个标准的讨论有两种基本的方法:一种是基于统计假设的推断方法,可以参见李永立等[18]的论述,另一种方法是基于蒙特卡罗模拟的方法[19],求得在各个置信度的阈值,以此作为判断的标准,随着计算机技术的发展,第二种方法有着更普遍的适用性,本文拟选取第二种方法获得在0.05置信度下的阈值,作为判断的标准。 2.2 蒙特卡罗模拟获得统计检验量的方法描述

以(11)式定义的统计量为例,描述应用蒙特卡罗模拟获得统计检验量的方法,以下方法已在Chen 等 [15]

讨论神经数据的统计检验量时成功实践过。

首先观察(9)式中t z 的方程,对于已有的t x 序列,将其打乱顺序,随机排列获得新的t x 序列,标记

为?t x

,这时应用新的序列拟合(9)式中的t z 方程,计算(11)式定义的统计量。重复以上过程500次,

计算每次得到的(11)式的值,将这些值由小到大排序,取处在第475位的数据作为统计检验量,注意到这个量恰好大于95%的全部数据,这就是置信度为0.05的统计检验量。如果根据实际数据获得的统计量大于这个检验量,则拒绝图1所示的以序列y 为中介的结构的原假设,接受图2的结构;反之则反是。对于同源的情况如图3所示,也是如此。

这个方法的合理性在于:将t x 序列重新排序就破坏了原有的因果关系,相当于接受了(9)式t z 方程中40(1,2,)i h i =="的原假设,也即图1所示的结构模式,通过多次模拟求得在这个原假设下的,由(11)式定义的统计量的分布,依据统计检验的原理,求得该分布0.95处的分位数作为0.05置信度下的统计检验量。

2.3 新方法的实施步骤

该新方法继承了原Granger 因果检验可以用于分析短时相依和平稳序列的因果关系的特点,同时将两两检验扩展到三个变量间的因果检验。注意到该方法将两个模块扩展到三个模块是一个质的跨越,其包含了对间接因果情况的分析和由于同源而产生的伪因果问题,事实上,模块数目超过三个时,只要对其中的三个模块构成的小系统逐个用本文提出的方法分析即可,这只有量的差别,没有质的变化。由此提出如下的实施步骤:

步骤一:检验已有时序数据的平稳性特征,当不满足时,转化为具有以上特征的时序数据; 步骤二:应用原有的因果检验方法,分别考察序列间两两的因果关系,获得一个含有冗余因果关系(即包含两种情况的伪因果关系)的系统结构;

步骤三:在步骤二获得的系统关系图的基础上找到如图3所示的三元组,运用本文提出的因果分析法进行分析,去掉间接因果关系及同源产生的伪因果关系导致的连接;重复这个过程,直到消除全部的伪因果连接为止。

3 方法有效性的仿真实验

为验证本文方法的有效性,这里提出一个如下的含有四个变量的系统,其因果关系如图4所示:

图4 四个变量之间的因果关系图示

并令其有如下的生成关系:

111214232334144()0.5(1)()

()0.4(1)0.9(1)()()0.8(1)0.3(1)()()0.7(1)0.6(1)()

x t x t t x t x t x t t x t x t x t t x t x t x t t εεεε=?+=?+?+=?+?+=?+?+ (12)

其中,()i t ε(1,2,3,4)i =服从均值为零的正态分布,假定方差分别为0.16,0.25,0.04和0.09;各量的初值全部取为1。

现假定获得了具有如上关系的时间序列数据各500个,现通过本文的方法检验其是否存在如图4所示的因果关系,参照2.3中的步骤,检验如下:

第一步:序列的平稳性检验

这里应用KPSS 检验考查以上五个时间序列的平稳性,KPSS 检验的原假设是序列平稳,这里选择含

x 2→x 4 0.06 0.815 不成立 x 4→x 2 401.06 0.000 成立 x 3→x 4 3.67 0.059 不成立 x 4→x 3 230.70 0.000 成立

综上可得一个包含冗余关系的系统因果关系图如下:

图5 两两分析包含冗余因果关系的图示

第三步:找到三元组,进行本文中第2部分的方法分析,得到最终的图示

这里的三元组有四个,即234(,,)x x x 、123(,,)x x x 、124(,,)x x x 和134(,,)x x x ,逐个进行分析。这里以234(,,)x x x 三元组的分析为例,首先计算以4x 为共同信息源,3x 是2x 的原因的因果统计量:

3243|132.25131.73

3.910131.73

x x x ?→?Δ=

其中,132.25是以2x 为因变量,以2x 和4x 按照AIC 和BIC 准则确定的滞后项拟合如(7)式t z 的方程得到的残差平方和;而131.73是以2x 为因变量,以2x 、3x 和4x 按照AIC 和BIC 准则确定的滞后项拟合如(9)式t z 的方程得到的残差平方和;而后根据(11)计算得到上述值。根据蒙特卡罗方法得到的检

验量为0.041(这个结果来自于500次的随机模拟,取置信度为0.05),可见3

3.9100.041?×<,由此接受原假设,认为3x 是2x 原因的成立依赖于4x 的同源作用,由此可以删去图5中3x 到2x 的箭头。

接着考察以4x 为共同信息源,2x 是3x 的原因的因果统计量:

234|119.8220.31

4.9020.31

x x x →?Δ==

注意到根据蒙特卡罗方法得到的检验量为0.037(这个结果来自于500次的随机模拟,取置信度为0.05),而4.900.037>,拒绝原假设,认为2x 到3x 的原因不是依赖于4x 为共同信息源而引起的,不能删去图5中2x 到3x 的箭头。

再则,以2x 为中介变量,4x 是3x 的原因的因果统计量:

4323|20.3920.31

3.91020.31

x x x ?→?Δ=

根据蒙特卡罗方法得到的检验量为0.047(这个结果来自于500次的随机模拟,取置信度为0.05),可

见3

3.910

0.047?×<,由此接受原假设,认为4x 是3x 原因的成立依赖于2x 的中介作用,由此可以删去图

5中4x 到3x 的箭头。

经过以上的分析,234(,,)x x x 三个数据间的因果关系与图5是一致的。其他的数据间的关系可以类似于这个进行,最终可以得到图5的关系。因此仿真结果表明:本文方法给出了这四个变量间正确的因果关系,该方法是有效的。

4 结论及进一步的研究

针对既有的Granger 因果检验只能处理两个变量之间的因果关系问题,指出这样的处理方法会产生两个缺陷:依赖中介变量产生的间接因果关系问题和由于同源而产生的伪因果关系问题,提出了一种可以用于多个变量间的因果检验方法,并通过蒙特卡罗方法给出了检验量,进行了方法有效性的仿真分析。

通常对于结构方程模型检验命题时,有着类似于本文中中介变量、调控变量或同源变量的讨论,这对于管理学有着理论和实践的意义。本文的方法与之异曲同工,也是受那里的关于各类变量的关系讨论的启步可能研究的方向在于可否提出一种针对于面板数据的类似于本文中或结构方程分析中讨论中介变量、同源变量间关系的方法。

对于经济调控来说,本文的方法也有着实践的意义,把握好直接或间接的因果关系,正确区别伪因果关系有助于实现有针对性地和有效地调控。比如对于如图1所示的因果关系,为达到调控z 的目的,既可以调控x ,也可以调控y ,如果明确了以上的关系,对于调控就游刃有余地多,有更多的选择,如果x 是一个涉及全民福利的指标,就可以只调控y 在不影响全民福利的情况下,达到对z 的调控,保证了“双赢”。对于伪因果的情况,可以保证找到正确的调控对象,而不是调控了一些貌似有着因果关系,事实上本末倒置的因素,就像图3中欲对x 调控而去调控z 一样,而没有把握到更本质的因素y 。

参考文献

[1] Granger C W J. Investigating causal relations by econometric models and cross-spectral methods[J]. Econometrica, 1969, 37: 424-438.

[2] Granger C W J. Testing for causality: A personal viewpoint[J]. Journal of Economic Dynamics and Control, 1980, 2: 329-352.

[3] 余华义, 陈东. 我国地价、房价和房租关系的重新考察:理论假设与实证检验[J]. 上海经济研究, 2009, 4:11-21.

[4] 黄飞雪, 谷静, 李延喜, 苏敬勤. 金融危机前后的全球主要股指联动与动态稳定性比较. 系统工程理论与实践, 2010, 30(10): 1729-1740.

[5] Toda H Y, Phillipp C B. The spurious effect of unit roots on vector autoregressions[J]. Journal of Econometrics, 1993, 59: 229-255.

[6] He Z L, Koichi M. On spurious Granger Causality[J]. Economics Letter, 2001, 73: 307-313.

[7] 周建, 李子奈. 因果关系检验的适用性[J]. 清华大学学报(自然科学版), 2004, 44(3): 358-361.

[8] Caporate G M, Pittis N. Causality and forecasting in incomplete systems[J]. Journal of Forecasting, 1997, 16: 425-437.

[9] Hassapis C, Pittis N, Prodromidis K. Unit roots and Granger causality in the EMS interest rates: The German dominance hypothesis revised[J]. Journal of international Money and Finance, 1999, 18: 47-73.

[10] Ray B K, Tsay R S. Long range dependence in daily stock vo latilities[J]. Journal of Business and Economic Statistics, 2000, 18: 254-262.

[11] 华仁海, 陈百助. 我国期货市场期货价格收益及其波动方差的长记忆性研究[J]. 金融研究, 2004, 2: 52-62.

[12] 许友传, 何晓光, 杨继光. 基于长记忆视角的Granger因果检验[J]. 系统管理学报, 2011, 20(1): 22-25.

[13] 张书云. Granger因果检验用法探讨[J]. 数理统计与管理, 2009, 28(2): 244-251.

[14] 高铁梅. 计量经济分析方法与建模--EViews应用及实例[M]. 北京:高等教育出版社, 2006年(第1版).

[15] Chen Y H, Bressler S L, Ding M Z. Dynamics on networks: assessing functional connectivity with Granger causality[J]. Comput Math Organ Theory, 2009, 15(9): 329-350.

[16] Lee H, Ghosh S K. Performance of Information Criteria for Spatial Models[J]. Journal of Statistical Computation and Simulation, 2009, 79(1): 93-106.

[17] Pierce D A, Haugh L D. The assessment and detection of causality in temporal system[J]. Journal of Econometrics, 1977, 5(3):265-293.

[18] 李永立, 吴冲, 王崑声. 一个新的关联规则兴趣度度量方法[J]. 情报学报, 2011, 30(5): 502–507.

[19] Singhee A, Singhal S, Rutenbar R A. Practical, fast Monte Carlo statistical static timing analysis: Why and how[C]//Proceedings of the 2008 IEEE/ ACM International Conference on Computer-Aided Design. San Jose: IEEE, 2008: 190–195.

相关文档