第七章 多重共线性
教学目的及要求:
1、重点理解多重共线性在经济现象中的表现及产生的原因和后果
2、掌握检验和处理多重共线性问题的方法
3、学会灵活运用Eviews 软件解决多重共线性的实际问题。
第一节 多重共线性的产生及后果
一、多重共线性的含义
1、含义
在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X 1,X 2,……,X k 中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。
2、类型
多重共线性包含完全多重共线性和不完全多重共线性两种类型。 (1)完全多重共线性
完全多重共线性是指线性回归模型中至少有一个解释变量可以被其他解释变量线性表示,存在严格的线性关系。
如对于多元线性回归模型
i ki k i i i X X X Y μββββ+++++= 22110 (7-1)
存在不全为零的数k λλλ,,,21 ,使得下式成立:
0X X X 2211=+++ki k i i λλλ (7-2)
则可以说解释变量k X ,,X ,X 21 之间存在完全的线性相关关系,即存在完全多重共线性。 从矩阵形式来看,就是0'
=X X , 即1)(- 中至少有一个列向量可以由其他列向量线性表示。 (2)不完全多重共线性 不完全多重共线性是指线性回归模型中解释变量间存在不严格的线性关系,即近似线性关系。 如对于多元线性回归模型(7-1)存在不全为零的数k λλλ,,,21 ,使得下式成立: 0X X X 2211=++++i ki k i i u λλλ (7-3) 其中i u 为随机误差项,则可以说解释变量k X ,,X ,X 21 之间存在不完全多重共线性。随机误差项表明上述线性关系是一种近似的关系式,大体上反映了解释变量间的相关程度。 完全多重共线性与完全非线性都是极端情况,一般说来,统计数据中多个解释变量之间多少都存在一定程度的相关性,对多重共线性程度强弱的判断和解决方法是本章讨论的重点。 二、多重共线性产生的原因 多重共线性在经济现象中具有普遍性,其产生的原因很多,一般较常见的有以下几种情况。 (一)经济变量间具有相同方向的变化趋势 在同一经济发展阶段,一些因素的变化往往同时影响若干经济变量向相同方向变化,从而引起多重共线性。如在经济上升时期,投资、收入、消费、储蓄等经济指标都趋向增长,这些经济变量在引入同一线性回归模型并作为解释变量时,往往存在较严重的多重共线性。 (二)经济变量间存在较密切关系 由于组成经济系统的各要素之间是相互影响相互制约的,因而在数量关系上也会存在一定联系。如耕地面积与施肥量都会对粮食总产量有一定影响,同时,二者本身存在密切关系。 (三)采用滞后变量作为解释变量较易产生多重共线性 一般滞后变量与当期变量在经济意义上关联度比较密切,往往会产生多重共线性。如在研究消费规律时,解释变量因素不但要考虑当期收入,还要考虑以往各期收入,而当期收入与滞后收入间存在多重共线性的可能很大。 (四)数据收集围过窄,有时会造成变量间存在多重共线性问题。 三、多重共线性产生的后果 由前述可知,多重共线性分完全多重共线性和不完全多重共线性两种情况,两种情况都会对模型进行最小二乘估计都会产生严重后果。 (一)完全多重共线性 产生的后果 以二元线性回归模型为例, i i i i u +++=22110X X Y βββ (7-4) 以离差形式表示,假设其中Y Y i i -=y ,111x X X i i -=,222x X X i i -=,i i X X 21λ=,常数0≠λ,则,i i x x 21λ= ,1β的最小二乘估计量为 () ∑∑∑∑∑∑∑--= 2 2122212211221 ?i i i i i i i i i i i x x x x y x x x y x x β 00) x ()x (y x x y x x 2 222222222 2222=--=∑∑∑∑∑∑i i i i i i i i λλλλ (7-5) 同理得到: 0?2 =β (7-6) 可见参数估计值1?β和2 ?β无法确定。 再考察参数估计量的方差,由前面章节可知: () () 2u 2 2i 1i 22i 2 1i 22i 1 x x x x x ?var σβ∑∑∑∑-= (7-7) 将i i 21x x λ=代入上式,则 2 2222222222^ )x ()x (x )1var(∑∑∑-=i i i u λλσβ (7-8) =∞ 说明此种情况下1 ?β方差为无穷大。 同理可以证明2 ?β的方差在完全共线性下也为无穷大。 以上分析表明,在完全多重共线性条件下,普通最小二乘法估计的参数值不能确定,并且估计值的方差为无穷大。 (二)不完全多重共线性产生的后果 假设上述二元线性回归模型中解释变量i X 1与i X 2的关系为 i i i v X X +=21λ (7-9) 其中i v 为随机项,满足0)(=i v E , ∑=02i i v X ,代入1?β估计表达得: ∑∑∑∑∑∑∑+-++-+=2 2222222222221^])x (x [)x ]()x ([)]x (x )[x ()x )](x (y [^ i i i i i i i i i i i i i i i v v v y v λλλλβ = ∑∑2y i i i v v (7-10) 由于 ∑≠02i v ,因而1?β是可确定估计的,但是其数值依赖i v 的数值,而i v 的数值随样本的变化有较大变化,所以1 ?β估计值是很不稳定的。 同理可以证明2 ?β也是可估计的,且数值具有不稳定性。 考察估计量的方差: 由(7-1)式可知λ是i X 1、i X 2的相关系数,因此 22 11212 222 12 212 x x )x x (r r r i i i i = = ∑∑∑λ (7-11) 参数估计量的方差可表达为: ()∑∑∑-∑=2 ) 2x 1x (22x 21x 2 2x 2?var i i i i i μσβ 212 212 1x r i u -= ∑σ (7-12) 其中12r 为i 1X 和i 2X 之间的相关系数,从(7-12)式可见,||12r 的值越大,则共线程度越高,估计 量方差() 2 ?var β越大,直至无穷。 综上所述,线性回归模型解释变量间存在多重共线性可能产生如下后果:增大最小二乘估计量的方差;参数估计值不稳定,对样本变化敏感;检验可靠性降低,产生弃真错误。由于参数估计量方差增大,在进行显著性检验时,t 检验值将会变小,可能使某些本该参数显著的检验结果变得不显著,从而将重要变量舍弃。 第二节 多重共线性的检验 多重共线性是较为普通存在的现象,从上节分析可知,较高程度的多重共线性会对最小二乘估计产生严重后果,因此,在运用最小二乘法进行多元线性回归时,不但要检验解释变量间是否存在多重共线性,还要检验多重共线性的严重程度。 一、不显著系数法 情况1、2R 很大,t 小 不显著系数法是利用多元线性回归模型的拟合结果进行检验。如果拟合优度2R 的值很大(一般来说在0.8以上),然而模型中的全部或部分参数值估计值经检验却不显著,那么解释变量间有可能存在较严重的多重共线性。 情况2、理论性强,检验值弱 如果从经济理论或常识来看某个解释变量对被解释变量有重要影响,但是从线性回归模型的拟合结果来看,该解释变量的参数估计值经检验却不显著,那么可能是解释变量间存在多重共线性所导致的。 情况3、新引入变量后,方差增大 在多元线性回归模型中新引入一个变量后,发现模型中原有参数估计值的方差明显增大,则说明解释变量间可能存在多重共线性。 二、拟合优度2j R 检验 对多元线性回归模型中各个解释变量相互建立回归方程,分别求出各回归方程的拟和优度,如果其中最大的一个接近1,i F 显著大于临界值,该变量可以被其他变量线性解释,则其所对应的解释变量与其余解释变量间存在多重共线性。 如设某多元线性回归模型中原有k 个解释变量k X ,,X ,X 21 ,将每个解释变量对其他解释变量进行回归,得到k 个回归方程: )X ,X ,X (X 321k f = )X ,X ,X (X 312k f = )X ,,X ,X (X 121-=k k f 分别求出上述各个方程的拟合优度2K 2221R ,,, R R ,如果其中最大的一个2 i R 接近于1,则它所对应的解释变量i X 与其余解释变量间存在多重共线性。 三、相关矩阵法 考察多元线性回归模型 k k Y X X 110βββ+++= (7-13) 其解释变量之间的相关系数矩阵为: ? ? ??? ? ??????=??????? ?? ???=111212211122122221 112 11 k k k k kk k k k k r r r r r r r r r r r r r r r R (7-14) 因为ji ij r r =,,所以上面相关阵为对称阵,1=jj r ,只需考察主对角线元素上方(或下方)某个元素绝对值是否很大(一般在0.8以上),就可以判断两个解释变量间是否存在多重共线性。 结论: 另外需要特别注意的是,如果相关系数很大,则一定存在多重共线性,如果相关系数很小,不一定没有多重共线性。 四、Frisch 综合分析法 1、方法及分析标准 Frisch 综合分析法也叫逐步分析估计法,其基本思想是先将被解释变量对每个解释变量作简单回归方程,称为基本回归方程。再对每一个基本回归方程进行统计检验,并根据经济理论分析选出最优基本方程,然后再将其他解释变量逐一引入,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别: 1.如果新引进的解释变量使2 R 得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。 2.如果新引进的解释变量对2R 改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。 3.如果新引进的解释变量不仅改变了2 R ,而且对其他回归系数的数值或符号具有明显影响,则可认为引进新变量后,回归模型解释变量间存在严重多重共线性。这个新引进的变量如果从理论 上分析是十分重要的,则不能简单舍弃,而是应研究改善模型的形式,寻找更符合实际的模型,重新进行估计。如果通过检验证明存在明显线性相关的两个解释变量中的一个可以被另一个解释,则可略去其中对被解释变量影响较小的那个变量,模型中保留影响较大的那个变量。 2、具体实例 例7-1 设某地10年间有关服装消费、可支配收入、流动资产、服装类物价指数、总物价指数的调查数据如表7-1,请建立需求函数模型。 表7-1 服装消费及相关变量调查数据 (1)设对服装的需求函数为 u P Pc L Y C +++++=0 43210?βββββ 用最小二乘法估计得 c 0334P .0199P .0015L .0097Y .0534.13C ?+-++-= 9980.R = 168166.RSS = 332.0=ESS 383.3=?W D 4634626.F = 由19.5)5,4(4634.66205.0=>=F F 得出拒绝零假设,认为服装支出与解释变量间存在显著关系。 (2)求各解释变量的基本相关系数 9918 .09695.09799 .09877 .09804.09883.0000======PcP LP LPc YP YPc YL r r r r r r 上述基本相关系数表明解释变量间高度相关,也就是存在较严重的多重共线性。 (3)为检验多重共线性的影响,作如下简单回归: ①1178Y .02455.1C ?+-= (-3.3102) (41.9370) 9955.02=R 6271.2=?W D ②c 5164P .05190.38C ?+-= (-9.1682) (12.5363) 9516.02 =R 4013.2=?W D ③L 3269.01182.2C ?+= (2.5858) (15.3096) 9667.02 =R 4684.0=?W D ④0 6632.06508.53C ?P +-= (-14.7710) (18.6585) 9775.02 =R 1720.2=?W D 以上四个方程根据经济理论和统计检验,收入Y是最重要的解释变量(t 检验值=41.937也最大),从而得出最优简单回归方程)(Y f C =。 (4)将其余变量逐个引入)(Y f C =,计算结果如下表7-2: 表7-2 服装消费模型的估计 ?β (常数) )(?1Y β )(?2Pc β )(?3L β )(?0 4P β 2R W D ? )(Y f C = -1.2455 (-3.3102 ) 0.117(41.9370 ) ____ ____ ____ 0.9955 2.6271 ),(Pc Y f C = 1.4047 (0.2852) 0.1257 (8.4259) -0.0361 (-0.5398 ) ____ ____ 0.9957 2.5335 ),,(L Pc Y f C = 0.9400 (0.1815) 0.1387 (5.5845) -0.0345 (-0.4941 ) -0.0379 (-0.6682 ) ____ 0.9959 3.1568 ),,(0P Pc Y f C = -12.7593 (-1.9581 ) 0.1036 (7.4640) -0.1882 (-2.4693 ) ____ 0.3186 (2.6189) 0.9980 3.5241