当前位置：文档库 › 第七章-多重共线性及其处理

第七章-多重共线性及其处理

第七章多重共线性及其处理

一、简答题

1．什么是变量之间的多重共线性?

2．什么是完全多重共线性？什么是不完全多重共线性？

3．多重共线性在多元线性回归模型中普遍存在的主要原因有哪些？ 4．多重共线性可能造成哪些不利后果? 5．多重共线性的检验有哪些适当的方法? 6．多重共线性的修正方法有哪些？

二、计算题分析题

1．某地区供水部门利用最近20年的用水年度数据得出如下估计模型：

12345

?326.90.3050.3630.00517.87 1.123Y X X X X X =-++--- （-1.7） (0.9) (1.4) (-0.6) (-1.2) (-0.8)

93.02=R

F=38.9

式中，y ——用水总量（百万立方米）,1x ——住户总数（千户）,2x ——总人口（千人）,

3x ——人均收入（元）,4x ——价格（元/100立方米）,5x ——降雨量（毫米）。

（1）根据经济理论和直觉,请计回归系数的符号是什么(不包括常量)，为什么？观察符号与你的直觉相符吗？

（2）在10%的显著性水平下，请进行变量的t 检验与方程的F-检验。T 检验与F 检验结果有相矛盾的现象吗？

（3）你认为估计值是（1）有偏的；（2）无效的；（3）不一致的吗？详细阐述理由。 2．下表是某地区1995年~2004年食品需求量Y 、可支配收入1X 、食品类价格指数2X 、物价总指数3X 和流动资产拥有量4X 的数据资料。

问题：

（1）检验变量间的多重共线性。

（2）利用Frish 法，建立适当的回归方程。

第四部分习题答案一、简答题

1．多重共线性指两个或多个解释变量之间不再彼此独立，而是出现了相关性。

2．完全多重共线性指：在有多个解释变量模型中，其中一个变量可以表示为其他多个变量的完全线性函数，即k k X B X B X B X Λ++=33221，其中至少有一个

),,3,2(,0k i B i Λ=≠，1X 与等式右边线性组合的相关系数为1，则这种情况被称为完全

多重共线性。在此情况下，不能估计解释变量各自对被解释变量的影响。

不完全多重共线性指：在实际经济活动中，多个解释变量之间存在多重共线性问题，但与等式右边线性组合的相关系数不为1。 3．多重共线性产生的原因

多元线性回归模型产生多重共线性的原因很多，主要有：（1）经济变量的内在联系。这是产生多重共线性的根本原因；

（2）解释变量中含有滞后变量；（3）经济变量变化趋势的“共向性”。 4．多重共线性会产生以下问题：

（1）增大了OLS 估计量的方差；（2）难以区分每个解释变量的单独影响；（3）回归模型缺乏稳定性；（4）t 检验的可靠性降低。

5．在应用多元回归模型中，人们总结了许多检验多重共线性的方法。

（1）系数判定法

（2）用解释变量之间所构成的回归方程的决定系数2R 进行判别（3）逐步回归判别法

以Y 为被解释变量逐个引入解释变量，构成回归模型，进行参数估计，根据决定系数的变化决定新引入的变量是否能够加入模型之中。首先将Y 对所有的解释变量分别作回归，得到所有的模型，取决定系数最大的模型中的解释变量加入模型，作为第一个引入模型的变量；其次，将Y 再对剩余的解释变量分别加入模型，进行二元回归，再次，取决定系数最大的解释变量加入模型；依次做下去，直到模型的决定系数不再改善为止。

（4）方差膨胀因子VIF 判别法

对于多元线性回归模型，?i β

的方差可以表示成 ()

()

VIF X X

r X X

Var i i

i i

.?2

∑∑-=--=σβ

一般当V I F ＞10时(此时2i r ＞0.9)，认为模型存在较严重的多重共线性。

（5）修正的Frish 判别法

该方法不仅可以对多重共线性进行判别，同时也是处理多重共线性问题的一种有效方法。其步骤为：第一，用被解释变量分别对每个解释变量进行线性回归，根据经济理论和统

计检验从中选择一个最合适的回归模型作为基本回归模型，通常选取决定系数2R最大的回归模型。第二，在基本回归模型中逐个增加其他解释变量，重新进行线性回归，如果新增加的这个解释变量提高了回归模型的决定系数2R，并且回归模型中的其他参数统计上仍然显著，就在模型中保留该解释变量；如果新增加的解释变量没有显著提高回归模型的拟合优度，则不在模型中保留该解释变量；如果新增加的解释变量提高了回归模型的决定系数，并且回归模型中某些参数的数值或符号等受到显著的影响，说明模型中存在多重共线性，对该解释变量同与之相关的其他解释变量进行比较，在模型中保留对被解释变量影响较大的，剔除影响较小的。

6．多重共线性的解决方法有：

（1）剔除引起共线性的变量；

在估计模型之前，找出引起多重共线性的变量，将它剔除出去，是最有效的克服多重共线性问题的方法。

（2）变换模型的形式

对原模型进行适当的变换，也可以消除或削弱原模型中解释变量之间的相关关系。具体有三种变换方式：一是变换模型的函数形式；二是变换模型的变量形式；三是改变变量的统计指标。

（3）综合使用时序数据与横截面数据

如果能同时获得变量的时序数据和横截面数据，则先利用某类数据估计出模型中的部分参数，再利用另一类数据估计模型的其余参数。

（4）逐步回归分析法

逐步回归选取变量时，是一个“由少到多”的过程，即从所有解释变量中间先选择影响最为显著的变量建立模型，然后再将模型之外的变量逐个引入模型；每引入一个变量，就对

模型中的所有变量进行一次显著性检验，并从中剔除不显著的变量；逐步引入—剔除—引入，直到模型之外所有变量均不显著时为止。

（5）增加样本容量

由于多重共线性是一个样本特性，如果理论上解释变量之间不存在多重共线性，则可以通过收集更多的观测值增加样本容量，来避免或减弱多重共线性。

二、计算题分析题

1．（1）在其他变量不变的情况下，一城市的人口越多或房屋数量越多，则对用水的需求越高。所以可期望house和pop的符号为正；收入较高的个人可能用水较多，因此pcy的预期符号为正，但它可能是不显著的。如果水价上涨，则用户会节约用水，所以可预期price 的系数为负。显然如果降雨量较大，则草地和其他花园或耕地的用水需求就会下降，所以可以期望rain的系数符号为负。从估计的模型看，除了pcy之外，所有符号都与预期相符。（2）t-统计量检验单个变量的显著性，F-统计值检验变量是否是联合显著的。

这里t-检验的自由度为15-5-1=9，在10%的显著性水平下的临界值为1.833。可见，所有参数估计值的t值的绝对值都小于该值，所以即使在10%的水平下这些变量也不是显著的。

这里，F-统计值的分子自由度为5，分母自由度为9。10%显著性水平下F分布的临界值为2.61。可见计算的F值大于该临界值，表明回归系数是联合显著的。

T检验与F检验结果的矛盾可能是由于多重共线性造成的。house、pop、pcy都是高度相关的，这将使它们的t-值降低且表现为不显著。price和rain不显著另有原因。根据经验，如果一个变量的值在样本期间没有很大的变化，则它对被解释变量的影响就不能够很好地被度量。可以预期水价与年降雨量在各年中一般没有太大的变化，所以它们的影响很难度量。

（3）多重共线性往往表现的是解释变量间的样本观察现象，在不存在完全共线性的情况下，近似共线并不意味着基本假定的任何改变，所以OLS估计量的无偏性、一致性和有

效性仍然成立，即仍是BLUE 估计量。但共线性往往导致参数估计值的方差大于不存在多重共线性的情况。

2．根据理论分析，食品需求量受四个因素的影响，建立回归方程：

εβββββ+++++=443322110X X X X Y

利用表7.5中数据，采用最小二乘法，得：

321015.0401.3991.1097.0335.135?X X X X Y ++-+-= 627.15383

.3.998

.02===F W D R

给定显著水平0.05α=，查F 分布表，得临界值为0.05(4,5) 5.19F =，故F >0.05(4,5)F ，回归方程线性关系显著。

现用Eviews 软件分别计算两两变量之间的相关系数，得表：

可见解释变量之间是高度相关的。

为了检查和处理多重共线性，采用修正Frish 法。

根据理论分析，可支配收入应该是食品需求最主要的影响因素，相关系数检验也表明，收入与食品需求的相关性最强。所以，首先建立以收入为解释变量的一元回归模型。

食品需求量Y与可支配收入1x的线性回归结果

Dependent Variable: Y

Method: Least Squares

Sample: 1995 2004

Included observations: 10

X0.1178450.00281041.937010.0000 1

Adjusted R-squared0.994906S.D. dependent var43.01163 S.E. of regression 3.069899Akaike info criterion 5.258023 Sum squared resid75.39426Schwarz criterion 5.318540 Log likelihood24.29012F-statistic1758.713 Durbin-Watson stat 2.627059Prob(F-statistic)0.000000依次将其余变量逐个引入模型，估计结果分别如表所示。

食品需求量Y与可支配收入1X及食品类价格指数2X的线性回归结果

X0.1257420.0149238.4259430.0001 1

X0.3610550.6688730.5397960.1061 2

Durbin-Watson stat 2.533515Prob(F-statistic)0.000000食品需求量Y与收入1X、类价格指数2X及物价总指数3X的线性回归结果

X0.1036060.0138817.4639720.0003 1

X 1.8817850.762063 2.4693290.0485 2

X 3.185637 1.216410 2.6188840.0396 3

Durbin-Watson stat 3.524120Prob(F-statistic)0.000000需求量、收入、类指数、物价总指数和资产的线性回归结果

多重共线性问题的几种解决方法

多重共线性问题的几种解决方法在多元线性回归模型经典假设中，其重要假定之一是回归模型的解释变量之间不存在线性关系，也就是说，解释变量X 1，X 2 ，……，X k 中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定，即线性回归模型中某一个解释变量与其他解释变量间存在线性关系，就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设，将给普通最小二乘法带来严重后果。这里，我们总结了8个处理多重共线性问题的可用方法，大家在遇到多重共线性问题时可作参考： 1、保留重要解释变量，去掉次要或可替代解释变量 2、用相对数变量替代绝对数变量 3、差分法 4、逐步回归分析 5、主成份分析 6、偏最小二乘回归 7、岭回归 8、增加样本容量这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。逐步回归分析方法的基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣，从而得到最优回归方程。具体方法分为两步：第一步，先将被解释变量y对每个解释变量作简单回归: 对每一个回归方程进行统计检验分析（相关系数r、拟合优度R2和标准误差），并结合经济理论分析选出最优回归方程，也称为基本回归方程。

第二步，将其他解释变量逐一引入到基本回归方程中，建立一系列回归方程，根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响，一般根据如下标准进行分类判别：１.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上和经济理论上仍然合理，则认为这个新引入的变量对回归模型是有利的，可以作为解释变量予以保留。２.如果新引进的解释变量对R2改进不明显，对其他回归系数也没有多大影响，则不必保留在回归模型中。３.如果新引进的解释变量不仅改变了R2，而且对其他回归系数的数值或符号具有明显影响，则认为该解释变量为不利变量，引进后会使回归模型出现多重共线性问题。不利变量未必是多余的，如果它可能对被解释变量是不可缺少的，则不能简单舍弃，而是应研究改善模型的形式，寻找更符合实际的模型，重新进行估计。如果通过检验证明回归模型存在明显线性相关的两个解释变量中的其中一个可以被另一个很好地解释，则可略去其中对被解释变量影响较小的那个变量，模型中保留影响较大的那个变量。下边我们通过实例来说明逐步回归分析方法在解决多重共线性问题上的具体应用过程。具体实例例1设某地10年间有关服装消费、可支配收入、流动资产、服装类物价指数、总物价指数的调查数据如表1，请建立需求函数模型。表1 服装消费及相关变量调查数据

第八章(多重共线性)

第八章多重共线性一、多重共线性及其产生原因定义：对于多元线性回归模型： 01122...i i i k ki i y x x x u ββββ=+++++ 如果模型的解释变量之间存在着较强的线性相关关系，或者说，存在一组不全为零的常数12,,....,k λλλ，使得： 1122...0i i k ki i x x x v λλλ+++=，i v 是随机误差项。则称模型存在着多重．．共线性，如果0i v =，则称存在完全的多重共线性。 ?直观地看，多重共线性是不是造成了冗余变量，这里的冗余的含义是什么？思考：只有一个解释变量会出现多重共线性吗？产生原因： 1．经济变量的内在联系，这是根本原因，这导致多重共线性无法克服。 2．经济变量变化趋势的“共向性”。 3．解释变量中含有滞后变量。二、多重共线性的影响古典回归模型要求模型不存在完全的多重共线性。所以，即使存在严重的多重共线性，OLS 估计仍然是最佳线性无偏估计（BLUE ）。但会产生以下问题：（一）增大OLS 估计的方差设模型为二元线性， 01122i i i i y x x u βββ=+++ 可以证明， 2 12 21112 1 ()()1i D x x r σβ= ? --∑ VIF 被称为方差膨胀因子。分别计算12r 分别等于0，0.5，0.9时的方差膨胀因子。？方差变得过大，有什么不好？？（二）难以区分每个解释变量的独立影响对于多元线性回归模型，回归系数为

i i y x β?= ?，根据偏导数的概念，i β的经济含义是什么？（三） T 检验的可靠性降低可能使T 检验失效，原来显著的T 值变成不显著的，从而将有重要影响的变量剔除出模型。思考：比较一下和模型存在异方差及自相关时对T 检验的影响有何不同？（四）回归模型缺乏稳定性参数估计值对样本的变化比较敏感，这实际上也是OLS 估计方差较大的另一个表现。例子来说明：见表一如果改成：再重新进行回归，看会发生什么情况？一个理念：多重共线性不可避免。三、多重共线性的检验外在症兆：R-平方很高，但只有极个别或少数几个解释变量前的系数显著（T 值偏小）。 1．相关系数检验利用相关系数可以分析解释变量之间的两两相关情况。例：服装需求函数。根据理论和经验分析，影响居民服装需求的主要因素有：可支配收入X ，流动资产拥有量K ，服装类价格指数P1和总物价指数P0。下表给出了有关统计资料。

多重共线性考试考试与答案

第七章多重共线性习题与答案 1、多重共线性产生的原因是什么？ 2、检验多重共线性的方法思路是什么?有哪些克服方法? 3、考虑一下模型： Y t ＝β1＋β2X t ＋β3X 1-t ＋4βX 2-t ＋5βX 3-t ＋6βX 4-t ＋u t 其中Y ＝消费，X ＝收入，t ＝时间。上述模型假定了时间t 的消费支出不仅是时间t 的收入，而且是以前多期的收入的函数。例如，1976年第一季度的消费支出是同季度收入合1975年的四个季度收入的函数。这类模型叫做分布滞后模型（distributed lag models ）。我们将在以后的一掌中加以讨论。（1）你预期在这类模型中有多重共线性吗？为什么？ (2)如果预期有多重共线性，你会怎么样解决这个问题？ 4、已知回归模型μβα++=N E ，式中E 为某类公司一名新员工的起始薪金（元），N 为所受教育水平（年）。随机扰动项μ的分布未知，其他所有假设都满足。（1）从直观及经济角度解释α和β。（2）OLS 估计量α ?和β?满足线性性、无偏性及有效性吗？简单陈述理由。（3）对参数的假设检验还能进行吗？简单陈述理由。 5、根据1899—1922年在美国制造业部门的年度数据，多尔蒂（Dougherty ）获得如下回归结果： LogY=2.81 － 0.53logK+ 0.91logL + 0.047t Se ＝（1.38）（0.34）（0.14）（0.021） R 2＝0.97 F=189.8 其中Y ＝实际产生指数,K=实际资本投入指数，L=实际劳力投入指数，t ＝时间或趋势。利用同样数据，他又获得一下回归：（1）回归中有没有多重共线性？你怎么知道？（2）在回归（1）中，logK 的先验符号是什么？结果是否与预期的一致？为什么或为什么不？（3）你怎样替回归的函数形式（1）做辩护：（提示：柯柏—道格拉斯生产函数。）（4）解释回归（1）在此回归中趋势变量的作用为何？（5）估计回归（2）的道理何在？（6）如果原先的回归（1）有多重共线性，是否已被回归（2）减弱？你怎样知道？

多重共线性的解决之法

第七章多重共线性教学目的及要求： 1、重点理解多重共线性在经济现象中的表现及产生的原因和后果 2、掌握检验和处理多重共线性问题的方法 3、学会灵活运用Eviews 软件解决多重共线性的实际问题。第一节多重共线性的产生及后果一、多重共线性的含义 1、含义在多元线性回归模型经典假设中，其重要假定之一是回归模型的解释变量之间不存在线性关系，也就是说，解释变量X 1，X 2，……，X k 中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定，即线性回归模型中某一个解释变量与其他解释变量间存在线性关系，就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设，将给普通最小二乘法带来严重后果。 2、类型多重共线性包含完全多重共线性和不完全多重共线性两种类型。（1）完全多重共线性完全多重共线性是指线性回归模型中至少有一个解释变量可以被其他解释变量线性表示，存在严格的线性关系。如对于多元线性回归模型 i ki k i i i X X X Y μββββ+++++= 22110 （7-1）存在不全为零的数k λλλ,,,21 ，使得下式成立： 0X X X 2211=+++ki k i i λλλ （7-2）则可以说解释变量k X ,,X ,X 21 之间存在完全的线性相关关系，即存在完全多重共线性。从矩阵形式来看，就是0' =X X ，即1)(-

不完全多重共线性是指线性回归模型中解释变量间存在不严格的线性关系，即近似线性关系。如对于多元线性回归模型（7-1）存在不全为零的数k λλλ,,,21 ，使得下式成立： 0X X X 2211=++++i ki k i i u λλλ （7-3）其中i u 为随机误差项，则可以说解释变量k X ,,X ,X 21 之间存在不完全多重共线性。随机误差项表明上述线性关系是一种近似的关系式，大体上反映了解释变量间的相关程度。完全多重共线性与完全非线性都是极端情况，一般说来，统计数据中多个解释变量之间多少都存在一定程度的相关性，对多重共线性程度强弱的判断和解决方法是本章讨论的重点。二、多重共线性产生的原因多重共线性在经济现象中具有普遍性，其产生的原因很多，一般较常见的有以下几种情况。（一）经济变量间具有相同方向的变化趋势在同一经济发展阶段，一些因素的变化往往同时影响若干经济变量向相同方向变化，从而引起多重共线性。如在经济上升时期，投资、收入、消费、储蓄等经济指标都趋向增长，这些经济变量在引入同一线性回归模型并作为解释变量时，往往存在较严重的多重共线性。（二）经济变量间存在较密切关系由于组成经济系统的各要素之间是相互影响相互制约的，因而在数量关系上也会存在一定联系。如耕地面积与施肥量都会对粮食总产量有一定影响，同时，二者本身存在密切关系。（三）采用滞后变量作为解释变量较易产生多重共线性一般滞后变量与当期变量在经济意义上关联度比较密切，往往会产生多重共线性。如在研究消费规律时，解释变量因素不但要考虑当期收入，还要考虑以往各期收入，而当期收入与滞后收入间存在多重共线性的可能很大。（四）数据收集围过窄，有时会造成变量间存在多重共线性问题。三、多重共线性产生的后果由前述可知，多重共线性分完全多重共线性和不完全多重共线性两种情况，两种情况都会对模型进行最小二乘估计都会产生严重后果。

第7章分布滞后模型与自回归模型多重共线性

计量经济学课程教案

第7章分布滞后模型与自回归模型 7.1 滞后效应与滞后变量模型在经济运行过程中，广泛存在时间滞后效应。某些经济变量不仅受到同期各种因素的影响，而且也受到过去某些时期的各种因素甚至自身的过去值的影响。通常把这种过去时期的，具有滞后作用的变量叫做滞后变量（Lagged Variable ），含有滞后变量的模型称为滞后变量模型。滞后变量模型考虑了时间因素的作用，使静态分析的问题有可能成为动态分析。含有滞后解释变量的模型，又称动态模型（Dynamical Model ）。一、滞后效应与与产生滞后效应的原因因变量受到自身或另一解释变量的前几期值影响的现象称为滞后效应。表示前几期值的变量称为滞后变量。如：消费函数通常认为，本期的消费除了受本期的收入影响之外，还受前1期，或前2期收入的影响： C t =β0+β1Y t +β2Y t-1+β3Y t-2+μt Y t-1，Y t-2为滞后变量。产生滞后效应的原因 1、心理因素：人们的心理定势，行为方式滞后于经济形势的变化，如中彩票的人不可能很快改变其生活方式。 2、技术原因：如当年的产出在某种程度上依赖于过去若干期内投资形成的固定资产。 3、制度原因：如定期存款到期才能提取，造成了它对社会购买力的影响具有滞后性。二、滞后变量模型以滞后变量作为解释变量，就得到滞后变量模型。它的一般形式为： q ，s ：滞后时间间隔自回归分布滞后模型（autoregressive distributed lag model, ADL ）：既含有Y 对自身滞后变量的回归，还包括着X 分布在不同时期的滞后变量有限自回归分布滞后模型：滞后期长度有限无限自回归分布滞后模型：滞后期无限，（1）分布滞后模型（distributed-lag model ）分布滞后模型：模型中没有滞后被解释变量，仅有解释变量X 的当期值及其若干期的滞后值： β0：短期(short-run)或即期乘数(impact multiplier)，表示本期X 变化一单位对Y 平均值的影响程度。 βi (i=1,2…,s)：动态乘数或延迟系数，表示各滞后期X 的变动对Y 平均值影响的大小。称为长期（long-run ）或均衡乘数（total distributed-lag multiplier ），表示X 变动一个单位，由于滞后效应而形成的对Y 平均值总影响的大小。如果各期的X 值保持不变，则X 与Y 间的长期或均衡关系即为： X Y E s i i )()(0 ∑=+=βα∑=s i i 0β t i t i s i t X Y μβα++=-=∑0 t s t s t t q t q t t t X X X Y Y Y Y μαααββββ+++++++++=----- 11022110

第七章多共线性及其处理

第七章多重共线性及其处理第一部分学习辅导一、本章学习目的与要求 1．理解多重共线性的概念； 2．掌握多重共线性存在的主要原因； 3．理解多重共线性可能造成的后果； 4．掌握多重共线性的检验与修正的方法。二、本章内容提要本章主要介绍计量经济模型的计量经济检验。即多重共线性问题。多重共线性是多元回归模型可能存在的一类现象，分为完全共线与近似共线两类。模型的多个解释变量间出现完全共线性时，模型的参数无法估计。更多的情况则是近似共线性，这时，由于并不违背所有的基本假定，模型参数的估计仍是无偏、一致且有效的，但估计的参数的标准差往往较大，从而使得t 统计值减小，参数的显著性下降，导致某些本应存在于模型中的变量被排除，甚至出现参数正负号方面的一些混乱。显然，近似多重共线性使得模型偏回归系数的特征不再明显，从而很难对单个系数的经济含义进行解释。多重共线性的检验包括检验多重共线性是否存在以及估计多重共线性的范围两层递进的检验。而解决多重共线性的办法通常有逐步回归法、差分法以及使用额外信息、增大样本容量等方法。（一）多重共线性及其产生的原因当我们利用统计数据进行分析时，解释变量之间经常会出现高度多重共线性的情况。 1．多重共线性的基本概念多重共线性(Multicollinearity )一词由弗里希（Frish ）于1934年在其撰写的《借助于完全回归系统的统计合流分析》中首次提出。它的原义是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系。如果在经典回归模型Y X βε=+中，经典假定（5）遭到破坏，则有()1R X k <+，此时称解释变量k X X X ,,,21ΛΛ间存在完全多重共线性。解释变量的完全多重共线性，也就是解释变量之间存在严格的线性关系，即数据矩阵X 的列向量线性相关。因此，必有一个列向量可由其余列向量线性表示。同时还有另外一种情况，即解释变量之间虽然不存在严格的线性关系，但是却有近似的线性关系，即解释变量之间高度相关。 2．多重共线性产生的原因多元线性回归模型产生多重共线性的原因很多，主要有：（1）经济变量的内在联系这是产生多重共线性的根本原因。（2）解释变量中含有滞后变量（3）经济变量变化趋势的“共向性” 必须指出，多重共线性基本上是一种样本现象。因为人们在设定模型时，总是尽量避免将理论上具有严格线性关系的变量作为解释变量收集在一起，因此，实际问题中的多重共线性并不是解释变量之间存在理论上或实际上的线性关系造成的，而是由所收集的数据(解释变量观察值)之间存在近似的线性关系所致。（二）多重共线性的影响多重共线性会产生以下问题：（1）增大了OLS 估计量的方差（2）难以区分每个解释变量的单独影响（3）回归模型缺乏稳定性（4）t 检验的可靠性降低（三）多重共线性的判别在应用多元回归模型中，人们总结了许多检验多重共线性的方法。 1．系数判定法

解决多元线性回归中多重共线性问题的方法分析

解决多元线性回归中多重共线性问题的方法分析谢小韦，印凡成河海大学理学院，南京 (210098) E-mail ：xiexiaowei@https://www.wendangku.net/doc/ff4825658.html, 摘要：为了解决多元线性回归中自变量之间的多重共线性问题，常用的有三种方法: 岭回归、主成分回归和偏最小二乘回归。本文以考察职工平均货币工资为例，利用三种方法的 SAS 程序进行了回归分析，根据分析结果总结出三种方法的优缺点，结果表明如果能够使用定性分析和定量分析结合的方法确定一个合适的k 值，则岭回归可以很好地消除共线性影响；主成分回归和偏最小二乘回归采用成份提取的方法进行回归建模，由于偏最小二乘回归考虑到与因变量的关系，因而比主成分回归更具优越性。关键词：多重共线性；岭回归；主成分回归；偏最小二乘回归 1. 引言现代化的工农业生产、社会经济生活、科学研究等各个领域中，经常要对数据进行分析、拟合及预测，多元线性回归是常用的方法之一。多元线性回归是研究多个自变量与一个因变量间是否存在线性关系,并用多元线性回归方程来表达这种关系，或者定量地刻画一个因变量与多个自变量间的线性依存关系。在对实际问题的回归分析中，分析人员为避免遗漏重要的系统特征往往倾向于较周到地选取有关指标，但这些指标之间常有高度相关的现象，这便是多变量系统中的多重共线性现象。在多元线性回归分析中，这种变量的多重相关性常会严重影响参数估计，扩大模型误差，破坏模型的稳健性，从而导致整体的拟合度很大，但个体参数估计值的t 统计量却很小，并且无法通过检验。由于它的危害十分严重，存在却又十分的普遍，因此就要设法消除多重线性的不良影响。常用的解决多元线性回归中多重共线性问题的模型主要有主成分回归、岭回归以及偏最小二乘回归。三种方法采用不同的方法进行回归建模，决定了它们会产生不同的效果。本文以统计职工平均货币工资为例，考察一组存在共线性的数据，运用SAS 程序对三种回归进行建模分析，并对结果进行比较，总结出它们的优势与局限，从而更好地指导我们解决实际问题。 2. 共线性诊断拟合多元线性回归时，自变量之间因存在线性关系或近似线性关系，隐蔽变量的显著性，增加参数估计的方差，导致产生一个不稳定的模型，因此共线性诊断的方法是基于自变量的观测数据构成的矩阵T x x 进行分析，使用各种反映自变量间相关性的指标。共线性诊断常用统计量有方差膨胀因子VIF (或容限TOL )、条件指数和方差比例等。一般认为：若VIF>10，说明模型中有很强的共线性关系；若条件指数值在10与30间为弱相关，在30与100间为中等相关，大于100为强相关；在大的条件指数中由方差比例超过0.5的自变量构成的变量子集就认为是相关变量集[1]。 3. 三种解决方法岭回归基本思想: 当出现多重共线性时，有0T X X ≈，从而使参数的1?()T T X X X Y β ?=很不稳定，出现不符合含义的估计值，给T X X 加上一个正常数矩阵(0)KI K >，则T X X KI +等

第七章多重共线性

第七章多重共线性若线性模型不满足假定6，就称模型有多重共线性。 §7.1 多重共线性的概念一. 基本概念：假定6 ()1k r X k n =+<，是指模型中所有自变量12,,,,k x x x ??????1线性无关，也可理解为矩阵X 的列向量线性无关。若不满足该假定，即 ()1k r X k <+，则称12,,,,k x x x ??????1存在完全多重共线性，12,,,,k x x x ??????1存在严格的线性关系，这是一种极端情况；若12,,,,k x x x ??????1之间的线性关系不是严格的，而是一种近似的线性关系，则称高度相关或存在不完全多重共线性。如，01122i i i i y x x u βββ=+++ 若12,λλ?不全为零，使11220i i x x λλ+=，完全多重共线性 11220i i i x x v λλ++= 不完全多重共线性完全多重共线性和不完全多重共线性统称为多重共线性。解释变量（自变量）之间的线性关系可用拟合优度2i R 描述，2i R 表示i x 对其它解释变量的拟合优度，21i R = 完全 21i R ≈ 高度 20i R = 无二. 产生的原因：在实际经济问题中主要是不完全多重共线性。其产生的主要原因是： 1. 两个解释变量具有相同或相反的变化趋势；（家庭能耗与住房面积、人口）生产、需求....... 2. 数据收集的范围过窄，造成解释变量之间有相同或相反变化的假象； 3. 某些解释变量之间存在某种近似的线性关系；（各解释变量有相同的时间趋势） 4. 一个变量是另一个变量的滞后值；供给 5. 解释变量的选择不当也可能引起变量间的多重共线性。 6. 过度决定模型。(观测值个数少于参数个数) 对于正确设置的模型，多重共线性基本上是一种样本现象。 §7.2 多重共线性的后果一. 完全多重共线性

第八章练习题参考解答

第八章练习题参考解答：练习题 8.1 Sen 和Srivastava （1971）在研究贫富国之间期望寿命的差异时，利用101个国家的数据，建立了如下的回归模型： 2.409.39ln 3.36((ln 7))i i i i Y X D X =-+-- (4.37) (0.857) (2.42) R 2=0.752 其中：X 是以美元计的人均收入； Y 是以年计的期望寿命； Sen 和Srivastava 认为人均收入的临界值为1097美元（ln10977=），若人均收入超过1097美元，则被认定为富国；若人均收入低于1097美元，被认定为贫穷国。括号内的数值为对应参数估计值的t-值。（1）解释这些计算结果。（2）回归方程中引入()ln 7i i D X -的原因是什么？如何解释这个回归解释变量？（3）如何对贫穷国进行回归？又如何对富国进行回归？（4）从这个回归结果中可得到的一般结论是什么？ 8.2 表中给出1965—1970年美国制造业利润和销售额的季度数据。假定利润不仅与销售额有关，而且和季度因素有关。要求：（1）如果认为季度影响使利润平均值发生变异，应如何引入虚拟变量？（2）如果认为季度影响使利润对销售额的变化率发生变异，应当如何引入虚拟变量？（3）如果认为上述两种情况都存在，又应当如何引入虚拟变量？（4）对上述三种情况分别估计利润模型，进行对比分析。 8.3 在统计学教材中，采用了方差分析方法分析了不同班次对劳动效率的影响，其样本数据为早班中班晚班

34 49 39 37 47 40 35 51 42 33 48 39 33 50 41 35 51 42 36 51 40 试采用虚拟解释变量回归的方法对上述数据进行方差分析。 8.4 Joseph Cappelleri 基于1961—1966年的200只Aa 级和Baa 级债券的数据（截面数据和时间序列数据的合并数据），分别建立了LPM 和Logit 模型： LPM i i i i i i u X X X X Y ++++++=5544332 211βββββ Logit i i i i i i i u X X X X p p In Li ++++++=-=5544332 211)1( βββββ 其中：i Y =1 债券信用等级为Aa （穆迪信用等级） i Y =1 债券信用等级为Baa （穆迪信用等级） 2X =债券的资本化率，作为杠杆的测度（100?=总资本的市值长期债券的市值） =3X 利润率（100?=总资产净值税后收入） =4X 利润率的标准差，测度利润率的变异性 =5X 总资产净值，测度规模上述模型中2β和4β事先期望为负值，而3β和5β期望为正值（为什么）。对于LPM ，Cappeleri 经过异方差和一阶自相关校正，得到以下结果： i Y ?=0.6860－0.017922i X +0.0486i X 3+0.0572i X 4+0.378×10－7×5i Se=(0.1775)(0.0024) (0.0486) (0.0178) (0.039×10－ 8) R 2=0.6933 对于Logit 模型，Cappeleri 在没有对异方差进行弥补的情形下用ML 得以下结果： i i i i i i X X X X p p In 56 43221092.09041.06248.03185.06622.1)1(-?+-+--=- 试解下列问题：（1）为什么要事先期望2β和4β为负值？（2）在LPM 中，当4β>0是否合理？

第七章计量经济学

第七章：多重共线性第一部分：学习目的和要求在经典多元线性回归模型中，其中一个重要假设就是各变量之间是线性无关的。但在现实中我们建立的多元线性回归模型的各变量之间都会存在一定程度上的线性相关——即存在多重共线性。本章就是讨论存在多重共线性的情形，主要介绍了多重共线性的概念，多重共线性的理论后果，几种检测多重共线性的方法，以及对多重共线性进行补救的措施。通过本章的学习我们需要掌握以下几个问题： (1)多重共线性的概念，完全多重共线性和近似多重共线性的异同。 (2)了解多重共线性产生的原因。 (3)理解多重共线性的理论及实际后果，对统计量估计的后果、对参数显著性检验和预测的影响。 (4)掌握并学会运用多重共线性的几种监测方法，主要有样本决定系数检验法、相关系数检验法、辅回归模型检验法、容许度与方差膨胀因子检验法及特征值检验法。 (5)掌握并学会运用多重共线性的补救措施：利用先验信息法、变换模型法、综合使用横截面数据和时间序列数据法、增加样本容量法、删除变量和设定偏误法。第二部分：练习题一、术语解释 1、多重共线性 2、完全多重共线性与近似多重共线性 3、辅回归 4、容许度与方差膨胀因子 5、条件指数与病态指数二、简答题 1、导致多重共线性的原因有哪些？ 2、多重共线性为什么会使得模型的预测功能失效？ 3、如何利用辅回归模型来检验多重共线性？ 4、判断以下说法正确、错误，还是不确定？并简要陈述你的理由。 (1)尽管存在完全的多重共线性，OLS估计量还是最优线性无偏估计量（BLUE）。 (2)在高度多重共线性的情况下，要评价一个或者多个偏回归系数的个别显著性是不可能的。 R值，则必然会存在高度的多重共线性。 (3)如果某一辅回归显示出较高的2 i (4)变量之间的相关系数较高是存在多重共线性的充分必要条件。 (5)如果回归的目的仅仅是为了预测，则变量之间存在多重共线性是无害的。 (6)和VIF相比，容许度（TOL）是多重共线性的更好度量指标。

计量经济学

第八章多重共线性：其中的某一个解释变量可以表示为其它解释变量的线性函数。完全多重共线性的存在对计量经济学方程的估计产生的影响？当存在完全多重共线性时，运用普通最小二乘估计将无法得出回归参数的估计值，并且，大多数通最小二乘估计程序会意识错误信息。完全多重共线性举例：可以观察一个解释变量是不是另一个解释变量的倍数，或者观察一个解释变量是不是另一个解释变量加上一个常数项。简答题：多重共线性产生的后果：（1）估计量是无偏的；（2）估计量的方差和标准差将会增大（3）多重共线性下的t统计量会变小（4）估计量对模型设定的变化变得及其敏感。当存在显著的多重共线性时，增加或者删除某个解释变量，或者某些观测值的增加或减少，通常会导致参数估计β有较大的改变。（5）方程的整体拟合优度以及不存在多重共线性的变量的参数估计几乎不受影响。多重共线性的诊断：（1）考察两个解释变量之间的简单相关系数，一般r>0.8,则认为存在多重共线性。（2）有较高的方差膨胀因子，一般VIF>5，则认为存在严重的多重共线性多重共线性的补救措施：（1）什么都不做。（方程中的多重共线性并非总是减少t统计量使其减少到不显著的程度，对β的影响也并非总是导致它的符号与预期的不同。（2）去掉多余的变量（3）增大样本容量第十四章分析题内生变量：由系统本身确定的变量外生变量：由系统外部因素所决定的变量前定变量：外生变量和置后的内生变量结构式方程：是以外生变量和内生变量的方式，描述了隐含在每个内生变量背后的内在经济理论。简约式方程：每个特定的内生变量都单独用用所有的前定变量和随机误差项表示的方程。简答使用简约式方程的三个原因：（1）由于简约式方程没有内在的联动性，因而没有违背古典假设。（2）简约式参数被解释为效应乘数，意味着它们有着经济意义和应用价值。（3）简约式方程在最常用的的联立方程估计方法中扮演着重要的角色，二阶段最小二乘估计法：第一阶段：对与每个内生变量相对应的简约式方程进行回归，这里的内生变量在联立方程系统中作为解释变量。第二阶段：用简约式方程中得到的 S Y?替代出现在结构式方程右边的Ys，然后用普通最小二乘估计修正后的结构式方程。模型识别的阶条件：是判断联立系统中的特定方程是否可惜别的一种系统方法。（1）整个联立系统中前定变量的个数（2）所考察方程中需要估计的斜率参数的个数。第十章名词解释：异方差性的本质，后果，诊断，修正非纯异方差性：有模型设定误差（比如遗漏误差）引起的。异方差的后果：（1）纯异方差性并不会导致参数估计量有偏（2）异方差性通常会导致普通最小二乘估计量不再具有最小方差性（3）异方差性将导致SE（β?）的最小二乘估计量有偏，因而导致假设检验结果不可信。第九章名词解释序列相关：误差项的序列之间存在相关性一阶序列相关： t t t μ ρε ε+ = -1 ε代表回归方程中的误差项。简答序列相关性的后果：（1）纯序列相关不会导致对参数的有偏估计。（2）序列相关是普通最小二乘估计量不再是线性无偏估计量（3）序列相关性导致SE（β?）的普通最小二乘估计是有偏的，并使假设检验不可靠。杜宾-沃森检验重点自己去翻书序列相关性的修正：如果确定是纯序列相关，则应考虑用广义最小二乘法或者

第七章多重共线性

第七章多重共线性基本概念 (1)多重共线性； (2)完全多重共线性； (3)不完全多重共线性；练习题 1、什么是变量之间的多重共线性？举例说明。 3、完全多重共线性和不完全多重共线性之间的区别是什么？ 4、产生多重共线性的经济背景是什么? 5、多重共线性的危害是什么?为什么会造成这些危害?检验多重共线性的方法思路是什么?有哪些克服方法? 6、考虑下列一组数据 Y -10 -8 -6 -4 -2 0 2 4 6 8 10 2X 1 2 3 4 5 6 7 8 9 10 11 3X 1 3 5 7 9 11 13 15 17 19 21 现在我们进行如下的回归分析： 12233i i Y X X u βββ=+++ 请回答如下问题：（1）你能估计出该模型的参数吗？为什么？（2）如果不能，你能估计哪一参数或参数组合？ 7、将下列函数用适当的方法消除多重共线性：（1）消费函数为 012C W P u βββ=+++ 其中C 、W 、P 分别表示消费、工资收入和非工资收入，W 和P 可能高度相关，但研究表明 1 22ββ=。（2）需求函数为 0123s Q Y P P u ββββ=++++ 其中Q 、Y 、P 和s P 分别为需求量、收入水平、该商品价格水平及其替代品价格水平，P 和s P 可能高度相关。基本概念解释 (1)多重共线性指两个或两个以上解释变量之间存在某种线性相关关系。 (2)完全多重共线性指，在有多个解释变量模型中，解释变量之间的线性关系是准确的。在此情况下，不能估计解释变量各自对被解释变量的影响。 (3)不完全多重共线性指，在实际经济活动中，多个解释变量之间存在多重共线性问题，但解释变量之间的线性关系是近似的，而不是完全的。

第7章多重共线性

第7章多重共线性习题一、单项选择题 1．如果回归模型中解释变量之间存在完全的多重共线性，则最小二乘估计量（A ） A.不确定，方差无限大 B.确定，方差无限大 C.不确定，方差最小 D.确定，方差最小 2．多元线性回归模型中，发现各参数估计量的t 值都不显著，但模型的 F 值确很显著，这说明模型存在（ A ） A ．多重共线性 B ．异方差 C ．自相关 D ．设定偏误 3．逐步回归法既检验又修正了（ D ） A ．异方差性 B.自相关性 C ．随机解释变量 D.多重共线性 4．如果模型中的解释变量存在完全的多重共线性，参数的最小二乘估计量是（ C ） A ．无偏的 B. 有偏的 C. 不确定 D. 确定的 5．设线性回归模型为，下列表明变量之间具有完全多重共线性的是（ A ） A ． B ． C ． D ．其中v 为随机误差项 6．简单相关系数矩阵方法主要用于检验（ D ） A ．异方差性 B.自相关性 C ．随机解释变量 D.多重共线性 7．设为解释变量，则完全多重共线性是( A ) 8．下列说法不正确的是（ C ） A. 多重共线性产生的原因有模型中大量采用滞后变量 B. 多重共线性是样本现象 ,)(22很大或R R 01122i i i i Y X X u βββ=+++1202*0*0i i X X ++=1202*0*0i i X X v +++=1200*0*0 i i X X ++=1200*0*0 i i X X v +++=21,x x 221211211 .0.0 21 . 0(.0 2x x A x x B x e C x x v v D x e +==++=+=为随机误差项）

多重共线性的检验与处理

实验名称：多重共线性的检验与处理实验时间：2011.12.10 实验要求：主要是学习多重共线性的检验与处理，主要是研究解释变量与其余解释变量之间有严重多重共线性的模型，分析变量之间的相关系数。通过具体案例建立模型，然后估计参数，求出相关的数据。再对模型进行检验，看数据之间是否存在多重共线性。最后利用所求出的模型来进行修正。实验内容：实例：我国钢材供应量分析通过分析我国改革开放以来（1978－1997）钢材供应量的历史资料，可以建立一个单一方程模型。根据理论及对现实情况的认识，影响我国钢材供应量 Y（万吨）的主要因素有：原油产量X1（万吨），生铁产量X2（万吨），原煤产量X3（万吨），电力产量X4（亿千瓦小时），固定资产投资X5(亿元)，国内生产总值 X6(亿元)，铁路运输量X7（万吨）。（一）建立我国钢材供应量的计量经济模型：（二）估计模型参数，结果为： Dependent Variable: Y Method: Least Squares Date: 11/02/09 Time: 16:09 Sample: 1978 1997 Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. C 139.2362 718.2493 0.193855 0.8495 X1 -0.051954 0.090753 -0.572483 0.5776 X2 0.127532 0.132466 0.962751 0.3547 X3 -24.29427 97.48792 -0.249203 0.8074 X4 0.863283 0.186798 4.621475 0.0006 X5 0.330914 0.105592 3.133889 0.0086 X6 -0.070015 0.025490 -2.746755 0.0177 X7 0.002305 0.019087 0.120780 0.9059 R-squared 0.999222 Mean dependent var 5153.350 Adjusted R-squared 0.998768 S.D. dependent var 2511.950 S.E. of regression 88.17626 Akaike info criterion 12.08573 Sum squared resid 93300.63 Schwarz criterion 12.48402 Log likelihood -112.8573 F-statistic 2201.081 Durbin-Watson stat 1.703427 Prob(F-statistic) 0.000000 由此可见，该模型可绝系数很高，F检验值2201.081，明显显著。但当，系数的t检验不显著，而且系数的符号与预期的相反，这表明很可能存在严重的多重共线性。（三）计算各解释变量的相关系数，选择数据，得相关系数矩阵（表3.1）。

计量经济学多重共线性的诊断及处理Eviews

数学与统计学院实验报告院（系）：数学与统计学学院学号：姓名：实验课程：计量经济学指导教师: 实验类型（验证性、演示性、综合性、设计性）：综合性实验时间：2017年 4 月 5 日一、实验课题多重共线性的诊断及处理二、实验目的和意义第8周练习多重共线性右表是某城市财政收入rev 、第一、第二、第三产业gdp1、gdp2、gdp3的有关数据。 1).建立rev 对gdp1，gdp2，gdp3的多元线性回归，并从经济和数理统计上简要说明模型存在着哪些不足。 2).写出rev ，gdp1，gdp2，gdp3的相关系数矩阵。 3).利用判别系数法判断模型是否存在着多重共线性。 4).用逐步回归的方法排除引起共线性的变量，重新建立多元回归。 5).如果不想排除变量，通过经验，假设：gdp1对财政收入的贡献是 gdp3 年份 rev gdp1 gdp2 gdp3 1983 6604 27235 26781 7106 1984 6634 26680 28567 10240 1985 6710 26762 31766 11912 1986 6823 33595 40062 14160 1987 8103 38510 52935 16960 1988 8578 41529 61337 18777 1989 8469 47994 67848 30498 1990 11118 65138 98946 39700 1991 16053 86983 112531 66960 1992 20221 105825 143545 92231 1993 27076 129136 223697 117031 1994 31888 138619 216161 151334 1995 35139 146637 305940 193573 1996 42436 149788 371066 227561 1997 56204 161800 426925 256684 1998 93828 162960 614341 372177 1999 130532 199519 821302 524562 2000 179063 246648 1121058 688567

关于多重共线性模型的检验和处理的方法

计量经济学实验报告题目：关于多重共线性模型的检验和处理方法姓名：张飞飞学号：2008163050 专业：工商管理指导教师：崔海燕实验时间： 2010-12-22 二○一○年十二月二十五日

关于多重共线性模型的检验和处理的方法一、实验目的：掌握多重共线性模型检验和处理的方法二、实验原理：判定系数检验法、逐步回归法、解释变量、相关系数检验三、实验步骤： 1.创建一个新的工作文件：打开Eviews软件，点击File下的New File,创建一个新的工作文件，选择Annual,在Start Date栏中输入1983，在End date栏中输入2000，点击OK,点击保存，完成创建新的工作文件。 2.输入数据：点击Quick下的Empty Group,导入中国粮食生产函数模型的具体数据，命名被解释变量为Y,解释变量为X1、X2、X3、X4、X5，其中：Y表示粮食产量；X1表示农业化肥施用量；X2表示粮食播种面积；X3表示成灾面积；X4表示农业机械总动力；X5表示农业劳动力.点击Name保存数据，命名为Group01。 3.采用普通最小二乘法估计模型参数：点击Quick下的Estimate Equation,输入方程y c x1 x2 x3 x4 x5.点击OK,生成EQ1. 如下表所示：从结果可以看出：R-squared的值为0.982798，拟合优度比较高（一般为0.9以上），F-statistic 的值为137.1164，也比较大，说明模型上存在多重共线性，但无法看出变量之间的关系。

4.进行多重共线性检验：主要运用综合统计检验和采用解释变量之间的相关系数进行检验。由综合统计检验法（步骤3)，可以看出存在多重共线性，继而进行解释变量之间的相关下系数检验。点击Quick下的Groupstatistics,选择Correlations,打开Series List界面，输入X1 X2 X3 X3 X4 X5,点击OK,生成Group02,结果如下图：从结果可以看出：X1和X4之间的相关系数为0.960278，最接近1，说明X1和X4之间存在高度相关性。 5.进行多重共线性处理——逐步回归法（1）选择基础方程。非解释变量y分别对x1、x2、x3、x4、x5进行回归分析，由计算结果可以看出，y和x1的判定系数为0.891941，为最大，所以选择y和x1的模型为基础方程。即：Y = 30867.31062 + 4.576114592*X1 然后在此基础上，引入其他解释变量进行回归分析，过程如下：（2）在保留解释变量x1的基础上，引入解释变量x2，进行非解释变量y与解释变量x1、x2之间的回归分析，结果如下表:

第七章-多重共线性及其处理

多重共线性问题的几种解决方法

第八章(多重共线性)

多重共线性考试考试与答案

多重共线性的解决之法

第7章 分布滞后模型与自回归模型多重共线性

第七章 多共线性及其处理

解决多元线性回归中多重共线性问题的方法分析

第七章 多重共线性

最新多重共线性的解决之法

第八章练习题参考解答

第七章计量经济学

计量经济学

第七章 多重共线性

第7章 多重共线性

多重共线性的检验与处理

计量经济学多重共线性的诊断及处理Eviews

关于多重共线性模型的检验和处理的方法

第7章分布滞后模型与自回归模型多重共线性

第七章多共线性及其处理

第七章多重共线性

第七章多重共线性

第7章多重共线性