文档库 最新最全的文档下载
当前位置:文档库 › 应用回归分析-第7章课后习题参考答案

应用回归分析-第7章课后习题参考答案

应用回归分析-第7章课后习题参考答案
应用回归分析-第7章课后习题参考答案

第7章 岭回归

思考与练习参考答案

7.1 岭回归估计是在什么情况下提出的?

答:当自变量间存在复共线性时,|X’X |≈0,回归系数估计的方差就很大, 估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。

7.2岭回归的定义及统计思想是什么?

答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其

统计思想是对于(X ’X )-1为奇异时,给X’X 加上一个正常数矩阵D, 那么X’X+D

接近奇异的程度就会比X ′X 接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足blue 。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。

7.3 选择岭参数k 有哪几种方法?

答:最优k 是依赖于未知参数β和2σ的,几种常见的选择方法是:

1岭迹法:选择0k 的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多; ○

2方差扩大因子法:11()()()c k X X kI X X X X kI --'''=++,其对角线元()jj c k 是岭估计的方差扩大因子。要让()10jj c k ≤;

3残差平方和:满足()SSE k cSSE <成立的最大的k 值。

7.4 用岭回归方法选择自变量应遵循哪些基本原则?

答:岭回归选择变量通常的原则是:

1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;

2. 当k 值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随

着k的增加迅速趋近于零。像这样岭回归系数不稳定、震动趋于零的自

变量,我们也可以予以剔除;

3.去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不

稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭

回归分析的效果来确定。

7.5 对第5章习题9的数据,逐步回归的结果只保留了三个变量x1,x2,x5,用y对这三个自变量作岭回归分析?

答:附5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),x2为工业增加值(亿元),x3为建筑业增加值(亿元),x4为人口数(万人),x5为社会消费总额(亿元),x6为受灾面积(万公顷)。据《中国统计年鉴》获得1978—1998年共21个年份的统计数据,见表5.4(P167)。

解:(1)逐步回归法

回归方程为:

y=865.929—0.601x1-0.361x2+0.639x5

但是回归系数的解释不合理。

从经济意义上讲,x1(农业增加值)、x2(工业增加值)的增加应该对y(财政收入)有正方向的影响,然而回归方程中两个自变量的系数均为负值,明显与实际的经济意义不相符。同时,三个自变量的VIF值均远大于10,说明回归方程仍然存在较强的多重共线性,逐步回归的方法并没有消除自变量之间的多重共线性。(2)岭回归法:

依题意,对逐步回归法所保留的三个自变量做岭回归分析。

程序为:

include'C:\Program Files\SPSSEV AL\Ridge regression.sps'.

ridgereg dep=y/enter x1 x2 x5

可以看到,变量x 1、x 2迅速由负变正,x 5迅速减小,在0.01-0.1之间各回归系数的岭估计基本稳定,重新做岭回归。岭迹图如下:

先取k=0.08:

语法命令如下:

include'C:\Program Files\SPSSEV AL\Ridge regression.sps'.

ridgereg dep=y/enter x1 x2 x5

/k=0.08.

运行结果如下:

得到回归方程为:

123?0.160.080.06738.84y

x x x =+++

由于第一主成分的贡献率已达到85%以上,故只选取第一主成分,记作Z1:

Z1=(0.991x1+0.985x2+0.983x3+0.929x4+0.193x5+0.610x6)/5.1331/2,

作Y与Z1的最小二乘估计,输出结果如下:

根据上表得到y与第一主成分的线性回归方程为:

y?=3400.443+1149.094Z1,

将主成分回代为原自变量得最终方程为:

y?=0.1093 * x1+0.0463 * x2+0.2912 * x3+0.0512 * x4+0.0347 * x5+0.0444

* x6-6313.397

各自变量的解释意义基本合理。

7.6 对习题3.12的问题,分别用普通最小二乘法和岭回归建立GDP 对第二产业增加值x2和第三产业增加值x3的二元线性回归,解释所得到的回归系数。 解:(1)普通最小二乘法:

根据上表得到y 与x2,x3的线性回归方程为:

y

?=4352.859+1.438x2+0.679x3 上式中的回归系数得不到合理的解释. 3

?β的数值应该大于1,实际上,x 3的年增长幅度大于x 1和x 2的年增长幅度,因此合理的3

?β的数值应大于1。这个问题产生的原因仍然是存在共线性, 所以采用岭回归来改进这个问题。

(2)岭回归法:

程序为:

include'C:\Program Files\SPSSEV AL\Ridge regression.sps'.

ridgereg dep=GDP/enter x2 x3

/start=0.0/stop=0.5/inc=0.01.

根据岭迹图(如下图)可知,)(?2k β和)(?3

k β很不稳定,但其和大体上稳定,说明x2和x3存在多重共线性。取k=0.1,SPSS 输出结果为:

Mult R .998145, RSquare .996294

Adj RSqu .995677,SE 2364.837767

ANOVA table

df SS MS

Regress 2.000 1.80E+010 9.02E+009

Residual 12.000 67109492 5592457.7

F value Sig F

1613.140715 .000000

--------------Variables in the Equation----------------

B SE(B) Beta B/SE(B)

x2 .907990 .021842 .489067 41.571133

x3 1.393800 .035366 .463649 39.410560

Constant 6552.305986 1278.903452 .000000 5.123378

? =1.227与前面的分析是吻合的,其解释是当第二产业增加值岭回归系数

3

x2保持不变时,第三产业增加值x3每增加1亿元GDP增加1.227亿元,这个解释是合理的。

7.7一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做定量分析,以便找出控制不良贷款的方法。表7.5(P206)是该银行所属25家分行2002年的有关业务数据。

(1)计算y与其余4个变量的简单相关系数。

(2)建立不良贷款y对4个自变量的线性回归方程,所得的回归系数是否合理?(3)分析回归模型的共线性。

(4)采用后退法和逐步回归法选择变量,所得的回归系数是否合理?是否还存在共线性?

(5)建立不良贷款y对4个变量的岭回归。

(6)对(4)剔除变量后的回归方程再做岭回归。

(7)某研究人员希望做y对各项贷款余额、本年累计应收贷款、贷款项目个数这3个自变量的回归,你认为这样做可行吗?如果可行应怎么做?

解:首先对数据标准化。

(1)计算y与其余4个变量的简单相关系数。

计算y与各自变量之间的简单相关系数,SPSS输出结果为:

由结果得到,Y与四个自变量的相关系数分别为:0.844, 0.732, 0.7, 0.519,且都通过了显著性检验,说明y与其余4个变量是显著线性相关的。同时也

可以看出变量之间也存在一定的线性相关性。

(2)建立不良贷款对4个自变量的线性回归方程,所得的回归系数是否合理?

由SPSS输出(如上表)可知回归方程为:

y?=0.04x1+0.148x2+0.015x3-0.029x4-1.022

从上表可看出,方程的自变量X3、X4、X5未通过t检验,说明回归方程不显著,而且由实际意义出发,x4的系数不能是负的。所以所得的回归系数不合理。

(3)分析回归模型的共线性。

解:由上表可知,所有自变量对应的VIF全部小于10,所以自变量之间不存在共线性。但进行特征根检验见下表:

由这个表可以看出来,第5行中x1、x3的系数分别为0.87、0.63,可以说明这两个变量之间有共线性。

(4)采用后退法和逐步回归法选择变量,所得的回归系数是否合理?是否还存在共线性?

解:

采用后退法(见下表),所得回归方程为y?=0.041x1+0.149x2-0.029x4-0.972

采用逐步回归法(见下表),所得回归方程为y?=0.05x1-0.032x4-0.443

所得X4的系数不合理(为负),说明存在共线性

(5)建立不良贷款y对4个变量的岭回归。

对y与全部变量做岭回归。

R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K RSQ X1 X2 X3 X4

______ ______ ________ ________ ________ ________ .00000 .79760 .891313 .259817 .034471 -.324924

.05000 .79088 .713636 .286611 .096624 -.233765

.10000 .78005 .609886 .295901 .126776 -.174056

.15000 .76940 .541193 .297596 .143378 -.131389

.20000 .75958 .491935 .295607 .153193 -.099233

.25000 .75062 .454603 .291740 .159210 -.074110

.30000 .74237 .425131 .286912 .162925 -.053962

.35000 .73472 .401123 .281619 .165160 -.037482

.40000 .72755 .381077 .276141 .166401 -.023792

.45000 .72077 .364000 .270641 .166949 -.012279

.50000 .71433 .349209 .265211 .167001 -.002497

.55000 .70816 .336222 .259906 .166692 .005882

.60000 .70223 .324683 .254757 .166113 .013112

.65000 .69649 .314330 .249777 .165331 .019387

.70000 .69093 .304959 .244973 .164397 .024860

.75000 .68552 .296414 .240345 .163346 .029654

.80000 .68024 .288571 .235891 .162207 .033870

.85000 .67508 .281331 .231605 .161000 .037587

.90000 .67003 .274614 .227480 .159743 .040874

.95000 .66508 .268353 .223510 .158448 .043787

1.0000 .66022 .262494 .219687 .157127 .046373

由软件输出的岭迹图可以看出,变量x4的岭回归系数从负值变为正值。其他的变量都很稳定。说明x4变量与其他变量存在多重共线性,所以剔除变量x4

再用y与剩下的变量作岭回归。所得结果如下:

R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K

K RSQ X1 X2 X3

______ ______ ________ ________ ________

.00000 .75964 .698331 .295891 -.065536

.02000 .75899 .647736 .300306 -.024703

.04000 .75755 .607949 .302710 .006875

.06000 .75574 .575733 .303774 .031943

.08000 .75377 .549026 .303916 .052255

.10000 .75175 .526452 .303409 .068986

.12000 .74972 .507060 .302439 .082951

.14000 .74771 .490172 .301133 .094736

.16000 .74571 .475288 .299581 .104772

.18000 .74375 .462036 .297852 .113383

.20000 .74181 .450130 .295992 .120819

剔除x4之后岭回归系数变化幅度减小很多,并且有下面的图可以看出k 值,基本稳定。 0.200000.150000.100000.050000.000000.6000000.4000000.200000

0.000000

x3

K

x2

K

x1

K

K

R IDG E TR AC E

参照复决定系数,当k=0.4时,=0. 75755仍然很大,所以可以给定k=0.4,重新作岭回归。

Run MATRIX procedure:

****** Ridge Regression with k = 0.4 *****

Mult R .850373821

RSquare .723135635

Adj RSqu .683583583

SE 2.030268037

ANOVA table

df SS MS

Regress 3.000 226.089 75.363

Residual 21.000 86.562 4.122

F value Sig F

18.28313822 .00000456

--------------Variables in the Equation----------------

B SE(B) Beta B/SE(B)

x1 .016739073 .003359156 .372627316 4.983118685

x2 .156806656 .047550034 .275213878 3.297719120

x3 .067110931 .032703990 .159221005 2.052071673

Constant -.819486727 .754456246 .000000000 -1.086195166

------ END MATRIX ------

故作岭回归后的方程为

y=-0.819486727+0.016739073x1+0.156806656x2+0.067110931x3

(6)对(4)剔除变量后的回归方程再做岭回归。

取k=0.4,作与x1、x4的岭回归

Run MATRIX procedure:

****** Ridge Regression with k = 0.4 ******

Mult R .802353780

RSquare .643771588

Adj RSqu .611387187

SE 2.249999551

ANOVA table

df SS MS

Regress 2.000 201.275 100.638

Residual 22.000 111.375 5.062

F value Sig F

19.87906417 .00001172

--------------Variables in the Equation----------------

B SE(B) Beta B/SE(B)

x1 .025805860 .003933689 .574462395 6.560218798

x4 .004531316 .007867533 .050434658 .575951348

Constant .357087614 .741566536 .000000000 .481531456

------ END MATRIX -----

可得岭回归方程为

y=0.357087614+0 .025805860x1+0.004531316x4

从实际意义来看,各个系数都能有合理解释。

(7)某研究人员希望做,你认为这样做可行吗?如果可行应怎么做?

y对各项贷款余额、本年累计应收贷款、贷款项目个数这3个自变量的回归方程见(5)。方程中系数均能合理解释。由B/SE(B)这个近似t值可以看出变量都是比较显著的。

所以作y对x1、x2、x3的岭回归是可行的。

主成分回归法:见做主成分分析下表,取前两个主成分,记为z1,z2,

其中:z1=(0.95x1+0.767x2+0.916x3+0.862x4)/73.03

Z2=(-0.029x1+0.627x2-0.143x3-0.373x4 )/54.50

建立y 与Z1,Z2的回归方程

相关文档