文档库 最新最全的文档下载
当前位置:文档库 › 岭回归

岭回归

应用回归分析·作业四

学号:200930980106 姓名:何斌年级专业: 10级统计1班指导老师:丁仕虹

P205 7.7

1.计算简单相关系数

执行程序如下:

proc import out=xt7_7

datafile="d:\xt7.7.xls"

dbms=excel2000 replace;

getnames=yes;

run;

proc print data=xt7_7;

run;

proc corr pearson data=xt7_7;

var y x1 x2 x3 x4;

run;

简单相关系数如下图所示:

图1-1 简单相关系数

2.建立线性回归方程,并检验回归系数的合理性

执行程序如下:

proc reg data=xt7_7;

model y=x1 x2 x3 x4;

run;

得到结果如下图所示:

图2-1 建立回归方程

输出结果显示,线性回归模型显著,Adj R-Sq=0.7571 模型拟合度较高。参数检验结果显示,截距项以及x3不显著,其他自变量均对因变量有合理的解释。

回归方程为:

y=?1.02164+0.04004x1+0.14803x2+0.01453x3?0.02919x4

3.分析回归方程的共线性

执行程序如下:

proc princomp data=xt7_7;

var x1-x4;

run;

得到结果如下:

图3-1 相关系数矩阵的特征根

图3-1中有4个主成分的特征值(Eigenvalues),最大的是λ1=3.07287765,最小的是λ4=0.13224667。由于λ4=0.13224667近似接近于0或者由于条件数

k=λ1/λ4>10,所以可以认为自变量之间存在共线性。

4.采用后退法和逐步回归法选择变量,检验回归系数的合理性以及共线性

(1)后退法选择变量

执行程序如下:

proc reg data=xt7_7;

model y=x1-x4/selection=backward noint;

run;

结果如下所示:

图4-1 后退法选择变量结果

输出结果显示,线性回归模型显著,所有参数均通过检验。

回归方程为:

y=0.04889x1?0.03437x4

(2)逐步回归法选择变量

执行程序如下:

proc reg data=xt7_7;

model y=x1-x4/selection=stepwise noint;

run;

得到结果如下:

图4-2逐步回归法选择变量

输出结果显示,变量x2不显著。去除x2后,所得线性回归方程亦为:

y=0.04889x1?0.03437x4(4-1)

(3)回归方程(4-1)共线性分析

执行程序如下:

proc princomp data=xt7_7;

var x1 x4;

run;

得到结果如下:

图4-3相关系数矩阵的特征根

图4-3中有两个主成分的特征值(Eigenvalues),最大的是λ1=1.7797,最小的是λ2=0.2203。由于条件数k=λ1

<10,所以可以认为自变量之间不存在共线性。

λ2

5.建立不良贷款y对4个自变量的岭回归

执行程序如下:

proc reg data=xt7_7 outest=rid;

model y=x1-x4/ridge=0.0 to 1.0 by 0.2;

plot/ridgeplot;

run;

proc print data=rid;

run;

得到结果如下:

图5-1 岭迹图

从岭迹图中我们看到当k=0.4时,岭迹大体上达到稳定。

图5-2 岭回归模型的建立

得到不良贷款y对4个变量的岭回归方程为:

y=?0.78981+0.017119x1+0.15734x2+0.070137x3?0.002138x4

6.对回归方程(4-1)作岭回归

y=0.04889x1?0.03437x4(4-1)

执行程序如下:

proc reg data=xt7_7 outest=rid;

model y=x1 x4/ridge=0.0 to 1.0 by 0.2;

plot/ridgeplot;

y = -1.0216 +0.04x1 +0.148x2 +0.0145x3 -0.0292x4

N

25

Rsq

0.7976

AdjRsq

0.7571

RMSE

1.7788

C

o

e

f

f

i

c

i

e

n

t

E

s

t

i

m

a

t

e

-0.050

-0.025

0.000

0.025

0.050

0.075

0.100

0.125

0.150

0.175

Ridge k

0.00.10.20.30.40.50.60.70.80.9 1.0

Plot x1x2x3x4

run;

proc print data=rid; run;

得到结果如下:

图6-1 岭迹图

从岭迹图中我们看到当k=0.4时,岭迹大体上达到稳定。

图6-2 岭回归模型的建立

得到y对x1, x4的岭回归方程为:

y=0.025806x1+0.004531x4(6-1)

7.建立y对x1、x2、x3的回归方程

执行程序如下:

proc reg data=xt7_7;

model y=x1 x2 x3 ;

run;

y = 0.0489x1 -0.0344x4

N

25

Rsq

0.8847

AdjRsq

0.8747

RMSE

1.8188

C

o

e

f

f

i

c

i

e

n

t

E

s

t

i

m

a

t

e

-0.04

-0.03

-0.02

-0.01

0.00

0.01

0.02

0.03

0.04

0.05

0.06

Ridge k

0.00.10.20.30.40.50.60.70.80.9 1.0

Plot x1x4

得到结果如下图所示:

图7-1 y对x1、x2、x3的回归建模

输出结果显示,线性回归模型显著,Adj R-Sq=0.7253 模型拟合度较高。参数检验结果显示,截距项以及x3不显著,其他自变量均对因变量有合理的解释。

去除截距项以及x3,重新拟合方程。

执行程序如下:

proc reg data=xt7_7;

model y=x1 x2/noint ;

run;

得到结果如下图所示:

图7-2 y对x1、x2的回归建模

输出结果显示,线性回归模型显著,Adj R-Sq=0.8553 模型拟合度有所提高。参数检验结果显示,x2不显著,其他自变量均对因变量有合理的解释。

去除x2,重新拟合方程。

执行程序如下:

proc reg data=xt7_7;

model y=x1/noint ;

run;

得到结果如下图所示:

图7-3 y对x1的回归建模

输出结果显示,线性回归模型显著, R-Square=0.8556 模型拟合度有所提高。参数检验结果显示,所有自变量均对因变量有合理的解释。

总结果分析:相对比较之下,做y对贷款余额(x1)的回归较好。

相关文档