应用回归分析·作业四
学号:200930980106 姓名:何斌年级专业: 10级统计1班指导老师:丁仕虹
P205 7.7
1.计算简单相关系数
执行程序如下:
proc import out=xt7_7
datafile="d:\xt7.7.xls"
dbms=excel2000 replace;
getnames=yes;
run;
proc print data=xt7_7;
run;
proc corr pearson data=xt7_7;
var y x1 x2 x3 x4;
run;
简单相关系数如下图所示:
图1-1 简单相关系数
2.建立线性回归方程,并检验回归系数的合理性
执行程序如下:
proc reg data=xt7_7;
model y=x1 x2 x3 x4;
run;
得到结果如下图所示:
图2-1 建立回归方程
输出结果显示,线性回归模型显著,Adj R-Sq=0.7571 模型拟合度较高。参数检验结果显示,截距项以及x3不显著,其他自变量均对因变量有合理的解释。
回归方程为:
y=?1.02164+0.04004x1+0.14803x2+0.01453x3?0.02919x4
3.分析回归方程的共线性
执行程序如下:
proc princomp data=xt7_7;
var x1-x4;
run;
得到结果如下:
图3-1 相关系数矩阵的特征根
图3-1中有4个主成分的特征值(Eigenvalues),最大的是λ1=3.07287765,最小的是λ4=0.13224667。由于λ4=0.13224667近似接近于0或者由于条件数
k=λ1/λ4>10,所以可以认为自变量之间存在共线性。
4.采用后退法和逐步回归法选择变量,检验回归系数的合理性以及共线性
(1)后退法选择变量
执行程序如下:
proc reg data=xt7_7;
model y=x1-x4/selection=backward noint;
run;
结果如下所示:
图4-1 后退法选择变量结果
输出结果显示,线性回归模型显著,所有参数均通过检验。
回归方程为:
y=0.04889x1?0.03437x4
(2)逐步回归法选择变量
执行程序如下:
proc reg data=xt7_7;
model y=x1-x4/selection=stepwise noint;
run;
得到结果如下:
图4-2逐步回归法选择变量
输出结果显示,变量x2不显著。去除x2后,所得线性回归方程亦为:
y=0.04889x1?0.03437x4(4-1)
(3)回归方程(4-1)共线性分析
执行程序如下:
proc princomp data=xt7_7;
var x1 x4;
run;
得到结果如下:
图4-3相关系数矩阵的特征根
图4-3中有两个主成分的特征值(Eigenvalues),最大的是λ1=1.7797,最小的是λ2=0.2203。由于条件数k=λ1
<10,所以可以认为自变量之间不存在共线性。
λ2
5.建立不良贷款y对4个自变量的岭回归
执行程序如下:
proc reg data=xt7_7 outest=rid;
model y=x1-x4/ridge=0.0 to 1.0 by 0.2;
plot/ridgeplot;
run;
proc print data=rid;
run;
得到结果如下:
图5-1 岭迹图
从岭迹图中我们看到当k=0.4时,岭迹大体上达到稳定。
图5-2 岭回归模型的建立
得到不良贷款y对4个变量的岭回归方程为:
y=?0.78981+0.017119x1+0.15734x2+0.070137x3?0.002138x4
6.对回归方程(4-1)作岭回归
y=0.04889x1?0.03437x4(4-1)
执行程序如下:
proc reg data=xt7_7 outest=rid;
model y=x1 x4/ridge=0.0 to 1.0 by 0.2;
plot/ridgeplot;
y = -1.0216 +0.04x1 +0.148x2 +0.0145x3 -0.0292x4
N
25
Rsq
0.7976
AdjRsq
0.7571
RMSE
1.7788
C
o
e
f
f
i
c
i
e
n
t
E
s
t
i
m
a
t
e
-0.050
-0.025
0.000
0.025
0.050
0.075
0.100
0.125
0.150
0.175
Ridge k
0.00.10.20.30.40.50.60.70.80.9 1.0
Plot x1x2x3x4
run;
proc print data=rid; run;
得到结果如下:
图6-1 岭迹图
从岭迹图中我们看到当k=0.4时,岭迹大体上达到稳定。
图6-2 岭回归模型的建立
得到y对x1, x4的岭回归方程为:
y=0.025806x1+0.004531x4(6-1)
7.建立y对x1、x2、x3的回归方程
执行程序如下:
proc reg data=xt7_7;
model y=x1 x2 x3 ;
run;
y = 0.0489x1 -0.0344x4
N
25
Rsq
0.8847
AdjRsq
0.8747
RMSE
1.8188
C
o
e
f
f
i
c
i
e
n
t
E
s
t
i
m
a
t
e
-0.04
-0.03
-0.02
-0.01
0.00
0.01
0.02
0.03
0.04
0.05
0.06
Ridge k
0.00.10.20.30.40.50.60.70.80.9 1.0
Plot x1x4
得到结果如下图所示:
图7-1 y对x1、x2、x3的回归建模
输出结果显示,线性回归模型显著,Adj R-Sq=0.7253 模型拟合度较高。参数检验结果显示,截距项以及x3不显著,其他自变量均对因变量有合理的解释。
去除截距项以及x3,重新拟合方程。
执行程序如下:
proc reg data=xt7_7;
model y=x1 x2/noint ;
run;
得到结果如下图所示:
图7-2 y对x1、x2的回归建模
输出结果显示,线性回归模型显著,Adj R-Sq=0.8553 模型拟合度有所提高。参数检验结果显示,x2不显著,其他自变量均对因变量有合理的解释。
去除x2,重新拟合方程。
执行程序如下:
proc reg data=xt7_7;
model y=x1/noint ;
run;
得到结果如下图所示:
图7-3 y对x1的回归建模
输出结果显示,线性回归模型显著, R-Square=0.8556 模型拟合度有所提高。参数检验结果显示,所有自变量均对因变量有合理的解释。
总结果分析:相对比较之下,做y对贷款余额(x1)的回归较好。