第二讲:多元线性与非线性回归分析
实验
简介多元
非线性回归模型
MATLAB软件实现
多元线性回归模型
引例:某建材公司的销售量因素分析
实验目的
1)了解回归分析的基本原理;
2)掌握MATLAB的实现方法;
3)练习用回归分析方法解决实际问题;
引例:某建筑材料公司的销售量因素分析某建材公司对某年20个地区的建材销售量Y(千方)、推销开支、实际帐目数、同类商品竞争数和地区销售潜力分别进行了统计。试分析推销开支、实际帐目数、同类商品竞争数和地区销售潜力对建材销售量的影响作用。试建立回归模型,且分析哪些是主要的影响因素。设:推销开支——x1
实际帐目数——x2
同类商品竞争数——x3
地区销售潜力——x4
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
5.5
2.5
8.0
3.0
3.0
2.9
8.0
9.0
4.0
6.5
5.5
5.0
6.0
5.0
3.5
8.0
6.0
4.0
7.5
7.0
31
55
67
50
38
71
30
56
42
73
60
44
50
39
55
70
40
50
62
59
10
8
12
7
8
12
12
5
8
5
11
12
6
10
10
6
11
11
9
9
8
6
9
16
15
17
8
10
4
16
7
12
6
4
4
14
6
8
13
11
79.3
200.1
163.2
200.1
146.0
177.7
30.9
291.9
160.0
339.4
159.6
86.3
237.5
107.2
155.0
201.4
100.2
135.8
223.3
195.0 x1 x2 x3 x4 y
1
1
1
1
.
.
.
1
1
1
1
1
X=
寻找关系:
y = E(Y|x 1,x 2,x 3,x 4) = f (x 1,x 2,x 3,x 4)
)
,0(~2443322110σεεβββββN x x x x Y +++++=模型:假设:
1、因变量Y 是随机变量,并且它服从正态分布;
2、f (x 1,x 2,x 3,x 4)是线性函数(非线性);
2、多元线性回归模型
???++++=)
,0(~Y 2m m 110σεεβββN x x 模型要解决的问题可归纳为以下几个方面:
1)在回归模型中如何估计参数βi
(i=0,1,…,m)和σ2?
2)模型的假设(线性)是否正确?3)判断每个自变量x i (i=1,…,m)对Y 的影响是否显著?
4)利用回归方程对试验指标Y 进行预测或控制?知识介绍
参数估计
假设有n 个独立观测数据(x i1,x i2,…x im ,y i ),i =1,2,…,n,要确定回归系数m 10,,,βββ 由最小二乘法
2
im m 1i 10n 1i n 1i i 2
i
m 10)]([),,,(min x x y Q βββεβββ+++-==∑∑==
????
??????=??????????=??????????==-m n nm n m y y x x x x ββββ???,1Y ,11X Y
X )X X (?01111T 1T 求解结果
y 的估计值:m
m x x y βββ????110 ++=拟合误差e = y –y 称为残差,
残差平方和∑∑==-==n i i i n i i
y y e Q 12
12
)?(
统计分析
1、β是β的线性最小方差无偏估计
2、)
)(,(~?12-X X N T σββ3、残差平方和Q ,)
1(~22--m n Q χσ由此得σ2的无偏估计
1?2--=m n Q σ4、对Y 的样本方差S 2进行分解
2
12)?(,y y U U Q S n
i i -=+=∑=
回归模型的假设检验
:H 100====m βββ )}
1,({)1,(~)
1/(/10-->=----=-m n m F F m n m F m n Q m U F αχ拒绝域构造F-统计量及检验H 0的拒绝域:
注意:衡量y 与x 1,x 2,…,x m 相关程度的指标可以定义复相关系数R ,R 的值越接近于1,它们的相关程度越密切。2
2S U
R =
回归系数的检验
主要判断每个自变量x i 对y 的影响是否显著。
:H ,0:H 10≠=i i ββm
i c N ij i i ,,1),,(~?2 =σββ)
1(~1?----=m n t m n Q
c T ii
i
i β由此可得
MATLAB 软件实现
b = regress (Y , X) 或
[b, bint, r, rint, stats] = regress(Y , X, alpha)
1、使用命令regress 实现多元线性回归
????
??????=??????????=n nm n m y y x x x x 1Y ,11X 1111回归系数β0,β1,…,βm 以及它们的置信区间残差向量e=Y-Y 及它们的置信区间相关系数R 2,F-统计量和与F 对应的概率p 。
引例求解:
输入:(jzhui.m)
x1=[5.5 2.5 8 3 ……8 6 4 7.5 7]’;(20维)x2=[31 55 67 …… 55 70 40 50 62 59]';
x3=[10 8 12 …… 11 11 9 9]';
x4=[8 6 9 16 …… 8 13 11]';
y=[79.3 200.1 …… 135.8 223.3 195]';
X=[ones(size(x1)),x1,x2,x3,x4];
[b,bint,r,rint,stats]=regress(y,X)
计算结果:(输出)
b = 191.9158 -0.7719 3.1725 -19.6811 -0.4501
β0β
1
β
2
β
3
β
4
bint = 103.1071 280.7245……(系数的置信区间)r =[ -6.3045 -4.2215 ……8.4422 23.4625 3.3938] rint=(略)
stats = 0.9034(R2)35.0509(F)0.0000(p)Q = r’*r
σ2= Q/(n-2) = 537.2092 (近似)
残差向量分析图
Z
如何分析四个因素x1,x2,x3,x4对试验指标Y的作用大小?
使用逐步回归方法。在MATLAB软件中使用以下命令:
stepwise(X, y, inmodel,alfha)
如上例,输入:X=[x
1,x
2
,x
3
,x
4
];
stepwise(X,y,[1,2,3])
模型中均方差历史数据记载表参变量数据分析表
经过观察,得到各种情况下的均方差对比:
变量
组合
x1,x2x1,x3x1,x4x2,x3x2,x4x3,x4 RMSE5351.9661.7723.9652.9644.75
变量组合x1,x2
x3
x1, x2
x4
x1, x3
x4
x2,x3
x4
x1,x2
x3,, x4
RMSE24.6554.4345.8624.6425.39