第九章
双变量回归与相关环境与公共卫生学院叶晓蕾
20名糖尿病人血糖(mmol/L)与胰岛素(mU/L)测定值
病例号血糖胰岛素i Y I X i 病例号血糖胰岛素i Y i X i
1 12.21 15.2
2 14.54 16.7
3 12.27 11.9
4 12.04 14.0
5 7.88 19.8
6 11.10 16.2
7 10.43 17.0
8 13.32 10.3
9 19.59 5.9
10 9.05 18.7 11 6.44 25.1
12 9.49 16.4
13 10.16 22.0
14 8.38 23.1
15 8.49 23.2
16 7.71 25.0
17 11.38 16.8
18 10.82 11.2
19 12.49 13.7
20 9.21 24.4
资料特点:每个观察对象有两个变量。概念
类似上例的问题:
年龄-身高;
肺活量-体重;
药物剂量-动物死亡率
双变量资料
统计资料单变量资料:X
双变量资料:X,Y
多变量资料:X
1
,X
2
,…,X
K
,Y
相关与回归是研究两个或多个变量之间相互关系的一种分析方法。
数据结构
编号Y X
1……X
K
1 2
n
概念:
回归:是研究变量之间在数量上依存关系的一种方法。
相关:是研究随机变量之间相互联系密切程度和方向的方法。
直线相关与回归:只涉及两个变量,而且分析是否呈直线关系,是回归和相关分析中最简
单的一种。又称简单相关和回归。
直线相关与回归的一般步骤:
绘制散点图
直线相关分析直线回归分析
求相关系数相关系数假设检验
结论求回归系数和截距列出回归方程
回归系数假设检验
一、直线回归(linear regression )
1. 直线回归方程
:应变量Y 的平均估计值a :截距(intercept )
b :回归系数(regression coefficient )
bX
a Y +=?Y
?bX
a Y +=注意直线回归方程与函数方程的不同
应用条件
线性(l inear)、独立性(i ndependent)、正态性(n ormal)、等方差(e qual variance)——“LINE”。
线性——自变量与应变量的关系是线性的。用散点图判断。
独立性——任意两个观察值互相独立。
正态性——在任意的自变量X的取值处,应变量y均服从正态分布。
等方差——在任意的自变量X的取值处,应变量y的
20名糖尿病人血糖(mmol/L)与胰岛素(mU/L)测定值
病例号血糖胰岛素i Y I X i 病例号血糖胰岛素i Y i X i
1 12.21 15.2
2 14.54 16.7
3 12.27 11.9
4 12.04 14.0
5 7.88 19.8
6 11.10 16.2
7 10.43 17.0
8 13.32 10.3
9 19.59 5.9
10 9.05 18.7 11 6.44 25.1
12 9.49 16.4
13 10.16 22.0
14 8.38 23.1
15 8.49 23.2
16 7.71 25.0
17 11.38 16.8
18 10.82 11.2
19 12.49 13.7
20 9.21 24.4
例1
SPSS 20名糖尿病人的血糖水平与胰岛素水平的散点图
回归直线的求法
原理(最小二乘法)(
)
∑为最小
即 Y ?-Y
2各散点距离回归直线的纵向距
离(残差)平方和为最小而得
到直线。
计算:
()()()()()()XX
XY l l n X X n Y X XY X X Y Y X X b =
--=---=∑∑∑∑∑∑
∑2
2
2
()()()()()()()()∑∑∑∑∑∑∑∑∑∑-=--=-=-=-=-=n
Y X XY Y Y X X l n
Y Y Y Y l n X X X X l XY
YY XX
2
2
2
2
2
2
回归直线必通过点()
Y
, X X
b Y a -=
Coefficients a
18.796 1.265
14.862.000-.459
.070
-.840
-6.562
.000
(Constant)x
Model 1
B Std. Error
Unstandardized Coefficients
Beta
Standardized Coefficients
t Sig.Dependent Variable: y
a. X
Y 459.0796.18?-=
3. 直线回归的假设检验即推断总体回归系数(β)是否为零
即:SS =SS +SS 222
)
?()?()(∑∑∑-+-=-Y Y Y Y Y Y )?()?()(Y Y Y Y
Y Y -+-=-——剩余或残差(residual)
Y
?Y -(1)方差分析
查附表3,F 0.01(1,18)=8.28
P< 0.01
(2)t检验
t= (b -0)/ sb ν=n -2
2
1
1 2
-=-===-==n SS SS SS l l
SS n l SS xx xy
yy 剩余回归总剩余回归回归总总ννν06.4318
9482.471
7032.114===
=
剩
回剩
剩回回MS MS SS SS F νν0699.0582
.5456638.2===
XX
b l MS S 剩余
t=(-0.4585 -0)/0.0699 = - 6.56 = 18,t0.01(18)= 2.878
P < 0.01
F = t2=(-6.56)2= 43.03