简单线性相关与回归
2012年11月29日
大理学院巫秀美
在医学科学研究中,常常要分析两个变量之间的关系,例如身高和体重、年龄和血压、体温和脉搏、药物剂量和疗效等问题,因此涉及到研究两个变量的相互关系。这时就涉及到两个变量之间的相关(correlation)与回归(regression)。
简单线性相关与回归Correlation& Regression 相关的意义、概念和种类
相关图表、相关系数和相关分析
简单线性回归
相关分析和回归分析中应注意的问题
相关的意义、概念和种类?在总体中,如果对变量x的每一个数值,相应还有第二个变量y的数值,则各对变量的变量值所组成的总体称为二元总体;由二个以上相互对应的变量组成的总体,称为多元总体。?二元总体中
–两变量是不是存在关系?
–关系的密切程度如何?
–关系的具体形式是什么?
–怎样根据一个变量的变动来估计另一变量
的变动?
Correlation
?相关分析就是对二元总体中确实具有联系的标志进行分析。
?现象总体的依存关系类型:
一个变量取一定值时另一个变量有确定值与之对应,这种变量间一一对应的确定性关系称为函数关系,y=f (x)。
一个变量取一定值时,与之对应的另一个变量的值虽然不确定,但它按某种规律在一定范围内变化,这种变量间的不确定性对应关系称为相关关系,y =f (x) +ε(ε为随机变
量)。
函数关系v.s. 相关关系
圆的面积与半径;
计件工资总额与零件数量;
收入水平与受教育程度;
看书时间和学习成绩;
父亲身高与子女身高。
相关关系的种类
?按相关的因素单相关
复相关(多元相关;偏相关)?按相关的形式线性相关(直线相关)
非线性相关(曲线相关)?按相关的方向正相关
负相关
?按相关的程度完全相关
不完全相关
不相关
相关关系的散点图(scatter diagram )
不相关
负线性相关
正线性相关
非线性相关
完全负线性相关
完全正线性相关
相关分析v.s.相关系数?相关分析:描述和测度变量间相关关系类型和相关程度的分析方法
?相关分析的目的:通过相关系数来描述和度量两变量线性联系的程度和方向
?所有变量都假定是随机变量,不存在解释变量和被解释变量的关系,即不考虑因果关系
?相关系数:对变量之间关系密切程度的度量;适用于双变量正态分布(Bivariate Normal Distribution)资料
二元正态分布的概率密度图?当时二元正态分布的钟形密度曲如下图。2212
,0.75σσρ=
=
相关分析v.s.相关系数?连续变量的相关指标:积差相关系数(Pearson’s Correlation Coefficient)?总体相关系数:ρ
?样本相关系数:r
?相关系数的取值在-1 与1 之间。
?样本相关系数r不等于零,并不表示总体相关系数ρ不等于零,还要作假设检验(显著性检验)
相关系数的计算
()()()()∑∑∑----=2
2y y x x y y x x r ()()()()n y x xy y y x x ∑∑∑∑-=--X 和Y 的离均差积和
()()n
x x x x 222∑∑∑-=-X 的离均差平方和
()()()()()()()()n
y x y x y y x x L n
y y y y L n x x x
x Lxx i
i i i i i xy i i i yy i i i ∑∑∑∑∑∑∑∑∑∑-=--=-=-=-=-=2
2
2222yy
xx xy
L L L r ?=,令
()()()()∑∑∑----=22y y x x y y x x r
相关系数的特点
?
当r = 0 时,表明X 与Y 没有线性相关关系。?当时,表明X 与Y 存在一定的线性相关关系:
若r > 0表明X 与Y 为正相关;
若r < 0表明X 与Y 为负相关。
?
当时,表明X 与Y 完全线性相关:若r = 1,称X 与Y 完全正相关;
若r = -1,称X 与Y 完全负相关。10< =r 相关关系的散点图(scatter diagram ) r= 0 r < 0 r> 0 r= -1 r= 1 统计检验的必要性: 相关系数的检验r ≠ 0 抽样误差?两总体确实存在相关关系? 检验的依据: 如果x 和y 都服从正态分布,在总体相关系数ρ= 0的假设下,与样本相关系数r 有关的t 统计量服从自由度为n-2 的t 分布: 2 =--- t r n r t n 21~(2) α 相关系数的假设检验 0:0 :10≠=ρρH H 212--=n r s r 2-==n df s r t r r 样本相关系数的标准误 查t 界值表,得P 值 ?给定显著性水平α, (p. 483);?查自由度为n-2 的临界值t α/2 ,表明相关系数r 在统计上是?若?t?≥t α/2 显著的,应否定ρ= 0而接受ρ≠0的假 设; ,还不能拒绝ρ= 0的假设。 ?若?t? α/2 例10.1 为研究一种饲料的营养价值,观察10只体重相近的大白鼠的进食量与体重增加的关系。(表10-1,p. 180) 936.05 .27601.616985.122195 .12219))((5.2760)(1.61698)(2 22 2=?===--==-==-=∑∑∑∑∑yy xx xy xy yy xx l l l r y y x x l n y y l n x x l 001.0,82,521.72 102<=-==--=-=P n n r r s r t r r ν ?直接查r 表:按自由度υ=n –2直接查r 界值表(p. 499) ?相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析 α >-P r r n )2(05.0α >?<-P r r n )2(05.0