文档库 最新最全的文档下载
当前位置:文档库 › 09 第九章 回归分析与应用

09 第九章 回归分析与应用

09 第九章 回归分析与应用
09 第九章 回归分析与应用

第九章 回归分析与应用

在一定自然体系中的各种事物间都是普遍联系和相互制约的,各种事物或现象在其发生发展过程中都受着体系中其他事物和因素的影响。从数学观点看就是,在一定体系中各变量之间具有相互关联依存的关系。通过归纳,人们发现变量之间的关系一般分为两种类型。

一类时确定性关系。例如,电路中的电压V 、电阻R 、与电流I 的关系V=IR;自己落体运动中路程S 与时间T 的关系2

1S =

gt 2

等,都是确定性关系,也称为函数关系。在一个函数关系中,某个变量可被其余变量完全确定。

另一类是相关关系。例如:人体学中身高与体重的关系,高血压与低血压的关系;社会经济学中缺席多少与工龄长短的关系;某种商品的销售量与季节的关系;气象学中降水量与云层、气压与其他自然地理与气象信息间的关系;地球化学问题中某种元素的富集与替他元素含量高低的关系;人体微量元素与健康的关系;土壤中某些元素含量与作物参量的关系;原生异常的强度大小与离开矿体的距离远近程度的关系等等都属于这类关系。但是,这些变量之间的关系比较复杂,而且由于各种随机因素的影响,无法得到变量间的精确表达式。变量间这种既密切、又不能用数学公式精确表示的关系称为相关关系。

对这种相关关系,并非无规律可循。大量的偶然性中蕴藏着一定的必然性。只要经过充分的试验,就可能发现隐藏在随机性后面的必然规律性。

从若干变量的观测值出发,研究两两变量间相关关系的统计方法称为相关分析。以相关分析的基础,寻找某一变量对另一组(或一个)变量的依赖关系的统计方法称为回归分析。在应用方面,二者也是不一样的。相关分析主要用于研究多个变量间的相关结构,揭示产生这种结构的内在原因,探索研究对象的因果关系,其内容我们在前几章已进行过讨论。回归分析的应用则是根据某个变量对其他若干变量的依赖关系,对某变量进行预测,例如在天气预报、地震预报、成矿预测等方面都有广泛应用,在地球化学与农业、环境、生命科学的关系研究中必然有许多新的应用。

回归分析主要包括以下内容:

1、根据一组观测数据,寻找因变量对若干自变量的依赖关系,并用数学式表达出来,即建立回归方程。

2、检验因变量与全体自变量间、或因变量与每个自变量间的相关关系是否显著。

3、利用回归方程和自变量 的已知数据,对因变量进行预测并给出一定意义下的预测精度。

4、显然回归分析中存在稳健性问题需要注意。

§1 一元线性回归

一、基本问题

简而言之,一元线性回归是研究一个变量对另一个变量的线性依赖关系的统计方法。 例1、在某铂矿氧化带采得18个样品,分析Pt 与As 的18对数据(经变换)列于表9-1中,试由这组数据研究Pt 对As 的线性依赖关系。

若将Pt 记为Y ,As 记为X ,则此18对数据对应与二维空间一组点,i=1,2,…,18.如图9-1所示,这组点大致成一条直线,我们的任务,首先是要寻求这样直线,使它尽可能最好地拟合这组点。为此,我们讨论一般问题

i i (X ,Y )

表9-1Pt 和As 的数据表(陈天与等 1980)

样号 Pt 、As 样号 Pt 、As 样号 Pt 、As

1 1.59、0.40 7 3.13、1.04 13 2.22、0.78

2 1.69、0.78 8 2.31、1.00 14 0.30、0.00

3 1.81、0.5

4 9 2.66、0.70 1

5 0.78、0.54 4 1.39、0.54 10 0.85、0.30 1

6 0.30、0.54 5 1.49、0.54 11 2.28、0.60 1

7 0.30、0.00 6 1.89、0.65 12 1.15、0.00 1

8 0.30、-0.30 设有两个变量x ,y ,若它们的n 对观测值

i i (,)x y ,i=1,2,…,n.

在二维空间中对应的n 个点接近于一条直线,则认为x ,y 间具有一定的线性依据关系,但由于随机误差的影响,它们又不完全在一条直线上。这是,x ,y 间的关系可表示成以下数学模型,即一元线性回归的数学模型:

01y =+x+e ββ (9.1)

其中,y 、e 都是随机变量,且2

(0,)e N σ ,201(,)y N x ββσ+ 0,β,1β为常数。

图9—1 Pt 与As 的依赖关系

对给定的n 个样品点有

i 01y i i x e ββ=++

其中,是各次取样的随机误差。我们的首要问题是,对i e 0β,1β作出估计,即建立回归方

程01?y

=+x ββ

二、回归方程的建立

首先,我们根据n 个样品的观测值求0β,1β的估计值,,即配回归直线

0b 1b 01?y

=+x b b (9.2)

使之尽可能好地拟合二维空间中n 个样品点。

若,已经求得,则由(9.2)式,对n 个样品可求得y 的回归值

0b 1b i 01?y =+x b b i i 2i ,i=1,2,…,n (9.3) 但实测值与回归值间有偏差 i y i ?y

?i i e y y =?,i=1,2,…,n (9.4) 当取不同的,值,即配不同回归直线时,与的偏差不同。一般,采用最小二乘法原理,选择最佳直线拟合,即选择这样的,,使得n 个点与直线的总偏差程度

0b 1b i y i ?y

0b 1b n n n

2

2

i

i i i 01i=1

i=1

i=1

?Q =e =(y -y

)=(y -b -b x )∑∑∑ (9.5)

达最小。

在(9.5)式中,i x ,i y 是已知的观测值,故Q 是,的二元函数。由微积分中二元函数求极值的原理,要使Q 达到最小,则,应满足以下方程:

0b 1b 0b 1b i 01i 10

i 01i i

11

Q

2(y -b -b x )0

b Q 2(y -b -b x )x 0

b n

i n

i ==??=?=??????=?=???∑∑ (9.6) 它称为正规方程组

由(9.6)的前一方程得

01b =-b y x (9.7)

其中,n i i=11=n x x ∑,n

i i=1

1=n y y ∑

将(9.6)式两端除以2,并将前一方程乘(-x )加后一方程得

n

i

1

i

i

i=1

(y -b -b x )(x -x)=0∑ (9.8)

将0b 代入(9.8)式,可得

n

i

i

xy i=1

1n

2

xx

i

i=1

(x -x)(y -y)

L b =

=

L (x -x)

∑∑ (9.9)

其中

n

2xx i i=1L =(x -x)∑

n

xy i i i=1

L =(x -x)(y -y)∑

今后还将看到,n

2

yy i

i=1

L =(y -y)

∑,这些都是常用的记号和公式,利用(9.7)和(9.9)式可求

得0b ,1b 。

对例1中的数据可求得0b 0.559=,1b 1.95=,于是所配回归直线为

t s ?p

=0.559+1.95A 或 ?y =0.559+1.95x

三、回归方程的显著属性检验

用以上的方法,对任意一组数据,都可配出一条回归直线。当X ,Y 间关系接近线性时,所配回归直线就有意义,当X ,Y 同根本不存在线性关系时,所配回归直线就无意义。因此,所配的回归直线有无真是意义,需要用一定方法进行检验采能作结论。检验方法有一下两种。

1、F 检验法

因变量Y 的总变化可用离差平方和表示,由方差分析可知,它可分解为以下两部分:

yy L n n n

2

2

2yy i i i i i=1

i=1

i=1

??L =(y -y)=(y -y

)+(y -y)+0=Q+U ∑∑∑ (9.10) 其中

22n n

n

xy xy 2

2

2

2

i 01i 011

i

xx 2i=1

i=1

i=1

xx

xx

L L ?U =(y

-y)=(b +b x -b -b x)=b (x -x)

=

L =

L L ∑∑∑ (9.11)

称为回归平方和,它时由因素X 的变化对Y 的影响所引起的差异。

n

2i i yy i=1

?Q =(y -y

)=L -U ∑ (9.12) 称为剩余平方和,反映实测值与回归值的偏离程度,可视作随机误差。

由(9.10)式可知,因为定值,故U 越大Q 越小,直线拟合程度越好。统计量:

yy L 2

a U 2

F =

F 1,(n-2)Q

(n-2)

??

?? (9.13) 若,就说明x 对y 的影响显著,即直线拟合好,回归方程有效,否则,x ,y 间

a F >F

无线性关系,不能用x 预测y 。当然,这种结论式在信度以下得出的,可以看出这是方差分析的一个应用。

2、相关系数检验法

由(9.10)式可知,统计量*

yy

U

F =

L 也可以表示回归效果,由(9.11)式有2

xy *

yy xx yy

L U

F ===r L L L 2 (9.14)

其中r 正是变量X ,Y 间的相关系数。其绝对值越大,回归效果越好。由式(9.14)可得

2yy yy 2

yy L r =U =L -Q L (1-r )=Q

(9.15)

因为,,故0yy L ≥0Q ≥0r ≤≤1。由(9.15)可知,当1r =时,Q =0,即n 个点全在回归直线上。

对一个具体问题,相关系数r 多大时,X 与Y 间才存在线性相关关系呢?同样需要由相关系数临界值表差得进行检验。

a r 对例1中的问题,求得相关系数r =0.81,在n =18,给定信度a =0.01下,查表得

,因,可见Pt 与As 线性关系密切,所配回归直线有意义。

0.01(16)0.59r =a r >r

四、回归预测及其精度

建立了回归方程,并经检验显著后,便可用于预测。对任意一个值,代入回归方程

求得Y 的预测值但预测值与真是值间有一定误差,可用 i x i ?y

n 1122i i

i=1

Q 1?S =()=[(y -y )]n-2n-2∑2

(9.16) 表示预测精度,S 越小,预测精度越高。在回归分析的数学模型中,已假设2

?y N(y,

)δ 其中,δ的样本估计值就是(9.16)式定义的S 。于是,由正态分布性质知,Y 取值于上下2S 范围内的概率约为95%,即Y 以95%的概率取值于区间,从几何意义上就是,约95%的点落在以下两直线之间:

?y

0101[b +b x-2S,b +b x+2S]i i (x ,y )101201:y =b +b x+2S :y =b +b x-2S

l l

在例1中,求得S=0.398,对应的两直线如图9-1所示。对某些不在所夹范围

12,l l 12,l l

内的实测值,就要研究数据的分析有无问题,或者要考虑有无新的地质情况出现。如图9-1中由两个这样的点。解释这样的点可参考有关异点或多重总体的内容。

§2 多元线性回归

多元线性回归式研究一个因变量对多个因变量线性依赖关系的统计方法,这是比一元线性回归更一般的问题。

设由因变量y 和m 个自变量,它们之间有关系

1,2m x x ,,x L y=e m m +++++x x x 22110ββββL (9.17)其中,m βββ、、、L 21为理论常数,y 、e 均为随机变量

e~N(0,)

2σy~N(m m x x x 22110ββββ++++L ,) 2σ则对n 个样品点

() i=1,2,…,n i im i2i1y x x ,x ;,,

L 有

i im m i22i110i x x x y εββββ+++++=L i=1,n

多元线性回归的首要任务是根据n 个样品的多元观测值,求出0β、1β、…m β的估计值、、…、。

0b 1b m b

一、回归方程建立

通常,将单变量y 的n 次观测值以列向量形式记为

Y=()T

(9.18) m 21y y y ,,,L 将多变量()的n 次观测值以矩阵形式记为 m 21x x x 、、

、L X= (9.19)

m n ij )(x ×设已求得y 与的估计关系为 m 21x x x 、、

、L =∧

y 0b +++ (9.20)

1b 1x L +22x b m b m x 其中,称为y 的估计值,为常数,、…、为偏回归系数,对n 个样品点有

0b 1b 2b m b =∧

i y im m i22i110x b x b x b b ++++L ,i=1,2,…,n

但预测值与实测值间有误差

i y ∧

i y i i i y y e ∧

?=

式(9.20)就是回归方程,当其中的、、…、取值不同,的大小是不一样的。根据最小二乘原理,我们选取这样的、、…、,使得

0b 1b 2b m b i e 0b 1b 2b m b n n

n

22

i

i i 01i12i2m i i i 1

i 1

i 1

Q e (y y )(y b b x b x b x )∧

=====?=?????∑∑∑L 2m

达到极小。这只要使下列方程组成立即可

∑==?=??n

1

i i m 2i 21i 10i 00)x b --x b -x b -b -y (2b m Q

L ∑==×?=??n 1

i 1i m 2i 21i 10i 10)x b --x b -x b -b -y (2b i Q

m L (9.21)

… … …

∑==×?=??n

1

i i m 2i 21i 10i m 0)x b --x b -x b -b -y (2b m m i Q

L 对(9.21)加以整理得:

∑∑∑====?++?+?n

1

i i m n 1

i im n 1

i 11i 0y b x b x b n L

∑∑∑∑===?=??++?+?n

1

i i 1i n 1

i m im 1i 121

i 0n

1

i 1

i y x b x x b x b x

K (9.22)

… … …

∑∑∑∑====?=?+?+?n

1

i n 1

i n

1

i n

1

i i im m 2im

11i im 0im

y x b x

b x x b x

若在数据矩阵(5.19)的左边加一个以1 为元素的n 阶列向量,然后仍记为X ,并记列向量

b =

T 1

2

3m (b b b b )L

则(5.22)式可写为以下矩阵的形式

T

T

(X X)b X Y =方程组(9.21)、(9.22)或(9.23)都称为正规方程组,它们是正规方程组的第一种形式,还有类似其他形式。

当系数矩阵X X 满秩时,该方程组的解为

Τ

T

1

T

b (X X)X y ?= (9.24) 在实际应用中,该正规方程组有不便之处,可按下面的方法进行改造。仍从数据矩阵(9.18)(9.19)出发,记

∑==n

1

i i y n 1y

∑==n

1

i ij j x n 1x , j =1,2,…,m

∑=?=n

1i 2j ij jj )x x (L , j =1,2,…,m

∑=?=n 1i 2i yy )y y (L

∑=??=n

1i k ik j ij jk )x x )(x x (L , j 、k =1,2,…m

)y y ()x x (L i n

1

i j ij iy ??=∑= , j =1,2,…m

由(9.22)第一式可得

m m 22110x b x b x b y b ????=L (9.25) 将代入Q 的表达式,并作适整理后可得到: 0b 2

n

1

i m im m 11i 1i

)]x x (b )x x (b )y y

[(Q ∑=??????=

L

要求这样的,j =1,2,…m ,使得Q 达到最小,只要令

j b ∑==????????=??n

1

i j ij m im m 11i 1i j 0)x x )](x x (b )x x (b )y y [(2b Q L

j =1,2,…,m (9.26)′ 对上式整理,并注意前面的记号得

j11j22jm m jy L b L b L b L +++=L , j =1,2,…,m (9.26) 将其展开得:

21m m 1y L b L ++=L

22m m 2y L b L ++=L (9.27) 2mm m my L b L ++=L

9.19)定义的数据n m n 1X ,Y ××均为中心化数据时,上式就变为

(9.28)

满秩时,其解为

T

X X Y

T m ,b ),但0b 要由(9.25)式确定。

12

1jj yy (L )(L )

,得

jm m jy

1212

1212

jj yy jj yy L b L (L )(L )(L )(L )++

=

L ,j =1,2,…,m (9.29)

1212

jm jy 11mm 1m 121212121212

yy jj mm yy jj yy L (L )(L )b b (L )(L )(L )(L )(L )(L )

++?=L L , (9.30)

k 1 (9.31) ,2,,m =L jm m jy r b r ?+= ,

j =1,2,…,m (9.32) 1m m 1y r b r ?

+=L

2m m 2y r b r ?++=L (9.33)

m11m22mm m my r b r b r b r ???+++=L

其中j b ?

称为标准化偏回归系数,它与回归系数j b 的关系由(9.31)式确定。

若对原始数据(9.18)、(9.19)中每一元素作标准化变换,并记与(9.19)式对应的X 的标准化数据矩阵为,与(9.18)式对应的Y 的标准化数据向量为

ij n m W (W )×= ,

T 12n Z (z ,z ,z )=L 仍记标准化偏回归系数向量为:T 1

2

m b (b b b )?

??=L ,则正规方程组(9.33)可写成如下矩阵形式,即第三种形式:

T 11

(W W)b (W Z)n n

=T (9.34) 其中,系数矩阵就是相关系数阵R 。当R 满秩时,方程组有唯一解:1

2

m b b b ?

?

?L ,但 0b 0?=。由(9.31)式可换算出12m b ,b ,,b L ,由(9.25)式可求出0b 。

二、多元线性回归方程的显著性检验

与一元线性回归同样道理,需要对求得的多元线性回归方程进行检验。 1、总回归效果检验

首先对因变量Y 的离差平方和作如下分解:

n n

2

2yy i i i i i 1i 1

L (y y)[(y y )(y y)]∧∧

===?=?+?∑∑

n

n

2

2

i i i

i 1

i 1

(y y )(y y)0Q U 0∧

===?+?+=++∑∑ (9.35) 其中,

n

2i i 1

U (y y ∧

==?∑)) ,称为回归平方和,反映X 对Y 的影响。

n

2i i i 1

Q (y y ∧

===?∑,称离差平方和,反映实测值与回归值的总偏差。为应用方便,给

出U 的以下重要计算公式

n

n

2

i i i i i 1i 1

U (y y)(y y)[(y y)(y y ∧

∧===?=????∑∑i )]∧

n

n

i

i i

i i 1

i 1

(y y)(y

y)(y y)(y y )∧

∧===

?????∑∑i ∧

n

1i1m im 011m m i i 1(b

b x b x b b x b x )(y y)0==

+++?????∑L L ?

n

1

i1

1m im m i i 1

[b (x

x )b (x x )](y y)==

?++?∑L ?

11y 22y m my b L b L b L =+++L (9.36)′

或简记为

m

k ky k 1

U b L ==∑ (9.36)

其中,(9.36)′与(9.35)式中的以下项都为零:

n

i

i i i 1

(y

y )(y y)∧∧

=??∑

i 01i1m im 01i1m im 011m m (y b b x b x )(b b x b x b b x b x )=????+++????∑L L L i 01i1m im 1i11m im m (y b b x b x )[b (x x )b (x x )]=?????++?∑L L 1i 01i1m im i11b (y b b x b x )(x x )=?????+∑L L + m i 01i1m im im m b (y b b x b x )(x x )?????∑L

0=

最后等号成立是因为有(9.25)及(9.26)′式。

利用上述离差平方和分解结果,便可对回归效果进行检验。 ①、F 检验:由数理统计知,统计量

a U m

F F [m,(n Q (n m 1)

=

?? m 1)]?? (9.37)

当计算的F 值大于,就认为回归效果好,可用回归方程预测因变量Y ;否则认为回归方程无意义。这是在信度a 下的结论。

a F ②、复相关系数检验:

考虑在中占的比例

U yy

L r

===%Q r %称为复相关系数,反映y 与m 个自变量总的相关性,由yy

L U =+可知0r 。 1≤≤%2、自变量的重要性检验

前面的方法是检验m 个自变量对y 的综合影响是否显著,但各自变量对y 的影响程度

是不同的。可以用偏回归平方和或偏相关系数两个指标来考察各自变量对回归方程的贡献大小。

①、偏回归平方和

自变量的偏回归平方和是指:从m 个自变量组成的回归方程中去掉自变量之后,回归平方和的减少量,记为

k x k x U k P m (m k P U U 1)?=? (9.39) 其中,为回归方程中保留个自变量时的回归平方和;m U m (m 1)U ?为去掉后的个自变量的回归平方和。

k X m 1?可以证明当采用正规方程组求解时,其一般计算公式为

2

k k kk

b P C = (9.40)

其中k b 为偏回归系数,为系数矩阵的逆矩阵中的元素。由于统计量

kk C k

k a P F F [1,(n Q (n m 1)

=

?? m 1)]??a (9.41)

因此,当时认为变量对回归方程有显著贡献,否则无显著贡献。这也是在信度a 下的结论。

k F F >k X ②、偏相关系数

偏相关系数也可以用于考察某自变量在回归方程中的重要程度。与复相关系数

k

X r

=%

y,k r =

为y 对的偏相关系数。若反映了y 对m 个自变量总的依赖程度,则反映了在这总的依赖程度中所贡献的那一部分。

k X r %y,k

r k X 除下一节介绍的逐步回归外,我们一般不对各自变量贡献作检验。

三、回归预测及其精度

当建立了多元回归方程并经检验有意义后,便可将任意x 值代入回归方程,对自变量y 作出估计,这就是多元回归预测。

由知,y 取值于区间的概率约占95.4%,其中 $2

y N(y,

)σ $$(y 2s,y 2s)?+

S =

33

2为的样本估计值。

σ例2、设在某矿不同标高处采得一组样品,分析了各样品中Cu、Ag、W 含量。若以矿脉标高(地表露头处取值为零,深部尖灭处取值为1)y 作因变量,以作自变量,建立的回归方程为:

12Cu(x )Ag(x )W(x )、、$12y 1.3490.1205x 0.6093x 0.2080x =??+ 并求得,因,故所得方程显著,可用于预测。在已知矿脉外围,见一小矿体露头,于露头采样分析数据为C ,代入回归方程,得小矿体露头处的预测相对高程为

0.01F 14.42,F 5.95==0.01F F >u(4.33)Ag(0.73)W(2.13)、、$y

13.490.1205 4.330.60930.730.2080 2.130.825=?×?×+×= 与假设高程相比知,该露头向下延伸不大,已近于尖灭。这就是在信度a 下的结论。本例实质是将多元回归与元素的垂直分带理论相结合,预测矿体的剥蚀深度。 0.01=

四、计算实例

在某多金属矿床上取25个样品,分析Au 的含量,见表9—2,建立与的回归方程。

Ag Al 、、Au(y)1Al(x )Ag(x )、由表9—2求得

1212y yy x 2.569,x 32.206,y 63.052,S 0.245,S 1.223,S 7.325,L 1341.39=======,

1y 2y L 27.138,L 147.59==,并且由第三种形式构成的正规方程组增广矩阵为

1

0.5980.6050.59810.659???

???

由此求得标准偏回归系数为:1b 0.328?

= 2b 0.463?=

偏回归系数为

y y 11221

2

S S b b 9.827,b b 2.772S S ?

?=

?==

?=

01122b y b x b x 51.483=??=?

于是建立的回归方程为

$12

y 51.4839.827x 2.772x =?++

由此得到的25个样品的预测值和剩余值$i y $i i

y y ?列于表9—2的最后两列。 为检验回归方程的显著性,可由上述结果求得:

11y 22y U b L b L 676.11=+= yy Q L U 665.47=?=

0.05u(n m 1)

F 11.76F (2,22) 3.44Q m ??=

=>=?

r

0.710==%

可见回归方程有效,可以用于预测。为估计预测精度,求得S =

=5.50,于

是。因此用所求回归方程预测时,y 值的误差在95%的情况下不会超过。 2S 11.0=11.0±

表9—2 某地地球化学数据的回归分析(据陈天与等,1980) 样号

1x 2x y $y

$y y ?1 2.234 30.50 47.5 55.0 -7.5

2 2.074 30.80 55.5 54.2 1.2

3 2.250 31.62 60.

4 58.2 2.1 4 2.420 31.81 61.9 60.4 1.4

5 2.584 31.50 70.2 61.2 8.9

6 2.518 31.81 66.8 61.4 5.3

7 2.492 34.81 62.4 69.5 -7.1

8 2.774 31.75 56.6 63.7 -7.1

9 2.616 33.69 68.6 67.6 0.9 10 2.700 32.62 67.6 65.4 2.1 11 2.764 31.94 53.8 64.2 -10.4 12 2.760 32.75 60.5 66.4 5.9 13 2.644 32.00 63.6 63.2 0.3 14 2.734 31.50 67.3 62.7 4.5 15 2.710 31.94 68.1 63.6 4.4 16 2.274 31.56 65.4 58.3 7.0 17 2.850 32.50 66.8 66.6 0.1 18 2.824 32.44 65.1 66.2 -1.1 19 2.584 34.00 71.3 68.1 3.4 20 2.614 32.75 73.9 64.9 8.9 21 2.830 34.69 70.2 72.4 -2.2 22 2.844 33.06 69.5 68.1 1.3 23 2.230 29.75 50.9 52.9 -2.0 24 2.066 30.37 46.3 53.0 -6.7 25 2.844 33.00 66.1 67.9 -1.8

§3 逐步回归

一、逐步回归的基本思路

逐步回归是建立最优回归方程的一种方法,所谓最优回归方程从下面的讨论中将逐步看清。

在多元回归方程中,综合了因变量对多个自变量的依赖关系,由于自变量个数多,综合信息广泛,故多元回归预测比一元回归预测要理想得多。但多元回归中,当个自变量间存在线性相关或样品个数时,正规方程组系数矩阵是降秩的,难以求得唯一解;

Y m n m ≤

当正规方程组阶数过大时,解的精度的必然下降;当与关系不密切的变量进入回归方程时,由于增大,

m Y m 2S Q (n m 1=??)

也增大,预测精度也随之降低。

逐步回归的思想正是在这种情况下产生发展的,具体方法很多,这里仅介绍目前常用的一种。其大致思路是:

首先,在所有m 个自变量中挑选第一量进入回归方程,原则是,由它组成的一元回归方程应比由其他量组成的一元回归方程有更大的回归平方和;

然后,在未被选入回归方程的(m-1)个自变量中逃选第二个量进入回归方程,原则是,由它与已选取的那个量组成的二元回归方程,应比其它任一未选量与已选量组成的二元方程有更大的回归平方和;

如此继续,一般地,在未入选的自变量中选取第L 个量进入回归方程,原则是,这第L 个量与已选量组成的L 元回归方程,比其它任一未选取量与已选量组成的L 元方程有更大的回归平方和。为保证每次被选入回归方程的变量对y 的预测是真正重要的,还应以一定的标准对候选变量作显著性检验。该标准称为引入变量的标准。

完整的逐步回归思路,还应在上述步骤中加进下面的内容:一般地,在选入第L+1个变量进入回归方程之前,要对已选入方程的L 个变量中的贡献最小者进行显著性检验,这是因为,较早选入回归方程的某些变量,可能随着其后另一些变量的选入而失去原有的重要性。这样的量应及时地从回归方程中剔除出去,使最终的回归方程只保留重要的变量。剔除变量时显著性检验的标准就称为剔除变量的标准。特别地,当选入量的个数L <3时,一般不考虑剔除问题。

循环上述过程,直至既无可剔除,又无可引入时,所得回归方程为最优,逐步回归结束。

由此可知逐步回归的基本思路,但如何实施计算,还存在以下两个重大问题: 1. 如何确定引入或剔除变量的标准? 2. 如何将此繁杂的步骤具体执行?

对此,本节只作有限讨论和必要证明,并给出实施逐步回归的充要步骤和有关公式。方法的完整论证涉及较多的线性代数知识,不作叙述,必要时可查阅参考文献。

下面的讨论,均以正规方程组的第三种形式为基础进行。因而各种有关统计量都是标

准化的,为简便起见,我们将标准化的残差平方和(Q )?

、回归平方和U ?。偏回归平方和k P ?

偏回归系数k b ?,仍分别简记为等,这不妨碍我们的讨论。

k Q U P b 、、、k L

二、引入与剔除变量的标准

设逐步回归进行到某一步,在全部m 个变量中,已有L 个变量(不妨设为前L 个变量)选入了回归方程,则有

$(L)(L)(L)1122L y b x b x b x =+++L 系数(L)

j b 中上标(L )表示当前方程中所含自变量个数为L ,后面类似记号意义同此。

当L≥3时,首先要考虑是否有变量需删除。为此,在L 个已选变量中挑选出偏回归平方和最小的变量,设为,由(9.40)式,其偏回归平方和记为

k x

(L)(L)(L)2

(L)k j k P min[P ][b ]

C ==已的

kk (9.44) 且据(9.41)式,可用如下统计量对其作F 检验

(L)

(L)1k k

a (L)

P F

F (Q (n L 1)

=

?? 1,n L 1)?? (9.45)

当<时,就将从回归方程中剔除,并紧接着考察是否还有需剔除的变量;否

则不剔除,而转入考虑从其余m-L 个未选变量中选出一个引入回归方程。这时就要考虑引入变量的标准。

(L)k F 1

a F k X k X 选入变量的方法是,从m-L 个未选变量中选出偏回归平方和最大的变量,其偏回归平方和为

k X (L 1)(L 1)

(L 1)k k k P [b ]C ++=k

+ (9.46) 它对应的F 统计量为

(L 1)

(L 1)

2k k

a (L 1)P F

F Q (n L 2)

+++=?? (1,n L 2)??a F (9.47) 其中,

(L 1)(L)(L 1)k Q Q P ++=?当时,就将引入回归方程,接着考虑剔除问题,否则选入与剔除工作全

部结束。因为这时已达到即无可剔除又无可引入的程度。

(L 1)2k F +≥k X 到此为止,我们解决了剔除或引入变量的标准问题,完成了前面提出的第一个 问题,并且对逐步回归的步骤或思路有了进一认识。但是,至此又出现了新的遗留问题:公式(9.44)或(9.46)是如何得来的,在实际运算中,如何具体计算?下面就来讨论这些遗留问题及前面提出的第2个问题。它是逐步回归中的重点与难点,但初学者只要掌握其主要思路与结论,并不会因为省去大量论证而影响方法的应用。

三、逐步回归与线性方程组紧缩解法

在逐步回归中,若每选入或剔除一个变量都作一次普通回归,在每次回归分析中都解一个线性方程组,同时求出系数矩阵的逆矩阵,计算工作量将十分巨大。因此需要有特殊计算技巧实施逐步回归。线性方程组求解求逆同时进行的所谓紧缩法,就能简单地完成逐步回归计算。

考虑正规方程组的第三种形式,并给出m 1+个变量间相关矩阵为

12m x x x y L 、、、、11

121m 1y 21

222m 2y m1m2mm my y1y2

ym

yy r r r r r r r r R r r r r r r r r ??????

?=???????

?

L L M

M L M M L L ? (9.48)

其中,主对角线元素均为1,它们表示各标准化变量的方差(即自身的相关系数)。矩阵上部行、m 列构成的子块即为第三种形式正规方程组的增广矩阵。加入最后一行的目的在后面将会看到。考虑到程序设计中的脚标,将分别记为m 1+jy yj yy r r r 、、j,m 1m 1,j m 1,m 1r r r +++、、+R +。

现在记,利用其上部行子块给出阶线性方程组的紧缩解法。这主要分别

以为主元素,作次消去变换即可。一般地,设经过L 步消去变换后,矩阵R

变为R

,再以r 为主元素作消去变换得矩阵R

(o)

R

=m m kk r (k 1,2,,m)=L m (o)

(L)

(L 1)kk (L 1)

+,则它们之间的变换关

系(为叙述方便,将这种变换关系称为变换)为

k

T k

T :

(L 1)ij r +=

(L)

kk (L)(L)ik kk (L)(L)kj

kk

(L)(L)(L)(L)

ij ik kj kk 1r ,i j k

r r ,i k,j k

r

r

,i k,j k

r r r r ,i k,j ==?≠==≠k

?≠≠ (9.49)

若将变换T 分别对各执行一次,则矩阵变为以下分块矩阵:

k k 1,2,,m =L (o)

R

(m)

(m)(m)(m)11121m 1y

(m)(m)(m)(m)21222m 2y

(m)

(m)(m)(m)(m)m1m2mm my (m)(m)(m)(m)y1

y2ym

yy

r r r r r r r r R r r r r r r r r ????????=????????L L M L L L M L L (m)

(m)(m)(m)

11121m

1

(m)(m)(m)

(m)21222m 2(m)(m)(m)(m)m1

m2mm m (m)(m)(m)(m)y1

y2ym

yy

c c c b c c c b c c c b r r r r ??????

??=????????

L L M

L L L

M L L (9.50)

其中左上角的阶子块为线性方程组系数矩阵的逆矩阵,右上角的阶向量为解向量。这

就是求解求逆并行的紧缩法。

m m 紧缩法的关键是变换,它有以下四个好的性质,这些性质与逐步回归的实施关系密切。

k T

1、部分可解性

设,从出发,将变换对L m <(o)

R

k T k 1,2,,L =L (可以是前L 个连续的序号,也可

以是个不连续的序号)执行次,则可得到由这个方程构成的子方程组的解及其对应的系数矩阵的逆矩阵。其中与这个序号对应的行和列相交处的元素构成上述逆矩阵,最后一列与这个序号相应的元素即构成该子方程组的解向量。这就是部分可解性。

L L L L L 有了这一性质,就不难根据逐步回归的要求,只对那些重要变量对应的序号执行变换,即引入变量,得到由L 个重要变量所对应的子方程组的解,最终求出最优回归方程。需要指出的是,在过程的执行中考虑到以后可能还有重要变量引入,因此对任意一个,在

k k T k X k

k T 变换中,有应对所有的行和列进行变换,即将矩阵全部剔新。

(i j)、

2、次序无关性 设对矩阵,将按的顺序执行次后变为,则改变k 的变

化顺序将对执行次后,其结果仍为。即求解求逆结果与执行中的顺序

无关。

(o)

R

k T k 1,2,3,,m =L m (m)

R k T (o)

R m (m)

R

k T k 这一性质,使得我们在引入某变量(即执行变换)时,不必考虑的序号是否为自然顺序。在实际情况中,变量的重要性大小按12的顺序排列一般不可能的,因此,被引入的顺序一般不可能为自然顺序。有了这一性质,无论某重要变量序号是多少(设为k ),就以多少(k )为主元,执行变换,引入。

k X k T k k 1,2,=L L 、、k T k X

3、可逆性

设为定值(例如),对矩阵执行变换,得到矩阵,再

对矩阵执行变换,得矩阵0k k =0k =3(L)

R 0k 3T (T )(L 1)

R

+(L 1)

R

+0k 3T (T )(L 2)

R

+,则有(L 2)

(L)R

R +=,即对矩阵作偶次变

换(k 为定值)时,矩阵不变。

k T 这一性质正好用于逐步回归中变量的剔除。显然,第一次变换相当于将变量

引入了回归方程,则经第二次变换则相当于将变量从回归方程中剔

除了出去。

0k 3T (T )03k (X )0k 3T (T )03k (X )当然,刚刚引入的变量是不可能在下步被剔除的,但这个假设不失一般性,因为有性质2为依据。

4、对称性

设矩阵经一系列变换变为,并设(o)

R

k T (L)

R

0k k =为定值。在过程中,若用作过

奇次变换,则矩阵的第行与第列成反对称,即0k T (L)

R 0k 0k 00(L)

(L)

k ,j j,k r r =?;若用作过零或偶

次变换,则矩阵中的第行与第列成对称,即。

0k T (L)

R

0k 0k 0(L)

(L)

k ,j j,k r r =0这一性质就是我们在矩阵中存放第(o)

R

m 1+行的目的之一,因为根据中元素与是否异号,可判断变量是否引入回归方程。由性质3知,若它们异号,则说明已被引入,否则未被引入。此外的目的,是由计算回归分析中的剩余平方,这将会在

(L)

R

(L)

jy

r (L)

yj r j X j X yy r Q

后面叙述。

在讨论引入与剔除变量的标准时,简单提出了有关计算公式,现在有必要说明在消去变换过程中如何利用中间结果进行计算。

由(9.44)式知,在个被引入的变量中,第个变量的偏回归平方和为

L j (L)2

(L)2

j jy (L)j (L)(L)jj

jj

[b ]

[r ]P C r =

=

(9.51)

其中,后一个等号成立是回为有性质1。这就是剔除变量时用中的元素计算偏回归平方

和的公式。考虑到这一公式的重要性,现给出证明。由(9.36)式知,在标准化情况下有

(L)

R

m

k ky k 1

U b r ==∑

其中U 为标准化回归平方和,k b 为标准化偏回系数,于是由定义(9.39)有

L L

(L)

(L)

(L 1)

(L)(L 1)k

i iy i 1

i 1

i k

P

U

U

b r b r ??==≠=?=?∑∑i iy ky

L

(L)(L 1)(L)i i iy k i 1i k

[b

b ]r b r ?=≠=

?+∑由变换知,

k T (L 1)(L)(L)(L)(L)

iy iy ik ky kk r r r r r ,i +=?≠k

考虑到各符号的意义并由变换性质3,上式即为

k T (L 1)(L)(L)(L)(L)i i ik k kk b b c b c ?=?或(L)(L 1)(L)(L)(L)

i i ik k kk b c b c ??=b

代入表达式有

(L)k P (L)(L)(L)(L)2

L L

(L)

(L)

(L)

ik k k

k k

iy k ky ik iy

(L)(L)(L)i 1i 1kk kk

kk i k

c b b [b ]

P

r b r c r c C ==≠=+==∑∑c (证毕) 现在还要证明一个重要结论:(9.51)式不但可用于计算已被引入变量的偏回归平方和,

图9—2 逐步回顾计算框图

还可用于计算未被引入变量的偏回归平方和。

证:设未被引入,可作为L k X 1+个变量被引入,将变换作用于得,则

k T (L)

R (L 1)

R

+(L 1)2(L)(L)2(L)2(L 1)2(L)2ky ky kk ky (L 1)

(L)k k k k (L 1)(L 1)(L)

(L)(L)kk kk kk kk kk

[r ][r r ][r ][b ][b ]P P c r 1r r c +++++====== (证毕) 在逐步回归中,为对各自变量进行显著性检验,在(9.45)式(9.47)式中还要计算剩余平方和,这时

(L)

Q

(L)(L)

yy Q r = (9.52)

即当有个变量引入时,剩余平方和(标准化)即为中的当前值,这是因为

L (L)

R

(L)

yy r (L 1)(L)(L 1)(L)(L)2(L)(L 1)k yy ky kk yy Q Q P r [r ]r r ++=?=?=+

因为未引入任何变量时,,由归纳法知,。

(o)

(o)yy Q

r =(L)(L)

yy Q r =

四、结果整理与计算步骤

至此,已解决了逐步回归的全部理论与标准化数据下的算法和公式。在逐步回归主要过

spss多元回归分析案例

企业管理 对居民消费率影响因素的探究 ---以湖北省为例改革开放以来,我国经济始终保持着高速增长的趋势,三十多年间综合国力得到显著增强,但我国居民消费率一直偏低,甚至一直有下降的趋势。居民消费率的偏低必然会导致我国内需的不足,进而会影响我国经济的长期健康发展。 本模型以湖北省1995年-2010年数据为例,探究各因素对居民消费率的影响及多元关系。(注:计算我国居民的消费率,用居民的人均消费除以人均GDP,得到居民的消费率)。通常来说,影响居民消费率的因素是多方面的,如:居民总收入,人均GDP,人口结构状况1(儿童抚养系数,老年抚养系数),居民消费价格指数增长率等因素。 总消费(C:亿元) 总GDP(亿元)消费率(%) 1995 1095.97 2109.38 51.96 1997 1438.12 2856.47 50.35 2000 1594.08 3545.39 44.96 2001 1767.38 3880.53 45.54 2002 1951.54 4212.82 46.32 2003 2188.05 4757.45 45.99 2004 2452.62 5633.24 43.54 2005 2785.42 6590.19 42.27 2006 3124.37 7617.47 41.02 2007 3709.69 9333.4 39.75 2008 4225.38 11328.92 37.30 1.人口年龄结构一种比较精准的描述是:儿童抚养系数(0-14岁人口与 15-64岁人口的比值)、老年抚养系数(65岁及以上人口与15-64岁人口的比值〉或总抚养系数(儿童和老年抚养系数之和)。0-14岁人口比例与65岁及以上人口比例可由《湖北省统计年鉴》查得。

应用回归分析含定性变量的回归模型第九章课后答案

第9章 含定性变量的回归模型 思考与练习参考答案 9.1 一个学生使用含有季节定性自变量的回归模型,对春夏秋冬四个季节引入4个0-1型自变量,用SPSS 软件计算的结果中总是自动删除了其中的一个自变量,他为此感到困惑不解。出现这种情况的原因是什么? 答:假如这个含有季节定性自变量的回归模型为: 其中含有k 个定量变量,记为x i 。对春夏秋冬四个季节引入4个0-1型自变量,记为D i ,只取了6个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则样本设计矩阵为: 显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。这就是所谓的“虚拟变量陷井”,应避免。 当某自变量x j 对其余p-1个自变量的复判定系数2 j R 超过一定界限时,SPSS 软件将拒绝这个自变量x j 进入回归模型。称Tol j =1-2 j R 为自变量x j 的容忍度(Tolerance ),SPSS 软件的默认容忍度为0.0001。也就是说,当2j R >0.9999时,自变量x j 将被自动拒绝在回归方程之外,除非我们修改容忍度的默认值。 而在这个模型中出现了完全共线性,所以SPSS 软件计算的结果中总是自动删除了其中的一个定性自变量。 9.2对自变量中含有定性变量的问题,为什么不对同一属性分别建立回归模型,而采取设虚拟变量的方法建立回归模型? 答:原因有两个,以例9.1说明。一是因为模型假设对每类家庭具有相同的斜率和误差方差,把两类家庭放在一起可以对公共斜率做出最佳估计;二是对于其他 t t t t kt k t t D D D X X Y μαααβββ++++++=332211110 ????? ? ?? ? ? ? ?=00011001011000101001 0010100011 )(6 16515414313212111k k k k k k X X X X X X X X X X X X D X,??? ??? ? ??=k βββ 10β??? ??? ? ??=4321ααααα

SPSS回归模型分析答案及解题思路

电视广告费用和报纸广告费用对公司营业收入 的回归模型分析 SPSS录入数据: 本研究关注的是电视广告费用和报纸广告费用对公司收入的影响。 公司收入样本总数为8,M=93.75,SD=1.909;电视广告费用(X1)M=3.19,SD=0.961;报纸广告费用(x2)M=2.48,SD=0.911。 通过皮尔逊相关性分析得出因变量与自变量x1和x2的相关系数分别为(r=0.8,p=0.008)和(r=-0.02,p=0.48),说明公司收入与电视广告费用呈显著性正相关,而公司收入与报纸广告费用相关不显著。 以电视广告费用和报纸广告费用分别作为自变量,以公司收入作为因变量,进行线性回归。具体结果见表1。结果发现,电视广告费用对公司收入存在显著的正向影响(β=0.808,B=1.604,t=3.357,p<0.05,R2=0.653),即电视广告费用的增长会提升公司收入,且该模型能够解释结果的65.3%;报纸广告费用对公司收入不存在显著的正向影响(β=-0.021,t=-0.05,p=0.96)。 表1:广告费用对公司收入的回归结果表 注: 表格中呈现了预测变量的非标准化系数, 括号内是标准误。

以电视广告费用和报纸广告费用同时作为自变量,以公司收入作为因变量,则两个费用对公司收入存在显著的正向影响(β电视=1.153,B电视=2.29,t=7.532,p<0.05;β报纸=0.621,B报纸=1.301,t=4.057,p<0.052, R2=0.919),即电视广告和报纸广告费用的同时增长会提升公司收入,且该模型能够解释结果的91.9%。共线性分析:VIF电视广告=1.448,VIF报纸广告=1.448,均小于5,说明电视广告和报纸广告之间共线性可能性较低。 思路及步骤: 1、公司收入样本总数为8,M=93.75,SD=1.909;电视广告费用M=3.19,SD=0.961; 报纸广告费用M=2.48,SD=0.911。 步骤:回归-线性,之后选择如下:【均值、标准差】

应用技术回归分析第九章部分完整答案

第9章 非线性回归 9.1 在非线性回归线性化时,对因变量作变换应注意什么问题? 答:在对非线性回归模型线性化时,对因变量作变换时不仅要注意回归函数的形式, 还要注意误差项的形式。如: (1) 乘性误差项,模型形式为 e y AK L αβε =, (2) 加性误差项,模型形式为 y AK L αβε=+。 对乘法误差项模型(1)可通过两边取对数转化成线性模型,(2)不能线性化。 一般总是假定非线性模型误差项的形式就是能够使回归模型线性化的形式,为了方便通常省去误差项,仅考虑回归函数的形式。 9.2为了研究生产率与废料率之间的关系,记录了如表9.14所示的数据,请画出散点图,根据散点图的趋势拟合适当的回归模型。 表9.14 生产率x (单位/周) 1000 2000 3000 3500 4000 4500 5000 废品率y (%) 5.2 6.5 6.8 8.1 10.2 10.3 13.0 解:先画出散点图如下图: 5000.00 4000.003000.002000.001000.00x 12.00 10.00 8.006.00 y 从散点图大致可以判断出x 和y 之间呈抛物线或指数曲线,由此

采用二次方程式和指数函数进行曲线回归。 (1)二次曲线 SPSS 输出结果如下: Mode l Sum mary .981 .962 .942 .651 R R Square Adjusted R Square Std. E rror of the E stim ate The independent variable is x. ANOVA 42.571221.28650.160.001 1.6974.424 44.269 6 Regression Residual Total Sum of Squares df Mean Square F Sig.The independent variable is x. Coe fficients -.001.001-.449-.891.4234.47E -007.000 1.417 2.812.0485.843 1.324 4.414.012 x x ** 2 (Constant) B Std. E rror Unstandardized Coefficients Beta Standardized Coefficients t Sig. 从上表可以得到回归方程为:72? 5.8430.087 4.4710y x x -=-+? 由x 的系数检验P 值大于0.05,得到x 的系数未通过显著性检验。 由x 2的系数检验P 值小于0.05,得到x 2的系数通过了显著性检验。 (2)指数曲线 Mode l Sum mary .970 .941 .929 .085 R R Square Adjusted R Square Std. E rror of the E stim ate The independent variable is x.

回归分析方法及其应用中的例子

3.1.2 虚拟变量的应用 例3.1.2.1:为研究美国住房面积的需求,选用3120户家庭为建模样本,回归模型为: 123log log P Y βββ++logQ= 其中:Q ——3120个样本家庭的年住房面积(平方英尺) 横截面数据 P ——家庭所在地的住房单位价格 Y ——家庭收入 经计算:0.247log 0.96log P Y -+logy=4.17 2 0.371R = ()() () 上式中2β=0.247-的价格弹性系数,3β=0.96的收入弹性系数,均符合经济学的常识,即价格上升,住房需求下降,收入上升,住房需求也上升。 但白人家庭与黑人家庭对住房的需求量是不一样的,引进虚拟变量D : 01i D ?=?? 黑人家庭 白人家庭或其他家庭 模型为:112233log log log log D P D P Y D Y βαβαβα+++++logQ= 例3.1.2.2:某省农业生产资料购买力和农民货币收入数据如下:(单位:十亿元) ①根据上述数据建立一元线性回归方程:

? 1.01610.09357y x =+ 20.8821R = 0.2531y S = 67.3266F = ②带虚拟变量的回归模型,因1979年中国农村政策发生重大变化,引入虚拟变量来反映农村政策的变化。 01i D ?=?? 19791979i i <≥年 年 建立回归方程为: ?0.98550.06920.4945y x D =++ ()() () 20.9498R = 0.1751y S = 75.6895F = 虽然上述两个模型都可通过显着性水平检验,但可明显看出带虚拟变量的回归模型其方差解释系数更高,回归的估计误差(y S )更小,说明模型的拟合程度更高,代表性更好。 3.5.4 岭回归的举例说明 企业为用户提供的服务多种多样,那么在这些服务中哪些因素更为重要,各因素之间的重要性差异到底有多大,这些都是满意度研究需要首先解决的问题。国际上比较流行并被实践所验证,比较科学的方法就是利用回归分析确定客户对不同服务因素的需求程度,具体方法如下: 假设某电信运营商的服务界面包括了A1……Am 共M 个界面,那么各界面对总体服务满意度A 的影响可以通过以A 为因变量,以A1……Am 为自变量的回归分析,得出不同界面服务对总体A 的影响系数,从而确定各服务界面对A 的影响大小。 同样,A1服务界面可能会有A11……A1n 共N 个因素的影响,那么利用上述方法也可以计算出A11……A1n 对A1的不同影响系数,由此确定A1界面中的重要因素。 通过两个层次的分析,我们不仅得出各大服务界面对客户总体满意度影响的大小以及不同服务界面上各因素的影响程度,同时也可综合得出某一界面某一因素对总体满意度的影响大小,由此再结合用户满意度评价、与竞争对手的比较等因素来确定每个界面细分因素在以后工作改进中的轻重缓急、重要性差异等,从而起到事半功倍的作用。 例 3.5.4:对某地移动通信公司的服务满意度研究中,利用回归方法分析各服务界面对总体满意度的影响。 a. 直接进入法 显然,这种方法计算的结果中,C 界面不能通过显着性检验,直接利用分析结果是错误

第九章 相关与简单线性回归分析

第九章相关与简单线性回归分析 第一节相关与回归的基本概念 一、变量间的相互关系 现象之间存在的依存关系包括两种:确定性的函数关系和不确定性的统计关系,即相关关系。 二、相关关系的类型 1、从相关关系涉及的变量数量来看:简单相关关系;多重相关或复相关。 2、从变量相关关系变化的方向看:正相关;负相关。 3、从变量相关的程度看:完全相关;不相关;不完全相关。 二、相关分析与回归分析概述 相关分析就是用一个指标(相关系数)来表明现象间相互依存关系的性质和密切程度;回归分析是在相关关系的基础上进一步说明变量间相关关系的具体形式,可以从一个变量的变化去推测另一个变量的变化。 相关分析与回归分析的区别: 目的不同:相关分析是用一定的数量指标度量变量间相互联系的方向和程度;回归分析是要寻求变量间联系的具体数学形式,要根据自变量的固定值去估计和预测因变量的值。 对变量的处理不同:相关分析不区分自变量和因变量,变量均视为随机变量;回归区分自变量和因变量,只有因变量是随机变量。 注意:相关和回归分析都是就现象的宏观规律/平均水平而言的。 第二节简单线性回归 一、基本概念 如果要研究两个数值型/定距变量之间的关系,以收入x与存款额y为例,对n个人进行独立观测得到散点图,如果可以拟合一条穿过这一散点图的直线来描述收入如何影响存款,即简单线形回归。 二、回归方程 在散点图中,对于每一个确定的x值,y的值不是唯一的,而是符合一定概率分布的随机变量。如何判断两个变量之间存在相关关系?要看对应不同的x,y的概率分布是否相同/y的总体均值是否相等。 在x=xi的条件下,yi的均值记作E(yi),如果它是x的函数,E(yi) =f(xi),即回归方程,就表示y和x之间存在相关关系,回归方程就是研究自变量不同取值时,因变量y的平均值的变化。当y的平均值和x呈现线性关系时,称作线性回归方程,只有一个自变量就是一元线性回归方程。 一元线性回归方程表达式:E(y i )= α+βx i ,其中α称为常数,β称为回

SPSS回归分析过程详解

SPSS回归分析过程详解 一、相关分析 在医学中经常要遇到分析两个或多个变量间关系的的密切程度,需要用相关分析实现。SPSS的相关分析功能被集中在Statistics菜单的Correlate子菜单中,包括以下三个过程: Bivariate过程此过程用于进行两个/多个变量间的参数/非参数相关分析,如果是多个变量,则给出两两相关的分析结果。这是Correlate子菜单中最为常用的一个过程,实际上我们对他的使用可能占到相关分析的95%以上。下面的讲述也以该过程为主。 Partial过程如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数,这种分析思想和协方差分析非常类似。Partial过程就是专门进行偏相关分析的。Distances过程调用此过程可对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析,前者可用于检测观测值的接近程度,后者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非常少。 Bivariate过程 一、界面说明 【Variables框】 用于选入需要进行相关分析的变量,至少需要选入两个。 【Correlation Coefficients复选框组】

用于选择需要计算的相关分析指标,有: Pearson复选框选择进行积距相关分析,即最常用的参数相关分析 Kendall's tau-b复选框计算Kendall's等级相关系数 Spearman复选框计算Spearman相关系数,即最常用的非参数相关分析(秩相关)【Test of Significance单选框组】 用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。 【Flag significant correlations】 用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时P<0.05的系数值旁会标记一个星号,P<0.01的则标记两个星号。 【Options钮】 弹出Options对话框,选择需要计算的描述统计量和统计分析: Statistics复选框组可选的描述统计量。它们是: Means and standard deviations每个变量的均数和标准差 Cross-product deviations and covariances各对变量的交叉积和以及协方差阵Missing Values单选框组定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。 线性回归分析 线性回归分析是处理两个及两个以上变量间线性依存关系的统计方法。回归分

回归分析方法应用实例

4、回归分析方法应用实例 在制定运动员选材标准时,理论上要求先对不同年龄的运动员,各测试一个较大的样本,然后,计算出各年龄的平均数、标准差,再来制定标准。 但是,在实际工作中,有时某些年龄组不能测到较大的样本。这时能不能使用统计的方法,进行处理呢? 我们遇到一个实例。测得45名11至18岁男田径运动员的立定三级跳远数据。其各年龄组人数分布如表一。由于受到许多客观因素的限制,一时无法再扩大样本,因此决定使用统计方法进行处理。 第一步,首先用原始数据做散点图,并通过添加趋势线,看数据的变化趋势是否符合随年龄增长而变化的趋势,决定能否使用回归方程制定标准。如果趋势线不符合随年龄增长而变化的趋势,或者相关程度很差就不能用了。 本例作出的散点图如图1,图上用一元回归方法添加趋势线,并计算出年龄和立定三级跳远的: 一元回归方程:Y=2.5836+0.3392 X 相关系数 r=0.7945(P<0.01) 由于从趋势线可以看出,立定三级跳远的成绩是随年龄增加而逐渐增加,符合青少年的发育特点。而且, 相关系数r=0.7945,呈高度相关。因此,可以认为计算出的一元回归方程,反映了11至18岁男运动员年龄和立定三级跳远成绩的线性关系。决定用一元回归方程来制定各年龄组的标准。 第二步,用一元回归方程:Y=2.5836+0.3392 X 推算出各年龄的立定三级跳远回归值,作为各年龄组的第2等标准。 第三步,用45人的立定三级跳远数据计算出标准差为:0.8271。由于在正态分布下,如把平均数作为标准约有50%的人可达到标准,用平均数-0.25标准差制定标准则约有60%的人可达到,用平均数+0.25、+0.52、+0.84标准差制定标准约有40%、30%、20%的人可达到标准。本例用各年龄组回归值-0.25标准差、+0.25标准差、+0.52标准差、+0.84标准差计算出1至5等标准如表2、图2。

第9章方差分析与回归分析习题答案

第九章 方差分析与回归分析习题参考答案 1. 为研究不同品种对某种果树产量的影响,进行试验,得试验结果(产量)如下表,试分析果树品种对产量是否有显着影响. (0.05(2,9) 4.26F =,0.01(2,9) 8.02F =) 34 2 11 1310ij i j x ===∑∑ 解:r=3, 12444n n 321=++=++=n n , T=120 ,120012 1202 2===n T C 3 4 2 211 131********(1)1110110T ij T i j SS x C S n s ===-=-==-=?=∑∑或S 322.1112721200724(31)429724A i A A i SS T C S s ==-=-==-=??=∑或S 3872110=-=-=A T e SS SS SS 计算统计值722 8.53, 389 A A A e e SS f F SS f = =≈…… 方差分析表 结论:由于0.018.53(2,9)8.02, A F F ≈>=故果树品种对产量有特别显着影响. 2. ..180x = 43 2 11 2804ij i j x ===∑∑ 解:22..4,3,12,180122700l m n lm C x n =======

43 2211 28042700104(1)119.45 104T ij T i j S x C S n s ===-=-==-=?≈∑∑&&或 422 .1 12790270090(1)331090 3A i A A i S x C S m l s ==-=-==-≈??=∑或322 .1 12710.5270010.5(1)8 1.312510.5 4B j B B j S x C S l m s ==-=-==-≈?=∑或1049010.5 3.5e T A B S S S S =--=--= 计算统计值90310.52 51.43,93.56 3.56 A A B B A B e e e e S f S f F F S f S f = =≈==≈ 结论: 由以上方差分析知,进器对火箭的射程有特别显着影响;燃料对火箭的射程有显着影响. 31,58,147,112,410.5,i i i i i i x y x y x y =====(1)求需求量Y 与价格x 之间 的线性回归方程; (2)计算样本相关系数; (3)用F 检验法作线性回归关系显着性检验. ??? ? ??====56.10)9,1(,26.11)8,1(12.5)9,1(,32.5)8,1(01.001.005.005.0F F F F 解:引入记号 10, 3.1, 5.8n x y === ()()14710 3.1 5.832.8xy i i i i l x x y y x y nx y =--=-=-??=-∑∑ 2 222()11210 3.115.9xx i i l x x x nx =-=-=-?=∑∑ 22 ()(1)9 1.766715.9xx i x l x x n s =-=-≈?≈∑或 2 222()410.510 5.874.1yy i i l y y y ny =-=-=-?=∑∑ 22()(1)98.233374.1yy i y l y y n s =-=-≈?≈∑或 ?(1) b Q 32.8??2.06, 5.8 2.06 3.112.1915.9xy xx l a y bx l -==≈-=-≈+?≈ ∴需求量Y 与价格x 之间的线性回归方程为 ?y ??12.19 2.06a bx x =+≈-

SPSS多元回归分析报告实例

多元回归分析 在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析。可以建立因变量y与各自变量x j(j=1,2,3,…,n)之间的多元线性回归模型: 其中:b0是回归常数;b k(k=1,2,3,…,n)是回归参数;e是随机误差。 多元回归在病虫预报中的应用实例: 某地区病虫测报站用相关系数法选取了以下4个预报因子;x1为最多连续10天诱蛾量(头);x2为4月上、中旬百束小谷草把累计落卵量(块);x3为4月中旬降水量(毫米),x4为4月中旬雨日(天);预报一代粘虫幼虫发生量y(头/m2)。分级别数值列成表2-1。 预报量y:每平方米幼虫0~10头为1级,11~20头为2级,21~40头为3级,40头以上为4级。 预报因子:x1诱蛾量0~300头为l级,301~600头为2级,601~1000头为3级,1000头以上为4级;x2卵量0~150块为1级,15l~300块为2级,301~550块为3级,550块以上为4级;x3降水量0~10.0毫米为1级,10.1~13.2毫米为2级,13.3~17.0毫米为3级,17.0毫米以上为4级;x4雨日0~2天为1级,3~4天为2级,5天为3级,6天或6天以上为4级。 表2-1 x1 x2 x3 x4 y 年蛾量级别卵量级别降水量级别雨日级别幼虫密 度 级别 1960 1022 4 112 1 4.3 1 2 1 10 1 1961 300 1 440 3 0.1 1 1 1 4 1 1962 699 3 67 1 7.5 1 1 1 9 1 1963 1876 4 675 4 17.1 4 7 4 55 4 1965 43 1 80 1 1.9 1 2 1 1 1 1966 422 2 20 1 0 1 0 1 3 1 1967 806 3 510 3 11.8 2 3 2 28 3

第九章---spss的回归分析

第九章spss的回归分析 1、利用习题二第4题的数据,任意选择两门课程成绩作为解释变量和被解释变量,利用SPSS 提供的绘制散点图功能进行一元线性回归分析。请绘制全部样本以及不同性别下两门课程成绩的散点图,并在图上绘制三条回归直线,其中,第一条针对全体样本,第二和第三条分别针对男生样本和女生样本,并对各回归直线的拟和效果进行评价。 选择fore和phy两门成绩做散点图 步骤:图形→旧对话框→散点图→简单散点图→定义→将phy导入X轴、将fore导入Y 轴,将sex导入设置标记→确定 图标剪辑器内点击元素菜单→选择总计拟合线→选择线性→确定→再次选择元素菜单→点击子组拟合线→选择线性→确定 分析:如上图所示,通过散点图,被解释变量y与fore有一定的线性相关关系。 2、线性回归分析与相关性回归分析的关系是怎样的? 线性回归分析是相关性回归分析的一种,研究的是一个变量的增加或减少会不会引起另一个变量的增加或者减少。

3、为什么需要对线性回归方程进行统计检验?一般需要对哪些方面进行检验? 线性回归方程能够较好地反映被解释变量和解释变量之间的统计关系的前提是被解释变量和解释变量之间确实存在显著的线性关系。 回归方程的显著性检验正是要检验被解释变量和解释变量之间的线性关系是否显著,用线性模型来描述他们之间的关系是否恰当。一般包括回归系数的检验,残差分析等。 4、SPSS多元线性回归分析中提供了哪几种解释变量筛选策略? 包括向前筛选策略、向后筛选策略和逐步筛选策略。 5、先收集到若干年粮食总产量以及播种面积、使用化肥量、农业劳动人数等数据,请利用建立多元线性回归方程,分析影响粮食总产量的主要因素。数据文件名为“粮食总产量.sav”。 步骤:分析→回归→线性→粮食总产量导入因变量、其余变量导入自变量→确定 结果如图: Variables Entered/Removed b Model Variables Entered Variables Removed Method 1 农业劳动者人数(百万人), 总播种面积(万公顷), 风灾 面积比例(%), 粮食播种面 积(万公顷), 施用化肥量 (kg/公顷), 年份a . Enter a. All requested variables entered. b. Dependent Variable: 粮食总产量(y万吨) ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 2.025E9 6 3.375E8 414.944 .000a Residual 2.278E7 28 813478.405 Total 2.048E9 34 a. Predictors: (Constant), 农业劳动者人数(百万人), 总播种面积(万公顷), 风灾面积比例(%), 粮食播种面积(万公顷), 施用化肥量(kg/公顷), 年份 b. Dependent Variable: 粮食总产量(y万吨) Coefficients a Model Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error Beta

应用回归分析_第3章课后习题参考答案

第3章 多元线性回归 思考与练习参考答案 见教材P64-65 讨论样本容量n 与自变量个数p 的关系,它们对模型的参数估计有何影响? 答:在多元线性回归模型中,样本容量n 与自变量个数p 的关系是:n>>p 。如果n<=p 对模型的参数估计会带来很严重的影响。因为: 1. 在多元线性回归模型中,有p+1个待估参数β,所以样本容量的个数应该大于解释变量的个数,否则参数无法估计。 2. 解释变量X 是确定性变量,要求()1rank p n =+

一般来说,R2越接近1,即R2取值越大,说明回归拟合的效果越好。但由于R2的大小与样本容量n和自变量个数p有关,当n与p的值接近时,R2容易接近1,说明R2中隐含着一些虚假成分。而当样本容量n较小,自变量个数p较大时,尽管R2很大,但参数估计效果很不稳定。所以该题中不能仅仅因为R2很大而断定回归方程很理想。如何正确理解回归方程显著性检验拒绝H0,接受H0? 答:一般来说,当接受假设H0时,认为在给定的显著性水平α之下,自变量x1,x2,…,x p对因变量y无显著性影响,则通过x1,x2,…,x p 去推断y就无多大意义。此时,一方面可能该问题本应该用非线性模型描述,我们误用线性模型描述了,使得自变量对因变量无显著影响;另一方面可能是在考虑自变量时,由于认识上的局限性把一些影响因变量y的自变量漏掉了,这就从两个方面提醒我们去重新考虑建模问题。 当拒绝H0时,也不能过于相信该检验,认为该模型已经很完美。其实当拒绝H时,我们只能认为该回归模型在一定程度上说明了自变量x1,x2,…,x p与因变量y的线性关系。因为这时仍不能排除我们漏掉了一些重要自变量。此检验只能用于辅助性的,事后验证性的目的。(详细内容可参考课本P95~P96评注。) 数据中心化和标准化在回归分析中的意义是什么? 答:原始数据由于自变量的单位往往不同,会给分析带来一定的困难;又由于设计的数据量较大,可能会以为舍入误差而使得计算结果并不理想。中心化和标准化回归系数有利于消除由于量纲不同、数量级不

多元线性回归实例分析

SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为: 毫无疑问,多元线性回归方程应该为: 上图中的x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中:代表随机误差,其中随机误差分为:可解释的误差和不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样) 1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。 2:无偏性假设,即指:期望值为0 3:同共方差性假设,即指,所有的随机误差变量方差都相等 4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示:

点击“分析”——回归——线性——进入如下图所示的界面:

将“销售量”作为“因变量”拖入因变量框内,将“车长,车宽,耗油率,车净重等10个自变量拖入自变量框内,如上图所示,在“方法”旁边,选择“逐步”,当然,你也可以选择其它的方式,如果你选择“进入”默认的方式,在分析结果中,将会得到如下图所示的结果:(所有的自变量,都会强行进入) 如果你选择“逐步”这个方法,将会得到如下图所示的结果:(将会根据预先设定的“F统计量的概率值进行筛选,最先进入回归方程的“自变量”应该是跟“因变量”关系最为密切,贡献最大的,如下图可以看出,车的价格和车轴跟因变量关系最为密切,符合判断条件的概率值必须小于0.05,当概率值大于等于0.1时将会被剔除)

第九章相关与回归分析答案如下

第九章相关与回归分析答案如下 *9-1 在相关分析中,对两个变量的要求是(A)。(单选题) A. 都是随机变量 B. 都不是随机变量 C. 其中一个是随机变量,一个是常数。 D. 都是常数。 *9-2 在建立与评价了一个回归模型以后,我们可以(D )。(单选题) A. 估计未来所需要样本的容量。 B. 计算相关系数与判定系数。 C. 以给定因变量的值估计自变量的值。 D. 以给定自变量的值估计因变量的值。 9-3 对两变量的散点图拟合最好的回归线必须满足一个基本条件是(D )。(单选题) 最小 y2 最小 yii y i 最大B. y i 最大D. y2 yi?i A. C. y yi?i *9-4 如果某地区工人的日工资收入(元)随劳动生产率(千元/人时)的变动符合简单线性方程Y=60+90X,请说明下列的判断中正确的有(AC)(多选) A.当劳动生产率为1千元/人时,估计日工资为150元;B.劳动生产率每提高1千元/人时,则日工资一定提高90元;C.劳动生产率每降低0.5千元/人时,则日工资平均减少45元;D.当日工资为240元时,劳动生产率可能达到2千元/人。 *9-5 变量之间的关系按相关程度可分为(B CD )(多选) A.正相关B.不相关C.完全相关D.不完全相关 *9-6 简单线性回归分析的特点是:(AB )。(多选题) A. 两个变量之间不是对等关系 B. 回归系数有正负号 C. 两个变量都是随机的 D. 利用一个方程两个变量可以互相推算E.有可能求出两个回归方程 *9-7 一元线性回归方程中的回归系数b可以表示为(BC)。(多选题) A. 两个变量之间相关关系的密切程度 B. 两个变量之间相关关系的方向 C. 当自变量增减一个单位时,因变量平均增减的量 D. 当因变量增减一个单位时,自变量平均增减的量E.回归方程的拟合优度 *9-8 回归分析和相关分析的关系是(ABE )。(多选题) A. 回归分析可用于估计和预测 B. 相关分析是研究变量之间的相关关系的密切程度 C. 回归分析中自变量和因变量可以互相推导并进行预测 D. 相关分析需要区分自变量和因变量E.相关分析是回归分析的基础

统计学原理第九章(相关与回归)习题答案

第九章相关与回归 一.判断题部分 题目1:负相关指的是因素标志与结果标志的数量变动方向是下降的。() 答案:× 题目2:相关系数为+1时,说明两变量完全相关;相关系数为-1时,说明两个变量不相关。() 答案:√ 题目3:只有当相关系数接近+1时,才能说明两变量之间存在高度相关关系。() 答案:× 题目4:若变量x的值增加时,变量y的值也增加,说明x与y之间存在正相关关系;若变量x的值减少时,y变量的值也减少,说明x与y之间存在负相关关系。() 答案:× 题目5:回归系数和相关系数都可以用来判断现象之间相关的密切程度。() 答案:× 题目6:根据建立的直线回归方程,不能判断出两个变量之间相关的密切程度。() 答案:√ 题目7:回归系数既可以用来判断两个变量相关的方向,也可以用来说明两个变量相关的密切程度。() 答案:×

题目8:在任何相关条件下,都可以用相关系数说明变量之间相关的密切程度。() 答案:× 题目9:产品产量随生产用固定资产价值的减少而减少,说明两个变量之间存在正相关关系。() 答案:√ 题目10:计算相关系数的两个变量,要求一个是随机变量,另一个是可控制的量。() 答案:× 题目11:完全相关即是函数关系,其相关系数为±1。() 答案:√ 题目12:估计标准误是说明回归方程代表性大小的统计分析指标,指标数值越大,说明回归方程的代表性越高。() 答案× 二.单项选择题部分 题目1:当自变量的数值确定后,因变量的数值也随之完全确定,这种关系属于()。 A.相关关系 B.函数关系 C.回归关系 D.随机关系 答案:B 题目2:现象之间的相互关系可以归纳为两种类型,即()。 A.相关关系和函数关系 B.相关关系和因果关系

应用回归分析,第7章课后习题参考答案

第7章岭回归 思考与练习参考答案 7.1 岭回归估计是在什么情况下提出的? 答:当自变量间存在复共线性时,|X’X|≈0,回归系数估计的方差就很大,估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。 7.2岭回归的定义及统计思想是什么? 答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X’X)-1为奇异时,给X’X加上一个正常数矩阵 D, 那么X’X+D接近奇异的程度就会比X′X接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足blue。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。 7.3 选择岭参数k有哪几种方法? 答:最优 是依赖于未知参数 和 的,几种常见的选择方法是: 岭迹法:选择 的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多;

方差扩大因子法: ,其对角线元 是岭估计的方差扩大因子。要让 ; 残差平方和:满足 成立的最大的 值。 7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是: 1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量; 2. 当k值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k的增加迅速趋近于零。像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除; 3. 去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。

应用回归分析第三章课后习题整理

y1 1 x11 x12 x1p 0 1 3.1 y2 1 x21 x22 x2p 1 + 2 即y=x + yn 1 xn1 xn2 xnp p n 基本假定 (1) 解释变量x1,x2…,xp 是确定性变量,不是随机变量,且要求 rank(X)=p+1

n 注 tr(H) h 1 3.4不能断定这个方程一定很理想,因为样本决定系数与回归方程中 自变量的数目以及样本量n 有关,当样本量个数n 太小,而自变量又较 多,使样本量与自变量的个数接近时, R 2易接近1,其中隐藏一些虚 假成分。 3.5当接受H o 时,认定在给定的显著性水平 下,自变量x1,x2, xp 对因变量y 无显著影响,于是通过x1,x2, xp 去推断y 也就无多大意 义,在这种情况下,一方面可能这个问题本来应该用非线性模型去描 述,而误用了线性模型,使得自变量对因变量无显著影响;另一方面 可能是在考虑自变量时,把影响因变量y 的自变量漏掉了,可以重新 考虑建模问题。 当拒绝H o 时,我们也不能过于相信这个检验,认为这个回归模型 已经完美了,当拒绝H o 时,我们只能认为这个模型在一定程度上说明 了自变量x1,x2, xp 与自变量y 的线性关系,这时仍不能排除排除我 们漏掉了一些重要的自变量。 3.6中心化经验回归方程的常数项为0,回归方程只包含p 个参数估计 值1, 2, p 比一般的经验回归方程减少了一个未知参数,在变量较 SSE (y y)2 e12 e22 1 2 1 E( ) E( - SSE* - n p 1 n p n 2 [D(e) (E(e ))2 ] 1 n (1 1 n 2 en n E( e 1 1 n p 1 1 n p 1 1 "1 1 n p 1 J (n D(e) 1 (p 1)) 1_ p 1 1 1 n p 1 2 2 n E(e 2 ) (1 h ) 2 1

回归分析的基本思想及其初步应用

第一章:统计案例 回归分析的基本思想及其初步应用实例 为172cm的女大学生的体重. 解:由于问题中要求根据身高预报体重,因此选自变量x,为因变量. (1)做散点图: 从散点图可以看出和有比较好的 相关关系. (2) = = 所以 于是得到回归直线的方程为 (3)身高为172cm的女大学生,由回归方程可以预报其体重为 新知:用相关系数r可衡量两个变量之间关系.计算公式为 r = r>0, 相关, r<0 相关; 相关系数的绝对值越接近于1,两个变量的线性相关关系,它们的散点图越接近; ,两个变量有关系. x y 8 1 i i i x y = = ∑ 8 2 1 i i x = = ∑ 8 1 82 2 1 8 8 i i i i i x y x y b x x = = - == - ∑ ∑ a y bx =-≈ y= r>

例1某班5名学生的数学和物理成绩如下表: (2) 求物理成绩y 对数学成绩x 的回归直线方程; (3) 该班某学生数学成绩为96,试预测其物理成绩; 练习1:下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗 (吨标准煤)的几组对照数据 (1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值) x y y x y bx a =+3 2.543546 4.566.5?+?+?+?=

相关文档
相关文档 最新文档