文档库 最新最全的文档下载
当前位置:文档库 › 第6章直线回归与相关

第6章直线回归与相关

第6章直线回归与相关
第6章直线回归与相关

第6章直线回归与相关

教学目标

1.正确理解回归、相关分析的意义及有关概念

2.掌握直线回归、相关分析的方法

3.掌握常见的可直线化曲线回归分析方法

1 回归与相关的概念

在自然界中,各种变量间的关系大致可分为两大类:一类是确定性关系,又称函数关系,即当变量x 的值取定之后,变量y有唯一确定的值与之对应。例如,当食品的销售价格a不变时,销售量x与销售额y之间就有函数关系y=ax,当x的值取定后,y的值就完全确定了。另一类是非确定性关系,当变量x的值取定后,y有若干种可能取值。例如,食品的价格y与市场需求量x之间的关系,当需求量增多时价格上涨,需求量减少时价格下跌,但价格y与需求量x之间并不完全确定。当x的值确定后,y却是一个随机变量,即他们之间既有密切的关系,又无法由一个变量的取值精确地定出另一变量的值。在一定范围内,对一个变量的任一数值(x i),虽然没有另一个变量的一个确定数值y i与之对应,但是却有一个特定的y i的条件概率分布与之对应,这种变量之间的不确定性关系,称为统计相关(relationship)关系。

需要指出的是,函数与相关虽是两种不同类型的变量关系,但他们之间并无严格的界限。这是由于测量误差的影响,使得函数关系也表现出某种程度的不确定性;另一方面,从一定的统计意义上讲,两个相关变量间又可能存在着某种确定的内在规律。

存在相关关系的变量称为相关变量。这类变量间的关系是统计学中回归分析(regression analysis)与相关分析(correlation analysis)所要讨论的问题。变量间的关系是十分复杂的,不同的变量间往往存在着不同的关系。本章仅讨论两个变量间的关系,变量间更复杂的关系将在多元回归与相关分析中介绍。统计学中对于x和y两个变量间的关系有两种理论模型,即回归模型与相关模型。在前者x和y是因果关系,而后者x和y是平行变化的关系。

回归分析是对符合回归理论模型的资料进行统计分析的一种数理统计方法。它通过对大量观测数据的统计分析,揭示出相关变量间的内在规律,主要包括:

(1)找出变量间相关关系的近似数学表达式——回归方程;

(2)检验回归方程的效果是否显著;

(3)由一个或几个变量的值,通过回归方程来预测或控制另一变量的值。

在回归分析中,把可以控制或能精确观测的变量称为自变量(independent variable),常用x表示;把另一与x有密切关系,但取值却具有随机性的变量称为因变量(dependent variable),亦叫依变量,常用y表示。

对符合相关理论模型的资料进行统计分析称为相关分析,这一分析是要测定两个变量在相关关系上的密切程度和性质。在实际工作中,回归和相关并不能截然分开。一是因为两变量存在回归关系必然有相关,二是因为由回归可获得相关的一些重要信息,由相关也可获得回归的一些重要信息。

回归分析和相关分析的类型很多。包括一个依变量一个自变量的回归分析称为一元回归分析,它又分为直线回归分析和曲线回归分析两类;包括一个依变量和多个自变量的回归分析为多元回归分析,它又分为多元线性回归分析,曲面(非线性)回归分析两类。对两个变量的直线关系进行相关分析为直线相关分析;对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关为复相关分析;研究在其余变量保持

图6-1 x, y 数对散点图

不变的情况下两个相关变量间的线性相关为偏相关分析,本章仅介绍两个变量间的直线回归、能直线化的曲线回归及直线相关分析。

2 直线回归

2.1 直线回归方程的建立

设x 是一个普通变量(自变量),y 是一个可观测其值的随机变量(依变量),设对(x ,y )作了n 次观测,得下表,试求出y 与x 间相互关系的近似的数学表达式。

表6-1 (x ,y )数对

x x 1 x 2 x 3 … x n y

y 1

y 2

y 3

y n

2.1.1 数学模型

为了看出变量x 与y 间的关系,一种常用的,也是较直观的办法是在直角坐标系中描出点(,)i i x y 的图形,称为散点图(scatter diagram),如图6-1。

如果点(,)i i x y (1,2,,i n = )呈直线趋势分布,我们自然会想到x 与y 间存在着一种近似的直线关系,即有模型:

0i i i y x ββε=++ (6-1)

其中,0β,β是未知回归参数,i ε是相互独立的随机误差,它是一个随机变量,且设2(0,)i N εσ 。这个模型可理解为,对于自变量x 的每一个特定的取值i x ,y 都有一个服从正态分布的取值范围与之对应,这个正态分布的期望是

0i x ββ+,方差是2σ。

2.1.2 参数0β,β的估计

注意到20(,)y N x ββσ+ ,如果我们能求得ββ0、的估计值a b 、,则对于给定的x ,()E y 的估计

值为a bx +,记为?y

,而方程 bx a y

+=? (6-2) 称为y 对x 的直线回归方程(linear regression equation),其图形称为回归直线。

那么,怎样来估计参数αβ、呢?一种自然的想法是使图6-1中的回归直线bx a y

+=?尽可能地靠近点(,)i i x y (1,2,,i n = ),即应使离回归平方和(sum of squares due to deviation from regression) 亦称剩余平方

和(residual sum of squares )

2

21

1

??()()n

n

i i i i i Q y y

y a bx ===-=--∑∑ (6-3) 达到最小,这就是最小二乘(平方)(least squares)法的原理。

由求二元函数极值的方法,只须求Q 关于a b 、的偏导数,并令其等于零,即

???

????=---=??=---=??∑∑==n

i i i i n

i i i x bx a y b Q bx a y a Q

11

0)(20)(2 (6-4)

经整理得关于a b 、的线性方程组:

11

21

11n n i i i i n n n

i i i i i i i na x b y x a x b x y =====?

+=????+=??∑∑∑∑∑ (6-5) 称(6-5)式为正规方程组(normal equations)。解此方程组即得:

x b y a -= (6-6)

1

2

1

()()

()n

i

i xy i n

x

i

i x

x y y SP b SS x

x ==--=

=

-∑∑ (6-7)

a b 、分别称为αβ、的最小二乘估计。

(6-7)式中,xy SP 称为,x y 变量的离均差乘积和,简称乘积和(sum of products);x SS 为自变量x 的离均差平方和。关于x SS 的计算我们早已熟悉,xy SP 的计算常用(6-8)式。

1

1

1

1

()()n n

i i

n n

i i xy i i i i i i x y

SP x x y y x y n

=====--=-

∑∑∑∑ (6-8)

因为Q 是a b 、的非负二次型,其极小值必存在,由(6-6)、(6-7)式求得的a b 、就是函数(,)Q a b 的极小值点(这里也是最小值点),从而可得回归方程(6-2)。

若将x b y a -=代入(6-2),则可得回归方程的另一形式为:

)(?x x b y y

-+= (6-9) 这里a 称为回归截距(regression intercept ),它是0x =时?y

的值,通常其专业意义并不明显;b 称为回归系数(regression coefficient ),是回归直线的斜率(slope )。b 表示当x 变化一个单位时,依变量y 平均变化的数量。有时为了强调b 是依变量y 对自变量x 的回归系数,将b 表示为yx b 。

显然,由上述方法所确定的回归直线具有以下特性:

(1)离回归的和等于零,即1

?()0n

i i i y y

=-=∑;

(2)离回归平方和最小,即21

?()n

i i i y y

=-∑最小; (3)回归直线通过散点图的几何重心(,)x y 。

2.1.3 计算方法与实例

【例6-1】 设某食品感官评定时,测得食品甜度与蔗糖质量分数的关系如表6-2所示,试求y 对x 的直线回归方程。

表6-2 某食品甜度与蔗糖质量分数

蔗糖质量分数x (%) 1.0 3.0 4.0 5.5 7.0 8.0 9.5 甜 度 y

15.0

18.0

19.0

21.0

22.6

23.8

26.0

将表6-2中的数值在直角坐标中描出,可以看到7个点大致呈一条直线,如图6-2。

列表计算如表6-3所示:

表6-3 一元回归计算表

序号 x x 2 y y 2 xy 1 1.0 1.00 15.0 225.00 15.0 2 3.0 9.00 18.0 324.00 54.0 3 4.0 16.00 19.0 361.00 76.0 4 5.5 30.25 21.0 441.00 115.5 5 7.0 49.00 22.6 510.76 158.2 6 8.0 64.00 23.8 566.44 190.4 7 9.5 90.25 26.0 676.00 247.0 ∑

38.0

259.50

145.4

3104.20

856.1

这里n =7,故

4286.50.38711=?==

∑i x n x 7714.204.1457

1

1=?==∑i y n y

图6-2 食品甜度与蔗糖质量分数的关系

n

x x SS i i

x 2

2)(∑∑-

==259.5-7

0.382

=53.2143

n y x y x SP i i i i xy ∑∑-

=∑=856.1-7

7

.14538?=66.7857 从而有

2550.12143

.537857

.66==

=

x

xy SS SP b

=-=x b y a 20.7714-1.2550×5.4286=13.9585 所求直线回归方程为

?13.9585 1.2550y

x =+ 此外,由表6-3还可以求得依变量y 的平方和

0343.8474.14520.3104)(221

2

=-=∑-=∑=n y y SS i n

i i y

它将在下面的显著性检验中用到。

2.2 直线回归的假设检验

前面,我们在假定(x i ,y i )满足线性模型(6-1)的条件下,求得了回归方程bx a y

+=?。问题是这个假设是否正确?即变量y 与x 之间是否确有线性关系?如果他们之间没有线性关系,那么(6-1)中的β应为0,这相当于在模型(6-1)中,需要检验假设H 0:β=0是否成立,可以采用F 检验和t 检验。

2.2.1 平方和与自由度的分解

2.2.1.1 平方和的分解

数据y 1,…,y n 之间的差异一般由两种原因引起,一是当y 与x 间确有线性关系时,由于x 的取值x 1,…,x n 的不同而引起y 的取值y 1,…,y n 的不同;另一方面,是由除去y 与x 间线性关系外的一切因素(包括x 对y 的非线性影响及其它一切未加控制的随机因素)引起的。

在理论上,有如下平方和分解定理: 若令

(6-10)

则有 R r y SS SS SS += 且 xy R bsp SS =

21

2121()?()?()n

y

i i n

r i i i n R i i SS y y SS y y

SS y y ===?=-??

?

=-??

?

=-??

∑∑∑(离回归平方和)

(总平方和)

(回归平方和)

证明:因为 ∑∑==-+-=-=

n

i i i i n

i i

y y y y

y y y

SS 1

21

2

)]?()?[()( ∑∑∑===--+-+-=n

i i i i n

i n i i i i y y y y y y y

y 1

1

1

2

2

)?)(?(2)?()?( 又因为 由,?i i bx a y

+=x b a y +=与(6-4)式,得

∑=--n

i i i i

y y y

y

1

)?)(?(∑=---=n

i i i i x b bx bx a y 1

))(( ∑∑==-----=n

i n

i i i i i i

bx a y x b x bx a y

b

1

1

)()(=0

所以 R r y SS SS SS += (6-11) 其中 ∑∑==+-+=-=

n

i i n i i R x b a bx a y y

SS 1

2

1

2

)]()[()?( 2

21

()n

i i b x x ==-∑xy x xy x

SP b

SS bSP SS ==

对于R SS 和r SS 的计算常用公式(6-12)和(6-13):

2R x xy SS b SS bSP == (6-12)

其中,2x b SS 直接反映出y 受x 的线性影响而产生的变异,而xy bSP 的算法则可推广到多元线性回归分析。

r y R SS SS SS =- (6-13)

2.2.1.2 自由度的分解

对于上述三种离差平方和相应的自由度可作以下分析:

y SS 是依变量y 的离均差平方和,应满足约束条件()0y y -=∑,故其自由度为1y df n =-。

r SS 就是(6-3)所示的离回归平方和Q ,它反映了包括x 对y 的非线性影响及其它一切未加控制的随机

因素而导致的y 的变异。由(6-5)式可知,r SS 应满足两个独立的线性约束条件?()0i i y y -=∑ 与

?()0i

i i y

y

x -=∑(亦即计算r SS 时用了a 和b 两个估计值),故其自由度为2r df n =-。 R SS 反映了由x 对y 的线性影响引起的数据i y 的波动,称为回归平方和(sum of squares of regression )。

根据自由度的可分解性,R SS 的自由度为(1)(2)1R y r df df df n n =-=---= (恰是自变量的个数)。实际上在线性回归分析中,回归自由度等于被估计的参数个数减1,亦即等于自变量的个数。

由上所述可知 y r R

d f d f d f =+

(6-14) 通常称R R R MS df SS =为回归均方(mean square of regression),称r r r MS df SS =为离回归均方(mean square due to deviation from regression)(即剩余均方)。

2.2.2 对回归方程的F 检验

F 检验实际上就是对回归关系的方差分析,其被检验的无效假设是00H β=:,备择假设是

0A H β≠:。检验统计量为F ,即

/1/(2)R R r r

SS MS F SS n MS =

=

- (6-15)

这个统计量服从自由度为121,2df df n ==-的F 分布。具体检验过程,通常需列出方差分析表进行。

对于【6-1】,我们有

n =7 y SS =84.0343

xy R bsp SS ==1.2550×66.7857=83.8161 R y r SS SS SS -==84.0343-83.8161=0.2182 由各自由度为 61=-=n df T ,1=R df ,52=-=n df r 得方差分析表6-4。

表6-4 方差分析表

变异来源 SS df MS F F 0.01 回归 83.8161 1 83.8161 1922.39**

16.26

离回归 0.2182 5 0.0436

总变异

84.0343

6

由此可知,回归方程y

?=13.9585+1.2550x 具有统计学上极显著的意义,是有效的。 2.2.3 对回归系数的检验

对直线回归关系的检验也可通过对回归系数b 的t 检验进行。为此,先介绍回归系数b 的期望和方差。在模型(6-1)条件下,可以证明回归系数b 的期望和方差分别为

()b E b μβ== (6-16)

2

2()b x D b σσ== (6-17)

对于2b σ,如果2σ未知,则用方差分析表中的离回归均方代之求得2b σ的估计值2

b S 。即

2

b r x S MS SS = (6-18)

由2b σ或2

b S 可知,样本回归系数的变异度不仅取决于误差方差2σ的大小,也取决于自变量x 的变异程

度。如果自变量x 的变异度大,即取值分散一些,则回归系数的变异就会小一些,亦即会稳定一些,由回

归方程所估计出的值就会精确一些。反之,由回归方程所估计出的值的精确性就差一些。2b S (或2

b σ)的

算术根称为回归系数标准误(standard error of regression coefficient),即

b S == (6-19)

对回归系数t 检验的假设和检验统计量为

假设: 000A H H ββ=≠:,:

检验统计量: b b

b b

t S S β-=

= (6-20) 这个统计量服从自由度为2n -的t 分布。

对于【例6-1】我们有

0.0286b S ===

1.255043.881b t b S **===

因为0.01(5)43.881 4.032t t =>=,所以b 与0差异极显著,否定无效假设,结论与前面的F 检验相同。比较这里的t 值与前面的F 值,容易看出t 2=F ,因而在直线回归分析中这两种检验方法是等加的。

2.2.4 对回归截距的检验

依变量对自变量的回归关系是通过回归系数来体现的,截距的大小对回归没有影响。当截距为0时,表示回归直线通过原点(0,0)。我们有时需要检验回归直线是否通过原点,即对0β是否为0进行检验,这可以利用t 检验进行检验、,为此需要先求出截距a 的期望和方差。不难证明:

0()a E a μβ== (6-21)

22

2

1()a

x x D a n SS σσ??

==+???

? (6-22)

同样,如果2σ未知,用方差分析表中的离回归均方代之求得2a σ的估计值2

a S 。即

221a

r x x S MS n SS ??

=+????

(6-23)

2a

S (或2a σ)的算术根称为回归截距标准误(standard error of regression intercept ),即

a S =

(6-24)

对回归截距进行t 检验的假设和检验统计量为

假设: 00,A H H ββ=≠00::0 检验统计量: 0a a

a a t S S β-=

= (6-25) 这个检验统计量服从自由度为2n -的t 分布。

对于【例6-1】我们有

0.1743a S ===

13.95850.174380.083a t a S ===

因为0.01(5)80.083 4.032t t =>=,所以a 与0差异极显著,否定无效假设。

2.3 回归方程的拟合度与偏离度

通过对所建立直线回归方程的假设检验即使是显著或极显著也只是说明x y 、两变量间存在一定的直线关系,但没有明确指出两者直线关系的密切程度,亦即没有对所建立的直线回归方程的好坏作出适当评价。回归分析中,对回归方程主要从拟合度和偏离度两个方面评价。

2.3.1 回归方程的拟合度

建立回归方程的过程叫拟合。回归方程是根据最小二乘原理(使离回归平方和最小)建立的,对于特定资料所得到的回归方程能够满足使离回归平方和最小的要求。不过我们应当明确,由不同资料所得到的回归方程的拟合度是有好坏之分的。如果资料中各散点的分布紧密围绕于一条直线,说明两变量之间的直线关系本来就紧密,此时所配合的回归方程的拟合度自然就好;反之,如果资料中各散点的分布比较分散,说明两变量之间的直线关系本来就松散,此时所配合的回归方程的拟合度自然就差。因此,我们需要一个指标来度量回归方程拟合度的好坏。这个指标就是决定系数(coefficient of determination )。其定义是

22()xy

xy

xy xy x R

y y y x y

SP SP bSP SP SS SS r SS SS SS SS SS ====

(6-26) 显然,决定系数等于在依变量的变异中由自变量的影响而产生的变异所占的比例。这个比例越大,说

明自变量对依变量的影响也越大,用所得的回归方程进行估计或预测的效果也就越好。由(6-26)式容易看出

20101r

y

SS r SS ∴ ≤

≤≤≤

即决定系数的取值范围在[0,1]之间。

对于【例6-1】,决定系数为

283.81610.9974R y r SS SS ===

2.3.2 直线回归的偏离度估计

离回归均方r MS 是模型(6-1)中2σ的估计值。离回归均方的算术根叫离回归标准误(standard error due to deviation from regression)(亦称回归方程的估计标准误),记为yx S ,即

yx S =

= (6-27)

离回归标准误yx S 的大小表示了回归直线与实测点偏差的程度,即回归估测值y

?与实际观测值y 偏差的程度,于是我们把离回归标准误yx S 用来表示回归方程的偏离度。离回归标准误yx S 大表示回归方程偏离度大,yx S 小表示回归方程偏离度小。

对于【例6-1】,

0.2089yx S ====。

2.4 回归参数0β、β的区间估计

2.4.1 回归截距0β的区间估计

除了用a 作为总体回归截距0β的一个估计值外,还可对0β进行区间估计,即求0β的置信区间。由于

0(2)()a n t a S t β-=-

所以

()0()1a P t a S t ααβα--=-≤≤

或 ()01a a P a t S a t S ααβα-+=-≤≤ 故0β的置信度为1α-的置信区间是

0a a a t S a t S ααβ-+≤≤ (6-29)

式中t α仍是t 分布(2df n =-)的两尾概率为α时的临界值。于是0β的置信度为1α-的置信区间的下限和上限分别为

12,a a L a t S L a t S αα=-=+

对于【例6-1】,取置信度10.95(0.05)αα-==,0.05(5) 2.571t =,13.9585a =,0.1743a S =置限分别为

1213.9585 2.5710.174313.510413.9585 2.5710.174314.4066

L L =-?==+?= 2.4.2 回归系数β的区间估计

除了用b 作为总体回归系数β的一个估计值外,也可对β进行区间估计,即求β的置信区间。由于

(2)()b n t b S t β-=-

所以

()()1b P t b S t ααβα--=-≤≤

或 ()1b b P b t S b t S ααβα-+=-≤≤

故β的置信度为1α-的置信区间是

b b b t S b t S ααβ-+≤≤ (6-28)

式中t α是t 分布(2df n =-)的两尾概率为α时的临界值。于是β的置信度为1α-的置信区间的下限和上限分别为

12,b b L b t S L b t S αα=-=+

对于【例6-1】,取置信度10.95(0.05)αα-==,0.05(5) 2.571t =, 1.2550,b =0.0286b S =置

分别为

12 1.2550 2.5710.0286 1.18151.2550 2.5710.0286 1.3285

L L =-?==+?=

2.5 两条回归直线的比较【注】

在实际研究工作中,有时需要对两条回归直线进行比较。两条回归直线的比较,主要包括二个内容:一是回归系数的比较,判断这两条回归直线是否平行;二是回归截距的比较,判断这两条回归直线与y 轴交点是否相同。若经比较,两个回归系数及回归截距差异均不显著,则可以认为这两条回归直线平行,且与y 轴交点相同,可将这两条回归直线合并为一条回归直线。

假设分别有y 关于x 的两个一元线性回归模型:

(1)(1)(1)(1)

0(2)(2)(2)(2)

0y x y x ββεββε

?=++?=++? (6-29) 其中,),0(~),,0(~2

2)2(21)

1(σεσε

N N 。

分别获得了x 与y 的n 1、n 2对观测值:

???? ?

?)1()1(2

)1(1)

1()1(2)

1(111n n y y y x x x , ???

? ??)2()2(2)2(1)

2()2(2)2(122n n y y y x x x 由观测值可以建立两个直线回归方程:

x

b a y

x b a y 22)

2(11)1(??+=+=

并已求得两个直线回归方程各自的:11,y x ;22,y x ;)1(x SS ,)

1(r SS ; )

2(x SS ,)

2(r SS 。

两个直线回归方程各自的离回归均方为(1)(1)1/(2)r r MS SS n =-、(2)(2)2/(2)r r MS SS n =-,分别为

2221σσ与的估计值。如果两个直线回归方程都显著或极显著的,下一步便可以考虑两者的比较问题。

两条回归直线比较的具体步骤如下:

(1)检验(1)r MS 与(2)r MS 是否有显著差异,用F 检验(两尾检验)。 F 检验的无效假设与备择假设为:

2

2210:σσ=H 2221:σσ≠A H

F 检验的计算公式为:

(1)

1122(2)

,2,2r r

MS F df n df n MS ==-=- (这里假定(1)r MS >(2)r MS ) (6-30)

若未否定0H ,表明两个离回归均方(1)r MS ,(2)r MS 差异不显著,可以认为2

1σ与2

2σ相同,此时将两个离回归均方(1)r MS ,(2)r MS 合并为共同的离回归均方r MS :

(1)(2)

1212(2)(2)4

r r r n MS n MS MS n n -+-=

+- (6-31) 共同的离回归标准误yx S 为:

yx S =

=

(6-32)

注意,2

1σ与2

2σ相同是进行两条回归直线的比较的前提条件,若经F 检验否定了2

22

10:σσ=H ,即两个离回归均方(1)r MS 和(2)r MS 差异显著,则不能进行两条回归直线的比较。

(2)检验1b 与2b 是否有显著差异,用t 检验。 无效假设与备择假设为:

)2()1(0:ββ=H )2()1(:ββ≠A H

计算公式为:

124t df n n ==+- (6-33)

(6-33)式中的yx S 为共同的离回归标准误;分母简记为12b b S -,叫做回归系数差数标准误。

若未否定0H ,表明两个回归系数b 1、b 2差异不显著,可以认为)1(β与)2(β相同,此时将两个回归系数b 1、b 2合并为共同的回归系数b :

)

2()1()

2(2)1(1x

x x

x SS SS SS b SS b b ++= (6-34) (3)检验a 1与a 2是否有显著差异,用t 检验。 无效假设与备择假设为:

)2(0)1(00:ββ=H )2(0)

1(0:ββ≠A H

计算公式为:

124t df n n =

=+- (6-35)

(6-35)式中的yx S 仍为共同的离回归标准误;分母简记为12a a S -,叫做回归截距差数标准误。

若未否定0H ,表明两个回归截距a 1、a 2差异不显著,可以认为)

1(0β与)

2(0β相同,此时将两个回归

截距a 1、a 2合并为共同的回归截距a :

x b y a -= (6-36)

其中,

2

12211n n x n x n x ++=

, 1122

12n y n y y n n +=+ (6-37)

【例6-2】 某试验研究变量x 和y 的关系,观测了两组试验数据,分别进行了直线回归分析,有关统计数如表6-5所示。对这两条回归直线进行比较。若两个回归系数b 1、b 2和两个回归截距a 1、a 2差异均不显著,建立共同的回归方程。

甲 试 验 乙 试 验 回归系数(b ) 1.140 1.074 回归截距(a ) -38.150 -31.150 样本容量(n ) 8 7 离回归均方(r MS ) 0.140 0.111 离回归自由度(d f ) 6 5 自变量平方和(x SS ) 257.875 162.000 自变量平均数(x ) 98.375 87.000 依变量平均数(

y )

74.000

62.286

(1) 检验(1)r MS 与(2)r MS 是否有显著差异 由(6-30)式,求得0.1400.111 1.261F ==。查两尾检验F 值表(附表9),98.6)5,6(05.0=F ,由于F =1.261<6.98,表明两个离回归均方(1)r MS ,(2)r MS 差异不显著,按(6-32)式将两个离回归均方(1)r MS ,(2)r MS 合并为共同的离回归均方r MS :

(82)

0.140(72)0.1110.1

27

874

r MS -?+-?=

=+- 共同的离回归标准误0.356yx S =

==。

(2)检验

1b 与2b 是否有显著差异 由(6-33)式,计算得

1.849

t =

=

由d f =11查t 值表,得201.2)11(05.0=t ,由于t =1.849<2.201,表明两个回归系数1b 与2b 差异不显著,利用(6-34)式求共同回归系数b :

1.140257.875 1.07416

2.000

1.115257.87516

2.000

b ?+?=

=+

(3)检验1a

与2a 是否有显著差异 由(6-35)式,求得

2.139t =

=-

由11df =查t 值表,得201.2)11(05.0=t ,由于201.2139.2<=t ,表明两个回归截距1a 与2a 差异不显著,利用(6-36)、(6-37)式求共同回归截距a :

874.0762.286898.375787.0

1.11535.2368787

a ?+??+?=

-?=-++

于是得到共同的回归方程 ?35.236 1.115y

x =-+。 【注】 本小节内容辑至:明道绪主编?高级生物统计?北京:中国农业出版社,2006。

2.6 直线回归方程的应用

回归分析的目的在于,一是研究揭示依变量与自变量间内在的联系规律,二是将所建立的回归方程应用于实际问题的解决。直线回归方程的应用主要体现在以下几个方面。

2.6.1利用回归方程进行估计和预测

在这里,估计(estimation )是指在给定了自变量x 的一个特定值后,对所对应的依变量y 总体的均值(变y 量的期望)进行估计;而预测(prediction )则是指在给定了自变量x 的一个特定值后,对依变量y 的一个可能取值进行估计(预测)。换言之,对给定自变量x 的一个特定值条件下依变量y 总体均值的估计称为估计,而对该y 变量总体中一个随机个体的可能取值的估计称为预测。实际上在直线回归分析中,估计和预测的公式是相同的,都是所建立的直线回归方程(6-2)式或(6-9)式,区别在于两者的方差及置信区间不同。

2.6.1.1 利用回归方程进行估计

在给定了自变量x 的一个特定值0x 后,所对应的依变量y 总体的均值(期望)是00x ββ+,其点估计是00?y a bx =+亦即 00?()y y b x x =+-。

估计量0?y 的方差是

22

2

0?()1y

x x x n

SS σσ??

-=+???? (6-38)

(6-38)式说明,对于不同的x 值?y 的方差是不同的,x 的值距x 越近,方差越小;反之,越大。当总体方差2σ未知时,用离回归均方代替。此时可构造统计量

(2)?()n y

x t t --+=

(6-39)

将(6-39)式的分母记为?y S ,即

?y yx S S =

=(6-40) 根据(6-39)式,可得00x ββ+的置信度为1α-的置信区间为

?0(2)?n y y t S α-± (6-41)

对于【例6-1】,当蔗糖质量分数为0x =3.5%时,该食品甜度y 的期望值的估计值及其置信度为95%的置信区间为

00?13.9585 1.2550 3.518.351y

a bx =+=+?=

?0(2)?18.35118.3510.248(18.103,18.599)

n y y t S α-±=±=±=

2.6.1.2 利用回归方程进行预测

由(6-1)式容易理解,在给定了自变量x 的一个特定值0x 后,所对应的依变量y 总体中某一随机个

体i 的预测值为00?i i y a bx ε=++(其真值为0i y ,亦称为0x x =条件下y 的单个值)。由于i ε的期望为0,故可用0作为i ε的估计值,于是有000??i y

a bx y =+=。因而y 的预测值的估计公式与0x ββ+的估计公式是相同的,都是?y

a bx =+或?()y y

b x x =+-。但是0?i y 的方差为 []000?()()()i i i D y

D a bx D y b x x εε=++=+-+22220()x x x n SS σσσ??

-=++????

22

0()11x x x n

SS σ??-=++???? (6-42)

如果用离回归均方r MS 代替2σ,则统计量

(2)?n t t -=

(6-43)

将(6-43)式的分母记为y S ,即

y S S == (6-44)

根据(6-43)式,可得随机个体值0i y 的置信度为1α-的预测区间为

0(2)?i n y y

t S α-± (6-45) 仍用【例6-1】的数据,当蔗糖质量分数为0x =3.5%时,该食品甜度y 的单个测定值0i y 的置信度为95%的预测区间为

(2)?18.35118.3510.591(17.760,18.942)

i n y y t S α-±=±=±=这个置信区间显然比00x ββ+的置信区间大。

当n 很大时,自由度为n -2的t 分布近似于N (0,1)分布,即有ααu t n ≈-)2((αu 可由附表2查得)。从而由(6-45)可知,y 的单个值0i y 的置信度为1α-的预测区间近似地为

0?()i y y

u S α± (6-46)

2.6.2 利用回归方程进行控制

控制是预测的反问题。如在实际应用中会有这样的问题:

质量标准要求食品的某项质量指标y 在一定范围内取值,否则产品被视为不合格。若标准要求:y ∈[y 1,y 2], y 1、y 2为已知量,那么对y 有重要影响的变量x 的取值应控制在一个怎样的范围内,才能有较大把握保证生产出的产品符合标准呢?

这种由依变量y 的取值范围反推自变量x 的取值范围的问题,在统计学中常被称为控制问题。若给定置信度1α-,区间[x 1,x 2]中的任一点x 0,其相应的随机变量y 0的置信度为1α-的预测区间均被包含在[y 1,y 2]内,则称[x 1,x 2]为对应区间[y 1,y 2]上控制水平为1α-自变量x 的控制区间。即

1212(|)(1)P y y y x x x α-≤≤≤≤≥ (6-47)

理论上,确定控制区间,一般涉及求解复杂的代数方程,计算多为不便,故在实际应用中常采用下面的近似求法。

设y 0是y 的一个观测值,根据y 对x 回归方程可以算出x 0的点估计

00?y y

x

x b

-=+ (6-48) 则1α-置信度的控制区间的近似计算公式为

0(2)?y n S x

t b

α-± (6-49)

其中,y S 由(6-44)式算得,即

y S S == 当n 很大时(2)n t α-可由u α代之。于是有

0?y S x

u b

α± (6-50)

在生产过程的质量控制中,可以认为n 很大,甚至是无穷大,故可用(6-50)式估计区间[x 1,x 2]。应当注意的是,由(6-49)式或(6-50)式估计的区间[x 1,x 2]不一定是应最后确定的区间。

例如,就【例6-1】而言,当测得y 0=18.351时,由(6-48)式得x 0的点估计0? 3.5x

=;当0.05α=时,由(6-50)式得[x 1,x 2]=[3.14,3.86];将x 1=3.14和x 2=3.86分别代入回归方程?13.9585 1.2550y

x =+得y 1=17.90,y 2=18.80,与之相应的95%置信度的预测区间分别是[17.44,18.36]和[18.35,19.25]。显然,若要求该食品的甜度(y )以95%置信度控制在区间[17.44,19.25]内,则应将其蔗糖质量分数(x )控制在[x 1,x 2]=[3.14,3.86]区间内。若要求该食品的甜度(y )以95%置信度控制在区间[18.00,19.00]内,则其蔗糖质量分数(x )所应控制的区间[x 1,x 2]要小于[3.14,3.86],经试算应控制在区间[3.58,3.66]之内。

自变量控制区间的宽度与多项因素有关。置信水平越高,回归方程的偏离度越大,0?x

偏离x 越远,控制区间就越宽;反之,就越窄。自变量控制区间还随b 、样本含量n 的增大及依变量y 的输出被控区间[y 1,y 2]的变窄而变窄。此外,由(6-49)式和6-50)式可知,y S b 可近似反映由 y 反推x 时的反推误差的大小。

2.6.3 校正系数的制定

回归方程不仅用于估计、预测和控制,还常常用于制定校正系数。

例如,欲比较不同蔬果呼吸强度(CO 2mg/(kg ·h)),要以相同环境温度下测定为前提,但在实践中,如果在一般室温条件下,测定呼吸强度时的环境温度往往是有差异的。我们可以有多种方法解决这个问题,方法之一就是将在不同环境温度下测得的呼吸强度校正为某标准环境温度下的呼吸强度。校正的方法是计算出不同环境温度时的呼吸强度的校正系数,然后再将不同环境温度时的呼吸强度校正为标准环境温度时的呼吸强度。具体作法是先建立一个呼吸强度(y )对测试环境温度(x )的回归方程:

?y

a bx =+ 利用这个方程可计算出个环境温度时呼吸强度的校正系数。

某环境温度呼吸强度校正系数

(6-51)

某环境温度校正呼吸强度=该环境温度实际呼吸强度×该环境温度呼吸强度校正系数 (6-52)

应为在一定环境温度范围内蔬果的呼吸强度随温度的升高而加强,故回归系数b 为正值。 我们也可用以下方法校正:

()s y y b x x '=-- (6-53)

式中x 为某实际温度;x s 为所规定的标准环境温度;y 为实际温度x 下的实际呼吸强度;y '为校正为x s 时的呼吸强度。很明显,如果低于x s 测试,括号内为负值,则y 要加一个正值,即y '>y ;如果高于x s 测试,括号内为正值,则y 要减一个正值,于是y '<y 。

3 直线相关

进行直线相关分析的基本任务在于根据x , y 的实际观测数据,计算出表示x , y 两个变量间线性相关的

程度和性质的统计量——相关系数,并进行显著性检验。

3.1 相关系数

现在我们研究如何用一个数量性指标来描述两个变量线性关系的密切程度和性质。

假设观测值为x i 和y i ((i =l ,2,…,n )的一个样本,其散点图如图6-1所示。过点(,x y )作两轴的垂线,把散点图分成四个象限。对于坐标为(x i ,y i )的任一点p ,它与(x ,y )的离差为:i x x -,i y y -,由图6-1可以看出:

对第Ⅰ象限中所有的点 ()()0i i x x y y -->

对第Ⅱ象限中所有的点 ()()0i i x x y y --< 对第Ⅲ象限中所有的点 ()()0i i x x y y -->

对第Ⅳ象限中所有的点

()()0i i x x y y --<

因此,可以用乘积和()()i i x x y y --∑(xy SP )来对x i 和y i 之间的关系进行一种度量。如果这种关系是正的(x 、y 偕同消长),大多数的点就落在Ⅰ、Ⅲ象限中,xy SP 的值应为正值;如果这种关系是负的(x 、y 此消彼长),那么大多数的点就将落在Ⅱ、Ⅳ象限中,xy SP 的值应为负的。x 、y 之间这种偕同消长或此消彼长的关系称为线性相关关系。xy SP 的绝对值越大,则正或负的线性关系就越强。如果在x 和y 之间不存在线性相关关系,那么这些点就将在四个象限中均匀分布或围绕某种曲线分布,xy SP 的值应接近0。以上特点告诉我们xy SP 数值的大小和样本点的多少有关,为了消除这一影响可用自由度1n -去除xy SP ,这一样本统计量称为样本协方差(covariance ),用(,)COV x y 表示,即

()()(,)1

1

xy i

i SP x

x y y COV x y n n --=

=

--∑ (6-54)

应当注意协方差与方差的相似之处,方差可以看作是一个变量与它自身之间的协方差。

用协方差来度量两个变量之间的线性相关关系仍是存在缺陷的,即它的数值要受到x 和y 的度量尺度及变异程度的影响,同时它又是有单位的,而作为一个度量相关关系的量是不应有单位的。因此,可将协方差标准化,即再除以两个变量的标准差,这个标准化的协方差就是样本相关系数(correlation coefficient),用r 表示。

(,)

x y

COV x y r S S =

=

(6-55)

将分子和分母的自由度约去,上式可改写为

()()

SP x

x y y r --=

=

(6-56)

与回归系数一样,相关系数的正、负也是决定于乘积和xy SP 。需要指出的是相应于样本相关系数也有一个总体相关系数。其定义是:

xy

x y

σρσσ=

(6-57) 式中的分子是变量x 和y 的总体协方差,样本相关系数是总体相关系数的一个估计量。

在直线回归分析中我们提到了决定系数的概念(见(6-26)式),显然相关系数的平方就是决定系数。 决定系数值域是0r ≤≤1,而相关系数的值域是11r -≤≤,只有x 和y 呈完全的直线回归或相关关系时 它们的值或绝对值才是1,通常是绝对值小于1的数值。相关系数r 绝对值的大小表明了两变量相关的程度,其正、负则表明了相关的性质。

对于x 、y 两个变量的一组n 对数据,如果同时计算yx b 和xy b ,那么相关系数r 与这两个不同方向的回

归系数有如下关系:

r =

=

= (6-58)

这说明相关系数刻画的是两变量平行的双向关系。

3.2 相关系数的计算

相关系数的计算主要在于xy SP 、x SS 和y SS 的计算,而三者的计算公式我们早已熟悉。于是相关系数的计算公式为

SP r =

=

(6-59)

下面通过一个实例来说明样本相关系数的计算。

【例6-3】 测定某品种大豆籽粒内的脂肪含量(%)和蛋白质含量(%)的关系,样本含量n =42,结果列于表6-6,试计算脂肪含量蛋与白质含量的样本相关系数。

表6-6 某品种大豆籽粒的脂肪(x )和蛋白质(y )含量(%)

计算如下基本统计量:

838.0x =∑ 2

16957.9

0x

=∑ 22()237.8048x SS x x n =-=∑∑ 1642.9y =∑ 2

64557.43y =∑ 22()292.6583y SS y y =-=∑∑

32555.07xy =∑()224.6967xy

SP

xy x y =-=-∑∑∑

8517.06583

.2928048.2376967

.224-=?-=

?=

y

x xy SS SS SP r

3.3 相关系数的假设检验

根据实际观测值计算得来的相关系数r 是样本相关系数,它是双变量正态总体中的总体相关系数ρ的估计值。样本相关系数是否来自ρ≠0的总体,还须对样本相关系数r 进行显著性检验。此时无效假设、备择假设为H 0:ρ=0,H A :ρ≠0。对此假设可用3种方法进行检验。

3.3.1 F 检验

在直线相关分析中,可将y 变量的平方和剖分为

222

22

()()(1)()

y S S y y r y y r y y =

-=-+--∑∑∑

(6-60) 式中,2

2()r y y -∑为相关平方和,2

2(1)()r y y --∑为非相关平方和,其自由度1n -也可相应剖分,

相关平方和的自由度为1,非相关平方和的自由度为2n -。所以

222

22

()1

(1)()2(2)(1)/(2)

r y y r F r y y n r n -==-----∑∑ (6-61) 在无效假设成立时,这个F 统计量服从期望值等于1、11=df 、22-=n df 的F 分布,这个F 检验也是单侧检验。

对于【例6-3】,0.8571r =-,42n =,代入(6-61)式,有

22

2(0.8517)105.663(1)(2)r F r n **-===--2

[1-(-0.8517)](42-2)

因为0.01(1,40)105.6637.31F F ==>,所以否定无效假设,即该品种大豆籽粒内的脂肪含量和蛋白质含量之间存在极显著的负相关。

3.3.2 t 检验

在无效假设成立时

r

S r

t =

(6-62) 服从自由度为)2(-=n df 的t 分布,故可由之检验H 0:ρ=0。式中

r S = (6-63)

是相关系数r 的标准误。显然,t 与F 有关系2t F =。

对于【例6-3】

10.279t **=

=-

第六章回归分析

第六章 回归分析 一、单项选择题 1.进行简单直线回归分析时,总是假定( )。 A 、自变量是非随机变量,因变量是随机变量 B 、自变量是随机变量,因变量是非随机变量 C 、两变量都是随机变量 D 、两变量都是非随机变量 2.在因变量的总离差平方和中,如果回归平方和所占比重达,剩余平方和所占比重小,则两者之间( )。 A 、相关程度高 B 、相关程度低 C 、完全相关 D 、完全不相关 3.当一个现象的数量由小变大,而另一个现象的数量由大变小时,这种相关关系称为( ) A 、线性相关 B 、非线性相关 C 、正相关 D 、负相关 4.直线趋势y e =a+bt 中a 和b 的意义是( )。 A 、a 是截距,b 表示x=0时的 趋势值 B 、a 是最初发展水平的趋势值,b 表示平均发展水平 C 、a 是最初发展水平的趋势值,b 表示平均发展速度 D 、a 表示直线的截距,表示最初发展水平的趋势值,b 是直线的斜率,表示按最小平方法计算的平均增长量 5.当所有观察值y 都落在回归直线bx a y +=?上,则x 与y 之间的相关系数( )。 A 、r=1 B 、-1

第六章相关与回归分析方法

第六章 相关与回归分析方法 第一部分 习题 一、单项选择题 1.单位产品成本与其产量的相关;单位产品成本与单位产品原材料消耗量的相关 ( )。 A.前者是正相关,后者是负相关 B.前者是负相关,后者是正相关 C.两者都是正相关 D.两者都是负相关 2.样本相关系数r 的取值范围( )。 A.-∞<r <+∞ B.-1≤r ≤1 C. -l <r <1 D. 0≤r ≤1 3.当所有观测值都落在回归直线 01y x ββ=+上,则x 与y 之间的相关系数( )。 A.r =0 B.r =1 C.r =-1 D.|r|=1 4.相关分析与回归分析,在是否需要确定自变量和因变量的问题上( )。 A.前者无需确定,后者需要确定 B.前者需要确定,后者无需确定 C.两者均需确定 D.两者都无需确定 5.直线相关系数的绝对值接近1时,说明两变量相关关系的密切程度是( )。 A.完全相关 B.微弱相关 C.无线性相关 D.高度相关 6.年劳动生产率x(千元)和工人工资y(元)之间的回归方程为y=10+70x ,这意味着年劳动生产率每提高1千元时,工人工资平均( )。 A.增加70元 B.减少70元 C.增加80元 D.减少80元 7.下面的几个式子中,错误的是( )。 A. y= -40-1.6x r=0.89 B. y= -5-3.8x r =-0.94 C. y=36-2.4x r =-0.96 D. y= -36+3.8x r =0.98 8.下列关系中,属于正相关关系的有( )。 A.合理限度内,施肥量和平均单产量之间的关系 B.产品产量与单位产品成本之间的关系 C.商品的流通费用与销售利润之间的关系 D.流通费用率与商品销售量之间的关系 9.直线相关分析与直线回归分析的联系表现为( )。 A.相关分析是回归分析的基础 B.回归分析是相关分析的基础 C.相关分析是回归分析的深入 D.相关分析与回归分析互为条件 10.进行相关分析,要求相关的两个变量( )。 A.都是随机的 B.都不是随机的 C.一个是随机的,一个不是随机的 D.随机或不随机都可以 11.相关关系的主要特征是( )。 A.某一现象的标志与另外的标志之间存在着确定的依存关系 B.某一现象的标志与另外的标志之间存在着一定的关系,但它们不是确定的关系 C.某一现象的标志与另外的标志之间存在着严重的依存关系 D.某一现象的标志与另外的标志之间存在着函数关系 12.相关分析是研究( )。 A.变量之间的数量关系 B.变量之间的变动关系 C.变量之间相互关系的密切程度 D.变量之间的因果关系 13.现象之间相互依存关系的程度越低,则相关系数( )。 A.越接近于0 B.越接近于-1 C.越接近于1 D.越接近于0.5 14.在回归直线01y x ββ=+中,若10 β<,则x 与y 之间的相关系数( )。 A. r=0 B. r=1 C. 0<r <1 D. —l <r <0 15.当相关系数r=0时,表明( )。 A.现象之间完全无关 B.相关程度较小 C.现象之间完全相关 D.无直线相关关系 16.已知x 与y 两变量间存在线性相关关系,且2 10,8,7,100x y xy n σσσ===-=,则x 与y 之间存在着( )。

第6章 相关与回归分析习题解答

第六章 相关与回归分析 思考与练习 一、判断题 1.产品的单位成本随着产量增加而下降,这种现象属于函数关系。 答:错。应是相关关系。单位成本与产量间不存在确定的数值对应关系。 2.相关系数为0表明两个变量之间不存在任何关系。 答:.错。相关系数为零,只表明两个变量之间不存在线性关系,并不意味着两者间不存在其他类型的关系。 3.单纯依靠相关与回归分析,无法判断事物之间存在的因果关系。 答:对,因果关系的判断还有赖于实质性科学的理论分析。 4.圆的直径越大,其周长也越大,两者之间的关系属于正相关关系。 答:错。两者是精确的函数关系。 5.总体回归函数中的回归系数是常数,样本回归函数中的回归系数的估计量是随机变量。 答:对。 6.当抽取的样本不同时,对同一总体回归模型估计的结果也有所不同。 答:对。因为,估计量属于随机变量,抽取的样本不同,具体的观察值也不同,尽管使用的公式相同,估计的结果仍然不一样。 二、选择题 1.变量之间的关系按相关程度分可分为:b 、c 、d a.正相关; b. 不相关; c. 完全相关; d.不完全相关; 2.复相关系数的取值区间为:a a. 10≤≤R ; b.11≤≤-R ; c.1≤≤∞-R ; d.∞≤≤-R 1 3.修正自由度的决定系数a 、b 、d a.2 2 R R ≤; b.有时小于0 ; c. 102 ≤≤R ; d.比2 R 更适合作为衡量回归方程拟合程度的指标 4.回归预测误差的大小与下列因素有关:a 、b 、c 、d a 样本容量; b 自变量预测值与自变量样本平均数的离差 c 自变量预测误差; d 随机误差项的方差 三、问答题 1.请举一实例说明什么是单相关和偏相关?以及它们之间的差别。 答:例如夏季冷饮店冰激凌与汽水的消费量,简单地就两者之间的相关关系进行考察,就是一种单相关,考察的结果很可能存在正相关关系,即冰激凌消费越多,汽水消费也越多。然而,如果我们仔细观察,可以发现一般来说,消费者会在两者中选择一种消费,也就是两者之间事实上应该是负相关。两者之间的单相关关系出现正相关是因为背后还有天气等因素的影响,天气越热,两种冷饮的消费量都越多。如果设法将天气等因素固定不变,单纯考察冰激凌与汽水的消费量,则可能出现负相关关系。像这种假定其他影响因素不变专门考察其中两个因素之间的关系就成为偏相关。 2.讨论以下几种场合,回归方程t t t t u X X Y +++=33221βββ中回归系数的经济意义和应取的符号。 (1)Y t 为商业利润率;X 2t 为人均销售额;X 3t 为流通费用率。 (2)Y t 为粮食销售量;X 2t 为人口数;X 3t 为人均收入。

第六章相关与回归分析方法

第六章 相关与回归分析方法 第一部分 习题 一、单项选择题 1.单位产品成本与其产量的相关;单位产品成本与单位产品原材料消耗量的相关 ( )。 A.前者是正相关,后者是负相关 B.前者是负相关,后者是正相关 C.两者都是正相关 D.两者都是负相关 2.样本相关系数r 的取值范围( )。 A.-∞<r <+∞ B.-1≤r ≤1 C. -l <r <1 D. 0≤r ≤1 3.当所有观测值都落在回归直线 01y x ββ=+上,则x 与y 之间的相关系数( )。 A.r =0 B.r =1 C.r =-1 D.|r|=1 4.相关分析与回归分析,在是否需要确定自变量和因变量的问题上( )。 A.前者无需确定,后者需要确定 B.前者需要确定,后者无需确定 C.两者均需确定 D.两者都无需确定 5.直线相关系数的绝对值接近1时,说明两变量相关关系的密切程度是( )。 A.完全相关 B.微弱相关 C.无线性相关 D.高度相关 6.年劳动生产率x(千元)和工人工资y(元)之间的回归方程为y=10+70x ,这意味着年劳动生产率每提高1千元时,工人工资平均( )。 A.增加70元 B.减少70元 C.增加80元 D.减少80元 7.下面的几个式子中,错误的是( )。 A. y= -40-1.6x r=0.89 B. y= -5-3.8x r =-0.94 C. y=36-2.4x r =-0.96 D. y= -36+3.8x r =0.98 8.下列关系中,属于正相关关系的有( )。 A.合理限度内,施肥量和平均单产量之间的关系 B.产品产量与单位产品成本之间的关系 C.商品的流通费用与销售利润之间的关系 D.流通费用率与商品销售量之间的关系 9.直线相关分析与直线回归分析的联系表现为( )。 A.相关分析是回归分析的基础 B.回归分析是相关分析的基础 C.相关分析是回归分析的深入 D.相关分析与回归分析互为条件 10.进行相关分析,要求相关的两个变量( )。 A.都是随机的 B.都不是随机的 C.一个是随机的,一个不是随机的 D.随机或不随机都可以 11.相关关系的主要特征是( )。 A.某一现象的标志与另外的标志之间存在着确定的依存关系 B.某一现象的标志与另外的标志之间存在着一定的关系,但它们不是确定的关系 C.某一现象的标志与另外的标志之间存在着严重的依存关系 D.某一现象的标志与另外的标志之间存在着函数关系 12.相关分析是研究( )。 A.变量之间的数量关系 B.变量之间的变动关系 C.变量之间相互关系的密切程度 D.变量之间的因果关系 13.现象之间相互依存关系的程度越低,则相关系数( )。 A.越接近于0 B.越接近于-1 C.越接近于1 D.越接近于0.5 14.在回归直线01y x ββ=+中,若10 β<,则x 与y 之间的相关系数( )。 A. r=0 B. r=1 C. 0<r <1 D. —l <r <0 15.当相关系数r=0时,表明( )。 A.现象之间完全无关 B.相关程度较小

应用回归分析第6章课后习题答案

第6章 6.1 试举一个产生多重共线性的经济实例。 答:例如有人建立某地区粮食产量回归模型,以粮食产量为因变量Y,化肥用量为X1,水浇地面积为X2,农业投入资金为X3。由于农业投入资金X3与化肥用量X1,水浇地面积X2有很强的相关性,所以回归方程效果会很差。再例如根据某行业企业数据资料拟合此行业的生产函数时,资本投入、劳动力投入、资金投入与能源供应都与企业的生产规模有关,往往出现高度相关情况,大企业二者都大,小企业都小。 6.2多重共线性对回归参数的估计有何影响? 答:1、完全共线性下参数估计量不存在; 2、参数估计量经济含义不合理; 3、变量的显著性检验失去意义; 4、模型的预测功能失效。 6.3 具有严重多重共线性的回归方程能不能用来做经济预测? 答:虽然参数估计值方差的变大容易使区间预测的“区间”变大,使预测失去意义。但如果利用模型去做经济预测,只要保证自变量的相关类型在未来期中一直保持不变,即使回归模型中包含严重多重共线性的变量,也可以得到较好预测结果;否则会对经济预测产生严重的影响。 6.4多重共线性的产生于样本容量的个数n、自变量的个数p有无关系? 答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。 6.6对第5章习题9财政收入的数据分析多重共线性,并根据多重共线性剔除变量。将所得结果与逐步回归法所得的选元结果相比较。 5.9在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),x2为工业增

第六章相关与回归分析题目

第六章相关与线性回归分析 1、 1)试利用这批数据分析课题总数与哪些因素由比较密切的关系,利用相关系数检验。 2)以课题总数作为因变量进行多元线性回归。 2、在上题数据中,计算课题总数数与投入高级职称的人年数的偏相关关系,以投入人年数、 投入科研事业费作为控制变量。 3、现有1991~2007年的人均国民生产总值增长率(G),城市居民消费价格上涨幅度(P)和企

业职工平均工资增长率(W),如下: 4、 随机抽取的10家航空公司,对其最近一年的航班正点率和顾客投诉次数进行了调查, 所得数据如下表。 (1) 绘制散点图,说明二者之间的关系形态。 (2) 用航班正点率作自变量,顾客投诉次数作因变量,求出估计的回归方程,并解 释回归系数的意义。 (3) 检验回归系数的显著性(05.0=α)。 (4) 如果航班正点率为80%,估计顾客的投诉次数。 (5) 求航班正点率为80%时,顾客投诉次数95%的置信区间和预测区间。 航空公司编号 航班正点率 投诉次数 1 81.8 21 2 76.6 58 3 76.6 85 4 75.7 68 5 73.8 74 6 72.2 93 7 71.2 72 8 70.8 122 9 91.4 18 10 68.5 125 5、 一家房地产评估公司想对某城市的房地产销售价格(y )与地产的评估价值(x1)、房产 的评估价值(x2)和使用面积(x3)建立一个模型,以便对销售价格作出合理预测。为此,收集了20栋住宅的房地产评估数据见下表。用Minitab 进行回归,回答下面的问题:

(1)写出估计的多元回归方程。 (2)在销售价格的总变差中,被估计的回归方程所解释的比例是多少? (3)检验回归方程的线性关系是否显著()。 (4)检验各回归系数是否显著() (5)计算当x1=1000,x2=2000,x3=10000时,销售价格的预测值,置信区间(C.I)以及预测区间(P.I.) 6、一家电气销售公司的管理人员认为,每月的销售额是广告费用的函数,并想通过广告费 用对月销售额作出估计。下表是近8个月的销售额与广告费用数据。 (1)用电视广告费用作自变量,月销售额作因变量,建立估计的回归方程。 (2)用电视广告费用和报纸广告费用作自变量,月销售额作因变量,建立估计的回归方程。 (3)上述(1)和(2)所建立的估计方程,电视广告费用的系数是否相同?对其回归系数分别进行解释。 (4)根据问题(2)所建立的估计方程,在销售收入的总变差中,被估计的回归方程所解释的比例是多少? (5)根据问题(2)所建立的估计方程,检验回归方程的线性关系是否显著α (=

第六章 相关与回归分析

第六章 相关与回归分析 一、单项选择题 1.当自变量的数值确定后,因变量的数值也随之完全确定,这种关系属于( )。 A.相关关系 B.函数关系 C.回归关系 D.随机关系 2.现象之间的相互关系可以归纳为两种类型,即( )。 A.相关关系和函数关系 B.相关关系和因果关系 C.相关关系和随机关系 D.函数关系和因果关系 3.在相关分析中,要求相关的两变量( )。 A.都是随机的 B.都不是随机变量 C.因变量是随机变量 D.自变量是随机变量 4.现象之间线性依存关系的程度越低,则相关系数( ) 。 A.越接近于-1 B. 越接近于1 C. 越接近于0 D. 在0.5和0.8之间 5.若物价上涨,商品的需求量相应减少,则物价与商品需求量之间的关系为( )。 A.不相关 B. 负相关 C. 正相 关 D. 复相关 6.能够测定变量之间相关关系密切程度的主要方法是( ) 。 A.相关表 B.相关图 C.相关系 数 D.定性分析 7.下列哪两个变量之间的相关程度高( )。 A.商品销售额和商品销售量的相关系数是0.9 B.商品销售额与商业利润率的相关系数是0.84 C.平均流通费用率与商业利润率的相关系数是-0.94 D.商品销售价格与销售量的相关系数是-0.91 8.回归分析中的两个变量( )。 A.都是随机变量 B.关系是对等的 C.都是给定的量 D.一个是自变量,一个是因变量 9.当所有的观察值y 都落在直线 上时,则x 与y 之间的相关系数为( )。 A.r = 0 B.| r | = 1 C.-1

应用回归分析-第6章课后习题参考答案

第6章多重共线性的情形及其处理 思考与练习参考答案 6.1 试举一个产生多重共线性的经济实例。 答:例如有人建立某地区粮食产量回归模型,以粮食产量为因变量Y,化肥用量为X1,水浇地面积为X2,农业投入资金为X3。由于农业投入资金X3与化肥用量X1,水浇地面积X2有很强的相关性,所以回归方程效果会很差。再例如根据某行业企业数据资料拟合此行业的生产函数时,资本投入、劳动力投入、资金投入与能源供应都与企业的生产规模有关,往往出现高度相关情况,大企业二者都大,小企业都小。 6.2多重共线性对回归参数的估计有何影响? 答:1、完全共线性下参数估计量不存在; 2、近似共线性下OLS估计量非有效; 3、参数估计量经济含义不合理; 4、变量的显著性检验失去意义; 5、模型的预测功能失效。 6.3 具有严重多重共线性的回归方程能不能用来做经济预测? 答:虽然参数估计值方差的变大容易使区间预测的“区间”变大,使预测失去意义。但如果利用模型去做经济预测,只要保证自变量的相关类型在未来期中一直保持不变,即使回归模型中包含严重多重共线性的变量,也可以得到较好预测结果;否则会对经济预测产生严重的影响。 6.4多重共线性的产生于样本容量的个数n、自变量的个数p有无关系? 答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。 6.5 自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造设计矩阵X才可能避免多重共线性的出现? 答:请参考第三次上机实验题——机场吞吐量的多元线性回归模型,注意利用二手数据很难避免多重共线性的出现,所以一般利用逐步回归和主成分回归消除多重共线性。如果进行自己进行试验设计如正交试验设计,并收集数据,选择向量

统计学原理 第六章 相关与回归分析习题

第六章相关与回归分析习题 一、填空题 1.现象之间的相关关系按相关的程度分为、和;按相关的形式分为和;按影响因素的多少分为和。 2.两个相关现象之间,当一个现象的数量由小变大,另一个现象的数量,这种相关称为正相关;当一个现象的数量由小变大,另一个现象的数量,这种相关称为负相关。 3.相关系数的取值范围是。 4.完全相关即是关系,其相关系数为。 5.相关系数,用于反映条件下,两变量相关关系的密切程度和方向的统计指标。 6.直线相关系数等于零,说明两变量之间;直线相关系数等1,说明两变量之间;直线相关系数等于—1,说明两变量之间。 7.对现象之间变量的研究,统计是从两个方面进行的,一方面是研究变量之间关系的,这种研究称为相关关系;另一方面是研究关于自变量和因变量之间的变动关系,用数学方程式表达,称为。 8.回归方程y=a+bx中的参数a是,b是。在统计中估计待定参数的常用方法是。 9. 分析要确定哪个是自变量哪个是因变量,在这点上它与不同。 10.求两个变量之间非线性关系的回归线比较复杂,在许多情况下,非线性回归问题可以通过化成来解决。 11.用来说明回归方程代表性大小的统计分析指标是。 二、单项选择题 1.下面的函数关系是( ) A销售人员测验成绩与销售额大小的关系B圆周的长度决定于它的半径 C家庭的收入和消费的关系D数学成绩与统计学成绩的关系 2.相关系数r的取值范围( ) A -∞

第六章相关与回归分析题目

第六章相关与线性回归分析1、现有全国31个省市自治区的高校投入产出数据, 如下 省市名称投入人 年数 投入高级职称 的人年数 投入科研事 业费(百元) 课题 总数 专著 数 论文数 获奖 数 北京6795 3737 339803 3261 2723 12270 237 天津1649 939 45392 991 488 3055 138 河北2367 1039 40631 839 412 4440 51 山西1460 658 49661 635 218 2964 41 内蒙455 231 7001 227 152 1759 132 辽宁3664 1591 70301 1241 779 7244 252 吉林2514 1208 44154 902 581 4300 128 黑龙江1430 797 9477 479 391 2801 119 上海3783 1833 116292 2247 1130 6607 67 江苏5480 2436 138418 3110 961 10456 540 浙江2765 1238 44320 1676 473 6031 289 安徽2157 982 49672 599 232 3897 9 福建1575 710 73829 897 376 3239 13 江西2313 1013 15733 908 319 3979 90 山东3601 1995 71333 1287 920 10610 507 河南1957 834 8418 770 412 3903 140 湖北4427 2242 96011 1835 1126 11485 133 湖南2765 1525 121431 1266 605 6793 386 广东4234 1944 137897 2117 741 7705 232 广西1410 524 8433 431 183 2771 133 海南163 97 49684 76 70 494 21 重庆1495 786 22335 696 248 2988 83 四川2359 1142 70955 1138 433 4788 144 贵州221 121 1960 73 50 1198 7 云南1149 502 7845 282 149 1958 28 西藏75 24 500 17 6 117 0 陕西2236 1018 62621 803 569 6539 127 甘肃970 417 19613 530 16 2255 92 青海159 60 0 69 15 583 0 宁夏188 83 556 82 30 406 0 新疆660 360 330 276 116 2803 9 1)试利用这批数据分析课题总数与哪些因素由比较密切的关系,利用相关系数检验。 2)以课题总数作为因变量进行多元线性回归。 2、在上题数据中,计算课题总数数与投入高级职称的人年数的偏相关关系,以投入人年数、 投入科研事业费作为控制变量。 3、现有1991~2007年的人均国民生产总值增长率(G),城市居民消费价格上涨幅度(P)和企

第六章 相关与回归分析

第八章 相关与回归分析 一、填空题 8.1.1 客观现象之间的数量联系可以归纳为两种不同的类型,一种是函数关系 ,另一种是相关关系 。 8.1.2 回归分析中对相互联系的两个或多个变量可以区分为因变量 和自变量 。 8.1.3 函数关系 是指变量之间存在的严格确定的依存关系。 8.1.4 相关关系 是指变量之间客观存在的非严格确定的依存关系。 8.1.5 按相关关系涉及变量 的多少可分为单相关、复相关和偏相关。 8.1.6 两个现象的相关,称为单相关 。 8.1.7 在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量的相关关系称为偏相关 。 8.1.8 按变量之间相关关系的密切程度 不同,可分为完全相关、不完全相关和不相关。 8.1.9 按相关关系的表现形态 不同可分为线性相关和非线性相关。 8.1.10 在线性相关中,按相关的 方向 可分为正相关和负相关。 8.1.11 按相关的性质 可分为“真实相关”和“虚假相关”。 8.1.12 当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为正相关 。 8.1.13 当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为负相关 。 8.1.14 当两种现象之间的相关只是表面存在,实质上并没有内在的联系时,称之为虚假相关 。 8.1.15 相关分析 是指研究一个变量与另一个变量或另一组变量之间相关方向和相关密切程度的统计分析方法。 8.1.16 回归分析 是指根据相关关系的具体形态,选择一个合适的数学模型来近似地表达变量间平均变化关系的统计分析方法。 8.1.17 相关系数 是反映变量之间相关关系及关系密切程度的统计分析指标。 8.1.18 偏相关系数 是在多元相关分析中考虑其他变量但假定其保持不变的情况下计算出来的反映某两个变量之间相关程度的统计分析指标。 8.1.19 复相关系数 是指反映一个因变量与两个及两个以上自变量组成的一组自变量之间相关程度的统计分析指标。 8.1.20 最小二乘法 就是寻找参数0 1 ββ和的估计值 0 1 β β和,使因变量实际值与估计值的残差平方和达到最小。 8.1.21 正如标准差可以说明平均数代表性大小一样,估计标准差 则可以说明回归线代表性的大小。 8.1.22 回归分析中的显著性检验包括两方面的内容,一是对各回归系数 的显著性检验;二是对整个回归方程 的显著性检验。 8.1.23 对各回归系数的显著性检验,通常采用t 检验 ;对整个回归方程的显著性检验,通常采用F 检验 。 8.1.24 当相关系数0≈r 时,只能认为变量之间不存在线性相关 关系。 8.1.25 回归系数 的显著性检验就是要检验自变量x 对因变量y 的影响程度是否显著。 二、单项选择题(在每小题的3个备选答案中选出1个正确答案,并将其字母填在题干后面的括号内) 8.2.1 当一个或几个相互联系的自变量取一定的值时,因变量必定有一个且只有一个确定的值与之对应。这种关系称为

第六章 spss相关分析和回归分析

第六章 SPSS相关分析与回归分析 6.1 相关分析和回归分析概述 客观事物之间的关系大致可归纳为两大类,即 ●函数关系:指两事物之间的一种一一对应的关系,如商品的销售额和销售量之间的 关系。 ●相关关系(统计关系):指两事物之间的一种非一一对应的关系,例如家庭收入和 支出、子女身高和父母身高之间的关系等。相关关系又分为线性相关和非线性相关。 相关分析和回归分析都是分析客观事物之间相关关系的数量分析方法。 6.2 相关分析 相关分析通过图形和数值两种方式,有效地揭示事物之间相关关系的强弱程度和形式。 6.2.1 散点图 它将数据以点的的形式画在直角坐标系上,通过观察散点图能够直观的发现变量间的相关关系及他们的强弱程度和方向。 6.2.2 相关系数 利用相关系数进行变量间线性关系的分析通常需要完成以下两个步骤: 第一,计算样本相关系数r; ●相关系数r的取值在-1~+1之间 ●R>0表示两变量存在正的线性相关关系;r<0表示两变量存在负的线性相关关 系 ●R=1表示两变量存在完全正相关;r=-1表示两变量存在完全负相关;r=0表 示两变量不相关 ●|r|>0.8表示两变量有较强的线性关系;|r|<0.3表示两变量之间的线性关系较 弱 第二,对样本来自的两总体是否存在显著的线性关系进行推断。 对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有Pearson简单相关系数、Spearman等级相关系数和Kendall τ相关系数等。 6.2.2.1 Pearson简单相关系数(适用于两个变量都是数值型的数据) Pearson简单相关系数的检验统计量为: 6.2.2.2 Spearman等级相关系数 Spearman等级相关系数用来度量定序变量间的线性相关关系,设计思想与Pearson简 x y,而是利单相关系数相同,只是数据为非定距的,故计算时并不直接采用原始数据(,) i i

第6章回归分析

第6章回归分析 变量之间的联系可以分为两类,一类是确定性的,另一类是非确定性的。确定型的关系是指某一个或某几个现象的变动必然会引起另一个现象确定的变动,他们之间的关系可以使用数学函数式确切地表达出来,即y=f(x)。当知道x的数值时,就可以计算出确切的y值来。如圆的周长与半径的关系:周长=2πr。非确定关系则不然,例如,在发育阶段,随年龄的增长,人的身高会增加。但不能根据年龄找到确定的身高,即不能得出11岁儿童身高一定就是1米40公分。年龄与身高的关系不能用一般的函数关系来表达。研究变量之间既存在又不确定的相互关系及其密切程度的分析称为相关分析。如果把其中的一些因素作为自变量,而另一些随自变量的变化而变化的变量作为因变量,研究他们之间的非确定因果关系,这种分析就称为回归分析。 在本章,我们将讲解回归分析有关的内容,而在下一章,我们将讲解相关分析的具体操作方法。 在SppS 10.0 For windows中回归分析分为以下几种:(主要讲前三种) ●Linear:线性回归分析(data09-03) ●Curve Estimation:曲线回归分析(data13-01) ●Binary Logistic:二维 Logistic回归分析(data13-02) ●Multinomial Logistic:多维Logistic回归分析 ●Ordinal:Ordinal回归分析 ●Proibit:概率单位回归分析 ●Nonlinear:非线性回归分析 ●Weight Estimation: 加权估测分析 ●2-Stage Least Squares: 两阶最小二乘分析 8.1线性回归(data09-03) 一元线性回归方程(卫生统计114~121页) 直线回归分析的任务就是根据若干个观测(Xi,yi)i=1~n找出描述两个变量X、y之间关系的直线回归方程y^=a+bx。y^是变量y的估计值。求直线回归方程y^=a+bx,实际上是用回归直线拟合散点图中的各观测点。常用的方法是最小二乘法。也就是使该直线与各点的纵向垂直距离最小。即使实测值y与回归直线y^之差的平方和Σ(y-y^)2达到最小。Σ(y-y^)2也称为剩余(残差)平方和。因此求回归方程y^=a+bx的问题,归根到底就是求Σ(y-y^)2取得最小值时a和b的问题。a称为截距,b为回归直线的斜率,也称回归系数。 一元线性回归方程的适用条件 (l)线形趋势:自变量与因变量的关系是线形的,如果不是,则不能采用线性回归来分析。 (2)独立性:可表述为因变量y的取值相互独立,它们之间没有联系。反映到模型中,实际上就是要求残差间相互独立,不存在自相关。 (3)正态性:自变量的任何一个线形组合,因变量y均服从正态分布,反映到模型中,实际上就是要求随机误差项εi服从正态分布。 (4) 方差齐性:自变量的任何一个线形组合,因变量y的方差均齐性,实质就是要求残差的方差齐。 概括起来,“独立”、“线性”、“正态”、“等方差”是线性回归的四个条件。 一元线性回归方程的检验 根据原始数据,求出回归方程后就需要对回归方程进行检验。检验的假设是总体回归系数为0。另外要检验回归方程对因变量的预测效果如何。

统计学第六章课后题及答案解析

第六章 一、单项选择题 1.下面的函数关系是( ) A现代化水平与劳动生产率B圆周的长度决定于它的半径 C家庭的收入和消费的关系D亩产量与施肥量 2.相关系数r的取值范围( ) A -∞< r <+∞ B -1≤r≤+1 C -1< r < +1 D 0≤r≤+1 3.年劳动生产率x(干元)和工人工资y=10+70x,这意味着年劳动生产率每提高1千元时,工人工资平均( ) A增加70元B减少70元C增加80元D减少80元 4.若要证明两变量之间线性相关程度高,则计算出的相关系数应接近于( ) A +1 B -1 C 0.5 D 1 5.回归系数和相关系数的符号是一致的,其符号均可用来判断现象( ) A线性相关还是非线性相关B正相关还是负相关 C完全相关还是不完全相关D单相关还是复相关 6.某校经济管理类的学生学习统计学的时间(x)与考试成绩(y)之间建立线性回归方程?=a+bx。经计算,方程为?=200—0.8x,该方程参数的计算( ) A a值是明显不对的 B b值是明显不对的 C a值和b值都是不对的 D a值和b值都是正确的 7.在线性相关的条件下,自变量的均方差为2,因变量均方差为5,而相关系数为0.8时,则其回归系数为:( ) A 8 B 0.32 C 2 D 12.5 8.进行相关分析,要求相关的两个变量( ) A都是随机的B都不是随机的 C一个是随机的,一个不是随机的D随机或不随机都可以 9.下列关系中,属于正相关关系的有( ) A合理限度内,施肥量和平均单产量之间的关系 B产品产量与单位产品成本之间的关系 C商品的流通费用与销售利润之间的关系

D流通费用率与商品销售量之间的关系 10.相关分析是研究( ) A变量之间的数量关系B变量之间的变动关系 C变量之间的相互关系的密切程度D变量之间的因果关系 11.在回归直线y c=a+bx,b<0,则x与y之间的相关系数( ) A r=0 B r=l C 0

第六章spss相关分析和回归分析

第六章 spss相关分析和回归分析第六章 SPSS相关分析与回归分析 6.1 相关分析和回归分析概述 客观事物之间的关系大致可归纳为两大类,即 , 函数关系:指两事物之间的一种一一对应的关系,如商品的销售额和销售量之间的 关系。 , 相关关系(统计关系):指两事物之间的一种非一一对应的关系,例如家庭收入和 支出、子女身高和父母身高之间的关系等。相关关系又分为线性相关和非线性相关。 相关分析和回归分析都是分析客观事物之间相关关系的数量分析方法。 6.2 相关分析 相关分析通过图形和数值两种方式,有效地揭示事物之间相关关系的强弱程度和形式。 6.2.1 散点图 它将数据以点的的形式画在直角坐标系上,通过观察散点图能够直观的发现变量间的相关关系及他们的强弱程度和方向。 6.2.2 相关系数 利用相关系数进行变量间线性关系的分析通常需要完成以下两个步骤: 第一,计算样本相关系数r; ,+1之间 , 相关系数r的取值在-1 , R>0表示两变量存在正的线性相关关系;r<0表示两变量存在负的线性相关关

系 , R,1表示两变量存在完全正相关;r,-1表示两变量存在完全负相关;r,0表示两变量不相关 , |r|>0.8表示两变量有较强的线性关系; |r|<0.3表示两变量之间的线性关系较 弱 第二,对样本来自的两总体是否存在显著的线性关系进行推断。 对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有Pearson简单 ,相关系数、Spearman等级相关系数和Kendall 相关系数等。 6.2.2.1 Pearson简单相关系数(适用于两个变量都是数值型的数据) (,)(,)yy,ixxi ,r 22(,),(,)yy,,ixxi Pearson简单相关系数的检验统计量为: rn,2 2t, 6.2.2.2 Spearman等级相关系数 Spearman等级相关系数用来度量定序变量间的线性相关关系,设计思想与Pearson简1,r (,)xyii单相关系数相同,只是数据为非定距的,故计算时并不直接采用原始数据,而是利 (,)xy(,)UViiii用数据的秩,用两变量的秩代替代入Pearson简单相关系数计算公式中,于是 xyii其中的和的取值范围被限制在1和n之间,且可被简化为:

第六章____相关和回归分析

第六章相关和回归分析 一、填空题 2、与相关关系对应的是________,是反映现象之间存在的严格的依存关系。 3、相关系数的取值范围在________和________之间,带负号表明是________,带正号表明是________。 4、直线相关中,如变量x增加或减少,变量y也相应增加或减少,称为________;如x增加或减少,y也相应减少或增加,称为________。 9、用直线方程来表明两个变量间的变动关系,并进行估计推算的分析方法成为________。 10、反映直线相关关系密切程度的指标是________ ;反映曲线相关关系密切程度的指标是________。 12、回归方程中________的系数称为回归系数。 二、是非题 2、按变量之间的相关强度不同分为正相关、负相关。 4、相关系数r取值范围在+1和-1之间。 5、相关系数是直线条件下说明两个现象之间相关关系的密切程度的统计分析指标。 6、相关与回归分析是在定性分析的基础上进行的定量分析。 10、回归方程中,回归系数b的绝对值大小与变量所用计量单位的大小有关。 11、回归方程要求自变量和因变量都是随机变量。 12、回归系数b大于0或小于0时,则相关系数r也大于0或小于0。 14、估计指标标准误差Syx=0,说明实际值与估计值完全一致。 三、单项选择题 1、相关关系是() A、现象间的严格的依存关系 B、现象间的数量关系 C、现象间不确定的关系 2、相关分析是一种() A、以定量分析为前提的定性分析 B、以定性分析为前提的定量分析C定性分析 4、相关图又称() A、散布图 B、曲折图 C、散点图 D、曲线图 5、工人的出勤率与电视机合格率之间的相关系数如等于0.85,可以断定两者是() A、显著相关 B、高度相关 C、正相关 D、虚假相关 9、相关分析和回归分析的一个重要区别是() A、前者研究变量间的密切程度,后者研究变量间的变动关系,并用数字方程式表示 B、前者研究变量间的变动关系,后者研究变量间的密切程度。 C、两者都研究变量间的变动关系 D、两者都不研究变量间的变动关系 10、一元线性回归分析有下列特点() A、自变量与因变量都是随机变量 B、自变量与因变量都是给定的数值 C、因变量是给定的数值,自变量是随机变量 D、自变量是给定数值,因变量是随机变量 11、当所有观测值都落在回归直线上则两个变量之间的相关系数为() A、1 B、-1 C、+1或-1 D、大于-1,小于+1 12、估计标准误差公式有() A、n个自由度 B、n-1个自由度 C、n-2个自由度 D、0个自由度

相关文档
相关文档 最新文档