文档库 最新最全的文档下载
当前位置:文档库 › 统计学教案习题10直线相关与回归

统计学教案习题10直线相关与回归

统计学教案习题10直线相关与回归
统计学教案习题10直线相关与回归

第十章 直线相关与回归

一、教学大纲要求

(一) 掌握内容

⒈ 直线相关与回归的基本概念。 ⒉ 相关系数与回归系数的意义及计算。 ⒊ 相关系数与回归系数相互的区别与联系。 (二)熟悉内容

⒈ 相关系数与回归系数的假设检验。 ⒉ 直线回归方程的应用。 ⒊ 秩相关与秩回归的意义。 (三)了解内容 曲线直线化。

二、

学内容精要

(一) 直线回归 1. 基本概念

直线回归(linear regression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simple regression )。

直线回归方程bX a Y

+=?中,a 、b 是决定直线的两个系数,见表10-1。 表10-1 直线回归方程a 、b 两系数对比

a b 含义 回归直线在Y 轴上的截距(intercept )。 表示X 为零时,Y 的平均水平的估计值。 回归系数(regression coefficient ),即直线

的斜率。表示X 每变化一个单位时,Y 的平均变化量的估计值。

系数>0 a >0表示直线与纵轴的交点在原点的上方 b >0,表示直线从左下方走向右上方,即Y

随X 增大而增大

系数<0 a <0表示直线与纵轴的交点在原点的下方 b <0,表示直线从左上方走向右下方,即Y

随X 增大而减小

系数=0 a =0表示回归直线通过原点 b =0,表示直线与X 轴平行,即Y 不随X

的变化而变化

计算公式 X b Y a -=

XX XY l l X X Y Y X X b =---=∑∑2)())((

2. 样本回归系数b 的假设检验(1)方差分析;(2)t 检验。

3. 直线回归方程的应用(1)描述两变量的依存关系;(2)用回归方程进行预测; (3)用回归方程进行统计控制;(4)用直线回归应注意的问题。 (二) 直线相关 1. 基本概念

直线相关(linear correlation )又称简单相关(simple correlation ),用于双变量正态分布资料。有正相关、负相关和零相关等关系。直线相关的性质可由散点图直观的说明。

相关系数又称积差相关系数(coefficient of product-moment correlation ),以符号r 表示样

本相关系数,ρ表示总体相关系数。它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。

2.

计算公式

YY

XX XY l l l Y Y X X Y Y X X r =

----=

∑∑2

2

)

()()

)((

相关系数r 没有单位,其值为-1≤r ≤1。其绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切。r 值为正表示正相关,说明一变量随另一变量增减而增减,方向相同;r 值为负表示负相关,说明一变量增加、另一变量减少,即方向相反;r 的绝对值等于1为完全相关。

3. 样本相关系数r 的假设检验 (1)r 界值表法; (2)t 检验法。

(三)直线回归与相关的区别与联系 1. 区别

(1) 资料要求:直线回归要求因变量Y 服从正态分布,X 是可以精确测量和严格控制的变量,一般称为Ⅰ型回归;直线相关要求两个变量X 、Y 服从双变量正态分布。这种资料若进行回归分析称为Ⅱ型回归。

(2) 应用情况:直线回归是说明两变量依存变化的数量关系;直线相关是说明两变量间的相关关系。 (3) 意义:b 表示X 每增(减)一个单位时,Y 平均改变b 个单位;r 说明具有直线关系的两个变量间关系的密切程度与相关方向。

(4) 计算:b= l xy / l xx ;r = l xy /yy xx l l 。 (5) 取值范围:—∞<b <+∞ ;-1≤r ≤1 。 (6) 单位:b 有单位;r 没有单位。 2. 联系

(1) 方向一致:对一组数据若能同时计算b 和r ,它们的符号一致。

(2) 假设检验等价:对同一样本,r 和b 的假设检验得到的t 值相等,即t b =t r 。 (3) 用回归解释相关:决定系数总回SS SS l l l r yy

xx xy

==2

2

,回归平方和越接近总平方和,

则r 2越接近1,说明引入相关的效果越好。 (四)秩相关

秩相关,又称等级相关(rank correlation ),是用双变量等级数据作直线相关分析,适用于下列资料: ⒈ 不服从双变量正态分布而不宜作积差相关分析; ⒉ 总体分布型未知; ⒊ 用等级表示的原始数据。

三、典型试题分析

1.回归系数的假设检验( )

A .只能用r 的检验代替

B .只能用t 检验

C .只能用F 检验

D .三者均可

答案:D [评析] 本题考点:回归系数假设检验方法的理解。

回归系数的假设检验常用的方法有:①方差分析;②t 检验。对同一样本,r 和b 的假设检验等价,r 和b 的假设检验得到的t 值相等,即t b =t r 。故回归系数的假设检验用三者均可。

2.已知r 1=r 2,那么( )

A .b 1=b 2

B .t b 1=t b 2

C .t r 1=t r 2

D .两样本决定系数相等

答案: D [评析] 本题考点:直线相关系数与回归系数关系的理解。

因为相关系数r 和回归系数b 的计算公式不同,不能推导出b 1=b 2 ;r 和b 的假设检验等价,即t r 1= t b 1,t r 2=t b 2,而不是t b 1=t b 2,t r 1=t r 2 ;样本决定系数为r 2,已知r 1=r 2,则两样本决定系数相等,即r 12

=r 22

3.|r |>r 0.05( n-2)时,可认为两变量X 与Y 间( )

A .有一定关系 B. 有正相关关系

C .一定有直线关系 D. 有直线关系

答案: D [评析] 本题考点:直线相关系数假设检验的理解。

因为直线相关系数r 是样本的相关系数,它是相应总体相关系数ρ的估计值。由于抽样误差的影响,必须进行显著性检验。r 的假设检验是检验两变量是否有直线相关关系。|r |>r 0.05( n-2)时,P <0.05,拒绝H 0,接受H 1,认为总体相关系数ρ≠0,因此可认为两变量X 与Y 间有直线关系。

4.相关系数检验的无效假设H 0是( )

A .ρ=0 B. ρ≠0 C .ρ>0 D. ρ<0

答案: A [评析] 本题考点:直线相关系数显著性检验中检验假设的理解。

因为r 是样本相关系数,它是总体相关系数ρ的估计值。要判两变量间是否有相关关系,就要检验r 是否来自总体相关系数ρ为零的总体。因为即使从ρ=0的总体作随机抽样,由于抽样误差的影响,所得r 值也常不等于零。

5.同一双变量资料,进行直线相关与回归分析,有( )。

A .r >0,b <0 B. r >0,b >0

C .r <0,b >0 D. r 与b 的符号毫无关系

答案: B [评析] 本题考点:直线相关与回归的区别与联系的理解。

因为对同一资料而言直线相关系数与回归系数的方向一致,若能同时计算b 和r ,它们的符号一致。因此,同一双变量资料,进行直线相关与回归分析,有r >0,b >0。

四、习 题

(一) 单项选择题 1.

下列( )式可出现负值。

A .∑(X —X )2

B .∑Y 2—(∑Y )2/n

C .∑(Y —Y ) 2

D .∑(X —X )(Y —Y ) 2.

Y =14+4X 是1~7岁儿童以年龄(岁)估计体重(市斤)的回归方程,若体重换成国际单位kg ,则此方程( )。

A .截距改变

B .回归系数改变

C .两者都改变

D .两者都不改变

3.

已知r =1,则一定有( )。

A .b =1

B .a =1

C .S Y. X =0

D .S Y. X = S Y

4.

用最小二乘法确定直线回归方程的原则是各观察点( )。 A .距直线的纵向距离相等 B .距直线的纵向距离的平方和最小 C .与直线的垂直距离相等 D .与直线的垂直距离的平方和最小

5.

直线回归分析中,X 的影响被扣除后,Y 方面的变异可用指标( )表示。

A .,x y S = B. r S =

C. ,y x S =

D. b S S =6.

直线回归系数假设检验,其自由度为( )。

A .n

B .n -1

C .n -2

D .2n -1 7.

应变量Y 的离均差平方和划分,可出现( )。

A .SS 剩=SS 回

B .SS 总=SS 剩

C .SS 总=SS 回

D .以上均可 8. 下列计算SS 剩的公式不正确的是( )。

A .YY XY l l b -

B . YY XX l bl - C. 2

YY XY XX l l l - D .2(1)YY r l - 9. 直线相关系数可用( )计算。

A .YY XX XY

l l l B .YY XX YX l l b

C .XY YX b b

D . 以上均可

10. 当r =0时,bX a Y

+=?回归方程中有( )。 A .a 必大于零 B. a 必等于X C .a 必等于零 D. a 必等于Y

(二) 名词解释

1. 直线回归

2. 回归系数

3. 剩余平方和

4. 回归平方和

5. 直线相关

6. 零相关

7. 相关系数

8. 决定系数

9. 曲线直线化 10.秩相关 (三) 是非题

1. 剩余平方和SS 剩1=SS 剩2,则r 1必然等于r 2。

2. 直线回归反映两变量间的依存关系,而直线相关反映两变量间的相互直线关系。 3. 两变量关系越密切r 值越大。 (四)简答题

1. 用什么方法考察回归直线图示是否正确? 2. 剩余标准差的意义和用途?

3. 某资料n =100,X 与Y 的相关系数为r =0.1,可否认为X 与Y 有较密切的相关关系? 4. r 与r s 的应用条件有何不同?

5. 应用直线回归和相关分析时应注意哪些问题? 6. 举例说明如何用直线回归方程进行预测和控制? 7. 直线回归分析时怎样确定因变量与自变量? (五)计算题

1.10名20岁男青年身高与前臂长的数据见表10-2。

⑴计算相关系数并对ρ=0进行假设检验;

⑵计算总体ρ的95%可信区间。

表10-2 10名20岁男青年身高与前臂长

身 高

(cm )

170 173 160 155 173 188 178 183 180 165 前臂长

(cm )

45 42 44 41 47 50 47 46 49 43

2. 某单位研究代乳粉营养价值时,用大白鼠作实验,得到大白鼠进食量和增加体重的数据见表10-3。

⑴此资料有无可疑的异常点?

⑵求直线回归方程并对回归系数作假设检验。

⑶试估计进食量为900g 时,大白鼠的体重平均增加多少,计算其95%的可信区间,并说明其含义。 ⑷求进食量为900g 时,个体Y 值的95%容许区间,并解释其意义。

进食量(g )

800 780 720 867 690 787 934 750 增量(g )

185 158 130 180 134 167 186 133

3. 某省卫生防疫站对八个城市进行肺癌死亡回顾调查,并对大气中苯并(a )芘进行监测,结果如下,试检验两者有无相关?

表10-4 八个城市的肺癌标化死亡率和大气中苯并(a )芘浓度

肺癌标化死亡率(1/10万) 5.60 18.50 16.23 11.40 13.80 8.13 18.00 12.10 苯并(a )芘(μg /100m 3) 0.05

1.17 1.05 0.10 0.75

0.50

0.65 1.20

4. 就下表资料分析血小板和出血症的关系。 表10-5 12例病人的血小板浓度和出血症的关系 病例号 1 2 3 4 5 6 7 8 9 10 11 12 血小板数(109/L ) 120 130 160 310 420 540 740 1060 1260 1230 1440 2000 出血症状

++

+++

±

+

+

++

五、习题答题要点

(一) 单项选择题

1.D

2.C

3.C

4.B

5.C

6.C

7.D

8.B

9.D 10.D (二) 名词解释

1. 直线回归(linear regression )建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simple regression )。

2. 回归系数(regression coefficient )即直线的斜率(slope),在直线回归方程中用b 表示,b 的统计意义为X 每增(减)一个单位时,Y 平均改变b 个单位。

3. 剩余平方和(residual sum of squares ),SS 剩即()

∑-2

?Y Y ,它反映X 对Y 的线性影响之外的一切因素对Y 的

变异的作用,也就是在总平方和中无法用X 解释的部分。在散点图中,各实测点离回归直线越近,()

∑-2

?Y

Y 也就越

小,说明直线回归的估计误差越小。

4. 回归平方和(regression sum of squares ),SS 回即()

∑-2

?Y Y

,它反映由于X 与Y 的直线关系而使Y 的总变异

所减小的部分,也就是在总平方和中可以用X 解释的部分。回归平方和越大,说明回归效果越好。

5. 直线相关(linear correlation )又称简单相关(simple correlation ),用于双变量正态分布资料。有正相关、负相关和零相关等关系。直线相关的性质可由散点图直观的说明。

6. 零相关(zerro correlation )是指两变量间没有直线相关关系。

11. 相关系数又称积差相关系数(coefficient of product-moment correlation ),以符号r 表示样本相关系数,ρ表示总体相关系数。它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。

12. 决定系数(coefficient of determination )即r 的平方,总

SS SS l l l l l l r YY XX XY YY XX XY =

==2

22

,说明当SS 总固定不变时,回归平方和的大小决定了r 平方的大小。回归平方和越接近总平方和,则r 平方值越接近1。

13. 曲线直线化(rectification )是曲线拟合的重要手段之一。对于某些非线性的资料可以通过简单的变量变换使之直线化,用直线回归分析方法来分析。

14. 秩相关又称等级相关(rank correlation ),是用双变量等级数据作直线相关分析,适用于下列资料:⑴不服从双变量正态分布而不宜作积差相关分析;⑵总体分布型未知;⑶用等级表示的原始数据。

(三)是非题

1.错。两样本剩余平方和SS 剩1=SS 剩2,但两样本总平方和SS 总及回归平方和SS 回不一定相等,故两样本相关系数r 1与 r 2不一定相等。

2.正确。

3.错。相关系数r 有正负之分,其值为-1≤r ≤1,在总体相关系数不为零,即两变量确有直线关系前提下,r 绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切。

(四)简答题

1.用以下三种方法判定:

⑴直线必须通过点(Y X ,)。

⑵若纵坐标、横坐标无折断号时,将此线左端延长与纵轴相交,交点的纵坐标必等于截距a 。 ⑶直线是否在自变量X 的实测范围内。 2.剩余标准差用s Y . X 表示:()()

()2?22

.--=-=∑n Y

Y n SS s X

Y 剩

其意义是指当X 对Y 的影响被扣除后,Y 方面仍有变异。这部分变异与X 无关,纯属抽样变异。故s Y . X 是用来反映Y 的剩余变异的,即不考虑X 以后Y 本身的随机变异。剩余标准差可用于:

⑴估计回归系数b 的标准误,XX X

Y b l s s .=,进行回归系数的区间估计和假设检验。

⑵估计总体中当X 为某一定值时,估计值Y ?的标准误。∑

--+=22.?)()(1X X X X n s s X

Y Y

并可计算Y

?的可信区间,s Y . X 可作为预报精度的指标。 ⑶估计总体中当X 为某一定值时,个体Y 值的标准差。

∑--+=2

2

.?)

()(1X X X X n s s X Y Y ,并计算个体Y 值的容许区间。

3.n =100,r =0.1时,对相关系数进行t 检验,按检验水准α=0.05,拒绝H 0(ρ=0),接受H 1(ρ≠0),认为两变量有相关关系,但决定系数r 2=0.12=0.01,表示回归平方和在总平方和中仅占1%,说明两变量间相关关系实际意义不大。

4.积差相关系数r 用于描述双变量正态分布资料的相关关系。等级相关系数r s 适用于下列资料: ⑴不服从双变量正态分布而不宜作积差相关分析的资料; ⑵总体分布型未知的资料; ⑶原始资料是用等级表示的资料。 5.注意以下五个问题

⑴作回归分析和相关分析时要有实际意义,不能把毫无关联的两种现象作回归、相关分析,必须对两种现象间的内在联系有所认识。

⑵在进行回归分析和相关分析之前,应绘制散点图。但观察点的分布有直线趋势时,才适宜作回归、相关分析。如果散点图呈明显曲线趋势,应使之直线化再行分析。散点图还能提示资料有无可疑异常点。

⑶直线回归方程的应用范围一般以自变量的取值范围为限。若无充分理由证明超过自变量取值范围外还是直线,应避免外延。

⑷双变量的小样本经t 检验只能推断两变量间有无直线关系,而不能推断相关的紧密程度,要推断相关的紧密程度,样本含量必须很大。

⑸相关或回归关系不一定是因果关系,也可能是伴随关系,有相关或回归关系不能证明事物间确有内在联系。 6.用直线回归方程进行预测和控制的步骤

⑴根据研究目的确定预报因子(X )和预报量(Y ),由X 估计Y 值,收集资料。

⑵建立预报方程bX a Y

+=?,并进行回归系数假设检验。若P 小于临界值,则回归方程成立。 ⑶根据回归方程在X 实测范围内对Y 进行预测,并计算X 为某定值时,个体Y 值波动范围(容许区间)。

例如,1~7岁儿童,X 为年龄,Y 为体重,可根据年龄预测(估计)体重。

统计控制是利用回归方程进行逆估计,如要求因变量Y 值在一定范围内波动,可以通过控制自变量X 的取值来实现。步骤同前。例如,针刺哑门穴,进针深度Y 与颈围X 间存在直线关系,可根据X 取值达到控制Y 的目的。

7.Ⅰ型回归中,X 为精密测量和严格控制的变量,Y 为正态变量。Ⅱ型回归中,X 、Y 均为服从正态分布的随机变量,可计算两个回归方程。何者为X ,何者为Y ,根据研究目的确定。例如,测得某一人群的身高和体重两变量,若目的只是由身高估计体重,则确定X 为身高,Y 为体重。

(五)计算题

1.由原始数据及散点图的初步分析(图10-1),估计本资料有直线趋势。

(1)计算相关系数

()()()8227.04

.785.962226

226

104541725785414

.7810454206905

.96210172529852578541

4.4520690454

5.172298525

17252

2

2

2

2

2

2

2=?==

=?-=-==-=-==-=-========∑∑∑∑∑∑∑∑∑∑∑∑YY XX XY XY

YY XX

l l l r n Y X XY l n Y Y l n X X l XY Y Y Y X X X ,,,,,

与ρ=0进行假设检验。

H 0:ρ=0,即身高与前臂长间无直线相关关系 H 1:ρ≠0,即身高与前臂长间有直线相关关系

()()

09.48227

.012108227.02102

2

=--?=

--=-=

n r r

s r t r

α=0.05

82102=-=-=n ν,查t 界值表,得0.002

年身高与前臂长呈正直线相关。

⑵ 算总体ρ的95%可信区间。 对r 作z 变换:

1651.18227.018227.01ln 2111ln 21=??

? ??-+=??? ??-+=r r z

或,z =tanh —

10.8227=1.1651

z 的95%可信区间:

()()

()

9059.14243.031096

.11651.131096.11651.13305

.005

.0,,,=-+--=-+--n u z n u z

按r =tanhz 对z 作反变换,得20岁男青年身高与与前臂长总体相关系数的95%可信区间为(0.4005,0.9567)。 2.由原始数据及散点图初步分析(图10-2),估本资料有直线趋势,故作下列计算。 ∑X =6328,∑X 2=5048814,791=X

∑Y =1273,∑Y 2=206619,125.159=Y ,∑XY =1018263

326

.47791261.0125.159261.043366

11320

113208127363281018263)()(875

.405281273206619)(43366863285048814)(222222-=?-=-====

=?-=-==-=-==-=-=∑∑∑∑∑∑∑X b Y a l l b n Y X XY l Y Y l X X l XX XY XY YY XX

图10-2 大白鼠的进食量与增加体重散点图

(1)回归系数假设检验:

H 0:β=0,即进食量与增重之间无直线关系 H 1:β≠0,即进食量与增重之间有直线关系α=0.05

97

.1097905.2954875.4052905

.29544336611320875

.405222=-=-======回总剩回总SS SS SS l l SS l SS XX XY YY

方差分析,见表10-6。 表10-6 方差分析表

变异来源

SS

υ MS F 总变异 4052.875 7

回归 2954.905 1 2954.905 16.147 剩余

1097.970

6

182.995

计算得F =16.147,查F 界值表,得P <0.01,按α=0.05水准,拒绝H 0,接受H 1,可认为大白鼠的进食量与增加

体重间有直线关系。

② t 检验:

H 0:β=0,即进食量与增重之间无直线关系 H 1:β≠0,即进食量与增重之间有直线关系α=0.05

97

.1097905.2954875.4052905

.29544336611320875

.405222=-=-======回总剩回总SS SS SS l l SS l SS XX XY YY

018

.443366

5276.13261.005276

.132897.10972..===-==-=-=XX X Y b X Y l s b s b t n SS s )()(剩

按υ=6,查t 界值表,得0.01>P >0.05,按α=0.05水准,拒绝H 0,接受H 1,结论同上。 本题

t F ===018.4147.16

故可用直线回归方程X bX a Y

261.0326.47?+-=+=来描述大白鼠的进食量与增加体重的关系。 异常点即对应于残差(Y -Y

?)绝对值特大的观测数据见表10-7。 表10-7 残差的计算

序号 X Y Y

? Y -Y ?

1 800 185 161.474 23.526

2 780 158 156.254 1.746

3 720 130 140.59

4 -10.594 4 867 180 178.961 1.039

5 690 134 132.764 1.23

6 6 78

7 167 158.081 8.919 7 934 186 196.44

8 -10.448 8 750 133 148.424 -15.424

由散点图及残差分析,第一号点(X =800,Y =185)为可疑的异常点。

⑵根据以上的计算结果,进一步求其总体回归系数的95%可信区间。绘制回归直线并图示回归系数95%可信区间。 总体回归系数β的95%可信区间:

(b -t 0.05(n -2) S b ,b +t 0.05(n -2) S b )

=(0.261-2.447×13.5107∕43366,0.261+2.447×13.5107∕43366) =(0.1022,0.4198)

取X 1=690,代入回归方程Y

?=-47.326+0.261X ,得Y 1=132.76;X 2=934,Y 2=196.45。在图上确定(690,132.76)和(934,196.45)两个点,以直线连接即得回归直线的图形见图10-2。

按回归系数的95%可信区间下限和上限分别代入X b Y a -=,得1a =78.285,2a =-172.937。回归系数的95%

可信区间上、下限对应的两条直线,即图10-2中两条回归直线,回归方程为:

Y

?=78.285+0.1022X ,Y ?=-172.937+0.4198X ⑶估计进食量为900g 时,大白鼠的体重平均增加多少,计算其95%的可信区间,并说明其含义。

5446

.843366)791900(815276.13)()(12

2

2

.=-+=--+=X X X X n s s X Y Y

当X =900时,Y ?μ的95%可信区间:

(Y ?-t 0.05(6) Y s ?,Y ?+t 0.05(6) Y

s ?) =(187.574-2.447×8.5446,187.574+2.447×8.5446)=(166.67,208.48)

即总体中,进食量为900g 时,大白鼠的体重平均增加187.574g ,其95%的可信区间为166.67~208.48g 。

其含义为:当进食量为900g 时,相应的平均增重服从一个正态分布(此正态分布的样本均数估计值为187.574g ),如果从此正态分布中重复抽样100次,这100个可信区间中理论上将有95个区间包含真正的总体均数(虽然这个总体均数真值是未知的)。

⑷求进食量为900g 时,个体Y 值的95%容许区间,并解释其意义。

0002

.1643366)791900(8115276.13)()(1122

2

.=-++=--++=X X X X n s s X Y Y

当X =900时,Y

?=-47.326+0.261X =187.574,个体Y 值的95%容许区间: (Y ?

-t 0.05(6)S Y ,Y

?+t 0.05(6)S Y ) =(187.574-2.447×16.0002,187.574+2.447×16.0002)=(148.42,226.73)

即估计总体中,进食量为900g 时,有95%的大白鼠增加体重在148.42~226.73g 范围内。 3.本题资料不服从双变量正态分布,宜计算等级相关系数。计算过程见表10-8

表10-8 八个城市的肺癌标化死亡率和大气中苯并(a )芘的相关分析

城市编号 ⑴ X ⑵ 等级 ⑶ Y ⑷ 等级 ⑸ d ⑹=⑶-⑸ d 2 ⑺

1 5.60 1 0.05 1 0 0

2 18.50 8 1.17 7 1 1

3 16.23 6 1.05 6 0 0

4 11.40 3 0.10 2 1 1

5 13.80 5 0.75 5 0 0

6 8.13 2 0.50 3 -1

1 7 18.00 7 0.65 4 3 9 8 12.10 4 1.20 8 4 16 2=28

H 0:ρs =0,即肺癌标化死亡率和大气中苯并(a )芘无相关关系 H 1:ρs ≠0,即肺癌标化死亡率和大气中苯并(a )芘有相关关系

α=0.05

由上计算表,r s =1-6∑d 2/[n (n 2-1)]=1-6×28/[8×(82-1)]=0.6667

查r s 界值表,得0.10>P >0.05,按α=0.05水准,不拒绝H 0,尚不能认为肺癌标化死亡率和大气中的苯并(a )芘有相关关系。

4.本题资料不服从双变量正态分布,宜计算等级相关系数。计算过程见表10-9。

表10-9 血小板数与出血症状的等级相关分析

血小板数(×10/L )

出血症状

病例号 ⑴ X ⑵ 等级 ⑶ Y ⑷ 等级 ⑸ d

⑹=⑶-⑸ d 2 ⑺ 1 120 1 ++ 10.5 -9.5 90.25 2 130 2 +++ 12.5

-10.0 100.00 3 160 3 ±

7.0 -4.0 16.00 4 310 4 -

3.5 0.5 0.25 5 420 5 + 8.5 -3.5 12.25 6 540 6 + 8.5

-2.5 6.25 7 740 7 -

3.5 3.5 12.25 8 1060 8 -

3.5

4.5 20.25 9 1260 10 -

3.5 6.5 42.25 10 1230 9 -

3.5 5.5 30.25 11 1440 11 ++ 10.5

0.5 0.25 12 2000 12 -

3.5 8.5 72.25

∑d 2=402.5

H 0:ρs =0,即血小板数与出血症状无相关关系 H 1:ρs ≠0,即血小板数与出血症状有相关关系

α=0.05 因出血症状Y 中,相同秩次较多,需计算校正r s 值s r '。 T X =0

T Y =∑(t 3-t )/12=[(63-6)+(23-2)+( 23-2)]/12=18.5

()[]

()()[]()[]()[]()()[]()[]5095

.05

.182612120612125.4025.1806121226263

33

3

3

2

3

-=?-----+--=

-----+--='∑Y

X

Y X s T n n T n n d T T n n

r 查r s 界值表,得0.10>P >0.05,按α=0.05水准,不拒绝H 0,尚不能认为血小板数与出血症状有相关关系。

(王彤 万毅)

线性回归分析练习题

§1 回归分析 1.1 回归分析 1.2 相关系数 一、基础过关 1.下列变量之间的关系是函数关系的是( ) A.已知二次函数y=ax2+bx+c,其中a,c是已知常数,取b为自变量,因变量是这个函数的判别式Δ=b2-4ac B.光照时间和果树亩产量 C.降雪量和交通事故发生率 D.每亩施用肥料量和粮食产量 2.在以下四个散点图中, 其中适用于作线性回归的散点图为( ) A.①②B.①③C.②③D.③④ 3.下列变量中,属于负相关的是( ) A.收入增加,储蓄额增加 B.产量增加,生产费用增加 C.收入增加,支出增加 D.价格下降,消费增加

4.已知对一组观察值(x i,y i)作出散点图后确定具有线性相关关系,若对于y=bx+a,求得b=0.51,x= 61.75,y=38.14,则线性回归方程为( ) A.y=0.51x+6.65 B.y=6.65x+0.51 C.y=0.51x+42.30 D.y=42.30x+0.51 5.对于回归分析,下列说法错误的是( ) A.在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定 B.线性相关系数可以是正的,也可以是负的 C.回归分析中,如果r2=1,说明x与y之间完全相关 D.样本相关系数r∈(-1,1) 6.下表是x和y之间的一组数据,则y关于x的回归方程必过( ) A.点(2,3) B C.点(2.5,4) D.点(2.5,5) 7.若线性回归方程中的回归系数b=0,则相关系数r=________. 二、能力提升 8.某医院用光电比色计检验尿汞时,得尿汞含量(mg/L)与消光系数计数的结果如下: 若y与x 9.若施化肥量x(kg)与小麦产量y(kg)之间的线性回归方程为y=250+4x,当施化肥量为50 kg时,预计小麦产量为________ kg. 10.某车间为了规定工时定额,需确定加工零件所花费的时间,为此做了4次试验,得到的数据如下:

统计学试题库及答案

统计学试题库及答案 Document serial number【KKGB-LBS98YT-BS8CB-BSUT-BST108】

《统计学》试题库 知识点一:统计基本理论和基本概念 一、填空题 1、统计是、和的统一体,是统计工作的成果,是统计工作的经验总结和 理论概括。 2、统计研究的具体方法主要有、、和。 3、统计工作可划分为、、和四个阶段。 4、随着的改变,总体和是可以相互转化的。 5、标志是说明,指标是说明。 6、可变的数量标志和所有的统计指标称为,变量的具体数值称为。 7、变量按分,可分为连续变量和离散变量,职工人数、企业数属于变量;变量按分,可 分为确定性变量和随机变量。 8、社会经济统计具有、、、等特点。 9、一个完整的统计指标应包括和两个基本部分。 10、统计标志按是否可用数值表示分为和;按在各个单位上的具体表现是否相同分为 和。 11、说明特征的名称叫标志,说明特征的名称叫指标。 12、数量指标用表示,质量指标用或平均数表示。 13、在统计中,把可变的和统称为变量。 14、由于统计研究目的和任务的变更,原来的变成,那么原来的指标就相应地变成标志,两者 变动方向相同。 二、是非题 1、统计学和统计工作的研究对象是完全一致的。 2、运用大量观察法,必须对研究对象的所有单位进行观察调查。 3、统计学是对统计实践活动的经验总结和理论概括。 4、一般而言,指标总是依附在总体上,而总体单位则是标志的直接承担者。 5、数量指标是由数量标志汇总来的,质量指标是由品质标志汇总来的。 6、某同学计算机考试成绩80分,这是统计指标值。 7、统计资料就是统计调查中获得的各种数据。 8、指标都是用数值表示的,而标志则不能用数值表示。 9、质量指标是反映工作质量等内容的,所以一般不能用数值来表示。 10、总体和总体单位可能随着研究目的的变化而相互转化。 11、女性是品质标志。

统计学计算例题及答案

计算题例题及答案: 1、某校社会学专业同学统计课成绩如下表所示。 社会学专业同学统计课成绩表 学号成绩学号成绩学号成绩101023 76 101037 75 101052 70 101024 91 101038 70 101053 88 101025 87 101039 76 101054 93 101026 78 101040 90 101055 62 101027 85 101041 76 101056 95 101028 96 101042 86 101057 95 101029 87 101043 97 101058 66 101030 86 101044 93 101059 82 101031 90 101045 92 101060 79 101032 91 101046 82 101061 76 101033 80 101047 80 101062 76 101034 81 101048 90 101063 68 101035 80 101049 88 101064 94 101036 83 101050 77 101065 83 要求: (1)对考试成绩按由低到高进行排序,求出众数、中位数和平均数。

(2)对考试成绩进行适当分组,编制频数分布表,并计算累计频数和累计频率。答案: (1)考试成绩由低到高排序: 62,66,68,70,70,75,76,76,76,76,76,77,78,79, 80,80,80,81,82,82,83,83,85,86,86,87,87,88, 88,90,90,90,91,91,92,93,93,94,95,95,96,97, 众数:76 中位数:83 平均数: =(62+66+……+96+97)÷42 =3490÷42 =83.095 (2) 按成绩 分组频数频率(%) 向上累积向下累积 频数频率(%) 频数频率(%) 60-69 3 7.143 3 7.143 42 100.000 70-79 11 26.190 14 33.333 39 92.857 80-89 15 35.714 29 69.048 28 66.667

线性回归习题

线性回归习题 Company number:【WTUT-WT88Y-W8BBGB-BWYTT-19998】

第9章一元线性回归练习题 一.选择题 1.具有相关关系的两个变量的特点是() A.一个变量的取值不能由另一个变量唯一确定 B.一个变量的取值由另一个变量唯一确定 C.一个变量的取值增大时另一个变量的取值也一定增大 D.一个变量的取值增大时另一个变量的取值肯定变小 2.下面的各问题中,哪个不是相关分析要解决的问题 A.判断变量之间是否存在关系B.判断一个变量数值的变化对另一个变量的影响 C.描述变量之间的关系强度 D.判断样本所反映的变量之间的关系能否代表总体变量之间的关系 3.根据下面的散点图,可以判断两个变量之间存在() A.正线性相关关系 B. 负线性相关关系 C. 非线性关系 D. 函数关系 4.下面的陈述哪一个是错误的() A. 相关系数是度量两个变量之间线性关系强度的统计量 B.相关系数是一个随机变量 C.相关系数的绝对值不会大于1 D.相关系数不会取负值 5.根据你的判断,下面的相关系数取值哪一个是错误的() A. B. 0.78 C. D. 0 6.如果相关系数r=0,则表明两个变量之间() A.相关程度很低 B. 不存在任何关系

C .不存在线性相关关系 D.存在非线性关系 7. 下列不属于相关关系的现象是( ) A.银行的年利息率与贷款总额 B.居民收入与储蓄存款 C.电视机的产量与鸡蛋产量 D.某种商品的销售额与销售价格 8.设产品产量与产品单位成本之间的线性相关系数为,这说明二者之间存在着( ) A. 高度相关 B.中度相关 C.低度相关 D.极弱相关 9.在回归分析中,被预测或被解释的变量称为( ) A.自变量 B.因变量 C.随机变量 D.非随机变量 10. 对两变量的散点图拟合最好的回归线,必须满足一个基本的条件是( ) A. 2?()y y ∑-最小 B. 2)(?y y ∑-最大 C.2?()y y ∑-最大 D. 2)(?y y ∑-最小 11. 下列哪个不属于一元回归中的基本假定( ) A.误差项i ε服从正态分布 B. 对于所有的X ,方差都相同 C. 误差项i ε相互独立 D. 0)?=-i i y y E ( 12.如果两个变量之间存在着负相关,指出下列回归方程中哪个肯定有误( ) A.x y 75.025?-= B. x y 86.0120?+-= C. x y 5.2200?-= D. x y 74.034?--= 13.对不同年份的产品成本拟合的直线方程为,75.1280?x y -=y 表示产品成本,x 表示不同年份,则可知( ) A.时间每增加一个单位,产品成本平均增加个单位 B. 时间每增加一个单位,产品成本平均下降个单位 C.产品成本每变动一个单位,平均需要年时间 D. 产品成本每减少一个单位,平均需要年时间

统计学试题及答案

统计学试题及答案文件排版存档编号:[UYTR-OUPT28-KBNTL98-UYNN208]

统计学试题及答案 一.单选题(每题2分,共20分) 1.在对工业企业的生产设备进行普查时,调查对象是 A 所有工业企业 B 每一个工业企业 C 工业企业的所有生产设备 D 工业企业的每台生产设备 2.一组数据的均值为20, 离散系数为, 则该组数据的标准差为 A 50 B 8 C D 4 3.某连续变量数列,其末组为“500以上”。又知其邻组的组中值为480,则末组的组中值为 A 520 B 510 C 530 D 540 4.已知一个数列的各环比增长速度依次为5%、7%、9%,则最后一期的定基增长速度为 A.5%×7%×9% B. 105%×107%×109% C.(105%×107%×109%)-1 D. 5.某地区今年同去年相比,用同样多的人民币可多购买5%的商品,则物价增(减)变化的百分比为 A. –5% B. –% C. –% D. % 6.对不同年份的产品成本配合的直线方程为 , 回归系数b= -表示 A. 时间每增加一个单位,产品成本平均增加个单位 B. 时间每增加一个单位,产品成本平均下降个单位 C. 产品成本每变动一个单位,平均需要年时间

7.某乡播种早稻5000亩,其中20%使用改良品种,亩产为600 公斤,其余亩产为500 公斤,则该乡全部早稻亩产为 A. 520公斤 B. 530公斤 C. 540公斤 D. 550公斤 8.甲乙两个车间工人日加工零件数的均值和标准差如下: 甲车间: =70件, =件乙车间: =90件, =件 哪个车间日加工零件的离散程度较大: A甲车间 B. 乙车间 C.两个车间相同 D. 无法作比较 9. 根据各年的环比增长速度计算年平均增长速度的方法是 A 用各年的环比增长速度连乘然后开方 B 用各年的环比增长速度连加然后除以年数 C 先计算年平均发展速度然后减“1” D 以上三种方法都是错误的 10. 如果相关系数r=0,则表明两个变量之间 A. 相关程度很低 B.不存在任何相关关系 C. 不存在线性相关关系 D.存在非线性相关关系 二. 多选题 (每题2分,共14分) 1. 下列数据中属于时点数的有 A. 流动资金平均余额20万元 B. 储蓄存款余额500万元 C. 商品销售额80万元 D. 固定资产300万元 E. 企业职工人数2000人 2. 在数据的集中趋势的测量值中,不受极端数值影响的测度值是

统计学计算题答案..

第 1 页/共 12 页 1、下表是某保险公司160名推销员月销售额的分组数据。书p26 按销售额分组(千元) 人数(人) 向上累计频数 向下累计频数 12以下 6 6 160 12—14 13 19 154 14—16 29 48 141 16—18 36 84 112 18—20 25 109 76 20—22 17 126 51 22—24 14 140 34 24—26 9 149 20 26—28 7 156 11 28以上 4 160 4 合计 160 —— —— (1) 计算并填写表格中各行对应的向上累计频数; (2) 计算并填写表格中各行对应的向下累计频数; (3)确定该公司月销售额的中位数。 按上限公式计算:Me=U- =18-0.22=17,78 2、某厂工人按年龄分组资料如下:p41 工人按年龄分组(岁) 工人数(人) 20以下 160 20—25 150 25—30 105 30—35 45 35—40 40 40—45 30 45以上 20 合 计 550 要求:采用简捷法计算标准差。《简捷法》 3、试根据表中的资料计算某旅游胜地2004年平均旅游人数。P50 表:某旅游胜地旅游人数 时间 2004年1月1日 4月1日 7月1日 10月1日 2005年1月1 日 旅游人数(人) 5200 5000 5200 5400 5600 4、某大学2004年在册学生人数资料如表3-6所示,试计算该大学2004年平均在册学生人数. 时间 1月1日 3月1日 7月1日 9月1日 12月31日 在册学生人数(人) 3408 3528 3250 3590 3575

简单线性回归分析思考与练习参考答案

第10章 简单线性回归分析 思考与练习参考答案 一、最佳选择题 1.如果两样本的相关系数21r r =,样本量21n n =,那么( D )。 A. 回归系数21b b = B .回归系数12b b < C. 回归系数21b b > D .t 统计量11r b t t = E. 以上均错 2.如果相关系数r =1,则一定有( C )。 A .总SS =残差SS B .残差SS =回归 SS C .总SS =回归SS D .总SS >回归SS E. 回归MS =残差MS 3.记ρ为总体相关系数,r 为样本相关系数,b 为样本回归系数,下列( D )正确。 A .ρ=0时,r =0 B .|r |>0时,b >0 C .r >0时,b <0 D .r <0时,b <0 E. |r |=1时,b =1 4.如果相关系数r =0,则一定有( D )。 A .简单线性回归的截距等于0 B .简单线性回归的截距等于Y 或X C .简单线性回归的残差SS 等于0 D .简单线性回归的残差SS 等于SS 总 E .简单线性回归的总SS 等于0 5.用最小二乘法确定直线回归方程的含义是( B )。 A .各观测点距直线的纵向距离相等 B .各观测点距直线的纵向距离平方和最小 C .各观测点距直线的垂直距离相等 D .各观测点距直线的垂直距离平方和最小 E .各观测点距直线的纵向距离等于零 二、思考题 1.简述简单线性回归分析的基本步骤。 答:① 绘制散点图,考察是否有线性趋势及可疑的异常点;② 估计回归系数;③ 对总体回归系数或回归方程进行假设检验;④ 列出回归方程,绘制回归直线;⑤ 统计应用。 2.简述线性回归分析与线性相关的区别与联系。

统计学题库答案

单选 问题:下列不属于相关关系的现象是( 3 )。 选项一:企业的投资与产出 选项二:居民的收入与存款 选项三:电视机产量与西红柿产量 选项四:商品销售额与商品销售价格 问题:抽样调查中的抽样误差是指(3 ) 选项一:在调查过程中由于观察、测量等差错所引起的误差 选项二:在调查中违反随机原则出现的系统误差 选项三:随机抽样而产生的代表性误差 选项四:人为原因所造成的误差 问题:企业职工工资水平比上年提高5%,职工人数增加2%,则企业工资总额增长( 2 )。 选项一:10.0% 选项二:7.1% 选项三:7.0% 选项四:7.2% 问题:在假设检验中,原假设与备择假设( 3 ) 选项一:都有可能被接受 选项二:都有可能不被接受 选项三:只有一个被接受而且必有一个被接受 选项四:原假设一定被接受,备择假设不一定被接受 问题:小王收集了1978年以来历年我国人均GDP与人均消费额的资料,如果要反映这一时期我国生产与消费的关系,用什么图形最为合适?(2 ) 选项一:直方图

选项二:散点图 选项三:饼图 选项四:折线图 问题:若回归直线方程中的回归系数为0,则直线相关系数( 3 )。 选项一:r=1 选项二:r=-1 选项三:r=0 选项四:r 无法确定 问题:若消费者价格指数为95%,则表示( 4 )。 选项一:所有商品的价格都上涨了 选项二:所有商品的价格都下跌了 选项三:商品价格有涨有落,总体来说是上涨了 选项四:商品价格有涨有落,总体来说是下跌了 问题:某连续变量数列末位组为开口组,下限为200,相邻组组中值为170,则末位组中值为( 1 )。选项一:230 选项二:200 选项三:210 选项四:180 问题:若两变量的r=0.4,且知检验相关系数的临界值为,则下面说法正确的是( 3 )。 选项一:40%的点都密集分布在一条直线的周围 选项二:40%的点低度相关 选项三:两变量之间是正相关 选项四:两变量之间没有线性关系 问题:下列指标中包含有系统性误差的是(1 ) 选项一:SSA 选项二:SSE

统计学期末考试试题(含答案)

西安交大统计学考试试卷 一、单项选择题(每小题2分,共20分) 1.在企业统计中,下列统计标志中属于数量标志的是( C) A、文化程度 B、职业 C、月工资 D、行业 2.下列属于相对数的综合指标有(B ) A、国民收入 B、人均国民收入 C、国内生产净值 D、设备台数 3.有三个企业的年利润额分别是5000万元、8000万元和3900万元,则这句话中有( B)个变量 A、0个 B、两个 C、1个 D、3个 4.下列变量中属于连续型变量的是(A ) A、身高 B、产品件数 C、企业人数 D、产品品种 5.下列各项中,属于时点指标的有(A ) A、库存额 B、总收入 C、平均收入 D、人均收入 6.典型调查是(B )确定调查单位的 A、随机 B、主观 C、随意 D盲目 7.总体标准差未知时总体均值的假设检验要用到( A ): A、Z统计量 B、t统计量 C、统计量 D、X统计量 8. 把样本总体中全部单位数的集合称为(A ) A、样本 B、小总体 C、样本容量 D、总体容量 9.概率的取值范围是p(D ) A、大于1 B、大于-1 C、小于1 D、在0与1之间 10. 算术平均数的离差之和等于(A ) A、零 B、 1 C、-1 D、2 二、多项选择题(每小题2分,共10分。每题全部答对才给分,否则不计分) 1.数据的计量尺度包括( ABCD ): A、定类尺度 B、定序尺度 C、定距尺度 D、定比尺度 E、测量尺度 2.下列属于连续型变量的有( BE ): A、工人人数 B、商品销售额 C、商品库存额 D、商品库存量 E、总产值 3.测量变量离中趋势的指标有( ABE ) A、极差 B、平均差 C、几何平均数 D、众数 E、标准差 4.在工业企业的设备调查中( BDE ) A、工业企业是调查对象 B、工业企业的所有设备是调查对象 C、每台设备是 填报单位 D、每台设备是调查单位 E、每个工业企业是填报单位 5.下列平均数中,容易受数列中极端值影响的平均数有( ABC ) A、算术平均数 B、调和平均数 C、几何平均数 D、中位数 E、众数 三、判断题(在正确答案后写“对”,在错误答案后写“错”。每小题1分,共10分) 1、“性别”是品质标志。(对) 2、方差是离差平方和与相应的自由度之比。(错) 3、标准差系数是标准差与均值之比。(对) 4、算术平均数的离差平方和是一个最大值。(错) 5、区间估计就是直接用样本统计量代表总体参数。(错) 6、在假设检验中,方差已知的正态总体均值的检验要计算Z统计量。(错)

线性回归练习题资料

线性回归练习 一、选择题 1.下列两个变量之间的关系中,哪个是函数关系 ( ) A.学生的性别与他的数学成绩 B.人的工作环境与健康状况 C.女儿的身高与父亲的身高 D. 正三角形的边长与面积 2.从某大学随机选取8名女大学生,其身高x (cm)和体重y (kg)的回归方程为 ?0.84985.712y x =-,则身高172cm 的女大学生,由回归方程可以预报其体重 ( ) A.为6 0.316kg B. 约为6 0.316kg C.大于6 0.316kg D.小于6 0.316kg 3. 工人月工资(元)依劳动生产率(千元)变化的回归直线方程为?160180y x =+,下列判断正确的是 ( ) A .劳动生产率为1000元时,工资为340元 B .劳动生产率提高1000元时,工资提高180元 C .劳动生产率提高1000元时,工资平均提高180元 D.工资为520元时,劳动生产率为2000元 4.由右表可计算出变量,x y 的线性回归方程为( ) A. ?0.350.15y x =-+ B. ?0.350.25y x =-+ C. ?0.350.15y x =+ D. ?0.350.25y x =+ 二、填空题 5.下列说法中正确的是 (填序号) ①回归分析就是研究两个相关事件的独立性;②回归模型都是确定性的函数;③回归模型都是线性的;④回归分析的第一步是画散点图或求相关系数r ;⑤回归分析就是通过分析、判断,确定相关变量之间的内在的关系的一种统计方法. 6.三点()3,10,(7,20),(11,24)的线性回归方程是 三、解答 [2016高考新课标Ⅲ文数]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图 x 5 4 3 2 1 y 2 1.5 1 1 0.5

统计学试题库及答案

1、统计学与统计工作的研究对象就是完全一致的。F 2、运用大量观察法,必须对研究对象的所有单位进行观察调查。T 3、统计学就是对统计实践活动的经验总结与理论概括。T 4、一般而言,指标总就是依附在总体上,而总体单位则就是标志的直接承担者。T 5、数量指标就是由数量标志汇总来的,质量指标就是由品质标志汇总来的。F 6、某同学计算机考试成绩80分,这就是统计指标值。F 7、统计资料就就是统计调查中获得的各种数据。F 8、指标都就是用数值表示的,而标志则不能用数值表示。F 9、质量指标就是反映工作质量等内容的,所以一般不能用数值来表示F。 10、总体与总体单位可能随着研究目的的变化而相互转化。T11、女性就是品质标志。T 12、以绝对数形式表示的指标都就是数量指标以相对数或平均数表示的指标都就是质量指标 T 13、构成统计总体的条件就是各单位的差异性。F 14、变异就是指各种标志或各种指标之间的名称的差异。F 9、调查某校学生,学生“一天中用于学习的时间”就是(A)A、标志 13、研究某企业职工文化程度时,职工总人数就是(B) B数量指标 14、某银行的某年末的储蓄存款余额(C)C、可能就是统计指标,也可能就是数量标志 15、年龄就是(B)B、离散型变量 四、多项选择题 1、全国第四次人口普查中(BCE)A、全国人口数就是统计总体B、总体单位就是每一个人 C、全部男性人口数就是统计指标 D、男女性别比就是总体的品质标志 E、人的年龄就是变量 2、统计总体的特征表现为(ACD)A、大量性B、数量性C、同质D、差异性E、客观性 3、下列指标中属于质量指标的有(ABCDE)A、劳动生产率B、产品合格率C、人口密度 D、产品单位成本 E、经济增长速度 4、下列指标中属于数量指标的有(ABC) A、国民生产总值B、国内生产总值C、固定资产净值D、劳动生产率E、平均工资 5、下列标志中属于数量标志的有(BD)A、性别B、出勤人数C、产品等级D、产品产量E 文化程度 6、下列标志中属于品质标志的有(ABE)A、人口性别B、工资级别C、考试分数D、商品使用寿命E、企业所有制性质 7、下列变量中属于离散型变量的有(BE)A、粮食产量B、人口年龄C、职工工资 D、人体身高 E、设备台数 8、研究某企业职工的工资水平,“工资”对于各个职工而言就是(ABE)A、标志B、数量标

统计学计算题例题及计算分析报告

计算分析题解答参考 1.1.某厂三个车间一季度生产情况如下: 计算一季度三个车间产量平均计划完成百分比和平均单位产品成本。 解:平均计划完成百分比=实际产量/计划产量=733/(198/0.9+315/1.05+220/1.1) =101.81% 平均单位产量成本 X=∑xf/∑f=(15*198+10*315+8*220)/733 =10.75(元/件) 1.2.某企业产品的有关资料如下: 试分别计算该企业产品98年、99年的平均单位产品成本。 解:该企业98年平均单位产品成本 x=∑xf/∑f=(25*1500+28*1020+32*980)/3500 =27.83(元/件) 该企业99年平均单位产品成本x=∑xf /∑(m/x)=101060/(24500/25+28560/28+48000/32) =28.87(元/件) 年某月甲、乙两市场三种商品价格、销售量和销售额资料如下: 1.3.1999 解:三种商品在甲市场上的平均价格x=∑xf/∑f=(105*700+120*900+137*1100)/2700 =123.04(元/件) 三种商品在乙市场上的平均价格x=∑m/∑(m/x)=317900/(126000/105+96000/120+95900/137) =117.74(元/件) 2.1.某车间有甲、乙两个生产小组,甲组平均每个工人的日产量为22件,标准差为 3.5件;乙组工人日产量资料:

试比较甲、乙两生产小组中的哪个组的日产量更有代表性? 解:∵X 甲=22件 σ甲=3.5件 ∴V 甲=σ甲/ X 甲=3.5/22=15.91% 列表计算乙组的数据资料如下: ∵x 乙=∑xf/∑f=(11*10+14*20+17*30+20*40)/100 =17(件) σ 乙=√[∑(x-x)2 f]/∑f =√900/100 =3(件) ∴V 乙=σ乙/ x 乙=3/17=17.65% 由于V 甲<V 乙,故甲生产小组的日产量更有代表性。 2.2.有甲、乙两个品种的粮食作物,经播种实验后得知甲品种的平均产量为998斤,标准差为162.7斤;乙品种实验的资料如下: 试研究两个品种的平均亩产量,确定哪一个品种具有较大稳定性,更有推广价值? 解:∵x 甲=998斤 σ甲=162.7斤 ∴V 甲=σ甲/ x 甲=162.7/998=16.30% 列表计算乙品种的数据资料如下:

第十二章相关与回归分析练习题

第十二章相关与回归分析 一、填空 1.如果两变量的相关系数为0,说明这两变量之间_____________。 2.相关关系按方向不同,可分为__________和__________。 3.相关关系按相关变量的多少,分为______和复相关。4.在数量上表现为现象依存关系的两个变量,通常称为自变量和因变量。自变量是作为(变化根据)的变量,因变量是随(自变量)的变化而发生相应变化的变量。 5.对于表现为因果关系的相关关系来说,自变量一般都是确定性变量,因变量则一般是(随机性)变量。 6.变量间的相关程度,可以用不知Y与X有关系时预测Y的全部误差E1,减去知道Y与X有关系时预测Y的联系误差E2,再将其化为比例来度量,这就是(削减误差比例)。 7.依据数理统计原理,在样本容量较大的情况下,可以作出以下两个假定:(1)实际观察值Y围绕每个估计值 c Y是 服从();(2)分布中围绕每个可能的 c Y值的()是相同的。 7.已知:工资(元)倚劳动生产率(千元)的回归方程为 x y c 80 10+ =,因此,当劳动生产率每增长1千元,工资就平 均增加80 元。 8.根据资料,分析现象之间是否存在相关关系,其表现形式或类型如何,并对具有相关关系的现象之间数量变化的议案关系进行测定,即建立一个相关的数学表达式,称为(回归方程),并据以进行估计和预测。这种分析方法,通常又称为(回归分析)。 9.积差系数r是(协方差)与X和Y的标准差的乘积之比。 二、单项选择 1.欲以图形显示两变量X和Y的关系,最好创建(D )。A 直方图 B 圆形图 C 柱形图 D 散点图2.在相关分析中,对两个变量的要求是(A )。 A 都是随机变量 B 都不是随机变量 C 其中一个是随机变量,一个是常数 D 都是常数 3. 相关关系的种类按其涉及变量多少可分为( )。 A. 正相关和负相关 B. 单相关和复相关 C. 线性相关和非线性相关 D. 不相关、不完全相关、完全相关4.关于相关系数,下面不正确的描述是(B )。 A当0≤ ≤r1时,表示两变量不完全相关;B当r=0时,表示两变量间无相关; C两变量之间的相关关系是单相关;D如果自变量增长引起因变量的相应增长,就形成正相关关系。 5. 当变量X按一定数量变化时,变量Y也随之近似地以固定的数量发生变化,这说明X与Y之间存在( )。 A. 正相关关系 B. 负相关关系 C. 直线相关关系 D. 曲线相关关系 6.当x按一定数额增加时,y也近似地按一定数额随之增加,那么可以说x与y之间存在(A )关系。 A 直线正相关 B 直线负相关 C 曲线正相关 D 曲线负相关 7.评价直线相关关系的密切程度,当r在~之间时,表示( C )。 A 无相关 B 低度相关 C 中等相关 D 高度相关 8.两变量的相关系数为,说明( ) A.两变量不相关 B.两变量负相关 C.两变量不完全相关 D.两变量完全正相关 9.两变量的线性相关系数为0,表明两变量之间(D )。 A 完全相关 B 无关系 C 不完全相关 D 不存在线性相关 10.兄弟两人的身高之间的关系是( )A.函数关系 B.因果关系 C.互为因果关系 D.共变关系 11.身高和体重之间的关系是(C )。A 函数关系 B 无关系 C 共变关系 D 严格的依存关系12.下列关系中,属于正相关关系得是(A )。

统计学题库及题库答案

统计学题库及题库答案 ) B 、进行调查的时间 D 、调查资料报送的时间 2、对某城市工业企业未安装设备进行普查,总体单位是( ) A 、工业企业全部未安装设备 B 、企业每一台未安装设备 C 、每个工业企业的未安装设备 D 、每一个工业企业 3、 对比分析不同性质的变量数列之间的变异程度时 ,应使用( )。 A 、全距 B 、平均差 C 、标准差 D 、变异系数 4、 在简单随机重复抽样条件下,若要求允许误差为原来的 2/3,则样本容量( ) A 、扩大为原来的 3倍 B 、扩大为原来的 2/3倍 C 、扩大为原来的 4/9倍 D 、扩大为原来的 2.25倍 5、 某地区组织职工家庭生活抽样调查 ,已知职工家庭平均每月每人生活费收入的标准差为 可靠程度为0.9545,极限误差为1元,在简单重复抽样条件下,应抽选( )。 A 、576 户 B 、144 户 C 、100 户 D 、288 户 6、当一组数据属于左偏分布时,则( ) A 、 平均数、中位数与众数是合而为一的 B 、 众数在左边、平均数在右边 C 、 众数的数值较小,平均数的数值较大 D 、众数在右边、平均数在左边 7、 某连续变量数列,其末组组限为 500以上,又知其邻组组中值为 480,则末组的组中值为( ) A 、 520 B 、 510 C 、 500 D 、 490 8、 用组中值代表组内变量值的一般水平有一定的假定性,即( ) A 、 各组的次数必须相等 B 、 变量值在本组内的分布是均匀的 C 、 组中值能取整数 D 、 各组必须是封闭组 9、 XjX 2’…,X n 是来自总体的样本,样本均值 X 服从( )分布 A 、N(F 2) B.、N(0,1) C 、 N(n 巴nb 2 ) N(=) D 、 n 10、测定变量之间相关密切程度的指标是( ) A 、估计标准误 B 、两个变量的协方差 C 、相关系数 D 、两个变量的标准差 二、多项选择题(每题 2分,共10分) 1、抽样推断中,样本容量的多少取决于( )。 A 、总体标准差的大小 B 、 允许误差的大小 c 、抽样估计的把握程度 D 、总体参 题库1 、单项选择题(每题 2分,共20分) 1、调查时间是指( A 、调查资料所属的时间 C 、调查工作的期限 12元,要求抽样调查的

应用统计学试题及答案

北京工业大学经济与管理学院2007-2008年度 第一学期期末应用统计学 主考教师 专业:学号:姓名:成绩: 1 C 2 B 3 A 4 C 5 B 6 B 7 A 8 A 9 C 10 C 一.单选题(每题2分,共20分) 1.在对工业企业的生产设备进行普查时,调查对象是 A 所有工业企业 B 每一个工业企业 C 工业企业的所有生产设备 D 工业企业的每台生产设 备 2.一组数据的均值为20, 离散系数为, 则该组数据的标准差为 A 50 B 8 C D 4 3.某连续变量数列,其末组为“500以上”。又知其邻组的组中值为480,则末组的组中值为

A 520 B 510 C 530 D 540 4. 已知一个数列的各环比增长速度依次为5%、7%、9%,则最后一期的定基增长速度为 A .5%×7%×9% B. 105%×107%×109% C .(105%×107%×109%)-1 D. 1%109%107%1053- 5.某地区今年同去年相比,用同样多的人民币可多购买5%的商品,则物价增(减)变化的百分比为 A. –5% B. –% C. –% D. % 6.对不同年份的产品成本配合的直线方程为x y 75.1280? -=, 回归系数b= -表示 A. 时间每增加一个单位,产品成本平均增加个单位 B. 时间每增加一个单位,产品成本平均下降个单位 C. 产品成本每变动一个单位,平均需要年时间 D. 时间每减少一个单位,产品成本平均下降个单位 7.某乡播种早稻5000亩,其中20%使用改良品种,亩产为600 公

斤,其余亩产为500 公斤,则该乡全部早稻亩产为 A. 520公斤 B. 530公斤 C. 540公斤 D. 550公斤 8.甲乙两个车间工人日加工零件数的均值和标准差如下: 甲车间:x=70件,σ=件乙车间: x=90件, σ=件哪个车间日加工零件的离散程度较大: A甲车间 B. 乙车间 C.两个车间相同 D. 无法作比较 9. 根据各年的环比增长速度计算年平均增长速度的方法是 A 用各年的环比增长速度连乘然后开方 B 用各年的环比增长速度连加然后除以年数 C 先计算年平均发展速度然后减“1” D 以上三种方法都是错误的 10. 如果相关系数r=0,则表明两个变量之间 A. 相关程度很低 B.不存在任何

医学统计学试题及答案

第一套试卷及参考答案 一、选择题(40分) 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制( B ) A 条图 B 百分条图或圆图C线图D直方图 2、均数和标准差可全面描述 D 资料的特征 A 所有分布形式B负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5岁男孩的身高是否偏高或偏矮,其统计方法是(A ) A 用该市五岁男孩的身高的95%或99%正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99%的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用(A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是( A ) A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同 6. 男性吸烟率是女性的10倍,该指标为(A ) (A)相对比(B)构成比(C)定基比(D)率 7、统计推断的内容为( D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A和B均不是 D. A和B均是 8、两样本均数比较用t检验,其目的是检验( C ) A两样本均数是否不同B两总体均数是否不同C两个总体均数是否相同D两个样本均数是否相同 9、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t检验时,自由度是(D ) (A)n1+ n2(B)n1+ n2–1 (C)n1+ n2 +1 (D)n1+ n2 -2 10、标准误反映(A ) A 抽样误差的大小 B总体参数的波动大小 C 重复实验准确度的高低 D 数据的离散程度 11、最小二乘法是指各实测点到回归直线的(C) A垂直距离的平方和最小B垂直距离最小C纵向距离的平方和最小D纵向距离最小 12、对含有两个随机变量的同一批资料,既作直线回归分析,又作直线相关分析。令对相关系数检验的t值为t r,对回归系数检验的t值为t b,二者之间具有什么关系?(C) A t r>t b B t rχ20.05,ν可认为(A ) A各总体率不同或不全相同 B各总体率均不相同C各样本率均不相同 D各样本率不同或不全相同 15、某学院抽样调查两个年级学生的乙型肝炎表面抗原,其中甲年级调查35人,阳性人数4人;乙年级调查40人,阳性人数8人。该资料宜选用的统计方法为( A ) A.四格表检验 B. 四格表校正检验 C t检验 D U检验 16、为调查我国城市女婴出生体重:北方n1=5385,均数为3.08kg,标准差为0.53kg;南方n2=4896,均数为3.10kg,标准差为0.34kg,经统计学检验,p=0.0034<0.01,这意味着(D ) A 南方和北方女婴出生体重的差别无统计学意义 B 南方和北方女婴出生体重差别很大

统计学计算题及答案

1002 1050 1 ■ 1050 1020 汇2 = 1032 (人) 上半年平均人数: 1002 1050 1 1050 1020 2 1020 1008 3 二 1023 计算题 1 .某公司某年9月末有职工250人,10月上旬的人数变动情况是:10月4日新招 聘12名大学生上岗,6日有4名老职工退休离岗,8日有3名青年工人应征入伍, 同日又有3名职 工辞职离 岗,9日招聘7名营销人员上岗。试计算该公司 10月上旬的平均在岗人数。 af 250 3 262 2 258 2 252 1 259 2 答案1 . a 256 送 f 3+2+2+1+2 要求:⑴具体说明这个时间序列属于哪一种时间序列。 (2)分别计算该银行2001年第一季度、第二季度和上半年的平均现金库存额。 1)这是个等间隔的时点序列 (答案: 3° - a , - a 2,a 3 亠,亠 a n 」-3n 2 - 2 n 第一季度的平均现金库存额: 500 520 + 480 +450 + 2 2 3 第二季度的平均现金库存额: 二480 (万元) 500 580 550 600 2 2 3 上半年的平均现金库存额: = 566 .67(万元) 500 580 + 480 + …+550 +600 + 2 -------------------------------------------- J 二 52 3 .33,或 = 480 566.67 = 523.33 6 答:该银行2001年第一季度平均现金库存额为 480万元,第二季度平均现金库存额为 566.67 万元,上半年的平均现金库存额为 523.33万元. 3某单位上半年职工人数统计资料如下: 要求计算:①第一季度平均人数;②上半年平均人数 答案:第一季度平均人数 2 12 3

线性回归习题

第9章一元线性回归练习题 一.选择题 1.具有相关关系的两个变量的特点是( ) A.一个变量的取值不能由另一个变量唯一确定 B.一个变量的取值由另一个变量唯一确定 C.一个变量的取值增大时另一个变量的取值也一定增大 D.一个变量的取值增大时另一个变量的取值肯定变小 2.下面的各问题中,哪个不是相关分析要解决的问题 A.判断变量之间是否存在关系B.判断一个变量数值的变化对另一个变量的影响 C.描述变量之间的关系强度 D.判断样本所反映的变量之间的关系能否代表总体变量之间的关系 3.根据下面的散点图,可以判断两个变量之间存在() A.正线性相关关系B。负线性相关关系 C. 非线性关系 D. 函数关系 4.下面的陈述哪一个是错误的() A。相关系数是度量两个变量之间线性关系强度的统计量 B.相关系数是一个随机变量 C.相关系数的绝对值不会大于1 D.相关系数不会取负值 5.根据你的判断,下面的相关系数取值哪一个是错误的( ) A. -0.86 B. 0.78 C。 1。25 D。 0 6.如果相关系数r=0,则表明两个变量之间( ) A。相关程度很低 B. 不存在任何关系 C.不存在线性相关关系 D.存在非线性关系 7。下列不属于相关关系的现象是() A。银行的年利息率与贷款总额 B。居民收入与储蓄存款 C.电视机的产量与鸡蛋产量 D.某种商品的销售额与销售价格 8.设产品产量与产品单位成本之间的线性相关系数为—0.87,这说明二者之间存在着()A。高度相关 B。中度相关 C.低度相关 D。极弱相关 9。在回归分析中,被预测或被解释的变量称为( ) A.自变量B。因变量 C.随机变量 D.非随机变量 10。对两变量的散点图拟合最好的回归线,必须满足一个基本的条件是( ) A。 2 ? ()y y ∑-最小 B. 2 ) (?y y ∑-最大 C。 2 ? ()y y ∑-最大 D。 2 ) (?y y ∑-最小 11。下列哪个不属于一元回归中的基本假定( )

统计学试题库及试题库答案解析

统计学题库及题库答案 题库1 一、单项选择题(每题2分,共20分) 1、调查时间就是指( ) A 、调查资料所属的时间 B 、进行调查的时间 C 、调查工作的期限 D 、调查资料报送的时间 2、对某城市工业企业未安装设备进行普查,总体单位就是( )。 A 、工业企业全部未安装设备 B 、企业每一台未安装设备 C 、每个工业企业的未安装设备 D 、每一个工业企业 3、对比分析不同性质的变量数列之间的变异程度时,应使用( )。 A 、全距 B 、平均差 C 、标准差 D 、变异系数 4、在简单随机重复抽样条件下,若要求允许误差为原来的2/3,则样本容量( ) A 、扩大为原来的3倍 B 、扩大为原来的2/3倍 C 、扩大为原来的4/9倍 D 、扩大为原来的2、25倍 5、某地区组织职工家庭生活抽样调查,已知职工家庭平均每月每人生活费收入的标准差为12元,要求抽样调查的可靠程度为0、9545,极限误差为1元,在简单重复抽样条件下,应抽选 ( )。 A 、576户 B 、144户 C 、100户 D 、288户 6、当一组数据属于左偏分布时,则( ) A 、平均数、中位数与众数就是合而为一的 B 、众数在左边、平均数在右边 C 、众数的数值较小,平均数的数值较大 D 、众数在右边、平均数在左边 7、某连续变量数列,其末组组限为500以上,又知其邻组组中值为480,则末组的组中值为 ( )。 A 、520 B 、 510 C 、 500 D 、490 8、用组中值代表组内变量值的一般水平有一定的假定性,即( ) A 、各组的次数必须相等 B 、变量值在本组内的分布就是均匀的 C 、组中值能取整数 D 、各组必须就是封闭组 9、n X X X ,,,21 就是来自总体 ),(2 N 的样本,样本均值X 服从( )分布 A 、),(2 N B 、、)1,0(N C 、、),(2 n n N D 、) ,(2n N 10、测定变量之间相关密切程度的指标就是( ) A 、估计标准误 B 、两个变量的协方差 C 、相关系数 D 、两个变量的标准差 二、多项选择题(每题2分,共10分)

相关文档
相关文档 最新文档