文档库 最新最全的文档下载
当前位置:文档库 › 回归分析及独立性检验)

回归分析及独立性检验)

回归分析及独立性检验)
回归分析及独立性检验)

回归分析及独立性检验)

回归分析与独立性检验

1.回归分析的含义是什么?有哪些基本步骤?线性回归模型怎样用表达式表示?产生随机误差的原因是什么?

a$$b

2.回归方程中与怎样求解?

3.刻画回归效果的方式有哪些?

(1)残差(2)残差图

(3)残差图法

(4)残差平方和(5)相关指数R2

1.判一判(正确的打“√”,错误的打“×”)

(1)在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个可观测的量. ( )

(2)求线性回归方程前可以不进行相关性检验. ( )

(3)在残差图中,纵坐标为残差,横坐标可以选为样本编号.( )

2、一位母亲记录了儿子3~9岁的身高数据,并由此建立的身高

与年龄的回归模型为 =7.19x+73.93,用这个模型预测这个孩子10岁时的身高,则下列说法正确的A.身高一定是145.83cm B.身高在145.83cm以上

C.身高在145.83cm左右

D.身高在

145.83cm以下

有下列说法:①在残差图中,残差点比较均匀地落在

水平的带状区域内,说明选用的模型比较合适;②用相关指数R2来刻画回归的效果,R2值越大,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以

比较残差平方和的大小,残差平方和越小的模型,拟

合效果越好.其中正确命题的个数是

A.0

B.1

C.2

D.3

$y y 【典例1】(1)(2014·合肥高二检测)已知一个回归方

程为 =1.5x+45,x∈{1,7,5,13,19},则 =

A.9

B.45

C.58.5

D.1.5

(2)如图所示的是四个残差图,其中回归模型的拟合

)

效果最好的是(

(3)为研究质量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同质量的6个物体进行测量,数据如下表所示:

x51015202530

y7.258.128.959.9010.911.8

出散点图,并求线性回归方程; ②求出R2;

③进行残差分析.

类型二非线性回归分析

【典例2】(1)两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的

A.y=a ·x b

B.y=a+blnx

C.y=a ·e bx

D.y=a ·

2)在一次抽样调查中,测得样本的5个样本点的数值如下表:

x 0.25 0.5 1 2 4 y

16

12

5

2

1

试写出y 与x 之间的回归方程.

h

x

e

【易错误区】对回归系数的含义理解错误

$y

【典例】(2014·合肥高二检测)废品率x%和每吨生铁成本y(元)之间的回归直线方程为 =256+3x,表明( )

A.废品率每增加1%,生铁成本增加259元

B.废品率每增加1%,生铁成本增加3元

C.废品率每增加1%,生铁成本平均每吨增加3元

D.废品率不变,生铁成本为256元

【提升练习】

1.(2014·梅州高二检测)在2012年8月15日那天,某物价部门对本市的5家商场的某商品的一天销售量价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:

价格x 9 9.5 m 10.5 11 销售量

y

11 n 8 6 5

由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归直线方程是:=-3.2x+40,且m+n=20,则其中的n= .

2、设三组实验数据(x

1,y

1

),(x

2

,y

2

),(x

3

,y

3

)的回归直

线方程是:=x+,使代数式

[y

1-(x

1

+)]2+[y

2

-(x

2

+)]2+[y

3

-(x

3

+)]2的值最小

时,=-,=,(,分别是这三组数据的横、纵坐标的平均数)

若有七组数据列表如下:

x 2 3 4 5 6 7 8 y 4 6 5 6.2 8 7.1 8.6 (1)求上表中前三组数据的回归直线方程.

(2)若|y

1-(x

1

+)|≤0.2,即称(x

1

,y

1

)为(1)中回归直

线的拟合“好点”,求后四组数据中拟合“好点”的概率.

10

1.分类变量的概念是什么?什么是列联表,什么是2

×2列联表?

2.等高条形图的优点是什么?如何利用等高条形图

判断两个变量之间的关系?

3.独立性检验的概念是什么?怎样进行独立性检验?

11

1.判一判(正确的打“√”,错误的打“×”)

(1)事件A与B的检验无关,即两个事件互不影响. ( )

(2)事件A与B关系越密切,K2就越大. ( )

(3)K2的大小是判断事件A与B是否相关的唯一数据. ( )

2、下列不是分类变量的是( )

A.近视

B.身高

C.血压

D.药物反应

类型一等高条形图的应用

【典例1】(1)观察下列各图,其中两个分类变量X,Y 之间关系最强的是( )

12

(2)(2014·青岛高二检测)某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.

13

类型二独立性检验

【典例2】(1)(2014·台州高二检测)在独立性检验中,统计量K2有三个临界值:2.706,3.841和6.635;当

K2>3.841时,在犯错误的概率不超过0.05的前提下说明两个事件有关,当K2>6.635时,在犯错误的概率不超过0.01的前提下说明两个事件有关,当

K2<2.706时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算K2=20.87,

14

根据这一数据分析,认为打鼾与患心脏病之间( )

A.在犯错误的概率不超过0.05的前提下认为两者有关

B.约有95%的打鼾者患心脏病

C.在犯错误的概率不超过0.01的前提下认为两者有关

D.约有99%的打鼾者患心脏病

产品质量/

克频数

(490,495]6

15

(2)(2014·执信高二检测)某

食品厂为了检查甲乙两条自动

包装流水线的生产情况,随机

在这两条流水线上各抽取40

件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,图1是乙流水线样本频率分布直方图.

(495,500]8 (500,505]14 (505,510]8 (510,515]4

16

①根据上表数据作出甲流水线样本频率分布直方图;

②若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;

③由以上统计数据作出2×2列联表,并回答在犯错误的概率不超过多少的前提下认为“产品的包装质量与两条自动包装流水线的选择有关”.

17

【提升练习】1.(2014·德州高二检测)假设两个分

类变量X与Y,它们的取值分别为{x

1,x

2

},{y

1

,y

2

},其

2×2列联表如图所示:对于以下数据,对同一样本能说明X与Y有关的可能性最大的一组为( )

y

1y

2

总计

x

1

a b a+b

x

2

c d c+d

总计a+c b+d a+b+c+d

A.a=50,b=40,c=30,d=20

18

B.a=50,b=30,c=20,d=40

C.a=50,b=20,c=40,d=30

D.a=20,b=30,c=50,d=40

19

相关文档