专题十一 概率与统计
第三十三讲 回归分析与独立性检验
一、选择题
1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关
系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相
关关系,设其回归直线方程为???y bx a =+.已知101
225i i x ==∑,10
1
1600i i y ==∑,?4b =.该
班某学生的脚长为24,据此估计其身高为
A .160
B .163
C .166
D .170
2.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户
家庭,得到如下统计数据表:
根据上表可得回归本线方程???y
bx a =+ ,其中???0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为
A .11.4万元
B .11.8万元
C .12.0万元
D .12.2万元 3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,
则由该观测数据算得的线性回归方程可能为
A .$0.4 2.3y x =+
B .$2 2.4y x =-
C .$29.5y x =-+
D .$0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据
得到的回归方程为?y
bx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b > 5.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不
全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线1
12
y x =+上,则这组样本数据的样本相关系数为
A .?1
B .0
C .1
2
D .1
6.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关
系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是
7.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关
系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为
$y =0.85x -85.71,则下列结论中不正确...
的是 A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )
C .若该大学某女生身高增加1cm ,则其体重约增加0.85kg
D .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 8.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表
广告费用x (万元) 4 2 3 5 销售额y (万元)
49
26
39
54
根据上表可得回归方程???y bx a =+中的?b 为9.4,据此模型预报广告费用为6万元时销
售额为
A .63.6万元
B .65.5万元
C .67.7万元
D .72.0万元
二、解答题
9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)
的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模
型①:?30.413.5=-+y
t ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:?9917.5=+y
t . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.
10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)
的折线图
(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于
t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化
处理量.
附注:参考数据:
7
1
9.32i
i y
==∑,7
1
40.17i i i t y ==∑,
7
2
1()
0.55i
i y y =-=∑,7≈2.646.
参考公式:相关系数1
2
2
1
1
()()
()(y
y)n
i i
i n n
i i
i i t t y y r t t ===--=
--∑∑∑,
回归方程y a bt =+)
))中斜率和截距的最小二乘估计公式分别为:
1
2
1
()()
()n
i
i i n
i
i t
t y y b t
t ==--=
-∑∑),=.a y bt -)))
11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单
位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
x
y
w
8
2
1
()
i
i x x =-∑
8
2
1
()
i
i w w =-∑
8
1
()()i
i
i x x y
y =--∑
8
1
()()i
i
i w w y
y =--∑
46.6
563
6.8
289.8 1.6
1469 108.8
表中i i w x =w =
1
8
8
1
i i w =∑.
(Ⅰ)根据散点图判断,y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年
宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;
(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回
答下列问题:
(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?
附:对于一组数据11(,)u v ,22(,)u v ,???,(,)n n u v ,其回归线v u αβ=+的斜率和
截距的最小二乘估计分别为
1
2
1
()()
?()
n
i
i
i n
i
i u u v v u u β
==--=-∑∑,??v u α
β=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数
据如下表:
(Ⅰ)求y 关于t 的线性回归方程;
(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收
入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:
()()
()
1
2
1
n
i
i i n
i i t
t
y y b t t ∧
==--=
-∑∑,??a
y bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取
了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.
(I )根据已知条件完成下面22?列联表,并据此资料你是否认为“体育迷”与性别有关?
非体育迷 体育迷 合计 男 女
合计
(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育
迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.
2
1212
211222112
)(++++-=
n n n n n n n n n χ, 附:
专题十一 概率与统计
第三十三讲 回归分析与独立性检验
答案部分
1.C 【解析】因为22.5x =,160y =,所以$160422.570a
=-?=,42470166y =?+=,选C .
2.B 【解析】∵10.0x =,8.0y =,?0.76b
=,∴?80.76100.4a =-?=, ∴回归方程为?0.760.4y
x =+,把15x =代入上式得, )(2k P ≥χ 0.05
0.01
k
3.841 6.635
?0.76150.411.8y
=?=(万元),选B . 3.A 【解析】由题意可知,相应的回归直线的斜率应为正,排除C 、D .且直线必过点(3,3.5),
代入A 、B 得A 正确.
4.A 【解析】画出散点图知0,0b a <>.
5.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故
选D.
6.D 【解析】因为22
2
1
52(6221410)5281636322016363220
χ??-??==??????,
22
2
2
52(4201612)521121636322016363220
χ??-??==??????,
22
2
3
52(824128)52961636322016363220
χ??-??==??????,
22
2
4
52(143062)524081636322016363220
χ??-??==??????,
则有2222
4231χχχχ>>>,所以阅读量与性别关联的可能性最大.
7.D 【解析】由回归方程为$y =0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的
线性相关关系,由最小二乘法建立的回归方程得过程知
?()y
bx a bx y bx a y bx =+=+-=-, 所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以D 不正确.
8.B 【解析】样本中心点是(3.5,42),则??429.4 3.59.1a
y bx =-=-?=,所以回归方程是?9.49.1y
x =+,把6x =代入得?65.5y =. 9.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为
?30.413.519226.1y
=-+?=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为
?9917.59256.5y
=+?=(亿元).
(2)利用模型②得到的预测值更可靠. 理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.
这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据
建立的线性模型?9917.5y
t =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.
以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 10.【解析】(Ⅰ)由折线图这数据和附注中参考数据得
4=t ,28)(7
1
2
=-∑=i i t t ,
55.0)(7
12=-∑=i i
y y
,
40.1749.32 2.89==-?=,
99.0646
.2255.089
.2≈??≈
r .
因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性回归模型拟合y 与t 的关系.
(Ⅱ)由331.17
32.9≈=y 及(Ⅰ)得7
1
7
2
1
()()
2.89
?0.10328
()i
i i i
i t
t y y b t
t ==--==
≈-∑∑, 92.04103.0331.1??≈?-≈-=t b y a
. 所以,y 关于t 的回归方程为:t y
10.092.0?+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0?=?+=y
. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.
11.【解析】
(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的
回归方程类型.
(Ⅱ)令w =
y 关于w 的线性回归方程,由于
8
1
8
2
1
()()
108.8
?681.6
()
i
i
i i
i w w y y d
w w ==--==
=-∑∑. ??56368 6.8100.6c
y dw =-=-?=, 所以y 关于w 的线性回归方程为?100.668y w =+,因此y 关于x 的回归方程为
?100.6y
=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值
?100.6576.6y
=+= 年利润z 的预报值
?576.60.24966.32z
=?-=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值
?0.2(100.620.12z
x x =+-=-+.
13.6
6.82
=
=,即46.24x =时,?z
取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I ) 由所给数据计算得1
7
t =
(1+2+3+4+5+6+7)=4 1
7
y =
(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7
21
1()t t
t =-∑=9+4+1+0+1+4+9=28
7
1
11
()()t t
t y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-?-+-?-+-?-
00.110.520.93 1.614+?+?+?+?=
7
1
11
7
2
1
1
()()
140.528
()t t t
t y y b
t
t ==--==
=-∑∑$,$ 4.30.54 2.3a
y bt =-=-?=$. 所求回归方程为$0.5 2.3y t =+.
13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列
联表如下:
由2×2列联表中数据代入公式计算,得:
222
112212211212()100(30104515)100 3.0307525455533
n n n n n x n n n n ++++-?-?==≈???
因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.
(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b
3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本
事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b = ∴7
()10
P A =