§11.3 变量间的相关关系、统计案例
1.两个变量的线性相关 (1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程
方程y ^
=b ^
x +a ^
是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,
y n )的回归方程,其中a ^
,b ^
是待定参数.
??
?
b ^
=∑n i =1
(x i -x )(y i
-y )∑n
i =1 (x i
-x )2=∑n
i =1
x i y i -n x y ∑n
i =1
x 2i
-n x
2
,
a ^
=y -b ^
x .
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心
对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数
当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.
r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个
变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.
4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为
2×2列联表
构造一个随机变量K 2
=n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )
,其中n =a +b +c +d 为样本容量.
(3)独立性检验
利用随机变量K 2
来判断“两个分类变量有关系”的方法称为独立性检验.
题组一 思考辨析
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( × ) (2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )
(4)某同学研究卖出的热饮杯数y 与气温x (℃)之间的关系,得线性回归方程y ^
=-2.352x +147.767,则气温为2℃时,一定可卖出143杯热饮.( × )
(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2
的观测值越大.( √ )
题组二 教材改编
2.[P97A 组T2]为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( ) A .回归分析 B .均值与方差 C .独立性检验 D .概率
答案 C
解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 3.[P97练习]下面是2×2列联表:
则表中a ,b 的值分别为( ) A .94,72 B .52,50 C .52,74 D .74,52
答案 C
解析 ∵a +21=73,∴a =52. 又a +22=b ,∴b =74.
4.[P81例1]某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次
试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^
=0.67x +54.9.
现发现表中有一个数据看不清,请你推断出该数据的值为________.
答案 68
解析 由x =30,得y =0.67×30+54.9=75. 设表中的“模糊数字”为a ,
则62+a +75+81+89=75×5,∴a =68.
题组三 易错自纠
5.某医疗机构通过抽样调查(样本容量n =1 000),利用2×2列联表和K 2
统计量研究患肺病是否与吸烟有关.计算得K 2
=4.453,经查阅临界值表知P (K 2
≥3.841)≈0.05,现给出四个结论,其中正确的是( )
A .在100个吸烟的人中约有95个人患肺病
B .若某人吸烟,那么他有95%的可能性患肺病
C .有95%的把握认为“患肺病与吸烟有关”
D .只有5%的把握认为“患肺病与吸烟有关” 答案 C
解析 由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.
6.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)
现已知其线性回归方程为y ^
=0.36x +a ^
,则根据此线性回归方程估计数学得90分的同学的物理成绩为______.(四舍五入到整数) 答案 73
解析 x =60+65+70+75+805
=70,
y =
62+64+66+68+70
5
=66,
所以66=0.36×70+a ^
,a ^
=40.8,
即线性回归方程为y ^
=0.36x +40.8.
当x =90时,y ^
=0.36×90+40.8=73.2≈73.
题型一相关关系的判断
1.观察下列各图形,
其中两个变量x,y具有相关关系的图是( )
A.①② B.①④
C.③④ D.②③
答案 C
解析由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.
2.(2018·广州质检)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)的柱形图.以下结论不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
答案 D
解析从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A选项正确;
2007年二氧化硫排放量较2006年降低了很多,B选项正确;
虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,C选项正确;
自2006年以来我国二氧化硫年排放量与年份负相关,D选项错误,故选D.
3.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.
①x ,y 是负相关关系; ②在该相关关系中,若用y =21e c x
c 拟合时的相关指数为R 2
1
,用y ^
=b ^
x +a ^
拟合时的相关指
数为R 2
2,则R 2
1>R 2
2;
③x ,y 之间不能建立线性回归方程. 答案 ①②
解析 在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =21e
c x
c 拟合比用y ^
=b ^
x +a ^
拟合效果要好,则R 2
1>R 2
2,故②正确;x ,y 之间
可以建立线性回归方程,但拟合效果不好,故③错误. 思维升华 判定两个变量正,负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r >0时,正相关;r <0时,负相关.
(3)线性回归方程中:b ^
>0时,正相关;b ^
<0时,负相关. 题型二 线性回归分析
典例 (2016·全国Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2008~2014.
(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:
参考数据:∑i =1
7y i =9.32,∑i =1
7t i y i =40.17,
∑i =1
7
(y i -y
)2
=0.55,7≈2.646.
参考公式:相关系数r =
∑i =1
n
(t i -t )(y i -y
)
∑i =1
n
(t i -t )2
∑i =1
n
(y i -y
)
2
,
回归方程y ^
=a ^
+b ^
t 中斜率和截距的最小二乘估计公式分别为:
b ^
=
∑i =1
n
(t i -t )(y i -y
)
∑i =1
n
(t i -t
)
2
,a ^
=y -b ^
t .
解 (1)由折线图中数据和附注中参考数据得
t =4,∑i =1
7
(t i -t )2
=28,
∑i =1
7
(y i -y
)2
=0.55.
∑i =1
7 (t i -t )(y i -y )=∑i =1
7
t i y i -t ∑i =1
7
y i
=40.17-4×9.32=2.89, 所以r ≈ 2.89
0.55×2×2.646
≈0.99.
因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系. (2)由y =9.32
7
≈1.331及(1)得
b ^
=
∑i =1
7
(t i -t )(y i -y
)
∑i =1
7
(t i -t
)
2
=2.8928
≈0.103, a ^
=y -b ^
t ≈1.331-0.103×4≈0.92.
所以y 关于t 的回归方程为y ^
=0.92+0.10t . 将2016年对应的t =9代入回归方程得
y ^
=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 思维升华 线性回归分析问题的类型及解题方法 (1)求线性回归方程
①利用公式,求出回归系数b ^
,a ^
.
②待定系数法:利用回归直线过样本点的中心求系数.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b ^
.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.
跟踪训练 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
表中w i =x i ,w =18∑i =1
8
w i .
(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;
(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:
①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?
附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^
=α^
+β^
u 的斜率和截距的最小二乘估计分别为
β^
=
∑i =1
n
(u i -u )(v i -v
)
∑i =1
n
(u i -u
)
2
,α^
=v -β^
u .
解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于
d ^
=
∑i =1
8
(w i -w
)·(y i -y )
∑i =1
8
(w i -w
)
2
=
108.8
1.6
=68, c ^
=y -d ^
w =563-68×6.8=100.6,
所以y 关于w 的线性回归方程为y ^
=100.6+68w ,
因此y 关于x 的回归方程为y ^
=100.6+68x . (3)①由(2)知,当x =49时,
年销售量y 的预报值y ^
=100.6+6849=576.6,
年利润z 的预报值z ^
=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值
z ^
=0.2(100.6+68x )-x =-x +13.6x +20.12.
所以当x =13.6
2
=6.8,即x =46.24时,z ^
取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
题型三 独立性检验
典例 (2017·全国Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:
K2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
.
解(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.
由题意知,P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg 的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.
新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.
因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表如下:
K 2
=200×(62×66-34×38)2
100×100×96×104
≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估计值为50+0.5-0.34
0.068≈52.35 (kg).
思维升华 (1)比较几个分类变量有关联的可能性大小的方法 ①通过计算K 2
的大小判断:K 2
越大,两变量有关联的可能性越大.
②通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. (2)独立性检验的一般步骤 ①根据样本数据制成2×2列联表.
②根据公式K 2
=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )
计算K 2
的观测值k .
③比较k 与临界值的大小关系,作统计推断.
跟踪训练 (2017·石家庄质检)微信是现代生活进行信息交流的重要工具,某公司200名员工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75%是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中有2
3
是青年人.
(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表:
(2)根据2×2列表中的数据利用独立性检验的方法判断是否有99.9%的把握认为“经常使用微信与年龄有关”?
附:K 2
=n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )
.
解 (1)由已知可得,该公司员工中使用微信的有200×90%=180(人). 经常使用微信的有180-60=120(人), 其中青年人有120×2
3
=80(人),
使用微信的人中青年人有180×75%=135(人), 故2×2列联表如下:
(2)将列联表中数据代入公式可得: K 2
=180×(80×5-55×40)2
120×60×135×45
≈13.333,
由于13.333>10.828,所以有99.9%的把握认为“经常使用微信与年龄有关”.
求线性回归方程的方法技巧
典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:
(1)利用所给数据求年需求量与年份之间的线性回归方程y ^
=b ^
x +a ^
; (2)利用(1)中所求出的线性回归方程预测该地2018年的粮食需求量.
思想方法指导 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 规范解答
解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.
对处理的数据,容易算得x =0,y =3.2,[4分]
b ^
=
(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02
=260
40
=6.5, a ^
=y -b ^
x =3.2.[6分]
由上述计算结果,知所求线性回归方程为
y ^
-257=6.5(x -2010)+3.2,
即y ^
=6.5(x -2010)+260.2.[8分]
(2)利用所求得的线性回归方程,可预测2018年的粮食需求量大约为 6.5×(2018-2010)+260.2=6.5×8+260.2=312.2(万吨).[12分]
1.根据如下样本数据:
得到的线性回归方程为y ^
=b ^
x +a ^
,则( )
A.a ^
>0,b ^
>0
B.a ^
>0,b ^
<0
C.a ^
<0,b ^
>0 D.a ^
<0,b ^
<0
答案 B
解析 根据给出的数据可发现:整体上y 与x 呈现负相关,所以b ^
<0,由样本点(3,4.0)及
(4,2.5)可知a ^
>0,故选B.
2.(2017·江西南城一中、高安中学等九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.
由K 2
=n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )
,
得K 2
=100×(45×22-20×13)2
65×35×58×42
≈9.616.
参照下表,
正确的结论是( )
A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C .有99%以上的把握认为“生育意愿与城市级别有关”
D .有99%以上的把握认为“生育意愿与城市级别无关” 答案 C
解析 ∵K 2
≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.
3.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归
方程是y ^
=1
3
x +a ^ ,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^
的值是
( )
A.116
B.18
C.14
D.12 答案 B
解析 依题意可知样本点的中心为? ??
??34,38,
则38=13×34+a ^ ,解得a ^
=18
. 4.(2017·山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其
线性回归方程为y ^
=b ^
x +a ^
.已知∑10
i =1x i =225,∑10
i =1y i =1 600,b ^
=4.该班某学生的脚长为24,据此估计其身高为( )
A .160
B .163
C .166
D .170 答案 C
解析 ∵∑10
i =1x i =225,∴x =110∑10i =1
x i =22.5. ∵∑10i =1y i =1 600,∴y =110∑10i =1
y i =160. 又b ^
=4,∴a ^
=y -b ^
x =160-4×22.5=70.
∴线性回归方程为y ^
=4x +70.
将x =24代入上式,得y ^
=4×24+70=166.故选C.
5.(2018·湖南永州模拟)已知x 与y 之间的几组数据如下表:
假设根据上表数据所得的线性回归方程为y ^
=b ^
x +a ^
.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )
A.b ^
>b ′,a ^
>a ′
B.b ^
>b ′,a ^