文档库 最新最全的文档下载
当前位置:文档库 › 高考数学大一轮复习第十一章统计与统计案例11.3变量间的相关关系、统计案例学案

高考数学大一轮复习第十一章统计与统计案例11.3变量间的相关关系、统计案例学案

§11.3 变量间的相关关系、统计案例

1.两个变量的线性相关 (1)正相关

在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关

在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线

如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法

求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程

方程y ^

=b ^

x +a ^

是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,

y n )的回归方程,其中a ^

,b ^

是待定参数.

??

?

b ^

=∑n i =1

(x i -x )(y i

-y )∑n

i =1 (x i

-x )2=∑n

i =1

x i y i -n x y ∑n

i =1

x 2i

-n x

2

a ^

=y -b ^

x .

3.回归分析

(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心

对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数

当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.

r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个

变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.

4.独立性检验

(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为

2×2列联表

构造一个随机变量K 2

=n (ad -bc )2

(a +b )(c +d )(a +c )(b +d )

,其中n =a +b +c +d 为样本容量.

(3)独立性检验

利用随机变量K 2

来判断“两个分类变量有关系”的方法称为独立性检验.

题组一 思考辨析

1.判断下列结论是否正确(请在括号中打“√”或“×”)

(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( × ) (2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )

(4)某同学研究卖出的热饮杯数y 与气温x (℃)之间的关系,得线性回归方程y ^

=-2.352x +147.767,则气温为2℃时,一定可卖出143杯热饮.( × )

(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2

的观测值越大.( √ )

题组二 教材改编

2.[P97A 组T2]为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( ) A .回归分析 B .均值与方差 C .独立性检验 D .概率

答案 C

解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 3.[P97练习]下面是2×2列联表:

则表中a ,b 的值分别为( ) A .94,72 B .52,50 C .52,74 D .74,52

答案 C

解析 ∵a +21=73,∴a =52. 又a +22=b ,∴b =74.

4.[P81例1]某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次

试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^

=0.67x +54.9.

现发现表中有一个数据看不清,请你推断出该数据的值为________.

答案 68

解析 由x =30,得y =0.67×30+54.9=75. 设表中的“模糊数字”为a ,

则62+a +75+81+89=75×5,∴a =68.

题组三 易错自纠

5.某医疗机构通过抽样调查(样本容量n =1 000),利用2×2列联表和K 2

统计量研究患肺病是否与吸烟有关.计算得K 2

=4.453,经查阅临界值表知P (K 2

≥3.841)≈0.05,现给出四个结论,其中正确的是( )

A .在100个吸烟的人中约有95个人患肺病

B .若某人吸烟,那么他有95%的可能性患肺病

C .有95%的把握认为“患肺病与吸烟有关”

D .只有5%的把握认为“患肺病与吸烟有关” 答案 C

解析 由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.

6.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)

现已知其线性回归方程为y ^

=0.36x +a ^

,则根据此线性回归方程估计数学得90分的同学的物理成绩为______.(四舍五入到整数) 答案 73

解析 x =60+65+70+75+805

=70,

y =

62+64+66+68+70

5

=66,

所以66=0.36×70+a ^

,a ^

=40.8,

即线性回归方程为y ^

=0.36x +40.8.

当x =90时,y ^

=0.36×90+40.8=73.2≈73.

题型一相关关系的判断

1.观察下列各图形,

其中两个变量x,y具有相关关系的图是( )

A.①② B.①④

C.③④ D.②③

答案 C

解析由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.

2.(2018·广州质检)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)的柱形图.以下结论不正确的是( )

A.逐年比较,2008年减少二氧化硫排放量的效果最显著

B.2007年我国治理二氧化硫排放显现成效

C.2006年以来我国二氧化硫年排放量呈减少趋势

D.2006年以来我国二氧化硫年排放量与年份正相关

答案 D

解析从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A选项正确;

2007年二氧化硫排放量较2006年降低了很多,B选项正确;

虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,C选项正确;

自2006年以来我国二氧化硫年排放量与年份负相关,D选项错误,故选D.

3.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.

①x ,y 是负相关关系; ②在该相关关系中,若用y =21e c x

c 拟合时的相关指数为R 2

1

,用y ^

=b ^

x +a ^

拟合时的相关指

数为R 2

2,则R 2

1>R 2

2;

③x ,y 之间不能建立线性回归方程. 答案 ①②

解析 在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =21e

c x

c 拟合比用y ^

=b ^

x +a ^

拟合效果要好,则R 2

1>R 2

2,故②正确;x ,y 之间

可以建立线性回归方程,但拟合效果不好,故③错误. 思维升华 判定两个变量正,负相关性的方法

(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.

(2)相关系数:r >0时,正相关;r <0时,负相关.

(3)线性回归方程中:b ^

>0时,正相关;b ^

<0时,负相关. 题型二 线性回归分析

典例 (2016·全国Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.

注:年份代码1~7分别对应年份2008~2014.

(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:

参考数据:∑i =1

7y i =9.32,∑i =1

7t i y i =40.17,

∑i =1

7

(y i -y

)2

=0.55,7≈2.646.

参考公式:相关系数r =

∑i =1

n

(t i -t )(y i -y

)

∑i =1

n

(t i -t )2

∑i =1

n

(y i -y

)

2

回归方程y ^

=a ^

+b ^

t 中斜率和截距的最小二乘估计公式分别为:

b ^

∑i =1

n

(t i -t )(y i -y

)

∑i =1

n

(t i -t

)

2

,a ^

=y -b ^

t .

解 (1)由折线图中数据和附注中参考数据得

t =4,∑i =1

7

(t i -t )2

=28,

∑i =1

7

(y i -y

)2

=0.55.

∑i =1

7 (t i -t )(y i -y )=∑i =1

7

t i y i -t ∑i =1

7

y i

=40.17-4×9.32=2.89, 所以r ≈ 2.89

0.55×2×2.646

≈0.99.

因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系. (2)由y =9.32

7

≈1.331及(1)得

b ^

∑i =1

7

(t i -t )(y i -y

)

∑i =1

7

(t i -t

)

2

=2.8928

≈0.103, a ^

=y -b ^

t ≈1.331-0.103×4≈0.92.

所以y 关于t 的回归方程为y ^

=0.92+0.10t . 将2016年对应的t =9代入回归方程得

y ^

=0.92+0.10×9=1.82.

所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 思维升华 线性回归分析问题的类型及解题方法 (1)求线性回归方程

①利用公式,求出回归系数b ^

,a ^

.

②待定系数法:利用回归直线过样本点的中心求系数.

(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.

(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b ^

.

(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.

跟踪训练 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.

表中w i =x i ,w =18∑i =1

8

w i .

(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)

(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;

(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:

①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?

附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^

=α^

+β^

u 的斜率和截距的最小二乘估计分别为

β^

∑i =1

n

(u i -u )(v i -v

)

∑i =1

n

(u i -u

)

2

,α^

=v -β^

u .

解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于

d ^

∑i =1

8

(w i -w

)·(y i -y )

∑i =1

8

(w i -w

)

2

108.8

1.6

=68, c ^

=y -d ^

w =563-68×6.8=100.6,

所以y 关于w 的线性回归方程为y ^

=100.6+68w ,

因此y 关于x 的回归方程为y ^

=100.6+68x . (3)①由(2)知,当x =49时,

年销售量y 的预报值y ^

=100.6+6849=576.6,

年利润z 的预报值z ^

=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值

z ^

=0.2(100.6+68x )-x =-x +13.6x +20.12.

所以当x =13.6

2

=6.8,即x =46.24时,z ^

取得最大值.

故年宣传费为46.24千元时,年利润的预报值最大.

题型三 独立性检验

典例 (2017·全国Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:

(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;

(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:

(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:

K2=n(ad-bc)2

(a+b)(c+d)(a+c)(b+d)

.

解(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.

由题意知,P(A)=P(BC)=P(B)P(C).

旧养殖法的箱产量低于50 kg 的频率为

(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.

新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.

因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表如下:

K 2

=200×(62×66-34×38)2

100×100×96×104

≈15.705.

由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.

(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,

箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估计值为50+0.5-0.34

0.068≈52.35 (kg).

思维升华 (1)比较几个分类变量有关联的可能性大小的方法 ①通过计算K 2

的大小判断:K 2

越大,两变量有关联的可能性越大.

②通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. (2)独立性检验的一般步骤 ①根据样本数据制成2×2列联表.

②根据公式K 2

=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )

计算K 2

的观测值k .

③比较k 与临界值的大小关系,作统计推断.

跟踪训练 (2017·石家庄质检)微信是现代生活进行信息交流的重要工具,某公司200名员工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75%是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中有2

3

是青年人.

(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表:

(2)根据2×2列表中的数据利用独立性检验的方法判断是否有99.9%的把握认为“经常使用微信与年龄有关”?

附:K 2

=n (ad -bc )2

(a +b )(c +d )(a +c )(b +d )

.

解 (1)由已知可得,该公司员工中使用微信的有200×90%=180(人). 经常使用微信的有180-60=120(人), 其中青年人有120×2

3

=80(人),

使用微信的人中青年人有180×75%=135(人), 故2×2列联表如下:

(2)将列联表中数据代入公式可得: K 2

=180×(80×5-55×40)2

120×60×135×45

≈13.333,

由于13.333>10.828,所以有99.9%的把握认为“经常使用微信与年龄有关”.

求线性回归方程的方法技巧

典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:

(1)利用所给数据求年需求量与年份之间的线性回归方程y ^

=b ^

x +a ^

; (2)利用(1)中所求出的线性回归方程预测该地2018年的粮食需求量.

思想方法指导 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 规范解答

解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.

对处理的数据,容易算得x =0,y =3.2,[4分]

b ^

(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02

=260

40

=6.5, a ^

=y -b ^

x =3.2.[6分]

由上述计算结果,知所求线性回归方程为

y ^

-257=6.5(x -2010)+3.2,

即y ^

=6.5(x -2010)+260.2.[8分]

(2)利用所求得的线性回归方程,可预测2018年的粮食需求量大约为 6.5×(2018-2010)+260.2=6.5×8+260.2=312.2(万吨).[12分]

1.根据如下样本数据:

得到的线性回归方程为y ^

=b ^

x +a ^

,则( )

A.a ^

>0,b ^

>0

B.a ^

>0,b ^

<0

C.a ^

<0,b ^

>0 D.a ^

<0,b ^

<0

答案 B

解析 根据给出的数据可发现:整体上y 与x 呈现负相关,所以b ^

<0,由样本点(3,4.0)及

(4,2.5)可知a ^

>0,故选B.

2.(2017·江西南城一中、高安中学等九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.

由K 2

=n (ad -bc )2

(a +b )(c +d )(a +c )(b +d )

得K 2

=100×(45×22-20×13)2

65×35×58×42

≈9.616.

参照下表,

正确的结论是( )

A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”

B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”

C .有99%以上的把握认为“生育意愿与城市级别有关”

D .有99%以上的把握认为“生育意愿与城市级别无关” 答案 C

解析 ∵K 2

≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.

3.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归

方程是y ^

=1

3

x +a ^ ,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^

的值是

( )

A.116

B.18

C.14

D.12 答案 B

解析 依题意可知样本点的中心为? ??

??34,38,

则38=13×34+a ^ ,解得a ^

=18

. 4.(2017·山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其

线性回归方程为y ^

=b ^

x +a ^

.已知∑10

i =1x i =225,∑10

i =1y i =1 600,b ^

=4.该班某学生的脚长为24,据此估计其身高为( )

A .160

B .163

C .166

D .170 答案 C

解析 ∵∑10

i =1x i =225,∴x =110∑10i =1

x i =22.5. ∵∑10i =1y i =1 600,∴y =110∑10i =1

y i =160. 又b ^

=4,∴a ^

=y -b ^

x =160-4×22.5=70.

∴线性回归方程为y ^

=4x +70.

将x =24代入上式,得y ^

=4×24+70=166.故选C.

5.(2018·湖南永州模拟)已知x 与y 之间的几组数据如下表:

假设根据上表数据所得的线性回归方程为y ^

=b ^

x +a ^

.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )

A.b ^

>b ′,a ^

>a ′

B.b ^

>b ′,a ^

C.b ^

>a ′ D.b ^

答案 C

解析 由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^ =∑6

i =1

x i y i -6x ·y ∑i =1

6x 2i -6x 2

=58-6×72×13

691-6×? ??

??722=57,

a ^

=y -b ^

x =136-57×72=-1

3,所以b ^

>a ′.

6.某地2009年至2015年中,每年的人口总数y (单位:万)的数据如下表:

若t 与y 之间具有线性相关关系,则其回归直线y ^

=b ^

t +a ^

一定过点( ) A .(3,9) B .(9,3) C .(6,14) D .(4,11)

答案 A

解析 t =1

7

(0+1+2

+3+4+5+6)=3,

y =17

(8+8+8+9+9+10+11)=9,

所以回归直线y ^

=b ^

t +a ^

一定过点(3,9).

7.(2017·遵义联考)某公司为确定明年投入某产品的广告支出,对近5年的年广告支出m 与年销售额t (单位:百万元)进行了初步统计,得到下列表格中的数据:

经测算,年广告支出m 与年销售额t 满足线性回归方程t ^

=6.5m +17.5,则p =________. 答案 60

解析 由于回归直线过样本点的中心,m =5,t =190+p

5

代入t ^

=6.5m +17.5,解得p =60.

8.以下四个命题,其中正确的序号是________.

①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,

这样的抽样是分层抽样;

②两个随机变量相关性越强,则相关系数的绝对值越接近于1;

③在线性回归方程y ^

=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^

平均增加0.2个单位;

④对分类变量X 与Y 的统计量K 2

来说,K 2

越小,“X 与Y 有关系”的把握程度越大. 答案 ②③

解析 ①是系统抽样;对于④,统计量K 2

越小,说明两个相关变量有关系的把握程度越小. 9.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:

已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2

的观测值k =50×(13×20-10×7)

2

23×27×20×30≈4.844,则有________的把握认为选修文科与性别有关.

答案 95%

解析 由题意,K 2

=50×(13×20-10×7)

2

23×27×20×30

≈4.844,因为5.024>4.844>3.841,所以有95%的

把握认为选修文科与性别有关.

10.(2017·武邑模拟)对具有线性相关关系的变量x ,y 有10组观测数据(x i ,y i )(i =1,2,…,

10),其线性回归方程为y ^

=-3+2x ,若∑10

i =1x i =17,则∑10

i =1y i =________. 答案 4

解析 依题意x =17

10

=1.7,而直线y ^

=-3+2x 一定经过(x ,y ),∴y =-3+2x =

-3+2×1.7=0.4,

∴∑10

i =1

y i =0.4×10=4. 11.某地区2009年至2015年农村居民家庭人均纯收入y (单位:千元)的数据如下表:

(1)求y 关于t 的线性回归方程;

(2)利用(1)中的线性回归方程,分析2009年至2015年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2018年农村居民家庭人均纯收入.

附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^

∑i =1

n

(t i -t )(y i -y

)

∑i =1

n

(t i -t

)

2

,a ^

=y -

b ^

t .

解 (1)由所给数据计算得

t =17(1+2+3+4+5+6+7)=4,

y =17

(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,

∑i =17

(t i -t )2=9+4+1+0+1+4+9=28,

∑i =1

7

(t i -t

)(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+

1×0.5+2×0.9+3×1.6=14,

b ^

∑i =1

7

(t i -t )(y i -y

)

∑i =1

7

(t i -t

)

2

=14

28

=0.5, a ^

=y -b ^

t =4.3-0.5×4=2.3,

所求线性回归方程为y ^

=0.5t +2.3.

(2)由(1)知,b ^

=0.5>0,故2009年至2015年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.

将2018年的年份代号t =10代入(1)中的线性回归方程,得y ^

=0.5×10+2.3=7.3, 故预测该地区2018年农村居民家庭人均纯收入为7.3千元.

12.(2017·西安质检)某省会城市地铁将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:

(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数);

(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.

附:K 2

=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )

.

解 (1)“赞成定价者”的月平均收入为

x 1=

20×1+30×2+40×3+50×5+60×3+70×4

1+2+3+5+3+4

≈50.56.

“认为价格偏高者”的月平均收入为

x 2=

20×4+30×8+40×12+50×5+60×2+70×1

4+8+12+5+2+1

=38.75,

∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).

(2)根据条件可得2×2列联表如下:

K 2

=50×(3×11-7×29)2

10×40×18×32

≈6.272<6.635,

∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.

13.(2017·通州一模)对两个变量y 和x 进行回归分析,得到一组样本数据:(x 1,y 1),(x 2,

y 2),…,(x n ,y n ),则下列说法中不正确的是( )

A .由样本数据得到的回归直线y ^

=b ^

x +a ^

必过样本点的中心(x ,y ) B .残差平方和越小的模型,拟合的效果越好

C .用相关指数R 2

来刻画回归效果,R 2

的值越小,说明模型的拟合效果越好

D .若变量y 和x 之间的相关系数r =-0.936 2,则变量y 与x 之间具有线性相关关系 答案 C

解析 R 2

的值越大,说明残差平方和越小,也就是模型的拟合效果越好,故选C.

14.(2018·河北保定模拟)中央政府为了应对因人口老龄化而造成的劳动力短缺问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:

(1)由以上统计数据填写2×2列联表,并判断是否有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异;

相关文档 最新文档