第二节用样本估计总体
[最新考纲][考情分析][核心素养] 1.了解分布的意义和作用,会列频率分布表,
会画频率分布直方图、频率折线图、茎叶图,
理解它们各自的特点.
2.理解样本数据标准差的意义和作用,会计
算数据标准差.
3.能从样本数据中提取基本的数字特征(平均
数、标准差),并给出合理解释.
4.会用样本的频率分布估计总体的分布,会
用样本的基本数字特征估计总体的基本数字
特征,理解用样本估计总体的思想.
5.会用随机抽样的基本方法和样本估计总体
的思想解决一些简单的实际问题.
频率分布直方图、茎叶
图及其应用,将是2021年
高考考查的热点,题型将是
选择题或填空题,分值为5
分,也可能与概率结合一起
在解答题中出现.
1.数据分析
2.数学运算
‖知识梳理‖
1.作频率分布直方图的步骤
(1)求极差(1最大值与2最小值的差);
(2)3组距与4组数;
(3)5分组;
(4)6频率分布表;
(5)7频率分布直方图.
2.频率分布折线图和总体密度曲线
(1)8中点,就得到频率分布折线图.
(2)9所分的组数增加,10组距减小,相应的频率分布折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.3.茎叶图的优点
茎叶图的优点是不但可以保留所有信息,而且可以随时记录,
示都能带来方便.
4.样本的数字特征 (1)众数、中位数、平均数
①标准差:样本数据到平均数的一种平均距离,一般用s 表示,s =1n
[(x 1-x -)2+(x 2-x -)2+…+(x n -x -
)2]. ②方差:标准差的平方s 2,s 2=1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -
)2],其中x i (i =1,2,
3,…,n )是样本数据,n 是样本容量,x -
是样本平均数.
?常用结论
平均数、方差的公式推广
(1)若数据x 1,x 2,…,x n 的平均数为x -
,那么mx 1+a ,mx 2+a ,mx 3+a ,…,mx n +a 的平均数是m x -
+a .
(2)数据x 1,x 2,…,x n 的方差为s 2.
①数据x 1+a ,x 2+a ,…,x n +a 的方差也为s 2; ②数据ax 1,ax 2,…,ax n 的方差为a 2s 2.
‖基础自测‖
一、疑误辨析
1.判断下列结论是否正确(请在括号中打“√”或“×”). (1)在频率分布直方图中,小矩形的高表示频率.( ) (2)频率分布直方图中各个长方形的面积之和为1.( )
(3)茎叶图中的数据要按从小到大的顺序写,相同的数据可以只记一次.( ) (4)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( ) (5)一组数据的方差越大,说明这组数据的波动越大.( ) 答案:(1)× (2)√ (3)× (4)√ (5)√ 二、走进教材
2.(必修3P 100A 2(1)改编)一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为( )
A .4
B .8
C .12
D .16
答案:B
3.(必修3P 70示例改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是( )
A .91.5和91.5
B .91.5和92
C .91和91.5
D .92和92
答案:A 三、易错自纠
4.10名工人某天生产同一零件,生产的零件数分别是15,17,14,10,15,17,17,16,14,12,设其平均数为a ,中位数为b ,众数为c ,则有( )
A .a >b >c
B .b >c >a
C .c >a >b
D .c >b >a 解析:选D 依题意,这些数据由小到大依次是10,12,14,14,15,15,16,17,17,17,因此a =14.7,b =15,c =17,所以c >b >a .
5.(2019届郑州质检)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中m ,n 的比值m
n
=________.
解析:由茎叶图可知,甲的数据为27,30+m ,39,乙的数据为20
+n ,32,34,38.由此可知,乙的中位数是33,所以甲的中位数也是33,所以m =3.由此可以
得出甲的平均数为33,所以乙的平均数也是33,所以有20+n +32+34+38
4=33,所以n =8,
所以m n =38
.
答案:38
6.某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到如图所示的频率分布直方图,则这80名教师中年龄小于45岁的有________人.
解析:由频率分布直方图可知45岁以下的教师的频率为5×(0.040+0.080)=0.6,所以共有80×0.6=48(人).
答案:48
考点 统计图表的应用问题
|题组突破|
1.(2019届东北三省四市一模)“科技引领,布局未来”,科技研发是企业发展的驱动力量.2007年至2018年,某企业连续12年累计研发投入达4 100亿元.我们将研发投入与经营收入的比值记为研发投入占营收比.这12年间的研发投入(单位:十亿元)用如图所示的条形图表示,研发投入占营收比用图中的折线图表示,根据折线图和条形图,下列结论错误的是( )
A.2012年至2013年研发投入占营收比增量相比2017年至2018年增量大
B.2013年至2014年研发投入增量相比2015年至2016年增量小
C.该企业连续12年研发投入逐年增加
D.该企业连续12年来研发投入占营收比逐年增加
解析:选D对于A,2012年至2013年研发投入占营收比增量为13.5%-11.5%=2%,2017年至2018年研发投入占营收比增量为14.9%-14.6%=0.3%,A正确;对于B,2013年至2014年研发投入增量为32-30=2(十亿元),2015年至2016年研发投入增量为60-41=19(十亿元),B正确;对于C,由题图易知该企业连续12年研发投入逐年增加,C正确;对于D,由题图知2008年至2009年研发投入占营收比是减少的,D错误.故选D.2.(2019届广西桂林市、百色市、崇左市联考)在如图所示的一组数据
的茎叶图中,有一个数字被污染后模糊不清,但曾计算得该组数据的极差
与中位数之和为61,则被污染的数字为()
A.1 B.2
C.3 D.4
解析:选B由题图可知该组数据的极差为48-20=28,则该组数据的中位数为61-28=33,所以被污染的数字为2.
3.(2020届四川五校联考)如图为截止到2019年3月末,我国外汇储备近1年的变化折线图,由此得到以下说法,其中叙述正确的是()
A.近1年来,我国外汇储备月增长量最大的月份是2019年3月
B.2018年4月至10月,我国外汇储备连续下降
C.2018年底,我国外汇储备降至近年来最低
D.截止到2019年3月末,我国外汇储备连续五个月上升
解析:选D选项A,由图知,我国外汇储备月增长量最大的月份是2019年1月,A错误;选项B,2018年4月至10月,我国外汇储备有升有降,B错误;选项C,由图无法说明2018年底,我国外汇储备降至近年来最低,C错误;选项D,我国外汇储备自2018年11月起连续上升,2019年3月为第五个月,D正确.故选D.
?名师点津
统计图的分析策略:(1)注意统计图中的点、线的变化规律;(2)抓住特殊的数据,明确它们所表示的意义,特别是最大数据与最小数据;(3)涉及两个或两个以上的统计图时,它们之间往往存在某种关系;(4)如果涉及数轴,一定要明确数轴表示的意义.
考点一频率分布直方图应用
【例1】(2019年全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、物质的量浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记C 为事件:“乙离子残留在体内的百分比不低于5.5%”,根据直方图得到P (C )的估计值为0.70.
(1)求乙离子残留百分比直方图中a ,b 的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
[解] (1)由已知得0.70=a +0.20+0.15,故a =0.35. b =1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05. 乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00. ?名师点津
1.由频率分布直方图进行相关计算时,需掌握的2个关系式 (1)频率组距
×组距=频率. (2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数. 2.利用频率分布直方图估计样本的数字特征的方法
(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值.
(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和. (3)众数:最高的矩形的中点的横坐标.
|跟踪训练|
1.某网络营销部门随机抽查了某市200名网友在2018年11月11日的网购金额,所得数据如下表:
网购金额(单位:千元)
人数 频率 (0,1] 16 0.08 (1,2] 24 0.12 (2,3] x p (3,4] y q (4,5] 16 0.08 (5,6] 14 0.07 总计
200
1.00
已知网购金额不超过3千元与超过3千元的人数比恰为3∶2. (1)试确定x ,y ,p ,q 的值,并补全频率分布直方图(如图);
(2)该营销部门为了了解该市网友的购物体验,从这200名网友中,用分层抽样的方法从网购金额在(1,2]和(4,5]的两个群体中抽取5人进行问卷调查,若需从这5人中随机选取2人继续访谈,则此2人来自不同群体的概率是多少?
解:(1)根据题意有????
?16+24+x +y +16+14=200,16+24+x y +16+14=32
,
即?????x +y =130,40+x 30+y =32,解得?????x =80,y =50, ∴p =80200=0.40,q =50
200=0.25.
补全频率分布直方图如图所示:
(2)根据题意,抽取网购金额在(1,2]内的人数为 24
24+16
×5=3,
抽取网购金额在(4,5]内的人数为16
24+16
×5=2.
故此2人来自不同群体的概率P =C 13C 12C 25=3
5
.
考点二 样本的数字特征
【例2】 (2019年全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值代表).(精确到0.01)
附:74≈8.602.
[解] (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2
100
=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)y -=1
100×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s 2=
1100 i =1
5n i (y i -y -
)2 =
1
100
×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, 则s =0.029 6=0.02×74≈0.17.
所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. ?名师点津
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
|跟踪训练|
2.(2019届江西八校联考)规定一个学生数学成绩优秀的标志为连续5次数学考试成绩(满
分150分)均不低于120分.现有甲、乙、丙三位学生连续5次数学考试成绩的记录数据(记录数据都是正整数)情况:
①甲学生:5个数据的中位数为127,众数为120;
②乙学生:5个数据的中位数为125,总体均值为127;
③丙学生:5个数据中有一个数据是135,总体均值为128,总体方差为19.8.
则可以断定数学成绩优秀的学生为()
A.甲、丙B.乙、丙
C.甲、乙D.甲、乙、丙
解析:选A因为甲学生的5个数据的中位数为127,所以5个数据中有2个数据大于127,又5个数据的众数是120,所以有2个数据为120,所以甲学生的5个数据均不小于120,所
以甲学生数学成绩优秀.丙学生的5个数据中的一个数据为135,设另外4个数据分别是a,b,c,d,因为5个数据的总体均值为128,总体方差为19.8,所以
(a-128)2+(b-128)2+(c-128)2+(d-128)2+(135-128)2
=19.8,所以(a-
5
128)2+(b-128)2+(c-128)2+(d-128)2=50①,假设a,b,c,d中存在小于120的数据,不妨设a<120,则(a-128)2>64,显然①式不成立,所以假设错误,即a,b,c,d均不小于120,所以丙学生的5个数据均不小于120,所以丙学生数学成绩优秀.根据乙学生的记录数据不能得出连续5次数学考试成绩均不低于120分,即不能断定乙学生数学成绩优秀.故选A.
考点频率分布直方图与概率的交汇应用问题
【例】(2019届长春模拟)某中学共有1 000名学生参加了该地区高三第一次质量检测的数学考试,数学成绩如下表所示:
数学成
[0,30)[30,60)[60,90)[90,120)[120,150]
绩分组
人数6090300x 160
的方法抽取100名同学进行问卷调查,甲同学在本次测试中数学成绩为95分,求他被抽中的概率;
(2)已知本次数学成绩的优秀线为110分,试根据所提供数据估计该中学达到优秀线的人数;
(3)作出频率分布直方图,并估计该学校本次考试的数学平均分.(同一组中的数据用该组
区间的中点值作代表)
[解] (1)分层抽样中,每个个体被抽到的概率均为样本容量
总体中个体总数,故甲同学被抽到的概
率P =1001000=1
10
.
(2)由题意得x =1 000-(60+90+300+160)=390,故估计该中学达到优秀线的人数为160+390×120-110120-90
=290.
(3)由(1)及题表可得频率分布直方图如图所示.
该学校本次考试数学平均分x -
=11 000×(60×15+90×45+300×75+390×105+
160×135)=90(分).
所以估计该学校本次考试的数学平均分为90分. ?名师点津
以随机抽样获取样本为基础,首先画频率分布表、频率分布直方图,然后应用这些图表计算频率、频数和数字特征.
|跟踪训练|
(2019·长沙、南昌第一次联考)“2018弘扬中华优秀传统文化经验交流大会”于2018年11月26日在深圳举行,会议同期举行了“深圳市中华优秀传统文化公益讲堂”启动仪式.从2019年1月起到12月,深圳市文化和健康发展促进会将连续举办52场中华优秀传统文化公益讲堂,邀请多位名家名师现场开讲.某学校的文学社团为响应这次活动,举行了国学文化大赛,统计的比赛成绩(单位:分)的数据如频率分布直方图所示,已知成绩在[80,90)内的有50人.
(1)求a 的值及参加比赛的总人数;
(2)若成绩在80分及以上的学生将获得荣誉证书,则能否认为参加比赛的学生超过40%获得荣誉证书?
(3)如果从成绩在[80,90)和[90,100]内的学生中按分层抽样的方法选取5人参加决赛,并最终选取其中的2人参加与友好学校的友谊赛,求最终选取的2人成绩在[80,90)和[90,100]内各1人的概率.
解:(1)由题意得(0.01+a+0.02+0.03)×10=1,解得a=0.04.
因为成绩在[80,90)内的有50人且成绩在[80,90)内的频率为0.02×10=0.2,
故参加比赛的总人数为50
0.2=250.
(2)因为成绩在80分及以上的频率为(0.02+0.03)×10=0.5>40%,
故能认为参加比赛的学生超过40%获得荣誉证书.
(3)由频率分布直方图知,成绩在[80,90)和[90,100]内的学生的人数比为2∶3,故选取的5人成绩在[80,90)和[90,100]内的学生人数分别是2和3.
设成绩在[80,90)内的2名学生分别为A1,A2,成绩在[90,100]内的3名学生分别为B1,B2,B3,
则最终选取的2人的所有情况为A1A2,A1B1,A1B2,A1B3,A2B1,A2B2,A2B3,B1B2,B1B3,B2B3,共10种,
而满足成绩在[80,90)和[90,100]内各1人的情况有A1B1,A1B2,A1B3,A2B1,A2B2,A2B3,共6种,
故所求概率P=6
10=3 5.