I单元统计
I1随机抽样
17.I1,I2[2013·安徽卷] 为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如下:
(1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格);
(2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为x1,
x 2,估计x 1-x 2的值.
17.解:(1)设甲校高三年级学生总人数为n ,由题意知,30
n =0.05,即n =600.
样本中甲校高三年级学生数学成绩不及格人数为5,据此估计甲校高三年级此次联考数学成绩及格率为1-530=56.
(2)设甲、乙两校样本平均数分别为x 1′,x 2′,根据样本茎叶图可知,
30(x 1′-x 2′)=30x 1′-30x 2′
=(7-5)+(55+8-14)+(24-12-65)+(26-24-79)+(22-20)+92
=2+49-53-77+2+92 =15.
因此x 1′-x 2′=0.5,故x 1-x 2的估计值为0.5分.
3.I1[2013·湖南卷] 某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差别,用分层抽样方法抽取了一个容量为n 的样本进行调查,其中从丙车间的产品中抽取了3件,则n =( )
A .9
B .10
C .12
D .13
3.D [解析] 根据抽样比例可得360=n 120+80+60,解得n =13,
选D.
5.I1[2013·江西卷] 总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()
A.08 B.07
C.02 D.01
5.D[解析] 选出来的5个个体编号依次为:08,02,14,07,01.故选D.
7.I1,I4[2013·四川卷] 某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图1-4所示.以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是()
图1-4
图1-5
7.A[解析] 首先注意,组距为5,排除C,D,然后注意到在[0,5)组和[5,10)组中分别只有3和7各一个值,可知排除B.选A.
I2用样本估计总体
17.I1,I2[2013·安徽卷] 为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如下:
(1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格);
(2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为x 1,x 2,估计x 1-x 2的值.
17.解:(1)设甲校高三年级学生总人数为n ,由题意知,30
n =0.05,即n =600.
样本中甲校高三年级学生数学成绩不及格人数为5,据此估计甲校高三年级此次联考数学成绩及格率为1-530=56.
(2)设甲、乙两校样本平均数分别为x 1′,x 2′,根据样本茎叶图可知,
30(x 1′-x 2′)=30x 1′-30x 2′
=(7-5)+(55+8-14)+(24-12-65)+(26-24-79)+(22-20)+92
=2+49-53-77+2+92
=15.
因此x1′-x2′=0.5,故x1-x2的估计值为0.5分.
16.I2,K1,K2[2013·北京卷] 图1-4是某市3月1日至14日的空气质量指数趋势图,空气质量指数小于100表示空气质量优良,空气质量指数大于200表示空气重度污染.某人随机选择3月1日至3月13日中的某一天到达该市,并停留2天.
图1-4
(1)求此人到达当日空气质量优良的概率;
(2)求此人在该市停留期间只有1天空气重度污染的概率;
(3)由图判断从哪天开始连续三天的空气质量指数方差最大?(结论不要求证明)
16.解:(1)在3 月1日至3 月13日这13天中,1日、2日、3日、7日、12日、13日共6天的空气质量优良,所以此人到达当日空
气质量优良的概率是6 13.
(2)根据题意,事件“此人在该市停留期间只有1天空气重度污染”等价于“此人到达该市的日期是4日,或5日,或7日,或8日”.
所以此人在该市停留期间只有1天空气重度污染的概率为4 13.
(3)从3月5日开始连续三天的空气质量指数方差最大.
12.I2[2013·湖北卷] 某学员在一次射击测试中射靶10次,命中环数如下:
7,8,7,9,5,4,9,10,7,4
则(1)平均命中环数为________;
(2)命中环数的标准差为________.
12.(1)7(2)2[解析] x=7+8+7+9+5+4+9+10+7+4
10=7,
标准差σ=1
10[(7-7)
2+(8-7)2+…+(4-7)2]=2.
16.I2[2013·辽宁卷] 为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据,已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________.
16.10[解析] 由已知可设5个班级参加的人数分别为x1,x2,x3,x4,x5,又S2=4,x=7,
所以(x1-7)2+(x2-7)2+(x3-7)2+(x4-7)2+(x5-7)2
5=4,所以(x1-7)2+(x2-7)2+(x3-7)2+(x4-7)2+(x5-7)2=20,
即五个完全平方数之和为20,要使其中一个达到最大,之五个数必须是关于0对称分布的,而9+1+0+1+9=20,也就是(-3)2+(-1)2+02+12+32=20,所以五个班级参加的人数分别为4,6,7,8,10,最大数字为10.
5.I2[2013·辽宁卷] 某班的全体学生参加英语测试,成绩的频率
分布直方图如图1-1,数据的分组依次为:[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是()
图1-1
A.45B.50C.55D.60
5.B[解析] 由成绩的频率分布直方图可以得到低于60分的频
率为0.3,而低于60分的人数为15人,所以该班的总人数为15
0.3=50
人.
图1-9
19.B1,I2[2013·新课标全国卷Ⅱ] 经销商经销某种农产品,在一个销售季度内,每售出1 t该产品获利润500元,未售出的产品,每1 t亏损300元.根据历史资料,得到销售季度内市场需求量的频率分布直方图,如图1-9所示.经销商为下一个销售季度购进了130 t该产品.以X(单位:t,100≤X≤150)表示下一个销售季度内的市场需求量,T(单位:元)表示下一个销售季度内经销该农产品的利润.
(1)将T表示为X的函数;
(2)根据直方图估计利润T不少于57 000元的概率.
19.解:(1)当X ∈[100,130)时, T =500X -300(130-X) =800X -39 000.
当X ∈[130,150]时,T =500×130=65 000.
所以T =?????800X -39 000,100≤X <130,
65 000,130≤X ≤150.
(2)由(1)知利润T 不少于57 000元当且仅当 120≤X ≤150.
由直方图知需求量X ∈[120,150]的频率为0.7,所以下一个销售季度内的利润T 不少于57 000元的概率的估计值为0.7.
10.I2[2013·山东卷] 将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示.则7个剩余分数的方差为( )
A.1169
B.36
7 C .36 D.6 7
7
10.B [解析] 由题得91×7=87+90×2+91×2+94+90+x ,
解得x =4,剩余7个数的方差s 2=1
7[(87-91)2+2(90-91)2+2(91-91)2
+2(94-91)2
]=36
7.
5.I2,K2[2013·陕西卷] 对一批产品的长度(单位:毫米)进行抽样检测,图1-1为检测结果的频率分布直方图.根据标准,产品长度在区间[20,25)上为一等品,在区间[15,20)和[25,30)上为二等品,在区间[10,15)和[30,35]上为三等品.用频率估计概率,现从该批产品中随机抽取1件,则其为二等品的概率是( )
图1-1
A .0.09
B .0.20
C .0.25
D .0.45
5.D [解析] 利用统计图表可知在区间[25,30)上的频率为:1-(0.02+0.04+0.06+0.03)×5=0.25,在区间[15,20)上的频率为:0.04×5=0.2,故所抽产品为二等品的概率为0.25+0.2=0.45.
15.I2,K2[2013·天津卷] 某产品的三个质量指标分别为x ,y ,z ,用综合指标S =x +y +z 评价该产品的等级,若S ≤4,则该产品为一等品.现从一批该产品中,随机抽取10件产品作为样本,其质量指标列表如下:
(1)利用上表提供的样本数据估计该批产品的一等品率;
(2)在该样本的一等品中,随机抽取2件产品,
(i)用产品编号列出所有可能的结果;
(ii)设事件B为“在取出的2件产品中,每件产品的综合指标S 都等于4”.求事件B发生的概率.
15.解:(1)计算10件产品的综合指标S,如下表:
其中S≤4的有A1,A2,A4,A5,A7,A9,共6件,故该样本的
一等品率为6
10=0.6.
从而可估计该批产品的一等品率为0.6.
(2)(i)在该样本的一等品中,随机抽取2件产品的所有可能结果为{A1,A2},{A1,A4},{A1,A5},{A1,A7},{A1,A9},{A2,A4},{A2,A5},{A2,A7},{A2,A9},{A4,A5},{A4,A7},{A4,A9},
{A 5,A 7},{A 5,A 9},{A 7,A 9},共15种.
(ii)在该样本的一等品中,综合指标S 等于4的产品编号分别为A 1,A 2,A 5,A 7,则事件B 发生的所有可能结果为{A 1,A 2},{A 1,A 5},{A 1,A 7},{A 2,A 5},{A 2,A 7},{A 5,A 7}, 共6种.
所以P(B)=615=2
5.
18.I2、I5[2013·新课标全国卷Ⅰ] 为了比较两种治疗失眠症的药(分别称为A 药,B 药)的疗效,随机地选取20位患者服用A 药,20位患者服用B 药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:
服用A 药的20位患者日平均增加的睡眠时间: 0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.5 2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4 服用B 药的20位患者日平均增加的睡眠时间: 3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.4 1.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2 2.7 0.5
(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?
(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?
图1-4
18.解:(1)设A药观测数据的平均数为x,B药观测数据的平均数为y.
由观测结果可得
x=1
20(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+
2.6+2.7+2.7+2.8+2.9+
3.0+3.1+3.2+3.5)=2.3,
y=1
20(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+
1.7+1.8+1.9+
2.1+2.4+2.5+2.6+2.7+
3.2)=1.6.
由以上计算结果可得x>y, 因此可看出A药的疗效更好.
(2)由观测结果可绘制如下茎叶图:
从以上茎叶图可以看出,A药疗效的试验结果有7
10的叶集中在茎
2,3上,而B药疗效的试验结果有7
10的叶集中在茎0,1上,由此可看出A药的疗效更好.
6.I2[2013·重庆卷] 图1-2是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,则数据落在区间[22,30)内的频率为()
图1-2
A.0.2 B.0.4
C.0.5 D.0.6
6.B[解析] 由茎叶图可知数据落在区间[22,30)内的频数为4,
所以数据落在区间[22,30)内的频率为4
10=0.4,故选B.
I3正态分布
I4变量的相关性与统计案例
19.K1,I4[2013·福建卷] 某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产
件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图1-4所示的频率分布直方图.
图1-4
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
附:χ2=n (n 11n 22-n 12n 21
)2
n 1+·n 2+·n +1·n +2
? ??
??注:此公式也可以写成K 2=n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )
19.解:(1)由已知得,样本中有“25周岁以上组”工人60名,“25周岁以下组”工人40名.
所以,样本中日平均生产件数不足60件的工人中,“25周岁以上组”工人有60×0.05=3(人),记为A 1,A 2,A 3;“25周岁以下组”
工人有40×0.05=2(人),记为B 1,B 2.
从中随机抽取2名工人,所有的可能结果共有10种,它们是:(A 1,A 2),(A 1,A 3),(A 2,A 3),(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).
其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是:(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).故所求的概率P =710.
(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:
所以得
K
2
=n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )
=
100×(15×25-15×45)260×40×30×70
=25
14≈1.79.
因为1.79<2.706.
所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.
11.I4[2013·福建卷] 已知x与y之间的几组数据如下表:
假设根据上表数据所得线性回归直线方程为y^=b^x+a^.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是()
A.b^>b′,a^>a′