辅导讲义:概率与统计
一、知识回顾:
1、总体、个体、样本、样本容量:
总体:在统计中,所有考察对象的全体。
个体:总体中的每一个考察对象。
样本:从总体中抽取的一部分个体叫做这个总体的一个样本。
样本容量:样本中个体的数目。
2、统计的基本思想:用样本估计总体,即通常不直接去研究总体,而是通过从总体中抽取一个样本,根据样本的情况去估计总体的相应情况。
3、抽样方法:简单随机抽样、系统抽样、分层抽样。
4、简单随机抽样:一般地,从个体为N烦人总体中逐个不放回地取出n个个体作为样本(n 5、抽签法和随机数表法都是简单随机抽样。 6、抽签法: (总体个数N,样本容量n) (1)将总体中的N个个体编号; (2)将这N个号码写在形状、大小相同的号签上; (3)将号签放在同一箱中,并搅拌均匀; (4)从箱中每次抽出1个号签,连续抽出n次; (5)将总体中与抽到的号签编号一致的n个个体取出。 7、随机数表法: (1)将总体中的个体编号(每位号码位数一致); (2)在随机数表内任选一个数作为开始; (3)从选定的数开始按一定的方向读下去,若得到的号码已经在编号中,则取出;若得到的号码不在编号中或前面已经取出,则跳过,如此继续下去,直到取满为止; (4)根据选定的号码抽取样本。 注: (1)用随机数表抽取样本,可以任选一个数作为开始,读数的方向可以向左,也可以向右、向上、向下等等。因此样本并不是唯一的. (2)由于随机数表是等概率的,因此利用随机数表抽取样本保证了被抽取个体的概率是相等的(公平性)。 (3)随机数表是统计工作者用计算机生成的随机数,并保证表中的每个位置上的数字是等可能出现的。 8、抽签法—编号、制签、搅拌、抽取,关键是“搅拌”后的随机性;随机数表法—编号、选数、取号、抽取,其中取号的方向具有任意性。 9、简单随机抽样的特点: 它的总体个数有限的; 它是逐个地进行抽取; 它是一种不放回抽样; 它是一种等概率抽样. 10、系统抽样: 将总体平均分成几个部分,然后按照一定的规则,从每个部分中抽取一个个体作为样本,这样的抽样方法称为系统抽样。也可称为“等距抽样”。 注:如果个体总数不能被样本容量整除时该怎么办? (1)随机将这1003个个体进行编号1,2,3,……1003。 (2)利用简单随机抽样,先从总体中剔除3个个体(可以随机数表法),剩下的个体数1000能被100整除,然后按系统抽样的方法进行。 11、系统抽样的步骤: (1)采用随机的方式将总体中的 N 个体编号。 (2)整个的编号分段(即分成几个部分),要确定分段的间隔k 。当 n N (为总体中的个体的个数,n 为样本容 量)是整数时,取n N k = ;当n N 不是整数时,从总体中剔除一些个体,使剩下的总体中个体的个数N '能被n 整 除,这时取n N k ' = ,并将剩下的总体重新编号; (3)在第一段中用简单随机抽样确定起始的个体编号l ; (4)按照一定的规则抽取样本,通常将编号为k n l k l k l l )1(2-+++,,,, 的个体抽出。 12、简单随机抽样、系统抽样的特点是什么? 简单随机抽样:①逐个不放回抽取;②等可能入样;③总体容量较小。 系统抽样:①分段,按规定的间隔在各部分抽取;②等可能入样;③总体容量较大。 13、分层抽样:一般地,当总体由差异明显几部分组成时,为了使样本更客观地反映总体情况,我们常常将总体中的个体按不同的特点分成层次比较明显的几部分,然后按照各部分在总体中所占的比实施抽样,这种抽样方法 有限性 叫分层抽样。 14、分层抽样的步骤: (1) 将总体按一定的标准分层;(2)计算各层的个体数与总体的个体数的比;(3)按各层个体数占总体的个体数的比确定各层应抽取的样本容量;(4)在每一层进行抽样;(可用简单随机抽样或系统抽样)(5)综合每层抽样,组成样本 15、简单随机抽样、系统抽样、分层抽样的比较: 16、频数:频数是指一组数据中,某范围内的数据出现的次数。 频率:把频数除以数据的总个数,就得到频率。 17、频率分布表:当总体很大或不便于获得时,可以用样本的频率分布估计总体的频率分布。我们把反映总体频率分布的表格称为频率分布表。 18、频率分布表的制作: 我们将整个取值区间的长度称为全距,即计算数据中最大值与最小值的差,即全距。分成的区间的长度称为组距。 编制频率分布表的步骤: (1) 求全距,决定组数和组距,组距= 组数 全距 ; (2) 分组:通常对组内数值所在区间取左闭右开区间,最后一组取闭区间。 (3) 登记频数,计算频率,列出频率分布表。 19、频率分布直方图的做法: (1)把横轴分成若干段,每一线段对应一个组的组距; (2)然后以此线段为底作一矩形,它的高等于该组的频率/组距; 这样得出一系列的矩形,每个矩形的面积恰好是该组上的频率,这些矩形就构成了频率分布直方图。 20、茎叶图: 如图: 21、平均数a :n a a a a n +++= 21(或称为均值)。若取值为n x x x x 321,,的频率分别为 n p p p p ,,,, 321,则其平均数为n n p x p x p x x +++= 2211。 22、极差:组数据的最大值与最小值的差称为极差。极差越大,数据越分散,极差越小,数据越集中。 极差=最大值-最小值 23、方差:设一组样本数据n x x x x 321,,,其平均数为x ,则称212 )(1∑=-=n i i x x n s 。 标准差:方差的算数平方根2 1 )(1∑=-=n i i x x n s ,简称样本方差、样本标准差。 注:方差越小,数据的波动越小。 24、必然事件:在一定条件下必然要发生的事件叫必然事件。 25、不可能事件:在一定条件下不可能发生的事件叫不可能事件. 26、随机事件:在一定条件下可能发生也可能不发生的事件叫随机事件. 27、古典概型的特征: (1)有限性:在随机试验中,其可能出现的结果有有限个,即只有有限个不同的基本事件; (2)等可能性:每个基本事件发生的机会是均等的. 1 2 3 4 5 52 54 976611 94 0 8 346 368 389 1 甲 乙 第二行表示甲得分为15分、12分,乙得分为13分、14分、16分,其他各行与此类同 28、古典概型的概率求解步骤: ①求出总的基本事件数; ②求出事件A 所包含的基本事件数,然后利用 公式 总的基本事件个数 包含的基本事件数 A A p = )(。 29、几何概型的特点: ⑴有一个可度量的几何图形S ; ⑵试验E 看成在S 中随机地投掷一点; ⑶事件A 就是所投掷的点落在S 中的可度量图形A 中. 几何概型的概率公式: ) 区域长度(面积或体积试验的全部结果所构的积) 的区域长度(面积或体构成事件A A p = )( 30、几何概型与古典概型的区别: 相同点:两者基本事件的发生都是等可能的; 不同点:古典概型要求基本事件有有限个,几何概型要求基本事件有无限多个. 31、互斥事件:不可能同时发生的两个事件叫做互斥事件. 32、对立事件:必有一个发生的互斥事件互称对立事件. 33、互斥事件与对立事件的概率: (1)n 个彼此互斥事件的概率公式: )()()()()(321321n n A p A p A p A p A A A A p +++=+++。 (2)对立事件的概率之和等于1,即:1)()()(=+=+A A p A p A p 。 )(1)(A p A p -=。 34、回顾小结: (1)有序地写出所有基本事件及某一事件A 中所包含的基本事件是解古典概型问题的关键! (2)构建恰当的几何模型是解几何概型问题的关键! (3)求某些复杂事件(如“至多、至少”的概率时,通常有两种转化方法: ①将所求事件的概率化为若干互斥事件的概率的和; ②求此事件的对立事件的概率. 二、例题: 1、(1)人们打桥牌时,将洗好的扑克牌(52张)随机确定一张为起始牌,这时,开始按次序搬牌,对每一家来说,都是从52张总体中抽取一个13张的样本.则这种抽样方法是___系统抽样___________. (2)某单位共有在岗职工人数为624人,为了调查工人上班时,从离开家来到单位的路是平均所用时间,决定抽取10%的工人调查这一情况,如果采用系统抽样方法完成这一抽样,则首先__利用简单随机抽样,剔除4人_______. (3)某中学有高一学生400人,高二学生320人,高三学生280人,以每人被抽取的概率为0.2向该中学抽取一个容量为n的样本,则n=___200___. 2、有一容量为100的样本,数据的分组以及各组的频数如下: [12.5,15.5),6; [15.5,18.5),16; [18.5,21.5),18; [21.5,24.5),22; [24.5,27.5),20; [27.5,30.5),10; [30.5,33.5),8; (1)列出样本的频率分布表; (2)画出频率分布直方图。 3、下表是抽测某校初二女生身高情况所得的部分资料(身高单位:cm,测量时精确到1cm).已知身高在 151cm 以下(含151cm)的被测女生共3人.则所有被测女生总数为. 分组[145.5, 148.5) [148.5, 151.5) [151.5, 154.5) [154.5, 157.5) [157.5, 160.5) [160.5, 163.5) [163.5, 166.5) [166.5, 169.5] 频 率 0.02 0.04 0.08 0.12 0.30 0.20 0.18 0.06 4、甲、乙、丙三名射箭运动员在某次测试中各射箭20次,三人的测试成绩如下表: 甲的成绩乙的成绩丙的成绩 环数7 8 9 10 7 8 9 10 7 8 9 10 频数 5 5 5 5 6 4 4 6 4 6 6 4 s1,s2,s3分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则s1,s2,s3的大小关系为s2>s1>s3.(用>号连接) 5、某单位有500名职工,其中不到35岁的有125人,35岁~49岁的有280人,50岁以上的有95人.为了了解该单位职工与身体状况有关的某项指标,要从中抽取一个容量为100的样本,应该用___分层___抽样法. 6、某校有学生l485人,教师l32人,职工33人.为有效防控甲型HINl流感,拟采用分层抽样的方法,从以上人员中抽取50人进行相关检测,则在学生中应抽取__45_____人. 7、200辆汽车经过某一雷达地区,时速频率分布直方图如图所示,则时速超过60 km/h的汽车数量为_76_。 8、一栋楼房有4个单元, 甲,乙两人住在此楼内 ,则甲,乙两人同住一单元的概率为 . 9、掷两枚骰子,求所得的点数之和为6的概率。536 P = 10、有五根细木棒,长度分别为1,3,5,7,9(cm).从中任取三根,能搭成三角形的概率是 ? 11、甲口袋中有大小相同的白球3个,红球5个,乙口袋中有大小相同的白球4个,黑球8个,从两个口袋中各摸出 2个球,求:(1)甲口袋中摸出的2个球都是红球的概率,(2)两个口袋中摸出的4个球中恰有2个白球的概率. 12、在某次考试中,甲,乙,丙三人合格(互不影响)的概率分别是 2/5,3/4,1/3.考试结束后,最容易出现几人合格的情况? 13、盒中有10只晶体管,其中2只是次品,每次随机地抽取1只,作不放回抽样,连抽两次,试分别求下列事件的概率: (1)2只都是正品; (2)2只都是次品; (3)1只正品,1只次品; (4)第二次取出的是次品。 三、高考真题回顾: 1、(2011天津理9)一支田径队有男运动员48人,女运动员36人,若用分层抽样的方法从该队的全体运动员中 抽取一个容量为21的样本,则抽取男运动员的人数为___12___。 2、(2011辽宁理14)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示 年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:321.0254.0?+=x y .由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加__0.254____万元。 3、(2011江苏6)某老师从星期一到星期五收到信件数分别是10,6,8,5,6,则该组数据的方差___2 =s 【答案】3.2 4、(2011广东理13)某数学老师身高176cm ,他爷爷、父亲和儿子的身高分别是173cm 、170cm 和182cm .因 儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为___185__cm . 5、(2010上海文)5.将一个总数为A 、B 、C 三层,其个体数之比为5:3:2。若用分层抽样方法抽取容量为100的样本,则应从C 中抽取 20 个个体。 4 1 10 3 6、(2010天津理)甲、乙两人在10天中每天加工零件的个数用茎叶图表示如下图,中间一列的数字表示零件个 数的十位数,两边的数字表示零件个数的个位数,则这10天甲、乙两人日加工零件的平均数分别为 ___24__和____23___。 7、(2011北京理17) 以下茎叶图记录了甲、乙两组个四名同学的植树棵树。乙组记录中有一个数据模糊,无法确认,在图中以X 表示。 (Ⅰ)如果X=8,求乙组同学植树棵树的平均数和方差; (Ⅱ)如果X=9,分别从甲、乙两组中随机选取一名同学,求这两名同学的植树总棵树Y 的分布列和数学期 望。 (注:方差 ()() () 222 2121n s x x x x x x n ? ? = -+-++-? ???,其中x 为1x ,2x ,…… n x 的平均数) 解(1)当X=8时,由茎叶图可知,乙组同学的植树棵数是:8,8,9,10, 所以平均数为 ; 435 410988=+++= 方差为 . 1611 ])43510()4359()4358()4358[(4122222=-+-+-+-=s (Ⅱ)当X=9时,由茎叶图可知,甲组同学的植树棵树是:9,9,11,11;乙组同学的植树棵数是:9, 8,9,10。分别从甲、乙两组中随机选取一名同学,共有4×4=16种可能的结果,这两名同学植树总棵数Y 的可能取值为17,18,19,20,21事件“Y=17”等价于“甲组选出的同学植树9棵, 乙组选出的同学植树8棵”所以该事件有2种可能的结果,因此P (Y=17)=. 81 162= 同理可得 ;41)18(= =Y P ;41)19(==Y P .81)21(;41)20(====Y P Y P