概率与统计
一、普通的众数、平均数、中位数及方差
1、 众数 :一组数据中,出现次数最多的数。
2、平均数 : ①、常规平均数:
x
x 1
x 2
x n
②、加权平均数: x
x 1 1 x 2 2
x n
n
n
1
2
n
3、中位数: 从大到小或者从小到大排列,最中间或最中间两个数的平均数 。
4、方差: s 2
1
[( x 1 x) 2 ( x 2 x )2
( x n
x )2 ]
n
二、频率直方分布图下的频率
1、频率 =小长方形面积: f S y 距 d ;频率 =频数 / 总数
2、频率之和 : f 1
f 2
f n 1 ;同时 S 1 S 2
S n
1 ;
三、频率直方分布图下的众数、平均数、中位数及方差
1、众数: 最高小矩形底边的中点。
2、平均数: x x 1 f 1 x 2 f 2 x 3 f 3 x n f n
x x 1 S 1 x 2 S 2
x 3 S 3
x n S n
3、中位数: 从左到右或者从右到左累加,面积等于
0.5 时 x 的值。
4、方差: s 2
( x 1
x )2 f 1 ( x 2 x) 2 f 2
( x n x) 2 f n
四、线性回归直线方程 : ? ? ?
bx
y a
n
(x i
x )( y i
y )
n
x i y i nxy
?
?
其中: b i 1
i 1
,
a?
y
bx
n
n
( x i x )2
x i 2
nx 2
i 1
i
1
1、线性回归直线方程必过样本中心
( x , y ) ;
?
?
0 : 负相关。
2、 b 0 : 正相关; b
?
3、线性回归直线方程: y? ?
bx a?的斜率 b 中,两个公式中分子、分母对应也相等;中间可以推导得到。
五、回归分析
?i
1、残差 : ?i
y i
?i 越小越好;
e
y (残差 =真实值—预报值)。分析:
e
2、残差平方和 :
n
? )
2
(
y i
,
i 1
y i
n
( y i
y )
2
( y 1 y )
2 ( y
y )
2
( y
y )
2
分析:①意义:越小越好;
②计算:
?i
?1
2
?2
n
?n
i 1
n ?i )
2
3、拟合度(相关指数) : R 2
1
( y
y ,分析:① . R 2
0,1
②. 越大拟合度越高;
i 1
的常数;
n
y)2
i ( y i
1
n
n
4、相关系数 : r
i ( x i x )( y i y)
x i y i nx y
1
i 1
n
x)2 n
y) 2 n
x) 2 n
y )2
i 1( x i i ( y i
( x i ( y i
1
i 1
i 1
分析:① . r
[ 1,1]的常数;
② . r 0: 正相关; r
0: 负相关
③. r
[0,0.25] ;相关性很弱;
r
(0.25,0.75) ;相关性一般;
r [0.75,1] ;相关性很强;
六、独立性检验 x 1 x 2
1、2×2 列联表 :
合计
2、独立性检验公式 bc)2
y 1 a b a b ①. k 2
(a
n( ad
d )
y 2
c
d
c d
b)(c d )(a c)(b
合计
a c
b d
n
②.犯错误上界 P 对照表
3、独立性检验步骤
①.计算观察值
n(ad bc) 2
k : k;
(a b)(c d )(a c)(b d )
②.查找临界值 k0:由犯错误概率P,根据上表查找临界值k0;
③.下结论: k k0:即犯错误概率不超过P 的前提下认为:, 有 1-P 以上的把握认为:;
k k0:即犯错误概率超过P 的前提认为:,没有 1-P 以上的把握认为:;
【经典例题】
题型 1 与茎叶图的应用
例 1( 2014 全国)某市为考核甲、乙两部门的工作情况,学科网随机访问了50 位市民。根据这50 位市民(1)分别估计该市的市民对甲、
乙部门评分的中位数;
(2)分别估计该市的市民对甲、
乙部门的评分做于 90 的概率;
(3)根据茎叶图分析该市的市民
对甲、乙学科网两部门的评价。
题型 2 频率直方分布图的应用
例 2( 2015 广东)某城市 100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图2,
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
( 3)在月平均用电量为[220,240),[240,260),[260,280),
[280,300]的四组用户中,用分层抽样的方法抽取 11 户居民,则月平均用电量
在[220,240)的用户中应抽取多少户?
练习 2 ( 2014 全国 1)从某企业生产的某种产品中抽取100 件,测量这些产品的一项质量指标值,由测量表得如下频数分布表:
质量指标值分组[75 ,85)[85 , 95)[95 ,105)[105 , 115)[115 , 125)频数62638228
(1)在答题卡上作出这些数据的频率分布直方图:
(2)估计这种产品质量指标值的平均数及方差
( 同一组中的数据用该组区间的中点值作代表) ;
(3)根据以上抽样调查数据,能否认为该企业生
产的这种产品符合“质量指标值不低于95的产
品至少要占全部产品的80%”的规定?
题型 3计算线性回归方程
例 3( 2015 重庆)随着我国经济的发展,居民
的储蓄存款逐年增长 . 设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份20102011201220132014
时间代号 t12345
储蓄存款 y (千亿元)567810
(1)求y关于t的回归方程?
??
y bt a
(2)用所求回归方程预测该地区 2015 年(t =6)的人民币储蓄存款 .
练习 3(2014 全国 2)某地区 2007 年至 2013 年农村居民家庭纯收入y(单位:千元)的数据如下表:年份2007200820092010201120122013
年份代号 t1234567
人均纯收入 y 2.9 3.3 3.6 4.4 4.8 5.2 5.9
(1)求y关于t的线性回归方程;
(2)利用( 1)中的回归方程,分析 2007 年至 2013 年该地区农村居民家庭人均纯收入的变化情况,并预测该地区 2015 年农村居民家庭人均纯收入.
题型 4线性回归分析
例4( 2016 全国 3)下图是我国 2008 年至 2014 年生活垃圾
无害化处理量(单位:亿吨)的折线图 .
注:年份代码 1– 7 分别对应年份 2008–2014.
(1). 由折线图看出,可用线性回归模型拟合y 与t的关系,请
用相关系数加以说明;
(2). 求出y关于t的回归方程y??
0.01 ),bt a?(系数精确到
预测 2016 年我国生活垃圾无害化处理量 .
777
y )2
参考数据:y i 9.32 ,t i y i40.17 ,( y i0.55 ,≈2.646.
i1i 1i 1
n n
(t i t )( y i y )(t i t )( y i y )
参考公式: r i 1,回归方程 y a bt 中:b i 1,a=y bt .
n
n n
(t i(y i
t )2y) 2(t i t )2
i 1i 1i1
题型 5独立性检验综合应用
例 5. 为了解某班学生喜爱打篮球是否与性别有关,对本班 60 人进行了问卷调查得到了如下的2×2 列联表:
(1)用分层抽样的方法在喜爱打篮球的学生中抽6 人,其中男生抽多少人?
(2)在上述抽取的人中选 2 人,求恰有一名女生的概率;
(3) 你是否有95%的把握认为喜爱打篮球与性别有关?说明你的理由。
练习 5.为调查某市学生百米运动成绩, 从该市学生中按照男女比例
随机抽取 50 名学生进行百米测试, 学生成绩全部都介于13 秒到 18 秒之
间 , 将测试结果按如下方式分成五组, 第一组13,14 ,第二组14,15 ,第
五组 17,18 ,如图是按上述分组方法得到的频率分布直方图.
(1)求这次测试成绩的平均数、众数和中位数、
(2)设 m, n 表示从第一组和第五组的所有学生中任意抽取的两名学生的百
米测试成绩 , 即m,n13,1417,18 ,求事件“ m n 2 ”的概率;
(3)根据有关规定 , 成绩小于 16 秒为达标 . 如果男女生使用相同的达标标
准 , 则男女生达标情况如下表:男女总计完成上表 , 并根据上表数据 , 能否有 99﹪的把握认为“体育达标与性达标24
别有关”?不达标12
总计50