∑ (x - x ) ∑ ( y - y ) n
2
n
2
i =1
i i =1
i
∑ (x - x ) ∑ ( y - y ) n 2
n
2
i =1
i i =1
i
1 2 n 1 2 n n i i
i
i
i
一、普通的众数、平均数、中位数及方差 1、 众数:一组数据中,出现次数最多的数。
概率与统计
x + x + ??? + x x + x + ??? + x 2、平均数:①、常规平均数: x = 1 2 n
n
②、加权平均数: x = 1 1 2 2 n n
+ + ??? + 1 2 n
3、中位数:从大到小或者从小到大排列,最中间或最中间两个数的平均数。
4、方差: s 2
= 1
[(x - x )2
+ (x - x )2
+ ??? + (x - x )2 ]
n
1 2 n
二、频率直方分布图下的频率
1、频率 =小长方形面积: f = S = y ? d ;频率=频数/总数
2、频率之和: f + f + ??? + f = 1;同时 S + S + ??? + S = 1 ;
三、频率直方分布图下的众数、平均数、中位数及方差 1、众数:最高小矩形底边的中点。
2、平均数: x = x f + x f + x f + ??? + x f x = x S + x S + x S + ??? + x S 1 1
2 2
3 3
n n
1 1
2 2
3 3
n n
3、中位数:从左到右或者从右到左累加,面积等于 0.5 时 x 的值。
4、方差: s 2 = (x - x )2 f + (x - x )2 f + ??? + (x - x )2 f
1
1
2
2
n
n
四、线性回归直线方程: y ? = b ?x + a ?
n n
∑
(x i - x )( y i - y ) ∑ x i y i - nxy 其中: b ? = i =1 = i =1 ,
a ? = y -
b ?x
∑n (x - x )2 ∑ x 2 - nx 2
i =1
i
i
i =1
1、线性回归直线方程必过样本中心(x , y ) ;
2、b ? > 0 : 正相关; b ? < 0 : 负相关。
3、线性回归直线方程: y ? = b ?x + a ? 的斜率b ? 中,两个公式中分子、分母对应也相等;中间可以推导得到。 五、回归分析
1、残差: e ? = y - y
? (残差=真实值—预报值)。分析: e ? 越小越好;
i
i
i
i
2、残差平方和: ∑n
( y - y ? )2
, i =1
分析:①意义:越小越好; ②计算: ∑n
( y - y ? )2 = ( y - y ? )2 + ( y - y ? )2 + ??? + ( y - y ? )2
i =1
i i 1 1 2 2 n n
∑n
( y - y
? )2 3、拟合度(相关指数): R 2
= 1-
i =1
,分析:①. R 2 ∈(0,1] 的常数;
②.越大拟合度越高;
∑n ( y - y )2
i =1
n
n
∑ (x i - x )( y i - y ) ∑ x i y i - nx ? y
4、相关系数: r =
i =1
=
i =1
分析:①.
r ∈[-1,1] 的常数; ②. r > 0 :正相关; r < 0 : 负相关
③. r ∈[0, 0.25];相关性很弱; 六、独立性检验
1、2×2 列联表:
2、独立性检验公式 r ∈(0.25, 0.75) ;相关性一般;
r ∈[0.75,1];相关性很强;
①. k 2 = n (ad - bc )2
(a + b )(c + d )(a + c )(b + d )
②.犯错误上界 P 对照表
3、独立性检验步骤
距
x 1
x 2
合计
y 1 a b a + b y 2
c d
c +
d 合计
a + c
b + d
n
0 0
①.计算观察值k : k =
n (ad - bc )2
;
(a + b )(c + d )(a + c )(b + d )
②.查找临界值k :由犯错误概率 P ,根据上表查找临界值k ; ③.下结论: k ≥ k :即犯错误概率不超过 P 的前提下认为: ,有 1-P 以上的把握认为: ; k < k :即犯错误概率超过 P 的前提认为: ,没有 1-P 以上的把握认为:
;
【经典例题】
题型 1 与茎叶图的应用
例 1(2014 全国)某市为考核甲、乙两部门的工作情况,学科网随机访问了 50 位市民。根据这 50 位市民 (1) 分别估计该市的市民对甲、乙部门评分的中位数;
(2) 分别估计该市的市民对甲、乙 部门的评分做于 90 的概率; (3) 根据茎叶图分析该市的市民对甲、乙学科网两部门的评价。
题型 2 频率直方分布图的应用
例 2(2015 广东)某城市 100 户居民的月平均用电量(单位:度),以[160,180) ,[180, 200) ,[ 200, 220) ,
[ 220, 240) ,[ 240, 260) ,[ 260, 280) ,[ 280,300] 分组的频率分布直方图如图 2,
(1) 求直方图中 x 的值; (2) 求月平均用电量的众数和中位数;
(3)在月平均用电量为[ 220, 240) ,[ 240, 260) ,[ 260, 280) ,
[ 280,300] 的四组用户中,用分层抽样的方法抽取 11 户居民,则 月平均用电量在[ 220, 240) 的用户中应抽取多少户?
练习 2 (2014 全国 1)从某企业生产的某种产品中抽取 100 件,测量这些产品的一项质量指标值,由测量表得质量指标值分组 [75,85) [85,95) [95,105) [105,115) [115,125)
频数 6 26 38 22 8
(1)在答题卡上作出这些数据的频率分布直方图: (2)估计这种产品质量指标值的平均数及方差 (同一组中的数据用该组区间的中点值作代表); (3)根据以上抽样调查数据,能否认为该企业生 产的这种产品符合“质量指标值不低于95的产 品至少要占全部产品的80%”的规定?
题型 3 计算线性回归方程
例 3(2015 重庆)随着我国经济的发展,居民
年份 2010 2011 2012 2013 2014 时间代号t 1 2 3 4
5 储蓄存款 y (千亿元) 5
6 7 8 10
(1) 求 y 关于t 的回归方程 y
? = b t + a ? (2) 用所求回归方程预测该地区 2015 年( t =6)的人民币储蓄存款.
练习 3(2014 全国 2)某地区 2007 年至 2013 年农村居民家庭纯收入 y (单位:千元)的数据如下表:
(1) 求 关于的线性回归方程; (2) 利用(1)中的回归方程,分析 2007 年至 2013 年该地区农村居民家庭人均纯收入的变化情况,并预测该地区 2015 年农村居民家庭人均纯收入.
题型 4 线性回归分析
例 4(2016 全国 3)下图是我国 2008 年至 2014 年生活垃圾 无害化处理量(单位:亿吨)的折线图.
注:年份代码 1–7 分别对应年份 2008–2014.
(1). 由折线图看出,可用线性回归模型拟合 y 与t 的关系,请用相关系数加以说明;
(2). 求出 y 关于t 的回归方程 y
? = b ?t + a ? (系数精确到 0.01), 预测 2016 年我国生活垃圾无害化处理量.
参考数据: ∑ y i i =1
= 9.32 , ∑t i y i i =1
= 40.17 ,
= 0.55 ,≈2.646.
7
7 ∑ i =1
7
( y - y )
2
i
年份 2007 2008 2009 2010 2011 2012 2013 年份代号 t 1 2 3 4 5 6 7 人均纯收入 y 2.9 3.3 3.6 4.4 4.8 5.2 5.9