概率与统计
一、统计
1.三种抽样方法的比较
2.常用的统计图表:一“表”(频率分布表);两“图”(频率分布直方图和茎叶图)(1)频率分布直方图
①小长方形的面积=组距×频率
组距
=频率;
②各小长方形的面积之和等于1;
③小长方形的高=频率
组距
,所有小长方形的高的和为
1
组距
.
【注意】直方图的纵轴(小长方形的高)一般是频率除以组距的商(而不是频率),横轴一
般是数据的大小,小长方形的面积表示频率. (2)茎叶图
在样本数据较少时,用茎叶图表示数据的效果较好. 3.用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数
数字特征 样本数据
频率分布直方图 众数
出现次数最多的数据
取最高的小长方形底边中点
的横坐标
中位数
将数据按大小依次排列,处
在最中间位置的一个数据(或最中间两个数据的平均数)
把频率分布直方图划分成左右两个面积相等的分界线与
x 轴交点的横坐标
平均数 样本数据的算术平均数 每个小长方形的面积乘以小
长方形底边中点的横坐标之 和
(2)平均数12()n x x x x n
=++???+. 方差2
222121
[()()()]n s x x x x x x n
=
-+-+???+-. 标准差222121
[()()()]n s x x x x x x n
=
-+-+???+-. 【提醒】标准差、方差越大,数据的离散程度越大,越不稳定. 4.变量间的相关关系 知识点分析
1、线性回归方程:a x b y
???+=(x 叫做解释变量,y 叫做预报变量) 线性回归方程系数公式:
( 公式说明:回归直线过样本的中心点)(y x , ,也就是平均值点.) 2、相关系数公式
3、几个结论:
(1)回归直线过样本的中心点)(y x ,.
(2)b >0时,y 与x 正相关,散点图呈上升趋势;b <0时,y 与x 负相关,散点图呈下降趋势.
(3)斜率b 的含义(举例):
如果回归方程为y =2.5x +2, 说明x 增加1个单位时,y 平均增加2.5个单位; 如果回归方程为y =-2.5x +2,说明x 增加1个单位时,y 平均减少2.5个单位. (4)相关系数r 表示变量的相关程度。 范围:1≤r ,即 11≤≤-r
r 越大.,相关性越强.
。0>r 时,y 与x 正相关;0 R 表示模型的拟合效果。范围:]10[2 , ∈R 2R 越大.,拟合效果越好.,(这时:残差平方和越小,残差点在带状区域内的分布比较均匀,带状区域宽度越窄,拟合精度越高). 2R 表示解释变量x 对于预报变量y 变化的贡献率。 例如:64.02≈R ,表明“x 解释了64%的y 变化”,或者说“y 的差异有64%是由x 引起的”。 (6)线性回归模型 e a bx y ++=, 其中e 叫做随机误差。(y 是由x 和e 共同确定的) 二、概率 1.概率的五个基本性质 (1)随机事件A 的概率:0≤()P A ≤1. (2)必然事件的概率为1. (3)不可能事件的概率为0. (4)如果事件A 与事件B 互斥(不可能同时发生),则()()()P A B P A P B +=+. (5)如果事件A 与事件B 互为对立事件(不会同时发生,但一定有一个发生),那么 ()()()1P A B P A P B +=+=,即()1()P A P B =-. 对立必互斥,互斥未必对立. 2.古典概型 (1)特点:①有限性,②等可能性. (2)概率公式:()A P A =事件中所含的基本事件数 试验的基本事件总数 . 3.几何概型 (1)特点:①无限性,②等可能性. (2)概率公式:() ()() A P A = 构成事件的区域长度面积或体积试验的全部结果所构成的区域长度面积或体积. 三、独立性检验 (一)知识点分析 1、 2×2列联表:统计被调查者的两种状态,每种状态又分两种情况的调查结果表.对于性别变量,其取值为男和女两种,这种变量的不同值表示个体所属的不同类别,像这类变量称为分类变量。 2、卡方统计量:为了研究事件X 与Y 的关系,经调查得到一张2×2列联表,如下表所示: 独立性检验原理:也叫假设性检验(类似反证法原理),一般情况下,假设分类变量X 和Y 之间没有关系,通过计算2 K 值,然后查表对照相应的概率P ,发现这种假设正确的概率P 很小,从而推翻假设,最后得出X 和Y 之间有关系的可能性为(1-P),也就是“X 和Y 有关系”.(表中的k 就是2 K 的观测值,即2K k =) 统计量2 K (读做“卡方”),它的表达式是:) )()()(()(2 2 d b c a d c b a bc ad n K ++++-= 独立性检验临界值表 P(k 2>k ) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 k 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 (表中的K 是理论值,2K 是实际观测值,2K 越大.,说明变量间越有关系...) (二)独立性检验举例 例1、某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表: 非统计专业 统计专业 男 13 10 女 7 20 为了检验主修统计专业是否与性别有关系,根据表中的数据,查对临界值 P(k 2>k ) 0.10 0.05 0.025 0.010 k 2.706 3.841 5.024 6.635 根据表中数据,得到。所以有 的把握认为主修统计专 业与性别有关系。 例2、某电视台在一次对收看文艺节目和新闻节 目观众的抽样调查中,随机抽取了100名电视观 众,相关的数据如表所示: (1)由表中数据分析,收看新闻节目的观众是 否与年龄有关? (2)用分层抽样方法在收看新闻节目的观众中随机抽取5名,大于40岁的观众应该抽取几名? (3)在上述抽取的5名观众中任取2名,求恰有1名观众的年龄为20至40岁的概率。 参 考 公 式 与 数 据 : ))()()(()(22d b c a d c b a bc ad n K ++++-=