第三、四章 参数与抽样估计
总体和个体(概念要点)
1.具体含义
总体(Population):调查研究的事物或现象的全体
个体(Item unit): 组成总体的每个元素
2.抽象含义
总体(Population):调查研究中所关心的作为随机变量的统计指标
个体(Item unit): 统计指标所取得每个可能值
样本(Sample)
1.样本(Sample):从总体中所抽取的部分个体
2.样本容量(Sample size):样本中所含个体的数量
3.样本选取的基本原则:
代表性:样本的每个分量都与总体有相同的分布
独立性:样本的每个分量都是相互独立的
4.简单随机样本:满足代表性和独立性的样本
3.简单随机抽样:获得简单随机样本的方法
统计量:不含任何未知参数的样本的函数
例:设 是总体 容量为n 的样本,则 样本均值(Sample mean): 样本方差(Sample variance): 阶原点矩(Moment of order ):
抽样分布
1. 样本统计量的概率分布,是一种理论分布在重复选取容量为n 的样本时,由该统量
的所有可能取值形成的相对频数分布
2. 样本统计量是随机变量 样本均值, 样本比例,样本方差等
3. 结果来自容量相同的所有可能样本
4. 提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学
性的重要依据
样本均值的抽样分布
1. 在重复选取容量为n 的样本时,由样本均值的所有可能取值形成的相对频数分布
2. 一种理论概率分布
3. 推断总体均值μ的理论基础
样本均值的抽样分布与中心极限定理
当总体服从正态分布N (μ,σ2)时,来自该总体的所有容量为n 的样本的均值?x 也服从正态
分布,?x 的数学期望为μ,方差为σ2/n 。即?x ~N (μ,σ2/n )
中心极限定理
设从均值为μ,方差为σ 2的一个任意总体中抽取容量为n 的样本,当n 充分大时,样本均
值的抽样分布近似服从均值为μ、方差为σ2/n 的正态分布
样本均值的抽样分布(数学期望与方差)
1. 样本均值的数学期望
1. 样本均值的方差 重复抽样 ),,,(21n X
X X ∑==n i i X n X 11∑=-=n i i X X n S 122)(1∑==n i k i k X n A 11μ=)(x E n x 22
σ
σ=??? ??--=122
N n N n x
σσ
不重复抽样
比较及结论:1. 样本均值的均值(数学期望) 等于总体均值
2. 样本均值的方差等于总体方差的1/n
样本比例的抽样分布
1. 总体(或样本)中具有某种属性的单位与全部单位总数之比
不同性别的人与全部人数之比
合格品(或不合格品) 与全部产品总数之比
2. 总体比例可表示为 1. 样本比例可表示为 2. 在重复选取容量为n 的样本时,由样本比例的所有可能取值形成的相对频数分布
3. 一种理论概率分布
4. 当样本容量很大时,样本比例的抽样分布可用正态分布近似
5. 推断总体比例π的理论基础
1. 样本比例的数学期望
1. 样本比例的方差 重复抽样 不重复抽样 抽样调查
1. 抽样调查:通过对有限总体实施抽样,利用样本调查数据对总体参数进行估计。
2. 概率抽样:根据一个已知的概率来抽取样本单位,也称随机抽样。
3. 概率抽样的特点:
? 能够确切地区分不同的样本;
? 对每个可能的样本都赋予一个被抽到的概率;
? 按照事先赋予的概率通过某种随机形式抽取样本;
? 利用样本调查数据估计目标量时仍需与抽样概率相联系
抽样单元与抽样框
1. 抽样单元(Sampling unit):将总体划分成互不重迭且又穷尽的若干部分,每个部分称
为一个抽样单元
? 每个抽样单元都是由若干个体组成的集合
? 只由一个个体组成就称为最小抽样单元
? 抽样单元可以是自然形成的,也可以是人为划定的
2. 抽样框(Sampling frame):关于抽样单元的名册或清单
? 上一级别的某个抽样单元被抽中,必须在下一级别抽样框中连续抽样
? 有效的抽样框所包含的抽样单元应既无遗漏又无重复
简单随机抽样
1. 从总体N 个单位中随机地抽取n 个单位作为样本,使得每一个容量为样本都有相同
的机会(概率)被抽中
2. 抽取元素的具体方法有重复抽样和不重复抽样
3. 特点
? 简单、直观,在抽样框完整时,可直接从中抽取样本
? 用样本统计量对目标量进行估计比较方便 π
=)(p E N N N N 1
01=-=ππ或n
n p n n p 1
01=-=或n p )1(2ππσ-=??? ??---=1)1(2N n N n p ππσ
4.局限性
?当N很大时,不易构造抽样框
?抽出的单位很分散,给实施调查增加了困难
?没有利用其他辅助信息以提高估计的效率
分层抽样
1.将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机
地抽取样本
2.优点
?保证样本的结构与总体的结构比较相近,从而提高估计的精度
?组织实施调查方便
?既可以对总体参数进行估计,也可以对各层的目标量进行估计
二阶抽样与多阶段抽样
1.先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽
取出若干个单位进行调查
?群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽
样的段数增多,就称为多阶段抽样
2.不需要对每个高级别的抽样单元建立关于低级别抽样单元的抽样框,,节约调查费用
3.需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更
广泛的范围内展开
4.在大规模的抽样调查中,经常被采用的方法
整群抽样
1.将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位
全部实施调查
2.特点
?抽样时只需群的抽样框,可简化工作量
?调查的地点相对集中,节省调查费用,方便调查的实施
?缺点是估计的精度较差
系统抽样
1.将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个
单位作为初始单位,然后按事先规定好的规则确定其他样本单位
?先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,
r+2k…等单位
2.优点:操作简便,可提高估计的精度
3.缺点:对估计量方差的估计比较困难
参数估计概述
1.统计估计:研究由样本估计总体的未知分布或分布中的未知参数
2. 非参数估计:直接对总体未知分布的估计
3. 参数估计:总体分布类型已知,仅需对分布的未知参数进行的估计
估计量与估计值
1.估计量:用于估计总体参数的随机变量
?如样本均值,样本比例、样本方差等
?例如: 样本均值就是总体均值μ的一个估计量
2.参数用θ表示,估计量用表示
θ?θ?
3.估计值:估计参数时计算出来的统计量的具体值
如果样本均值 ?x =80,则80就是μ的估计值
点估计
1. 点估计量:设总体 的分布类型已知,但包含未知参数θ,
从总体中抽取一个简单随机样本 ,构造 一个适当的统计量 作为θ的估计, 称 为未知参数θ的点估计量
2. 用样本的估计量直接作为总体参数的估计值
? 例如:用样本均值直接作为总体均值的估
? 例如:用两个样本均值之差直接作为总体均值之差的估计
3. 没有给出估计值接近总体未知参数程度的信息
区间估计
1. 在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减
抽样误差而得到的
2. 根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率
度量,比如,某班级平均分数在75~85之间,置信水平是95%
区间估计的图示
置信水平
1. 将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例
称为置信水平
2. 表示为 (1 - α% ) α 为是总体参数未在区间内的比例
3. 常用的置信水平值有 99%, 95%, 90% 相应的 α 为0.01,0.05,0.10
置信区间
1. 设θ是未知参数, 是来自总体的样本,构造两个统计量 , ,对于给定的α(0 < α <1), 若 、 满足:
则称随机区间 是参数θ置信水平为(1 - α)的置信区间, (1 - α)称为 的置信系数 称为置信限。 2. 区间长度为随机变量,置信区间为随机区间
3. 置信水平描述了估计的可靠度,区间长度描述
了估计的精度 样本统计量
(点估计)
X X ),,,(21n X X
X ),,,(?21n X X X T =θθ?置信区间
),,,(21n X X
X ),,,(?2111n X X X T =θ)
,,,(?2122n X X X T =θ]?,?[21θθ]?,?[21θθ1?θ2?θαθθθ
-=≤≤1}??{21P 1?θ2
?θ
4. 用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值
我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个
置信区间与置信水平
影响区间宽度的因素
1.
总体数据的离散程度,用 σ 来测度 2.样本容量, 3. 置信水平 (1 - α),影响 z 的大小
总体均值的区间估计
假定条件
? 总体服从正态分布,且方差(σ2) 已知
? 如果不是正态分布,可由正态分布来近似 (n ≥ 30)
2. 使用正态分布统计量 z
3. 总体均值 μ 在1-α 置信水平下的置信区间为
【 例 3.3.1】保险公司从投保人中随机抽取36人,计算得36人的平均年龄 岁,已知投保人平均年龄近似服从正态分布,标准差为7.2岁,试求全体投保人平均年龄的置信水平为99%的置信区间
解:已知n =36, 1-α = 99%,z α/2=2.575。根据样本数据计算得:总体均值μ在1-α置信水平下的置信区间为
故全体投保人平均年龄的置信水平为99%的置信区间为[36.41,42.59]
【 例3.3.2 】一家食品公司,每天大约生产袋装食品若干,按规定每袋的重量应为100g 。为对产品质量进行检测,该企业质检部门采用抽样技术,每天抽取一定数量的食品,以分析每袋重量是否符合质量要求。现从某一天生产的一批食品8000袋中随机抽取了25袋(不重复抽样),测得它们的重量如下表所示,已知产品重量服从正态分布,且总体方差为100g 。试估计该批产品平均重量的置信区间,置信水平为95%。
解:已知X~N (μ,102),n =25, 1-α = 95%,z α/2=1.96。根据
样本数据计算得:
总体均值μ在1-α置信水平下的置信区间为
该食品平均重量的置信区间为101.4459g~109.2741g
【例3.3.3】一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表。试建立投保人年龄90%的置信区间
x n x σσ=5.39=X
解:已知n =36, 1- = 90%,z α/2=1.645。根据样本数据计算得: , 总体均值μ在1-α 置信水平下的置信区间为
投保人平均年龄的置信区间为37.37岁~41.63岁
总体均值的区间估计
1. 假定条件
? 总体服从正态分布,且方差(σ2) 未知
? 小样本 (n < 30)
2. 使用 t 分布统计量
总体均值 μ 在1-α置信水平下的置信区间为
t 分布
? t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布
【例3.3.4】已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下。建立该批灯泡平均使用寿命95%的置信区间
()63.41,37.3713
.25.3936
77.7645.15.392=±=?±=±n s z x α较 t 标准正态分布
z
解:已知~N(,σ2),n=16, 1-= 95%,tα/2=2.131
根据样本数据计算得:,
总体均值μ在1-α置信水平下的置信区间为
该种灯泡平均使用寿命的置信区间为1476.8小时~1503.2小时
总体比例的区间估计
1.假定条件:大样本条件下,样本比例的抽样分布可以由正态分
布来近似
2.使用正态分布统计量z
3. 总体比例π在1-α置信水平下的置信区间为
总体比例的区间估计
【例3.3.5】某城市想要估计下岗职工中女性所占的比例,随机地抽取了100名下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间解:已知n=100,p=65% , 1-α= 95%,zα/2=1.96
该城市下岗职工中女性比例的置信区间为53.65%~74.35%
【例 3.3.6】某企业共有职工1000人,企业准备实行一项改革,在职工中征求意见,采用不重复抽样方法,随机抽取200人作为样本,调查结果显示,由150人表示赞成这项改革,有50人表示反对。试以95%的置信水平确定赞成改革的人数比例的置信区间
解:已知n=200,zα/2=1.96,p=75% 。根据样本数据计算得总体均值π在1-α置信水平下的置信区间为
95%的置信水平下估计赞成改革的人数比例的置信区间为69.63%~80.37%