文档库 最新最全的文档下载
当前位置:文档库 › 抽样与参数估计

抽样与参数估计

抽样与参数估计
抽样与参数估计

第四章抽样与参数估计

推断统计:利用样本统计量对总体某些性质或数量特征进行推断。

从数据得到对现实世界的结论的过程就叫做统计推断(statistical inference)。这个调查例子是估计总体参数(某种意见的比例)的一个过程。

估计 (estimation) 是统计推断的重要内容之一。统计推断的另一个主要内容是本章第二节要介绍的假设检验(hypothesis testing) 。

因此本节内容就是由样本数据对总体参数进行估计,即:

学习目标:了解抽样和抽样分布的基本概念

理解抽样分布与总体分布的关系

了解点估计的概念和估计量的优良标准

掌握总体均值、总体比例和总体方差的区间估计

第一节抽样与抽样分布

回顾相关概念:总体、个体和样本

抽样推断:从所研究的总体全部元素(单位)中抽取一部分元素(单位)进行调查,并根据样本数据所提供的信息来推断总体的数量特征。

总体(Population)

参数

个体(Item unit):组成总体的每个元素

样本(Sample):从总体中所抽取的部分个体统计量样本容量(Sample size):样本中所含个体的数量

一般将样本单位数不少于三十个的样本称为大样本,样本单位数不到三十个的样本称为小样本。

一、抽样方法及抽样分布

1、抽样方法

(1)、概率抽样:根据已知的概率选取样本

①、简单随机抽样:完全随机地抽选样本,使得每一个

样本都有相同的机会(概率)被抽中。

注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重

复抽样与不重复抽样。而且,根据抽样中是否排序,所能抽到的样本个数往往不同。

②、分层抽样:总体分成不同的“层”(类),

然后在每一层内进行抽样

③、整群抽样:将一组被调查者(群)作为一个

抽样单位

④、等距抽样:在样本框中每隔一定距离抽选一

个被调查者

(2)非概率抽样:不是完全按随机原则选取样本

①、非随机抽样:由调查人员自由选取被调查者

②、判断抽样:通过某些条件过滤来选择被调查

(3)、配额抽样:选择一群特定数目、满足特定条件的被调查者

2、抽样分布

一般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(sampling distribution)。

某个样本统计量(如均值、比例、方差等)的抽样分布,从理论上说就是在重复选取容量为n 的样本时,由每一个样本计算出的该统计量数值的相对频数分布或概率分布。

二、样本均值的抽样分布与中心极限定理 1、样本均值的抽样分布(一个例子)

【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为X 1=1、X 2=2、X 3=3 、X 4=4 。总体的均值、方差及分布如下

均值和方差

5.21

=∑

=

=N

X N

i i

μ 25.1)

(1

2

=-=

∑=N

X

N

i i

μσ

现从总体中抽取n =2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表

计算出各样本的均值,如下表。并给出样本均值的抽样分布

所有样本均值的均值和方差:

n

x i 2x n x i 2

)(μ-∑

式中:M 为样本数目

比较及结论:1. 样本均值的均值(数学期望)等于总体均值

2. 样本均值的方差等于总体方差的1/n 2、中心极限定理

当总体服从正态分布N ~ (μ,σ2 )时,来自该总体的所有容量为n 的样本的均值X

也服从正态分布,X 的数学期望为μ,方差为σ2/n 。即x ~

N (μ,σ2/n )

中心极限定理:设从均值为μ,方差为σ2的一个任意总体中抽取容量为n 的样本,当n 充分大时(一般,30≥n 就可以用中心极限定理了),样本均值X 的抽样分布近似服从均值为μ、方差为σ2/n 的正态分布。即有:

=1

n

i i

x μμ==+++==∑=5.216

.45.10.11ΛM x n i i x

()μ=X E 和 n

x δ

δ=

也即有,n

X z δ

μ-= ~()1,0N

其实,样本均值抽样分布的数字特征一方面与总体分布的均值和方差有关,另一方面也与抽样的方法是重复抽样还是不重复抽样有关。无论是重复抽样或不重复抽样,样本均值的数学期望始终等于总体的均值。但在不重复抽样条件下,样本均值的方差需要用修正系

修正重复抽样时均值的方差。当N 很大,

而/5%n N ≤时,其修正系数11

N n

N -→-,可视不重复抽样与重复抽样一致。

图4.1.3 样本均值的抽样分布与总体分布的关系

三、样本比例的抽样分布(Sampling Distribution of p

样本比例的抽样分布是样本比例所有可能值的概率分布。

(The sampling distribution of p is the probability distribution of all possible values of the sample proportion p.)

样本比例抽样分布的相关信息,即 p的期望值、标准差、抽样分布形状等。

主要应用于分类变量:在经济与商务的许多场合,需要用样本比例p对总体比例P进行统计推断

根据中心极限定理有:当样本容量增大时(大样本:经验上,当下面两个条件(n·p>=5且n(1-p)>=5)满足时,与p相关的样本为大样本),样本比例抽样分布趋向于以样本期望值为中心、以样本方差为方差的正态分布

1、期望值(Expected value of p):E (p)=P

2、标准差(Standard deviation of p):

重复抽样:不重复抽样:

*四、样本方差的抽样分布

要用样本方差s 2去推断总体的方差σ2,必须知道样本方差的分布。

设总体服从正态分布X~N(μ, σ2 ), X 1,X 2,…,X n 为

来自该正态总体的样本,统计证明比值()2

2

1δs n -的抽样分布为自由

度是(n-1)的2χ分布,即:

()

()2

2

2

2

1δδs n x

x

i

i

-=

-∑~()12-n χ 2χ分布的性质:

(1)、2χ分布的变量始终为正;

(2)、2χ分布的期望为()()n n E =2χ,方差为()n n D 2)(2=χ。

第二节 参数估计的基本方法

一、估计量和估计值

参数是总体的数值特征(A parameter is a numerical characteristic of a population。)

参数估计:就是用样本统计量去估计总体的参数。

数字特征总体参数(θ)样本统计量(θ?)

一个总体均值μx 比例P p 方差2

δ2s

估计量(θ?)(estimator)用于估计总体某一参数的样本统计量(随机变量)的名称。

样本均值,样本比例、样本方差等都可以是一个估计量。

估计值(e s t i m a t e):用来估计总体参数时计算出来的估计量的具体数值。

例如: 样本均值就是总体均值μ的一个估计量

如果样本均值x= 3 ,则 3 就是μ的估计值

二、点估计与判断估计量的优良性准则

(一)、点估计

点估计(Point Estimate)就是用样本估计量的值直接作为总体参数的估计值。

设θ是总体分布中一个要估计的参数。例如,总体分布的均

值、方差等。现在从总体中得到一个随机样本n X X X ,,,21???,如何估计θ?

记估计θ的估计量(统计量)为θ?()n X X X ,,,21???,简记为θ? 若得到一组样本观察值n x x x ,...,,21,就可以得到θ的估计值:

()n

x x x ,...,,?21θ,也记为θ?。 总体分布参数θ的点估计,就是求出的估计值θ?。 点估计的方法一般有矩估计发法、极大似然估计法等。

概念要点:

1.从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计。

例如: 用样本均值作为总体未知均值的估计值就是一个点估计

2.点估计没有给出估计值接近总体未知参数程度的信息

3.其理论基础是抽样分布 (二)、估计量的优良性准则

要估计总体的某一指标,并非只能用一个样本指标,而可能有多个指标可供选择,即对同一总体参数,可能会有不同的估计量。作为一个好的估计量,估计量必须具有如下性质:无偏性、

有效性、一致性。

1、无偏性(Unbiasedness ):样本估计量的数学期望(均值)等于被估总体参数的真值;

如果θθ=)?(E ,则称θ?为θ的无偏估计量。

可以证明,总体方差2σ的样本矩估计量2s 是无偏估计量。 2、有效性(Efficiency):好的点估计量应具有较小的方差; 在用估计量θ?来估计总体的某个参数θ时,如果对其它所有对θ的估计量θ~

总是有:

()()

θθ~

?Var Var ≤

那么,这个估计量θ?就是总体参数θ的有效估计量。

3、一致性(C o n s i s t e n c y ):随着样本容量的增大,估计量越来越接近被估计的总体参数。 如果n θ?满足:1)?(lim =-∞

→εθθπn n P ,即:

θθ=∞

→n

n ?

lim

则称为n θ?的一致估计量。

可以证明:样本均值、样本比例、样本标准差的点估计是无偏、有效、一致的。

三、抽样误差与区间估计

(一)、抽样误差(Sampling Error )

一个样本可以得到总体参数的一个点估计,该点估计值与总体参数真值之间的差异,即为抽样误差。

有三个相互联系的概念:

1、实际抽样误差:具体样本的估计值θ?与总体参数的实际值

θ之间的离差。

)?(θθ

- 2、抽样平均误差:所有可能样本估计值与相应总体参数的平均差异程度。

3、抽样极限误差一定概率下抽样误差的可能范围(也称允许误差):

θ

θθ???≤- 注意:

①、统计学上往往用抽样极限误差来测度抽样误差的大小或者说测度点估计的精度。原因:总体参数值往往并不知道,因此,实际抽样误差与抽样平均误差也往往无法求出,但在抽样分布大体知道的情况下,抽样极限误差是可以估计出来的。

②、抽样平均误差是所有可能样本值与总体指标值之间的平均离差,它表明抽样估计的准确度;而抽样极限误差是样本指标

值与总体指标值的离差绝对值是表明抽样估计的准确程度的范围。这也就决定了两者存在一定的联系。通常,把抽样极限误差与抽样平均误差相比,从而使单一样本的抽样极限误差标准化,一般称为概率度或相对误差范围,即置信度。

③抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。原因:样本统计量往往是一随机变量,它与总体参数真值之差也是一个随机变量,因此就不能期望某次抽样的样本估计值落在一定区间内是一个必然事件,而只能给予一定的概率保证。因此,在进行抽样估计时,既需要考虑抽样误差的可能范围,同时还需考虑落到这一范围的概率大小。前者是估计的准确度问题,后者是估计的可靠性问题,两者紧密联系不可分开。这也正是区间估计所关心的主要问题。

(二)、区间估计(Interval Estimate)

在点估计的基础上,给出总体参数估计的一个范围,称为参数的区间估计。

若总体分布含一个未知参数 ,找出了两个依赖于样本

n X X X ,,,21???的估计量:

),,,(?),,,(?212211n

n X X X X X X ???≤???θθ 使得

αθθθ-=≤≤1)??(21P

其中,10ππα,显著性水平α一般取0.05或0.01,则称随机区间为的100(1-α)%的置信区间。百分数100(1-α)%被称为置信度或置信水平。

1.根据一个样本的观察值给出总体参数的估计范围 给出总体参数落在这一区间的概率

例如: 总体均值落在50~70之间,置信度为 95% 2、置信水平

①.总体未知参数落在区间内的概率

②.表示为 (1 –a),a 为显著性水平,是总体参数未在区间内的概率

③.常用的显著性水平值有 99%, 95%, 90%,相应的a 为

3、区间估计的要点

①.依据样本指标和抽样误差去推算总体指标时,只是确定了总体指标的估计范围,并没有确定其具体值。这个范围表现为

相关文档