《抽样技术》期末复习
1、设计效应(Deff )
答:设计效应(deff )是由基什提出的,用来对不同抽样方法进行比较,其定义为:
srs V(y)
deff V (y)
=
,其中srs V (y)为不放回简单随机抽样简单估计量的方差;V(y)为某个抽
样设计在同样样本量条件下估计量的方差。设计效应的定义就是将某个抽样设计的估计量的方差与同样样本量条件下的不放回简单随机抽样简单估计量的方差进行比较。如果deff < 1,则所考虑的抽样设计比简单随机抽样的效率高;反之,如果deff > 1,则所考虑的抽样设计比比简单随机抽样的效率低。
deff 对复杂抽样时确定样本量有很大作用,在一定精度条件下,简单随机抽样所需的样本量n '比较容易得到,如果可以估计复杂抽样的deff ,那么复杂抽样所需的样本量为:
n = n deff '?。
2、概率抽样
答:概率抽样也称随机抽样。概率抽样就是使总体中的每一个单位都有一个已知的、不为零的概率进入样本的抽样方法。
具体说来,概率抽样具有以下几个特点:(1)按一定的概率以随机原则抽取样本。(2)每个单元被抽中的概率是已知的,或是可以计算出来的。(3)当用样本对总体目标量进行估计时,要考虑到该样本(或每个样本单元)被抽中的概率。也就是说,估计量不仅与样本单元的观测值有关,也与其入样概率有关。
概率抽样最主要的优点是,可以依据调查结果计算抽样误差,从而得到对总体目标量进行推断的可靠程度。从另一方面讲,也可以按照要求的精确度,计算必要的样本单元数目。
因此,概率抽样可以排除调查者的主观影响,抽选出较其他方法更具代表性的样本。 3、非抽样误差
答:非抽样误差是指除了抽样误差以外的,由于各种原因引起的误差。同抽样误差相比,非抽样误差有如下特点:(1)非抽样误差不是由于抽样的随机性带来的,所以在抽样调查中,它不可能随着样本量的增大而减小。(2)在抽样调查中,由于非抽样误差的影响,往往造成估计量的有偏。(3)有些非抽样误差难以识别和测定。(4)产生非抽样误差的渠道众多,成因复杂,对调查数据质量和估计结果的负面影响非常大。非抽样误差按其来源、性质的不同,可以分为抽样框误差、无回答误差和计量误差等三类。
4、不等概率抽样
答:不等概率抽样在抽样前赋予总体每个单元一个入样概率,当然这个入样概率是不相同的,否则抽样就成为等概率的抽样。不等概抽样的优点是大大提高估计精度,减少抽样误差,但使用它也有条件,就是必须要有说明每个单元规模大小的辅助变量来确定每个单元人样的概率,这在抽样及推算时都是必须的。不等概率抽样可以按样本单元是否放回分为放回不等概抽样和不放回不等概抽样。
5、最优分配
答:在分层随机抽样中,如何将样本量分配到各层,使得在总费用给定的条件下估计量的方差达到最小,或在给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。
6、比率估计
答:比率估计(radio estimator )又称比估计,在进行抽样调查时,目标量本身就是总体比率,这样对目标量的估计就叫做比率估计,也可用来提高估计量的精度,它是有偏的。
7、试述分别比估计和联合比估计的比较
答:如果每一层都满足比率估计量有效的条件,则除非h R R =,都有分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。
实际使用时,如果各层的样本量都较大,且有理由认为各层的比率h R 差异较大,则分别比率佑计优于联合比率估计。当各层的样本量不大,或各层比率h R 差异很小,则联合比率估计更好些。
8、试述设计效应在抽样设计中的应用。
答:设计效应(design effect ,简称deff )是指在相同样本量的条件下,采用特定的抽样设计(一般为较复杂的抽样设计)与不放回简单随机抽样简单估计量的方差之比,如果deff<1,则所考虑的抽样设计比简单随机抽样的效率高;反之,如果deff>1,则所考虑的抽样设计比简单随机抽样的效率低。设计效应是抽样调查中的一个重要参数,它可以表明特定抽样设计的估计效率;如果有设计效应的经验数据,也可以用于确定不同调查方式所需要的样本量,从而大大节约计算样本量的时间,因此倍受抽样调查设计人员的关注。
9、有人认为“总体愈大,应抽的样本量也愈大”,请对此加以评价。
答:这种说法是不正确的。因为,虽然在其他条件相同的条件下,样本量越大,抽样误差越小,但是从抽样误差与样本量的关系图可以看出,抽样误差在开始时随着样本量的增大而显著减小,但经过一定阶段后便趋于稳定。也就是说,经过一定阶段后,用增大样本量的方式减少抽样误差一般是不合算的。当样本增大到一定能够程度,无论总体再大,抽样的精度都差不多。所以,这种说法是不正确的。
10、(简单随机抽样的均值、比例估计和样本量的确定)某住宅区调查居民的用水情况,
该区共有N =1000户,调查了n =100户,得y =12.5吨,2
s =1252,有40户用水超过了规定的标准。
要求计算: ○1该住宅区总的用水量及95%的置信区间; ○2若要求估计的相对误差不超过10%,应抽多少户作为样本? ○3以95%的可靠性估计超过用水标准的户数;
解:已知N = 1000,n = 100,n 100
f 0.1N 1000
==
=,2y=12.5s 1252=, ○
1估计该住宅区总的用水量Y 为: ?Y=Ny=100012.5=12500?
估计该住宅区总的用水量Y 的方差和标准差为:
22221-f 10.1?v(Y)=N v(y)=N s 10001252=11268000n 100?3356.7842-=??=≈
因此,在95%的置信度下,该住宅总的用水量的置信区间估计为: ??Y ts(Y)=125001.963356.7842125006579±±?≈±
即,我们可以以95%的把握认为该住宅总的用水量在 5921吨~19079吨之间。
○2根据题意,要求估计的相对误差不超过10%,即r ≤0.1,假定置信度为95%
根据公式:22202222
t s 1.961252
n 3078r y 0.112.5?==≈?
由于0n
3.0780.05N
=>,所以需要对0n 进行修正:
00n 3078
n =
755n 1+3.0781N
=≈+ 若要求估计的相对误差不超过10%,应抽不少于755户作为样本。 ○3以95%的可靠性估计超过用水标准的户数;
令超过用水标准的户数为A ,样本中超过用水标准的户数为a = 40,估计超过用水标准的比例P 为:
a 40p = 40%
n 100==
估计超过用水标准的比例P 的方差和标准差为:
1f 10.1v(p)pq 40%60%0.002182
n 11001
s(p) 4.67%--==??≈--=
在95%的可靠性下,超过用水标准的比例P 的估计区间为: p ts(p)40%1.96 4.67%±=±?
因此,我们有95%的把握认为,超过用水标准的比例P 在30.85%49.15%之间,超过用水标准的户数的点估计为:100040%400?=户,超过用水标准的户数在100030.85%?户~100049.15%?户之间,即309户~492户之间。
12、
设
=n
○
1采用按比例分层抽样的方法估计Y 和P 并计算其标准误; ○2采用奈曼分配的方法估计Y 和P 并计算标准误; 解:○1根据题中已知条件,采用按比例分层抽样的方法估计Y 为: L
st h h h 1y W y 0.35 3.10.55 3.90.17.8 4.01===?+?+?=∑
估计Y 的方差和标准误差为:
L 2
222st h h
h 1st 1f 1v(y )W S (0.3520.55 3.30.111.3)0.0201585n 1000s(y )0.141981
=-=≈?+?+?≈=∑
估计P 及其方差和标准误差为:
L
prop h h h 1
L prop h h h
h 1prop p W p 0.350.540.550.390.10.240.4275
1f 1
v(p )W p q (0.350.540.460.550.390.610.10.240.76)0.000218n 1000s(p )0.014765
====?+?+?=-≈≈??+??+??≈==≈∑∑
○2采用Neyman 分配的方法估计Y 和P 的方法和与○1是一样的,即
L
st h h h 1
L
prop h h h 1
y W y 0.35 3.10.55 3.90.17.8 4.01
p W p 0.350.540.550.390.10.240.4275
====?+?+?===?+?+?=∑∑
但是采用Neyman 分配估计Y 和P 的方差的方法不同,分别为:
L L 22
2st h h h h h 1h 1st L 2prop h 1prop 111v(y )(W S )W S (0.3520.55 3.30.111.3)0.013286
n N 1000
s(y )0.115265
11v(p )(W (0.350.550.10.000236
n 1000s(p )====-≈?+?+?≈==≈≈≈∑∑
∑0.015362
=≈
13、(两阶段抽样)某市为了了解职工收入情况,从该市的630个企业中随机抽取了5
其中,i M 为企业职工数,i m 为样本量;i y 为样本均值,2i s 为样本方差。 试估计该市职工平均收入及标准差。
解:已知:N = 630,n = 5,2
i i i 2i M ,m ,y ,s 估计该市职工的平均收入为:
n
i i
i=1n
i
i=1
M y
520328+108400140031012003709000420
y=
398520108140012009000
M
??+?+?+?=
≈++++∑∑
估计该市职工平均收入的方差及标准差为:
n n 2
212i i 2i i 1i 1i
22
2221-f (1-f )
11v(y) = (y y)s n n 1n m 5
1-1
630 [(328398)(400398)(310398)(370398)(420398)]5511010202011111
52010814001200 [400.056301.1341303.158510102020==-+-=-+-+-+-+-+
-----=?+?+?+∑∑100190001205.7864200]
100 667.46031745.321254 = 713.781571
s(y)=26.71669
-?+?≈+≈
因此,估计该市职工平均收入为398元,标准差为26.71669元
14、(比率估计)(14)某养兔场共有100只兔子,上月末称重一次对每只兔的重量作了
○2估计现有兔子的平均重量及其标准误差; ○3将比估计方法与均值估计法进行比较,哪一种方法效率高?分析其原因。 解:○1已知:N = 100 ,n = 10 ,设X ,Y 分别代表上月兔子总重量和本月兔子总重量,
则 X = 3.1,n 10
f = 0.1N 100
=
=。 由表中数据可得:
1010
i
i i=1i=1102
2
y i i 1
10
22x i i 1
10
yx i i i 1
11y = y 4 x = x 2.97
10101s (y y)0.022210-11s (x x)0.024610-11s (x x)(y y)0.01510-1======-≈=
-≈=--=∑∑∑∑∑, 因此,对这批兔子较上月末增重的比率估计为:
y 4?R =
1.3468x
2.97
=≈ ?R
方差的估计为: 2
222y x yx
22
1f 10.1???v(R)(s R s 2Rs )(0.02221.34680.024621.34680.015)0.0002474nX 10(3.1)--≈+-=+?-??≈?
?R 标准误差的估计为: ?0.015729=≈ ○2对现有兔子的平均重量的比率估计为:
R ?y = RX=1.34683.1 4.17508?=
R y 方差的估计为:
2222R y x yx
1f 10.1??v(y )(s R s 2Rs )(0.0222 1.34680.02462 1.34680.015)0.0023775n
10
--≈+-=+?-??≈ R y 标准误差的估计为:
R s(y 0.04876=≈
○3对现有兔子的平均重量的均值估计为:
10
i i=1
1y = y 410=∑
y 方差的估计为:
2y 1f 10.1v(y)s 0.02220.001998n 10
--=≈?=
因此,得到现有兔子平均重量的比率估计量设计效应的估计为:
R v(y )0.0023775?deff = =1.1899v(y)0.001998
≈
对于本问题,均值估计方法的效率比比率估计方法的效率要高。原因是:比率估计是有偏的,当样本量足够大时,估计的偏倚才趋于零,而本问题中的样本量较小,使用比率估计量时不能忽视其偏倚,所以无法保证估计的有效,使得估计效率比均值估计方法的效率低。