当前位置：文档库 › 第四章-大数定律与中心极限定理

第四章-大数定律与中心极限定理

第四章大数定律与中心极限定理

教学目的：

1．使学员理解随机变量序列依概率收敛、按分布收敛的含义，知道两种收敛的关系，理解连续性定理的意义。

2．使学员牢固掌握马尔科夫大数定律、辛钦大数定律及其证明、理解契贝晓夫、贝努力里大数定律的意义。

3．使学员能熟练应用De Moivre-Laplace 中心极限定理作近似计算及解决生产、生活中的实际问题。

4．使学员掌握、独立同分布场合下的Lindeberg-Leve 中心极限定理的证明及应用，知道德莫佛—拉斯定理是其特例。

本课程一开始引入事件与概率的概念时，我们就知道就一次试验而言，一个随机事件可以出现也可不出现，但作大量的重复试验则呈现出明显的规律性——统计规律性。即，任一事件出现的频率是稳定于某一固定数的，这固定数就是该事件在一次试验下发生的概率，这里说的“频率稳定于概率”实质上是频率依某种收敛意义趋于概率，“大数定律”就是解释这一问题的。

另外在前一章介绍正态分布时，我们一再强调正态分布在概率统计中的重要地位和作用，为什么实际上有许多随机现象会遵循正态分布？这仅仅是一些人的经验猜测还是确有理论依据，“中心极限定理”正是讨论这一问题的。

§4.2*

随机变量序列的两种收敛性

假设 ),(,),(),(21ωηωηωηn 是定义在同一概率空间（Ω，F , P ）上的一列随机变量，显然，其中每个r .v ，)(ωηk 可以看成是定义在概率空间上的一个有限可测函数，因此，我们

§4.2使用的是原教材的编号，是方便学员看书复习。

可以象在实变函数论中对可测函数列定义收敛性一样，给出随机变量列{)(ωηk }的收敛性概念。

以下我们讨论时，总假定r .v 列{n η}和r .v .η都是定义在同一概率空间（Ω，F ,P ）上的，对于某样本点Ω∈0ω，显然{)(0ωηn }可视为一普通实数列，)(0ωη则可看作一实数，此时若有)()(lim 00ωηωη=∞

→n n ，则称随机变量列{n η}在点0ω收敛到η。若对任意Ω∈ω，均有

)()(lim ωηωη=∞

→n n ，则称{n η}在Ω上点点收敛到η。但在本章的讨论中，我们没有必

要对{n η}要求这么高，一般是考虑下面给出的收敛形式。

定义4.2 设有一列随机变量 ,,,21ηηη，如对任意的ε＞0，有

0})()(:{lim =≥-∞

→εωηωηωn n P （4.6）

则称{n η}依概率收敛到η，并记作

ηη?→?

∞→P

n n lim ()'

6.4 或 ,ηη?→?

n ∞→η ()"

6.4 （4.6）式也等价于0}}{lim =≥-∞

→εηηn n P

从定义可见，依概率收敛就是实函中的依测度收敛。

我们知道，随机变量的统计规律由它的分布函数完全刻划，当ηη?→?

n 时，其相应的分布函数)(x F n 与)(x F 之间的关系怎样呢？

例4．2 设ηη及)1(≥n n 都服从退化分布：

}0{,2,1,1}1

{====-=ηηP n n

P n

对任给ε＞0，当n ＞

时，有0}{}{=≥=≥-εηεηηn n P P

所以 )(,∞→?→?

n P

n ηη 而n η的d .f 为 ???=10)(x F n

x n x 1

≤

η 的d .f 为 ???=1

0)(x F

x x ≤ 易验证当0≠x 时，有)(x F n →)(x F （n →∞）但时0=x ，1)0(=n F 不趋于0)0(=F

上例表明，一个随机变量依概论收敛到某随机变量，相应的分布函数不是在每一点都收敛，但如果仔细观察这个例，发现不收敛的点正是)(x F 的不连续点，类似的例子可以举出很多，使人想到要求)(x F n 在每一点都收敛到)(x F 是太苛刻了，可以去掉)(x F 的不连续点来考虑。

定义4.3 设{)(x F n }为一分布函数序列，如存在一个函数)(x F ，使在)(x F 的每一连续点x ，都有)()(lim x F x F n n =∞

→

则称分布函数列{)(x F n }弱收敛于)(x F ，并

记作)()(x F x F W

n ?→? ∞→n （4.7）

定义4.3' 设r .v .)1(≥n n η和η'的分布函数分别为)(x F n ，)(x F ，若

)()(x F x F W n ?→? ∞→n ，则称n η按分布收敛于η，并记作 ηη?→?L

n （∞→n ）

定理4.4 若ηη?→?

P n ，则ηη?→?L

n 证对于x x R x ''∈任取,，因有

),()(),(),()(x x x x x x x x n n n n '≥??'≥?'=' ηηηηηηηη

故 ),()()(x x P x P x P n n '≥+≤' ηηηη

即 )()()(x x P x F x F n n '-≥-+≤'ηη

因 ηη?→?

n ，故0)(→'-≥-x x P n ηη 所以有 )(lim )(x F x F n n ∞

→≤'

同理可证，对x x '' 有)(lim )(x F x F n n ∞

→≥''

于是对任意 x x x ''' 有)(lim )(lim )(x F F x F x F n n n n ''≤≤≤'∞

→∞

→

令x x x x →''→',，有)0(lim )(lim )0(+≤≤≤-∞

→∞

→x F F x F x F n n n n

若x 是)('x F 的连续点，就有)()(lim x F x F n n =∞

→。证毕。此定理的逆不真。

例4.3 抛掷一枚均匀硬币，记1ω=“出现正面”，2ω=“出现反面” 则2

)()(21=

=ωωP P 令 ???=01

)(ωηn 2

1ωωωω== n =1，2，……

???=0

1)(ωη

ωωωω==

因)(x F n 与)(x F 完全相同，显然有)(x F n →)(x F 对1

R x →成立。

但

)

1,1()1,0(}2

1{==+===-ηηηηηηn n n P P P

21212121=?+?。对1≥n 成立 ∴ ηη?→?

n 不成立。一般来说，按分布收敛不能推出依概率收敛，但在特殊情况下，却有下面的结果。

定理4.5 设C 是一常数，1)(==C P η，则,ηηηη?→???→?

n P n （即ηηη?

=?→???→?C C L

n P n ），

证（?）由定理4.1推得（?）（不妨就设C ≡η）对任给 ε0，有

)0()(1)()(}{+-++-=-≤++≥=≥-εεεηεηεηC F C F C P C P C P n n n n n (4.8)

因 C =η的分布函数为

???=1

0)(x F

C x C x ≤只在c x +处不连续，而ε±c 处都是连续的，由)()(x F x F W

n ?→? 在（(4.8）中令∞→n 得

0011)(lim =+-=≥-∞

→εηc P n n

本章将要向大家介绍的大数定律实际上就是随机变量列依概率收敛于常数的问题，由定理4.5知，它可归结为相应的分布函数列弱收敛于一退化分布，而中心极限定理就是随机变量的分布函数列弱收敛问题，可见分布函数列的弱收敛在本章讨论中占重要地位。然而，要直接判断一个分布函数列是否弱收敛是很困难的上一章我们就知道，分布函数与特征函数一一对应，而特征函数较之分布函数性质优良很多，故判断特征函数的收敛一般较易，那么是否有

()??→?)(x F x F W

n 相应的)()(t t n ??→

答案是肯定的。

定理 4.6 分布函数列{)(x F n }弱收敛于分布函数)(x F 的充要条件是相应的特征函数列{)(t n ?}收敛于)(x F 的特征函数)(t ?

例4.4 若λζ～)(λP 证明

dt e

x P x

t ?

∞

→=-2

21)(lim π

λλζλλ

随机变量到依pr 收敛具有如下性质。

定理4.7（斯鲁茨基）若b a P

n P n ?→??→?

ηζ,

则有（1）b a P n n

+?→??+ηζ （2）0≠b 时，

P n n ?→?ηζ 书P220习题4.8 ζζ?→?

n ，)(x f 为连续函数则有 )()(ζζf f P

n ?→? （4.9）

§4.1 大数定律

本章一开始我们就指出大数定律是从讨论“频率稳定于概率”这件事引入的，概率的发展史上，这件事又是从贝努里试验这个概型入手的。

设事件A 在一次试验中发生的概率为P ，将试验独立重复地进行n 次，如果其中事件A 发生的次数为n μ，则

μ就是这n 次试验中事件A 发生的频率。所谓频率

μ稳定到概率P ，

是指当n 增大时，n

μ依某种收敛意义向P 逼近。很容易验证，这里的收敛意义不是普通的收

敛。

P n

n =∞

→μlim

（4.1）

事实上，（4.1）意味着，对任给0 ε，能找到N ，当N n 时，有

εμ P n

- ()'

1.4

我们知道，在n 重贝努里试验中，不管n 多大，{A 出现n 次}这一结果都是可能发生的，当这个结果发生时，n n =μ，即

P P n

-=-1μ，因此，对于0P -1 ε，不管N 取多大，

也不能保证N n 时（4.1）′成立。但可以想见，当n 很大时，?

?-εμ P n n 不发生的可

能性很小了，比如)(01∞→→=?

????

?=n P n P n n μ。于是猜想可能有P n P

n ?→?μ。这个猜想是正确的，其证明暂放后一步。现不妨先承认有事实

P n

?→?μ （4.2）

若令??

?=不发生

次试验第发生

次试验第A k A k k ,0,1ξ ,2,1=k

则（4.2）意味着

)1(11

1∑∑==?→?n k k P

n k k n E n ξξ 上式反映出大量随机现象的平均结果具有的一种稳定性，我们称之为大数定律。

定义4.1，设{

}k ξ为一随机变量序列，它们具有有限的数学期望 2,1,=k E k ξ。令∑==n k k n n 1

1ξη，若n P n E ηη?→?（或（n n E ηη-）0?→?P

），则称随机序列{

}k ξ服从大数定律。

下面的定理给出随机序列服从大数律的一个充分条件。

定理4.1 （契贝晓夫大数定律）设{

}k ξ是一列两两不相关的随机变量序列，其中每一随机变量都有有限的数学期望和方差，且方差有公共上界： ,2,1);(,=≤K C C D k 为常数ξ

则{

}k ξ服从大数定律。证明：只须证，对任给0 ε，均有

0}11{11

→≥-∑∑==εξξn k n

k k k E n n P )0(∞→ （4.3）

由契贝晓夫不等式

00)

()1(1122

11→∞→=

≤

?????≥-≤∑∑∑===n n C n D E n n P n

k k n

k k n k k εεξεξξ

下面我们来证明（4.2）式

定理4.2（贝努里大数定律）设n μ是n 重贝努重试验中事件A 出现的次数，每次试验都有P n

P A P P n

?→?=μ则

,)(。

[证明]照（4.2）定义随机序列{

}k ξ，则 ,2,1,4

)1(,=≤-==k P P D P E k k ξξ 由定理4.1知，{

}k ξ服从大数律，因此,,1

P n

E n P

k k

?→??→

?∑∑==μξξ

这就是

上面所述的两个大数定律，后一个是前一个的特款，从定理4.1的证明看出，{

}k ξ服从大数律的一个充分条件是

)(0)

∞→→∑=n n

D n

k k ξ (4.4)

(4.4)所示的条件常称为马尔可夫条件，由此得如下的马尔可夫大数定律（书P222习题4.23）

若随机变量序列{

}k ξ满足（4.4）所示的马尔可夫条件，则它服从大数定律。证：对任给0 ε，由契贝晓夫不等式，有

0≤2

11)(11ε

ξεξξn D n E n P n

k k n k k n k k ∑∑∑===≤

???????≤??? ??-再由(4.4)立得结论。

我们注意到，马尔可夫大数律并没有附加{

}k ξ相互独立的条件。另方面，显然定理4.1又是它的特款。因此，上面所述的三个大数定律，马尔可夫大数律才是最基本的，当然，它的条件也是充分而非必要的。

我们还注意到上面的三个大数定律，其证明都要依靠契贝晓夫不等式，所以要求随机变量的方差存在。但进一步的研究表明，方差存在这个条件并不一定必要。比如在独立同分布的场合，就可去掉这个条件。著名的俄国数学家X ИНЧИН证明了这点。

定理 4.3 （辛钦大数定律）设{}k ξ为相互独立，同分布的随机序列，具有有限的数学期望)(为常数a a E k =ξ，则{

}k ξ服从大数定律。证：因 ,,21ξξ同分布，故有相同的特征函数i

a E t k )

0(),(?ξ?'==又，将?（t ）

在t =0处展开，有

)(01)(0)0()0()(t iat t t t ++=+'+=???

由 ,,21ξξ相互独立，得∑==n

k k n n 1

1ξη的特征函数为

n n n n

n t ia n t t g )](01[)]([)(++==?

对于任意iat

n n n n e n t n t ia t g R t =++=∈∞→∞→)](01[lim )(lim ,1，由定理4.6知a L n ?→?

η，再由定理4.5得a P

n ?→?

η，即{}k ξ服从大数定理。贝努里大数定律显然是辛钦大数定律的特款。

例4.1 设{

}k ξ为独立同分布随机变量序列，存在2,σξξ==n n D a E ，令 ∑==n k k n n 1,1ξξ ∑=-=n k n k n n S 1

)(1ξξ

证明 22

σ?→?

n S 证：{}k ξi ·i ·d 则 }{2

n ξ亦i ·i ·d

由辛钦大数律 a P

n ?→?ξ， )(1221

2a n n k P

k +?→?

∑=σξ 由（4.9）， 2

2)(a P n ?→?ξ

由斯鲁茨基定理 ∑=?→?-=n k P n k n

n S 1

22)(1σξξ （4.5）

§4.3 中心极限定理

大数定律仅仅从定性的角度解决了频率

μ稳定于概率p ，即

μp P ?→?，为了定量地

估计用频率

μ估计概率))((p A P 记为的误差，历史上DeMoivre 、Laplace 等数学家经过许多

努力，证明了n μ的标准化随机变量渐近于N （0，1）分布：

定理4.8 （德莫佛—拉普拉斯）在n 重贝努里试验中，事件A 在每次试验中出现的概率为)10( p p ，出现的次数次试验中为A n n μ，,1

R x ∈则对任意一致地有，

dt e

x npq

P x

t n n ?∞

∞

→=

-2

21}{

lim π

μ （4.10）

本定理的原始证明较复杂，但它是下面要证明的定理4.9的特例，现在来看定理4.8的重要意义。定理4.8在实际的数值计算中有重要作用主要表现在

（1）较为精确地估计出用频率估计概率的误差。当n 充分大时

}{}{

npq

np pq n

P P n

P n n

εμε

εμβ --=-= 1)(2-Φ≈pq

n ε

()'10.4 由上式，n ,.βε中已知其二，可求另一（2）较好地解决了二项分布的近似近计算。

当n p n B 而),(~ξ较大时，无论p 是否接近0或1，均由（4.10）得

)(

}{

}{122121npq

np x npq

npq

np x P x x P -Φ--Φ=---=

ξξ （4.10）″

另方面，定理4.8在理论研究上也有很大价值，这里仅指出这样一个事实

??????????-npq np n μ依分布收敛于标准正态变量（这时称??

???????-npq np n μ渐近于正态分布 N （0，1）

若令

???=,

1k ξ

不出现

次试验第出现试验第A k A k , 2,1=k

则上面的事实等价于

∑=n

k k

有渐近正态分布，这一重要发现具有普遍意义。

前面我们介绍正态分布时曾说过，已发现许多随机现象，比如测量误差，射击偏差等都可用正态分布来描述。经过长期观察、总结、发现那些服从正态分布的随机现象往往是由许多彼此无关，谁也不起突出作用，只均匀地起微小作用的随机因素共同作用而产生。换句话说，这类随机现象往往可视为独立（或弱相依）随机变量之和

∑=n

k k

，在什么条件下有渐近正态分

布的问题，在长达两个世纪的时间内成为概率论讨论的中心课题，为使问题规范化，数学家们将问题归结为讨论规范和。

)

()

(.1

1∑∑∑===-n

k k n

k n

k k k

D E ξξξ

有渐近分布N （0，1）的条件。

并称有此结论的随机序列{

}k ξ服从中心极限定理。下面是勒维（vy e L '）和林德贝尔格（Lindeberg ）的成果

定理4.9 若 ,,21ξξ是一列独立同分布的随机变量，且a E k =ξ，2σξ=k D （02

σ）

则有 )(}{lim 1

x x n

P n

k k

n Φ=-∑=∞

→ σξ

（4.11）

对一切实数x 成立证：……

在定理4.8中，由于n μ可看作独立同贝努里分布的一列随机变量的部分和，因此定理4.8是定理4.9的特例。在处理近似计算时，定理4.9较之定理4.8有更广泛的应用。在实际应用中，只要n 较大，便可把独立同分布的随机变量之和近似当作正态变量。这种处理方法对于解决大子样问题非常方便。常用的近似计算式为：

)(

})

({

}{1221

21n

x n

x n a n

x P x x P n

k k

k k σσσσξ

σξ-Φ--Φ=-≤

-≤

-=≤≤∑∑==

（4.12）

例4.5 某单位有260架电话分机，每个分机有4%的时间要用外线通话，可以认为各个电话分机用不用外线是相互独立的，问总机要备多少条外线才能以95%的把握保证各个分机在需用外线时不必等候。

例4.6 （近似数定点运算的误差分析）数值计算时，任何数x 都只能用一定数位的有限小数y 来近似，这就产生了一个误差y x -=ξ，在下面讨论中，我们假定参加运算的数都用十进制定点表示，每个数都用四舍五入的方法取到小数点后五位，这时相应的四舍五入误差可以看作是[5

5.0,105.0--??-]上的均匀分布。

如果要求n 个数),,2,1(n i x i =的和S ，在数值计算中就只能求出相应的有限位小数，

),,2,1(2n i y =的和T ,并用T 作S 的近似值，现在问，这样做造成的误差T S -=η是多

少？

因为 ∑∑∑∑====+=+==

n i n

i i i n

i i i

n i i y y

x S 1

)(ξξ

故 ∑==

i i

η.

传统的估计方法是，根据5105.0-?≤i ξ 得 ∑=-??≤≤

i i

n 1

5105.0ξ

以10000=n 为例，所得误差估计为05.0≤η

今用（4.12）估计。

如果假定舍入误差i ξ是相互独立的，这里。

105.0,05

-?=

===i i D E a ξσξ

有

)()(}{1

k k n K P n

i i -Φ-Φ≈≤∑=σξ

若取3=k ，则上面的概率约为0.997，即能以99.7%的概率断言

10866.03

105.01003--?=??

?≤η

这只及传统估计上限的60分之一。