文档库 最新最全的文档下载
当前位置:文档库 › 第四章 常概率分布

第四章 常概率分布

第四章 常概率分布
第四章 常概率分布

第四章常用概率分布

为了便于读者理解统计分析的基本原理,正确掌握和应用以后各章所介绍的统计分析方法,本章在介绍概率论中最基本的两个概念——事件、概率的基础上,重点介绍生物科学研究中常用的几种随机变量的概率分布——正态分布、二项分布、波松分布以及样本平均数的抽样分布和t分布。

第一节事件与概率

一、事件

(一)必然现象与随机现象在自然界与生产实践和科学试验中,人们会观察到各种各样的现象,把它们归纳起来,大体上分为两大类:一类是可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生(或必然不发生)。例如,在标准大气压下,水加热到100℃必然沸腾;步行条件下必然不可能到达月球等。这类现象称为必然现象(inevitable phenomena)或确定性现象(definite phenomena)。另一类是事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同。例如,掷一枚质地均匀对称的硬币,其结果可能是出现正面,也可能出现反面;孵化6枚种蛋,可能“孵化出0只雏”,也可能“孵化出1只雏”,…,也可能“孵化出6 只雏”,事前不可能断言其孵化结果。这类在个别试验中其结果呈现偶然性、不确定性现象,称为随机现象(random phenomena)或不确定性现象(indefinite phenomena)。

人们通过长期的观察和实践并深入研究之后,发现随机现象或不确定性现象,有如下特点:在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;但在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的特定的规律性——频率的稳定性,通常称之为随机现象的统计规律性。例如,对于一头临产的妊娠母牛产公犊还是产母犊是事前不能确定的,但随着妊娠母牛头数的增加,其产公犊、母犊的比例逐渐接近1:1的性别比例规律。概率论与数理统计就是研究和揭示随机现象统计规律的一门科学。

(二)随机试验与随机事件

1、随机试验通常我们把根据某一研究目的,在一定条件下对自然现象所进行的观察或试验统称为试验(trial)。而一个试验如果满足下述三个特性,则称其为一个随机试验(random trial),简称试验:

(1)试验可以在相同条件下多次重复进行;

(2)每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果;

(3)每次试验总是恰好出现这些可能结果中的一个,但在一次试验之前却不能肯定这次试验会出现哪一个结果。

如在一定孵化条件下,孵化6枚种蛋,观察其出雏情况;又如观察两头临产妊娠母牛所

产犊牛的性别情况,它们都具有随机试验的三个特征,因此都是随机试验。

2、随机事件随机试验的每一种可能结果,在一定条件下可能发生,也可能不发生,称为随机事件(random event),简称事件(event),通常用A、B、C等来表示。

(1)基本事件我们把不能再分的事件称为基本事件(elementary event),也称为样本点(sample point)。例如,在编号为1、2、3、…、10的十头猪中随机抽取1头,有10种不同的可能结果:“取得一个编号是1”、“取得一个编号是2”、…、“取得一个编号是10”,这10个事件都是不可能再分的事件,它们都是基本事件。由若干个基本事件组合而成的事件称为复合事件(compound event)。如“取得一个编号是2的倍数”是一个复合事件,它由“取得一个编号是2”、“是4”、“是6、“是8”、“是10”5个基本事件组合而成。

(2)必然事件我们把在一定条件下必然会发生的事件称为必然事件(certain event),用Ω表示。例如,在严格按妊娠期母猪饲养管理的要求饲养的条件下,妊娠正常的母猪经114天左右产仔,就是一个必然事件。

(3)不可能事件我们把在一定条件下不可能发生的事件称为不可能事件(impossible event),用ф表示。例如,在满足一定孵化条件下,从石头孵化出雏鸡,就是一个不可能事件。

必然事件与不可能事件实际上是确定性现象,即它们不是随机事件,但是为了方便起见,我们把它们看作为两个特殊的随机事件。

二、概率

(一)概率的统计定义研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。这就要求有一个能够刻划事件发生可能性大小的数量指标,这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们称之为概率(probability)。事件A的概率记为P(A)。下面我们先介绍概率的统计定义。

在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率(frequency);当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值p,那么就把p称为随机事件A的概率。这样定义的概率称为统计概率(statistics probability),或者称后验概率(posterior probability)。

例如为了确定抛掷一枚硬币发生正面朝上这个事件的概率,历史上有人作过成千上万次抛掷硬币的试验。在表4—1中列出了他们的试验记录。

表4—1 抛掷一枚硬币发生正面朝上的试验记录

实验者投掷次数发生正面朝上的次数频率(m/n)

蒲丰4040 2048 0.5069

k.皮尔逊12000 6019 0.5016

k.皮尔逊24000 12012 0.5005

从表4-1可看出,随着实验次数的增多,正面朝上这个事件发生的频率越来越稳定地接近0.5,我们就把0.5作为这个事件的概率。

在一般情况下,随机事件的概率p是不可能准确得到的。通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值。

即 P (A )=p ≈m/n (n 充分大) (4-1)

(二)概率的古典定义 上面介绍了概率的统计定义。但对于某些随机事件,用不着进行多次重复试验来确定其概率,而是根据随机事件本身的特性直接计算其概率。

有很多随机试验具有以下特征:

1、试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个;

2、各个试验的可能结果出现的可能性相等,即所有基本事件的发生是等可能的;

3、试验的所有可能结果两两互不相容。

具有上述特征的随机试验,称为古典概型(classical model )。对于古典概型,概率的定义如下:

设样本空间由n 个等可能的基本事件所构成,其中事件A 包含有m 个基本事件,则事件A 的概率为m/n ,即

P (A )=m/n (4-2)

这样定义的概率称为古典概率(classical probability )或先验概率(prior probability )。

【例4.1】在编号为1、2、3、…、10的十头猪中随机抽取1头,求下列随机事件的概率。

(1)A =“抽得一个编号≤4”;

(2)B =“抽得一个编号是2的倍数”。

因为该试验样本空间由10个等可能的基本事件构成,即n =10,而事件A 所包含的基本事件有4个,既抽得编号为1,2,3,4中的任何一个,事件A 便发生,即m A =4,所以

P(A)=m A /n =4/10=0.4

同理,事件B 所包含的基本事件数m B =5,即抽得编号为2,4,6,8,10中的任何一个,事件B 便发生,故P(B)=m B /n =5/10=0.5。

【例4.2】 在N 头奶牛中,有M 头曾有流产史,从这群奶牛中任意抽出n 头奶牛,试求:

(1)其中恰有m 头有流产史奶牛的概率是多少?

(2)若N =30,M =8,n =10,m =2,其概率是多少?

我们把从有M 头奶牛曾有流产史的N 头奶牛中任意抽出n 头奶牛,其中恰有m 头有

流产史这一事件记为A ,因为从N 头奶牛中任意抽出n 头奶牛的基本事件总数为n N C ,事件

A 所包含的基本事件数为m n M N m M C C --? ,因此所求事件A 的概率为

)(A P =n N m n M

N m M C C C --.

将N =30,M =8,n =10,m =2代入上式,得

)(A P =10302108

3028.C C C --= 0.0695

即在30头奶牛中有8头曾有流产史,从这群奶牛随机抽出10头奶牛其中有2头曾有流产史的概率为6.95%。

(三)概率的性质 根据概率的定义,概率有如下基本性质:

1、对于任何事件A ,有0≤P (A )≤1;

2、必然事件的概率为1,即P (Ω)=1;

3、不可能事件的概率为0,即P(ф)=0。

三、小概率事件实际不可能性原理

随机事件的概率表示了随机事件在一次试验中出现的可能性大小。若随机事件的概率很小,例如小于0.05、0.01、0.001,称之为小概率事件。小概率事件虽然不是不可能事件,但在一次试验中出现的可能性很小,不出现的可能性很大,以至于实际上可以看成是不可能发生的。在统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理,亦称为小概率原理。小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。在下一章介绍显著性检验的基本原理时,将详细叙述小概率事件实际不可能性原理的具体应用。

第二节概率分布

事件的概率表示了一次试验某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布(probability distribution)。为了深入研究随机试验,我们先引入随机变量(random variable)的概念。

一、随机变量

作一次试验,其结果有多种可能。每一种可能结果都可用一个数来表示,把这些数作为变量x的取值范围,则试验结果可用变量x来表示。

【例4.3】对100头病畜用某种药物进行治疗,其可能结果是“0头治愈”、“1头治愈”、“2头治愈”、“...”、“100头治愈”。若用x表示治愈头数,则x的取值为0、1、2、 (100)

【例4.4】孵化一枚种蛋可能结果只有两种,即“孵出小鸡”与“未孵出小鸡”。若用变量x表示试验的两种结果,则可令x=0表示“未孵出小鸡”,x=1表示“孵出小鸡”。

【例4.5】测定某品种猪初生重,表示测定结果的变量x所取的值为一个特定范围(a,b),如0.5―1.5kg,x值可以是这个范围内的任何实数。

如果表示试验结果的变量x,其可能取值至多为可列个,且以各种确定的概率取这些不同的值,则称x为离散型随机变量(discrete random variable);如果表示试验结果的变量x,其可能取值为某范围内的任何数值,且x在其取值范围内的任一区间中取值时,其概率是确定的,则称x为连续型随机变量(continuous random variable)。

引入随机变量的概念后,对随机试验的概率分布的研究就转为对随机变量概率分布的研究了。

二、离散型随机变量的概率分布

要了解离散型随机变量x 的统计规律,就必须知道它的一切可能值x i 及取每种可能值的概率p i 。

如果我们将离散型随机变量x 的一切可能取值x i (i =1,2,…),及其对应的概率p i ,记作

P (x =x i )=p i i =1,2,… (4—3)

则称(4—3)式为离散型随机变量x 的概率分布或分布。常用分布列(distribution series )来表示离散型随机变量: x 1 x 2 … x n …

. p 1 p 2 … p n …

显然离散型随机变量的概率分布具有p i ≥0和Σp i =1这两个基本性质。

三、连续型随机变量的概率分布

连续型随机变量(如体长、体重、蛋重)的概率分布不能用分布列来表示,因为其可能取的值是不可数的。我们改用随机变量x 在某个区间内取值的概率P(a ≤x

由表2—7作126头基础母羊体重资料的频率分布直方图,见图4—1,图中纵座标取频率与组距的比值。可以设想,如果样本取得越来越大(n →+∞),组分得越来越细(i →0),某一范围内的频率将趋近于一个稳定值──概率。这时,频率分布直方图各个直方上端中点的联线──频率分布折线将逐渐趋向于一条曲线,换句话说,当n →+∞、i →0时,频率分布折线的极限是一条稳定的函数曲线。 对于样本是取自连续型随机变量的情况,这条函数曲线将是光滑的。 这条曲线排除了抽样和测量的误差,完全反映了基础母羊体重的变动规律。 这条曲线叫概率分布密度曲线,相应的函数叫概率分布密度函数。若记体重概率分布密度函数为f(x),则x 取值于区间[a,b )的概率为图中阴影部分的面积,即

P(a ≤x

(4—4)式为连续型随机变量x 在区间[a,b )上取值概率的表达式。可见,连续型随机变量的概率由概率分布密度函数确定。

此外,连续型随机变量概率分布还具有以下性质:

1、分布密度函数总是大于或等于0,即f(x)≥0;

图4-1 表2-7资料的分布曲线

2、当随机变量x 取某一特定值时,其概率等于0;即

?===c c dx x f c x P 0)()( (c 为任意实数)

因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率。

3、在一次试验中随机变量x 之取值必在-∞<x <+∞范围内,为一必然事件。所以

1)()(?+∞

∞-==+∞<<-∞dx x f x P (4-5)

(4—5)式表示分布密度曲线下、横轴上的全部面积为1。

第三节 正态分布

正态分布是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的,如家畜的体长、体重、产奶量、产毛量、血红蛋白含量、血糖含量等。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。

一、正态分布的定义及其特征

(一) 正态分布的定义 若连续型随机变量x 的概率分布密度函数为 22

2)(21)(σμπσ--=

x e x f (4-16) 其中μ为平均数,σ2为方差,则称随机变量x 服从正态分布(normal distribution ), 记为x ~

N (μ,σ2

)。相应的概率分布函数为 ?∞---=

x x dx e x F 222)(21)(σμπσ (4-17)

分布密度曲线如图4—2所示。 图4—2 正态分布密度曲线

(二) 正态分布的特征 由(4—6)式和图4—2可以看出正态分布具有以下几个重要特征:

1、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x =μ;

2、f(x)在x =μ处达到极大,极大值πσμ21)(=

f

; 3、f(x)是非负函数,以x 轴为渐近线,分布从-∞至+∞;

4、曲线在x =μ±σ处各有一个拐点,即曲线在(-∞,μ-σ)和(μ+σ,+∞) 区间上是下凸的,在[μ-σ,μ+σ]区间内是上凸的;

5、正态分布有两个参数,即平均数μ和标准差σ。μ是位置参数,如图4—3所示。 当σ恒定时,μ愈大,则曲线沿x 轴愈向右移动;反之,μ愈小,曲线沿x 轴愈向左移动。σ是变异度参数,如图4—4所示。当μ恒定时,σ愈大,表示x 的取值愈分散, 曲线愈“胖”;σ愈小,x 的取值愈集中在μ附近,曲线愈“瘦”。

6、分布密度曲线与横轴所夹的面积为1,即:

121)(22

2)(==+∞<<-∞--∞+∞-?dx e x P x σμπσ

二、标准正态分布

由上述正态分布的特征可知,正态分布是依赖于参数μ和σ2(或σ)的一簇分布, 正态曲线之位置及形态随μ和σ2的不同而不同。这就给研究具体的正态总体带来困难, 需将一般的N (μ,σ2)转换为μ=0,σ2=1的正态分布。我们称μ=0,σ2=1的正态分布为标准正态分布(standard normal distribution )。标准正态分布的概率密度函数及分布函数分别记作ψ(u)和Φ(u),由 (4-6)及(4-7) 式得:

22

21)(u e u -=

π? (4-8) du e u u u ?∞--=22121

)(πφ (4-9)

随机变量u 服从标准正态分布,记作u ~N (0,1),分布密度曲线如图4—5所示。

图4—3 σ相同而μ不同的三个正态分布

图4—4 μ相同而σ不同的三个正态分

对于任何一个服从正态分布N (μ,σ2)的随机变量x ,都可以通过标准化变换:

u=(x-μ)/σ (4-10)

将其变换为服从标准正态分布的随机变量u 。u 称为标准正态变量或标准正态离差(standard normal deviate )。

按(4-9)式计算,对不同的u 值编成函数表,称为正态分布表,见附表1,从中可查到u 在意一个区间内取值的概率。这就给解决不同μ、σ 2

的正态分布概率计算问题带来很大方便。

三、正态分布的概率计算

关于正态分布的概率计算,我们先从标准正态分布着手。这是因为,一方面标准正态分布在正态分布中形式最简单,而且任意正态分布都可化为标准正态分布来计算;另一方面,人们已经根据标准正态分布的分布函数编制成正态分布表(附表1)以供直接查用。

(一) 标准正态分布的概率计算 设u 服从标准正态分布,则u 在[u 1,u 2]内取值的概率为:

du e du e du

e u u u P u u u u u u u ???∞--∞----==<≤1

22

22

1221212121212121

)(πππ

=Φ(u 2)-Φ(u 1) (4-11)

而Φ(u 1)与Φ(u 2)可由附表1查得。

附表1只对于-4.99≤u <4.99给出了Φ(u )的数值。 表中,u 值列在第一列和第一行,第一列列出u 的整数部分及小数点后第一位, 第一行为u 的小数点后第二位数值 。例如,u =1.75,1.7放在第一列,0.05放在第一行。在附表1中,1.7所在行与0.05 所在列相交处的数值为0.95994,即Φ(1.75)=0.95994。有时会遇到给定Φ(u )值,例如Φ(u )=0.284, 反过来查u 值。这只要在附表1中找到与0.284最接近的值0.2843,对应行的第一列数-0.5, 对应列的第一行数值0.07,即相应的u 值为u =-0.57,亦即Φ(-0.57)=0.284。如果要求更精确的u 值,可用线性插值法计算。

表中用了象.032336,.937674这种写法,分别是0.0002326和0.9997674的缩写,03

表示连续3个0,93表示连续3个9。

由(4-11) 式及正态分布的对称性可推出下列关系式,再借助附表1, 便能很方便地计算有关概率: 图4—5 标准正态分布密度曲线

P(0≤u<u1)=Φ(u1)-0.5

P(u≥u1) =Φ(-u1)

P(|u|≥u1)=2Φ(-u1) (4-12)

P(|u|<u1)=1-2Φ(-u1)

P(u1≤u<u2)=Φ(u2)-Φ(u1)

【例4.6】已知u~N(0,1),试求: (1) P(u<-1.64)=? (2) P(u≥2.58)=? (3) P (|u|≥2.56)=? (4) P(0.34≤u<1.53) =?

利用(4-12)式,查附表1得:

(1) P(u<-1.64)=0.05050

(2) P (u≥2.58)=Φ(-2.58)=0.024940

(3) P (|u|≥2.56)=2Φ(-2.56)=2×0.005234=0.010468

(4) P (0.34≤u<1.53)=Φ(1.53)-Φ(0.34)=0.93669-0.6331=0.30389

关于标准正态分布,以下几种概率应当熟记:

P(-1≤u<1)=0.6826

P(-2≤u<2)=0.9545

P(-3≤u<3)=0.9973

P(-1.96≤u<1.96)=0.95

P (-2.58≤u<2.58)=0.99

图4—6 标准正态分布的三个常用概率

u变量在上述区间以外取值的概率分别为:

P(|u|≥1)=2Φ(-1)=1- P(-1≤u<1)=1-0.6826=0.3174

P(|u|≥2)=2Φ(-2)=1- P(-2≤u<2)=1-0.9545=0.0455

P(|u|≥3)=1-0.9973=0.0027

P(|u|≥1.96)=1-0.95=0.05

P(|u|≥2.58)=1-0.99=0.01

(二) 一般正态分布的概率计算正态分布密度曲线和横轴围成的一个区域,其

面积为1,这实际上表明了“随机变量x取值在-∞与+∞之间”是一个必然事件,其概率为1。若随机变量x服从正态分布N(μ,σ2),则x的取值落在任意区间[x1,x2)的概率,记作

P(x1≤x<x2),等于图4-7中阴影部分曲边梯形面积。即:

dx e x x x P x x x ?--=<

≤21222)(2121

)(σμπσ (4-13)

对 (4-13)式作变换u =(x -μ)/σ,得dx =σdu ,故有

du e du e x u x P x x u x x x σπσπσσμσμσμ??-----==

<≤/)(/)(212)(2121221222121)( du e u u u ?-=2122121

π=)()(12u u Φ-Φ

其中,σ

μσμ-=-=2211,x u x u 这表明服从正态分布N (μ,σ2

)的随机变量x 在[x 1,x 2)内取值的概率,等于服从标准正态分布的随机变量u 在[(x 1-μ)/σ, (x 2-μ)/σ)内取值的概率。因此,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率表的方法求得概率了。

【例4.7】 设x 服从μ=30.26,σ2=5.102的正态分布,试求P (21.64≤x <32.98)。

令10

.526.30-=x u , 则u 服从标准正态分布,故 )10

.526.3098.3210.526.3010.526.3064.21()98.3264.21(-<-≤-=<≤x P x P =P (-1.69≤u <0.53)=Φ(0.53)-Φ(-1.69)

=0.7019-0.04551=0.6564

关于一般正态分布,以下几个概率(即随机变量x 落在μ加减不同倍数σ区间的概率)是经常用到的。

P (μ-σ≤x <μ+σ)=0.6826

P (μ-2σ≤x <μ+2σ) =0.9545

P (μ-3σ≤x <μ+3σ) =0.9973

P (μ-1.96σ≤x <μ+1.96σ) =0.95

P (μ-2.58σ≤x <μ+2.58σ)=0.99

上述关于正态分布的结论,可用一实例来印证。从图2-7可以看出,126头基础母羊体重资料的次数分布接近正态分布,现根据其平均数x =52.26(kg ),标准差S =5.10(kg ),算出平均数加减不同倍数标准差区间内所包括的次数与频率,列于表4—2。 图4—7 正态分布的概率

表4—2 126头基础母羊体重在x ±kS 区间内所包括的次数与频率 x ±kS 数 值

区 间 区间内所包含的次数与频率

次数 频率(%)

x ±1S 52.26±5.10 47.16―57.36 84 67.46

x ±2S 52.26±10.20 42.06―62.46 119 94.44

x ±3S 52.26±15.30 36.96―67.56 126 100.00

x ±1.96S 52.26±10.00 42.26―62.26 119 94.44

x ±2.58S

52.26±13.16 39.10―65.42

126 100.00 由表4—2可见,实际频率与理论概率相当接近,说明126头基础母羊体重资料的频率分布接近正态分布,从而可推断基础母羊体重这一随机变量很可能是服从正态分布的。 生物统计中,不仅注意随机变量x 落在平均数加减不同倍数标准差区间(μ-k σ,μ+k σ)之内的概率而且也很关心x 落在此区间之外的概率。我们把随机变量x 落在平均数μ加减不同倍数标准差σ区间之外的概率称为双侧概率(两尾概率),记作α。对应于双侧概率可以求得随机变量x 小于μ-k σ或大于μ+k σ的概率,称为单侧概率(一尾概率),记作α/

2。例如,x 落在(μ-1.96σ,μ+1.96σ)之外的双侧概率为0.05,而单侧概率为0.025。即

P (x <μ-1.96σ)= P (x >μ+1.96σ)=0.025

双侧概率或单侧概率如图4—8所示。x 落在(μ-2.58σ,μ+2.58σ)之外的双侧概率为0.01,而单侧概率

P (x <μ-2.58σ)= P (x >μ+2.58σ)=0.005

附表2给出了满足P (|u |>αu )=α的双侧分位αu 的数值。因此, 只要已知双侧

概率α的值,由附表2就可直接查出对应的双侧分位数αu ,查法与附表1相同。例如,已知u ~N (0,1)试求:

(1) P (u <-αu )+P(u ≥αu )=0.10的αu

(2) P (-αu ≤u <αu ﹚=0.86的αu

因为附表2中的α值是:

du e u u u ?---

=ααπα221211

所以 (1) P (u <-αu )+ P (u ≥αu )=1- P (-αu ≤u <αu ﹚=0.10=α

由附表2查得:10.0u =1.644854

(2) P (-αu ≤u <αu )=0.86 ,α=1- P (-αu ≤u <αu )=1-0.86=0.14

图4—8 双侧概率与单侧概率

由附表2查得:14.0u =1.475791

对于x ~N (μ,σ2

),只要将其转换为u ~N (0,1),即可求得相应的双侧分位数。 【例4.8】 已知猪血红蛋白含量x 服从正态分布N(12.86,2

33.1), 若P (x <1l ) =0.03,

P (x ≥2l )=0.03,求1l ,2l 。

由题意可知,α/2=0.03,α=0.06 又因为

03.0)()33.186.1233.186.12()(11=-<=-<-=<αu u P l x P l x P P (x ≥2l )=03.0)()33

.186.1233.186.12(

2=≥=-≥-αu u P l x P 故 P (x <1l =+ P (x ≥2l )= P (u <-αu =+ P (u ≥αu ) =1- P (-αu ≤P <αu )=0.06=α

由附表2查得:06.0u =1.880794,所以

(1l -12.86)/1.33=-1.880794, (2l -12.86)/1.33=1.880794

即 1l ≈10.36, 2l ≈15.36。

第四节 二项分布

一、贝努利试验及其概率公式

将某随机试验重复进行n 次,若各次试验结果互不影响, 即每次试验结果出现的概率都不依赖于其它各次试验的结果,则称这n 次试验是独立的。

对于n 次独立的试验,如果每次试验结果出现且只出现对立事件A 与A 之一,在每次试验中出现A 的概率是常数p (0

在生物学研究中,我们经常碰到的一类离散型随机变量,如入孵n 枚种蛋的出雏数、n 头病畜治疗后的治愈数、n 尾鱼苗的成活数等,可用贝努利试验来概括。

在n 重贝努利试验中,事件A 可能发生0,1,2,…,n 次,现在我们来求事件A 恰好发生k (0≤k ≤n )次的概率P n (k)。

先取n =4,k =2来讨论。在4次试验中,事件A 发生2次的方式有以下24C 种:

21A A 43A A 4321A A A A 4321A A A A 4321A A A A 4321A A A A 4321A A A A

其中A k (k =1,2,3,4)表示事件A 在第k 次试验发生;k A (k =1,2,3,4)表示事件A 在第k 次试验不发生。由于试验是独立的,按概率的乘法法则,于是有

P (21A A 43A A )=P (4321A A A A )=…= P (4321A A A A )

= P (1A )·P (2A )·P (3A )·P (4A )=242-q

p 又由于以上各种方式中,任何二种方式都是互不相容的,按概率的加法法则,在4 次试验中,事件A 恰好发生2次的概率为

)2(4P = P (21A A 43A A )+P (4321A A A A )+…+ P (4321A A A A )=24C 242-q p

一般,在n 重贝努利试验中,事件A 恰好发生k (0≤k ≤n)次的概率为

)(k P n =k n C k n k q p - k =0,1,2…,n (4-14)

若把(4-14)式与二项展开式

∑=-=+n k k n k k n n q

p C p q 0)(

相比较就可以发现,在n 重贝努利试验中,事件A 发生k 次的概率恰好等于n p q )(+ 展开式

中的第k +1项,所以也把(4-14)式称作二项概率公式。

二、二项分布的意义及性质

二项分布定义如下:

设随机变量x 所有可能取的值为零和正整数:0,1,2,…,n ,且有

)(k P n =k n

C k n k q p - k =0,1,2…,n 其中p >0,q >0,p+q=1,则称随机变量x 服从参数为n 和p 的二项分布 (binomial distribution ),记为 x ~B(n,p)。

显然,二项分布是一种离散型随机变量的概率分布。参数n 称为离散参数, 只能取正整数;p 是连续参数,它能取0与1之间的任何数值(q 由p 确定,故不是另一个独立参数)。 容易验证,二项分布具有概率分布的一切性质,即:

1、P(x=k)= P n (k) 0≥ (k=0,1,…,n )

2、二项分布的概率之和等于1,即

1)(0=+=∑=-n n k k n k k n

p q q p C

3、∑=-=≤=≤m k k n k k n

n q p C m k P m x P 0)()( (4-15)

4、∑=-=

≥=≥n

m k k n k k n n q p C m k P m x P )()( (4-16) 5、∑=-=

≤≤=≤≤21)()(2121m m k k n k k n n q p C m k m p m x m P (m 1

二项分布由n 和p 两个参数决定: 1、当p 值较小且n 不大时,分布是偏倚的。但随着n 的增大 ,分布逐渐趋于对称,如图4—9 所示;

2、当p 值趋于0.5时,分布趋于对称,如图4—10所示;

3、对于固定的n 及p ,当k 增加时,P n (k )先随之增加并达到其极大值,以后又下降。

此外,在n 较大,np 、nq 较接近时,二项分布接近于正态分布;当n →∞时,二项分布的极限分布是正态分布。

三、二项分布的概率计算及应用条件

【例4.9】 纯种白猪与纯种黑猪杂交,根据孟德尔遗传理论, 子二代中白猪与黑猪的比率为3∶1。求窝产仔10头,有7头白猪的概率。

根据题意,n =10,p =3/4=0.75,q =1/4=0.25。设10头仔猪中白色的为x 头,则x 为服从二项分布B(10,0.75)的随机变量。于是窝产10头仔猪中有7头是白色的概率为:

2503.025.075.0!

3!7!1025.075.0)7(3737710=??===C x P 【例4.10】 设在家畜中感染某种疾病的概率为20%,现有两种疫苗,用疫苗A 注射了15头家畜后无一感染,用疫苗B 注射15头家畜后有1头感染。设各头家畜没有相互传染疾病的可能,问:应该如何评价这两种疫苗?

假设疫苗A 完全无效,那么注射后的家畜感染的概率仍为20%,则15 头家畜中染病头数x =0的概率为

0352.080.020.0)0(150015===C x p

同理,如果疫苗B 完全无效,则15头家畜中最多有1头感染的概率为

1671.08.02.08.02.0)1(141115150015=+=≤C C x p

由计算可知,注射A 疫苗无效的概率为0.0352,比B 疫苗无效的概率0.1671小得多。因此,可以认为A 疫苗是有效的,但不能认为B 疫苗也是有效的。

【例4.11】 仔猪黄痢病在常规治疗下死亡率为20%,求5 头病猪治疗后死亡头数各可能值相应的概率。

设5头病猪中死亡头数为x ,则x 服从二项分布B(5,0.2),其所有可能取值为0,1,…,5,按(4-6)式计算概率用分布列表示如下:

0 1 2 3 4 5 0.3277 0.4096 0.2048 0.0512 0.0064 0.0003

从上面各例可看出二项分布的应用条件有三:(1)各观察单位只具有互相对立的一种结果,如阳性或阴性,生存或死亡等,属于二项分类资料;(2)已知发生某一结果(如死亡) 的概率为p ,其对立结果的概率则为1-P=q ,实际中要求p 是从大量观察中获得的比较稳定的数值;(3)n 个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的观察结果。

四、二项分布的平均数与标准差

前面已经指出二项分布由两个参数n 和p 决定。统计学证明,服从二项分布B (n,p )的随机变量之平均数μ、标准差σ与参数n 、p 有如下关系:

当试验结果以事件A 发生次数k 表示时

μ=np (4-18) σ=npq (4-19)

【例4.12】 求【例4.11】平均死亡猪数及死亡数的标准差。

以p =0.2,n =5代入 (4-18)和(4-19) 式得

平均死亡猪数 μ=5×0.20=1.0(头)

标准差 σ=npq = 8.02.05??=0.894(头)

当试验结果以事件A 发生的频率k /n 表示时

p p =μ (4-20)

p σ=n pq /)( (4-21)

p σ也称为总体百分数标准误,当p 未知时,常以样本百分数p ?来估计。此时(4-21) 式

改写为:

S p =n q p

/)??( p q ?1?-= (4-22) p S 称为样本百分数标准误。

第五节 波松分布

波松分布是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的概率分布。要观察到这类事件,样本含量n 必须很大 。在生物、医学研究中,服从波松分布的随机变量是常见的。如,一定畜群中某种患病率很低的非传染性疾病患病数或死亡数,畜群中遗传的畸形怪胎数,每升饮水中大肠杆菌数,计数器小方格中血球数,单位空间中某些野生动物或昆虫数,医院门诊单位时间内就诊患者数等,都是服从波松分布的。

一、波松分布的意义

若随机变量x(x=k)只取零和正整数值0,1,2,…,且其概率分布为

λλ-==e k k x P k !

)( ,k =0,1,…… (4-23)

其中λ>0;e=2.7182…是自然对数的底数,则称x 服从参数为λ的波松分布(Poisson's distribution ),记为x ~P (λ)。

波松分布作为一种离散型随机变量的概率分布有一个重要的特征,这就是它的平均数和方差相等,都等于常数λ,即μ=σ2=λ。利用这一特征, 可以初步判断一个离散型随机变量是否服从波松分布。

【例4.13】 调查某种猪场闭锁育种群仔猪畸形数,共记录200窝, 畸形仔猪数的分布情况如表4-3所示。试判断畸形仔猪数是否服从波松分布。

表4-3 畸形仔猪数统计分布 每窝畸形数k 0 1 3 3 ≥

4 合计 窝 数 f 120 62 1

5 2 1 200

根据波松分布的平均数与方差相等这一特征,若畸形仔猪数服从波松分布,则由观察数据计算的平均数和方差就近于相等。样本均数x 和方差S 2计算结果如下:

x =Σfk/n =(120×0+62×1+15×2+2×3+1×4)/200=0.51-

52.01

200200/)10241322151620120(1/)(222222222=--?+?+?+?+?=--=∑∑n n fk fk s x =0.51,S 2=0.52,这两个数是相当接近的, 因此可以认为畸形仔猪数服从波松分布。

λ是波松分布所依赖的唯一参数。λ值愈小分布愈偏倚,随着λ的增大,分布趋于对称(如图4-11所示)。当λ=20时分布接近于正态分布;当λ=50时,可以认为波松分布呈正态分布。所以在实际工作中,当λ≥20时就可以用正态分布来近似地处理波松分布的问题。

二、波松分布的概率计算

由(4-23)式可知,波松分布的概率计算,依赖于参数λ的确定,只要参数λ确定了,把k =0,1,2,…代入(4-23)式即可求得各项的概率。 但是在大多数服从波松分布的实例中,分布参数λ往往是未知的,只能从所观察的随机样本中计算出相应的样本平均数作为λ的估计值,将其代替(4-23)式中的λ,计算出k =0,1,2,…时的各项概率。

如【例4.13】中已判断畸形仔猪数服从波松分布,并已算出样本平均数x =0.51。将0.51代替公式(4-23)中的λ得:

51.0!

51.0)(-==e k k x P k (k =0,1,2,…) 因为e -0.51=1.6653,所以畸形仔猪数各项的概率为:

P (x =0)=0.510

/(0!×1.6653)=0.6005

P (x =1)=0.511/(1!×1.6653)=0.3063

P (x =2)=0.512/(2!×1.6653)=0.0781

P (x =3)=0.513/(3!×1.6653)=0.0133

P (x =4)=0.514/(4!×1.6653)=0.0017 图4—11 不同λ的波松分布

0001.09999.01)(1)4(4

0=-==-=>∑=k k x p x P

把上面各项概率乘以总观察窝数(N =200)即得各项按波松分布的理论窝数。 波松分布与相应的频率分布列于表4—7中。

表4—4 畸形仔猪数的波松分布

每窝畸形数 k 0 1 2 3 ≥4 合计

窝 数 120 62 15 2 1 200 频 率 0.6000 0.3100 0.0750 0.0100 0.0050 1.00 概 率 0.6005 0.3063 0.0781 0.0133 0.0018 1.00 理论窝数 120.12 61.26 15.62 2.66 0.34 200

将实际计算得的频率与根据λ=0.51的泊松分布计算的概率相比较,发现畸形仔猪的频率分布与λ=0.51的波松分布是吻合得很好的。这进一步说明了畸形仔猪数是服从波松分布的。

【例4.14】 为监测饮用水的污染情况, 现检验某社区每毫升饮用水中细菌数, 共得400个记录如下:

1ml 水中细菌数 0 1 2 ≥3 合 计

次数f 243 120 31 6 400

试分析饮用水中细菌数的分布是否服从波松分布。若服从,按波松分布计算每毫升水中细菌数的概率及理论次数并将次数分布与波松分布作直观比较。

经计算得每毫升水中平均细菌数x =0.500,方差S 2

=0.496。两者很接近, 故可认为每毫升水中细菌数服从波松分布。以x =0.500代替(4-23)式中的λ,得

5.0!

5.0)(-==e k k x P k (k =0,1,2…) 计算结果如表4—5所示。

表4—5 细菌数的波松分布

1ml 水中细菌数

0 1 2 ≥3 合 计 实际次数

243 120 31 6 400 频 率

0.6075 0.3000 0.0775 0.0150 1.00 概 率

0.6065 0.3033 0.0758 0.0144 1.00 理论次数 242.60 121.32 30.32 5.76 400

可见细菌数的频率分布与λ=0.5的波松分布是相当吻合的,进一步说明用波松分布描述单位容积(或面积)中细菌数的分布是适宜的。

应当注意,二项分布的应用条件也是波松分布的应用条件。比如二项分布要求n 次试验是相互独立的,这也是波松分布的要求。然而一些具有传染性的罕见疾病的发病数,因为首例发生之后可成为传染源,会影响到后续病例的发生,所以不符合波松分布的应用条件。对于在单位时间、单位面积或单位容积内,所观察的事物由于某些原因分布不随机时,如细菌在牛奶中成集落存在时,亦不呈波松分布。

前面讨论的三个重要的概率分布中,前一个属连续型随机变量的概率分布,后两个属

离散型随机变量的概率分布。三者间的关系如下:

对于二项分布,在n →∞,p →0,且n p =λ(较小常数)情况下,二项分布趋于波松布。在这种场合,波松分布中的参数λ用二项分布的n p 代之;在n →∞, p →0.5时,二项分布趋于正态分布。在这种场合,正态分布中的μ、σ2

用二项分布的n p 、n p q 代之。在实际计算中,当p <0.1且n 很大时,二项分布可由波松分布近似;当p >0.1且n 很大时,二项分布可由正态分布近似。

对于波松分布,当λ→∞时,波松分布以正态分布为极限。在实际计算中,当λ≥20(也有人认为λ≥6)时,用波松分布中的λ代替正态分布中的μ及σ2,即可由后者对前者进行近似计算。

第六节 样本平均数的抽样分布

研究总体与从中抽取的样本之间的关系是统计学的中心内容。对这种关系的研究可从两方面着手,一是从总体到样本,这就是研究抽样分布(sampling distribution )的问题; 二是从样本到总体,这就是统计推断(statistical inference )问题。 统计推断是以总体分布和样本抽样分布的理论关系为基础的。为了能正确地利用样本去推断总体,并能正确地理解统计推断的结论,须对样本的抽样分布有所了解。

我们知道,由总体中随机地抽取若干个体组成样本,即使每次抽取的样本含量相等,其统计量(如x ,S)也将随样本的不同而有所不同,因而样本统计量也是随机变量, 也有其概率分布。我们把统计量的概率分布称为抽样分布。本节仅就样本平均数的抽样分布加以讨论。

一、样本平均数抽样分布

由总体随机抽样(random sampling )的方法可分为有返置抽样和不返置抽样两种。 前者指每次抽出一个个体后,这个个体应返置回原总体;后者指每次抽出的个体不返置回原总体。对于无限总体,返置与否都可保证各个体被抽到的机会相等。对于有限总体,就应该采取返置抽样,否则各个体被抽到的机会就不相等。

设有一个总体,总体平均数为μ,方差为σ2

,总体中各变数为x , 将此总体称为原总体。现从这个总体中随机抽取含量为n 的样本,样本平均数记为x 。可以设想,从原总体中可抽出很多甚至无穷多个含量为n 的样本。由这些样本算得的平均数有大有小,不尽相同, 与原总体平均数μ相比往往表现出不同程度的差异。这种差异是由随机抽样造成的, 称为抽样误差(sampling error )。显然,样本平均数也是一个随机变量,其概率分布叫做样本平均数的抽样分布。由样本平均数x 构成的总体称为样本平均数的抽样总体,其平均数和标准差分别记为x μ和x σ。x σ是样本平均数抽样总体的标准差,简称标准误(standard error ),它表示平均数抽样误差的大小。统计学上已证明x 总体的两个参数与x 总体的两个参数有如下关系:

x μ=μ,n

x σσ= (4—24) 为了验证这个结论及了解平均数抽样总体与原总体概率分布间的关系,我们进行一个模拟抽样试验。

设有一个N =4的有限总体,变数为2、3、3、4。根据μ=Σx /N 和σ2=Σ(x -μ)2

/N 求得该总体的μ、σ2、σ为:

μ=3, σ2=1/2, σ=2

1 =0.707 从有限总体作返置随机抽样,所有可能的样本数为n N 个,其中n 为样本含量。以上述总体而论,如果从中抽取n =2的样本,共可得42=16个样本;如果样本含量n 为4,则一共可抽得44=256个样本。分别求这些样本的平均数x ,其次数分布如表4—6所示。

根据表4—6,在n =2的试验中,样本平均数抽样总体的平均数、方差与标准差分别为: μμ====∑316/0.48/n x N x f 1616/48148/)()(22222-=-=-=∑∑∑n

n n x x N N x f x f N x f μσ =4/16=1/4=(1/2)/2=n /2σ n x x σσσ====2/214/12

表4—6 N =4, n =2和n=4时x 的次数分布

n N =24=16 n N =44=256 x f x f 2x f x f x f 2x f 2.0

1 2.0 4.00 2.00 1 2.00 4.0000 2.5

4 10.0 25.00 2.2

5 8 18.00 40.5000 3.0

6 18.0 54.00 2.50 28 70.00 175.0000 3.5

4 14.0 49.00 2.7

5 5

6 154.00 423.5000 4.0

1 4.0 16.00 3.00 70 210.00 630.0000

3.25 56 182.00 591.5000

3.50 28 98.00 343.0000

3.75 8 30.00 112.5000

4.00 1 4.00 16.0000 Σ

16 48.0 148.00 Σ 256 768.00 2336.0000

同理,可得n =4时:

μμ===3256/768x n x

/4/)2/1(8/1256/3222σσ==== n x σσ===42181

这就验证了x μ=μ,n x /σσ= 的正确性。

若将表4—6中两个样本平均数的抽样总体作次数分布图,则如图4-12所示。

由以上模拟抽样试验可以看出,虽然原总体并非正态分布,但从中随机抽取样本,即使样本含量很小(n =2, n =4),样本平均数的分布却趋向于正态分布形式。随着样本含量n 的增大,样本平均数的分布愈来愈从不连续趋向于连续的正态分布。比较图4—12两个分

布,在n 由2增到4时,这种趋势表现得相当明显。当n >30时,x 的分布就近似正态分布了。x 变量与x 变量概率分布间的关系可由下列两个定理说明: 1. 若随机变量x 服从正态分布N (μ,σ2),1x ,2x ,…, n x 是由

x

总体得来的随机样本,则统计量x =Σx /n 的概率分布也是正态分布, 且有x μ=μ,n x /σσ=, 即x 服从正态分布N (μ,σ2

/n )。

2. 若随机变量x 服从平均数是μ,方差是σ2的分布(不是正态分布);1x ,2x ,…, n x 是由此总体得来的随机样本,则统计量x =Σx /n 的概率分布,当n 相当大时逼近正态分布N (μ,σ2

/n )。这就是中心极限定理。

上述两个结果保证了样本平均数的抽样分布服从或者逼近正态分布。

中心极限定理告诉我们:不论x 变量是连续型还是离散型,也无论x 服从何种分布,一般只要n >30,就可认为x 的分布是正态的。若x 的分布不很偏倚,在n >20时,x 的分布就近似于正态分布了。这就是为什么正态分布较之其它分布应用更为广泛的原因。

二、标 准 误

标准误(平均数抽样总体的标准差) n x /σσ= 的大小反映样本平均数x 的抽样误差的大小,即精确性的高低。标准误大,说明各样本平均数x 间差异程度大,样本平均数的精确性低。反之,x σ小,说明x 间的差异程度小,样本平均数的精确性高。x σ的大小与原总体的标准差σ成正比,与样本含量n 的平方根成反比。从某特定总体抽样,因为σ是一常数,所以只有增大样本含量才能降低样本平均数x 的抽样误差。

在实际工作中,总体标准差σ往往是未知的,因而无法求得x σ。此时,可用样本标准差S 估计σ。于是,以n S 估计x σ。记n S 为x S ,称作样本标准误或均数标准误。

样本标准误x S 是平均数抽样误差的估计值。若样本中各观测值为1x ,2x ,…, n x ,则

)1(/)()1()(222

--=--==∑∑∑n n n

x x n n x x n S

S x (4-25)

应当注意,样本标准差与样本标准误是既有联系又有区别的两个统计量,(4—25) 式已表明了二者的联系。二者的区别在于:样本标准差S 是反映样本中各观测值1x ,2x ,…, n x 变异程度大小的一个指标,它的大小说明了x 对该样本代表性的强弱。样本标准误是样

图4-12 平均数x 的抽样分布

第四章常用概率分布学习指导(定)详解

第四章 常用概率分布 [教学要求] 了解:质量控制的意义、原理和方法 熟悉:三个常用概率分布的特征。 掌握:掌握三个常用概率分布的概念;二项分布及Poisson 分布的概率 函数与累计概率、正态分布的分布函数的计算方法;医学参考值的计算。 [重点难点] 第一节 二项分布 一、二项分布的概念与特征 基本概念:如果每个观察对象阳性结果的发生概率均为 ,阴性结果的发生概率 均为(1-π);而且各个观察对象的结果是相互独立的,那么,重复观察n 个人,发生阳性结果的人数X 的概率分布为二项分布,记作B (n ,π)。 二项分布的概率函数: X n X X n C X P --=)1()(ππ 二项分布的特征: 二项分布图的形态取决于与n ,高峰在=n 处。当接近0.5时,图形是对称的;离0.5愈远,对称性愈差,但随着n 的增大,分布趋于对称。 二项分布的总体均数为 πμn = 方差为 )1(2ππσ-=n 标准差为 )1(ππσ-=n 如果将出现阳性结果的频率记为 n X p = 则p 的总体均数为 πμ=p 标准差为 二、二项分布的应用 二项分布出现阳性的次数至多为k 次的概率为 n p ) 1(ππσ-=

∑∑==-== ≤k X k X X X e X P k X P 0 ! )()(λλ 出现阳性的次数至少为k 次的概率为 第二节 Poisson 分布的概念与特征 一、Poisson 分布的概念与特征 基本概念:Poisson 分布可以看作是每个观察对象阳性结果的发生概率 很小, 而观察例数n 很大时的二项分布。除二项分布的三个基本条件以外,Poisson 分布还要求 接近于0。有些情况 和n 都难以确定,只能以观察单位(时间、 空间、面积等)内某种稀有事件的发生数X 来近似。 Poisson 分布的概率函数: 式中,πλn =为Poisson 分布的总体均数,X 为观察单位内某稀有事件的发生次数,e 为自然对数的底,λ为常数,约等于2.71828。 Poisson 分布的特征 Poisson 分布当总体均数λ值小于5时为偏峰,λ愈小分布愈偏,随着λ增大,分布趋向对称。 Poisson 分布的总体均数与总体方差相等, 均为λ,且Poisson 分布的观察结果具有可加性。 特点:凡个体有传染性、聚集性,均不能视为二项分布或Poisson 分布。 三、Poisson 分布的应用 如果某稀有事件发生次数的总体均数为λ,那么发生次数至多为k 次的概率为 发生次数至少为k 次的概率为 ! )(X e X P X λλ -= ∑∑==---= = ≤k X k X X n X X n X n X P k X P 0 0)1()! (!! )()(ππ∑∑ ==---== ≥n k X n k X X n X X n X n X P k X P )1()! (!! )()(ππ

考试练习题常用概率分布教学提纲

考试练习题常用概率 分布

第四章 选择题: 1.二项分布的概率分布图在 条件下为对称图形。 A .n > 50 B .π=0.5 C .n π=1 D .π=1 E .n π> 5 2.满足 时,二项分布B (n,π)近似正态分布。 A .n π和n (1-π)均大于等于5 B .n π或n (1-π)大于等于5 C .n π足够大 D .n > 50 E .π足够大 3. 的均数等于方差。 A .正态分布 B .二项分布 C .对称分布 D .Poisson 分布 E .以上均不对 4.标准正态典线下,中间95%的面积所对应的横轴范围是 。 A .-∞到+1.96 B .-1.96到+1.96 C .-∞到+2.58 D .-2.58到+2.58 E .-1.64到+1.64 5.服从二项分布的随机变量的总体均数为 。 A .n (1-π) B .(n -1)π C .n π(1-π) D .n π 6.服从二项分布的随机变量的总体标准差为 。 A . B . (1-π)(1-π)( -)π1 C . D . π(1-π)(π 7.设X 1,X 2分别服从以λ1,λ2为均数的Poisson 分布,且X 1与X 2独立,则X 1+X 2服从以 为方差的Poisson 分布。 A . B .λ2λ12+2λ 2λ1+ C . D . 2λ2λ1+() 2λ2λ1+() E .λ2λ12+2 8.满足 时,Poisson 分布Ⅱ(λ)近似正态分布。

A.λ无限大 B.λ>20 C.λ=1 D.λ=0 E.λ=0.5 9.满足时,二项分布B(n,π)近似Poisson分布。 A.n很大且π接近0 B.n→∞ C.nπ或n(1-π)大于等于5 D.n很大且π接近0.5 E.π接近0.5 10.关于泊松分布,错误的是。 A.当二项分布的n很大而π很小时,可用泊松分布近似二项分布 B.泊松分布均数λ唯一确定 C.泊松分布的均数越大,越接近正态分布 D.泊松分布的均数与标准差相等 E.如果X1和X2分别服从均数为λ1和λ2的泊松分布,且相互独立。则 X1+X2服从均数为λ1+λ2的泊松分布。 11.以下分布中,均数等于方差的分布是。 A.正态分布 B.标准正态分布 C.二项分布 D.Poisson分布 E.t 分布 12.随机变量X服从正态分布N(μ1,σ12),Y服从正态分布N(μ2,σ 2),X与Y独立,则X-Y服从。 2 A.N(μ1+μ2,σ12-σ22) B.N(μ1-μ2,σ12-σ22) C.N(μ1-μ2,σ12+σ22) D.N(0,σ12+σ22) E.以上均不对 13.下列叙述中,错误的是。 A.二项分布中两个可能结果出现的概率之和为1 B.泊松分布只有1个参数λ C.正态曲线下的面积之和为1

第四章 常概率分布

第四章常用概率分布 为了便于读者理解统计分析的基本原理,正确掌握和应用以后各章所介绍的统计分析方法,本章在介绍概率论中最基本的两个概念——事件、概率的基础上,重点介绍生物科学研究中常用的几种随机变量的概率分布——正态分布、二项分布、波松分布以及样本平均数的抽样分布和t分布。 第一节事件与概率 一、事件 (一)必然现象与随机现象在自然界与生产实践和科学试验中,人们会观察到各种各样的现象,把它们归纳起来,大体上分为两大类:一类是可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生(或必然不发生)。例如,在标准大气压下,水加热到100℃必然沸腾;步行条件下必然不可能到达月球等。这类现象称为必然现象(inevitable phenomena)或确定性现象(definite phenomena)。另一类是事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同。例如,掷一枚质地均匀对称的硬币,其结果可能是出现正面,也可能出现反面;孵化6枚种蛋,可能“孵化出0只雏”,也可能“孵化出1只雏”,…,也可能“孵化出6 只雏”,事前不可能断言其孵化结果。这类在个别试验中其结果呈现偶然性、不确定性现象,称为随机现象(random phenomena)或不确定性现象(indefinite phenomena)。 人们通过长期的观察和实践并深入研究之后,发现随机现象或不确定性现象,有如下特点:在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;但在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的特定的规律性——频率的稳定性,通常称之为随机现象的统计规律性。例如,对于一头临产的妊娠母牛产公犊还是产母犊是事前不能确定的,但随着妊娠母牛头数的增加,其产公犊、母犊的比例逐渐接近1:1的性别比例规律。概率论与数理统计就是研究和揭示随机现象统计规律的一门科学。 (二)随机试验与随机事件 1、随机试验通常我们把根据某一研究目的,在一定条件下对自然现象所进行的观察或试验统称为试验(trial)。而一个试验如果满足下述三个特性,则称其为一个随机试验(random trial),简称试验: (1)试验可以在相同条件下多次重复进行; (2)每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果; (3)每次试验总是恰好出现这些可能结果中的一个,但在一次试验之前却不能肯定这次试验会出现哪一个结果。 如在一定孵化条件下,孵化6枚种蛋,观察其出雏情况;又如观察两头临产妊娠母牛所

第4章 常见概率分布.

第四章常用概率分布 一、二项分布的概念和特征 概念 分布:随机变量的取值规律分布函数:描述分布的规律 变量类型 连续型变量 离散型变量如:正态分布 如:二项分布,泊松分布 思考 例1.假设有5只实验小白鼠,要求它们同种属、同性别、体重相近,且给小白鼠注射一定剂量的毒物时,他们有相同的死亡率80%,存活率为20%。那么这5只小白鼠实验后全部死亡的概率是多少?有一只白小鼠存活的概率是多少?2只小白鼠存活的概率是多少? 例1.假设有5只实验小白鼠,要求它们同种属、同性别、体重相近, 且给小白鼠注射一定剂量的毒物时,他们有相同的死亡率80%, 存活率为20%。那么这5只小白鼠实验后全部死亡的概率是多少? 有一只白小鼠存活的概率是多少?2只小白鼠存活的概率是多少? P 死 =0.8 P 活 =0.2 P 1 =0.8×0.8×0.8×0.8×0.8 P 2 = P 3 = 1 5 C 2 5

C 0.2×0.8 4 =0.082 0.2 2 ×0.8 3 =0.020 =0.8 5 =0.328 该实验有三个特点: 1.各次实验是彼此独立的; 2.每次实验只有二种可能的结果,或死亡或生存; 3.每次实验小白鼠死亡和生存的概率是固定的。 具备以上三点,即从阳性率为π的总体中随机抽取大小为n的样本, 则出现“阳性”数为X的概率分布即呈现二项分布,记作B(n,p。 概率分布函数 二项分布的概率函数P (X 可用公式 X n X X n C X P - - = 1 ( ( p p 其中 ! ( ! ! X n X n C X n - = 对于任何二项分布,总有 ( 1 = ? = n X X P 例2.临床上用针灸治疗某型头疼,有效的概率为60%,现以该疗法治疗3例,其中2例有效的概率是多大? 分析:治疗结果为有限和无效两类,每个患者是否有效不受其他病例的影响,有效概率均为0.6,符合二项分布的条件。

第四章 常用概率分布

第四章常用概率分布 为了便于理解统计分析的基本原理,正确掌握和应用以后各章所介绍的统计分析方法,本章在介绍概率论中最基本的两个概念——事件、概率的基础上,重点介绍生物科学研究中常用的几种随机变量的概率分布——正态分布、二项分布、波松分布以及样本平均数的抽样分布和t分布。 第一节排列与组合 一、乘法原理 如果一个过程分两个阶段进行,第一阶段有m种做法,第二阶段有n种做法,且第一阶段与第二阶段的任一种做法配成整个事件的一种做法,那么整个过程应该有mn种做法。 二、排列 从n个不同的元素中,任意取出r个不同的元素(0<r≤n)按一定顺序排成一列,这样的一列元素,叫做从n个不同的元素中取r个不同的元素组成的一种排列。记做Pn r P n r=n(n-1)---(n-r+1)=n!/(n-r)! 例1:从1、2、3、4、5、6、7任取3个不同的数字组成3位数中,有几个是偶数? 3×6×5=90 如果容许重复,则P n r =n r 例2:体育彩票6位数的排列数有106,加上特征数共有106C51 例3 用0、1、2---9组成3位数 (1)如考虑数字可重复,可以组成多少不同的3位数? (2)3位数中数字没有重复的有几个? (3)3个数字相同的有几个? (4)只有2个相同的有几个? 解 1)百位9种,十位10种,个位10种 9×10×10 (2)百位9种,十位9种,个位8种 9×9×8 (3)百位9种,9×1×1 (4)百位与十位相同9×9,百位与个位相同9×9,十位与个位相同9×9 9×9+9×9+9×9=243 三、组合 设有n个不同的元素,从它们中间任取r个构成一组,不考虑r元素的次序,记做C n r C n r=P n r/r!= n!/(n-r)!r! 例:5本不同的数学书,8本不同的物理书,任取2 本数学书,4本物理书的取法C52C84=700 第二节事件与概率 一、事件 (一)必然现象与随机现象 在自然界与生产实践和科学试验中,观察到各种现象,归纳起来,大体上分为两大类:必然现象(inevitable phenomena)或确定性现象(definite phenomena):可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生(或必然

考试练习题常用概率分布

第四章 选择题: 1.二项分布的概率分布图在条件下为对称图形。 A.n > 50 B.π=0.5 C.nπ=1 D.π=1 E.nπ> 5 2.满足时,二项分布B(n,π)近似正态分布。 A.nπ和n(1-π)均大于等于5 B.nπ或n(1-π)大于等于5 C.nπ足够大D.n > 50 E.π足够大 3. 的均数等于方差。 A.正态分布B.二项分布C.对称分布D.Poisson分布E.以上均不对4.标准正态典线下,中间95%的面积所对应的横轴范围是。 A.-∞到+1.96 B.-1.96到+1.96 C.-∞到+2.58 D.-2.58到+2.58 E.-1.64到+1.64 5.服从二项分布的随机变量的总体均数为。 A.n(1-π)B.(n-1)πC.nπ(1-π)D.nπ 6.服从二项分布的随机变量的总体标准差为。 7.设X1,X2分别服从以λ1,λ2为均数的Poisson分布,且X1与X2独立,则X1+X2服从以 为方差的Poisson分布。 8.满足时,Poisson分布Ⅱ(λ)近似正态分布。 A.λ无限大B.λ>20 C.λ=1 D.λ=0 E.λ=0.5 9.满足时,二项分布B(n,π)近似Poisson分布。 A.n很大且π接近0 B.n→∞C.nπ或n(1-π)大于等于5 D.n很大且π接近0.5 E.π接近0.5 10.关于泊松分布,错误的是。 A.当二项分布的n很大而π很小时,可用泊松分布近似二项分布 B.泊松分布均数λ唯一确定 C.泊松分布的均数越大,越接近正态分布 D.泊松分布的均数与标准差相等 E.如果X1和X2分别服从均数为λ1和λ2的泊松分布,且相互独立。则X1+X2服从均数为λ1+λ2的泊松分布。 11.以下分布中,均数等于方差的分布是。 A.正态分布B.标准正态分布C.二项分布D.Poisson分布E.t分布12.随机变量X服从正态分布N(μ1,σ12),Y服从正态分布N(μ2,σ22),X与Y 独立,则X-Y服从。 A.N(μ1+μ2,σ12-σ22)B.N(μ1-μ2,σ12-σ22) C.N(μ1-μ2,σ12+σ22)D.N(0,σ12+σ22)E.以上均不对 13.下列叙述中,错误的是。 A.二项分布中两个可能结果出现的概率之和为1 B.泊松分布只有1个参数λ C.正态曲线下的面积之和为1 D.服从泊松分布的随机变量,其取值为0到n的概率之和为1 E.标准正态分布的标准差为1 14.据既往经验,注射破伤风抗毒素异常发生率为5‰,某医院一年接种600人次,无1例发生异常,该情况发生的可能性P(X=0)应等于。

相关文档