文档库 最新最全的文档下载
当前位置:文档库 › 基于分组数据的对数正态分布的参数估计

基于分组数据的对数正态分布的参数估计

基于分组数据的对数正态分布的参数估计
基于分组数据的对数正态分布的参数估计

基于分组数据的对数正态分布的参数估计

摘要

本文介绍了一种对基于分组数据的对数正态分布进行参数估计的方法。所得估计具有良好的收敛性, 同时模拟结果也表明该方法的可行性。 关键词 分组数据; 对数正态分布; 参数估计

一、问题的提出

经典统计分析中, 总假设随机样本的观测值为一个确定的数值; 然而在实际应用中, 观测到的经常是分组数据。例如, 在生存分析的研究中, 就时常出现这种情况。记0110=...k k T T T T -<<<<=∞,j n 为落在区间1[,)j j T T -中的样本数, 其中j =

1, 2, ?,k 。假设样本来自于某个包含未知参数的分布, 所要解决的问题就是估计分布中的未知参数。

但是对于大多数的分布族而言, 要解决这类问题都是比较困难的。

近年来, 对于区间数据的分析研究有很大的发展, 一些针对区间数据的参数估计方法也应运而[15] 生。这些研究为进行分组数据的参数估计提供了更多的方法和思路。样本为威布尔分布时, 这类问题已经得到解[6]决。本文将讨论当样本来自对数正态分布时, 这类问题该如何解决。

二、参数最大似然估计及其算法

记 (1,2,...,)i X i n =为独立同分布随机变量,其密度函数为

2

2

(ln )],,02x a x a σσ-->; 它们分别落入区间1[,)j j T T -,只能观测到落在该区间中的随机变量i X 的数目j n , 其中,

j = 1, 2, ?, k , 0110=...k k T T T T -<<<<=∞。所要解决的问题是估计参数,a σ。 取ln i i U X =,ln j j T T '=; 则 (1,2,...,)i U i n =仍为独立同分布随机变量, 其密度函数为

2

2

()]2u a σ-- 它们分别落入区间1[,)j j T T -'' , 而j n 则为落在区间1[,)j j T T -'' 中的随机变量i U 的数目。不难看出{} ,1,2,...,i U i n =包含了与{} ,1,2,...,i X i n =相同的信息, 在下面的推导过程中, 将利用i U 进行讨论。

12

12()

([,))]2j j T j j j T u a p P U T T du σ'

'

---''=∈=-? 可得似然函数

1

j k

n

j j L p ==∏

12

21

()log log ]2j j k

T j T j u a L n du σ'

'

-=-=-∑? 易得

12

1

2log ]2j j j T k

j T j T L n a du

σ'

''-=?=?-∑?

122

2

12log ]2j j j j T T k j T j T L n du σσ''''-=?=???-????

∑? 分别令log 0L σ?=?,log 0L

a

?=?。 得

:

121

20]2j j j T k j T j T n du

σ'

''-==-∑? (1)

122

2

120]2j j j j T T k j T j T n du σ''''-==??-????

∑?(2) 不难看出, 以上两式无法得到参数,a σ的明确表达式。这也是在处理这类问题时经常遇到的困难。为克服这一困难, 用EM 算法得出参数的估计。

EM 算法是一种迭代方法, 最初由Demp ster 等提出, 并主要用来求后验分布的众数(即最大似然估计) , 它的每次迭代由两步组成: E 步(求期望) 和M 步(极大化)。记θ为未知参数。一般以()|p Y θ表示θ的基于观测数据Y 的后验分布密度函数, 称为观测后验分布, ()|,p Y Z θ表示添加数据Z 后得到的关于H 的后验分布密度函数, 称为添加

后验分布。()|,p Z Y θ表示在给定θ和观测数据Y 下潜在数据Z 的条件分布密度函数。本文的目的是计算观测后验分布()|p Y θ的众数。于是, EM 算法如下进行。记i θ为第i + 1 次迭代开始时后验众数的估计值, 则第i + 1 次迭代的两步为:

E 步 将()|,p Y Z θ或()log |,p Y Z θ 关于Z 的条件分布求期望, 从而把Z 积掉, 即

()()()()|,[log |,|,]log |,|,i i i i Q Y E p Y Z Y p Y Z p Z Y dZ θθθθθθ=?

M 步 将()|,i Q Y θθ极大化, 即找一个点1i θ+ 使

()()1|,max |,i i i Q Y Q Y θ

θθθθ+=

如此形成了一次迭代1i i θθ+→。将上述E 步和M 步进行迭代直至‖1i θθ+-‖或‖

()()1|,|,i i i i Q Y Q Y θθθθ+-‖充分小时停止。

三、利用EM 算法得出对参数的估计

为了便于表述, 记随机变量i X 全体为X , 其总数为N , 观测结果为jh

X X 、为落入区间1[,)j j T T -的随机变量, h = 1, 2, ?, j n 。记随机变量i U 全体为U ,其总数为N ,观测结果为Y ,jh u 为落入区间1[,)j j T T -''的随机变量, h = 1, 2, ?, j n 。 E 步: 注意到这样一个事实,U 实际上已经包含了Y 所有的信息。所以有

()(),|,,|p a U Y p a U σσ=, 由随机变量i U 的密度函数可得

(

)2222

1111()()log ,|log ]log(22j

j n

n

k

k jh jh j k j k u a u a p a U σσσ====????--???

=-=--?????????

∑∑∑∑(

)()()()()2()()

2

1

?,|,,[log (,|)|,,]1log([()|,,]

2i i i i k

i i j jh

j Q a a Y E p a U a Y N n E u

a a Y σσσσσσσ

=≡=--

-∑

jh U 的条件密度

:

11()2()2

()2

()()()2

()2()2()exp[]

2(|,,)()exp[]exp[]22j

j j j i i i i i jh i T T i i T T t a f u t a Y t a dt dt σσσσ

'''

'

----===---? 为了便于表述, 将()()(|,,)i i jh f u t a Y σ=记为()j P t 。

则有

(

)1

()

()

2()()2

1

22

1

1,|,,log([()|,,]

21log(()()2j j k

i i i i j jh

j k

T j j T j Q a a Y N n E u

a a Y N n t a P t dt

σσσσ

σ'

'

-===--

-=--

-∑∑?

M 步: 将()()(),|,,i i Q a a Y σσ分别对,a σ求导,以求出使()()(),|,,i i Q a a Y σσ极大化的点

(1)(1)(,)i i a σ++。首先对a 求导:

1211()()j j k

T j j T j Q n t a P t dt a σ''

-=?=-?∑? 令

0Q

a

?=?可得a 关于()()i i a σ、的表达式: 111()j j k

T j j T j a n tP t dt N ''

-==∑? (3)

再对σ求导:

12311()()j j k

T j j T j Q N n t a P t dt σσσ''

-=?=-+-?∑? 令

0Q

σ

?=?可得σ关于()()i i a σ、和a 的表达式: 12

211(()j j k T j

j T j n t a P t dt N σ''-==-∑?) (4)

利用式(3)、(4) 所得到的,a σ就是所要寻找的(+1)(+1)i i a σ、。这样就形成了一次迭代()()(+1)(+1)i i i i a a σσ→、、。反复利用式(3)、(4) 迭代公式, 就可以得到对参数,a σ的估计。

EM 算法的最大优点是简单和稳定, 其主要目的是提供一个简单的迭代算法来计算后验众数, 它的收敛性及其收敛结果是主要关心的问题。以下2个定理表明了利用EM 算法所得到的估计序列具有良好的收敛性, 且其收敛到()|p Y θ的局部最大值。 记EM 算法得到的估计序列为()i θ , i = 1, 2, ?, ()()|log |L Y p Y θθ=。 定理1 EM 算法每次迭代后均有提高后验密度函数值,

()()(+1)()||i i p Y p Y θθ≥。

定理2( 1) 如果()|p Y θ有上界, 则()|L Y θ收敛到某个L *;

(2) 如果()|Q θ?关于θ和?都连续, 则在关于L 的很一般的条件下, 由EM 算

法得到的估计序列i θ的收敛值θ*是L 的稳定点。

证明 见文献[7]。

四、模拟结果

记 (1,2,...,)i X i n =为独立同分布随机变量,其密度函数为

2

2

(ln )]2x a σ-- 其中, =0,=1a σ。而012345602456711T T T T T T T =======,,,,,,,7T =∞。取迭代初值(1)0.5a =,(1) 1.5σ=, 进行4 次迭代。模拟结果见表1, 每次模拟均取2 000 个随机数。

表1 样本数为2 000 时的模拟结果

序号

1 0.021

2 1.00409 2 0.0001

3 0.97555 3 -0.0026 1.00608

4 -0.0152 1.0411

5 5 0.0022 0.9755

6 0.0065 1.01725

7 0.0009 0.99795

8 -0.0145 0.99443

9 -0.0195 1.0015 10 0.0182 0.9896 均值 -0.00027 1.00004 方差 -0.00018 0.00038

进行10 次模拟后, 得到?a

的均值为-5-2710?, 方差为-41.810?;?σ的均值为1. 000 04, 方差为-43.810?。

由以上模拟可以看出, 在样本数较多的情况下,利用这2 个迭代公式能得到对参数?a

和?σ

的较好的估计。下面讨论在样本较小的情况下用2 个迭代公式估计参数的效果。 取参数=0,=1a σ。分别产生800、100 个随机数。再取迭代初值(1)a =0.5,(1)σ=1.5, 进行4 次迭代, 结果见表2 和表3。随着样本数的减少, 由于随机误差的增大, 估计值与参数真值的误差开始逐渐增大, 但效果始终还是比较理想的。 表2 当样本数为800 时的模拟结果

序号

?a ?σ?a

1 -0.0248 1.01198

2 0.0256 1.03005

3 0.0275 1.0102

4 0.0702 0.97293

5 -0.0361 1.04948

6 0.0079 1.04346

7 0.0411 1.01489

8 0.0043 1.03822

9 0.00093 1.01926 10 0.002 1.04231 均值 0.01186 1.02328 方差 0.00096 0.00052

表3 样本数为100 时的模拟结果

序号

1 0.0085 0.98818

2 -0.04080 1.0231

3 3 0.151

4 1.03966 4 0.0813 1.02122

5 -0.0534 0.98412

6 0.0023 0.97755

7 0.041

8 0.9550

9 8 0.0393 0.98899 9 0.022 0.90923 10 0.2154 1.15156 均值 0.03406 1.00387 方差 0.00808 0.00407

由以上模拟可以看出, 对于服从对数正态分布的分组数据, 无论是样本较大还是较小的情况, 利用这2 个迭代公式都能得到对参数的较好的估计。

五、参考文献

[1] Pat ricaM O , A nderson K M , D’A go st ino Ralph B.M aximum likelihood

est imat ion fo r interval2censo red data using a W eibull2based accelerated failure timemodel[J ]. B iomet rika, 1992, 48: 951- 995. [2] Rabinow itzD, A nastasio s T siat is, Jo rge A ragon.Regression w ith

interval2censo red data[J ]. B iomet rika, 1995, 82: 501- 513.

[3] Huang J , Ro ssiniA J. Sieve est imat ion fo r the p ropo rt ional2odds

failure2t ime regression modelw ith interval censo ring[J ]. JA SA , 1997, 92: 960- 967.

[4] Shen X T. P ropo rt ional odds regression and sieve maximum likelihood est

imat ion [ J ]. B iomet rika,1998, 85: 165- 177.

? ?a

[5] L i G, Zhang C H. L inear regression w ith interval censo red data [J].

A nn. Stat ist. 1998, 26: 1306 -1327.

[6] 郑明, 杨艺, 郑宇. 基于分组数据的威布尔分布的参数估计[J ]. 高校应

用数学学报A 辑, 2003, 18(3) : 303- 310.

[7] 苑诗松, 王静龙, 濮晓龙. 高等数理统计[M ]. 北京: 高等教育出版社, 施普林

格出版社, 1997. 428- 441.

第二章 多元正态分布及参数的估计汇总

第二章多元正态分布及参数的估计 在多元统计分析中,多元正态分布占有相当重要的地位.这是因为许多实际问题涉及到的随机向量服从正态分布或近似服从正态分布;当样本量很大时,许多统计量的极限分布往往和正态分布有关;此外,对多元正态分布,理论与实践都比较成熟,已有一整套行之有效的统计推断方法.基于这些理由,我们在介绍多元统计分析的种种具体方法之前,首先介绍多元正态分布的定义、性质及多元正态分布中参 数的估计问题. 目录 §2.1 随机向量 §2.2 多元正态分布的定义与基本性质 §2.3 条件分布和独立性 §2.4 多元正态分布的参数估计 §2.1 随机向量 本课程所讨论的是多变量总体.把p个随机变量放在一起得X=(X1,X2,…,Xp)′为一个p维随机向量,如果同时对p维总体进行一次观测,得一个样品为p维数据.常把n个样品排成一个n×p矩阵,称为样本资料阵.

?? ? ? ?? ??'''= ?????? ??=)()2()1(2 1 2222111211n np n n p p X X X x x x x x x x x x X def =(X 1,X 2,…,X p ) 其中 X(i)( i =1,…,n)是来自p 维总体的一个样品. 在多元统计分析中涉及到的都是随机向量,或是多个随机向量放在一起组成的随机矩阵. 本节有关随机向量的一些概念(联合分布,边缘分布,条件分布,独立性;X 的均值向量,X 的协差阵和相关阵,X 与Y 的协差阵)要求大家自已复习. 三﹑ 均值向量和协方差阵的性质 (1) 设X ,Y 为随机向量,A ,B 为常数阵,则 E(AX )=A·E(X ), E(AXB )=A·E(X )·B D(AX)=A·D(X)·A' COV(AX,BY)=A·COV(X,Y)·B' (2) 若X,Y 相互独立,则COV(X,Y)=O;反之不成立. 若COV(X,Y)=O,我们称X 与Y 不相关.故有: 两随机向量若相互独立,则必不相关;

厦门大学《应用多元统计分析》习题第02章 多元正态分布的参数估计

思考与练习 2.1 试述多元联合分布和边缘分布之间的关系。 2.2 设随机向量12(,)X X ′=X 服从二元正态分布,写出其联合分布密度函数和1X 、2X 各自的边缘密度函数。 2.3 已知随机向量12(,)X X ′=X 的联合分布密度函数为: ()()()()()()()()() 121122 2 22,d c x a b a x c x a x c f x x b a d c ??+?????2???? = ?? 其中,。求: 12,a x b c x d ≤≤≤≤⑴ 随机变量1X 和2X 各自的边缘密度函数、均值与方差。 ⑵ 随机变量1X 和2X 的协方差和相关系数。 ⑶ 判断1X 和2X 是否相互独立。 2.4 设随机向量12(,,,)p X X X ′=X L 服从正态分布,已知其协差阵为对角阵,证明ΣX 的分量是相互独立的随机变量。 2.5 从某企业全部职工中随机抽取一个容量为6的样本,该样本中各职工的目前工资、受教育年限、初始工资和工作经验资料如下表所示: 职工编号 目前工资 (美元) 受教育年限(年) 初始工资 (美元) 工作经验(月) 1

1 2 3 4 5 6 57,000 40,200 21,450 21,900 45,000 28,350 15 16 12 8 15 8 27,000 18,750 12,000 13,200 21,000 12,000 144 36 381 190 138 26 设职工总体的以上变量服从多元正态分布,根据样本资料求出均值向量和协差阵的最大似然估计。 2.6 均值向量和协差阵的最大似然估计量具有哪些优良性质? 2.7 试证多元正态总体的样本均值向量(,)p N μΣ1 ~(, p N n X μΣ)。 2.8 试证多元正态总体的样本协差阵S 为(,)p N μΣΣ的无偏估计。 2.9 设()1x 、()2x 、…、()n x 是从多元正态总体中独立抽取的一个随机样本,试求样本协差阵的分布。 (,)p N μΣS 2.10 设()i i X n p ×是来自(),p i i N μΣ的数据阵,1,,i k =L , ⑴ 已知1k ===μμμL 且1k ===ΣΣL Σ,求μ和的估计。 Σ⑵ 已知1k ===ΣΣL Σ,求1,,k μμL 和Σ的估计。 2

对数正态分布教程文件

在概率论与统计学中,对数正态分布是对数为正态分布的任意随机变量的概率分布。如果X是正态分布的随机变量,则exp(X) 为对数分布;同样,如果Y是对数正态分布,则 ln(Y) 为正态分布。如果一个变量可以看作是许多很小独立因子的乘积,则这个变量可以看作是对数正态分布。一个典型的例子是股票投资的长期收益率,它可以看作是每天收益率的乘积。对于,对数正态分布的概率分布函数为 其中与分别是变量对数的平均值与標準差。它的期望值是 给定期望值与标准差,也可以用这个关系求与 与几何平均值和几何标准差的关系 对数正态分布、几何平均数与几何标准差是相互关联的。在这种情况下,几何平均值等于,几何平均差等于。 如果采样数据来自于对数正态分布,则几何平均值与几何标准差可以用于估计置信区间,就像用算术平均数与标准差估计正态分布的置信区间一样。

其中几何平均数,几何标准差 或者更为一般的矩 [编辑]局部期望 随机变量在阈值上的局部期望定义为

其中是概率密度。对于对数正态概率密度,这个定义可以表示为 其中是标准正态部分的累积分布函数。对数正态分布的局部期望在保险业及经济领域都有应用。 其中用表示对数正态分布的概率密度函数,用—表示正态分布。 因此,用与正态分布同样的指数,我们可以得到对数最大似然函数: 由于第一项相对于μ与σ来说是常数,两个对数最大似然函数与在 同样的μ与σ处有最大值。因此,根据正态分布最大似然参数估计器的公式以及上面的方程,我们可以推导出对数正态分布参数的最大似然估计 ?如果与,则是正态分布。

?如果是有同样μ参数、而σ可能不同的统计独立对数正态分布变量,并且,则Y也是对数正态分布变量:。 μ=0

第1章 多元正态分布的参数估计

1 第一章 多元正态分布的参数估计 一、填空题 1.设X 、Y 为两个随机向量,对一切的u 、v ,有 ,则称X 与Y 相互独立。 2.多元分析处理的数据一般都属于 数据。 3.多元正态向量()' =p X X X ,,1 的协方差阵∑是 ,则X 的各分量是相互独立的随机变量。 4.一个p 元函数() p x x x f ,,,21 能作为p R 中某个随机向量的密度函数的主要条件是 和 。 5.若p 个随机变量1X ,2X , ,p X 的联合分布等于 ,则称1X , 2X , ,p X 是相互独立的。 6.多元正态分布的任何边缘分布为 。 7.若()∑,~μp N X ,A 为p s ?阶常数阵,d 为s 维常数向量,则~d AX + 。 8.多元正态向量X 的任何一个分量子集的分布称为X 的 。 9.多元样本中,不同样品的观测值之间一定是 。 10.多元正态总体均值向量和协差阵的极大似然估计量分别是 。 11.多元正态总体均值向量μ和协差阵∑的估计量X 、 S n 1 1-具有 、 和 。 12.设X 和S 分别是多元正态总体()∑,μp N 的样本均值向量和离差阵,则 ~X ,X 和S 。 13.若()()∑,~μαp N X ,n ,,2,1 =α且相互独立,则样本离差阵 ()()()()∑='--=n X X X X S 1~ααα 。 14.若()∑,~i p i n W S ,k i ,,1 =,且相互独立,则~21k S S S S +++= 。 二、判断题 1.多元分布函数()x F 是单调不减函数,而且是右连续的。 2.设X 是p 维随机向量,则X 服从多元正态分布的充要条件是:它的任何组合()p R X ∈'αα都是一元正态分布。 3.μ是一个P 维的均值向量,当A 、B 为常数矩阵时,具有如下性质: (1)E (AX )=AE (X ) (2)E (AXB )=AE (X )B 4.若P 个随机变量X 1,…X P 的联合分布等于各自边缘分布的乘积,则称X 1,… X P 是相互独立的。 5.一般情况下,对任何随机向量()'=X X X p ,,1 ,协差阵∑是对称阵,也 是正定阵。 6.多元正态向量()'=X X X p ,,1 的任意线性变换仍然服从多元正态分布。 7.多元正态分布的任何边缘分布为正态分布,反之一样。 8.多元样本中,不同样品之间的观测值一定是相互独立的。 9.多元正态总体参数均值μ的估计量X 具有无偏性、有效性和一致性。 10. S n 1是∑的无偏估计。

练习一多元正态分布的参数估计(精)

练习一 多元正态分布的参数估计 1.试叙述多元联合分布和边际分布之间的关系。 2.设二维随机向量12()X X '服从二元正态分布,写出其联合分布。 3.已知随机向量1 2()X X '的联合密度函数为 12121222 2[()()()()2()()] (,)()()d c x a b a x c x a x c f x x b a d c --+-----= -- 其中1a x b ≤≤,2c x d ≤≤。求 (1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断1X 和2X 是否相互独立。 4.设12(,,)p X X X X '= 服从正态分布,已知其协方差矩阵∑为对角阵,证明其分量是相互独立的随机变量。 5. 影响粮食产量的因素很多, 大致可分为三个层次:第一层次是宏观因素。主要有三种,一是制度创新, 如20世纪50年代初的土地改革、60年代初的“ 三自一包”和 80年代初的联产承包责任制和现行的粮食直补及税费改革等。二是政策导向, 如收购政策及价格、市场政策结构调整、储备政策、财政投人、政府抓粮食生产的力度等。三是科技进步,如良种的培育、播种技术的改进、机械化程度的提高等等, 特别是杂交水稻的发明, 是粮食生产的一次绿色革命, 大大地提高了粮食单位面积产量。第二层次是中观因素。主要有粮食播种面积、单位面积产量、受灾面积等等, 这些因素是影响粮食产量的直接因素。第三层次是微观因素, 主要有有效灌溉面积、化肥施用量、农业机械化程度、财政三项投入等。为了分析粮食产量的影响因素及其影响程度,将用1978一2007年的统计数据进行分析。其中:Y 是粮食产量(万吨),X1是农业化肥试用量(万吨),X2是粮食播种面积(千公顷),X3是成灾面积(千公顷),X4是农业劳动力(万人),X5是农业机械总动力(万千瓦)。

如何统计分析非正态分布的数据

如何统计分析非正态分布的数据 小飞看了9月23日医咖会微信推送的“降糖药物利拉鲁肽,还能治疗心衰吗?”的研究(FIGHT 研究)后[1],不明白研究方法II中的Wilcoxon秩和检验到底是什么,于是来找小咖讨论。 小飞:Wilcoxon秩和检验到底是个什么鬼? 小咖:这是一种非参数检验方法。 小飞:非参数检验又是个什么鬼啊? 小咖:平时我们常用的t检验、卡方检验、方差分析等方法都要求样本服从特定的分布(比如t检验要求样本服从正态分布),这些方法被称为参数检验方法。但有些数据并不符合参数检验的要求,最常见的情况是数据不符合正态分布,这时可以使用非参数检验的方法。 非参数检验有很多种,Wilcoxon秩和检验就是其中一种。 小飞:不明觉厉...你还是来个栗子呗。

小咖:好吧。某医生为了评价A药对绝经后妇女的骨质疏松症是否有效,将30名绝经后妇女随机分为两组,干预组研究对象15例,给予A药+乳酸钙治疗;对照组15例,仅给予乳酸钙治疗。24周之后观察两组L2-4骨密度的改善率。数据如下图: 两组骨密度改善率(%) 干预组对照组 ID 改善率ID 改善率 1 -0.20 1 -0.83 2 0.21 2 0.26 3 1.86 3 0.48 4 1.97 4 1.03 5 2.31 5 1.06 6 2.80 6 1.19 7 3.30 7 1.27 8 3.60 8 1.71 9 4.31 9 1.75 10 4.40 10 2.33 11 5.29 11 2.66 12 5.87 12 2.80 13 6.06 13 3.22 14 6.08 14 3.34 15 7.00 15 3.34 小飞:嗯,我明白了。对于这种两组平行设计、结局是不符合正态分布的连续变量,就应当使用Wilcoxon秩和检验对吧? 小咖:很聪明,给你满分。接下来给你演示一下用SPSS 22.0怎么操作。 (1)数据录入SPSS

正态分布、指数分布、对数正态分布和威布尔分布函数及其在工程分析中的应用.

正态分布、指数分布、对数正态分布和威布尔分布函数及其在工程分析中的应用 071330225 张洋洋

目录 正态分布函数 (3) 正态分布应用领域 (4) 正态分布案例分析 (5) 指数分布函数 (5) 指数分布的应用领域 (6) 指数分布案例分析 (7) 对数正态分布函数 (7) 对数正态分布的应用领域 (9) 对数正态分布案例分析 (9) 威布尔分布函数 (10) 威布尔分布的应用领域 (16) 威布尔分布案例分析 (16) 附录 (18) 参考文献 (21)

正态分布函数【1】 0.20 0.15 0.10 0.05 105510 正态分布概率密度函数f(t) 蓝线:μ=-1 σ=2 红线:μ=1 σ=2 棕线:μ=-1 σ=3 绿线:μ=1 σ=3 均数μ决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越扁平。 1.0 0.8 0.6 0.4 0.2 105510 正态分布函数F(t) 蓝线:μ=-1 σ=2 红线:μ=1 σ=2 棕线:μ=-1 σ=3 均数μ改变,图像会进行平移,标准差σ改变,图形陡峭度发生变化。σ越小,图像越陡。

1.0 0.8 0.6 0.4 0.2 105510 正态分布可靠度函数R(t) 蓝线:μ=-1 σ=2 红线:μ=1 σ=2 棕线:μ=-1 σ=3 均数μ改变,图像会进行平移,标准差σ改变,图形陡峭度发生变化。σ越小,图像越陡。 2.5 2.0 1.5 1.0 0.5 105510 正态分布失效率函数λ(t) 蓝线:μ=-1 σ=2 红线:μ=1 σ=2 棕线:μ=-1 σ=3 均数μ改变,图像会进行平移,标准差σ改变,图形陡峭度发生变化。σ越小,图像越陡。正态分布应用领域【1】 正态分布是一种最常见的连续型随机变量的分布,它在概率论和数理统计中无论在理论研究还是实际应用上都占有头等重要的地位,这是因为它在误差理论、无线电噪声理论、自动控制、产品检验、质量控制、质量管理等领域都有广泛应用.数理统计中许多重要问题的解决都是以正态分布为基础的.某些医学现象,如同质群体的身高、红细胞数、血红蛋白量、胆固醇等,以及实验中的随机误差,呈现为正态或近似正态分布;有些资料虽为偏态分布,但经数据变换后可成为正态或近似正态分布,故可按正态分布规律处理。

参数估计和假设检验习题解答

参数估计和假设检验习题 1.设某产品的指标服从正态分布,它的标准差σ已知为150,今抽了一个容量为26的样本,计算得平均值为1637。问在5%的显著水平下,能否认为这批产品的指标的期望值μ为1600? 解: 01:1600, :1600,H H μμ=≠标准差σ已知,拒绝域为2 Z z α>,取0.05,α=26,n = 0.0250.9752 1.96z z z α===, 由检验统计量 1.25 1.96Z = ==<,接受0:1600H μ=, 即,以95%的把握认为这批产品的指标的期望值μ为1600. 2.某纺织厂在正常的运转条件下,平均每台布机每小时经纱断头数为O.973根,各台布机断头数的标准差为O.162根,该厂进行工艺改进,减少经纱上浆率,在200台布机上进行试验,结果平均每台每小时经纱断头数为O.994根,标准差为0.16根。问,新工艺上浆率能否推广(α=0.05)? 解: 012112:, :,H H μμμμ≥< 3.某电器零件的平均电阻一直保持在2.64Ω,改变加工工艺后,测得100个零件的平均电阻为2.62Ω,如改变工艺前后电阻的标准差保持在O.06Ω,问新工艺对此零件的电阻有无显著影响(α=0.05)? 解: 01: 2.64, : 2.64,H H μμ=≠已知标准差σ=0.16,拒绝域为2 Z z α>,取0.0252 0.05, 1.96z z αα===, 100,n = 由检验统计量 3.33 1.96Z = ==>,接受1: 2.64H μ≠, 即, 以95%的把握认为新工艺对此零件的电阻有显著影响. 4.有一批产品,取50个样品,其中含有4个次品。在这样情况下,判断假设H 0:p ≤0.05是否成立(α=0.05)? 解: 01:0.05, :0.05,H p H p ≤>采用非正态大样本统计检验法,拒绝域为Z z α>,0.950.05, 1.65z α==, 50,n = 由检验统计量0.9733Z = ==<1.65,接受H 0:p ≤0.05. 即, 以95%的把握认为p ≤0.05是成立的. 5.某产品的次品率为O.17,现对此产品进行新工艺试验,从中抽取4O0件检验,发现有次品56件,能否认为此项新工艺提高了产品的质量(α=0.05)? 解: 01:0.17, :0.17,H p H p ≥<采用非正态大样本统计检验法,拒绝域为Z z α<-,400,n = 0.950.05, 1.65z α=-=-,由检验统计量 400 1.5973i x np Z -= = =-∑>-1.65, 接受0:0.17H p ≥, 即, 以95%的把握认为此项新工艺没有显著地提高产品的质量. 6.从某种试验物中取出24个样品,测量其发热量,计算得x =11958,样本标准差s =323,问以5%的显著水平是否可认为发热量的期望值是12100(假定发热量是服从正态分布的)?

非参数分析

非参数统计分析――Nonparametric Tests菜单详解 平时我们使用的统计推断方法大多为参数统计方法,它们都是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。比如单样本u检验就是假定该样本所在总体服从正态分布,然后推断总体的均数是否和已知的总体均数相同。本节要讨论的统计方法着眼点不是总体参数,而是总体分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在的分布位置/形状是否相同。由于这一类方法不涉及总体参数,因而称为非参数统计方法。 SPSS的的Nonparametric Tests菜单中一共提供了8种非参数分析方法,它们可以被分为两大类: 1、分布类型检验方法:亦称拟合优度检验方法。即检验样本所在总体是否服从已知的理论分布。具体包括: Chi-square test:用卡方检验来检验二项/多项分类变量的几个取值所占百分比是否和我们期望的比例有没有统计学差异。 Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一分为二。 Runs Test:用于检验样本序列随机性。观察某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定。一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。 One-Sample Kolmogorov-Smirnov Test:采用柯尔莫哥诺夫-斯米尔诺夫检验来分析变量是否符合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。 2、分布位置检验方法:用于检验样本所在总体的分布位置/形状是否相同。具体包括: Two-Independent-Samples Tests:即成组设计的两独立样本的秩和检验。 Tests for Several Independent Samples:成组设计的多个独立样本的秩和检验,此处不提供两两比较方法。 Two-Related-Samples Tests:配对设计的两样本秩和检验。 Tests for Several Related Samples:配伍设计的多样本秩和检验,此处同样不提供两两比较。 一、分布位置检验方法

对数正态分布(log-normal distribution)

对数正态分布 对数正态分布 机率密度函数 μ=0 累积分布函数 μ=0 参数 值域 概率密度函数

累积分布函数 期望值 中位数eμ 众数 方差 偏态 峰态 熵值 动差生成函数(参见原始动差文本) 特征函数is asymptotically divergent but sufficient for numerical purposes 在概率论与统计学中,对数正态分布是对数为正态分布的任意随机变量的概率分布。如果X 是正态分布的随机变量,则exp(X) 为对数分布;同样,如果Y是对数正态分布,则 ln(Y) 为正态分布。如果一个变量可以看作是许多很小独立因子的乘积,则这个变量可以看作是对数正态分布。一个典型的例子是股票投资的长期收益率,它可以看作是每天收益率的乘积。对于x > 0,对数正态分布的概率分布函数为 其中μ与σ分别是变量对数的平均值与标准差。它的期望值是 方差为 给定期望值与标准差,也可以用这个关系求μ与σ

目录 [隐藏] ? 1 与几何平均值和几何标准差的关系 ? 2 矩 ? 3 局部期望 ? 4 参数的最大似然估计 ? 5 相关分布 ? 6 进一步的阅读资料 ?7 参考文献 ?8 参见 [编辑]与几何平均值和几何标准差的关系 对数正态分布、几何平均数与几何标准差是相互关联的。在这种情况下,几何平均值等于exp(μ),几何平均差等于 exp(σ)。 如果采样数据来自于对数正态分布,则几何平均值与几何标准差可以用于估计置信区间,就像用算术平均数与标准差估计正态分布的置信区间一样。 其中几何平均数μgeo = exp(μ),几何标准差σgeo = exp(σ) [编辑]矩 原始矩为:

关于正态分布

正态分布图的解释 来源 normal distribution 正态分布 一种概率分布。正态分布是具有两个参数μ和σ^2的连续型随机变量的分布,第一 参数μ是服从正态分布的随机变量的均值,第二个参数σ^2是此随机变量的方差, 所以正态分布记作N(μ,σ^2 )。服从正态分布的随机变量的概率规律为取与Μ邻近的值 的概率大,而取离Μ越远的值的概率越小;Σ越小,分布越集中在Μ附近,Σ越大,分布越 分散。正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。它的形状是中间高两边低,图像是一条位于 x轴上方的钟形曲线。当μ=0,σ^2 =1时,称为标准正态分布,记为N(0,1)。μ 维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分 布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变 换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。V 结合分析理解:用户ARPU变动值,方差越小,则证明图形越靠近中心,也就是可 以看出这样的用户ARPU变动不十分大,属于较为稳定的用户类型。 正态分布的特征 正态分布的特征:服从正态分布的变量的频数分布由μ、σ完全决定。 1.集中性:正态曲线的高峰位于正中央,即均数所在的位置。 2.对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。 均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。 正态分布有两个参数,即均数μ和标准差σ,可记作N(μ,σ):均数μ 决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。σ越 小,曲线越陡峭;σ越大,曲线越扁平。 3.u变换:为了便于描述和应用,常将正态变量作数据转换。μ是正态分布的 位置参数,描述正态分布的集中趋势位置。正态分布以X=μ为对称轴,左右 完全对称。正态分布的均数、中位数、众数相同,均等于μ。Σ描述正态分布 资料数据分布的离散程度,Σ越大,数据分布越分散,Σ越小,数据分布越集中。 也称为是正态分布的形状参数,Σ越大,曲线越扁平,反之,Σ越小,曲线越瘦 4.在正态曲线下方和x轴上方范围内区域面积为1。

正态分布

一、正态分布 1.1概率密度函数 正态分布的特征 (1)正态曲线在横轴上方均数处最高; (2)正态分布以均数为中心,左右对称; (3)正态分布有两个参数,即均数μ和标准差S。μ是位置参数,当s固定不变时,μ越大,曲线沿横轴向右移动;反之,μ越小,则曲线沿横轴向左移动。S是形状参数,当μ固定不变时,S越大,曲线越平阔;S越小,曲线越尖峭;

(4)正态曲线下面积的分布有一定规律: ①正态分布时区间(μ-1s,μ+1s)的面积占总面积的68.27%;②正态分布时区间(μ-1.96s,μ+1.96s)的面积占总面积的95%;③正态分布时区间(μ-2.58s,μ+2.58s)的面积占总面积的99%。 1.2、分布函数 图-2 正态分布是连续性变数的理论分布,计算其概率的原理和方法不同于二项分布。它不能计算变量取某一定值,即某一点时的概率,而只能计算变量落在某一区间内的概率(即

概率密度)。 对于任何正态分布随机变量x 落入任意区间(a ,b )的概率可以表示为:P(a

1.4、正态分布失效率函数 (x) =f(x)/R(x) 图 4 1.5、应用、问题、案例 考察某个工程的质量,由于偶然误码差的存在,其实际质量评分是不相同的,如将所有的数值按一定的组距进行大小分组整理,每组的分值个数叫做频率。以频率为纵坐标,数值为横坐标,可求出各组坐标,用线段把这些点连接起来,就可得到“中间高,两边低,左右近似对称”的折线。这折线叫实验分布曲线。由于它近似于理论分布曲线,可根据理论分布曲线的数学表达式,对工程质量的情况进行研究和讨论。 这就是说,废品率-=1--合格率。当质量评分分布曲线符合正态分布时,在士3s的范围内,实际上几乎包含了整个工程质量评分数。

对数正态分布

ITU-R P.1057-2 建议书1 ITU-R P.1057-2建议书 与无线电波传播建模相关的概率分布 (1994-2001-2007年) 范围 无线电传播建模要求大量使用统计方法。本建议书提供了关于最重要的概率分布的综合信息,以便 为无线电通信研究组建议书中所使用的传播预测统计方法提供一种通用的背景。 国际电联无线电通信全会, 考虑到 a) 无线电波的传播主要涉及随机媒介,因此有必要通过统计方法分析传播现象; b) 在大多数情况下,有可能通过已知的统计分布,对各种传播参数的时间与空间变化作出满意地描述; c) 因此至关重要的是了解统计传播研究中应用最为普遍的概率分布基本属性, 建议 1 附件1中提供的与传播建模相关的统计信息须用于无线电通信业务的规划和系统性能参数的 预测。 2 应使用附件2中提供的分步程序,通过对数正态余补累积分布模拟余补累积分布。 附件1 与无线电波传播建模相关的概率分布 1 引言经验表明,仅有接收信号平均值方面的资料不足以描述无线电通信系统的性能。时间、空间和 频率的变化亦应考虑在内。 有用信号和干扰的动态表现,在分析系统可靠性和选择调制类型等系统参数时,发挥着决定性作用。最为关键的是要了解信号波动的范围与速率,以便能够规定调制类型、发射功率、干扰保护 比、分集措施、编码方法等参数。

2 ITU-R P.1057-2 建议书 描述通信系统的性能,一般通过观察信号波动的时间序列并将信号波动视为随机过程即可。但为预测无线电系统的性能而为信号波动建模,则还要了解无线电波与大气(中性大气层和电离层)之间的互动机制。 大气组成和物理状态的时空变化非常快。因此,波互动建模,需大量使用统计方法来定义各类物理参数,描述大气及定义信号表现的电参数,以及建立参数间关系的互动流程。 下文提供了最重要的、有关概述分布的一些总体信息。这些信息为无线电通信研究组建议书使用的各种传播预测统计方法,提供了共同的背景。 2 概率分布 随机流程一般使用概率密度函数或余补累积分布函数描述。概率密度函数,在此用p(x)表示变 F(x)表量x,在无穷区间x与x - dx间,x的概率为p(x) dx。余补累积分布函数,用示,它给出了变 量值小于x时的概率,即两函数间的关系如下: p(x) - F(x) 1 dx 或 x F(x)「p(t) dt c 式中c是t可取的最小值。 下述分布是最重要的: -正态或高斯分布, -对数正态分布, -瑞利分布, -对数正态和瑞利分布的组合, -Nakagami-Rice分布(Nakagami n分布), -伽玛分布和指数分布, -Nakagami m 分布, -皮尔森2分布。

对数正态分布

機率密度函數 μ=0 累積分布函數 μ=0

概率密度函数 累積分布函數 is asymptotically divergent but sufficient for numerical purposes

因子的乘积,则这个变量可以看作是对数正态分布。一个典型的例子是股票投资的长期收益率,它可以看作是每天收益率的乘积。对于,对数正态分布的概率分布函数为 其中与分别是变量对数的平均值与標準差。它的期望值是 给定期望值与标准差,也可以用这个关系求与 目录 [隐藏] ? 1 与几何平均值和几何标准差的关系 ? 2 矩 ? 3 局部期望 ? 4 参数的最大似然估计 ? 5 相关分布 ? 6 进一步的阅读资料 ?7 参考文献 ?8 参见

对数正态分布、几何平均数与几何标准差是相互关联的。在这种情况下,几何平均值等于,几何平均差等于。 如果采样数据来自于对数正态分布,则几何平均值与几何标准差可以用于估计置 其中几何平均数,几何标准差 或者更为一般的矩

[编辑]局部期望 随机变量在阈值上的局部期望定义为 其中是概率密度。对于对数正态概率密度,这个定义可以表示为 其中是标准正态部分的累积分布函数。对数正态分布的局部期望在保险业及经济领域都有应用。 其中用表示对数正态分布的概率密度函数,用—表示正态分布。 因此,用与正态分布同样的指数,我们可以得到对数最大似然函数: 由于第一项相对于μ与σ来说是常数,两个对数最大似然函数与在 同样的μ与σ处有最大值。因此,根据正态分布最大似然参数估计器的公式以及上面的方程,我们可以推导出对数正态分布参数的最大似然估计

第1章 多元正态分布的参数估计

第一章 多元正态分布的参数估计 一、填空题 1.设X 、Y 为两个随机向量,对一切的u 、v ,有 ,则称X 与Y 相互独立。 2.多元分析处理的数据一般都属于 数据。 3.多元正态向量),,(1'=p x x X 的协方差阵∑是 ,则X 的各分量是相互独立的随机变量。 4.一个p 元函数()p x x x f ,,,21 能作为p R 中某个随机向量的密度函数的主要条件是 和 。 5.若p 个随机变量1X ,2X , ,p X 的联合分布等于 ,则称1X ,2X , ,p X 是相互独立的。 6.多元正态分布的任何边缘分布为 。 7.若()∑,~μp N X ,A 为p s ?阶常数阵,d 为s 维常数向量,则~d AX + 。 8.多元正态向量X 的任何一个分量子集的分布称为X 的 。 9.多元样本中,不同样品的观测值之间一定是 。 10.多元正态总体均值向量和协差阵的极大似然估计量分别是 。 11.多元正态总体均值向量μ和协差阵∑的估计量X 、S n 1 1-具有 、 和 。 12.设X 和S 分别是多元正态总体()∑,μp N 的样本均值向量和离差阵,则 ~X ,X 和S 。 13.若()()∑,~μαp N X ,n ,,2,1 =α且相互独立,则样本离差阵 ()()()()∑='--=n X X X X S 1~ααα 。 14.若()∑,~i p i n W S ,k i ,,1 =,且相互独立,则~21k S S S S +++= 。 二、判断题 1.多元分布函数()x F 是单调不减函数,而且是右连续的。( )

2.设X 是p 维随机向量,则X 服从多元正态分布的充要条件是:它的任何组合()p R X ∈'αα都是一元正态分布。 ( ) 3.μ 是一个P 维的均值向量,当A 、B 为常数矩阵时,具有如下性质: (1)E (AX )=AE (X ) (2)E (AXB )=AE (X )B ( ) 4.若P 个随机变量X 1,…X P 的联合分布等于各自边缘分布的乘积,则称X 1,… X P 是相互独立的。( ) 5.一般情况下,对任何随机向量()'=p X X X ,,1 ,协差阵∑是对称阵,也 是正定阵。 ( ) 6.多元正态向量()'=p X X X ,,1 的任意线性变换仍然服从多元正态分布。( ) 7.多元正态分布的任何边缘分布为正态分布,反之一样。( ) 8.多元样本中,不同样品之间的观测值一定是相互独立的。( ) 9.多元正态总体参数均值μ的估计量X 具有无偏性、有效性和一致性。( ) 10.S n 1是∑的无偏估计。( ) 11.Wishart 分布是2χ分布在p 维正态情况下的推广。( ) 12.若()()∑,~μαp N X ,n ,,1 =α,且相互独立,则样本离差阵 ()()()()()∑-'--=∑=,1~1n W X X X X S n p ααα。 ( ) 13.若()∑,~n W X p ,C 为奇异矩阵,则()c c n W C CX p '∑',~。( ) 三、简答题 1.多元正态分布有哪些基本性质? 2.均值向量和协差阵的最大似然估计量有哪些优良性质? 3.维希特分布有哪些基本性质? 四、证明题 1.样本均值向量和离差阵也可以用样本资料X 直接表示如下: n X n X 11'=,X n I X S n n n ?? ? ??'-'=111 其中:()'=1,,1,11 n ,???? ??????=1001 I 试分别给以证明。 五、计算题

完整word版,参数估计和假设检验习题解答

n p (1 p) 参数估计和假设检验习题 1. 设某产品的指标服 从正态分布,它的标准差 σ已知为 150,今抽了一个容量为 26 的样本,计 算得平均值为 1637。问在 5%的显著水平下,能否认为这批产品的指标的期望值 μ为 1600? 解: H 0: 1600, H 1: 1600,标准差 σ已知,拒绝域为 Z z ,取 0.05, n 26, 即,以 95% 的把握认为这批产品的指标的期望值 μ为 1600. 2. 某纺织厂在正常的运转条件下, 平均每台布机每小时经纱断头数为 O.973 根,各台布机断头数 的标准差为 O.162 根,该厂进行工艺改进, 减少经纱上浆率, 在 200 台布机上进行试验, 结果平均每 台每小时经纱断头数为 O.994 根,标准差为 0.16 根。问 , 新工艺上浆率能否推广 ( α=0.05)? 解: H 0 : 1 2, H 1: 1 3. 某电器零件的平均电阻一直保持在 2.64 Ω,改变加工工艺后,测得 100 个零件的平均电阻为 2.62 Ω,如改变工艺前后电阻的标准差保持在 O.06Ω,问新工艺对此零件的电阻有无显著影响 ( α=0.05)? 解: H 0: 2.64, H 1: 2.64,已知标准差 σ=0.16, 拒绝域为 Z z ,取 0.05,z z 0.025 1.96, 22 x 2.62 2.64 n 100,由检验统计量 Z 3.33 1.96,接受 H 1: 2.64, / n 0.06/ 100 1 即, 以95% 的把握认为新工艺对此零件的电阻有显著影响 . 4. 有一批产品,取 50 个样品,其中含有 4 个次品。在这样情况下,判断假设 H 0:p ≤0.05 是否 成立( α=0.05)? 解: H 0: p 0.05, H 1: p 0.05,采用非正态大样本统计检验法 ,拒绝域为 Z z , 0.05, z 0.95 1.65, 即, 以 95% 的把握认为 p ≤0.05 是成立的 . 5. 某产品的次品率为 O.17,现对此产品进行新工艺试验,从中抽取 4O0件检验,发现有次品 56 件,能否认为此项新工艺提高了产品的质量 ( α=0.05)? 解: H 0: p 0.17, H 1: p 0.17,采用非正态大样本统计检验法 ,拒绝域为 Z z ,n 400, 0.05, z 0.95 1.65 ,由检验统计量 400 56 400 0.17 400 0.17 0.83 z z 0.025 z 0.975 1.96, 由检验统计量 2 /n 1637 1600 150/ 26 1.25 1.96 ,接受 H 0 : 1600, n 50, 由检验统计量 x/n p p (1 p) /n 4/50 0.05 0.05 0.95 / 50 0.9733 <1.65,接受 H 0:p ≤0.05. x i np i1 1.5973>-1.65, 接受 H 0: p 0.17,

对数正态分布

对数正态分布 部门: xxx 时间: xxx 整理范文,仅供参考,可下载自行编辑

機率密度函數 μ=0累積分布函數 μ=0

is asymptotically divergent but sufficient for numerical purposes 在概率论与统计学中,对数正态分布是对数为正态分布的任意随机变量的概率分布。如果 X 是正态分布的随机变量,则 exp(X> 为对数分布;同样,如果 Y 是对数正态分布,则 ln(Y> 为正态分布。如果一个变量可以看作是许多很小独立因子的乘积,则这个变量可以看作是对数正态分布。一个典型的例子是股票投资的长期收益率,它可以看作是每天收益率的乘积。对于,对数正态分布的概率分布函数为b5E2RGbCAP 其中与分别是变量对数的平均值与標準差。它的期望值是

方差为 给定期望值与标准差,也可以用这个关系求与 目录 [隐藏] ? 1 与几何平均值和几何标准差的关系 ? 2 矩 ? 3 局部期望 ? 4 参数的最大似然估计 ? 5 相关分布 ? 6 进一步的阅读资料 ?7 参考文献 ?8 参见 [编辑] 与几何平均值和几何标准差的关系 对数正态分布、几何平均数与几何标准差是相互关联的。在这种情况下,几何平均值等于,几何平均差等于。 如果采样数据来自于对数正态分布,则几何平均值与几何标准差可以用于估计置信区间,就像用算术平均数与标准差估计正态分布的置信区间一样。p1EanqFDPw

其中几何平均数,几何标准差[编辑] 矩 原始矩为: 或者更为一般的矩 [编辑] 局部期望 随机变量在阈值上的局部期望定义为

统计学教案习题03正态分布

第三章 正态分布 一、教学大纲要求 (一) 掌握内容 1.正态分布的概念和特征 (1)正态分布的概念和两个参数; (2)正态曲线下面积分布规律。 2.标准正态分布 标准正态分布的概念和标准化变换。 3.正态分布的应用 (1)估计频数分布; (2)制定参考值范围。 (二) 熟悉内容 标准正态分布表。 (三) 了解内容 1.利用正态分布进行质量控制 2.正态分布是许多统计方法的基础 二、教学内容精要 (一)正态分布 1.正态分布 若X 的密度函数(频率曲线)为正态函数(曲线) 2.正态分布的特征 服从正态分布的变量的频数分布由μ、σ完全决定。 (1)μ是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以x μ=为对称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于μ。 (2)σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。σ也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。 (二)标准正态分布 1.标准正态分布是一种特殊的正态分布,标准正态分布的0=μ,12 =σ ,通常用u (或Z )表示服从标准正 态分布的变量,记为u ~N (0,2 1)。 2.标准化变换:σ μ -=X u ,此变换有特性:若X 服从正态分布),(2 σμN ,则u 就服从标准正态分布,故该 变换被称为标准化变换。 3. 标准正态分布表 标准正态分布表中列出了标准正态曲线下从-∞到u 范围内的面积比例()u Φ。

(三)正态曲线下面积分布 1.实际工作中,正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。不同),(21X X 范围内正态曲线下的面积可用公式3-2计算。 )()(21 12) 22(2)(2 1 u u dx e D X X X Φ-Φ==--? σμπ σ (3-2) 1212X X u u μ μ σ σ --= = 其中, , 。 2.几个重要的面积比例 X 轴与正态曲线之间的面积恒等于1。正态曲线下,横轴区间σμ±内的面积为68.27%,横轴区间σμ64.1±内的面积为90.00%,横轴区间σμ96.1±内的面积为95.00%,横轴区间σμ58.2±内的面积为99.00%。 (四)正态分布的应用 某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。 1. 估计频数分布 一个服从正态分布的变量只要知道其均数与标准差就可根据公式(3-2)估计任意取值12(,)X X 范围内频数比例。 2. 制定参考值范围 (1)正态分布法 适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。 (2)百分位数法 常用于偏态分布的指标。表3-1中两种方法的单双侧界值都应熟练掌握。 概率 (%) 双侧 单 侧 双侧 单侧 下 限 上 限 下 限 上 限 90 95 5 ~P P 10 P 90 P 95 S X 96.1± S X 64.1- S X 64.1+ 5.975.2~P P 5P 95P 99 S X 58.2± S X 33.2- S X 33.2+ ~P P P P 3. 质量控制:为了控制实验中的测量(或实验)误差,常以S X 2±作为上、下警戒值,以S X 3±作为上、下控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布。 4. 正态分布是许多统计方法的理论基础。t 检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。 三、典型试题分析 1.正态曲线下、横轴上,从均数到∞+的面积为( )。 A .95% B .50% C .97.5% D .不能确定(与标准差的大小有关) 答案:B [评析] 本题考点:正态分布的对称性 因为无论μ,σ取什么值,正态曲线与横轴间的面积总等于1,又正态曲线以μ=X 为对称轴呈对称分布,所以μ左右两侧面积相等,各为50%。 2.若X 服从以μ,σ为均数和标准差的正态分布,则X 的第95百分位数等于( )。 A .σμ64.1- B .σμ64.1+ C .σμ96.1+ D .σμ58.2+ 答案:B [评析] 本题考点:正态分布的对称性和面积分布规律

相关文档
相关文档 最新文档