文档库 最新最全的文档下载
当前位置:文档库 › 正态分布和线性回归讲义(精品)

正态分布和线性回归讲义(精品)

正态分布和线性回归讲义(精品)
正态分布和线性回归讲义(精品)

一、【检查作业并讲评】 二、【课前热身】了解学生对本次内容的掌握情况,便于查漏补缺。 三、【内容讲解】

1.正态分布密度函数:

22

()21

()2x f x e μσπσ

--

=

,(σ>0,-∞<x <∞)

其中π是圆周率;e 是自然对数的底;x 是随机变量的取值;μ为正态分布的均值;σ是正态分布的标准差.正态分布一般记为),(2σμN

2.正态分布),(2σμN )是由均值μ和标准差σ唯一决定的分布

3.正态曲线的性质:正态分布由参数μ、σ唯一确定,如果随机变量ξ~N(μ,σ2

),根据定义有:μ=E ξ,σ=D ξ。

正态曲线具有以下性质:

(1)曲线在x 轴的上方,与x 轴不相交。 (2)曲线关于直线x =μ对称。 (3)曲线在x =μ时位于最高点。

(4)当x <μ时,曲线上升;当x >μ时,曲线下降。并且当曲线向左、右两边无限延伸时,以x 轴为渐近线,向它无限靠近。

(5)当μ一定时,曲线的形状由σ确定。σ越大,曲线越“矮胖”,表示总体越分散;σ越小,曲线越“瘦高”,表示总体的分布越集中。

五条性质中前三条较易掌握,后两条较难理解,因此应运用数形结合的原则,采用对比教学

4.标准正态曲线:当μ=0、σ=l 时,正态总体称为标准正态总体,其相应的函数表示式是2

2

21)(x e

x f -

=

π

(-∞<x <+∞)

其相应的曲线称为标准正态曲线

标准正态总体N (0,1)在正态总体的研究中占有重要的地位 任何正态分布的概率问题均可转化成标准正态分布的概率问题

5.标准正态总体的概率问题:

x

标准正态分布曲线f x () =

12?π

()

?e -x 22

()

x

y

对于标准正态总体N (0,1),)(0x Φ是总体取值小于0x 的概率, 即 )()(00x x P x <=Φ,

其中00>x ,图中阴影部分的面积表示为概率0()P x x < 只要有标准正态分布表即可查表解决.从图中不难发

现:当00

6.标准正态分布表

标准正态总体)1,0(N 在正态总体的研究中有非常重要的地位,为此专门制作了“标准正态分布表”.在这个表中,对应于0x 的值)(0x Φ是指总体取值小于0x 的概率,即 )()(00x x P x <=Φ,)0(0≥x . 若00

利用标准正态分布表,可以求出标准正态总体在任意区间),(21x x 内取值的概率,即直线1x x =,

2x x =与正态曲线、x 轴所围成的曲边梯形的面积1221()()()P x x x x x <<=Φ-Φ.

7.非标准正态总体在某区间内取值的概率:可以通过)(

)(σ

μ

-Φ=x x F 转化成标准正态总体,然后查标准

正态分布表即可 在这里重点掌握如何转化 首先要掌握正态总体的均值和标准差,然后进行相应的转化

8.小概率事件的含义:发生概率一般不超过5%的事件,即事件在一次试验中几乎不可能发生

假设检验方法的基本思想:首先,假设总体应是或近似为正态总体,然后,依照小概率事件几乎不可能在一次试验中发生的原理对试验结果进行分析 假设检验方法的操作程序,即“三步曲”

一是提出统计假设,教科书中的统计假设总体是正态总体;

二是确定一次试验中的a 值是否落入(μ-3σ,μ+3σ); 三是作出判断

9.相关关系:当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系 相关关系与函数关系的异同点如下: 相同点:均是指两个变量的关系

不同点:函数关系是一种确定的关系;而相关关系是一种非确定关系;函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量的关系.

10.回归分析一元线性回归分析: 对具有相关关系的两个变量进行统计分析的方法叫做回归分析 通俗地讲,回归分析是寻找相关关系中非确定性关系的某种确定性 对于线性回归分析,我们要注意以下几个方面:

(1)回归分析是对具有相关关系的两个变量进行统计分析的方法。两个变量具有相关关系是回归分析的前提。

(2)散点图是定义在具有相关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析。

(3)求回归直线方程,首先应注意到,只有在散点图大至呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义。

11.散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图.散点图形象地反映了各对数据的密切程度 粗略地看,散点分布具有一定的规律

12. 回归直线

设所求的直线方程为,^

a bx y +=,其中a 、

b 是待定系数.

11

22211()()()n n

i i i i i i n n i i

i i x x y y x y nxy b x x x nx a y bx

====?

---?

?==?--??

=-?∑∑∑∑, ∑==n

i i x n x 11,∑==n i i y n y 11 相应的直线叫做回归直线,对两个变量所进行的上述统计分析叫做回归分析

13.相关系数:相关系数是因果统计学家皮尔逊提出的,对于变量y 与x 的一组观测值,把

∑∑∑===----=

n

i n

i i

i

n

i i i

y y

x x

y y x x

r 1

1

2

2

1

)()

()

)((=

∑∑∑===---n i n i i i n

i i

i y n y x n x y

x n y

x 1

1

22221

)

)((

叫做变量y 与x 之间的样本相关系数,简称相关系数,用它来衡量两个变量之间的线性相关程度. 14.相关系数的性质: r ≤1,且r 越接近1,相关程度越大;且r 越接近0,相关程度越小.

15.显著性水平:显著性水平是统计假设检验中的一个概念,它是公认的小概率事件的概率值 它必须在每一次统计检验之前确定

16. 显著性检验:(相关系数检验的步骤)由显著性水平和自由度查表得出临界值,显著性水平一般取0.01和0.05,自由度为n-2,其中n是数据的个数 在“相关系数检验的临界值表”查出与显著性水平0.05或0.01及自由度n-2(n 为观测值组数)相应的相关数临界值r 0 05或r 0 01;例如n=7时,r0.05=0.754,r0.01

=0.874 求得的相关系数r和临界值r0.05比较,若r>r0.05,上面y与x是线性相关的,当r ≤r 0

05

或r 0 01,

认为线性关系不显著

讨论若干变量是否线性相关,必须先进行相关性检验,在确认线性相关后,再求回归直线;通过两个变量是否线性相关的估计,实际上就是把非确定性问题转化成确定性问题来研究;我们研究的对象是两个变量的线性相关关系,还可以研究多个变量的相关问题,这在今后的学习中会进一步学到 题型讲解

例1 已知连续型随机变量ζ的概率密度函数

??

?

??>≤≤+<=)2(0)20(1)0(0)(x x kx x x f ,且f(x) ≥0,求常数k 的值,并计算概率P(1.5≤ξ<2.5)。

分析:凡是计算连续型随机变量ξ的密度函数f(x)中的参数、概率P(a ≤ξ≤b)都需要通过求面积来转化而求得。若f(x) ≥0且在[a ,b]上为线性,那么P(a ≤ξ≤b)的值等于以b-a 为高,f(a)与f(b)为上、下底的直角梯形

的面积,即1

()[()()]()2

P a b f a f b b a ξ≤≤=+-。 解: ∵1()(0)(02)(2)P P P P εξξξ=-∞<<+∞=-∞<<+≤≤+<<+∞

0(02)0P ξ=+≤≤+1

[(0)(2)](20)(0)(2)222

f f f f k =+-=+=+

∴2

1

-=k ;

∴1

(1.5 2.5)(1.52)(2 2.5)(1.52)16

P P P P ξξξξ≤<=≤≤+<<=≤≤=。

例2 设),(~2

σμN X ,且总体密度曲线的函数表达式为:

41

2221)(+--

=

x x e

x f π

,x ∈R 。

(1)求μ,σ;

(2)求)2|1(|<

-x P 及)22121(+<<-x P 的值。

分析:根据表示正态曲线函数的结构特征,对照已知函数求出μ和σ。利用一般正态总体),(2σμN 与标准正态总体N (0,1)概率间的关系,将一般正态总体划归为标准正态总体来解决。 解:(1)由于2

22)2(2)1(4

1

22

2121)(--

+--

?=

=

x x x e

e

x f ππ

根据一般正态分布的函数表达形式,可知μ=1,2=σ,故X ~N (1,2)

。 (2))2121()2|1(|+<<-=<

-x P x P

2121

(12)(1

2)

()(

)

22

(1)(1)2(1)120.84131

F F 1+-1--=+

--=Φ-Φ=Φ-Φ-=Φ-=?- 6826.0=。

又)21()221()22121(--+=+<<-F F x P

22121

()()(2)(1)

22

(2)(1)10.97720.84131φφ1+-1--=Φ-Φ=Φ-Φ-=+-=+- 8185.0=。

点评:在解决数学问题的过程中,将未知的,不熟悉的问题转化为已知的、熟悉的、已解决了的问题,是我们常用的手段与思考问题的出发点。通过本例我们还可以看出一般正态分布与标准正态分布间的内在关联。

例3 某中学有1000人参加并且高考数学成绩近似地服从正态分布(

)

2

10,100N ,求此校数学成绩在120分以上的考生人数。(ф(2)≈0.977)

解:用ξ表示此中学数学高考成绩,则)10,100(~2

N ξ

()()120100*********.02310P P ξξ-??∴>=-≤=-Φ≈ ???

∴120分以上的考生人数为1000×0.023=23

点评:通过公式)()(σ

μ

-Φ=x x F 转化成标准正态总体,然后查标准正态分布表即可 例4 将温度调节器放置在贮存着某种液体的容器内,调节器设定在d ℃,液体的温度ξ(单位:℃)是一个随机变量,且ξ~N (d ,0.52).

(1)若d =90°,求ξ<89的概率;

(2)若要保持液体的温度至少为80 ℃的概率不低于0.99,问d 至少是多少? (其中若η~N (0,1),则Φ(2)=P (η<2)=0.9772,Φ(-2.327)=P (η<-2.327)=0.01). 分析:(1)要求P (ξ<89)=F (89),

∵ξ~N (d ,0.5)不是标准正态分布,而给出的是Φ(2),Φ(-2.327),故需转化为标准正态分布的数值.

(2)转化为标准正态分布下的数值求概率p ,再利用p ≥0.99,解d .

解:(1)P (ξ<89)=F (89)=Φ(

5

.090

89-) =Φ(-2)=1-Φ(2)=1-0.9772=0.0228.

(2)由已知d 满足0.99≤P (ξ≥80),

即1-P (ξ<80)≥1-0.01,∴P (ξ<80)≤0.01.

∴Φ(5

.080d

-)≤0.01=Φ(-2.327). ∴

5

.080d

-≤-2.327. ∴d ≤81.1635.

故d 至少为81.1635.

点评:(1)若ξ~N (0,1),则η=

σ

μ

ξ-~N (0,1).(2)标准正态分布的密度函数f (x )是偶函数,x <0时,f (x )为增函数,x >0时,f (x )为减函数.

例5 在实际生活中,常用统计中假设检验的思想检验产品是否合格,方法是: (1)提出统计假设:某种指标服从正态分布N (μ,σ2); (2)确定一次试验中的取值a ;

(3)作出统计推断:若a ∈(μ-3σ,μ+3σ),则接受假设,若a ∈(μ-3σ,μ+3σ),则拒绝假设. 某砖瓦厂生产的砖的“抗断强度”ξ服从正态分布N (30,0.8),质检人员从该厂某一天生产的1000块砖中随机抽查一块,测得它的抗断强度为27.5 kg/cm 2,你认为该厂这天生产的这批砖是否合格?为什么?

解:由于在一次试验中ξ落在区间(μ-3σ,μ+3σ)内的概率为0.997,故ξ几乎必然落在上述区间内. 于是把μ=30,σ=0.8代入,

算出区间(μ-3σ,μ+3σ)=(27.6,32.4), 而27.5?(27.6,32.4) .∴据此认为这批砖不合格.

例 6 已知测量误差ξ~N (2,100)(cm ),必须进行多少次测量,才能使至少有一次测量误差的绝对值不超过8 cm 的频率大于0.9?

解:设η表示n 次测量中绝对误差不超过8 cm 的次数,则η~B (n ,p ).

其中P =P (|ξ|<8)=Φ(

1028-)-Φ(10

2

8--)=Φ(0.6)-1+Φ(1)=0.7258-1+0.8413=0.5671. 由题意,∵P (η≥1)>0.9,n 应满足P (η≥1)=1-P (η=0)=1-(1-p )n >0.9,

∴n >)5671.01lg()9.01lg(--=4329.0lg 1

-=2.75.

因此,至少要进行3次测量,才能使至少有一次误差的绝对值不超过8 cm 的概率大于0.9.

例7 已知某地每单位面积菜地年平均使用氮肥量xkg 与每单位面积蔬菜年平均产量yt 之间的关系有如下数据:

年份

1985 1986 1987 1988 1989 1990 1991 1992 x(kg) 70 74 80 78 85 92 90 95 y(t) 5.1 6.0 6.8 7.8 9.0 10.2 10.0 12.0

年份

1993 1994 1995 1996 1997 1998 1999 x(kg) 92 108 115 123 130 138 145 y(t) 11.5 11.0 11.8 12.2 12.5 12.8 13.0

(1)求x 与y 之间的相关系数,并检验是否线性相关;

(2)若线性相关,求蔬菜产量y 与使用氮肥量之间的回归直线方程,并估计每单位面积施肥150kg 时,每单位面积蔬菜的年平均产量。 分析:(1)使用样本相关系数计算公式来完成;(2)查表得出显著性水平0.05与自由度15-2相应的相关系数临界05.0r 比较,若05.0r r >则线性相关,否则不线性相关。 解:(1)列出下表,并用科学计算器进行有关计算:

i

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 i x 70 74 80 78 85 92 90 95 92 108 115 123 130 138 145

i y

5.1

6.0 6.8

7.8 9.0 10.2 10.0 12.0 11.5 11.0 11.8 12.2 12.5 12.8 13.0

i i y x

357 444 544 608.4 765 938.4 900 1140 1058 1188 1357 1500.6 1625 1766.4 1885

101151515==

x ,11.1015

7

.151==y ,

16112515

1

2=∑=i i

x

,55.1628151

2

=∑=i i y ,8.1607615

1

=∑=i i i y x 。

故蔬菜产量与放用氮肥量的相关系数 8643

.0)

11.101555.1628)(10115161125(11

.10101158.160762

2

≈?-?-??-=

r 。 由于n=15,故自由度15-2=13。

由相关系数检验的临界值表查出与显著水平0.05及自由度13相关系数临界值514.005.0=r ,则05.0r r >,

从而说明蔬菜产量与氮肥量之间存在着线性相关关系。

(2)设所求的回归直线方程为a bx y +=^

,则0937.0101

1516112511

.10101158.1607615152

2

15

1

215

1

≈?-??-=

--=

∑∑==x

x

y x y

x b i i

i i

i , 6463

.01010937.011.10≈?-=-=x b y a , ∴回归直线方程为)(701

.146463.00937.0^

t x y =+=。 点评:求解两个变量的相关系数及它们的回归直线方程的计算量较大,需要细心、谨慎地计算。如果会使用含统计的科学计算器,能简单得到

∑=n

i i

x

1

∑=n

i i

y

1

∑=n

i i

y

1

2

∑=n

i i

y

1

2,

∑=n

i i

i y

x 1

这些量,也就无需有制表这一

步,直接算出结果就行了。另外,利用计算机中有关应用程序也可以对这些数据进行处理。 例8 假设关于某设备的使用年限x 和所支出的维修费用y (万元),有如下的统计资料:

x 2 3 4 5 6 y 2.2 3.8 5.5 6.5 7.0

若由资料可知y 对x 呈线性相关关系。试求: (1)线性回归方程;

(2)估计使用年限为10年时,维修费用是多少?

分析:本题为了降低难度,告诉了y 与x 间呈线性相关关系,目的是训练公式的使用。 解:(1)列表如下:

i 1 2 3 4 5

i x

2 3 4 5 6 i y 2.2 3.8 5.5 6.5 7.0 i i y x 4.4 11.4 22.0 32.5 42.0 2i x

4

9

16

25

36

4=x , 5=y ,

905

1

2

=∑=i i

x

3.1125

1

=∑=i i

i y

x

于是23.14

5905

453.112552

2

51

25

1=?-??-=

--=

∑∑==x

x y

x y

x b i i i i

i , 08.0423.15=?-=-=bx y a 。

∴线性回归方程为:08.023.1^

+=+=x a bx y 。

(2)当x=10时,38.1208.01023.1^

=+?=y (万元) 即估计使用10年时维修费用是12.38万元。

点评:本题若没有告诉我们y 与x 间是呈线性相关的,应首先进行相关性检验。如果本身两个变量不具备线性相关关系,或者说它们之间相关关系不显著时,即使求出回归方程也是没有意义的,而且其估计与预测也是不可信的。 四、【巩固练习】

1.下面哪有个数不为总体特征数的是(D )

A.总体平均数

B.总体方差

C.总体标准差

D.总体样本 答案:D 2.设随机变量ξ服从二项分布B (6,2

1),则P (ξ=3)=(A ) A.

165 B.163 C.85 D.8

3 答案:A

3.设随机变量ξ~N (μ,σ),且P (ξ≤C )=P (ξ>C ),则C 等于

A.0

B.σ C .-μ D.μ 解析:由正态曲线的图象关于直线x =μ对称可得答案为D. 答案:D

4.如果随机变量ξ~N (μ,σ2),且E ξ=3,D ξ=1,则P (-1<ξ≤1)等于

A.2Φ(1)-1

B.Φ(4)-Φ(2)

C.Φ(2)-Φ(4)

D.Φ(-4)-Φ(-2)

解析:对正态分布,μ=E ξ=3,σ2=D ξ=1,故P (-1<ξ≤1)=Φ(1-3)-Φ(-1-3)=Φ(-2)-Φ(-4)=Φ(4)-Φ(2).

答案:B

5.某厂生产的零件外直径ξ~N (8.0,1.52)(mm ),今从该厂上、下午生产的零件中各随机取出一个,测得其外直径分别为7.9 mm 和7.5 mm ,则可认为

A.上、下午生产情况均为正常

B.上、下午生产情况均为异常

C.上午生产情况正常,下午生产情况异常

D.上午生产情况异常,下午生产情况正常

解析:根据3σ原则,在8+3×1.5=8.45(mm )与8-3×1.5=7.55(mm )之外时为异常. 答案:C

6.随机变量ξ服从正态分布N (0,1),如果P (ξ<1)=0.8413,求P (-1<ξ<0).

解:∵ξ~N (0,1),∴P (-1<ξ<0)=P (0<ξ<1)=Φ(1)-Φ(0)=0.8413-0.5=0.3413.

7.公共汽车门的高度是按照确保99%以上的成年男子头部不跟车门顶部碰撞设计的,如果某地成年男子的身高ξ~N (173,72)(cm ),问车门应设计多高?

解:设公共汽车门的设计高度为x cm ,由题意,需使P (ξ≥x )<1%.

∵ξ~N (173,72),∴P (ξ≤x )=Φ(7

173

-x )>0.99. 查表得

7

173

-x >2.33,∴x >189.31,即公共汽车门的高度应设计为190 cm ,可确保99%以上的成年男子头部不跟车门顶部碰撞.

8.一投资者在两个投资方案中选择一个,这两个投资方案的利润x (万元)分别服从正态分布N (8,32)和N (6,22),投资者要求利润超过5万元的概率尽量地大,那么他应选择哪一个方案?

解:对第一个方案,有x ~N (8,32),

于是P (x >5)=1-P (x ≤5)=1-F (5)=1-Φ(3

8

5-) =1-Φ(-1)=1-[1-Φ(1)]=Φ(1)=0.8413. 对第二个方案,有x ~N (6,22), 于是P (x >5)=1-P (x ≤5)=1-F (5)=1-Φ(

2

6

5-) =1-Φ(-0.5)=Φ(0.5)=0.6915. 相比之下,“利润超过5万元”的概率以第一个方案为好,可选第一个方案. 9.为考虑广告费用x 与销售额y 之间的关系,抽取了5家餐厅,得到如下数据:

广告费用(千元) 1.0 4.0 6.0 10.0 14.0 销售额(千元)

19.0

44.0

40.0

52.0

53.0

现要使销售额达到6万元,则需广告费用为_____(保留两位有效数字) 解析:先求出回归方程y

?=bx +a ,令y ?=6,得x =1.5万元. 答案:1.5万元

10.设随机变量ε服从N (0,1),求下列各式的值:

(1)P(ε≥2.55); (2)P(ε<-1.44); (3)P(|ε|<1.52)。

分析:一个随机变量若服从标准正态分布,可以借助于标准正态分布表,查出其值。但在标准正态分布表中只给出了00≥x ,即)()(00x x x P φ=<的情形,对于其它情形一般用公式:φ(-x)=1-φ(x);p(a

0749.09251.01=-=;

(3)1)52.1(2)52.1()52.1()52.152.1()52.1|(|-=--=<<-=-<φφφεεP P 8714.019357.02=-?=

说明:从本题可知,在标准正态分布表中只要给出了00≥x 的概率,就可以利用上述三个公式求出其它情形下的概率。

11.某厂生产的圆柱形零件的外径ε~N (4,0.25)。质检人员从该厂生产的1000件零件中随机抽查一件,测得它的外径为5.7cm 。试问该厂生产的这批零件是否合格? 分析:欲判定这批零件是否合格,由假设检验基本思想可知,关键是看随机抽查的一件产品的尺寸是在(μ-3σ,μ+3σ)内,还是在(μ-3σ,μ+3σ)之外。 解:由于圆柱形零件的外径ε~N (4,0.25),

由正态分布的特征可知,正态分布N (4,0.25)在区间(4-3×0.5,4+3×0.5)即(2.5,5.5)之外取值的概率只有0.003,

而)5.5,5.2(7.5?,

这说明在一次试验中,出现了几乎不可能发生的小概率事件, 根据统计中假设检验的基本思想,认为该厂这批产品是不合格的。

点评:判断某批产品是否合格,主要运用统计中假设检验的基本思想。 五、【课堂总结】 小结:

1.频率分布随着样本容量的增大更加接近总体分布,当样本容量无限增大且分组的组距无限缩小时,频率分布直方图就会演变成一条光滑曲线——反映总体分布的频率密度曲线,基于频率分布与相应的总体分布的关系,且通常我们并不知道一个总体的分布,因此,我们往往是从总体中抽取一个样本,用样本的频率分布去估计相应的总体分布.

2.统计中假设检验的基本思想是:根据小概率事件在一次试验中几乎不可能发生的原理和从总体中抽测的

正态分布资料

第三章正态分布 一、教学大纲要求 正态分布 正态分布 normal distribution 一种概率分布。正态分布是具有两个参数μ和σ2的连续型随机变量的分布,第一参数μ是遵从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2 )。遵从正态分布的随机变量的概率规律为取μ邻近的值的概率大,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。它的形状是中间高两边低,图像是一条位于x轴上方的钟形曲线。当μ=0,σ2 =1时,称为标准正态分布,记为N(0,1)。μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。 正态分布最早由 A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。 生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。 正态分布应用最广泛的连续概率分布,其特征是“钟”形曲线。 设一组数据x1,x2,x3,…xn,各数据与它们的平均数为X的差的平方分别是(x1-X)2、 (x2-X)2、那么我们用它们的平均数,即用: S2=1/n[(x1-X) 2+(x2-X) 2+(x3-X) 2+…] 来衡量这组数据的波动大小,并把它叫做这组数据的方差,一组数据方差越大,说明这组数据波动越大。为什么要这样定义方差?在表示各数据与其平均数的偏离程度时,为了防止正偏差与负偏差的相互抵消。

g3.1100 12.4 正态分布、线性回归(1)

12.4 正态分布、线性回归 一、 知识梳理 1.正态分布的重要性 正态分布是概率统计中最重要的一种分布,其重要性我们可以从以下两方面来理解:一方面,正态分布是自然界最常见的一种分布。一般说来,若影响某一数量指标的随机因素很多,而每个因素所起的作用都不太大,则这个指标服从正态分布。 2.正态曲线及其性质 正态分布函数:22 ()2()x f x μσ-- = ,x ∈(-∞,+∞) 3.标准正态曲线 标准正态曲线N (0,1)是一种特殊的正态分布曲线,00()1()x x Φ-=-Φ,以及标准正态总体在任一区间(a ,b)内取值概率)()(a b P Φ-Φ=。 4.一般正态分布与标准正态分布的转化 由于一般的正态总体),(2σμN 其图像不一定关于y 轴对称,对于任一正态总体),(2σμN ,其取值小于x 的概率)( )(σ μ -Φ=x x F 。只要会用它求正态总体 ),(2σμN 在某个特定区间的概率即可。 5.“小概率事件”和假设检验的基本思想 “小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。这种认识便是进行推断的出发点。关于这一点我们要有以下两个方面的认识:一是这里的“几乎不可能发生”是针对“一次试验”来说的,因为试验次数多了,该事件当然是很可能发生的;二是当我们运用“小概率事件几乎不可能发生的原理”进行推断时,我们也有5%的犯错误的可能。

课本是借助于服从正态分布的有关零件尺寸的例子来介绍假设检验的基本思想。进行假设检验一般分三步: 第一步,提出统计假设。课本例子里的统计假设是这个工人制造的零件尺寸服从正态分布),(2σμN ; 第二步,确定一次试验中的取值a 是否落入范围(μ-3σ,μ+3σ); 第三步,作出推断。如果a ∈(μ-3σ,μ+3σ),接受统计假设;如果 )3,3(σμσμ+-?a ,由于这是小概率事件,就拒绝统计假设。 6.相关关系 研究两个变量间的相关关系是学习本节的目的。对于相关关系我们可以从下三个方面加以认识:⑴相关关系与函数关系不同。函数关系中的两个变量间是一种确定性关系。相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系。 ⑵函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。 ⑶函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化。 7.回归分析 本节所研究的回归分析是回归分析中最简单,也是最基本的一种类型——一元线性回归分析。 对于线性回归分析,我们要注意以下几个方面: ⑴回归分析是对具有相关关系的两个变量进行统计分析的方法。两个变量具有相关关系是回归分析的前提。 ⑵散点图是定义在具有相关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析。

平均分布,正态分布,一阶滑动和,一阶线性回归 C语言编程

#include #include #include #include #include # define pi 3.1415926 # define sqr 0.707106781//在一阶线性回归出现了参数a double uni[2000]={0};//程序中出现大数组时,很可能导致堆栈溢出,为了避免double nor[2000]={0};//这个问题,把数组声明为全局变量, double ovlap[1000]; double linreg[1000]; double nor_num[10]; double nor_num_theory[10]={0.0}; double mean( double a[]) { int i; double ever=0.0; for(i=0;i<2000;i++) ever+=a[i]/2000.0; return ever; } double std(double a[],double mean) { int i; double stda=0.0; for(i=0;i<2000;i++) stda+=(a[i]-mean)*(a[i]-mean)/2000.0; return stda; } double integral(double a,double b) { double i,num=0.0; for(i=a;i

正态分布和线性回归

专题:正态分布和线性回归 一、 基础知识回顾 1 ( x )2 1. 正态分布:若总体密度曲线就是或近似地是函数 f ( x) e 2 2 的图象 2 , x, 其中:π是圆周率; e 是自然对数的底; x 是随机变量的取值 , 为正态分布的平均值; 是 正态分布的标准差.这个总体是无限容量的抽样总体,其分布叫做正态分布.正态分布由参 数 , 唯一确定,记作 ~ N ( , 2 ) ,E( )= ,D( )= 2 . 2. 函数 f(x) 图象被称为正态曲线 . (1) 从形态上看,正态分布是一条单峰、对称呈钟形的曲线,其对称轴为 x=μ,并在 x=μ时 .... .......... 取最大值 。(2) 从 x=μ点开始,曲线向正负两个方向递减延伸,不断逼近 x 轴,但永不与 x .... 轴相交,因此说曲线在正负两个方向都是以 x 轴为渐近线的 ,(3) 当μ的值一定时 , σ越大,曲线越“矮胖”,总体分布越分散;σ越小,曲线越“高”.总体分布越集中. 3. 把 ~ N (0,1) 即μ =0, σ=1 称为标准正态分布,这样的正态总体称为标准正态总体 , 其密度函 1 1 x 2 数为 f ( x) e 2 2 ,x ∈(- ∞,+∞) ,相应的曲线称为标准 正 态曲线. 4. 利用标准正态分布表可求得标准正态总体在某一区间内取 值 的概率 . (1) 对于标准正态总体 N (0,1) , ( x 0 ) 是总体取值小于 x 0 的概率,即: ( x 0 ) P(x x 0 ) , 其中 x 0 0 ,其值可以通过 “标准正态分布表” 查得,也就是图中阴影部分的面积,它表示 总体取值小于 x 0 的概率. (2) 标准正态曲线关于 y 轴对称。因为当 x 0 0 时, ( x 0 ) P(x x 0 ) ; 而当 x 0 0 时,根据正态曲线的性质可得: ( x 0 ) 1 ( x 0 ) ,并且可以求得在任一区间(x 1 , x 2 ) 内 取值的概率: P(x 1 x x 2 ) ( x 2 ) ( x 1 ) , 显然Φ(0)=0.5. 5. 对于任一正态总体 ~ N ( , 2 ) , 都可以通过 使之标准化 ~ N (0,1) , 那么 , P( x )=P( < x )= ( x ) ,求得其在某一区间内取值的概率 . 例如: ~ N(1,4), 那么 , 设 = 1 , 则 ~ N (0,1) , 有 P( <3)=P( <1)= (1)=0.8413. 2 6. Φ(1)=0.8413 、Φ (2)=0.9772 、Φ(3)=0.9987 二、例题

正态分布的介绍资料

0.1 正态分布,熟悉的陌生人 (2) 0.2 邂逅,正态曲线的首次发现 (4) 0.3 最小二乘法,数据分析的瑞士军刀 (7) 0.4 众里寻她千百度,误差分布曲线的确立 (10) 0.5 曲径通幽处,禅房花木深 (16) 0.5.1 高斯(1809)的推导 (17) 0.5.2 赫歇尔(1850)和麦克斯韦(1860) 的推导 (19) 0.5.3 兰登(1941)的推导 (20) 0.5.4 基于最大娟的推导 (22) 0.6 开疆拓土,正态分布的进一步发展 (24) 0.6.1 论剑中心极限定理 (24) 0.6.2 进军近代统计学 (28) 0.6.3 数理统计三剑客 (32) 0.7 正态魅影 (34) 0.8 大道至简,大美天成 (36) 0.9 推荐阅读 (39) 1

2 神说,要有正态分布,就有了正态分布。 神看正态分布是好的,就让 随机误差服从了正态分布。 创世纪—数理统计 0.1 正态分布,熟悉的陌生人 学过基础统计学的同学大都对正态分布非常熟悉。 这个钟形的分布曲 线不但形状优雅,它对应的密度函数写成数学表达式 f (x ) = 1 e ? √2πσ (x ?μ)2 2σ2 也非常具有数学的美感。 其标准化后的概率密度函数 1 x 2 f (x ) = √2π e 更加的简洁漂亮,两个最重要的数学常量π队e 都出现在这公式之中。 在我 个人的审美之中,它也属于top-N 的最美丽的数学公式之一,如果有人问 我数理统计领域哪个公式最能让人感觉到上帝的存在,那我一定投正态分 布的票。 因为这个分布戴着神秘的面纱,在自然界中无处不在,让你在纷 繁芜杂的数据背后看到隐隐的秩序。 Figure 1: 正态分布曲线 正态分布又通常被称为高斯 分布,在科学领域,冠名权那是一个很高 的荣誉。 2002年以前去过德国的兄弟们还会发现,德国1991年至2001年间 ? 2

logistic回归与线性回归的比较分析

1 logistic回归 logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。 1.1 logistic回归概述 logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b 作为因变量,即y =w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。如果L是logistic 函数,就是logistic回归,如果L是多项式函数就是多项式回归。 logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多类可以使用softmax方法进行处理。实际中最为常用的就是二分类的logistic回归。 Logistic回归模型的适用条件 1 因变量为二分类的分类变量或某事件的发生率,并且是数值型变量。但是需要注意,重复计数现象指标不适用于Logistic回归。 2 残差和因变量都要服从二项分布。二项分布对应的是分类变量,所以不是正态分布,进而不是用最小二乘法,而是最大似然法来解决方程估计和检验问题。 3 自变量和Logistic概率是线性关系 4 各观测对象间相互独立。 原理:如果直接将线性回归的模型扣到Logistic回归中,会造成方程二边取值区间不同和普遍的非直线关系。因为Logistic中因变量为二分类变量,某个概

正态分布表资料

正态分布的应用 1、用Z 的公式将原始分数转换成标准分数 条件是原始分数的分布是正态的。 例如:已知某班期末考试中语文的平均分为76,标准差为10,数学的平均分为83,标准差为15。某学生在这次期 末考试的语文成绩为79,数学成绩为87,问该生这两科成绩哪一个更好一些? 答:该考生的语文成绩更好一些。 2、确定录用分数线 在选拔兴或竞赛性的考试中,录取或授奖的人数(或比赛)往往是事先确定的。这就是用标准分数的作用发挥。假定为正态分布,可将录取或授奖的人数比率作为正态分布中分线右侧,即上端的面积,由此找出相应标准分数Z 值,然后根据Z 公式计算出原始分数X. 例如:在某年的高考中某省的平均分为420,标准差为100,分数呈正态分布,某考生得了456分。设当年的该省的 录取率为40%,问该生的成绩是否上线? 解:根据Z 分数的计算公式,得 当P=0.40时,0.5-0.40=0.10 然后查附表,找到对应的Z=0.25 因为0.36>0.25, 所以该考生上线了。 又如:某年某市参加数学竞赛的学生有850人,考试的平均分为68,标准差为9。而这次计划只给最优秀的5%颁 奖,问授奖分数线为多少?某个考生在这次考试中得了76分,问这位考生是否获奖? 解:根据0.05的P 值计算差表,得Z=1.65 因为82.85>76, 所以该考生不可能获奖。 例.某区拟对参加数学竞赛的2000人中的前500人予以奖励,考试的平均分数为75分,标准差为9 分,问授奖的分数线是多少?(授奖分数线为81.03分。) 例:某考试2500人参加,成绩服从正态分布,μ=80 σ2=25,求分数在88分以上的人数。 解: n =N·P =2500×0.0548=137(人) 例:某招生考试,选拔20%,考生成绩服从正态分布,μ=70 σ=10,录取标准应划在哪里? 解 Z =0.84 X =10×0.84+70=78.4 分数线为78.4 例:某地13岁女孩118人的身高(cm)资料,估计该地13岁正常女孩身高在135厘米以下及155 厘米以上者各占正常女孩总人数的百分比。 身高(X )~N (μ,σ2),但μ和σ未知,只知来自该总体的样本的身高均数x =144.29(cm)和标准差s =5.41(cm),由于样本含量n=118很大,所以可以用x 和s 估计μ和σ来计算u 值。 身高(X )小于135(cm)的概率为:()()11135u U P x X P <==< 00()0.20(0)0.3 p Z Z p Z Z >=?<<=

正态分布和线性回归

专题:正态分布和线性回归 一、 基础知识回顾 1.正态分布: 若总体密度曲线就是或近似地是函数()2 2 ()2(),,x f x x μσ--=∈-∞+∞的图象 其中:π是圆周率;e 是自然对数的底;x 是随机变量的取值,μ为正态分布的平均值;σ是正态分布的标准差.这个总体是无限容量的抽样总体,其分布叫做正态分布.正态分布由参数μ,σ唯一确定,记作ξ~2(,)N μσ,E(ξ)=μ,D(ξ)=2σ. 2.函数f(x)图象被称为正态曲线. (1)从形态上看,正态分布是一条单峰、对称呈钟形的曲线,其对称轴为....x=..μ.,并在...x=..μ.时. 取最大值.... 。(2)从x=μ点开始,曲线向正负两个方向递减延伸,不断逼近x 轴,但永不与x 轴相交,因此说曲线在正负两个方向都是以x 轴为渐近线的,(3)当μ的值一定时, σ越大,曲线越“矮胖”,总体分布越分散;σ越小,曲线越“高”.总体分布越集中. 3. 把ξ~(0,1)N 即μ=0,σ=1称为标准正态分布,这样的正态总体称为标准正态总体,其密度函 数为21 2 ()x f x -=,x ∈(-∞,+∞),相应的曲线称为标准正态曲线. 4.利用标准正态分布表可求得标准正态总体在某一区间内取值的概率. (1)对于标准正态总体(0,1)N ,)(0x Φ是总体取值小于0x 的概率,即:)()(00x x P x <=Φ, 其中00>x ,其值可以通过“标准正态分布表”查得,也就是图中阴影部分的面积,它表示总体取值小于0x 的概率. (2)标准正态曲线关于y 轴对称。因为当00>x 时,)()(00x x P x <=Φ; 而当00

一元线性回归模型与多元线性回归模型对比

参数估计量的性质 线性性、无偏性、有效性 线性性、无偏性、有效性 参数估计量的概率分布 ) , (~?), (~?22 2002211σββσββ∑∑∑i i i x n X N x N --- 样本容量问题 ---- 样本容量n 必须不少于模型中解释变量的个数(包括常数项), 即1+≥k n 才能得到参数估计值,8-≥k n 时t 分布才比较稳定,能够进行变量的显著性检验,一般认为30≥n 活着至少 ()13+≥k n 时才能满足模型估计要求。如果样本量过小,则只 依靠样本信息就是无法完成估计的,需要用其她方法去估计。 统计检验 一元线性回归模型 多元线性回归模型 拟合优度检验 总离差平方与的分解 TSS=ESS+RSS TSS ESS R = 2,[]1,02 ∈R 越接近于1,拟合优度越高。 总离差平方与的分解 TSS=ESS+RSS TSS RSS TSS ESS R -== 12,(即总平方与中回归平方与的比例) []1,02∈R 对于同一个模型,2R 越接近于1,拟合优度越高。 ) 1/() 1(12---- =n TSS k n RSS R (调整的思路就是残差平方与 RSS 与总平方与 TSS 各自除以它们的自由度) 为什么要对2 R 进行调整?解释变量个数越多,它们对 Y 所能解释的部分越 大(即回归平方与部分越大),残差平方与部分越小,2R 越高,由增加解释变量引起的 2R 的增大与拟合好坏无关,因此在多元回归模型之间比较拟合优度, 2R 就不就是一 个合适的指标,必须加以调整。 方程总体显著性检验 ------ 目的:对模型中被解释变量与解释变量之间的线性关系在总体上就是否成立做出判断。 原假设 备择假设: 统计量的构造: 判断步骤:①计算F 统计量的值 ②给定显著性水平,查F 分布的临界值表获得 )

计量经济学ch4 正态假定 经典线性回归模型

Ch4 正态性假定: 经典正态线性回归模型 对于模型 i i i u X Y ++=21ββ (4.1) 我们首先讨论扰动的分布。 i u 4.1. 的概率分布 i u 没有分布假设,不可能对参数估计量作出任何推断,也不可能对任何有关总体的假定作出检验 4.2. 的概率分布假定为正态分布 i u 经典正态线性回归假定具有正态分布,且 i u 均值: 0)(=i u E 方差: ,表示对每一个,方差相同 22)(σ=i u E i u 协方差 j i u u j i ≠=0),cov( 概率密度函数: 22 221 )(σ π σi u i e u f ?= 概率分布函数 ∫ ∞ ??=x i i du e u F i 22221 )(σ μπ σ

上述假定采取记为 2~(0,i u NID )σ (4.2) 简称为为独立同分布。其分布特征如图所示. i u 正态分布特征: 为什么假定为正态分布? 1. 中心极限定理 独立同分布随机变量X i , 其均值为μ, 方差为σ2, 则: )/,(/2 n N n X X n i σμ??→?=∞ →∑ )1,0() (/N X n n X z n ??→??= ?= ∞ →σ μσμ 正是中心极限定理,为的正态假设提供了理论支持。 i u 2. 正态变量所具有的性质: 线性变换仍为正态变量,分布函数仅有两个参数即均值和方差。

4.3.正态假定下OLS 估计量的性质 用OLS 方法所得到的估计量,在正态假定下具有性质: )2,1(?=i i β1. 无偏性; 2. 最小方差; 3. 一致性,即随着样本个数的无限增大,估计量将收敛于它们的真值。用公式表示 {} 01?lim >=

高三数学正态分布和线性回归(知识点和例题)

正态分布和线性回归 高考要求 1.了解正态分布的意义及主要性质 2.了解线性回归的方法和简单应用 知识点归纳 1.正态分布密度函数: 2 2 () 2 () x f x μ σ - - =,(σ>0,-∞<x<∞) 其中π是圆周率;e是自然对数的底;x是随机变量的取值;μ为正态分布的均值;σ是正态分布的标准差.正态分布一般记为) , (2 σ μ N 2.正态分布) , (2 σ μ N)是由均值μ和标准差σ唯一决定的分布 例1、下面给出三个正态总体的函数表示式,请找出其均值μ和标准差σ.(1)2 2 2 1 ) ( x e x f- = π ,(-∞<x<+∞) (2 ) 2 (1) 8 () x f x - - =,(-∞<x<+∞) 解:(1)0,1 (2)1,2 3.正态曲线的性质:正态分布由参数μ、σ唯一确定,如果随机变量ξ~N(μ,σ2),根据定义有:μ=Eξ,σ=Dξ。 正态曲线具有以下性质: (1)曲线在x轴的上方,与x轴不相交。 (2)曲线关于直线x =μ对称。 (3)曲线在x =μ时位于最高点。 (4)当x <μ时,曲线上升;当x >μ 时,曲线下降。并且当曲线向左、

右两边无限延伸时,以x 轴为渐近线,向它无限靠近。 (5)当μ一定时,曲线的形状由σ确定。σ越大,曲线越“矮胖”,表示总体越分散;σ越小,曲线越“瘦高”,表示总体的分布越集中。 五条性质中前三条较易掌握,后两条较难理解,因此应运用数形结合的原则,采用对比教学 4.标准正态曲线:当μ=0、σ=l 时,正态总体称为标准正态总体,其 相应的函数表示式是2 221)(x e x f - = π ,(-∞<x <+∞) 其相应的曲线称为标准正态曲线 标准正态总体N (0,1)在正态总体的研究中占有重要的地位 任何正态分布的概率问题均可转化成标准正态分布的概率问题 5.标准正态总体的概率问题: 对于标准正态总体N (0,1),)(0x Φ是总体取值小于0x 的概率, 即 )()(00x x P x <=Φ, 其中00>x ,图中阴影部分的面积表示为概率0()P x x < 只要有标准正态 分布表即可查表解决.从图中不难发现:当00

正态分布分析

正态分布 以平均值为中心呈对称分布的钟形曲线。正态分布是最常见的统计分布,因为许多物理、生物和社会方面的测量值都自然近似于正态。许多统计分析均要求数据来自正态分布总 体。 例如,居住在宾夕法尼亚州的所有成年男性的身高近似于正态分布。因此,大多数男性的身高都将接近于 69 英寸的平均身高。高于和矮于 69 英寸的男性的数量相近。只有一小部分身材特别高或特别矮。 平均值 (μ) 和标准差 (σ) 是定义正态分布的两种参数。平均值是钟形曲线的波峰或中心。标准差决定数据的散布情况。大约有 68% 的观测值与平均值相差不到 +/- 1 个标准差;95% 与平均值相差不到 +/- 2 个标准差;而 99% 的观测值与平均值相差不到 +/- 3 个标准差。 就宾夕法尼亚州男性的身高而言,平均身高为 69 英寸,标准差为 2.5 英寸。 大约68% 的宾夕法尼亚男性身高介于66.5 (μ- 1σ) 和71.5 (μ+ 1σ) 英寸之间。 大约95% 的宾夕法尼亚男性身高介于64 (μ- 2σ) 和74 (μ+ 2σ) 英寸之间。 大约99% 的宾夕法尼亚男性身高介于61.5 (μ- 3σ) 和76.5 (μ+ 3σ) 英寸之间。 过程能力

生产或提供满足根据客户需要定义的规格的产品或服务的能力。例如,影印机制造商要求橡胶辊筒的宽度必须介于 32.523 cm 与 32.527 cm 之间,才能避免卡纸。能力分析揭示了制造过程满足这些规格的程度,并提供有关如何改进该过程和维持改进的见解。 在评估过程能力之前,必须确保过程是稳定的。不稳定的过程是无法预测的。如果过程稳定,则可以预测将来的性能并改进其能力。 应定期测量并分析过程的能力。能力分析有助于回答以下问题: ?过程是否满足客户规格? ?过程将来的性能如何? ?过程是否需要改进? ?过程是保持了这些改进还是回复到了原来的未改进状态? 可使用过程指标(如 Cp、Pp、Cpk 和 Ppk)来分析过程能力。 潜在(组内)能力和整体能力 大多数能力评估都可以分组为两种类别中的一种:潜在(组内)能力和整体能力。每种能力都表示对过程能力的唯一度量。潜在能力通常称为过程的“权利”:它忽略子组之间的差异并表示当消除了子组之间的偏移和漂移时执行过程的方法。另一方面,整体能力是客户所体验到的;它考虑了子组之间的差异。评估潜在能力的能力指标包括 Cp、CPU、CPL 和 Cpk。评估整体能力的能力指标包括 Pp、PPU、PPL、Ppk 和 Cpm。 例如,您检查某一糖果厂的设备,其中包括将特定重量的糖果装入容器的机器。糖果每周从工厂出货一次。为评估此过程的能力,在一周内的每天,对袋子样本进行称重;每个样本在分析中表示一个子组。观察发现,每个子组内的变异性很小,但由于子组平均值每天都有偏移,因此袋子重量的总体变异性很大。因此,整个一周的出货在袋子重量上与给定日期内生产的袋子重量之间存在较大的变异性。在下图中,较小的分布表示连续七天内每天的袋子重量的分布。最上面的分布表示整周的出货,它是子组的合计。

第十一章(理) 第四节 正态分布、线性回归

第十一章(理) 第四节 正态分布、线性回归 1.111222 则有 ( ) A .μ1<μ2,σ1<σ2 B .μ1<μ2,σ1>σ2 C .μ1>μ2,σ1<σ2 D .μ1>μ2,σ1>σ2 解析:μ反映正态分布的平均水平,x =μ是正态曲线的对称轴,由图知μ1<μ2,σ 反映正态分布的离散程度,σ越大,曲线越“矮胖”,表明越分散,σ越小,曲线越 “高瘦”,表明越集中,由图知σ1<σ2. 答案:A 2.已知随机变量ξ服从正态分布N (3,σ2),则P (ξ<3)= ( ) A.15 B.14 C.13 D.12 解析:根据正态分布的知识可知此正态分布图象的对称轴为x =3,而P (ξ<3)表示对 称轴左边图象的面积,对称轴左右两边图象面积相等,整个图象的面积为1. 答案:D 3.设随机变量ξ服从正态分布N (2,9),若P (ξ>c +1)=P (ξc +1) =P (ξ

正态分布讲解(含标准表)

2.4正态分布 复习引入: 总体密度曲线:样本容量越大,所分组数越多,各组的频率就越接近于总体在相应各组取值的概率.设想样本容量无限增大,分组的组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线,这条曲线叫做总体密度曲线. 总体密度曲线 b 单位 O 频率/组距 a 它反映了总体在各个范围内取值的概率.根据这条曲线,可求出总体在区间(a ,b )内取值的概率等于总体密度曲线,直线x =a ,x =b 及x 轴所围图形的面积. 观察总体密度曲线的形状,它具有“两头低,中间高,左右对称”的特征,具有这种特征的总体密度曲线一般可用下面函数的图象来表示或近似表示: 22 ()2,1(),(,)2x x e x μσμσ?πσ --=∈-∞+∞ 式中的实数 μ、)0(>σσ是参数,分别表示总体的平均数与标准差, ,()x μσ ?的图象为 正态分布密度曲线,简称正态曲线. 讲解新课:

一般地,如果对于任何实数a b <,随机变量X 满足 ,()()b a P a X B x dx μσ?<≤=?, 则称 X 的分布为正态分布(normal distribution ) .正态分布完全由参数μ和σ确定,因此正态分布常记作),(2 σ μN .如果随机变量 X 服从正态分布,则记为X ~),(2σμN . 经验表明,一个随机变量如果是众多的、互不相干的、不分主次的偶然因素作用结果之和,它就服从或近似服从正态分布.例如,高尔顿板试验中,小球在下落过程中要与众多小木块发生碰撞,每次碰撞的结果使得小球随机地向左或向右下落,因此小球第1次与高尔顿板底部接触时的坐标 X 是众多随机碰撞的结果,所以它近似服从正态分布.在现实生活中,很多随机变量都服从或近似地服从正态分布.例如长度测量误差;某一地区同年龄人群的身高、体重、肺活量等;一定条件下生长的小麦的株高、穗长、单位面积产量等;正常生产条件下各种产品的质量指标(如零件的尺寸、纤维的纤度、电容器的电容量、电子管的使用寿命等);某地每年七月份的平均气温、平均湿度、降雨量等;一般都服从正态分布.因此,正态分布广泛存在于自然现象、生产和生活实际之中.正态分布在概率和统计中占有重要的地位. 说明:1参数μ是反映随机变量取值的平均水平的特征数,可以用样本均值去佑计;σ是衡量随机变量总体波动大小的特征数,可以用样本标准差去估计. 2.早在 1733 年,法国数学家棣莫弗就用n !的近似公式得到了正态分布.之后,德国数学家高斯在研究测量误差时从另一个角度导出了它,并研究了它的性质,因此,人们也称正态分布为高斯分布. 2.正态分布),(2 σ μN )是由均值μ 和标准差σ唯一决定的分布 通过固定其中一个值,讨论均值与标准差对于正态曲线的影响

新人教高考数学总复习专题训练正态分布线性回归

新人教高考数学总复习专题训练正态分布线性回归 The following text is amended on 12 November 2020.

正态分布、线性回归 1.已知从某批材料中任取一件时,取得的这件材料的强度ε~N (200,18),则取得的这件材料的强度不低于180的概率为( ) A . B . C . D . 2.已知连续型随机变量x 的概率密度函数是??? ??>≤≤<=b x 0b x a A a x 0)(x f 其中常数A>0,则A 的值为 ( ) A .1 B .b C . a b -1 D .b-a 3.某工厂某产品产量x (千件)与单位成本y (元)满足回归直线方程 x y 82.136.77^-=,则以下说法中正确的是 ( ) A .产量每增加1000件,单位成本下降元 B .产量每减少1000件,单位成本上升元 C .产量每增加1000件,单位成本上升元 D .产量每减少1000件,单位成本下降元 4.工人月工资(元)依劳动生产率(千元)变化的回归方程为x y 9060^ +=,下列判断正确的是 ( ) A .劳动生产率为1000元时,工资为150元 B .劳动生产率提高1000元时,工资提高150元 C .劳动生产率提高1000元时,工资提高90元 D .劳动生产率为1000元时,工资为90元 5.若随机变量ε~N (5,2),且P(ε

正态分布与线性回归

正态分布、线性回归 一、 知识梳理 1.正态分布的重要性 正态分布是概率统计中最重要的一种分布,其重要性我们可以从以下两方面来理解:一方面,正态分布是自然界最常见的一种分布。一般说来,若影响某一数量指标的随机因素很多,而每个因素所起的作用都不太大,则这个指标服从正态分布。 2.正态曲线及其性质 正态分布函数: 22 ()2()x f x μσ-- = ,x ∈(-∞,+∞) 3.标准正态曲线 标准正态曲线N (0,1)是一种特殊的正态分布曲线,00()1()x x Φ-=-Φ,以及标准正态总体在任一区间(a ,b)内取值概率)()(a b P Φ-Φ=。 4.一般正态分布与标准正态分布的转化 由于一般的正态总体),(2 σμN 其图像不一定关于y 轴对称,对于任一正态总体),(2 σμN ,其取值小于x 的概率)( )(σ μ -Φ=x x F 。只要会用它求正态总体),(2σμN 在某个特定区间的概率即可。 5.“小概率事件”和假设检验的基本思想 “小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。这种认识便是进行推断的出发点。关于这一点我们要有以下两个方面的认识:一是这里的“几乎不可能发生”是针对“一次试验”来说的,因为试验次数多了,该事件当然是很可能发生的;二是当我们运用“小概率事件几乎不可能发生的原理”进行推断时,我们也有5%的犯错误的可能。 课本是借助于服从正态分布的有关零件尺寸的例子来介绍假设检验的基本思想。进行假设检验一般分三步: 第一步,提出统计假设。课本例子里的统计假设是这个工人制造的零件尺寸服从正态分布),(2 σμN ; 第二步,确定一次试验中的取值a 是否落入范围(μ-3σ,μ+3σ); 第三步,作出推断。如果a ∈(μ-3σ,μ+3σ),接受统计假设;如果)3,3(σμσμ+-?a ,由于这是小概率事件,就拒绝统计假设。 6.相关关系 研究两个变量间的相关关系是学习本节的目的。对于相关关系我们可以从下三个方面加以认识:⑴相关关系与函数关系不同。函数关系中的两个变量间是一种确定性关系。相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系。 ⑵函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。 ⑶函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化。 7.回归分析 本节所研究的回归分析是回归分析中最简单,也是最基本的一种类型——一元线性回归分析。 对于线性回归分析,我们要注意以下几个方面: ⑴回归分析是对具有相关关系的两个变量进行统计分析的方法。两个变量具有相关关系是回归分析的前提。 ⑵散点图是定义在具有相关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析。 ⑶求回归直线方程,首先应注意到,只有在散点图大至呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义。 8.相关系数 有时散点图中的各点并不集中在一条直线的附近,仍可以按照求回归直线方程的步骤求得回归直线方程。显然这种情形下求得的回归直线方程没有实际意义。那么,在什么情况下求得的回归直线方程才能对相应的一组观测数据具有代表意义?课本中不加证明地给出了相关系数的公式。相关系数公式的作用在于,我们对一组数据之间的线性相关程度可作出定量的分析,而不是仅凭画出散点图,直觉地从散点图的形状粗浅地得出数据之间的线性相关程度。 9.线性相关性检验 相关性检验是一种假设检验,它给出了一个具体检验y 与x 之间线性相关与否的具体办法。限于要求,中学阶段只要求掌握这种检验方法的操作步骤,而不要求对这种方法包含的原理进行深入研究。其具体检验的步骤如下:

知识讲解正态分布(理)资料讲解

2 正态分布 【学习目标】 1. 了解正态分布曲线的特点及曲线所表示的意义。 2. 了解正态曲线与正态分布的性质。 【要点梳理】 要点诠释: 要点一、概率密度曲线与概率密度函数 1 ?概念: 对于连续型随机变量 X ,位于x 轴上方,X 落在任一区间(a , b ]内的概率等于它与 x 轴、直线x a 与直线x b 所围成的曲边梯形的面积(如图阴影部分) ,这条概率曲线叫做 X 的概率密度曲线,以其作 为图象的函数f (x)叫做X 的概率密度函数。 i X y ■~ 工) > i 2、性质: ① 概率密度函数所取的每个值均是非负的。 ② 夹于概率密度的曲线与 x 轴之间的 平面图形”勺面积为1 要点二、正态分布 (1)定义 如果对于任何实数 a,b(a b)随机变量X 满足:P(a X b) 则称随机变量X 服从正态分布。记为 X : N( , 2)。 (2 )正态分布的期望与方差 若X : N( , 2),贝U X 的期望与方差分别为: EX 要点诠释: ③ P(a X b)的值等于由直线x a , x b 与概率密度曲线、 x 轴所围成的平面图形”的面积。 1.正态变量的概率密度函数 正态变量的概率密度函数表达式为: , (x) 其中x 是随机变量的取值; □为正态变量的期望; 2 .正态分布 (X )2 2 2 e 2 (x 是正态变量的标准差 R),( 0, , (x)dx , DX

(1 )正态分布由参数和确定。

参数是均值,它是反映随机变量取值的平均水平的特征数,可用样本的均值去估计。 标准差,它是衡量随机变量总体波动大小的特征数,可以用样本的标准差去估计。 (2 )经验表明,一个随机变量如果是众多的、互不相干的、不分主次的偶然因素作用结果之和,它就服从或近似服从正态分布. 在现实生活中,很多随机变量都服从或近似地服从正态分布?例如长度测量误差;某一地区同年龄人群的身高、体重、肺活量等;一定条件下生长的小麦的株高、穗长、单位面积产量等;正常生产条件下各种产品 的质量指标(如零件的尺寸、纤维的纤度、电容器的电容量、电子管的使用寿命等);某地每年七月份的 平均气温、平均湿度、降雨量等;一般都服从正态分布. 要点三、正态曲线及其性质: 1. 正态曲线 1 ■(^^ 如果随机变量X的概率密度函数为f(x)------------------- e 2(x R),其中实数和为参数 V2 ( 2 ?正态曲线的性质: ①曲线位于x轴上方,与x轴不相交; ②曲线是单峰的,它关于直线x 对称; ③曲线在x时达到峰值

正态分布 线性回归

正态分布与线性回归 1 已知连续型随机变量ζ的概率密度函数 ?? ? ??>≤≤+<=)2(0)20(1)0(0)(x x kx x x f ,且f(x) ≥0,求常数k 的值,并计算概率P(1.5≤ξ<2.5)。 分析:凡是计算连续型随机变量ξ的密度函数f(x)中的参数、概率P(a ≤ξ≤b)都需要通过求面积来转化而求得。若f(x) ≥0且在[a ,b]上为线性,那么P(a ≤ξ≤b)的值等于以b-a 为高,f(a)与f(b)为上、下底的 直角梯形的面积,即1 ()[()()]()2 P a b f a f b b a ξ≤≤=+-。 解: ∵1()(0)(02)(2)P P P P εξξξ=-∞<<+∞=-∞<<+≤≤+<<+∞ 0(02)0P ξ=+≤≤+1 [(0)(2)](20)(0)(2)222 f f f f k =+-=+=+ ∴2 1 -=k ; ∴1 (1.5 2.5)(1.52)(2 2.5)(1.52)16P P P P ξξξξ≤<=≤≤+<<=≤≤=。 2 设),(~2 σμN X ,且总体密度曲线的函数表达式为: 41 2221)(+-- = x x e x f π ,x ∈R 。 (1)求μ,σ; (2)求)2|1(|< -x P 及)22121(+<<-x P 的值。 分析:根据表示正态曲线函数的结构特征,对照已知函数求出μ和σ。利用一般正态总体) ,(2 σμN 与标准正态总体N (0,1)概率间的关系,将一般正态总体划归为标准正态总体来解决。 解:(1)由于 2 22)2(2)1(4 122 21 21)(-- +-- ?= = x x x e e x f ππ , 根据一般正态分布的函数表达形式,可知μ=1,2=σ,故X ~N (1,2)。 (2))2121()2|1(|+<<-=<-x P x P 2121 (12)(12)()() 22 (1)(1)2(1)120.84131 F F 1+-1--=+--=Φ-Φ=Φ-Φ-=Φ-=?- 6826.0=。 又)21()221()22121(--+=+<<-F F x P 22121()()(2)(1) 22 (2)(1)10.97720.84131φφ1+-1--=Φ-Φ=Φ-Φ-=+-=+- 8185.0=。 点评:在解决数学问题的过程中,将未知的,不熟悉的问题转化为已知的、熟悉的、已解决了的问题,是我们常用的手段与思考问题的出发点。通过本例我们还可以看出一般正态分布与标准正态分布间的内在关联。 3 某中学有1000人参加并且高考数学成绩近似地服从正态分布()2 10,100N ,求此校数学成绩在120分

相关文档
相关文档 最新文档