文档库 最新最全的文档下载
当前位置:文档库 › 多元统计分析第四章 多元回归分析

多元统计分析第四章 多元回归分析

多元统计分析第四章 多元回归分析
多元统计分析第四章 多元回归分析

第4章多元回归分析

简单说,回归分析是根据统计资料建立经验公式的统计方法。例如统计若干焊接点数据,从而建立由焊接点直径预报焊点剪切强度的预报公式;又如统计若干棵松树的胸径与材积(可利用木材体积),建立由胸径预报材积公式,也用到回归分析方法。当然回归分析不只是建立预报公式,还要对预报误差的大小,预报公式的合理性等问题讨论,有着非常丰富的内容。回归分析可用于预测和控制,在自然科学,社会科学和应用技术中都有重要应用,它是统计学最重要的工具。回归分析方法和理论从Gauss提出最小二乘法开始,至今已近200年,目前仍在蓬勃发展,例如在回归诊断、维度缩减、半参数回归、非参数回归、LOGISTIC 回归等方向不断有新的突破。本章介绍参数回归分析模型及其参数估计、检验、模型选择等理论和有关计算方法。参数回归分析主要分三类:线性回归、可以转化为线性回归的回归和非线性回归。本章依次介绍这三类模型。有关回归分析的一般理论可参见陈希儒(1984),方开泰(1988),Seber(1976),何晓群(1997),何晓群、刘文卿(2001)、Richard(2003)。Robert(1999)和王吉利(2004)提供了许多有趣的应用例子。

4.1多元线性回归模型

首先让我们看一个例子:

x表示目标例4.1 对15个地区调查某种护肤霜销量得表4-1,其中y表示销量(打),

1

x表示人均可支配收入(美元)。试建立由目标人口和人均可支配收入预人口数(千人),

2

测销量的公式。

表4-1 护肤霜销量数据

这个问题中,每个地区销量受该地区目标人口数和人均可支配收入数影响,3个变量y 、

1x 、2x 间存在密切关系。但是它们的关系不是确定性关系而是相关关系。

常见的变量间关系分为两大类:确定性关系和相关关系。确定性关系也称为函数关系。具有确定性关系时,自变量完全确定因变量的值。例如存款的年利率c 固定,那么存款数z 与总利息y 的关系就是确定性关系;z 知道后,y 就由y=cz 确定。又如自由落体的下落高度s 与下落时间t 的关系2

2

1gt s

=

也是确定性关系。现实世界中大量存在相关关系,具有相关关系的变量间不能完全确定,例如焊接点直径与焊点剪切强度(焊接点被拉断所用的力)是两个变量,它们关系密切,但是焊接点直径不能完全确定焊点剪切强度,焊接点直径是1毫米的焊点,剪切强度是不确定的。但总起来说,它比焊接点直径是2毫米的焊点,剪切强度要小,统计数据证明焊接点直径与焊点剪切强度近似存在线性关系,焊接点直径与焊点剪切强度就是相关关系。又如学生平时成绩与期末考试成绩关系很密切,但是平时成绩不能完全确定期末考试成绩,平时成绩与期末考试成绩关系就是相关关系。例4.1中,y 、1x 、2x 间存在密切关系。但是它们的关系不是确定性关系而是相关关系。

具有相关关系的变量间,由一些变量可以大体预报其它变量。前者称为自变量,也叫解释变量或预报因子,例4.1中的1x 和2x 就是自变量;被预报量称为因变量,也叫做响应变量或预报对象,例4.1中的y 就是因变量。回归分析的初步目的是,得到由自变量预报因变量的公式,以便通过自变量去预测或控制因变量。对于线性回归模型中的自变量,有两种处理方法:一种当作确定性变量处理,另一种当作随机变量处理,所得计算公式相同。本书采用前一种处理方法。

回归分析是建立预报公式的一种方法。其一般步骤是:首先取得自变量和因变量的多次观测值,这些观测值可能是实验得到的,也可能是调查出的;然后根据这些数据确定经验公式的类型,建立数学模型,列出待估参数;再用这些数据进行拟合,得到待估参数的估计值;最后作统计分析。数据拟合是计算方法的内容,它也能解决回归分析中的数据拟合,但回归分析与计算方法的数据拟合不同,计算方法的数据拟合只估计未知参数,而回归分析不仅仅估计参数,而且要对拟合的结果作统计分析。最简单的回归模型是线性回归模型,本节就介绍线性回归模型。

我们从例4.1的观测数据出发,建立地区销量由该地区目标人口数和人均可支配收入数预报的经验公式,以此介绍多元线性回归模型建立过程。

对例4.1容易看出:目标人口数越多,地区销量越大;人均可支配收入数越大,地区销量越大。但还会遇到随机因素的影响,从而3个变量y 、1x 、2x 间是相关关系,于是建立数学模型

ε+++=22110x b x b b y (4.1)

其中ε是零均值随机变量,称为误差;其方差称为误差方差记为

2σ。2210,,,σb b b 是未知

的参数,如果知道它们的值,预报公式(经验公式)就有了,而且误差的大小也可以估计了,称2

210,,,σb b b 为待估参数。1x 、2x 作为自变量,其观测值作为固定值。在这个模型中自

变量和未知参数都是线性出现的。

自变量和未知参数都是线性出现的回归模型称为线性回归模型。

为了估计未知参数,应当考虑观测值即表4.1的值。在统计分析中,观测资料具有两重性:当给出具体数值时,它们是数据;当作理论分析时,它们是随机变量。于是,由观测资料(表4-1)建立如下模型:

???

?

?+++=+++=1521015

1210126055370...2450274ε

εb b b y b b b y (4.2) 作为观测,一般的统计问题中,往往要求误差1ε、2ε…15ε独立同分布,均值为零;根据实际需要,在回归分析中把这要求降低为假设

??

?

?

???=??????????==I

Var i E i 2151 (15)

,...2,1,0σεεε 有时还要进一步降低,例如何晓群、刘文卿(2001)中所述。

一般地,我们有

定义4.1

ε++++=m m x b x b b y ...110 (4.3)

称为多元线性回归模型,其中2102,,...,;,0σσεεm b b b D E ==是未知参数。0b 称为常数项或截距,m x x ,...,1是自变量,y 是因变量。

定义4.1中未涉及不同次观测误差1ε、2ε…n ε间关系,一般回归分析理论根据实际需要,把常用的“误差观测值间独立同分布”这一要求降低为“误差观测间方差相同,互不相关”,即Gauss-Markov 条件。为了强调Gauss-Markov 条件,称(4.3)为理论回归模型,它加上Gauss-Markov 条件后,才得到以下定义4.2的整体回归模型。

为了确定线性回规模型的未知参数,必须配有自变量和因变量的若干次观测值。

表 4-1给出15次观测值,其中n=15,m=2。

定义4.2

???

??nm

n n m

x x y x x y ,...,...,...,11111

??

??

??

?++++=++++=n

nm m n n m m x b x b b y x b x b b y εε............1101111101 (4.4) 称为整体回归模型,其中附有假设(Gauss-Markov 条件)

??

?

????=??????????==I V a r n

i E n i 2

1...,...2,10σεεε 除非另外申明,本章中总假设Gauss-Markov 条件成立。为了缩小参数估计的随机性,通常

还要求n 比m 大得多,M.Kendall (1975)甚至要求n>10m 。

(4.4)式可简写成矩阵形式以利理解和公式推演,令

????????????=n y y y ......1,????????????=m b b b ...10β,????????????=n εεε......1,????

?????

??

?=nm n m x x x x X ...1...................11111, 分别称为因变量向量、未知参数向量、残差向量、回归设计矩阵(简称为设计矩阵),则(4.4)

可写为

εβ+=X y (4.5)

用矩阵语言,定义4.2即是说

εβ+=X y 附有假设

???==I

Var E 2

)(0

σεε 称为整体线性回归模型。

由于本章理论的需要,在 (4.5)式中.当n 不大时总要求ε服从多元正态分布,

),0(~2I N σε。当n 很大时,由中心极限定理可以不要求正态分布。通常还假定X 的秩为

1+m 。

在例4.1中

????

?

?????=26053701...

24502741X ,

??????????=210b b b β,????

?

?

??????=151...y y Y 。Y 观测值是??????????212 (162)

4.2多元线性回归模型参数的估计

实际问题中,通过观测或试验,有n 次观测值

???

?

?nm n n m x

x y x x y ,...,...,...,1

1111 为了利用这些值估计(4.5)式中参数210,,...,σm b b b ,通常采用普通最小二乘法,即选择适当

β使离差平方和

)()()...()(21110βββX y X y x b x b b y S T jm n

j m j j --=----=∑=

最小。

定理4.1 若X 的秩是(m+1),则β的最小二乘估计是

????

??

????????=∧∧∧

∧m 10...b b b βY X X X T T 1)(-=。 (4.6)

证明 将平方和

)()()(βββX y X y S T --=

对β偏导,并令偏导数为零。由矩阵微商公式得知β应满足正规方程:y X X X T

T =β)(,因为X X T

秩是m+1,定理得证。其中m b b b ∧

∧∧,...,10是由(4.6)算出m b b b ,...,10的估计值。 实际计算(4.6)时,采用许多技巧,而不是直接作矩阵计算,限于篇幅,不再细述。

定义4.3 矩阵T

T X X X X H 1)(-=称为帽子矩阵。 引理4.1 0)(=-H I H ;H I H I H I -=--))((。 证明 将T

T X X X X H 1)(-=代入,直接相乘可证。

定义4.4 m m x b x b b y ∧

∧∧∧+++=...110 称为经验回归方程(经验公式),简称为回归方程。将自变量第j 次观测值代入回归方程所得回代值jm m j j x b x b b y ∧

+++=...110称为j y 的预测值,预测向量记为

????????????=∧∧∧

n y y y ...1???????

??

??

?++++++=∧∧∧∧

∧nm m n m m x b x b b x b x b b .........11011110HY X ==∧β (4.7) 定义4.5

jm m j j j x b x b b y ∧

∧∧∧----=...110ε称为第j 次纪录观测的残差。残差向量为

????????????=∧∧∧

n εεε...1?????

???????+++-+++-=∧∧∧∧

∧∧)...(...

)...(110111101nm m n n m m x b x b b y x b x b b y Y H I X Y )(-=-=∧β (4.8) 对例4.1 代入公式(4.6)可得

Y X X X T T 1)(-∧

=β????

??????==00811.050407.030412.4

预测向量和残差向量分别是

?????

???????=-=?????????

???==∧

∧∧0.0519...1.4399-0.2993-,211.9481.....121.4399162.2993Y Y H Y εβ

定义 4.6 2

-=β

X

Y SSE ∑=∧

∧∧----=n

i im m i i x b x b b y 1

2110)...(称为残差平方和。误

差方差2

σ,误差标准差σ的估计分别为

)

1/()

1/()...()1/(1

21102

--=------=--==∧

=∧

∧∧∧

∑m n SSE m n x b x b b y m n SSE MSE n

i im m i i σσ(4.9)

记2

1→∧

-=Y Y SSR 21101

)...(y x b x b b im m i n

i -+++=∧

∧∧=∑,它称为回归平方和。

例4.1中

669

.5)1215/(026.68,

026.68)0519.0(...)2993.0(2

22=--==++-=∧

σSSE

38.2669.5==∧

σ

SSR 21101

)...(y x b x b b im m i n

i -+++=∧

∧∧=∑=(162.2993-150.6)2+(121.4399-150.6)2

…+

(211.9481-150.6)2=53834。

定理4.22

,σβ的估计∧

2

,σβ具有如下性质

(1) ββ=∧)(E (∧

β是β无偏估计)。

12)()(-∧

=X X Var T σβ。

(2) 2

2

)(σσ=∧

E ,(∧2

σ是2

σ的无偏估计)。

(3) ∧

β是β的线性无偏最小方差估计(在β的线性无偏估计中,∧

β方差最小)。即通

常所称Gauss-Markov 定理。

(4) 正态性:若),,0(~2

I N σε则))(,(~1

2-∧

X X N T σββ;若观测个数n 很大,即

使ε不服从正态分布,仍近似地有))(,(~1

2

-∧

X X N T

σββ。

(5) 单个参数的分布:若

),,0(~2

σεN 则∧

β的第i+1个分量

))(,(~11,12-++∧

i i T i i X X b N b σ,其中11

,1)(-++i i T X X 是 1

)(-X X T 对角线上第 1+i 个元素。从而可用1

1

,12)

()(-++∧

=i i T

i X X b STDERR σ估计i b ∧

的标准差。

(6) 令?????

???????=→

1...111,n Y n y Y n i i /'1/1→===∑。若),,0(~2I N σε

则总离差∑=-=

n

i i

y y

SST 1

2

)(=2

1-→-Y

Y 2

2

1

→∧

∧-+-=Y Y Y

Y 。若再有条件

m i b i ,...2,10

==满足,则SSE SSR ,独立,它们与2σ的商分别服从)(2m χ和

)1(2--m n χ。从而

)1,(~)

1/()

/(----m n m F m n SSE m SSR

(7) 若),,0(~2

I N σε则SSE 与∧

β独立。从而)1(~)(/)(---∧

∧m n t b STDERR b b i i i 。

(8) 若),,0(~2

I N σε则β的极大似然估计与最小二乘估计相同。 证明

(1)因为

εβεββ')'()(')'(')'(111X X X X X X X y X X X ---∧

+=+==

所以

ββ=∧

)(E ,

121211)'()'(')'()')'(()(----∧

==+=X X X X IX X X X X X X Var Var σσεββ。

(2)因为

εεεεεε)())((H I H I H I T T T -=--=∧∧

所以

()

)1))(()')(()()

())()(())((2

1

2

2

1

2

2

2--=-=-=-=-=-=--∧

∧m n X X X X tr n X X X X tr I tr H I tr E H I tr H I Etr E T

T

T

T T T σσσσσσεεεεεε

于是2

2

)(σσ=∧E 。

(3)证明见方开泰(1988)。

(4)若),,0(~2

I N σε由εββ')'(1

X X X -∧

+=知∧

β服从正态。又由ββ=∧

)(E 和

1

2

)

'()(-=XX Var σβ,知))'(,(~1

2-∧

X X N σββ。当n 很大时,即使ε不服从正态

分布,由中心极限定理,可证∧

β近似正态。

(5)由(4)立即可得。 (6)因为

εεββεβε)()(')'())(()(1H I H I X X X X X X X H I Y H I -=-+-=+-=-=-∧

所以0)')'(''()('1

=-=--εεX X X X X X H I X ,而X 第一列全是1,所以

0'1=∧

→ε

另一方面,容易看出

0))('('=-=∧

∧εεH I H Y Y

因为

→∧→∧∧-→-+-+-=-ε)'1(2112

2

2

Y Y Y Y Y

Y Y Y ∧

→∧∧→∧∧-+-+-=ε

ε'12'212

2

Y Y Y Y Y

Y 所以 2

2

2

11→∧

∧-→-+-=-Y Y Y Y Y Y 。

其余部分证明见Seber (1976)。

(7) εεβεεβεβL K X X X X I X X X X X X X I X X X +=??????-+??????=??????-+=???

?????----∧∧')'(')'(0)')'((')'(1

111 其中

??

????-=???

???=--')'(')'(,01

1X X X X I X X X L K β。 所以

???

?????∧∧εβ服从多元正态分布,而 ??

?

?

??

-==???

?????--∧∧

')'(00)'(')()(1

12X X X X I X X L LVar Var σεεβ 所以∧

ε与∧β独立,从而SSE 与∧β独立,即i b ∧与∧

β独立。由(5)

))'(,(~1

1,12-++∧

i i i i X X b N b σ,)1/()'()(1

1,1--=-++m n X X SSE b STDERR i i i ,

而由(2)SSE 除以2σ服从)1(2--m n χ;所以)1(~/)(---∧

m n t STDERR b b i i 。 (9) 因为随机向量

ε

β+=X y ),(~2I X N σβ

所以似然函数

})]...([1

exp{)

2(1

21102

2

/∏=-+++--

=n

i im m i i n x b x b b y L σ

π

为使似然函数极大,必须

)()()...(21

110ββX y X y x b x b b y

T im n

i m i i

--=----∑=

最小。

4.3 假设检验

只要x 的秩为m+1,正规方程就能建立.参数就能估计,(若x 的秩小于m+1,可以用广义逆处理)。但这时存在两个问题:(1)y 与m x x ,...,1是否有较好的线性关系?即回归模型是否有意义?如果真正的模型中m i b i ,...2,1,0== ,或i b 的绝对值都很小,则m x x ,...,1的值 对y 影响都很小,不能起预报作用,我们认为y 与m x x ,...,1没有较好的线性关系,回归模型没有意义。(2)回归模型能否简化,即m x x ,...,1中是否存在某个自变量,它与y 无关或它能

被其它自变量代替,因而回归模型中可以删去这个自变量?为此可以做如下两类检验。

一. 线性关系显著性F 检验 即要检验

m i b H i ,...2,1,0:0==。

定理4.2(6)指出SST=SSR+SSE ,其中总离差SST 反映因变量的发散程度;回归平方 和SSR 反映由回归引起的分散性,SSE 反映误差变量的分散性。若0H 成立,SSR/SSE 应当很小,若SSR/SSE 很大,则否定0H 。为此取统计量SSR/SSE 。由定理4.2(6)

)1,(~)

1/()

/(----=

m n m F m n S S E m S S R F

因此,只需计算F 的值,并做F 检验即可,若F 很大,则否定0H 。而F 的大小可由F 分布的95%,99%分位数(临界值)决定,当F 的值大于这些分位数时,认为SSR 很大,则否定0H 。

例如对于例4.1,SSR=53834,SSE=68.026,n=15,m=2,F=(53834/2)/(68.026 /12)=4748.2。

而查F 分布表可得F(2,12)的95%,99%分位数分别是3.88和6.93。由4748.2大于它们可知,在高度显著水平下否定0H ,即线性关系是高度显著的。

回归模型线性关系显著性也有其他检验方法:复相关系数(也称为决定系数)平方

SST SSE R /12-=,

修正的复相关系数平方

)/()1)(1(12m n R n ADJRSQ ----=。

由于

1)1();1/(122-+=+=-R F F F R

复相关系数平方与修正的复相关系数平方越大,线性关系越显著。由于复相关系数与修正的复相关系数的分位数表不易查到,我们不介绍用这两个统计量做检验的方法。

二. 单个自变量显著性t 检验。

常常要考虑第i 个自变量i x 是否在模型中有作用。一个好的模型,所有自变量都应起作用。如果i x 的系数i b 为零或绝对值很小,i x 无作用。为此对每个i 要检验

0:0=i i b H ,

因为∧

i b 是i b 的估计量,∧

i b 为零或绝对值很小,i x 作用很小。由定理 4.2(7),

i t =)1(~)(/)(---∧

∧m n t b STDERR

b b i i i 。

当i H 0成立时,统计量)(/i i i b STDERR b t ∧

∧=,若i t 绝对值很大,则应当否定i H 0。由i t 服从自由度为n-m-1的t 分布知道,若i t 绝对值很大,大于自由度为n-m-1的t 分布随机变量的0.975分位数,则应当否定i H 0,例如对于例4.1,30412.41

=∧

b ,50407.02=∧

b ,

00811.00=∧

b

???

?

?

?????????=-7

-7-7-6-1101.6031 104.861- 0.000365-104.861- 106.706 0.000159-0.000365- 0.000159- 1.2024759 )'(X X

于是对角线上第1+i 个元素分别是

2024759.100=h ,6

1110706.6-?=h ,

7

2210

6031.1-?=h 。而66884.52

=∧

σ

所以

61087.22024759.166884.5)(0=?=∧

b STDERR , 00617.01000/706.666884.5)(1=?=∧

b STDERR , 0009533.010000/031.1666884.5)(2=?=∧b STDERR 。

从而

6485.161087.2/30412.40==t ,7.8100617.0/50407.01==t , 51.80009533.0/00811.02==t 。

查t 分布表,自由度取8-2-1=5,0.975分位数为 2.571(P(|t(5)|>2.57)1 =0.975,571.2)5(025.0=t )。由1.6485<2.571,81.7 >2.571 ,8.51 >2.571可见目标人口和可支配收入对购买量的作用是显著的;而常数项的作用是不显著的。

从以上可见,多元线性回归模型计算很麻烦,即使是例4.1中简单情形(自变量个数 m=2,观测次数n=15)用计算器计算也很麻烦。一般情况,变量个数很多,观测次数很多,用计算器算几乎是不可能的,笔算更不用提了。用电脑软件却可以方便地完成这些计算,SAS 的REG ,RSREG ,ORTHOREG 和GLM 过程都可以用来作回归。其中REG 过程具有许多功能,例如模型选择、回归诊断等,所以一般情况下总用REG 作线性回归。REG 过程主要有两个语句:PROC REG 语句和MODEL 语句,其功能如下

(1)PROC REG 语句用以调用REG 过程,同时可以加上若干选项,其中DA TA =…用以说明线性回归所用的数据集,如果没有这一选项,就用最新产生的数据集作回归。

(2)MODEL 语句中有等号,等号前的变量被指定为因变量,等号后的变量被指定为自变量。

对于例4.1,可以采用如下SAS 程序

data sale;

input y x1 x2;

cards;

162 274 2450

120 180 3254

223 375 3802

131 205 2838

67 86 2347

169 266 3782

81 98 3708

192 330 2450

116 195 2137

55 53 2560

252 430 4020

232 372 4427

144 236 2660

103 157 2088

212 370 2605

;

proc reg; /*调用reg过程*/

model y=x1 x2; /*自变量是x1和x2,因变量是y*/

run;

执行程序后电脑打出2个数表:方差分析表(表头Analysis of Variance),参数估计表(表头Parameter Estimate)。以下分别介绍这2个表所反映的信息。

Model: MODEL1

Dependent Variable: Y

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Prob>F

Model 2 53833.57397 26916.78699 4748.204 0.0001

Error 12 68.02603 5.66884

C Total 14 53901.60000

Root MSE 2.38093 R-square 0.9987

Dep Mean 150.60000 Adj R-sq 0.9985

C.V. 1.58096

上表是方差分析表(表头为Analysis of Variance),上半部分即表,

之和。第2列(DF )表示自由度,分别是2,12和2+12=14;第3列是平方和:SSR=53834, SSE=68.02603,SST=SSR+SSE=53902。第4列是平均平方和26917=53834/2,5.66884 =68.02603/12。第5列是F 值:4748.2 =26917/5.66884。第6列是自由度为2,12的F 分布随机变量大于4748.2的概率,这概率小于0.001等价于,F 值大于0.9999分位数点,因而线性关系是显著的。

表的下半部分给出

9985

.0,9987.058096.1,6.150,38093.222=====∧

R R y 修正的变异系数σ

Parameter Estimates

Parameter Standard T for H0:

Variable DF Estimate Error Parameter=0 Prob > |T|

INTERCEP 1 4.304122 2.61086924 1.649 0.1252 X1 1 0.504074 0.00616567 81.755 0.0001 X2 1 0.008114 0.00095330 8.511 0.0001

上表为参数估计表(表头为Parameter Estimates ),即

各列各行含义如下:第1列为变量,从中可见第2行是0b (intercept ), 第3行是1b (1x 的系数),第4行是2b (2x 的系数)。第2列为自由度,各变量自由度都是1。第3列为参数估计值:∧

0b =4.30412,∧

1b =0.50407,∧

2b =0.00811。第

4列为标准误

61087.2)(0=∧b STDERR , 00617.0)(1=∧

b STDERR , 0009533.0)(2=∧

b STDERR 。第

5列为t 值)(/i i i b STDERR

b t ∧

∧=:65.10=t ,

75.811=t ,51.82=t 。第6列为n-m-1=12个自由度,t 分布随机变量大于这些t 值的概

率:P(T>1.65)=0.1252,P(T>81.75)<0.0001),P(T>8.51)<0.0001。概率小于0.05表明变量的作用显著,概率小于0.0001表明变量的作用高度显著。由上可见,目标人口数和人均可支配收入的作用是高度显著的,截距的作用是不显著的。

4.4预报

做预报是回归分析的重要目的之一。4.4中已指出:当∧

∧∧m b b b ...,10得到后,就有了回归方程

m m x b x b b y ∧

+++= (110)

若再给定自变量的值)', (1)

m o x x u =,就可得到预报值

o

m m o

x b x b b y ∧

+++=...110。 (4.10)

对于例4.1,由(4.6)式解得∧

0b =4.30412,∧

1b =0.50407,∧

2b =0.00811,例4.1经验回归方程是

t iq y 1034.24731.07366.0++=

假如一个地区目标人口是200(千人),人均可支配收入是3000美元,就可以预报其销售量为

3000

1034.22004731.07366.0?+?+=y =129.46 但是由(4.1),y 的真值满足ε++++=o

m m o

x b x b b y ...110,与(4.8)相比,存在预报误差

ε

ε+-++-+-=+++-++++=-∧

∧∧

o

m m m o

o

m m o

o

m m o x b b x b b b b x b x b b x b x b b y y )(...)()()...( (11100110110)

由此可见,预报误差由两部分组成:o

m m m o

x b b x b b b b )(...)()(11100∧

∧-++-+-与ε。因为观测值i y 是随机变量,由他们算出的m b b b ∧

,...,10也是随机变量,所以

o

m m m o

x b b x b b b b )(...)()(11100∧

∧-++-+-

也是随机变量。由4.2节性质(1),o

m m m o

x b b x b b b b )(...)()(11100∧

-++

-+-的数学期望是零。由4.1的假设,ε的数学期望是零。所以预报误差是零均值的。

预报值的置信区间理论比较复杂。可以如下计算:设自变量的值为)', (1)

m o

x x u =,令

)',...,1(1o

m o x x ug =,ug X X ug v 1)'('-=,其中X 由(4.5)式决定。则概率为α-1的预报区

间端点为

2/122/11

10))1()(1(...v m n t x b x b b o m

m o

+--±+++∧

-∧∧∧σα (4.11)

(4.11)的证明见Seber(1976).

于是,对于例4.1的回归模型,考虑一个目标人口是200(千人),人均可支配收入是

3000美元的地区,可按下法计算其销售量95%预报区间:)'3000,200,1(=ug ,

???

?

??????????=-7

-7-7-6-1101.6031 104.861- 0.000365-104.861- 106.706 0.000159-0.000365- 0.000159- 1.2024759 )'(X X

ug X X ug v 1)'('-==0.0780486,179.2)1215(597.0=--t 。得分95%预报区间

386.546.129)078.01(*66884.5179.246.129±=+±。

在用SAS 的REG 过程做回归分析时,MODEL 语句自变量后加 “/”号隔开自变量与

选项,加选项p 指示电脑求出预报值;加cli 则指示电脑求出预报值和预报值95%置信区间(包括预报值)。为了方便地求出预报值,可用缺省技巧:对于需要得到预报值和95%置信区间的观测,在数据步输入该次观测时,只输入自变量观测值,因变量以“.”表示缺省;这样电脑就会用既有自变量观测值,又有因变量观测值的数据估计参数;对全体观测进行预报。

对例4.1可用SAS 程序

data sale; input y x1 x2; cards ; 162 274 2450 120 180 3254 223 375 3802 131 205 2838 67 86 2347 169 266 3782 81 98 3708 192 330 2450 116 195 2137 55 53 2560 252 430 4020 232 372 4427 144 236 2660 103 157 2088 212 370 2605 . 200 3000 ;

proc reg ;

model y=x1 x2/cli ; run ;

执行此程序后,用前15次观测计算参数估计值,得到许多表,输出中最后一张表是

Dep Var Predict Std Err Lower95% Upper95%

Obs Y Value Predict Predict Predict Residual

1 162.0 162.3 0.894 156.8 167.8 -0.2993

2 120.0 121.4 0.81

3 116.0 126.9 -1.4399 3 223.0 224.2 1.021 218.5 229.8 -1.1807

4 131.0 130.7 0.649 125.3 136.0 0.3336

5 67.0000 66.6977 1.063 61.0164 72.3790 0.3023

6 169.0 169.1 0.91

7 163.5 174.6 -0.0744 7 81.0000 83.7895 1.471 77.6920 89.8870 -2.7895

8 192.0 190.5 1.108 184.8 196.2 1.4725

9 116.0 119.9 0.963 114.3 125.5 -3.9379 10 55.0000 51.7915 1.204 45.9785 57.6044 3.2085 11 252.0 253.7 1.267 247.8 259.5 -1.6736 12 232.0 227.7 1.354 221.8 233.7 4.2603 13 144.0 144.8 0.692 139.4 150.3 -0.8484 14 103.0 100.4 0.996 94.7626 106.0 2.6145 15 212.0 211.9 1.198 206.1 217.8 0.0519 16 . 129.5 0.665 124.1 134.8 .

Sum of Residuals 0 Sum of Squared Residuals 68.0260 Predicted Resid SS (Press) 125.7636

此表第2列是因变量观测值;第3列是因变量预报值;第5列是预报值95%置信区间下限,;第6列是预报值95%置信区间上限。最后1行由第16次观测算出,可见,目标人口是200(千人),人均可支配收入是3000美元的地区,销售量预报值是129.5,销售量95%置信区间是(124.1 134.8)。

4.5多项式回归

实际问题的数学模型常是ε+=),...(1m x x f y ,其中f 往往不是线性函数,不能用多元线性回归模型描述。但由于连续函数可以用多项式逼近,所以常用多项式回归模型来近似实际问题。

例4.2 美国1790-1970每10年统计一次全国人口数如表4-2。以时间t(公元)为自变量,人口数为因变量,画人口对时间的散点图时,不像直线,而像是抛物线。我们想到经验公式应当是二次函数。也即是说,不用线性回归模型ε++=t b b p 10拟合数据,而是用回归

模型

ε+++=2210t b t b b p (4.12)

拟合数据。这时自变量t 不是线性出现,而是以二项式形式出现。

表4-2 美国人口数据(单位千人)

例4.3 经钻探,某地区煤矿上表面高度h 数据如表4-3其中x 为横坐标,y 为纵坐标。建立上表面高度h 的回归方程(作趋势面分析)。为了简单,我们用x 和y 的二次多项式拟合这组数据(实际操作时,可能是三次,甚至四次多项式)。即建立回归模型

ε++++++=25423210y b xy b x b y b x b b h (4.13) 其中ε是零均值随机变量。

表4-3地质钻探数据

类似于模型(4.12),(4.13),由自变量多项式和随机误差项组成的回归模型称为多项式回

归模型.

定义4.7形为

ε+++++=j

m k x b x b x b b y ...212110 (4.14)

的回归模型称为多项式回归,其中ε的各次观测互不相关,2102,,...,;,0σσεεk b b b D E ==是未知参数。m x x ,...,1是自变量,y 是因变量。

初看模型(4.14)式不是线性回归,因为其自变量平方出现在模型中,但由于x,y 看成已知常数,其方幂和交叉积也可看成已知常数,未知参数k b b ,...0都是线性出现,因此,只要令,...,,23221y t xy t x t ===就能把多项式回归模型化为线性回归模型。从而可以使用线性回归的计算公式和检验方法。

当自变量的其它函数,例如,对数函数、指数函数、三角函数等出现在回归模型中,而未知参数都是以线性形式出现时,都可按上述方法化为线性回归处理。

自变量的方幂或交叉积,在每次观测中的值,可以通过计数器计算或编程计算而得到。但SAS 软件数据步的赋值语句,可方便的计算自变量的方幂或交叉积的值。

例如例4.2用下列SAS 程序来计算

data uspop;

do t=1790 to 1970 by 10; input p @@; tt=t*t; output ; end ; cards ; 3929 5308

7239

9638

12866 17069 23191 31443 39818 50155

62947 75994 91972 105710 122775 131669 151325 179323 203211

;

proc reg ; model p =t tt; run ;

执行此程序得到的输出是

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Prob>F

Model 2 71799016190 35899508095 4641.719 0.0001 Error 16 123745565.08 7734097.8174 C Total 18 71922761755

Root MSE 2781.02460 R-square 0.9983

Dep Mean 69767.47368 Adj R-sq 0.9981 C.V. 3.98613

上表是方差分析表,可见线性关系是显著的。

Parameter Estimates

Parameter Standard T for H0:

Variable DF Estimate Error Parameter=0 Prob > |T|

INTERCEP 1 20450434 843475.32632 24.245 0.0001 T 1 -22781 897.84903765 -25.372 0.0001 TT 1 6.345585 0.23876954 26.576 0.0001

上表是参数估计表,可见所有自变量是显著的,经验回归回归方程是

26.34559t 22781t -20450434p +=

为了避免高次幂预报因子绝对值太大,系数溢出,可将自变量减去适当的数,特别是减去样本均值,用差的方幂代替其方幂。例如上面的计算中截距太大,有可能淹没其它数据。(4.12)可减去最小的年代1700,改为模型

ε+++=22101700)-(t b 1700)-(t b b p

(4.13)可减去x 的样本均值2.5,y 的样本均值5,改为模型

ε+-+--+-+++=25423210)5()5)(5.2()5.2(y b y x b x b y b x b b h

也可用自变量方幂除以较大数,避免自变量高次幂绝对值太大,系数溢出,例如(4.12)可写为

ε+++=2

2101700)/100]-[(t b 1700)/100-(t b b p

可作代换s=(t-1700)/100,用下列SAS 程序来计算

data uspop;

do t=1790 to 1970 by 10; input p @@;

s=(t-1700)/100; /*赋值语句计算出s 的值*/ ss=s*s; /*赋值语句计算出2

s ss =的值*/ output ; end ; cards ; 3929 5308

7239

9638

12866 17069 23191 31443 39818 50155

62947 75994 91972 105710 122775 131669 151325 179323 203211

;

proc reg ; model p =s ss; run ;

执行上述程序得到输出是

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Prob>F

Model 2 71799016190 35899508095 4641.719 0.0001 Error 16 123745565.08 7734097.8175 C Total 18 71922761755

Root MSE 2781.02460 R-square 0.9983 Dep Mean 69767.47368 Adj R-sq 0.9981 C.V. 3.98613

上表是方差分析表,可见线性关系是显著的。

Parameter Estimates

Parameter Standard T for H0:

Variable DF Estimate Error Parameter=0 Prob > |T|

INTERCEP 1 62145 7353.9933194 8.450 0.0001

S 1 -120562 8674.2709949 -13.899 0.0001 SS 1 63456 2387.6954064 26.576 0.0001

上表是参数估计表,可见所有自变量是显著的,经验回归回归方程是 263456s 120562s -62145p +=

21700)/100]-63456[(t 1700)/100-120562(t -62145p +=

例4.3可用程序 data corn;

input x y h;

t1=x;t2=y;t3=x*x;t4=x*y;t5=y*y;/*赋值语句计算出x 22

,,y xy x

的值*/

cards;

2 6 -11 2 5.5 0 …

4 4 27 ;

proc reg ; model h=t1-t5;

run;

多元统计分析与R语言建模考试试卷

.. .. 多元统计分析及R 语言建模考试试卷 一、简答题(共5小题,每小题6分,共30分) 1. 常用的多元统计分析方法有哪些? (1)多元正态分布检验 (2)多元方差-协方差分析 (3)聚类分析 (4)判别分析 (5)主成分分析 ______________ 课程类别 必修[ ] 选修[ ] 考试方式 开卷[ ] 闭卷[ ]

(7)对应分析 (8)典型相关性分析 ( 9)定性数据建模分析 (10)路径分析(又称多重回归、联立方程) (11)结构方程模型 (12)联合分析 (13)多变量图表示法 (14)多维标度法 2. 简单相关分析、复相关分析和典型相关分析有何不同?并举例说明之。 简单相关分析:简单相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。 复相关分析;研究一个变量 x0与另一组变量 (x1,x2,…,xn)之间的相关程度。例如,职业声望同时受到一系列因素(收入、文化、权力……)的影响,那么这一系列因素的总和与职业声望之间的关系,就是复相关。复相关系数R0.12…n的测定,可先求出 x0对一组变量x1,x2,…,xn的回归直线,再计算x0与用回归直线估计值悯之间的简单直线回归。复相关系数为R0.12…n的取值围为0≤R0.12…n≤1。复相关系数值愈大,变量间的关系愈密切。 典型相关分析就是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量U1和V1(分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。

多元统计分析实例汇总

多元统计分析实例 院系:商学院 学号: 姓名:

多元统计分析实例 本文收集了2012年31个省市自治区的农林牧渔和相关农业数据,通过对对收集的数据进行比较分析对31个省市自治区进行分类.选取了6个指标农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积. 数据如下表: 一.聚类法

设定4个群聚,采用了系统聚类法.下表为spss分析之后的结果.

Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 内蒙 5 -+ 吉林 7 -+ 云南 25 -+-+ 江西 14 -+ +-+ 陕西 27 -+-+ | 新疆 31 -+ +-+ 安徽 12 -+-+ | | 广西 20 -+ +-+ +-------+ 辽宁 6 ---+ | | 浙江 11 -+-----+ | 福建 13 -+ | 重庆 22 -+ +---------------------------------+ 贵州 24 -+ | | 山西 4 -+---+ | | 甘肃 28 -+ | | | 北京 1 -+ | | | 青海 29 -+ +---------+ | 天津 2 -+ | | 上海 9 -+ | | 宁夏 30 -+---+ | 西藏 26 -+ | 海南 21 -+ | 河北 3 ---+-----+ | 四川 23 ---+ | | 黑龙江 8 -+-+ +-------------+ | 湖南 18 -+ +---+ | | | 湖北 17 -+-+ +-+ +-------------------------+ 广东 19 -+ | | 江苏 10 -------+ | 山东 15 -----------+-----------+ 河南 16 -----------+

多元统计分析课后习题解答_第四章

第四章判别分析 简述欧几里得距离与马氏距离的区别和联系。 答:设p维欧几里得空间中的两点X= 和Y=。则欧几里得距离为 。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。 设X,Y是来自均值向量为,协方差为 的总体G中的p维样本。则马氏距离为D(X,Y)= 。当 即单位阵时,

D(X,Y)==即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。 试述判别分析的实质。 答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk是p维空间R p的k个子集,如果 它们互不相交,且它们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间 构造一个“划分”,这个“划分”就构成了一个判别规则。 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。

①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是 1 和 2, 对于一个新的样品X ,要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2(X ,G 2),则 X ,D 2(X ,G 1)D 2(X ,G 2) X ,D 2(X ,G 1)> D 2(X ,G 2, 具体分析, 2212(,)(,) D G D G -X X 111122111111 111222********* ()()()() 2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2() 22()2() ---''=-++-' +? ?=--- ??? ''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为 X ,W(X)

多元统计分析模拟考题及答案.docx

一、判断题 ( 对 ) 1 X ( X 1 , X 2 ,L , X p ) 的协差阵一定是对称的半正定阵 ( 对 ( ) 2 标准化随机向量的协差阵与原变量的相关系数阵相同。 对) 3 典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4 多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据 分析方法。 ( 错)5 X (X 1 , X 2 , , X p ) ~ N p ( , ) , X , S 分别是样本均值和样本离 差阵,则 X , S 分别是 , 的无偏估计。 n ( 对) 6 X ( X 1 , X 2 , , X p ) ~ N p ( , ) , X 作为样本均值 的估计,是 无偏的、有效的、一致的。 ( 错) 7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对) 8 因子载荷阵 A ( ij ) ij 表示第 i 个变量在第 j 个公因子上 a 中的 a 的相对重要性。 ( 对 )9 判别分析中, 若两个总体的协差阵相等, 则 Fisher 判别与距离判别等价。 (对) 10 距离判别法要求两总体分布的协差阵相等, Fisher 判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、 样本相关系数矩阵. 2、 设 是总体 的协方差阵, 的特征根 ( 1, , ) 与相应的单 X ( X 1,L , X m ) i i L m 位 正 交 化 特 征 向 量 i ( a i1, a i 2 ,L ,a im ) , 则 第 一 主 成 分 的 表 达 式 是 y 1 a 11 X 1 a 12 X 2 L a 1m X m ,方差为 1 。 3 设 是总体 X ( X 1, X 2 , X 3, X 4 ) 的协方差阵, 的特征根和标准正交特征向量分别 为: 1 2.920 U 1' (0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U 2' (0.9544, 0.0984,0.2695,0.0824) 3 0.049 U 3' (0.2516,0.7733, 0.5589, 0.1624) 4 0.007 U 4' ( 0.0612,0.2519,0.5513, 0.7930) ,则其第二个主成分的表达式是

多元统计分析第三章假设检验与方差分析

第3章 多元正态总体的假设检验与方差分析 从本章开始,我们开始转入多元统计方法和统计模型的学习。统计学分析处理的对象是带有随机性的数据。按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。 所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。 统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。参数估计问题回答诸如“未知参数θ的值有多大?”之类的问题,而假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断, 两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。 3.1一元正态总体情形的回顾 一、 假设检验 在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为0H 和1H 。 1、显著性检验 为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来自总体),(2 σμN 的样本,我们要检验假设 100:,:μμμμ≠=H H (3.1) 原假设0H 与备择假设1H 应相互排斥,两者有且只有一个正确。备择假设的意思是,一旦否定原假设0H ,我们就选择已准备的假设1H 。 当2 σ已知时,用统计量n X z σ μ -=

多元统计分析试题及答案

华南农业大学期末试卷(A 卷) 2006学年第2学期 考试科目:多元统计分析 考试类型:(闭卷) 考试时间:120 分钟 学号 姓名 年级专业 题号 一 二 三 四 五 六 七 八 总分 得分 评阅人 一、填空题(5×6=30) 22121212121~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ???+-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑、设则=服从。 ()1 2 34 433,4 92,32 16___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1, ,16(,),(,) 15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 (), 123设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111 X σ = 的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.83511 00.4170.8940.02700.8940.44730.8350.4470.1032013 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

多元统计分析方法

多元统计分析方法 Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】

多元统计分析概述 目录 一、引言 (3) 二、多元统计分析方法的研究对象和主要内容 (3) 1.多元统计分析方法的研究对象 (3) 2.多元统计分析方法的主要内容 (3) 三、各种多元统计分析方法 (3) 1.回归分析 (3) 2.判别分析 (6) 3.聚类分析 (8) 4.主成分分析 (10) 5.因子分析 (10) 6. 对应分析方法 (11) 7. 典型相关分析 (11) 四、多元统计分析方法的一般步骤 (12) 五、多元统计分析方法在各个自然领域中的应用 (12) 六、总结 (13) 参考文献 (14) 谢辞 (15)

一、引言 统计分布是用来刻画随机变量特征及规律的重要手段,是进行统计分布的基础和提高。多元统计分析方法则是建立在多元统计分布基础上的一类处理多元统计数据方法的总称,是统计学中的具有丰富理论成果和众多应用方法的重要分支。在本文中,我们将对多元统计分析方法做一个大体的描述,并通过一部分实例来进一步了解多元统计分析方法的具体实现过程。 二、多元统计分析方法的研究对象和主要内容 (一)多元统计分析方法的研究对象 由于大量实际问题都涉及到多个变量,这些变量又是随机变量,所以要讨论多个随机变量的统计规律性。多元统计分析就是讨论多个随机变量理论和统计方法的总称。其内容包括一元统计学中某些方法的直接推广,也包括多个随即便量特有的一些问题,多元统计分析是一类范围很广的理论和方法。 现实生活中,受多个随机变量共同作用和影响的现象大量存在。统计分析中,有两种方法可同时对多个随机变量的观测数据进行有效的分析和研究。一种方法是把多个随机变量分开分析,一次处理一个随机变量,分别进行研究。但是,这样处理忽略了变量之间可能存在的相关性,因此,一般丢失的信息太多,分析的结果不能客观全面的反映整个问题,而且往往也不容易取得好的研究结论。另一种方法是同时对多个随机变量进行研究分析,此即多元统计方法。通过对多个随即便量观测数据的分析,来研究随机变量总的特征、规律以及随机变量之间的相互

多元统计分析模拟试题教学提纲

多元统计分析模拟试 题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐 步判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、 极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 = 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转 化为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

应用多元统计分析试题及答案

一、填空题: 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立,则样本均值向量x服从的分布 为_x~N(μ,Σ/n)_。 二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A

和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。 从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI : /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

多元统计分析课后习题解答_第四章知识讲解

第四章判别分析 4.1 简述欧几里得距离与马氏距离的区别和联系。 答:设p维欧几里得空间中的两点X=和Y=。则欧几里得距离为 。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。 设X,Y是来自均值向量为,协方差为 的总体G中的p维样本。则马氏距离为D(X,Y)= 。当 即单位阵时, D(X,Y)==即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。 4.2 试述判别分析的实质。

答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk 是p 维空 间R p 的k 个子集,如果它们互不相交,且它们的和集为,则称为的一 个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划 分”,这个“划分”就构成了一个判别规则。 4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是μ1和μ 2,对于一个新的样品X , 要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2 (X ,G 2),则 X ,D 2 (X ,G 1) D 2(X ,G 2) X ,D 2(X ,G 1)> D 2 (X ,G 2, 具体分析, 2212(,)(,) D G D G -X X 111122111111 111222********* ()()()() 2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2() 22()2() ---''=-++-' +? ?=--- ?? ?''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为

多元统计分析模拟考题及答案

一、判断题 ( 对 )112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵 ( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。 ( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。 ( 错)5),(~),,,(21∑'=μp p N X X X X Λ,,X S 分别是样本均值和样本离差阵,则, S X n 分别是,μ∑的无偏估计。 ( 对)6),(~),,,(21∑'=μp p N X X X X Λ,X 作为样本均值μ的估计,是 无偏的、有效的、一致的。 ( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。 ( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等 价。 (对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设∑是总体1(,,)m X X X =L 的协方差阵,∑的特征根(1,,)i i m λ=L 与相应的单 位正交化特征向量 12(,,,)i i i im a a a α=L ,则第一主成分的表达式是 11111221m m y a X a X a X =+++L ,方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别 为:' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--

秋季多元统计分析考试答案

《多元统计分析》课程试卷答案 A 卷 2009年秋季学期 开课学院:理 考试方式:√闭卷、开卷、一纸开卷、其它 考试时间:120 分钟 班级 姓名 学号 散卷作废。 一、(15分)设()∑????? ??=,~3321μN x x x X ,其中????? ??-=132μ,??? ? ? ??=∑221231111, 1.求32123x x x +-的分布; 2. 求二维向量???? ??=21a a a ,使3x 与??? ? ??'-213x x a x 相互独立。 解:1.32123x x x +-()CX x x x ???? ? ? ??-=321123,则()C C C N CX '∑,~μ。(2分) 其中:μC ()13132123=????? ??--=,()9123221231111123=??? ? ? ??-????? ??-='∑C C 。(4分) 所以32123x x x +-()9,13~N (1分) 2. ????? ?????? ??'-213 3x x a x x =AX x x x a a ????? ? ?????? ??--3212 1110 ,则()A A A N AX '∑,~2μ。(1分) 其中: 订 线 装

μA ???? ??++-=???? ? ??-???? ??--=132113********* a a a a ,(1分) ??? ? ??+--+++--+--='???? ??--???? ? ?????? ??--='∑242232222211002212311111100 2121222121212121 a a a a a a a a a a a a a a A A (2分) 要使3x 与???? ??'-213x x a x 相互独立,必须02221=+--a a ,即2221=+a a 。 因为2221=+a a 时24223212122 21 +--++a a a a a a 0>。所以使3x 与??? ? ??'-213x x a x 相互独立,只要 ???? ??=21a a a 中的21,a a 满足2221=+a a 。 (4分) 二、(14分)设一个容量为n=3的随机样本取自二维正态总体,其数据矩阵为 ??? ? ? ??=3861096X ,给定显著性水平05.0=α, 1. 求均值向量μ和协方差矩阵∑的无偏估计 2. 试检验,38:H 0???? ??=μ .38:H 1??? ? ??≠μ (已知F 分布的上α分位数为19)2,2(F ,5.199)1,2(F ,51.18)2,1(F 0.050.050.05===) 解:1、??? ? ??==∑=68X n 1X n 1i i (3分) ???? ??--='--=∑=9334)X X ()X X (1-n 1S i n 1i i (3分) 2、,38:H 0???? ??=μ .38:H 1??? ? ??≠μ…(1分)

多元统计分析案例分析.docx

精品资料 一、对我国30个省市自治区农村居民生活水平作聚类分析 1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。现从2010年的调查资料中

2、将数据进行标准化变换:

3、用K-均值聚类法对样本进行分类如下:

分四类的情况下,最终分类结果如下: 第一类:北京、上海、浙江。 第二类:天津、、辽宁、、福建、甘肃、江苏、广东。 第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。 第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。 二、判别分析 针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下:

**. 错误分类的案例 从上可知,只有一个地区判别组和原组不同,回代率为96%。 下面对新疆进行判别: 已知判别函数系数和组质心处函数如下: 判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7 Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7 将西藏的指标数据代入函数得:Y1=-1.08671 Y2=-0.62213 Y3=-0.84188 计算Y值与不同类别均值之间的距离分别为:D1=138.5182756 D2=12.11433124 D3=7.027544292 D4=2.869979346 经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。 三,因子分析: 分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。经spss软件分析结果如下:

多元统计分析-第三章 多元正态分布

第三章 多元正态分布 多元正态分布是一元正态分布在多元情形下的直接推广,一元正态分布在统计学理论和应用方面有着十分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。多元分析中的许多理论都是建立在多元正态分布基础上的,要学好多元统计分析,首先要熟悉多元正态分布及其性质。 第一节 一元统计分析中的有关概念 多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,学习多元统计分析,首先要对随机向量和随机矩阵有所把握,为了学习的方便,先对一元统计分析中的有关概念和性质加以复习,并在此基础上推广给出多元统计分析中相应的概念和性质。 一、随机变量及概率分布函数 (一)随机变量 随机变量是随机事件的数量表现,可用X 、Y 等表示。随机变量X 有两个特点:一是取值的随机性,即事先不能够确定X 取哪个数值;二是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。 (二)随机变量的概率分布函数 随机变量X 的概率分布函数,简称为分布函数,其定义为: )()(x X P x F ≤= 随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。 1、离散型随机变量的概率分布 若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。 设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p ,…, 记为 k k p x X P ==)((Λ,2,1=k ) 称k k p x X P ==)((Λ,2,1=k )为离散型随机变量X 的概率分布。 离散型随机变量的概率分布具有两个性质: (1) 0≥k p ,Λ,2,1=k (2)11 =∑ ∞ =k k p 2、连续型随机变量的概率分布 若随机变量X 的分布函数可以表示为 dt t f x F x ?∞-=)()( 对一切R x ∈都成立,则称X 为连续型随机变量,称 )(x f 为X 的概率分布密度函数,简

多元统计分析模拟试题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A 卷 判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步 判另0法 Q 型 聚类分析是对样品的分类,R 型聚类分析是对变量」i 勺分类。 主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极 大似然法 聚类分析包括系统聚类法、模糊聚类分析、K ?均值聚类分析 分组 数据的Logistic 回归存在 异方差性,需要采用加权最小二乘估计 误差项的路径系数可山多元回归的决定系数算岀,他们之间的关系为 主成分分析是利用軽的思想,在损失很少的信息前提下,把多个指标转化 为儿个综合指标的多元统计方法。 在进行主成分分析时,我们认为所取的m (m

最新多元统计分析第三章 假设检验与方差分析

多元统计分析第三章假设检验与方差分析

第3章 多元正态总体的假设检验与方差分析 从本章开始,我们开始转入多元统计方法和统计模型的学习。统计学分析处理的对象是带有随机性的数据。按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。 所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。 统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。参数估计问题回答诸如“未知参数θ的值有多大?”之类的问题,而假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断, 两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。 3.1一元正态总体情形的回顾 一、 假设检验 在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为0H 和1H 。 1、显著性检验 为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来自总体),(2 σμN 的样本,我们要检验假设 100:,:μμμμ≠=H H (3.1) 原假设0H 与备择假设1H 应相互排斥,两者有且只有一个正确。备择假设的意思是,一旦否定原假设0H ,我们就选择已准备的假设1H 。 当2 σ已知时,用统计量n X z σ μ -=

多元统计分析期末试题及答案.doc

22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92,32 16___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

多元统计分析重点归纳.归纳.docx

多元统计分析重点宿舍版 第一讲:多元统计方法及应用;多元统计方法分类(按变量、模型、因变量等) 多元统计分析应用 选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分析,因子分析 ②分类和组合运用的方法有:判别分析,聚类分析,主成分分析 ③变量之间的相关关系运用的方法有:多元回归,主成分分析,因子分析, ④预测与决策运用的方法有:多元回归,判别分析,聚类分析 ⑤横贯数据:{因果模型(因变量数):多元回归,判别分析相依模型(变量测度):因子分析,聚类分析 多元统计分析方法 选择题:①多元统计方法的分类:1)按测量数据的来源分为:横贯数据(同一时间不同案例的观测数据),纵观数据(同样案例在不同时间的多次观测数据) 2)按变量的测度等级(数据类型)分为:类别(非测量型)变量,数值型(测量型)变量 3)按分析模型的属性分为:因果模型,相依模型 4)按模型中因变量的数量分为:单因变量模型,多因变量模型,多层因果模型 第二讲:计算均值、协差阵、相关阵;相互独立性 第三讲:主成分定义、应用及基本思想,主成分性质,主成分分析步骤 主成分定义:何谓主成分分析 就是将原来的多个指标(变量)线性组合成几个新的相互无关的综合指标(主成分),并使新的综合指标尽可能多地反映原来的指标信息。 主成分分析的应用 :(1)数据的压缩、结构的简化;(2)样品的综合评价,排序 主成分分析概述——思想:①(1)把给定的一组变量X1,X2,…XP ,通过线性变换,转换为一组不相关的变量Y1,Y2,…YP 。(2)在这种变换中,保持变量的总方差(X1,X2,…Xp 的方差之和)不变,同时,使Y1具有最大方差,称为第一主成分;Y2具有次大方差,称为第二主成分。依次类推,原来有P 个变量,就可以转换出P 个主

多元统计分析讲义(第四章)

Equation Chapter 1 Section 1 Array《多元统计分析》 Multivariate Statistical Analysis ; ^ ) 主讲:统计学院许启发() 统计学院应用统计学教研室 School of Statistics 2004年9月

第三章 主成分分析 【教学目的】 1.让学生了解主成分分析的背景、基本思想; 2.掌握主成分分析的基本原理与方法; 3.掌握主成分分析的操作步骤和基本过程; 4.] 5.学会应用主成分分析解决实际问题。 【教学重点】 1.主成分分析的几何意义; 2.主成分分析的基本原理。 §1 概述 一、什么是主成分分析 1.研究背景 在实际问题的研究中,为了全面分析问题,往往涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同。实际上,在很多情况下,众多变量间有一定的相关关系,人们希望利用这种相关性对这些变量加以“改造”,用为数较少的新变量来反映原变量所提供的大部分信息,通过对新变量的分析达到解决问题的目的。主成分分析及典型相关分析便是在这种降维的思维下产生的处理高维数据的统计方法。本章主要介绍主成分分析。 主成分分析的基本方法是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量。 > 概括地说,主成分分析(principal component analysis )就是一种通过降维技术把多个指标约化为少数几个综合指标的综合统计分析方法,而这些综合指标能够反映原始指标的绝大部分信息,它们通常表现为原始几个指标的线性组合。主成分概念最早是由Karl Parson 于1901年引进的,1933年Hotelling 把这个概念推广到随机向量。在实践中,主成分分析既可以单独使用,也可和其它方法结合使用,如主成分回归可克服多重共线性。 2.基本思想及意义 哲学理念:抓住问题的主要矛盾。 主成分分析将具有一定相关性的众多指标重新组合成新的无相互关系的综合指标来代替。通常数学上的处理就是将这p 个指标进行线性组合作为新的综合指标。问题是:这样的线性组合会很多,如何选择 如果将选取的第一个线性组合即第一个综合指标记为1F ,希望它能尽可能多地反映原来指标的信息,即1()Var F 越大,1F 所包含的原指标信息①就越多,1F 的方差应该最大,称1F 为第一主成分。 如果第一主成分1F 不足以代表原来p 个指标的信息,再考虑选取2F 即选择第二个线性组合。为了有效地反映原来的信息,1F 中已包含的信息,无须出现在2F 中,即12(,)0Cov F F ,称2F 为第二主成分。 仿此可以得到p 个主成分。 ① 度量信息最经典的方差是方差。

多元统计分析模拟试题

多元统计分析模拟试题 Company Document number:WTUT-WT88Y-W8BBGB-BWYTT-19998

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐 步判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、 极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 P e=√1?R2 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转 化为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

相关文档
相关文档 最新文档