文档库 最新最全的文档下载
当前位置:文档库 › 杨虎判别分析1

杨虎判别分析1

杨虎判别分析1
杨虎判别分析1

一、 聚类分析简介:

(一) 距离和相似系数:

本节介绍两种相似性度量:距离和相似系数。距离用来度量样品之间的相似性,相似系数用来度量变量之间的相似性。

1、 变量类型:

距离和相似系数的定义与变量类型有关,通常变量按测量尺度的不同可分为以下3类: (1) 间隔尺度变量:变量用连续的量来表示,如长度、重量、速度及温度等。 (2) 有序尺度变量:变量度量时不用明确的数量来表示,而是用等级来表示, 如产品的等级、比赛的名次等。 (3) 名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量

关系,如性别、职业以及产品的型号。 2、 距离:

设X 1,X 2,…,X n 为取自p 元总体的样本,记第i 个样品

),,2,1)(,,,(21n i x x x X ip i i i ==。聚类分析中常用的距离有以下几种: (1) 闵可夫斯基(Minkowski )距离:

第i 个样品X i 和第j 个样品X j 之间的闵可夫斯基距离(也称“明氏距离”)定义为

n j n i x x q d q

p

k q jk ik ij ,,2,1;,,2,1,)(/11 ==??

?

?

??-=∑= 其中,q 为正整数。

特别地,当q=1时,∑=-=p

k jk ik ij x x d 1

)1(称为绝对值距离;

当q=2时,2

/112)()2(??

????-=∑=p k jk ik ij x x d 称为欧氏距离; 当jk

ik p

k ij x x d q -=∞∞→≤≤1max )(时,称为切比雪夫距离。 注意:当各变量的单位不同或测量值范围相差很大时,不应直接采用闵可夫斯基距离,应先用各变量的观测数据做标准化处理。 (2) 兰氏(Lance 或Williams )距离: 当),,2,1;,,2,1(0p k n i x ik ==>时,定义第i 个样品X i 和第j 个样品X j 之间的兰氏距离为

n j n i x x x x L d p

k jk

ik jk ik ij

,,2,1;,,2,1,)(1 ==+-=∑= 兰氏距离与各变量的单位无关,它对大的异常值不敏感,故适用于高度偏斜的数

据。

(3) 马哈拉诺比斯(Mahalanobis )距离:

第i 个样品X i 和第j 个样品X j 之间的马哈拉诺比斯(简称马氏距离)定义为

n j n i X X S X X M d j

i j i ij ,,2,1;,,2,1,)()()(1

=='--=- 其中,S 为样本协方差矩阵。若将S 换为对角矩阵D ,其中D 的对角线上第k 个元

素为第k 个变量(注意不是样品)的方差,则此时的距离称为标准化欧氏距离。 (4) 斜交空间距离:

第i 个样品X i 和第j 个样品X j 之间的斜交空间距离定义为:

n j n i r x x x x p d p k p

l kl jl il jk ik ij ,,2,1;,,2,1,))((12

/1112

* ==??

????--=∑∑== 其中,r kl 是变量x k 与变量x l 间的相关系数。

3、 相似系数;

聚类分析中常用的相似系数有以下2种: (1) 夹角余弦:

变量x i 与x j 的夹角余弦定义为

p j p i x x x x C n

k kj n k ki n

k kj

ki ij ,,2,1;,,2,1,))(()1(2/112121

==??

????=∑∑∑

=== 它是变量x i 的观测值向量),,,(21'mi i i x x x 和变量x j 的观测值向量),,,(21'nj

j j x x x 间夹角的余弦。

(2) 相关系数:

变量x i 与x j 的相关系数定义为 p

j p i x x x x x x x x C n k j kj n k i ki n

k j

kj

i

ki

ij

,2,1;,,2,1,)()())(()2(12

2

11

==??????-???

?????---=∑∑∑

=== 其中,p j p i x n x x n x n

k kj

j n k ki i ,,2,1;,,2,1,1

,11

1 ====∑∑==。由相似系数还可以定义变量间距离,如

p j p i C d ij

ij ,,2,1;,,2,1,1 ==-= (二) 系统聚类法

1、 系统聚类法的基本思想:

聚类开始时将n 个样品(或p 个变量)各自作为一类,并规定样品(或变量)之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类(简称为并类),计算新类与其他类之间的距离,重复进行两个最近类的合并,每次减少一类,直至所有的样品(或变量)合并为一类。最后形成一个亲疏关系图谱(聚类树形图或谱系图),通常从图上能清晰地看出应分成几类以及每一类所包含的样品(或变量)。除此之外,也可借助统计量来确定分类结果。

在聚类分析中,通常用G 表示类,假定G 中有m 个元素(即样品或变量),不失一般化,用列向量x i (i=1,2,…,m)来表示,d ij 表示元素x i 与x j 之间的距离,D KL

表示类G K 与类G L 之间的距离。类与类之间用不同的方法定义距离,就产生了一下不同的系统聚类方法。

2、 最短距离法(single linkage method )

定义类与类之间的距离为两类最近样品间的距离,即

{}L j K i ij KL G x G x d D ∈∈=,:min 若进一步类G K 与类G L 聚成一个新类,记为G M ,类G M 与任意已有类G J 之间的距离为 {}L K J D D D LJ

KJ MJ ,,,min ≠= 最短距离法聚类的步骤如下:

(1)将初始的每个样品(或变量)各自作为一类,并规定样品(或变量)之间的距离,通常采用欧氏距离。计算n 个样品(或p 个变量)的距离矩阵D (0),它是一个对称矩阵。

(2)寻找D (0)中最小元素,设为D KL ,将G K 和G L 聚成一个新类,记为G M ,即G M ={G K ,G L }。

(3)计算新类G M 与任一类G J 之间距离的递推公式为

{}LJ

KJ ij G x G x ij G x G x ij G x G x MJ D D d d d D J j L i J j K i J j M i ,min min ,min min min ,,,=????

??==∈∈∈∈∈∈ (1) 对距离矩阵D (0)进行修改,将G K 和G L 所在的行和列合并成一个新行新列,对应G M ,新行和新列上的新距离由式(1)计算,其余行列上的值不变,这样得到的新距离矩阵记为D (1)。

(4)对D (1)重复上述对D (0)的2步操作,得到距离矩阵D (2);如此下去,直至所有元素合并成一类为止。

【例1】设有5个样品,每个只测量了一个指标,指标值分别为1,2,6,8,11。若样品间采用绝对值距离,下面用最短距离法对这五个样品进行聚类,过程如下。 (1)将5个样品各自作为一类,分别记为G 1,G 2,…,G 5,计算样品间初始距离矩阵D (0),如表1所列。

表1 初始距离矩阵D (0)

G 1 G 2 G 3 G 4 G 5 G 1 0 G 2 1 0 G 3 5 4 0 G 4 7 6 2 0 G 5 10 9 5 3 0 (2)D (0)中最小元素是D 12=1,于是将G 1和G 2合并成G 6,得到距离矩阵D (1),如表2所列。

表2 距离矩阵D (1)

G 6 G 3 G 4 G 5 G 6 0 G 3 4 0 G 4 6 2 0

G 5 9 5 3 0 (3)D (1)中最小元素是D 34=2,于是将G 3和G 4合并成G 7,得到距离矩阵D (2),如表3所列。

表3 距离矩阵D (2) G 6 G 7 G 5

G 6 0

G 7 4 0 G 5 9 3 0

(4)D (2)中最小元素是D 57=3,于是将G 5和G 7合并成G 8,得到距离矩阵D (3),如表4所列。

表4 距离矩阵D (3)

G 6 G 8 G 6 0 G 8 4 0

(5)最后将G 6和G 8合并成G 9,这时所有5个样品聚为一类,聚类结束。 根据以上聚类过程作出聚类树形图,如图1所示。

1 1.52

2.53

3.54

G1={1}

G2={2}

G3={6}

G4={8}

G5={11}

并类距离

G6

G7

G8

G9

从图1可看出,分成2类或3类较为合适。

3、 最长距离法(complete linkage method )

类与类之间的距离定义为两类最远样品间的距离,即

{}L

j K i ij KL G x G x d D ∈∈=,:max 类间距离的递推公式为

{}L K J D D D LJ

KJ MJ ,,,max ≠= (2) 4、 中间距离法:

类与类之间的距离采用中间距离。设某一步将类G K 与类G L 聚成一个新类,记为G M ,对于任一类G J ,考虑由D KJ 、D LJ 和D KL 为边长构成的三角形,取D KL 边的中线记作D MJ 。从而得类间平方距离的递推公式为

2222

4

12121KL

LJ KJ MJ D D D D -+= (3) 式子(3)可推广至更一般的情况

2

222)2

-1KL

LJ KJ MJ D D D D ββ++=( (4) 其中,1<β,式子(4)对应的系统聚类方法称为可变法。

5、 重心法(centroid hierarchical method )

类与类之间的距离定义为它们的重心(即类均值)之间的欧氏距离。设G K 中有n k 个元素,G L 中有n L 个元素,定义类G K 和G L 的重心分别为

∑∑====L

K n

i

i L L n i i K K x n x x n x 111,1

则G K 和G L 之间的平方距离为

[]

)()(),(2

2

L

K L K L K KL x x x x x x d D -'-== 类间平方距离的递推公式为

22

222KL M

L K LJ M L KJ M K MJ D n n n D n n D n n D -+= (5) 6、 类平均法(average linkage method )

类与类之间的平方距离定义为样品对之间平方距离的平均值。G K 和G L 之间的平方距离为

∑∈∈=L

j K i G x G x ij L K KL d n n D ,2

1

类间平方距离的递推公式为

222LJ

M

L

KJ M K MJ D n n D n n D += (6) 类平均法很好地利用了所有样品之间的信息,在很多情况下它被认为是一种比较好的系统聚类法。

可在式子(6)中增加2

KL D 项,将式子(6)进行推广,得到类间平方距离的递推公式为

2222)1(KL LJ M L KJ M K MJ D D n n D n n D ββ+??????+-= (7) 其中,β<1,称此时的系统聚类法为可变类平均法。

7、 离差平方和法(Ward 方法)

离差平方和法又称为Ward 方法,它把方差分析的思想用于分类上,同一个类内的离差平方和小,而类间离差平方和应当大。类中各元素到类重心(即类均值)的平方欧式距离之和称为类内离差平方和。设某一步G K 和G L 聚成一个新类G M ,则G K 、G L 和G M 的类内离差平方和分别为

∑∈-'-=K

i G x K

i K i K x x x x W )()( ∑∈-'-=L

i G x L

i L i L x x x x W )()( ∑∈-'-=M

i G x M

i M i M x x x x W )()( 它们反映了类内元素的分散程度。将G K 和G L 合并成新类G M 时,类内离差平方和会

有所增加,即0)(>+-L

K M W W W ,若G K 和G L 距离比较近,则增加的离差平方和应应较小,于是定义G K 和G L 的平方距离为

)()()(2L

K L K M

L

K L K M KL x x x x n n n W W W D -'-=+-= 类间平方距离的递推公式为

2222KL

M

J J

LJ M J L J KJ M J k J MJ D n n n D n n n n D n n n n D +-+++++= (8) 8、 系统聚类法的统一

通常有8种系统聚类法,它们的不同之处就在于类间距离的递推公式不一样。1969年,Wishart(威沙特)将8种不同的距离计算公式统一为

2

22222LJ

KJ KL LJ L KJ K MJ D D D D D D -+++=γ

βαα (9) 其中,γβαα,,,L

K 为参数,不同的系统聚类法,对应参数的不同取值,具体对应关系如表5所列。

表5 系统聚类法递推公式参数表 方法 αK αL β γ 最短距离法 1/2 1/2 0 -1/2 最长距离法 1/2 1/2 0 1/2 中间距离法 1/2 1/2 -1/4 0 可变法 (1-β)/2 (1-β)/2 β(<1) 0 重心法 n K /n M n L /n M 2M L K n n

n -

0 类平均法 n K /n M n L /n M 0

0 可变类平均法 (1-β)n K /n M

(1-β) n L /n M β(<1)

0 离差平方和法

M

J K J n n n n ++

M

J L J n n n n ++ M

J J

n n n +

9、 系统聚类法的评价:

对于同样的观测数据,用不同的方法进行聚类,得到的结果可能并不完全相同,于是产生一个问题:应当选取哪一个聚类结果为好?为此,下面简要介绍系统聚类法的性质。

(1) 单调性:

令D i 是系统聚类过程中第i 次并类时的距离,若有L D D ≤

≤21,则称此系统聚类法具有单调性。在8种系统聚类法中,最短聚类法、最长距离法、可变法、类平

均法、可变类平均法和离差平方和法具有单调性,而中间距离法和重心法不具有单调性。

(2) 空间的浓缩与扩张:

针对同一问题,用不同系统聚类法进行聚类,作出的聚类树形图的横坐标(并类距离)的范围相差很大。范围小的方法区别类的灵敏度差,而范围太大的方法灵敏度又过高,范围以适中为好。

设A=(a ij )和B=(b ij )为两个元素非负的同型矩阵,若ij ij b a ≥(对任意i,j ),则记作B A ≥(注意与非负定区分开)。

设有甲、乙两种系统聚类方法,第i 步的距离矩阵分别为A i 和B i ,若

)1,,2,1(-=≥n i B A i i ,则称甲方法比乙方法更使空间扩张,或称乙方法比甲方法更使空间浓缩。与类平均法相比,最短距离法和重心法使空间浓缩,最常距离法

和离差平方和法使空间扩张,太浓缩的方法不够灵敏,太扩张的方法又容易失真,而类平均法比较适中,既不太浓缩,也不太扩张,因此它被认为是一种比较理想的方法。

(三) K 均值聚类法

K 均值聚类法又称为快速聚类法,是由麦奎因(MacQueen )于1967年提出并命名的一种聚类方法,其基本步骤为:

1、选择k 个样品作为初始凝聚点(凝聚种子),或者将所有样品分成k 个初始类,然后将k 个类的重心(均值)作为初始凝聚点。

2、对除凝聚点之外的所有样品逐个归类,将每个样品归入离它最近的凝聚点所在的类,该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。

3、重复步骤2,直至所有样品都不能再分配为止。

注意:K 均值聚类的最终聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。

(四) 模糊C 均值聚类法

在很多分类问题中,分类对象之间没有明确的界限,往往具有亦此亦彼的表现。例如好与坏之间没有明确的界限,我认为某个人是好人,别人未必这么认为;高与矮之间也没有明确的界限,多高的人才是高人,可能每个人有每个人的判断。诸如此类问题,如果用传统的聚类方法(系统聚类法或K 均值聚类法等)进行分类,把每个待分类的对象严格地划分到某个类中,这也存在一定的不合理性。为此,借助于L.A.Zadeh 提出的模糊集理论,人们开始用模糊的方法来处理聚类问题,并称之为模糊聚类分析。

给定样本观测数据矩阵

???????

??

??

??

?=????????????=np n n p p n x x x x x x x x x x x x X

21222211121121 (10) 其中,X 的每一行为一个样品(或观测),每一列为一个变量的n 个观测值,也就是说X 是由n 个样品(x 1,x 2,…,x n )的p 个变量的观测值构成的矩阵。模糊聚类就

是将n 个样品划分为c 类)2n c ≤≤(,记{}c

v v v V ,,,21 =为c 个类的聚类中心,其中),,2,1)(,,,(21c i v v v v ip i i i ==。在模糊划分中,每一个样品不是严格地划分为某一类,而是以一定的隶属度属于某一类。

令u ik 表示第k 个样品x k 属于第i 类的隶属度,这里1,101=

≤≤∑=c

i ik ik u u 。定义目标函数

∑∑===n

k c

i ik m ik d u V U J 112

),( (11)

其中,n c ik u U ?=)(为隶属度矩阵,i k ik v x d -=。显然J(U,V)表示了各类中样品到聚类中心的加权平方距离之和,权重是样品x k 属于第i 类的隶属度的m 次方。模糊C 均值聚类法的聚类准则是求U,V,使得J(U,V)取得最小值。模糊C 均值聚类法的具体步骤如下:

1、确定类的个数c ,幂指数m>1和初始隶属度矩阵)()

0()0(ik u U =,通常的做法是取[0,1]上的均匀分布随机数来确定初始隶属度矩阵U (0)。令1=l 表示第一步迭代。

2、通过下式计算第l 步的聚类中心)(l V :

c i u

x u

V n

k m l ik

n

k k

m

l ik l i ,,2,1,)

()(1

)1(1)1()

( ==∑∑=-=-

3、 修正隶属度矩阵)

(l U

,计算目标函数值)(l J 。

n k c i d d u c

j m l jk

l ik

l ik

,,2,1;,,2,1,)/(/11

12)()()( ===∑

=- ∑∑===n k c

i l ik

m l ik l l L d u V U J 11

2

)()()

()

()

()()(),( 其中,)

()(l i

k l ik v x d -=。 4、对给定的隶属度终止极限0>u ε(或目标函数终止容限0>J ε,或最大迭

代步长L max ),当{}

u l ik l ik u u ε<--)1()(max (或当max

)1()(,,1L l J J l J l l ≥<->-或ε)时,停止迭代,否则1+=l l ,然后转2.

经过以上步骤的迭代之后,可以求得最终的隶属度矩阵U 和聚类中心V ,使得目标函数J(U,V)的值达到最小。根据最终的隶属度矩阵U 中元素的取值可以确定所有样品的归属,当{}ik

c

i jk u u ≤≤=1max 时,可将样品x k 归为第j 类。 二、 案例1:系统聚类法的案例分析

(一)系统聚类法的matlab 函数:

与系统聚类法相关的matlab 函数有:pdist 、 squareform 、 linkage 、

dendrogram 、 cophenet 、 inconsistent 、cluster 和clusterdata ,下面分别进行介绍。

1、pdist函数:

pdist函数用来计算构成样品对的样品之间的距离,其调用格式如下:

(1)y=pdist(X)

计算样品对的欧式距离。输入参数X是p

n 的矩阵,如式子(10)所示,矩

阵的每一行对应一个观测(样品),每一列对应一个变量。输出参数y是一个包含n(n-1)/2个元素的行向量,用(i,j)表示由第i个样品和第j个样品构成的样品对,则y中的元素依此是样品对(2,1),(3,1),…(n,1),(3,2),…,(n,2), …,(n,n-1)的距离。

为了节省存储空间和计算时间,y被设定成向量形式,可以用squareform函

数将y转成方阵形式。例如:

x=[1,2,6,8,11]'; %例1中的观测数据

y=pdist(x) %计算样品间欧式距离

y =

1 5 7 10 4 6 9

2 5 3

D=squareform(y) %将距离向量转为距离矩阵

D =

0 1 5 7 10

1 0 4 6 9

5 4 0 2 5

7 6 2 0 3

10 9 5 3 0

其中,D矩阵就是表1中的距离矩阵。

(2)y=pdist(X,metric)

计算样品对的距离,用输入参数metric指定计算距离的方法,metric为字符串,可用的字符串如表6所列。

表6 pdist函数支持的各种距离

Metric参数取值说明

'euclidean' 欧氏距离,为默认情况

'seuclidean' 标准化欧式距离

'mahalanobis' 马哈拉诺比斯距离

'cityblock' 绝对值距离(或城市街区距离)

'minkowski' 闵可夫斯基距离

'cosine' 把样品作为向量,样品对距离为1减去样品对向量的夹角余弦'correlation' 把样品作为数值序列,样品对距离为1减去样品对的相关系数'spearman' 把样品作为数值序列,样品对距离为1减去样品对的Spearman

秩相关系数

'hamming' 汉明(Hamming)距离,即不一致坐标所占的百分比

'jaccard' 1减去Jaccard系数,即不一致的非零坐标所占的百分比

'chebychev' 切比雪夫距离

判别分析与聚类分析 数据分析

Matlab 求解 (贵大 杨虎)

判别分析(discriminant analysis )是对未知类别的样品进行归类的一种方法。虽然也是对样品进行分类,但它与聚类分析还是不同的。聚类分析的研究对象还没有分类,就是要根据抽取的样本进行分类,而判别分析的研究对象已经有了分类,只是根据抽取的样本建立判别公式和判别准则,然后根据这些判别公式和判别准则,判别未知类别的样品所属的类别。

判别分析有着非常广泛的应用,比如在考古学上,根据出土物品判别墓葬年代、墓主人身份、性别;在医学上,根据患者的临床症状和化验结果判断患者疾病的类型;在经济学上,根据各项经济发展指标判断一个国家经济发展水平所属的类型;在模式识别领域,用来进行文字识别、语音识别、指纹识别等。

本章主要内容包括:距离判别、贝叶斯(Bayes )判别和Fisher 判别(又称典型判别)的理论简介,判别分析的MATLAB 实现,判别分析具体案例。

10.1 判别分析简介

10.1.1 距离判别

1.马氏距离(Mahalanobis 距离)

设G 为P 维总体,它的分布的均值向量和协方差矩阵分别为

12p μμμμ??

????=????

????

1112121

22212p p p p pp σσσσσσσσσ??????∑=???????? 设'

12(,,,)p x x x x =???,'12(,,,)p y y y y =???为取自总体G 的两个

样品,假定0∑

>(∑为正定矩阵),定义,x y 间的平方马氏距离为

2'1

(,)()()d x y x y x y -=-∑- 定义x 到总体G 的平方马氏距离为

2'1

(,)()()d x G x x μμ-=-∑-

2.两总体距离判断

设有两个p 维总体1G 和2G ,分布的均值向量分别为12μμ、,协方差矩阵分别为120,0∑>∑>。从两总体中分别为抽取容量为

12,n n 的样本,记为1

11121,,,n

x x x ???和2

21222,,,n x x x ???。

现有一未知类别的样品,记为x ,试判断x 的归属,则有以下判别规则

22112222122212,(,)(,),(,)(,)(,)(,)

x G d x G d x G x G d x G d x G d x G d x G ?∈?

?=?

若若待判,若 (10.1) 式(10.1)中的距离通常为马氏距离。在采用马氏距离的情况下,下

面分情况讨论。

(1)12∑=∑=∑已知时

将距离2

2(,)d x G 和21(,)d x G 相减可得

22'11212211(,)(,)()()()'()d x G d x G x x x x μμμμ---=-∑---∑-=

'1

1212()2[]()2

x μμμμ-+-∑-

112

1212'',()(,,,)'

2

()()()

p a a a a W x x a a x μμμμμμμ-+=

=∑-==-=-

则判别规则还可表示为

12,()0,()0

()0x G W x x G W x W x ∈>??

若若待判,若 (10.2)

称W(x)为两组距离判别的线性判别函数,a 为判别系数

(2)12∑=∑=∑未知时 令

'

11

1122112211211

,(),1,21(1)(1),,2

i i

n n i ij i

ij i j j i i p x x S x x i n n n S n S x x S n n μμ==∧

=

=-=--+-==∑==

+-∑∑ 即由样本得出12μμ∧

∑,

,的估计,从而可得a 和W(x)的估计

'

12

1

12(),()()2

P x x a S x x W x a x ∧

∧-+=-=- 只需将式(10.2)中的W(x)换为?()W

x ,即可得此时的判别规则。 (3)1

2∑≠∑已知时

22

1

2()(,)(,)J x d x G d x G =- 则J(x)为二次判别函数,判别规则为

12,()0,()0

()0

x G x x G x x ∈>??

(4) 12∑≠∑未知时

在实际问题中,这种情况最为常见,此时由样本对

1212??μ

μ∑∑,,,进行估计 12121122??

??=,,,x x S S μ

μ=∑=∑= 于是可得平方马氏距离的估计和二次判别函数的估计

212212

?(,)()(),1,2???()(,)(,)i i i i

d x G x x S x x i J x d x G d x G -'=--==- 将式(10.3)中的J(x)换为?()J

x ,即可得此种情况的判别规则。

3.多总体距离判别

设有k 个p 维总体12,,,k G G G ,分布的均值向量分别为

12,,,k μμμ ,协方差矩阵分别为120,0,,k ∑>∑>∑ 。从k 个总

体中分别抽取容量为12,,,k n n n ???的样本,记为

12

111212122212,,,,,,,,,k

n n k k kn x x x x x x x x x

现有一未知类别的样品,记为x ,试判断x 的归属,判别规则为

22

1,(,)min (,)i i i j k

x G d x G d x G ≤≤∈=若 (10.4) 类似于两个的距离判别,下面也分情况讨论。 (1)12k ∑=∑==∑=∑ 已知时

21111

(,)()()2i i i i i i d x G x x x x x μμμμμ----''''=-∑-=∑-∑+∑=

1

1

112()2i i i x x x μμμ---??'''∑-∑-∑????

1

1

1,,1,2,,2

i i i i i I c i k μμμ--'=∑=-∑=

21

(,)2(),1,2,,i

i i d x G x x I x c i k -''=∑-+=

由于每一个距离中都有一个公共的二次项,故可不予考虑,只需考虑

其线性部分。令

(),

1,2,,i i

i W x I x c i k '=+=

则判别规则改为

1,()max ()i i j j k

x G W x W x ≤≤∈=若 (10.5)

称()i W x 为第i 个线性判别函数,i I 为判别系数,i c 为常数项。

(2) 12k ∑=∑==∑=∑ 未知时

1

11

111,()(),1,2,,11??,1,2,,,,(1)i

i

n n i i i ij i ij ij j j i

i k

k i i i p

i i i i x x S x x x x i k

n n x i k n n S n S n k μ===='=

=--=-===∑==--∑∑∑∑ 即由样本得出,i μ∑的估计,从而可得()i i i I c W x 、和的估计

11

1?????,,(),1,2,,2

i i i i P i P i i

i I S x c x S x W x I x c i k --''==-=+=

将式(10.5)中的()i W x 换为?()i

W x ,即可得此种情况的判别规则。 (3)12,,,k ∑∑∑ 不全相等并且未知时 令

2

1

?(,)()(),1,2,,i i i p d x G x x S x x i k -'=--=

则判别规则为

221??,(,)min (,)i i j j k

x G d x G d x G ≤≤∈=若

10.1.2 贝叶斯判别

距离判别没有考虑人们对研究对象已有的认识,而这种已有的认

识可能会对判别的结果产生影响。贝叶斯(Bayes)判别则用一个先验概率来描述这种已有的认识,然后通过样本来修正先验概率,得到后验概率,最后基于后验概率进行判别。

设k 个p 维总体12,,,K G G G ,概率密度函数分别为

12(),(),,()k f x f x f x 。假设样品x 来自总体i G 的先验概率为

(1,2,,)i p i k = ,则有121k p p p +++= 。根据贝叶斯理论,样品x 来自总体i G 的后验概率(即x 已知时,它属于总体i G 的概率)为

1

()

(|),1,2,,()

i i i k

j i j p f x P G x i k

p f x ==

=∑

在不考虑误判断代价的情况下,有以下判断规则

1,(|)max (|)i i i j k

x G P G x P G x ≤≤∈=若 (10.6) 若考虑率误判断代价,用i R 表示根据某种判别规则可能判归

i G (i=1,2,

,k )的全体样品的集合,用(|)(,1,2,,)c j i i j k = 表示来自i G 的样品x 误判为j G 的代价,则有(|)0c i j =。将来自i G 的样品x 误判为

(|)(|)()j

j

i i R P j i P x R x G f x dx =∈∈=?

可得任一判断规则的平均误判断代价为 121

1

(,,,)((|))(|)(|)k k

k i i j ECM R R R E c j i p c j i P j i ====

∑∑

使平均误判代价ECM 达到最小的判别规则为 11

1

,()(|)min ()(|)k

k

i i j

j j h k

j j x G p f

x c i j p f x c h j ≤≤==∈=∑∑若

(10.7)

以上判别规则可以这样理解:若样品判归i G 的平均误判断代价比判归其他总体的平均误判代价都要小,就将样品判归i G 组。

10.1.3 Fisher 判别

Fisher 判别(又称典型判别)的基本思想是投影,将k 组p 维数据

投影到某个方向,使得它们的投影做到与组之间尽可能地分开。衡量投影后k 组数据的区分度,用到了一元方差分析的思想。 1.确定判别式

设有k 个p 维总体12,,,K G G G ,取自总体i G 的样本记为

12,,(1,2,,)i i i in x x x i k = ,则样本观测数据矩阵及样本均值为

1

12111112111

11

2221222212111211:,,,,1:,,,,

11:,,,,

k k n n j k j i n i n j j k k ij

n i j k k k k kn kj j k G x x x x x n n n

G x x x x x n x x n G x x x x x n ======?=?

?=?=?

?

??=?

=?

?

∑∑∑∑∑∑

选择投影方向12(,,,)p a a a a '=???,将ij x 在方向a 上投影,得到

(1,2,,;1,2,,)ij ij i y a x i k j n '=== ,从而可得样本投影数矩阵为

1

12

21

1112111112212222212111211:,,,,1:,,,,11:,,,,i k

k n n j j ij ij n i i n j j n k ij n i j k k k kn ki k j k G y y y y y y a x n y a x G y y y y y n y y a x n G y y y y y n =====?'=?'=?

?'='=

??

??'==?'=

??

∑∑∑∑∑ 记(1,2,,;1,2,,)ij i y i k j n == 的组间离差平方和及组内离差平方和分别为

2

211

()()k k

i G i i i i i SS n y y n a x a x a Ba =='''=-=-=∑∑

2

211

11

()()i

i

n n k

k

i E ij ij i i j i j SS y y a x a x a Ea ===='''=-=-=∑∑∑∑

其中

1

11

()(),()()i

n k k

i i i i i ij ij i i j B n x x x x E x x x x ===''=--=--∑∑∑

(1)(1),()()(1)G E SS k a Ba k a Ba

F a SS n k a Ea n a Ea ''--==?=''--

若投影后的k 组数据有显著差异,则F 或()a ?应充分大,因此求

()a ?的最大值点,即可得到一个投影方向a 。显然a 并不唯一,因为若a 使得()a ?达到最大,则对任意不为0的实数c,c a 也使得()a ?达

到最小,故一般约束a 单位向量。

由矩阵知识可知,()a ?的最大值是1

E B -的最大特征值。设

1E B -的全部非0特征值从大到小依次为

12,min(1,)s s k p λλλ≥≥≥≤-

相应的特征向量依次记为12,,,s t t t ,则有

()(),1,2,,i i i i i i i i i i i

t Bt t Et t i s t Et t Et λλ''?====''

所以,将原始的k 组样本观测数据在1t 方向上投影,能使各组的投影

点最大限度的分开,称11

y t x '=为第一判别式,第一判别式的判别效率(或判别能力)为1λ,它对区分各组的贡献率为11

s

j

j λλ

=∑。

通常情况下,仅用第一判别式可能不足以将k 组数据区分开来,

此时可考虑建立第二判别式22y t x '=,第三判别式33y t x '=,等等。

一般地,称(1

,2,,)i

i y t x i s '== 为第i 判别式(或典型变量),它的判别效率为i λ,它对区分各组的贡献率为1

(1,2,,)s

i

j

j i s λλ

==∑ 。

前()r r s ≤ 个判别式的累积贡献率为

1

1

r

s

j

j

j j λλ

==∑∑若这个累积贡

献率已达到一个较高的水平(如85%以上),则只需用前r 个判别式判别

即可,下面介绍相应的判别规则。

2.判别规则

1

11111

222221(),1,2,,1:i r

i ij j i i n i i i ij i j i p r r i ir ir y y i k

y t x x y t x x y t x y t x x x x G n x y t x y t x ==-=??'='=??????'='=?????=→←=??????

????'=??'=????∑∑

投影投影欧氏距离: (10.8)

若选定前r 个判别式进行判别,如式(10.8)所示,将这r 个判别式作用在任意样品x 上,得投影向量12(,,,)r y y y ' ,也称为样品x 的判别式得分向量,将这r 个判别式作用在第i 组的组均值i x 上,得投影向量12(,,,)i i ir y y y ' ,计算两个投影向量之间的欧氏距

离,可得判别规则如下:

2

2

11

1

,()min ()r

r

i i j ij hj h k

j j x G y y y y ≤≤==∈-=-∑∑若 (10.9) 还可表示为

2

2

11

1

,[()]min [()]r

r

i h i j j h k

j j x G t x x t x x ≤≤==''∈-=-∑∑若

10.2 案例29:距离判别法的案例分析

10.2.1 classify 函数

MATLAB 统计工具箱中提供了classify 函数,用来对未知类别的样品进行判别,可以进行距离判别和先验分布的贝叶斯判别。其调用格式如下:

1) class=classify(sample,traing,group)

将sample 中的每一个观测归入training 中观测所在的某个组。输入参数sample 是待判别的样本数据矩阵,training 是用于构造判别函数的训练样本数据矩阵,它们的每一行对应一个观测,每一列对应

一个变量,sample和training具有相同的列数。参数group是与traning相应的分组向量,group和training具有相同的行数,group 中的每一个元素指定了training中相应观测所在的组。group可以是一个分类变量(categorical variable,即用水平表示分组)、数值向量、字符串数组或字符串元胞数组。输出参数class是一个行向量,用来指定sample中各观测所在的组,class与group具有相同的数据类型。

classify函数把group中的NaN或空字符作为缺失数据,从而忽略training中相应的观测。

2) class=classify(sample,traing,group,type)

允许用户通过type参数指定判别函数的类型,type的可能取值如表10—1所示。

表10—1 classify函数支持的判别类型

type参数的可能取值说明

‘linear’线性判别函数(默认情况)。假定(,),1,2,,

i P i

G N i k

μ∑=

,即各组的先验分布均为协方差矩阵相同的P元正态分布,此时由样本得出协方差矩阵的联合估计

?∑

‘diaglinear’与‘linear’类似,此时用一个对角矩阵作为协方差的估计

‘quadratic’二次判别函数。假定各组的先验分布均为P元正态分布,但是协方差矩阵并不完全相同,此时分别得出各个协方差矩阵的估计

?,1,2,,

i k

∑=

‘diagquadratic’与‘quadratic’类似,此时用对角矩阵作为各个协方差矩阵的估计

‘mahalanobis’各组的协方差矩阵不会相等并未知使得距离判别,此时分别得出各组的协方差矩

阵的估计

注意当type参数取前四种取值时,classify函数可用来作贝叶斯判

别,此时可以通过第3种调用格式中的prior参数给定先验概率;当type参数取值为‘mahalanobis’时,classify函数用来作距离判别,此时先验概率只是用来计算误判概率。

3) class=classify(sample,traing,group,type,prior)

允许用户通过prior参数指定各组的先验概率,默认情况下,各组先验概率相等。Prior可以是以下三种类型的数据:

①一个元素全为正数的数值向量,向量的长度等于group中所包含的组的个数,即group中去掉多余的重复行后还剩下的行数。Prior 中元素的顺序应与group中各组出现的顺序相一致。Prior中各元素除以其所有元素之和即为各组的先验概率。

②一个1×1的结构体变量,包括两个字段:prob和group,其中prob是元素全为正数的数值向量,group为分组变量(不含重复行,即

不含多余的分组信息),prob 用来指定group 中各组的先验概率,prob 中各元素除以其所有元素和即为各组的先验概率。

③字符串‘empirical ’,根据training 和group 计算各组出现的频率,作为各组先验概率的估计。

4)[class,err]=classify(···)

返回基于training 数据的误判概率的估计值err 。 5)[class,err,POSTERIOR]=classify(···)

返回后验概率估计值矩阵POSTERIOR,POSTERIOR 的第i 行第j 列元素是第i 个观测属于第j 个组的后验概率的估计值。当输入参数type 的值为‘mahalanobis ’时,classify 函数不计算后验概率,即返回的POSTERIOR 为[ ]。

6) [class,err,POSTERIOR,logp]=classify(···)

返回输入参数sample 中各观测的无条件概率密度的对数估计值向量logp 。当输入参数type 的值为‘manalanobis ’时,classify 函数不计算logp ,即返回的logp 为[ ]。

7) [class,err,POSTERIOR ,logp,coeff]=classify(···) 返回一个包含组与组之间边界信息(即边界方程的系数)的结构体数组coeff.coeff 的第I 行第J 列元素是一个结构体变量,包含了第I 组和第J 组之间的边界信息,它所有的字段及说明如表10—2所示。

表10—2 输出参数coeff 的字段及说明

字段 说明

字段 说明

Type 由输入参数type 指定的判别函数的类型

const 边界方程的常数项(k ) name1 第1个组的组名 linear 边界方程中一次项的系数向量(L )

name2

第2个组的组名

quadratic

边界方程中二次项的系数矩阵(Q )

注意 对于‘linear ’和‘diaglinear ’类型的判别函数,第I 组和第J

组之间的边界方程中没有二次项,此时输出参数coeff 中没有quadratic 字段,当输入参数sample 中的某个观测12(,,,)p x x x x = 满足0K xL <+时,将x 判归第

I 组。对于其它类型的判别函数,当x 满足0K xL xQx '<++时,将x 判归第I

组。其中K,L,Q 的意义见表10-2。

10.2.2 案例分析

多元统计分析实验教案

《应用多元统计分析》 实验教案 数学与计算科学学院 二〇一五年三月

目录 SAS系统简介 (1) 第一讲 SAS软件应用基础 (4) 第二讲描述性统计分析 (9) 第三讲多元正态总体参数的假设检验 (17) 第四讲判别分析方法 (29) 第五讲聚类分析 (42) 第六讲主成分分析 (56) 第七讲因子分析 (64) 第八讲对应分析 (72) 第九讲典型相关分析 (76)

SAS系统简介 SAS (Statistical Analysis System ) 系统是国际著名的数据分析软件系统。 该系统1966年开始研制,1976年由美国SAS公司实现商业化,1985年推出SAS/PC 版本,1987年推出6.03版,目前已推出Windows 系统支持的8.2和9.0版,是目前国际上公认的著名的数据统计分析软件系统之一。从1976年SAS开发成功至今,SAS的用户遍及119个国家,它已经成为同类产品中的领导者。在财富500强中,有90%的公司使用SAS。而在财富500强的前100家企业中,有98%的公司使用SAS。如此广泛的应用源于SAS系统的强大的分析功能、可组合的模块式软件系统和简单易学。 SAS系统是集数据分析、生成报表于一体的一种集成软件系统。它由基本部分和外加模块组成,其中基本部分包含的功能如下: –基本部分: BASE SAS 部分; –统计分析计算部分: SAS/STA T ; –绘图部分: SAS/GRAPH ; –矩阵运算部分: SAS/IML ; –运筹学和线性规划: SAS/OR ; –经济预测和时间序列分析: SAS/ETS 。 1.1.SAS的启动 1.2.SAS8.0 软件界面

应用多元统计分析习题解答_第五章

第五章 聚类分析 判别分析和聚类分析有何区别 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 对样品和变量进行聚类分析时, 所构造的统计量分别是什么简要说明为什么这样构造 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1)p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2)() p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞) 1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p 维空间的向量,一般用 2 1()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-=+∑

多个总体距离判别法(DOC)

多个总体距离判别法 及其应用 课程名: 年级: 专业: 姓名: 学号:

目录 一、摘要 (1) 二、引言 (1) 三、原理 (1) 3.1定义 (1) 3.2思想 (1) 3.3判别分析过程 (1) 四、具体应用 (3) 4.1判别分析在医学上的应用 (3) 4.2距离判别法在居民生活水平方面的应用 (9) 4.3判别分析软件的使用 (12) 五、参考文献 (14) 六、附录 (15)

一、 摘要 近年来随着信息化社会的进行,数据分析对我们来说日趋重要,为了对数据的分类进行判别,本文介绍了数据分类判别的一种方法:距离判别法。本文从多个总体距离判别法理论出发并结合例题详细介绍了多个总体距离判别法的在医学领域以及居民生活水平方面的应用,同时也简单介绍了spss 软件一般判别法的具体操作。 关键词: 距离判别法 判别分析 一般判别分析 二、 引言 随着科技的发展,判别分析在经济,医学等很多领域以及气候分类,农业区划,土地类型划分等有着重要的应用, 本文从多个总体距离判别分析理论出发,介绍了多个总体距离判别法在医学以及人民生活方面的应用,并介绍了spss 一般判别分析的应用。 三、 原理 3.1 定义 距离判别法:距离判别分析方法是判别样品所属类别的一应用性很强的多因素决方法,其中包括两个样本总体距离判别法,多个样本距离判别法。 多个总体距离判别法:多个总体距离判别法是距离判别法的一种,是两个总体距离判别法的推广,具有多个总体,将待测样本归为多个样本中的一类。 3.2 思想 计算待测样本与各总体之间的距离,将待测样本归为与其距离最进的一类。 3.3 判别分析过程 对于k 个总体k 21G G G ?, ,,假设其均值分别为:k 21u u u ,,,?,协方差阵

统计建模课程大纲

钟灵经济学博士 毕业于XXX大学XXX专业,。主持并参与多项国家级自然科学、社会科学基金项目,并发表一级论文2篇,国内外会议论文3篇。具备丰富的统计建模和数据分析教学经验。 第一讲简介 1.1数据的类型 1.2数据的来源 1.3数据的展示 1.4数据的概括性度量 第二讲列联分析 2.1 问题:泰坦尼克号的死亡记录 2.2 列联表的构造 2.3 拟合优度检验 2.4 独立性检验 2.5 案例分析:家庭状况与青少年犯罪的关系研究 2.6 列联分析的项目演练 第三讲方差分析 3.1 问题:新药的临床试验 3.2 方差分析的引论 3.3 单因素方差分析 3.4 多因素方差分析 3.5 案例分析:广告媒体和广告方案对销售额的影响研究 3.5 方差分析的项目演练 第四讲回归分析 4.1 问题:父代和子代的关系 4.2 变量间关系的度量 4.3 一元线性回归 4.4 多元线性回归 4.5 案例分析:研究我国民航客运量的变化趋势及其成因 4.6 回归分析的项目演练 第五讲聚类分析 5.1 问题:欧洲各国语言的相似性 5.2 相似性度量 5.3 系统聚类 5.4 K-means聚类 5.5 案例分析:上市公司的财务数据分析 5.6 聚类分析的项目演练 第六讲判别分析 6.1 问题:菲谢尔的尾花数据

6.2 判别分析的基本思想 6.3 两总体的距离判别 6.4 多总体的距离判别 6.5 案例分析:全国各地区消费水平的类型研究 6.6 判别分析的项目演练 第七讲主成分分析 7.1 问题:各地区生产总值比较 7.2 主成分分析的基本思想 7.3 主成分分析的模型 7.4 主成分分析的性质 7.5 案例分析:企业经济效益评价研究 7.6 主成分分析的项目演练 第八讲因子分析 8.1 问题:1904年Spearman对学生考试成绩的研究 8.2 因子分析的基本思想 8.3 因子分析的模型 8.4 因子分析的步骤 8.5 案例分析:全国35个中心城市的综合发展水平评价研究8.6 因子分析的项目演练 第九讲市场调查 9.1 市场调查总论 9.2 市场调查过程 9.3 问卷设计 9.4 抽样设计 9.5 案例分析:规模以下工业抽样调查方案 第十讲项目案例分析 10.1 基于手机app数据的重复消费行为 10.2 中国市场经济秩序的测度指标体系研究 10.3 北京市水资源分配博弈模型研究 10.4 全国经济普查方案研究

第6章 判别分析

第四章 判别分析 一、填空题 1.进行判别分析时,通常指定一种判别准则,用来判定新样本的归属,按照判 别准则的不同,又有多种判别方法,其中常用的方法有______ _____ _ 、____________ _、 、和 。 2.判别分析按判别的组数来区分,有 和 ;按区分不同总体的所用的数学模型来分,有 和 。 3.Fisher 判别是借助于 的思想,来导出 和建立判别准则。 4.判别分析是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立 和 。 5.在进行距离判别时,通常采用的距离是 ,它的基本公式为: 。 二、判断题 1.在正态等协差阵的条件下,Bayes 线性判别函数等价于距离判别准则。 ( ) 2.费歇判别和距离判别都对判别变量的分布类型没有要求。 ( ) 3.只有当两个总体的均值有显著差异时,做判别分析才有意义。( ) 4.如果()x ?是费歇判别准则的判别函数,则对于任何β与任意常数γ来说,()γβ?+x 也都是它的线性函数。 ( ) 5.Bayes 判别不仅考虑了各个总体出现的先验概率,而且也考虑到了错判所造成的损失。( ) 6.在进行两类判别时,两总体的协差阵如果相等,那么费歇判别与距离判别是等价的。( ) 7.逐步判别法中筛选变量的过程实质上就是作假设检验,通过检验找出显著变量,剔除不显著变量。( ) 8.在进行距离判别时,通常采用的是马氏距离。( ) 9.设k R R ,,1 为p 维空间p R 上的k 个子集,而且要求互不相交,它们的和集为 p R ,则称k R R ,,1 为p R 的一个划分。而Bayes 判别实质上就是找这个划分。 ( ) 三、简答题 1. 判别分析和聚类分析有何区别与联系?

应用多元统计分析习题解答-第五章Word版

第五章 聚类分析 5.1 判别分析和聚类分析有何区别? 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 5.2 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造? 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1) p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2) () p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞) 1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 2 1()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-= +∑

判别分析-四种方法

第六章 判别分析 §6.1 什么是判别分析 判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。 在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。 判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。 正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。 判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即距离判别法、Fisher 判别法、Bayes 判别法和逐步判别法。 §6.2 距离判别法 基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第i 类。 距离判别法,对各类(或总体)的分布,并无特定的要求。 1 两个总体的距离判别法 设有两个总体(或称两类)G 1、G 2,从第一个总体中抽取n 1个样品,从第二个总体中抽取n 2个样品,每个样品测量p 个指标如下页表。 今任取一个样品,实测指标值为),,(1'=p x x X ,问X 应判归为哪一类? 首先计算X 到G 1、G 2总体的距离,分别记为),(1G X D 和),(2G X D ,按距离最近准则

判别分析实例

例:人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。衡量人生的三大要素的指标分别为:实际人均GDP指数、出生时的预期寿命指数、受教育程度指数(由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。今从2007年世界各国人文发展指数(2005年)的排序中,选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品,另选四个国家作为待判样品,资料如下表所示。试用判别分析过程对以下数据资料进行判别分析,并据此对待选的四个国家进行判别归类。

data develop; input type gdp life rate zhrate@@; cards; 1 41890 77.9 99.5 93.3 1 29461 79.1 99. 2 88 1 23381 78.9 96 99 1 29663 79.4 92.5 87.3 1 28529 80.3 98.4 90.6 1 22029 77.9 99 96 2 6000 77.7 99.8 87.6 2 9060 71.9 97. 3 76.8 2 8402 71.7 88.6 87.5 2 8677 69.6 92.6 71.2 2 5137 71 92.6 81.1 2 8407 71.4 87.4 68.7 3 1550 62.6 48.6 58.1 3 1128 46.5 69.1 56.2 3 2299 49.8 67.9 62.3 3 2370 64.6 49.9 40 3 3071 73.7 90.3 63.9 3 3843 69.7 90. 4 68.2 . 31267 82.3 99 85.9 . 3452 63.7 61 63.8 . 6757 72.5 90.9 69.1 . 11110 50.8 82.4 77 ; proc discrim simple wcov distance list;/*simple:要求技术各类样品的简单描述统计量;选项WCOV要求计算类内协方差阵;选项DISTANCE要求计算马氏距离;选项LIST要求输出重复替换归类结果。由于没有给出方法选项,所以系统按缺省时的正态分布进行有关参数的估计和归类。*/ class type; var gdp life rate zhrate; run; proc discrim pool=test slpool=0.05list; /*simple: */ class type; priors'1'=0.3'2'=0.4'3'=0.3 ; run; proc discrim method=npar k=2list; /*simple: */ class type; run; proc candisc out=result ncan=2; /*simple: */

第六讲算法介绍 及论文写作要求

一、数学建模算法介绍: 算法内容 规划类算法线性规划:运输问题、指派问题、投资收益风险 非线性规划:无约束、约束极值问题 整数规划:分支定界、0-1整数规划、蒙特卡洛、生产销售问题目标规划:多目标、数据包络分析 动态规划:最短路线、资源分配、生产计划问题 数理统计分析方法插值拟合:插值方法、最小二乘法、曲线拟合与函数逼近 方差分析:单因素方差分析、双因素方差分析、正交试验设计与方差分析回归分析:一元线性回归、多元线性回归、偏相关分析、变量筛选方法、复共线性与有偏估计方法、非线性回归 数据统计:参数估计与假设检验 图论算法动短路问题、旅行商问题、中国邮递员问题、染色问题 微分方程与方法论常(偏)微分方程、差分方程 排队论:等待制、损失制、混合制排队问题对策论:零和对策线性规划解法等 存贮论 多元分析方法主成分分析因子分析 聚类分析 判别分析 典型相关分析对应分析 多维标度法 现代优化算法模拟退火算法、遗传算法、粒子群算法、人工蜂群算法、人工鱼群算法、蚁群算法、神经网络模型、禁忌搜索算法 模糊数学模型模糊聚类分析模糊决策分析 时间序列模型移动平均法 指数平滑法 差分指数平滑法自适应滤波法 趋势外推预测法平稳时间序列ARMA时间序列季节性序列 异方差性 灰色系统关联分析

二、数学建模论文写作 【摘要】 1、研究目的:本文研究…问题。 2、建立模型思路:首先,本文…。然后针对第一问…问题,本文建立…模型:在第一个…模型中,本文对哪些问题进行简化,利用什么知识建立了什么模型在第二个…模型中,本文对哪些问题进行简化,利用什么知识建立了什么模型 3、求解思路,使用的方法、程序针对模型的求解,本文使用什么方法,在数学上属于什么类型,计算出,并只用什么工具求解出什么问题,进一步求解出什么结果。 4、建模特点(模型优点,建模思想或方法,算法特点,结果检验,灵敏度分析,模型检验等) 5、在模型的检验模型中,本文分别讨论了以上模型的精度和稳定性 6、模型推广与改进:最后,本文通过改变,得出什么模型 论文写作总体思想:一定要写好。主要写三个方面:1. 解决什么问题(一句话)2. 采取什么方法(引起阅卷老师的注意,不能太粗,也不能太细)3.得到什么结果(简明扼要、生动、公式要简单、必要时可采用小图表)假设的合理性,建模的创造性,结果的合理性,表述的清晰度。摘要部分注意事项:(300-500字左右) (总结):1.在摘要中一定要突出方法,算法,结论,创新点,特色,不要有废话,一定要突出重点,让人一看就知道这篇论文是关于什么的,做了什么工作,用的什么方法,得到了什么效果,有什么创新和特色。一定要精悍,字字珠玑,闪闪发光,一看就被吸引。这样的摘要才是成功的。2.不该省地绝对不能省,各个板块须叙述清晰(亮点详实,自圆其说,恰到好处)!运用了什么方法,建立了什么模型,解决了什么问题,在现实实践中能有什么应用及推广!3.要用一定的关联连接词是论文过渡自然,读起来顺畅,增加论文的可读性与清晰性!4.摘要应表述准确,简明,条理清晰,合乎语法,打印排版符合文章格式。 关键字:3-5 个即可,无需太多!(结合问题、方法、理论、概念等,在题中反复出现的专业名词也需酌情考虑。总之,具体情况具体分析)

距离判别 sas

距离判别 一、实验目的和要求 掌握距离判别分析的理论与方法、模型的建立与误差率估计;掌握利用判别分析的SAS 过程解决有关实际问题. 实验要求:编写程序,结果分析. 实验容: 要求:1题必做,2,3,4题可选1-2题 1.写出几种距离公式,两总体距离判别准则; 一.几种距离公式: 1. 欧氏距离 2 121] )([),(jk ik p k j i x x d -=∑=x x 2. 绝对距离 ∑=-=p k jk ik j i x x d 1 ),(x x 3. Minkowski 距离 m p k m jk ik j i x x d 11 ]||[),(∑=-=x x 其中1≥m .Minkowski 距离又称m L 距离,2L 距离即欧氏距离,1L 距离即绝对距离. 4. Chebyshev 距离 jk ik p k j i x x d -=≤≤1m ax ),(x x Chebyshev 距离是Minkowski 距离当+∞→m 时的极限. 以上距离与各变量的量纲有关.为消除量纲的影响,可对数据进行标准化,然后用标准化数据计算距离.标准化数据即 p k n i s x x x k k ik ik ,...,2,1;,...,2,1,* ==-= 其中∑∑==--==n i n i k ik k ik k x x n s x n x 11 22 )(11,1. 5. 方差加权距离 2 112 2 ])([),(∑ =-=p k k jk ik j i s x x d x x 易证,标准化数据* ik x 的欧氏距离既是方差加权距离. 6. 马氏距离

2 11 )]()),(j i T j i j i d x x S x [(x x x --=- 其中S 是由样品n x x x ,...,,21算得的样本协方差矩阵: ∑=---=n i T i i n 1 ))((11x x x x S , 其中.11 ∑==n i i n x x 令nxn ij j i ij d D d d )(),,(==x x 形成n 个样品n x x x ,...,,21两两之间的距离矩阵 ? ???? ???????=0002 1 221 112 n n n n d d d d d d D 其中ij d =ji d 二.两个总体的距离判别准则 1.距离判别准则 21,G G 为两个p 维已知总体,均值向量21,μμ, 协方差矩阵21,ΣΣ, T p x x x ),,,(21 =x 为待判样品,距离判别准则为 ?? ?>∈≤∈) ()(, ) ()(,121221G x,G x,G x G x,G x,G x d d d d 若若 (5.1) 说明:马氏距离思想——极大似然思想 一般p 维总体,),(~),,(~2211ΣμΣμp p N G N G ,协方差矩阵同为Σ,概率密度为 ??????-∑--∑ =-)()(21exp )2(11112 12 1μx μx T p f π ? ?????-∑--∑ = -)()(21exp )2(12122 12 2μx μx T p f π 则 )()(21G x,G x,d d ≤ ?)()()()(212111μx μx μx μx -∑-≤-∑---T T )()(21x x f f ≥? 距离判别准则转化为 ??? ???? <∈≥∈1)()(,1)()(,21221x x G x x x G x 1f f f f 若若 与似然比准则一致. 2.ΣΣΣ==21情形

判别分析实例汇总

判别分析实例汇总

例:人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。衡量人生的三大要素的指标分别为:实际人均GDP指数、出生时的预期寿命指数、受教育程度指数(由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。今从2007年世界各国人文发展指数(2005年)的排序中,选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品,另选四个国家作为待判样品,资料如下表所示。试用判别分析过程对以下数据资料进行判别分析,并据此对待选的四个国家进行判别归类。

data develop; input type gdp life rate zhrate@@; cards; 1 41890 77.9 99.5 93.3 1 29461 79.1 99. 2 88 1 23381 78.9 96 99 1 29663 79.4 92.5 87.3 1 28529 80.3 98.4 90.6 1 22029 77.9 99 96 2 6000 77.7 99.8 87.6 2 9060 71.9 97. 3 76.8 2 8402 71.7 88.6 87.5 2 8677 69.6 92.6 71.2 2 5137 71 92.6 81.1 2 8407 71.4 87.4 68.7 3 1550 62.6 48.6 58.1 3 1128 46.5 69.1 56.2

3 2299 49.8 67.9 62.3 3 2370 64.6 49.9 40 3 3071 73.7 90.3 63.9 3 3843 69.7 90. 4 68.2 . 31267 82.3 99 85.9 . 3452 63.7 61 63.8 . 6757 72.5 90.9 69.1 . 11110 50.8 82.4 77 ; proc discrim simple wcov distance list;/*simple:要求技术各类样品的简单描述统计量;选项WCOV要求计算类内协方差阵;选项DISTANCE要求计算马氏距离;选项LIST要求输出重复替换归类结果。由于没有给出方法选项,所以系统按缺省时的正态分布进行有关参数的估计和归类。*/ class type; var gdp life rate zhrate; run; proc discrim pool=test slpool=0.05list; /*simple: */ class type; priors'1'=0.3'2'=0.4'3'=0.3 ; run; proc discrim method=npar k=2list; /*simple: */ class type; run; proc candisc out=result ncan=2; /*simple: */ class type; var gdp life rate zhrate; run; proc gplot data=reult; plot can1*can2=type; run; proc discrim data=result distance list; class type; var can1 can2; run; 表1 已知样本分类水平信息

应用多元统计分析习题解答_朱建平_第五章

Abbo无私奉献,只收1个金币,BS收5个金币的… 何老师考简单点啊……

第五章 聚类分析 5.1 判别分析和聚类分析有何区别? 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 5.2 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造? 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1)p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2)() p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞) 1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 2 1()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-=+∑

2019年中央财经大学应用统计专业课复习经验指导

2019年中央财经大学应用统计专业课复习经验指导 央财应用统计的专业课整体而言并不难,但是考查的很细致,学弟学妹们务必要认真复习。最好可以找个学长学姐辅导,既可以节省时间又能有针对性的学习。笔者前期也是自己复习的,但在冲刺阶段报了新祥旭的一对一辅导,老师很给力,解答了之前自己没有搞懂的知识,平时上课也讲得非常细心。下面从参考书目开始介绍:中央财经大学研究生院官网上并没有制定初试专业课的参考书目,但是一般来说专业课所用的参考书目主要包括刘扬主编的《统计学》和贾俊平主编的、中国人民大学出版社出版的《统计学》。 人大出版社的《统计学》讲得很细,知识点非常全面,所以比较适合对专业课知识了解得比较少,甚至不太懂统计学的同学或是一些跨考的同学,人大这本《统计学》还有配套的学习指导用书,上面有一些练习题,复习时间比较充裕的同学可以当做练习题做一做来巩固知识点。 刘扬的那本《统计学》虽然讲得不如人大那本细致,但是它是央财统计与数学学院的老师自己编的书,也是应用统计复试的指定书目,所讲内容比较贴合专业课笔试的内容,基本上专业课考试中所有的题目都可以从这本书上找到答案。因此,无论对于本专业的同学还是跨考的同学,刘扬主编的《统计学》务必要认认真真、仔仔细细地过上7、8遍甚至更多,这样才能保证在专业课考试中取得高分。在初试复习的时候,可以先不看第六章非参数检验、第十章主成分分析和因

子分析、第十一章聚类分析和判别分析以及第十二章列联表和对应分析,这几章的知识点在初试的时候一般不会涉及到,但是有时间的学弟学妹还是要看一下,毕竟专业课是学校出题,可能每一年的考查范围都会有变化,也不一定严格按照教育部发的应用统计大纲来出题,而且这几章在在复试的时候一定会考,早一点看没坏处。因为刘扬的《统计学》这本书本来就很薄,所以学弟学妹在复习的时候一定要做到对每一个知识点都烂熟于心,每一部分的内容都要把大意背出来(考试中的简答题最好还是提前背一背-),在复习的时候不要遗漏任何一个知识点,这样才可以应付考试。由于我本专业就是统计学,对统计学专业课知识了解得比较深入,而且我复习的时间太有限,因此老师建议我直接看刘扬那本《统计学》,人大的那本《统计学》只是粗略地过了一遍,着重记忆了我以前不太知道的知识点。 在专业课复习上,除了要把教材复习好,还要将历年真题,包括初试真题和复试真题(可以先不看第六章非参数检验、第十章主成分分析和因子分析、第十一章聚类分析和判别分析以及第十二章列联表和对应分析的题目)都做好,务必要把每一道题都弄明白。因为央财在专业课出题的时候很喜欢重复出题,基本上每一年专业课考试都会碰到原题,所以历年真题非常有参考价值,一定要都弄明白了。除了历年真题,央财《统计学》这门课程的期末考试题也很有用,这些期末题中也可能会出原题,现在能找到的期末题基本上都比较久远了,都是2010年左右的,学弟学妹可以在网上搜一下。报班了的,机构都会给你提供,就可以省下这个时间啦。

R语言中的多元统计之判别分析

前言 判别分析(discriminant analysis)是多元统计分析中较为成熟的一种分类方法,它的核心思想是“分类与判断”,即根据已知类别的样本所提供的信息,总结出分类的规律性,并建立好判别公式和判别准则,在此基础上,新的样本点将按照此准则判断其所属类型。例如,根据一年甚至更长时间的每天的湿度差及压差,我们可以建立一个用于判别是否会下雨的模型,当我们获取到某一天(建立模型以外的数据)的湿度差及压差后,使用已建立好的模型,就可以得出这一天是否会下雨的判断。 根据判别的组数来区分,判别分析可以分为两组判别和多组判别。接下来,我们将学习三种常见的判别分析方法,分别是: ?距离判别 ?Bayes判别 ?Fisher判别 一、距离判别基本理论 假设存在两个总体和,另有为一个维的样本值,计算得到该样本到两个总体的距离和,如果大于,则认为样本属于总体,反之样本则属于总体;若等于,则该样本待判。这就是距离判别法的基本思想。

在距离判别法中,最核心的问题在于距离的计算,一般情况下我们最常用的是欧式距离,但由于该方法在计算多个总体之间的距离时并不考虑方差的影响,而马氏距离不受指标量纲及指标间相关性的影响,弥补了欧式距离在这方面的缺点,其计算公式如下: ,为总体之间的协方差矩阵 二、距离判别的R实现(训练样本) 首先我们导入数据 # 读取SAS数据 > library(sas7bdat) > data1 <- read.sas7bdat('disl01.sas7bdat') # 截取所需列数据,用于计算马氏距离 > testdata <- data1[2:5] > head(testdata,3) X1 X2 X3 X4 1 -0.45 -0.41 1.09 0.45 2 -0.56 -0.31 1.51 0.16 3 0.06 0.02 1.01 0.40 # 计算列均值 > colM <- colMeans(testdata) > colM

判别分析三种方法

作业一: 为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区.分为两种类型。试建立判别函数,判定广东、西藏分别属于哪个收入类型。判别指标及原始数据见表9-4。 1991年30个省、市、自治区城镇居民月平均收人数据表 单位:元/人 x1:人均生活费收入 x6:人均各种奖金、超额工资(国有+集体) x2:人均国有经济单位职工工资 x7:人均各种津贴(国有+集体) x3:人均来源于国有经济单位标准工资 x8:人均从工作单位得到的其他收入 x4:人均集体所有制工资收入 x9:个体劳动者收入 x5:人均集体所有制职工标准工资

一、距离判别法 解:变量个数p=9,两类总体各有11个样品,即n1=n2=11 ,有2个待判样品,假定两总体协差阵相等。由spss可计算出:协方差和平均值

合计x1 123.2881 23.27817 22 22.000 x2 80.4895 22.04796 22 22.000 x3 50.8709 6.14867 22 22.000 x4 10.1450 3.11887 22 22.000 x5 6.0659 2.72297 22 22.000 x6 14.6060 6.73264 22 22.000 x7 15.7215 6.64603 22 22.000 x8 8.7895 3.02700 22 22.000 x9 1.5291 1.31496 22 22.000 知道了均值和协方差可利用matlab计算线性判别函数W(x)的判别系数a和判别常数。程序如下: v=[1.000,0.217,0.299,0.045,-0.054,0.688,0.212,0.121,-0.245;.217,1,.102,-.234,-.211,. 136,-.052,.116,.154;.299,.102,1,-.296,-.062,.091,-.017,-.607,-.034;.045,-.234,-.296,1,. 762,-.172,-.297,.103,-.554;-.054,-.211,-.062,.762,1,-.156,-.342,.022,-.654;.688,.136,.0 91,-.172,-.156,1,.235,.384,-.098;.212,-.052,-.017,-.297,-.342,.235,1,-.040,.424;.121,.1 16,-.607,.103,.022,.384,-.040,1,-.071;-.245,.154,-.034,-.554,-.654,-.098,.424,-.071,1]; >> m1=[139.2664;93.0918;53.9882;11.2073;6.7645;17.9345;17,8327;11.0018;1.6736];m 2=[107.3099;67.8873;47.7536;9.0827;5.3673;11.2775;13.6102;6.5773;1.3845]; >> m=(m1+m2)/2; >> arfa=inv(v)*(m1-m2);

判别分析-四种方法

第六章 判别分析 § 什么是判别分析 判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。 在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。 判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。 正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。 判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即距离判别法、Fisher 判别法、Bayes 判别法和逐步判别法。 § 距离判别法 基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第i 类。 距离判别法,对各类(或总体)的分布,并无特定的要求。 1 两个总体的距离判别法 设有两个总体(或称两类)G 1、G 2,从第一个总体中抽取n 1个样品,从第二个总体中抽取n 2个样品,每个样品测量p 个指标如下页表。 今任取一个样品,实测指标值为),,(1'=p x x X ,问X 应判归为哪一类 首先计算X 到G 1、G 2总体的距离,分别记为),(1G X D 和),(2G X D ,按距离最近准则

判别分析的基本原理

判别分析的基本原理和模型 一、判别分析概述 (一)什么是判别分析 判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。 判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。常用的有,距离准则、Fisher 准则、贝叶斯准则等。判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。 (二)判别分析的种类 按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。 二、判别分析方法 (一)距离判别法 1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第i 类的重心距离最近,就认为它来自第i 类。因此,距离判别法又称为最邻近方法(nearest neighbor method )。距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。 2.两组距离判别 两组距离判别的基本原理。设有两组总体B A G G 和,相应抽出样品个数为21,n n , n n n =+)(21,每个样品观测p 个指标得观测数据如下,

多元统计分析期末复习

多元统计分析期末复习公司内部编号:(GOOD-TMMT-MMUT-UUPTY-UUYY-DTTI-

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 )' ,...,,(),,,(2121P p EX EX EX EX μμμ='= )')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估 计; ; S~ , 与S相互独立; 第五章 聚类分析: ) ,(~∑μP N X μ∑μ p X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ) ()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

相关文档