文档库 最新最全的文档下载
当前位置:文档库 › 实验一 Fisher线性判别算法

实验一 Fisher线性判别算法

实验一 Fisher线性判别算法
实验一 Fisher线性判别算法

实验一Fisher线性判别算法

一、实验目的

应用统计方法解决模式识别问题的困难之一是维数问题,低维特征空间的分类问题一般比高维空间分类问题简单。因此,人们力图将特征空间进行降维,降维的一个基本思路是将d维特征空间投影到一条直线上,形成一维空间。对于线性可分的样本,一般总能找到一个投影方向,使得降维后样本仍然线性可分。如何确定投影方向,使得降维以后样本不但线性可分,而且可分性更好(即不同类别的样本之间的距离尽可能远,同一类别的样本尽可能集中分布),就是Fisher 线性判别所要解决的问题。

通过编写程序,体会Fisher线性判别的基本思路,理解线性判别的基本思想,掌握Fisher 线性判别问题的实质。

二、实验要求

1、编写用Fisher线性判别方法对三维数据求最优方向w的通用函数。

2、对下面表1中提供的样本数据,计算最优方向w,实现对类别ω1和ω2的分类。

表1 Fisher 线性判别实验数据

3、分别画出d维空间中样本的分布情况和投影变换后样本的分布情况,即实现图1和图2。

图1 d维空间中样本的分布情况

图2 投影变换后样本的分布情况

4、选择决策边界,实现新样本xx1=(-0.7,0.58,0.089 ),xx2= (0.047,-0.4,1.04 )的分类。

多元统计分析课后习题解答_第四章

第四章判别分析 简述欧几里得距离与马氏距离的区别和联系。 答:设p维欧几里得空间中的两点X= 和Y=。则欧几里得距离为 。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。 设X,Y是来自均值向量为,协方差为 的总体G中的p维样本。则马氏距离为D(X,Y)= 。当 即单位阵时,

D(X,Y)==即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。 试述判别分析的实质。 答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk是p维空间R p的k个子集,如果 它们互不相交,且它们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间 构造一个“划分”,这个“划分”就构成了一个判别规则。 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。

①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是 1 和 2, 对于一个新的样品X ,要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2(X ,G 2),则 X ,D 2(X ,G 1)D 2(X ,G 2) X ,D 2(X ,G 1)> D 2(X ,G 2, 具体分析, 2212(,)(,) D G D G -X X 111122111111 111222********* ()()()() 2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2() 22()2() ---''=-++-' +? ?=--- ??? ''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为 X ,W(X)

Fisher判别分析原理详解

Fisher判别分析原理详解 说起Fisher判别分析,不得不提到一个大神级人物! Ronald Aylmer Fisher (1890~1962) 英国统计学家和遗传学家 主要著作有:《根据孟德尔遗传方式的亲属间的相关》、《研究者用的统计方法》、《自然选择的遗传理论》、《试验设计》、《近交的理论》及《统计方法和科学推理》等。他一生在统计生物学中的功绩是十分突出的。 ?生平 1890年2月17日生于伦敦,1962年7月29日卒于澳大利亚阿德莱德。 1912年毕业于剑桥大学数学系,后随英国数理统计学家J.琼斯进修了一年统计力学。他担任过中学数学教师,1918年任罗坦斯泰德农业试验站统计试验室主任。 1933年,因为在生物统计和遗传学研究方面成绩卓著而被聘为伦敦大学优生学教授。 1943年任剑桥大学遗传学教授。

1957年退休。 1959年去澳大利亚,在联邦科学和工业研究组织的数学统计部作研究工作。 大神解决的问题 ?Fisher 线性判别函数的提出: 在用统计方法进行模式识别时,许多问题涉及到维数,在低维空间可行的方法,在高维空间变得不可行。因此,降低维数就成为解决实际问题的关键。Fisher 的方法,就是解决维数压缩问题。 对xn的分量做线性组合可得标量 yn=wTxn,n=1,2,…,Ni 得到N个一维样本yn组成的集合。从而将多维转换到了一维。 考虑把d维空间中的数据点投影到一条直线上去的问题,需要解决的两个问题: (1)怎样找到最好的投影直线方向;(2)怎样向这个方向实现投影,这个投影变 换就是要寻求的解向量w*。这两个问题就是Fisher方法要解决的基本问题。?判别分析的一些基本公式 Fisher判别分析用于两类或两类以上间的判别,但常用于两类间判别。 Fisher判别函数表达式(多元线性函数式): 判别函数的系数是按照组内差异最小和组间差异最大同时兼顾的原则来确定判别函数的。 Fisher判别准则: 判别临界点: Fisher判别分析思想: 1. 类间差异大,类内变异小, 最大 2. 方差分析的思想:以下值最大 ?Fisher判别的原理 分析w1方向之所以比w2方向优越,可以归纳出这样一个准则,即向量w的方向选择应能使两类样本投影的均值之差尽可能大些,而使类内样本的离散程度尽可能小。这就是Fisher准则函数的基本思路。如下图:

模式识别最近邻和fisher分类matlab实验报告

一、Fisher 线性判别 Fisher 线性判别是统计模式识别的基本方法之一。它简单,容易实现,且计算量和存储量小,是实际应用中最常用的方法之一。Fisher 判别法Fisher 在1936年发表的论文中首次提出的线性判别法。Fisher 判别法的基本思想是寻找一个最好的投影,当特征向量x 从d 维空间映射到这个方向时,两类能最好的分开。这个方法实际上涉及到特征维数的压缩问题。 一维空间的Fisher 线性判别函数为: 2 1212 ()()F m m J w S S -= + (1) i m = ∑x N 1,i=1,2 (2) 2,1,)()(=--=∑∈i m x m x S T i x i i i ξ (3) 其中,1m 和2m 是两个样本的均值,1S ,2S 分别为各类样本的的类内离散度。投影方向w 为: )(211 m m S w w -=- (4) 12w S S S =+ (5) 在Fisher 判决函数中,分子反应了映射后两类中心的距离平方,该值越大,类间可分性越好;分母反应了两类的类内的离散度,其值越小越好;从总体上讲,()F J w 的值越大越好,在这种可分性评价标准下,使()F J w 达到最大值的w 即为最佳投影方向。

1.1、 Fisher线性判别实验流程图

1.2 Fisher线性判别mtalab代码 data=importdata('C:\Users\zzd\Desktop\data-ch5.mat'); data1=data.data; data2=https://www.wendangku.net/doc/9b4351149.html,bel; sample1=data1(1:25,:); sample2=data1(51:75,:); sample=[sample1 sample2]; sp_l=data2(26:75); test1=data1(26:50,:); test2=data1(76:100,:); test=[test1 test2]; lth=zeros(50,50); sample_m1=mean(sample1); sample_m2=mean(sample2); m1=sample_m1'; m2=sample_m2'; sb=(m1-m2)*(m1-m2)'; s1=zeros(2); for n=1:25 temp = (sample1(n,:)'-m1)*(sample1(n,:)'-m1)'; s1=s1+temp; end; s2=zeros(2); for n=1:25 temp = (sample2(n,:)'-m2)*(sample2(n,:)'-m2)'; s2 = s2+temp; end; sw=s1+s2; vw=inv(sw)*(m1-m2); a_m1 = vw'*m1; a_m2 = vw'*m2; w0 = (a_m1+a_m2)/2;

Fisher判别分析

对案例中小企业的破产模型做Fisher判别分析 江义114113001059 一问题:对企业的运行状态利用Fisher判别进行分类 选取四个经济指标用于判断企业处于破产状态还是正常运行状态,具体数据如下,其中类别1表示破产状态,类别2表示正常运行状态 X1总负债率X2收益率指 标 X3短期 支付能 力 X4生产 效率指 标 类别 -0.45 -0.41 1.09 0.45 1 -0.56 -0.31 1.51 0.16 1 0.06 0.02 1.01 0.4 1 -0.07 -0.09 1.45 0.26 1 0.38 0.11 3.27 0.55 2 0.19 0.05 2.25 0.33 2 0.32 0.07 4.24 0.63 2 0.04 0.01 1.5 0.71 2 -0.06 -0.06 1.37 0.4 1 0.07 -0.01 1.37 0.34 2 -0.13 -0.14 1.42 0.44 1 0.15 0.06 2.23 0.56 2 0.16 0.05 2.31 0.2 2 0.29 0.06 1.84 0.38 带测定 0.54 0.11 2.33 0.48 带测定 二、程序如下:(R语言) > data=read.table("E:/bac/qiye.txt",header=T) > data1=c(rep(1,6),rep(2,7)) > data2=as.factor(data1) > data$class=data2 > attach(data) > names(data) [1] "X1" "X2" "X3" "X4" "class" > library(MASS) > data.lda=lda(class~X1+X2+X3+X4) > data.lda Call: lda(class ~ X1 + X2 + X3 + X4) Prior probabilities of groups: 1 2 0.4615385 0.5384615 Group means:

机器学习实验1-Fisher线性分类器设计

一、实验意义及目的 掌握Fisher分类原理,能够利用Matlab编程实现Fisher线性分类器设计, 熟悉基于Matlab算法处理函数,并能够利用算法解决简单问题。 二、算法原理 Fisher准则基本原理:找到一个最合适的投影周,使两类样本在该轴上投影之间的距离尽可能远,而每一类样本的投影尽可能紧凑,从而使分类效果为最佳。 内容: (1)尝试编写matlab程序,用Fisher线性判别方法对三维数据求最优方向w的通用函数(2)对下面表1-1样本数据中的类别w1和w2计算最优方向w (3)画出最优方向w 的直线,并标记出投影后的点在直线上的位置 (4)选择决策边界,实现新样本xx1=(-0.7,0.58,0.089),xx2=(0.047,-0.4,1.04)的分类 三、实验内容 (1)尝试编写matlab程序,用Fisher线性判别方法对三维数据求最优方向w的通用函数程序清单: clc clear all %10*3样本数据 w1=[-0.4,0.58,0.089;-0.31,0.27,-0.04;-0.38,0.055,-0.035;-0.15,0.53,0.011;- 0.35,.47,0.034;0.17,0.69,0.1;-0.011,0.55,-0.18;-0.27,0.61,0.12;-0.065,0.49,0.0012;- 0.12,0.054,-0.063]; w2=[0.83,1.6,-0.014;1.1,1.6,0.48;-0.44,-0.41,0.32;0.047,-0.45,1.4;0.28,0.35,3.1;- 0.39,-0.48,0.11;0.34,-0.079,0.14;-0.3,-0.22,2.2;1.1,1.2,-0.46;0.18,-0.11,-0.49]; W1=w1';%转置下方便后面求s1

多元统计分析课后习题解答_第四章知识讲解

第四章判别分析 4.1 简述欧几里得距离与马氏距离的区别和联系。 答:设p维欧几里得空间中的两点X=和Y=。则欧几里得距离为 。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。 设X,Y是来自均值向量为,协方差为 的总体G中的p维样本。则马氏距离为D(X,Y)= 。当 即单位阵时, D(X,Y)==即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。 4.2 试述判别分析的实质。

答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk 是p 维空 间R p 的k 个子集,如果它们互不相交,且它们的和集为,则称为的一 个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划 分”,这个“划分”就构成了一个判别规则。 4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是μ1和μ 2,对于一个新的样品X , 要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2 (X ,G 2),则 X ,D 2 (X ,G 1) D 2(X ,G 2) X ,D 2(X ,G 1)> D 2 (X ,G 2, 具体分析, 2212(,)(,) D G D G -X X 111122111111 111222********* ()()()() 2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2() 22()2() ---''=-++-' +? ?=--- ?? ?''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为

Fisher判别函数

Fisher 判别函数的使用具体步骤 Fisher 多类判别模型 假定事物由p 个变量描述, 即: x=(p x x x ,...,,21)T 该种事物有G 个类型, 从每个类型中顺次抽取p n n n ,...,,21个样品, 共计n= ∑=G i i 1 n 个样品。 即从第g 类取了g n 个样品, g=1,2,?, G, 第g 类的第i 个样品, 用向量: gi x =(pgi gi gi x x ,...,,x 21)T (1) ( 1) 式中, 第一个下标是变量号, 第二个下标是类型号,第三个下标是样品号。设判别函数为: T x p p v x v x v x v =+++=...y 2211 (2) 其中: V=(p v v v ,...,21)T 按照组内差异最小, 组间差异最大同时兼顾的原则, 来确定判别函数系数。(中间推导过程不在这里介绍了) 最终就有个判别函数:,y x V T j j =1,...,2,1s j = 一般只取前M=min(G- 1,p)个, 即: M j x v x v x v y p pj j j j ,...,2,1,...2211=+++= (3) 根据上述M 个判别函数, 可对每一个待判样品做出判别。 ),...,,(x 020100p x x x= 其过程如下: 1、把x0 代入式(3) 中每一个判别函数, 得到M 个数 ,,...,2,1,...y 202101j 0M j x v x v x v p pj j j =+++= 记:T M y y y y ),...,,(020100= 2、把每一类的均值代入式(3)得 G g y y y y G g M j x v x v x v y M g g g g pg pg g g g g j g ,...,2,1),,...,,(,...2,1,,...,2,1,...212211====+++= 3、计算:∑=-=M j j j g g y y D 1 2 02 )(,从这G 个值中选出最小值:)(min 212g G g h D D ≤≤=。这样就把0 x 判为h 类。

Fisher线性判别分析实验(模式识别与人工智能原理实验1)

实验1 Fisher 线性判别分析实验 一、摘要 Fisher 线性判别分析的基本思想:通过寻找一个投影方向(线性变换,线性组合),将高维问题降低到一维问题来解决,并且要求变换后的一维数据具有如下性质:同类样本尽可能聚集在一起,不同类的样本尽可能地远。 Fisher 线性判别分析,就是通过给定的训练数据,确定投影方向W 和阈值y0,即确定线性判别函数,然后根据这个线性判别函数,对测试数据进行测试,得到测试数据的类别。 二、算法的基本原理及流程图 1 基本原理 (1)W 的确定 各类样本均值向量mi 样本类内离散度矩阵i S 和总类内离散度矩阵 w S [ 12w S S S =+ 样本类间离散度矩阵b S 在投影后的一维空间中,各类样本均值T i i m '= W m 。样本类内离散度和总类内离散度 T T i i w w S ' = W S W S ' = W S W 。样本类间离散度T b b S ' = W S W 。 Fisher 准则函数满足两个性质: ·投影后,各类样本内部尽可能密集,即总类内离散度越小越好。 ·投影后,各类样本尽可能离得远,即样本类间离散度越大越好。 根据这个性质确定准则函数,根据使准则函数取得最大值,可求出W : -1w 12W = S (m - m ) 。 (2)阈值的确定 实验中采取的方法:012y = (m ' + m ') / 2。 \ T x S (x m )(x m ), 1,2 i i i i X i ∈= --=∑T 1212S (m m )(m m )b =--

(3)Fisher线性判别的决策规则 对于某一个未知类别的样本向量x,如果y=W T·x>y0,则x∈w1;否则x∈w2。 2 流程图 方差标准化(归一化处理) 一个样本集中,某一个特征的均值与方差为: 归一化: 三、实验要求 寻找数据进行实验,并分析实验中遇到的问题和结论,写出实验报告。

FISHER线性判别MATLAB实现

Fisher线性判别上机实验报告 班级: 学号: 姓名:

一.算法描述 Fisher 线性判别分析的基本思想:选择一个投影方向(线性变换,线性组合),将高维问题降低到一维问题来解决,同时变换后的一维数据满足每一类内部的样本尽可能聚集在一起,不同类的样本相隔尽可能地远。 Fisher 线性判别分析,就是通过给定的训练数据,确定投影方向W 和阈值w0, 即确定线性判别函数,然后根据这个线性判别函数,对测试数据进行测试,得到测试数据的类别。 线性判别函数的一般形式可表示成0)(w X W X g T += 其中 ????? ??=d x x X 1 ?????? ? ??=d w w w W 21 Fisher 选择投影方向W 的原则,即使原样本向量在该方向上的投影能兼顾类间分布尽可能分开,类内样本投影尽可能密集的要求。 如下为具体步骤: (1)W 的确定 样本类内离散度矩阵i 和总类内离散度矩阵w S 12w S S S =+ T x S (x m )(x m ), 1,2 i i i i X i ∈= --=∑

样本类间离散度矩阵b S 在投影后的一维空间中,各类样本均值T i i m '= W m 样本类内离散度和总类内离散度 T T i i w w S ' = W S W S ' = W S W 样本类间离散度T b b S ' = W S W Fisher 准则函数为 max 22 212 21~~)~~()(S S m m W J F +-= (2)阈值的确定 w 0 是个常数,称为阈值权,对于两类问题的线性分类器可以采用下属决策规则: 令) ()()(2 1 x x x g g g -=则: 如果g(x)>0,则决策w x 1∈;如果g(x)<0,则决策w x 2∈;如果g(x)=0,则可将x 任意分到某一类,或拒绝。 (3)Fisher 线性判别的决策规则 Fisher 准则函数满足两个性质: 1.投影后,各类样本内部尽可能密集,即总类内离散度越小越好。 2.投影后,各类样本尽可能离得远,即样本类间离散度越大越好。 根据这个性质确定准则函数,根据使准则函数取得最大值,可求出 W :-1w 12W = S (m - m ) 。 这就是Fisher 判别准则下的最优投影方向。 最后得到决策规则 若 P P m m w w w x x g T ) ()(2112 log ))(21()(大于或小于+-=,则 {1 2w w x ∈ T 1212S (m m )(m m ) b =--

费希尔判别法理论

费希尔判别 费希尔判别(或称典型判别)的基本思想是投影(或降维):用p维向量 x (X i,X2, X p)的少数几个线性组合(称为费希尔判别函数或典型变量) y i a i x, y2 a?x, y x (—般r明显小于p )来代替原始的p个变量 X i,X2, X p,以达到降维的目的,并根据这r个判别函数y i,y2, *对样品的归属做出判别或将各组分离。成功的降维将使样品的归类或组的分离更为方便和有效,并且可以对前三个判别函数作图,从直观的几何图像上区别各组。 在降维的过程中难免会有部分有用信息的损失,但只要使用的方法得当,我们可以最大限度地减少这种损失,从而保留尽可能多的有用信息,即关于能够反 点画于直角坐标系上,一组的样品点用“肿表示,另一组的样品点用“c”表示。 假定我们希望将二维空间的点投影到某个一维空间,即一条直线上,然后再对两组进行判别,则投影到不同的直线上,判别的效果一般是不同的。从图中可见,

如果两组的点都投影到直线 z 上则这两组的投影点在该直线上的分布几乎无任 何差异,他们完全混合在一起,我们无法将这两组的点区别开来, 这样的降维把 反应两组间差异的信息都给损失了, 显然是不可取的。事实上,最好的投影是投 影到直线y 上,因为它把两组的投影点很清楚地区分了开来, 这种降维把有关两 组差异的信息很好地保留了下来,几乎没有任何损失,如此就完全可以在一维的 直线上作判别分析。 我们现考虑在R p 中将k 组的p 维数据向量投影到某个具有最佳方向的 a 上, 即投影到a 上的点能最大限度地显现出各组之间的差异。 设来自组i 的p 维观测值为X j ,j=1,2, ,n i ,i=l,2, ,k ,将它们共同投影 到某一 p 维常数向量a 上,得到的投影点可分别对应线性组合 y j =a x 0, j=1,2, ,n i ,i=1,2, ,k 。这样,所有的p 维观测值就简化为一维观测值。下面 我们用%表示组i 中y j 的均值,y 表示所有组k 组的y 0的总均值,即 对于任一用来投影的a ,我们需要给出一个能反映组之间分离程度的度量 比较图 中的上、下半图,上半图三组均值之间的差异程度与下半图是相同的, 而前者组之间的分离程度却明显高于后者, 原因就在于前者的组内变差要远小于 后者,后者组之间有较多重叠。因此,可以考虑将组之间的分离程度度量为相对 其组内变差的组间变差。在以下的讨论中,我们需假定各组的协方差矩阵相同,n i j i y j a X i 式中n X i 1 ni x ij , n j 1 a X i 1 k - n i X i o n i 1 n i n

fisher判别式

Fisher 线性判别式 前面讲过的感知器准则、最小平方和准则属于用神经网络的方法解决分类问题。下面介绍一种新的判决函数分类方法。 由于线性判别函数易于分析,关于这方面的研究工作特别多。历史上,这一工作是从R.A.Fisher 的经典论文(1936年)开始的。我们知道,在用统计方法进行模式识别时,许多问题涉及到维数,在低维空间行得通的方法,在高维空间往往行不通。因此,降低维数就成为解决实际问题的关键。Fisher 的方法,实际上涉及维数压缩。 如果要把模式样本在高(d )维的特征向量空间里投影到一条直线上,实际上就是把特征空间压缩到一维,这在数学上容易办到。另外,即使样本在高维空间里聚集成容易分开的群类,把它们投影到一条任意的直线上,也可能把不同的样本混杂在一起而变得无法区分。也就是说,直线的方向选择很重要。 在一般情况下,总可以找到某个最好的方向,使样本投影到这个方向的直线上是最容易分得开的。如何找到最好的直线方向,如何实现向最好方向投影的变换,是Fisher 法要解决的基本问题。这个投影变换就是我们寻求的解向量* w 。 1.线性投影与Fisher 准则函数 在21/w w 两类问题中,假定有n 个训练样本),....,2,1(n k x k =其中1n 个样本来自i w 类型,2n 个样本来自j w 类型,21n n n +=。两个类型的训练样本分别构成训练样本的子集1X 和2X 。 令:k T k x w y =,n k ,...,2,1= (4.5-1) k y 是向量k x 通过变换w 得到的标量,它是一维的。实际上,对于给定的w ,k y 就是判决函数的值。 由子集1X 和2X 的样本映射后的两个子集为1Y 和2Y 。因为我们关心的是w 的方向,可以令1||||=w ,那么k y 就是k x 在w 方向上的投影。使1Y 和2Y 最容易区分开的w 方向正是区分超平面的法线方向。如下图: 图中画出了直线的两种选择,图(a)中,1Y 和2Y 还无法分开,而图(b)的选择可以使1Y 和2Y 区分开来。所以图(b)的方向是一个好的选择。 下面讨论怎样得到最佳w 方向的解析式。 各类在d 维特征空间里的样本均值向量: ∑∈= i k X x k i i x n M 1,2,1=i (4.5-2) 通过变换w 映射到一维特征空间后,各类的平均值为: ∑∈= i k Y y k i i y n m 1,2,1=i (4.5-3) 映射后,各类样本“类内离散度”定义为: 2 2 () k i i k i y Y S y m ∈= -∑ ,2,1=i (4.5-4) 显然,我们希望在映射之后,两类的平均值之间的距离越大越好,而各类的样本类内离散度越小越好。因此,定义Fisher

Fisher线性判别

3·4 Fisher线性判别 多维 T Fisher变换 T 利于分类的一维 对于线性判别函数 ( 3-4-1) 可以认为是矢量在以为方向的轴上的投影的倍。这里, 视作特征空间中的以为分量的一个维矢量 希望所求的使投影后,同类模式密聚,不同类模式相距较远。 求权矢量T 求满足上述目标的投影轴的方向和在一维空间中确定判别规则。 从另一方面讲,也是降维,特征提取与选择等问题的需要。(R.A.Fisher,1936) 下面我们用表示待求的。 图 (3-4-1) 二维模式向一维空间投影示意图 (1)Fisher准则函数 对两类问题,设给定维训练模式,其中有个和个模式分属 类和类。为方便,各类的模式又可分别记为和,于是,各类模式均值矢量为 ( 3-4-2) 各类类内离差阵和总的类内离差阵分别为 ( 3-4-3) ( 3-4-4) 我们取类间离差阵为

( 3-4-5) 作变换,维矢量在以矢量为方向的轴上进行投影 ( 3-4-6) 变换后在一维空间中各类模式的均值为 ( 3-4-7) 类内离差度和总的类内离差度为 ( 3-4-8) ( 3-4-9) 类间离差度为 ( 3-4-10) 我们希望经投影后,类内离差度越小越好,类间离差度越大越好,根据这个目标作准则函数 ( 3-4-11) 称之为Fisher准则函数。我们的目标是,求使最大。 (2)Fisher变换 将标量对矢量微分并令其为零矢量,注意到的分子、分母均为标量,利用二次型关于矢量微分的公式可得 ( 3-4-12) 令 可得 当时,通常是非奇异的,于是有

( 3-4-13) 上式表明是矩阵相应于本征值的本征矢量。对于两类问题,的秩为1,因此 只有一个非零本征值,它所对应的本征矢量称为Fisher最佳鉴别矢量。由式( 3-4-13)有 ( 3-4-14) 上式右边后两项因子的乘积为一标量,令其为,于是可得 式中为一标量因子。这个标量因子不改变轴的方向,可以取为1,于是有 ( 3-4-15) 此时的是使Fisher准则函数取最大值时的解,即是维空间到一维空间投影轴的最佳方向, ( 3-4-16) 称为Fisher变换函数。至此可以说解决了将维模式的分类转变为一维模式分类的问题。(3)Fisher判别规则 由于变换后的模式是一维的,因此判别界面实际上是各类模式所在轴上的一个点。可以根据训练模式确定一个阈值,Fisher判别规则为 ( 3-4-17) 判别阈值可取两个类心在方向上轴的投影的连线的中点作为阈值,即 ( 3-4-18) 容易得出 ( 3-4-19) 显然,这里是和连线的中点。 当考虑类的先验概率时,、应取下面的定义 ( 3-4-20)

Fisher线性判别分析实验(模式识别与人工智能原理实验1)

实验1 Fisher 线性判别分析实验 一、摘要 Fisher 线性判别分析的基本思想:通过寻找一个投影方向(线性变换,线性组合),将高维问题降低到一维问题来解决,并且要求变换后的一维数据具有如下性质:同类样本尽可能聚集在一起,不同类的样本尽可能地远。 Fisher 线性判别分析,就是通过给定的训练数据,确定投影方向W 和阈值y0,即确定线性判别函数,然后根据这个线性判别函数,对测试数据进行测试,得到测试数据的类别。 二、算法的基本原理及流程图 1 基本原理 (1)W 的确定 各类样本均值向量mi 样本类内离散度矩阵i S 和总类内离散度矩阵w S 12w S S S =+ 样本类间离散度矩阵b S 在投影后的一维空间中,各类样本均值T i i m '= W m 。样本类内离散度和总类内离散度 T T i i w w S ' = W S W S ' = W S W 。样本类间离散度T b b S ' = W S W 。 Fisher 准则函数满足两个性质: ·投影后,各类样本内部尽可能密集,即总类内离散度越小越好。 ·投影后,各类样本尽可能离得远,即样本类间离散度越大越好。 根据这个性质确定准则函数,根据使准则函数取得最大值,可求出W : -1w 12W = S (m - m ) 。 (2)阈值的确定 实验中采取的方法:012y = (m ' + m ') / 2。 (3)Fisher 线性判别的决策规则 对于某一个未知类别的样本向量x ,如果y=W T ·x>y0,则x ∈w1;否则x ∈w2。 x 1 m x, 1,2 i i X i i N ∈= =∑T x S (x m )(x m ), 1,2 i i i i X i ∈= --=∑T 1212S (m m )(m m )b =--

模式识别 Fisher线性判别实验

实验三 Fisher 线性判别实验 姓名:徐维坚 学号:2220103484 日期:2012/7/7 一、实验目的: 1)加深对Fisher 线性判别的基本思想的认识和理解。 2)编写实现Fisher 线性判别准则函数的程序。 二、实验原理: 1.基本原理: 一般情况下,我们总可以找到某个方向,使得这个方向的直线上,样本的投影能分开的最好,而Fisher 法所要解决的基本问题就是找到这条最好的、最易于分类的投影线。 先从d 维空间到一维空间的一维数学变换方法。假设有一集合X 包含N 个d 维样本 N x x x ,...,,21,其中1N 个属于1ω类的样本记为子集1X ,2N 个属于2ω类的样本记为2X 。 若对N x 的分量做线性组合可得标量 n T n x w y =,i N n ,...,2,1= 这样便得到N 个一维样本n y 组成的集合,并可分为两个子集1Y 和2Y 。w 的绝对值是无关紧要的,它仅使n y 乘上一个比例因子,重要的是选择w 的方向,从而转化为寻找最好的投影方向* w ,是样本分开。 2.基本方法: 先定义几个基本参量: (1)各类样本均值向量i m 2,1,1== ∑∈i x N m i X x i (2)样本类内离散度矩阵i S 和总类内离散度矩阵ωS 2,1,) )((=--= ∑∈i m x m x S i X x T i i i 21S S S +=ω (3)样本类间离散度矩阵b S T b m m m m S ))((2121--= 我们希望投影后,在低维空间里个样本尽可能的分开些,即希望两类均值)(21m m -越大越

好,同时希望各类样本内部尽量密集,即i S 越小越好。因此,我们定义Fisher 准则函数为 2 12 21)()(S S m m w J F +-= 但)(w J F 不显含w ,因此必须设法将)(w J F 变成w 的显函数。 由式子 i T X x i T X x T i Y y i i m w x N w x w N y N m i i i === = ∑ ∑∑∈∈∈)1( 11 w S w w m m m m w m w m w m m b T T T T T =--=-=-))(()()(2121221221 w S w w m x m x w m w x w m y S i T T i i T Y y i T T Y y i i i i =--=-=-=∑∑∈∈))(()()(22 从而得到 w S w w S w w J T b T F ω=)(, 采用Lagrange 乘子法求解它的极大值* w )(),(c w S w w S w w L T b T --=ωλλ 对其求偏导,得0**=-w S w S b ωλ,即 **w S w S b ωλ= 从而我们很容易得到 *21211 *1*)(,)()(w m m R R m m S w S S w T b -=-==--其中ωωλ )(211 *m m S R w -= -ωλ 忽略比例因子λ/R ,得 )(211 *m m S w -=-ω 这就是我们Fisher 准则函数)(w J F 取极大值时的解。 三、实验内容: 依据实验基本原理和基本方法,对下面表3-1样本数据中的类别1ω和2ω计算最优方向 w ,画出最优方向w 的直线,并标记出投影后的点在直线上的位置。选择决策边界,实现 新样本xx1=(-0.7,0.58,0.089),xx2=(0.047,-0.4,1.04)的分类。 设某新类别3ω数据如表3-2所示,用自己的函数求新类别3ω分别和1ω、2ω分类的投

FISHER线性判别MATLAB实现

Fisher 线性判别上机实验报告 班级: 学号: 姓名: 一.算法描述 Fisher 线性判别分析的基本思想:选择一个投影方向(线性变换,线性组合),将高维问题降低到一维问题来解决,同时变换后的一维数据满足每一类内部的样本尽可能聚集在一起,不同类的样本相隔尽可能地远。 Fisher 线性判别分析,就就是通过给定的训练数据,确定投影方向W 与阈值w0, 即确定线性判别函数,然后根据这个线性判别函数,对测试数据进行测试,得到测试数据的类别。 线性判别函数的一般形式可表示成0)(w X W X g T += 其中 ????? ??=d x x X Λ1 ?????? ? ??=d w w w W Λ21 Fisher 选择投影方向W 的原则,即使原样本向量在该方向上的投影能兼顾类间分布尽可能分开,类内样本投影尽可能密集的要求。 如下为具体步骤: (1)W 的确定

样本类间离散度矩阵b S 在投影后的一维空间中,各类样本均值T i i m '= W m 样本类内离散度与总类内离散度 T T i i w w S ' = W S W S ' = W S W 样本类间离散度T b b S ' = W S W Fisher 准则函数为 max 22 212 21 ~~)~~()(S S m m W J F +-= (2)阈值的确定 w 0 就是个常数,称为阈值权,对于两类问题的线性分类器可以采用下属决策规 则: 令) ()()(2 1 x x x g g g -=则: 如果g(x)>0,则决策w x 1∈;如果g(x)<0,则决策w x 2∈;如果g(x)=0,则可将x 任意分到某一类,或拒绝。 (3)Fisher 线性判别的决策规则 Fisher 准则函数满足两个性质: 1、投影后,各类样本内部尽可能密集,即总类内离散度越小越好。 2、投影后,各类样本尽可能离得远,即样本类间离散度越大越好。 根据这个性质确定准则函数,根据使准则函数取得最大值,可求出 W :-1 w 12W = S (m - m ) 。 这就就是Fisher 判别准则下的最优投影方向。 最后得到决策规则 T 1212S (m m )(m m ) b =--

判别分析中Fisher判别法的应用

1 绪论 1.1课题背景 随着社会经济不断发展,科学技术的不断进步,人们已经进入了信息时代,要在大量的信息中获得有科学价值的结果,从而统计方法越来越成为人们必不可少的工具和手段。多元统计分析是近年来发展迅速的统计分析方法之一,应用于自然科学和社会各个领域,成为探索多元世界强有力的工具。 判别分析是统计分析中的典型代表,判别分析的主要目的是识别一个个体所属类别的情况下有着广泛的应用。潜在的应用包括预测一个公司是否成功;决定一个学生是否录取;在医疗诊断中,根据病人的多种检查指标判断此病人是否有某种疾病等等。它是在已知观测对象的分类结果和若干表明观测对象特征的变量值的情况下,建立一定的判别准则,使得利用判别准则对新的观测对象的类别进行判断时,出错的概率很小。而Fisher判别方法是多元统计分析中判别分析方法的常用方法之一,能在各领域得到应用。通常用来判别某观测量是属于哪种类型。在方法的具体实现上,采用国广泛使用的统计软件SPSS (Statistical Product and Service Solutions),它也是美国SPSS公司在20世纪80年代初开发的国际上最流行的视窗统计软件包之一 1.2 Fisher判别法的概述 根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。Fisher 判别法是判别分析中的一种,其思想是投影,Fisher判别的基本思路就是投影,针对P维空间中的某点x=(x1,x2,x3,…,xp)寻找一个能使它降为一维数值的线性函数y(x):()j j x C y = x∑

然后应用这个线性函数把P 维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。这个线性函数应该能够在把P 维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。在这里借用了一元方差分析的思想,即依据组间均方差与组均方差之比最大的原则来进行判别。 1.3 算法优缺点分析 优点:(1)一般对于线性可分的样本,总能找到一个投影方向,使得降维后样本仍然线性可分,而且可分性更好即不同类别的样本之间的距离尽可能远,同一类别的样本尽可能集中分布。 (2)Fisher 方法可直接求解权向量*w ; (3)Fisher 的线性判别式不仅适用于确定性模式分类器的训练,而且对于随机模式也是适用的,Fisher 还可以进一步推广到多类问题中去 缺点: (1)如果21M M =,0*=w ,则样本线性不可分; 21M M ≠,未必线性可分; w S 不可逆,未必不可分。 (2)对线性不可分的情况,Fisher 方法无法确定分类 2 实验原理 2.1 线性投影与Fisher 准则函数 各类在d 维特征空间里的样本均值向量:

改进的Fisher判别法

文章编号:1000-2243(2006)04-0473-05 改进的Fisher判别方法 黄利文1,2,梁飞豹1 (1.福州大学数学与计算机科学学院,福建 福州 350002;2.泉州师范学院理工学院,福建 泉州 362000)摘要:对Fisher判别方法进行了改进,其主要思想是改变Fisher判别中以临界值为准则的判别方法,而以各总体的投影值所确定的正态分布的密度函数作为样品归类准则,并形成多次判别.例子表明,该方法优于Fisher判别方法. 关键词:Fisher判别;临界值;判别分析 中图分类号:O212 文献标识码:A Improvement Fisher discriminant analysis method HUANG Li - wen1,2, LIANG Fei - bao1 (1. College of Mathematics and Computer Science, Fuzhou University, Fuzhou, Fujian 350002, China; 2. School of Science, Quanzhou Normal University, Quanzhou, Fujian 362000, China) Abstract: Has improved the Fisher discriminant method, its main thought is to change the method of Fisher discriminant taking critical value as criterion, but the normal distribution function which deter- mined by various ensembles projection value took the sample classification criterion, and forms the multi- variate discriminate method. The example indicates this method is superior to Fisher discriminant. Keywords : Fisher discriminant; critical value; discriminant analysis

fisher判别法

实验1 Fisher 线性判别实验 一、实验目的 应用统计方法解决模式识别问题的困难之一是维数问题,在低维空间行得通的方法,在高维空间往往行不通。因此,降低维数就成为解决实际问题的关键。Fisher 的方法,实际上涉及维数压缩。 如果要把模式样本在高维的特征向量空间里投影到一条直线上,实际上就是把特征空间压缩到一维,这在数学上容易办到。问题的关键是投影之后原来线性可分的样本可能变得混杂在一起而无法区分。在一般情况下,总可以找到某个最好的方向,使样本投影到这个方向的直线上是最容易分得开的。如何找到最好的直线方向,如何实现向最好方向投影的变换,是Fisher 法要解决的基本问题。这个投影变换就是我们寻求的解向量* w 本实验通过编制程序体会Fisher 线性判别的基本思路,理解线性判别的基本思想,掌握Fisher 线性判别问题的实质。 二、实验原理 1.线性投影与Fisher 准则函数 各类在d 维特征空间里的样本均值向量: ∑∈= i k X x k i i x n M 1 ,2,1=i (4.5-2) 通过变换w 映射到一维特征空间后,各类的平均值为: ∑∈= i k Y y k i i y n m 1,2,1=i (4.5-3) 映射后,各类样本“类内离散度”定义为: 22 ()k i i k i y Y S y m ∈= -∑,2,1=i (4.5-4) 显然,我们希望在映射之后,两类的平均值之间的距离越大越好,而各类的样本类内离散度越小越好。因此,定义Fisher 准则函数: 2 122 2 12 ||()F m m J w s s -=+ (4.5-5) 使F J 最大的解* w 就是最佳解向量,也就是Fisher 的线性判别式。

相关文档