文档库 最新最全的文档下载
当前位置:文档库 › 基于SVM的多类分类集成

基于SVM的多类分类集成

基于SVM的多类分类集成
基于SVM的多类分类集成

华东理工大学学报(自然科学版)

Journal of East China University of Science and Technology (Natural Science Edition )

Vol.34No.52008210

收稿日期:2007207216

基金项目:国家自然科学基金(60543005,60674089);教育部高校博士点基金(20040251010);广西青年科学基金项目(桂科青0728091)作者简介:张红梅(19702),女,广西梧州人,副教授,博士生,从事机器学习与网络入侵检测的研究。E 2mail :hmzh2004@https://www.wendangku.net/doc/20122096.html,

文章编号:100623080(2008)0520734206

基于SVM 的多类分类集成

张红梅1,2, 高海华1, 王行愚1

(1.华东理工大学信息科学与工程学院,上海200237;2.桂林电子科技大学信息与通信学院,广西桂林541004)

摘要:为了解决单个SVM 可能产生的泛化能力恶化问题以及当SVM 采用一对多组合策略解决多类分类时可能产生的误差无界情况,本文采用Bagging 方法构造了一个基于SVM 的多类分类集成模型,利用MIT KDD 99数据集进行仿真实验,通过实验探讨了其中的两个参数———训练样本数和单分类器个数对集成学习效果的影响,并将其与采用全部样本进行训练及部分样本进行训练的单分类器检测进行了比较。结果表明:集成学习算法能够有效降低采用全部样本进行训练所带来的计算复杂性,提高检测精度,而且也能够避免基于采样学习带来检测的不稳定性和低精度。

关键词:SVM 集成;多类分类;Bagging (自助聚集);入侵检测中图分类号:TP393文献标识码:A

SVM B ased Multi 2class Classif ication E nsemble

Z H A N G Hong 2mei

1,2

, GA O H ai 2hua 1, W A N G X i ng 2y u

1

(1.S chool of I nf orm ation S cience an d Engi neeri ng ,East Chi na U ni versit y of S cience and Technolog y ,

S han g hai 200237,Chi na;2.S chool of I nf orm ation and Com m unication ,Guili n U ni versit y of

Elect ronic Technolog y ,Guili n 541004,Guang x i ,Chi na )

Abstract :To overcome t he deterioration of generalization ability caused by individual SVM and t he p roblem of unbounded error begotten by using one 2against 2rest combination of SVM in multi 2class classifi 2cation ,a Bagging based multi 2class SVM ensemble model is const ructed and applied to t he M IT KDD 99dataset to perform t he simulation experiment.In t he simulation experiment ,t he performance of SVM ensemble are evaluated by choosing t he t raining sample number and t he number of base classifiers ,and t hen comparison wit h t he individual classifier using all t raining data and using sampled t raining data.The result demo nstrates t hat t he Bagging based SVM ensemble algorit hm can depress t he complex of comp uta 2tion in classifier wit h all training data and improve t he detection rate ;Moreover ,it can avoid t he instability and t he low p recision in classifier wit h sampled t raining data.

K ey w ords :SVM ensemble ;multi 2class classification ;Bagging (Boost srap aggregation );int rusion detection

支持向量机(Support Vector Machine ,SVM )是一种分类和回归技术[1],它通过学习得到一个分

类间隔最大化的超平面,因而具有良好的泛化能力。目前已被广泛应用于人脸识别、数据挖掘、入侵检测

4

37

等领域。

尽管研究表明,理论上支持向量机容易实现良好的泛化能力甚至达到全局最优[2],然而这是建立在精确训练求解以及最优参数组合的基础上。在实际应用中,如果训练样本集过大时将不得不采用一些快速近似算法(如SMO)来减少训练复杂性和时间要求,另外获得最优的核参数组合也有一定难度,从而造成单个的SVM在泛化能力上的恶化。除此以外,SVM最初设计为一种二类分类算法,而在实际应用时遇到的常常是多分类问题。SVM在实现多类分类时一般是通过采用组合策略(如一对一、一对多等)来实现,性能难以达到稳定,如采用一对多策略时会产生误差无界的情况。为改进上述两种状况,本文采用多个SVM的集成学习来提高单个SVM的性能,构建SVM的分类集成不仅能提高单个SVM分类器的分类精度和稳定性能,而且能实现更有效的SVM多类分类[3]。

集成学习(Ensemble learning)通过将数个简单的、精度比随机猜测略好的弱(Weak)分类器以某种方式组合在一起对新样本进行分类,构成一个高精度的估计,从而有效克服过学习,提高分类准确率。

1990年,Hansen[3]通过投票法将一组神经网络结合起来求解,发现这一组神经网络形成的集成比最好的个体神经网络的性能还好,这一现象引起了研究界的重视;同年,Schapire等[4]提出的Boosting 算法,构造性地证明了只要找到一个比随机猜测略好的弱学习算法,就可以将其提升为强学习算法。这些工作有力地推动了集成学习的发展,使之成为机器学习的研究热点。2003年,K im等[5]提出了基于Bagging和Boosting的SVM集成,证明了SVM 集成对IRIS数据、手写体识别和欺诈检测数据在分类精度上比单个的SVM有很大的提高。2005年,谷雨等[6]也通过实验证明,SVM集成对入侵检测数据比单个SVM的分类性能更好。然而,文献[6]将入侵检测数据分为正常和异常两类,做的是二类分类的SVM集成,而本文研究的SVM多类分类集成更接近入侵检测的实际情况。再者,前面的工作也未见集成规模与分类性能之间关系的讨论,而本文通过实验得到的结果对两者之间的关系进行了讨论,这些讨论对如何得到最优的SVM多分类集成有着重要的现实意义。

本文以入侵检测为多类分类集成方法的应用平台,构造一个基于SVM多分类集成的分类模型,利用M IT KDD99数据集进行仿真实验,探讨了训练样本数和单分类器数对集成学习效果的影响。1 SVM集成

SVM集成的实现主要包括个体分类器的生成和结论综合判断两部分。

对于个体分类器的生成策略,常用的技术包括自助聚集Bagging、提升Boosting等。研究表明:这两种方法在精确性和对不同领域数据的计算可行性等方面的表现都是比较突出的[7]。

Bagging采用的是重采样技术,从大小为n的原始数据集中分别独立随机选取n′个数据(n′

Boosting算法首先对训练集样本赋一初始权重,随后对训练集采用学习分类器进行多次训练,对训练失败(如错分)的样本赋以较大的权重,在后续学习中更重视对这些样本的学习,从而得到评价函数序列,最后根据某种策略进行综合。

由于Bagging算法的个体分类器之间不存在强的依赖关系,因此算法可以并行。如果利用现有网络的分布式计算可以进一步提高算法的时间效率,并且Bagging总是可以改善学习器的性能[8],本文采用Bagging算法来生成个体分类器。

在生成多个个体分类器后,需通过某种综合评判策略进行最终输出结果生成。常用的策略包括多数投票法、基于L SE误差的加权、双层递归组合、选择性集成等。为了简单起见,本文采用的是多数投票法。

多数投票法首先设f k(k=1,2,…,K)为第k个单分类器的决策函数,C j(j=1,2,…,C)表示第j 类。对于测试样本x,令集成中各个单分类器将其划分为类j的个数N j={k|f k(x)=C j},则对于x 通过多数投票策略的最终输出为:

f mv(x)=ar

g max N j(1) 2 SVM多类分类集成

SVM基本算法针对二类分类问题,为将SVM 推广到多类分类问题的求解,可通过进行二类分类的组合将多类分类问题转化为二类分类问题进行求

537

第5期张红梅,等:基于SVM的多类分类集成

解。常用的组合策略有一对一和一对多等。

一对一方法在k 类训练样本中构造所有可能的二类分类器,通过两两组合构造C 2k =k (k -1)/2个二类分类器,每个仅仅在k 类中的二类训练样本上训练,最后组合这些二类分类的输出形成最终输出。这种方法对于类别k 过大时,产生的单分类器过多,训练时间较长。此外如果单个二类分类器不先规范化,则易趋向过学习。

一对多方法对于k 类问题构造k 个分类器,对于第i 个分类器采用第i 类中的训练样本作为正的训练样本,将其他样本作为负的训练样本。这种分类方法在训练过程中,每个分类函数都需要所有的样本参与。

鉴于多类分类的实现通过采用多个二分类组合来实现,因此集成学习可以在二类分类器层次进行,也可以在多类分类器层次进行。本文采用的是后者。首先构造多个多类分类器组合,然后将这些组合看成单分类器来进行集成学习。其集成分类模型结构如图1所示

图1 多分类器层次的SVM 多分类集成学习

Fig.1 SVM multi 2class ensemble in multi 2classifier level

3 入侵检测仿真实验

为了评估SVM 集成分类器的分类性能,采用

M IT KDD 99数据集进行仿真实验。实验选取KDD 99中的精简10%训练样本和Corrected 测试

样本数据集。首先通过MS SQL SERV ER 将样本标记为:Normal 、Pro be 、Dos 、U2R 、R2L 5大类,随后去除数据集中重复的样本,处理后的数据集概况如表1所示。

实验在曙光服务器Intel TM 2.4G CPU ,1G RAM ,Window XP ,MA TL AB 7.1上进行仿真。采用一对一方法构造单个Multi 2SVM 分类器进行五分类入侵检测,SVM 分类算法采用修正后的L IB 2SVM 实现,核函数采用E 2RB F 核,核宽度及惩罚因

表1 实验数据集分布概况

T able 1 Experiment dataset distribution outline

Label

Attack class

Original sample

number Training

set (10%)Test set

(Corrected )

Redundant omitted sample number Training set (10%)Test set (Corrected )0Normal 972786059387832479131Probe 41074166213026782DoS 39145822985354572235683U2R 52228522154

R2L

1126

16189

999

2913

子均设为1。对单个Multi 2SVM 进行集成,集成策

略采用多数投票法。为了便于观察集成规模对分类效果的影响,本文分别通过改变训练数目样本数和个体分类器数来考察这些因素的改变对检测结果的影响,从而寻找优化的检测模型。

实验首先用全部训练样本进行训练,全部测试样本进行测试,其测试结果如表2所示。

表2 单Multi 2SVM 分类器采用全部训练样本的测试

混淆矩阵

T able 2 Single multi 2SVM training confusion matrix using

all training data

Norm

Probe DoS U2R R2L Correct (%)Norm 47684154691599.52Probe 105115021240156.08DoS 18537217060292.09U2R

126180170.46R2L

2537

16

2

358

12.28

随后对训练集进行采样,用单个Multi 2SVM 对采样数据进行检测。采样采用随机放回的方式,对每类数据分别进行,每类样本的采样数分别为[200,400,500,600,800,1000,1200,1400,1600,2000],如果该类的训练样本数不足(如U2R 和R2L ),则取该类的全部样本(后面对训练样本不足的情况,均采样同样方式处理)。如此独立重复10次。其检测结果如图2所示。 由于训练是基于单次采样的,因此算法的计算复杂度较低。不计核参数寻优时间,总样本数在7051个时(由于U2R 和R2L 类的训练样本集中样本数不足2000个,故总数不足10000个),训练时间也只需36.9353s ,平均每条样本的检测时间在5ms 左右。然而,图2所显示的检测结果非常不稳定,如当每类采样数为200条时,Normal 的检测

637华东理工大学学报(自然科学版)第34卷

图2 不同采样样本数下10

次单Multi 2SVM 的检测最大最小值

Fig.2 Maximum and minimum detection rate of 102times single multi 2SVM for different number of sampled record

精度最高达到97.91%,最低时才达到65.63%。而随着训练集采样样本数的不断增加,检测精度逐步趋于稳定,但检测性能提高有限,均在88%左右浮动。算法对Normal 和Do S 的检测精度非常高,其主要原因是测试样本中这两类的特征表征与训练样本相似,且在测试集中少有训练集中未出现过的正常或DoS 攻击类型,此外Normal 和DoS 在训练样本集中所占比例也较其他类大,然而算法对其他类攻击如U2R 的检测精度较低,几乎无法检测出U2R 的入侵,这与目前已有的研究结果基本相似。

这是因为所设计的特征难以完全表征该类攻击,此外也由于测试样本集中存在着训练集中未出现过的攻击类型。

为了观察个体分类器个数对检测性能的影响,实验将全部类别的采样数设为2000个,采用随机放回抽样。同时,设定不同的单分类器数目[5,7,9,

11,13,15,17,19,21,27,31]进行实验仿真(为避免投票时出现票数相同状况,这里均设定为奇数)。随后对单个Multi 2SVM 多类分类器进行集成。其实验结果如表3所示。

相对前面的单个Multi 2SVM 采样检测来说,由于集成学习采用多个单分类器进行检测综合,因此计算复杂性有所增加。当单分类器数为5个时,训练时间需要74.43s ,而当分类器数增加到31个时,训练时间增加至382.29s ,平均每个样本的检测时

间在17~100ms ,基本能够满足实时性要求。所有分类器数目下检测精度均高于前者,并且其变化比较平缓,稳定性有所提高。此外对于难以检测的U2R 和R2L 类入侵精度有所提高,在单分类器数

目为21时,分别达到13%和31.6%,随后增加分类器数目时精度有所下降,可能是因为训练集中存在难分类样本,使得分类精度受某些分类器的影响。

从表3可看出基于Bagging 的SVM 集成分类器的分类能力受单个分类器数目的影响不大,主要是因为SVM 是一种稳定的分类器,从一定程度也说明了Bagging 算法对不稳定弱分类器的精度提高较大,而针对相对稳定的分类器集成的提高程度要小些。

实验还考察了不同训练样本数下Multi 2SVM 集成的检测性能变化。由表3可知在分类器数目为21时所取得的分类性能最好,因此,此时的单Multi 2SVM 数目设定为21,然后从每类数据采样随

机放回采样,分别抽取[200,400,500,600,800,1000,1200,1400,1600,2000]个样本训练Multi 2SVM ,其集成分类器的检测结果如表4所示。

由表4可知不同的采样样本数其训练时间不同,在每类样本数为200时训练时间为13.1s ,每类样本数为2000时训练时间为506.16s ,平均单个样本检测时间18~80ms ,均维持在毫秒级,基本满足实时性要求。算法的检测精度受样本数目的影响

7

37第5期张红梅,等:基于SVM 的多类分类集成

表3 不同单Multi2SVM分类器数目下Bagging集成学习检测结果(采取数=7051)

T able3 Experiment results of Bagging ensemble for different number of multi2SVM(Samples=7051)

Multi2SVM classifier No.Training

time/s

Detection

time/s

Detection

accuracy

(%)

Normal

accuracy

(%)

Probe

accuracy

(%)

DoS

accuracy

(%)

U2R

accuracy

(%)

R2L

accuracy

(%)

False

positive

(%)

False

negitive

(%)

574.431283.1190.9698.9466.1386.31 1.3926.95 4.4722.04 786.211658.2491.5198.9266.6588.08 2.3326.95 4.2320.56 9109.192161.0291.1698.9965.4286.88 3.2627.02 4.5821.62 11134.492642.5691.4198.9866.6187.62 4.1726.98 4.3820.92 13163.623176.791.3399.0566.8487.16 5.1226.95 4.621.26 15189.123696.5191.7498.9769.0888.028.8430.04 4.2420.03 17210.134105.4191.3999.0569.9486.5110.2330.59 4.8321.1 19241.514660.892.0498.8969.2688.9711.6331.07 4.1619.14 21258.075153.7592.1198.9170.3188.9713.0231.58 4.518.98 27330.46530.2691.4398.966.7287.769.7727.02 4.7620.75 31382.297563.2991.4798.9167.1787.8310.727.02 4.5920.65表4 不同采样训练样本下Bagging集成学习检测结果(SVM数目=21)

T able4 Experiment results of Bagging ensemble for different number of sampled training data(SVM_Number=21)

Sample No. select from every class Amount of

training

sample

Training

time/s

Detection

time/s

Detection

accuracy

(%)

Normal

accuracy

(%)

Probe

accuracy

(%)

DoS

accuracy

(%)

U2R

accuracy

(%)

R2L

accuracy

(%)

False

negitive

(%)

False

positive

(%)

20085213.11399.6187.2399.3352.7376.23 1.415.28 6.9532.51 400165241.462261.8689.1899.1656.0582.370.4716.99 5.7227.11 500205262.572676.9589.3299.0656.0183.010.4717.51 5.7126.55 600245285.33064.4890.0599.0857.3285.270.4716.86 4.4924.68 8003252142.713843.2991.2798.9967.186.7712.0928.91 4.8621.31 10004051206.824570.4591.2399.0267.0786.5814.4228.66 4.4721.47 12004651258.075153.7592.1298.9270.3188.9713.0231.58 4.518.98 14005251311.055488.592.4698.974.588.9919.0736.39 4.3718.06 16005851380.25985.192.7198.9374.8789.721.436.35 3.9917.44 20007051506.166672.1492.7398.9774.7689.6923.7236.15 4.3617.46

较大,在样本数为200时基本与单次采样分类性能相当,提高不大。然而随着训练采样样本数的增加,其检测精度也显著提高。对于相对较难分类的入侵检测精度及入侵漏检率逐步提高,然而系统的误警率也有所增大。

表5分别对3种算法(单个Multi2SVM使用全部训练样本、单个Multi2SVM使用采样样本以及基于Bagging的SVM集成)的性能进行了比较,第一种算法所需训练时间最长约5h,最后训练完的模型支持向量个数达到18017个,平均每个测试样本的检测时间为82ms,训练精度达到99.9%,检测精度为92.2%,Normal和Probe的检测精度最高,对于U2R和R2L入侵却难以检测,总体检测效果基本令人满意,但计算复杂性太大。使用采样样本进行检测所需训练时间最少,仅需36s,由于训练样本基于采样最后所得模型的支持向量较少,因此样本的平均检测时间较短仅需5ms,然而算法的训练精度和检测精度较低,几乎无法检测出U2R和R2L 之类攻击,原因主要是采样样本的类分布不均匀。基于Bagging集成学习的检测在单采样检测基础之上进行,算法训练时间和检测时间取决于单分类器的数目和每次采样样本数,在单Multi2SVM个数为21,单次训练样本为7051个时训练时间为506.16 s,远远小于采用全部样本进行训练所需时间,其单

837华东理工大学学报(自然科学版)第34卷

个样本平均检测时间为86ms,基本与之相当,其训练精度和检测精度均有所提高,尤其针对U2R和R2L之类入侵能有所检测,采用集成学习有效降低了入侵的漏检率,但误警率也相应有所上升。

表5 3种入侵特征检测算法性能比较

T able5 Experiment performance comparison for different detection algorithms

Algorit hm Training

time/s

No.of

SV.

Training

accuracy

(%)

Detection

accuracy

(%)

Detect

time/s

Multi2SVM

(Total sample)

17764.021801799.8892.196345.46 Multi2SVM

(Sampled record)

35.93284396.3288.74417.13 Bagging2SVM506.16/99.9192.736672.14 4 结 论

通过入侵检测仿真实验,可以得出以下结论: (1)训练集的采样样本数较少时,检测精度非常不稳定,随着样本数的逐步增加,检测精度逐步增加后趋于稳定。(2)随着个体分类器的数目增加,检测精度有所提高,但提高幅度不大。(3)基于Bagging2SVM的集成学习不仅能够有效降低采用全部样本进行训练所带来的计算复杂性,提高检测精度,而且也相应能够避免基于采样学习所带来检测的不稳定性和低精度。

参考文献:

[1] Cortes C,Vapnik V.Support vector network[J].Machine

Learning,1995,20:2732297.

[2] Burges C J C.A tutorial on support vecotr machines for pat2

tern recognition[J].Data Mining Knowledge Discovery,1998, 2(2):1212167.

[3] Hansen L K,Salamon P.Neural network ensembles[J].

IEEE Trans on Pattern Analysis and Machine Intelligence, 1990,12(10):99321001.

[4] Schapire R E.The strengt h of weak learnability[J].Machine

Learning,1990,5(2):1972227.

[5] K im H C,Pang S N,Je H M,et al.Constructing support

vector machine ensemble[J].Pattern Recognition,2003,36

(12):275722767.

[6] 谷 雨,郑锦辉,戴明伟,等.基于Bagging支持向量机集成的

入侵检测研究[J].微电子学与计算机,2005,22(5):17219. [7] J uan J R,Ludmila I K.Rotation forest:A new classifier

ensemble met hod[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(19):161921630.

[8] 周志华,陈世福.神经网络集成[J].计算机学报,2002,25(1):

128.

(上接第728页)

参考文献:

[1] Chang J S,Lu S C,Chiu Y L.Dynamic modeling of batch

polymerization reactors via t he hybrid neural2network rate2

function approach[J].Chemical Engineering Journal,2007,

130(1):19228.

[2] Zhang J.Batch process modeling and optimal control based

on neural network models[J].Acta Automatica Sinica,

2005,31(1):19231.

[3] Zhang J,Morris A J,Martin E B.Long2term prediction

models based on mixed order locally recurrent neural net2

works[J].Computers and Chemical Engineering,1998,22

(728):105121063.

[4] Zhang J.A neural network2based strategy for t he integrated

batch2to2batch control and wit hin2batch control of batch

processes[J].Transaction of t he Institute of Measurement

and Control,2005,27(5):3912410.

[5] Lin C J,Chin C C.Prediction and identification using wave2

let2based recurrent fuzzy neural networks[J].IEEE Trans2

actions on Systems Man and Cybernetics,Part B:Cybernet2

ics,2004,34(5):214422154.[6] Lin C J,Chen C H.A compensation2based recurrent fuzzy

neural network for dynamic system identification[J].Euro2

pean Journal of Operational Research,2006,172(2):6962

715.

[7] Xiong Z H,Zhang J.A batch2to2batch iterative optimal con2

trol strategy based on recurrent neural network models[J].

Journal of Process Control,2005,15(1):11221.

[8] Lee J H,Lee K S,K im W C.Model2based iterative learning

control wit h a quadratic criterion for time2varying linear sys2

tems[J].Automatica,2000,36(17):6412657.

[9] 李书臣,徐心和,李 平.分批重复过程迭代学习广义预测

控制[J].东北大学学报(自然科学版),2004,25(8):7342

737.

[10] 樊 雷,王海清,宋执环,等.基于广义预测控制的间歇生

产迭代优化控制[J].化工自动化及仪表,2006,33(2):252

28.

[11] Xiong Z H,Zhang J,Wang X,et al.Run2to2run iterative

optimization control of batch processes based on recurrent

neural networks[J].Advances in Neural Networks2Inter2

national Symposium on Neural Networks,2004,2:972103.

[12] Li B,Jiang W S.Optimizing complex function by chaos

search[J].Cybern Syst,1998,29(4):4092419.

[13] Ray W H.Advanced Process Control[M].New Y ork:

Mc Graw2Hill,1981.

937

第5期张红梅,等:基于SVM的多类分类集成

基于支持向量机的图像分类研究

目录 摘要 (2) Abstract (3) 1 引言 (3) 1.1 概述 (4) 1.2 统计学习理论 (4) 1.3 支持向量机及其发展简史 (5) 1.4 研究内容及其现实意义 (6) 2 持向量机模型的建立 (7) 2.1 SVM核函数 (7) 2.2 核函数的选择 (8) 2.3 SVM算法简介 (8) 2.4 SVM学习算法的步骤 (9) 3 图像内容的描述及特征提取 (10) 3.1 图像内容的描述模型 (10) 3.2 颜色特征的描述 (10) 3.2.1 颜色的表示和颜色模型 (10) 3.2.2 颜色直方图 (11) 3.2.3 累积颜色直方图 (12) 3.2.4 主色 (12) 3.3 纹理特征的描述 (12) 4 基于SVM的图像分类方法研究 (13) 4.1 分类系统的结构 (13) 4.1.1 特征提取模块 (13) 4.1.2 SVM分类模块 (13) 4.2 特征提取策略 (14) 4.3 实验 (14) 4.3.1 三种核函数的选择比较实验 (14) 4.3.2 基于颜色特征的图像分类 (17) 4.3.3 基于纹理特征的图像分类 (17) 4.3.4 基于综合特征的图像分类 (17) 5 结论 (18) 参考文献 (19)

摘要 支持向量机(SVM)方法是建立在统计学习理论基础之上的,克服了神经网络分类和传统统计分类方法的许多缺点,具有较高的泛化性能。但是,由于支持向量机尚处在发展阶段,很多方面尚不完善,现有成果多局限于理论分析,而应用显得较薄弱,因此研究和完善利用支持向量机进行图像分类对进一步推进支持向量机在图像分析领域的应用具有积极的推动作用。本文研究了图像的颜色、纹理等特征对利用支持向量机进行图像分类的影响。对支持向量机在图像分类中的应用作了较全面的研究。对三种核函数进行了对比实验,实验表明二项式核函数较高斯核函数和sigmoid核函数具有更强的泛化能力;同时,通过实验分析了特征选取对向量机性能的影响,发现综合特征有利于分类效果的提高。在以上研究的基础上,我们建立了一个基于svM的图像分类实验平台,讨论了系统的组成模块和功能,给出了一些图像分类实例,并验证了前述理论研究的结果。 关键词:统计学习理论支持向量机图像分类特征提取

基于libsvm的gist和phog特征的图像分类研究

研究生技术报告题目:基于libsvm的图像分类研究 编号:20132098 执笔人:刘金环 完成时间:2013-11-23

摘要 随着科学技术的飞速发展,机器学习与人工智能技术的不断创新,人们对特定信息检索的需求逐渐增加,使得如何对资源进行合理有效的分类成为一个关键问题。支持向量机(SVM)是一种建立在统计学习理论基础之上的机器学习方法,由于其基于小样本训练的优越性,被广泛应用于模式识别的各个领域,在图像检索、人脸识别等中充分了体现了其优越性,越来越受到广泛的关注和重视。 本文主要介绍了基于libsvm分类器的分类问题。本文以gist和phog特征为例简单实现了图像的分类问题,并通过查询准确性对这两种分类方法进行对比和分析。由仿真结果可知,gist特征分类要好于phog的特征分类,仿真效果较为理想。

目录 1 课题意义..................................................................................................... 错误!未定义书签。 2 技术要求及性能指标................................................................................. 错误!未定义书签。3方案设计及算法原理.................................................................................. 错误!未定义书签。 3.1基于libsvm的gist特征提取分类.............................................. 错误!未定义书签。 3.1.1算法原理 (1) 3.1.2设计框图 (2) 3.2基于libsvm的phog特征提取分类.............................................. 错误!未定义书签。 3.2.1算法原理.............................................................................. 错误!未定义书签。 3.2.2设计框图.............................................................................. 错误!未定义书签。4代码及相关注释. (4) 4.1基于libsvm的gist特征提取分类仿真结果 (6) 4.1.1代码及注释 (9) 4.1.2测试结果 (9) 4.2基于libsvm的phog特征提取分类仿真结果 (9) 4.2.1代码及注释 (9) 4.2.2测试结果 (12) 4.3基于libsvm的gist特征分类不同训练集测试结果.................. 错误!未定义书签。 4.3.1代码及注释.......................................................................... 错误!未定义书签。 4.3.2测试结果 (14) 5实验结果分析.............................................................................................. 错误!未定义书签。6总结 ............................................................................................................. 错误!未定义书签。

SVM分类方法在人脸图像分类中的应用

SVM分类方法在人脸图像分类中的应用 摘要:本文首先简要综述了人脸识别技术中不同的特征提取方法和分类方法;然后介绍了支持向量机(SVM)的原理、核函数类型选择以及核参数选择原则以及其在人脸分类识别中了应用,最后通过在构建的人脸库上的仿真实验观测观测不同的特征提取方法对人脸识别率的影响、不同的学习样本数对人脸识别率的影响、支持向量机选用不同的核函数后对人脸识别率的影响、支持向量机选用不同的核参数后对人脸识别率的影响。 一、人脸识别简介 人脸识别也就是利用计算机分析人脸图象,进而从中提取出有效的识别信息,用来“辨认”身份的一门技术。人脸识别技术应用背景广泛,可用于公安系统的罪犯身份识别、驾驶执照及护照等与实际持证人的核对、银行及海关的监控系统及自动门卫系统等。 常见的人脸识别方法包括基于KL变换的特征脸识别、基于形状和灰度分离的可变形模型识别、基于小波特征的弹性匹配、基于传统的部件建模识别、基于神经网络的识别、基于支持向量机的识别等。其中特征脸方法、神经网络方法、基于支持向量机的方法等是基于整体人脸的识别,而基于提取眼睛等部件特征而形成特征向量的方法就是基于人脸特征的识别。 虽然人类的人脸识别能力很强,能够记住并辨别上千个不同人脸,可是计算机则困难多了。其表现在:人脸表情丰富;人脸随年龄增长而变化;人脸所成图象受光照、成象角度及成象距离等影响;而且从二维图象重建三维人脸是病态过程,目前尚没有很好的描述人脸的三维模型。另外,人脸识别还涉及到图象处理、计算机视觉、模式识别以及神经网络等学科,也和人脑的认识程度紧密相关。这诸多因素使得人脸识别成为一项极富挑战性的课题。 通常人类进行人脸识别依靠的感觉器官包括视觉、听觉、嗅觉与触觉等。一般人脸的识别可以用单个感官完成,也可以是多感官相配合来存储和检索人脸。而计算机的人脸识别所利用的则主要是视觉数据。另外计算机人脸识别的进展还受限于对人类本身识别系统的认识程度。研究表明,人类视觉数据的处理是一个

毕业设计(论文)-基于SVM的图像分类系统设计文档

LANZHOU UNIVERSITY OF TECHNOLOGY 毕业设计 题目基于SVM的图象分类系统 学生姓名 学号 专业班级计算机科学与技术3班 指导教师 学院计算机与通信学院 答辩日期

摘要 支持向量机(SVM)方法是建立在统计学习理论基础之上的,克服了神经网络分类和传统统计分类方法的许多缺点,具有较高的泛化性能。但是,由于支持向量机尚处在发展阶段,很多方面尚不完善,现有成果多局限于理论分析,而应用显得较薄弱,因此研究和完善利用支持向量机进行图像分类对进一步推进支持向量机在图像分析领域的应用具有积极的推动作用。 本文通过支持向量机技术和图像特征提取技术实现了一个图像分类实验系统。文中首先引入了支持向量机概念,对支持向量机做了较全面的介绍;然后,讨论了图像特征的描述和提取方法,对图像的颜色矩特征做了详细的描述,对svm分类也做了详细的说明;最后讨论了由分类结果所表现的一些问题。测试结果表明,利用图像颜色矩特征的分类方法是可行的,并且推断出采用综合特征方法比采用单一特征方法进行分类得到的结果要更令人满意。 关键词:支持向量机图像分类特征提取颜色矩

Abstract The support vector machine (SVM) method is based on statistical learning theory foundation, overcome the neural network classification and traditional statistical classification method of faults, and has high generalization performance. But, because the support vector machine (SVM) is still in the development stage, many still not perfect, the existing results more limited to the theoretical analysis, and the use of appear more weak and therefore study and improve the use of support vector machines to image classification support vector machine to further advance in the application of image analysis play a positive role in promoting. In this paper, support vector machine (SVM) technology and image feature extraction technology implements a image classification experiment system. This paper first introduces the concept of support vector machine (SVM), the support vector machine (SVM) made a more comprehensive introduction; Then, discussed the image characteristics of description and extraction method, the image color moment features described in detail, also made detailed instructions for the SVM classification; Finally discussed the classification results of some problems. Test results show that using the torque characteristics of the image color classification method is feasible, and deduce the comprehensive characteristic method than using single feature method to classify the results are more satisfactory. Keywords: support vector machine image classification feature extraction Color Moment

基于自适应特征选择和SVM的图像分类的研究

第27卷第1期计算机应用与软件V01.27No.12010年1月ComputerApplicationsandSoftwareJan.2010 基于自适应特征选择和SVM的图像分类的研究 潘崇朱红斌 (丽水学院计算机与信息工程学院浙江丽水323000) 摘要提出多特征结合的图像分类方法,分别提取颜色特征和LBP纹理特征,同时提出Adaboost算法对特征进行选择,选择最能表示图像的特征,这样既降低了特征的维数,又提高了分类的精度。最后对基于SVM的多类图像分类方法进行了研究,提出在二类支持向量机的基础上构造多类分类器的方法,实验结果表明,提出的方法能够很好地用于图像分类。 关键词图像分类支持向量机特征选择Adaboost算法 oNIMAGECLASSIFICATIONBASEDoNADAPTIVEFEATURESELECTIoN ANDSUPPORTVECTORMACHINE PanChongZhuHongbin (CollegeofComputerandInformationEngineering,LishuiUniversity,Lishui 323000,撕昭,China) AbstractAnimageclassificationmethodofmulti.featuremergeneeisproposedinthispaper,itextractsrespectivelythecolourfeatureandLBPtexturefeature,meanwhileAdaboostalgorithmisputforwardforfeatureselecting.Bychoosingthefeaturewhichrepresentsimagethebest.itc明bothreducefeature’Sdimensionandimproveclassificationprecision.Intheendofthispaper,themethodofmulti。classimageclas?sificationbasedonsupportvectormachineisstudied,andtheapproachofconstructingthemulti-classclassifierbasedontwo。classSVMisproposed.Experimentalresultsshowthattheproposedapproach hasgoodperformanceinimageclassification? KeywordsImageclassificationSupportvectormachineFeatureselectionAdaboostalgorithm 0引言 随着数字图像处理技术的发展和实际应用的需要,图像分类识别技术应运而生。例如从遥感图像中识别出各种农作物、森林资源、矿产资源等,用人工地震波形图寻找有油的岩层结构,根据医学x光图像分析各种病变,邮政系统中的信函自动分拣等等,都需要对图像中的各种对象进行区别分类。图像的计算机分类,是模式识别技术在图像领域中的具体运用,它的目的是研制能够自动处理图像信息的计算机系统,以便代替人们完成图像的分类和识别的任务【1.21。 基于内容的|冬I像分类对图像数据库的检索、图像过滤、图像识别等具有霞要意义,研究人员已做了一些有意义的工作。文献[3]中基于图像的颜色和主方向特征利用KNN分类器实现了室内/室外的图像分类。文献[4]使用支持向量机分类器实现r基于颜色直方图的图像分类系统。文献[5]中利用Bayes-tan分类器实现了基于空间颜色矩和边缘方向直方图的室内/室外、城市/自然风景图像分类。这些方法都只用到了图像的颜色特征,由于各种对象的复杂性以及干扰因素的多样性,使得这些分类方法的分类精度较低。 本文提出多特征结合的图像分类方法,分别采用颜色特征和LBP纹理特征,同时采用Adaboost对特征进行选择,选择最能表示图像的特征,这样既降低了特征的维数,又提高J,分类的精度。最后提fIj在一类支持向量机的基础|二构造多类分类器的方法,实验表明,提出的方法具有良好的分类性能。1自适应特征选择 1.1特征 本文采用二种不同类型特征空间中的特征:颜色特征和LBP纹理特征。这二种特征均可以进行快速计算。 1.1.1颜色特征 我们采用文献[6]据出的颜色特征空间中的方法,颜色特征空间: Fl兰{埘1R+硼2G+tl,381wj∈[一2,一1,0,+I,+2]}(1)式中埘。对应于一2到2之间的整数,这样的组合可以达到53种,但最终选择了其中的49种特征作为我们的颜色特征旧1。 1.1.2LBP纹理特征 LBP(1_x,calbinarypaRern)"1作为纹理算子可以很好地用来分析图像纹理特征。假定给定图像函数l(x,Y),为了刻画图像像素点在某邻域内的灰度变化,考虑像素点的mxm邻域,LBP纹理算子计算公式如下: 2m一1 LBP(x。,儿)=∑s(,P一,c)2’ 其中Ic、L分别为中心(‰,Y。)处及邻域内各像素点的灰度值,s(茁)为一个二值函数,定义如下: 收稿日期:2008—08—23。潘崇,硕士,主研领域:图形图像,嵌入式系统。 万方数据

相关文档