文档库 最新最全的文档下载
当前位置:文档库 › 基于多宽度高斯核的支持向量机特征选取算法研究

基于多宽度高斯核的支持向量机特征选取算法研究

龙源期刊网 https://www.wendangku.net/doc/c09532047.html,

基于多宽度高斯核的支持向量机特征选取算法研究

作者:罗浪汪静

来源:《软件导刊》2018年第02期

摘要:支持向量机(SVM)作为一种机器学习分类算法应用广泛,但在处理高维度数据集时往往会由于特征维数较多遇到算法分类速度慢且容易陷入局部最优等问题。为了提高支持向量机的性能,提出一种基于多宽度高斯核(GKMW)的支持向量机特征选取算法FSG。FSG算法将泛化能力更强的多宽度高斯核函数引入支持向量机中代替传统的高斯核函数,利用多宽度高斯核函数能体现各个特征对分类贡献程度不同且能区分样本中各个特征重要性的特点,以多宽度高斯核函数的参数优化结果为基础进行特征选取。利用特征选取后的特征子集在多组标准UCI数据集上分类实验,实验结果表明所提算法性能优于有代表性的特征选取法。

关键词:多宽度高斯核;支持向量机;特征选取;基因表达式编程

DOIDOI:10.11907/rjdk.181012

中图分类号:TP312

文献标识码:A 文章编号:1672-7800(2018)002-0080-06

0 引言

大数据时代下数据规模庞杂,特征选取在处理高维度数据集时是一项很重要的前置处理工作,即为一种依据可靠的准则去挑选最佳特征的方法。特征选取将有用的特征保留,移除对分类相关性较低的特征,以分辨哪些特征是人们所需要且有助于进行分类的,以此来决定维度的重要性,并希望使用最佳特征组合所得到的分类效果能接近使用全部特征所得到的分类效果,而只使用最佳特征组合不仅能降低特征空间的复杂度,且能加快分类速度提高分类性能[1]。

特征选取已被应用到许多不同领域,目前在自动文本分类处理、人脸或字符识别、医学图像处理等高维度数据集中均有大量应用[2]。常用的特征选取方法有信息增益(Information Gain,IG)[3]、卡方检验(Chi-square test,CHI)[4]、互信息(Mutual Information,MI)[5]等。然而上述方法均是在原空间中找出具有最大线性分散量或分离量的特征,而且支持向量机(Support Vector Machine,SVM)中传统的高斯核函数存在局限性,其唯一可调宽度参数决定了高斯核函数的泛化规模,同时也限制了支持向量机的泛化性能。高斯核的这种单宽度性使得在样本的稀疏区域会产生欠学习现象,而在样本的稠密区域会产生过学习现象,并直接造成了对样本分布的错误估计[6]。针对上述问题,本文提出一种基于多宽度高斯核的支持向量机特

征选取算法——Feature Selection in Support Vector Machine Based on Gaussian Kernel with

相关文档
相关文档 最新文档