当前位置：文档库 › 基于SVM数据挖掘的国民经济序列补缺及预测——以青海省国民经济为例

基于SVM数据挖掘的国民经济序列补缺及预测——以青海省国民经济为例

基于SVM数据挖掘的国民经济序列补缺及预测——以青海

省国民经济为例

李望晨张利平王培承

【摘要】〔摘要〕国民经济数据的健全性与实效性具有重要决策价值和统计意义。本文将两种新兴智能数据挖掘技术—支持向量机(SVM)与神经网络应用于国民经济数据补缺及预测领域,在探析原理及性能基础上检验其应用性能。根据青海省2003～2005年各月份国民经济数据构建指标体系和算例,采用两种方法均通过样本集直接训练方式挖掘各系统中蕴含的规律性联系,然后2004年9月份城镇居民人均可支配收入缺失数据进行补缺和对2005年12月份城镇居民人均消费支出、人均可支配收入进行预测。实验操作方便,且SVM补缺及预测结果唯一,精度更优。同时也说明SVM基于结构风险最小化更适合高维小样本集数据回归问题,泛化性能强。

【期刊名称】工业技术经济

【年(卷),期】2010(029)001

【总页数】4

【关键词】〔关键词〕SVM 数据挖掘国民经济补缺预测

1 原理性能分析

国民经济数据的健全性与实效性对决策者宏观决策参考和定量分析具有重要价值和现实意义,有必要采用统计方法或信息技术对缺失数据进行补缺及未来发展预测进行预测。在经济系统中蕴含着错综复杂的非线性规律及联系,且各种因素相互交错影响,难以综合考虑来确定合适参数和统计模型进行建模,传统统计分析方法难以操作,性能不佳。新兴数据挖掘技术如支持向量机与神经网络均可较好描述非线性系统规律,直接通过样本集学习训练,表达指标数据间蕴含的非线性映射关系,挖掘系统中训练样本集输入输出指标数据间蕴含的复杂联系并加以存储,技术实现便捷高效,新样本外推仿真效果好于传统模型,以优良非线性数据处理能力被广泛应用在各行业数据挖掘、回归、预测及评价等领域。

神经网络理论较经典,但基于经验风险最小化原则的训练方式导致泛化能力依赖训练样本集容量及输入维数,高维小容样本集训练后对新样本外推能力会差一些,而且算法随机选取初始权值,局部最优,收敛后输出不唯一。

近年来在统计学习理论基础上,支持向量机 (Support Vector Machine,SVM)作为新兴智能数据挖掘技术用于非线性回归领域,更好地解决小样本集模型难于选择、经验风险原则的样本容量依赖、维数灾难、过拟合而外推差、局部极小点问题。该方法基于结构风险最小化原则,直接进行样本集自组织学习训练来逼近系统非线性规律,容错和泛化性能优良。基本思想是通过一个非线性映射φ,将训练数据向量x映射到高维的特征空间R并作线性回归,f(x)=(w·φ(x))+b,φ∶Rn→R,w∈ R,其中w为列向量