文档库 最新最全的文档下载
当前位置:文档库 › 基因表达式编程的经济统计时序挖掘

基因表达式编程的经济统计时序挖掘

第40卷第5期四川大学学报(工程科学版)v01.40No.52008年9月JOURNALOFSICHUANUNIVERSITY(ENGINEERINGSCIENCEEDITION)Sept.2008--

IIllll-l|————I●——_———-■—_—一文章编号:1009-3087(2008)05-0121-04

基于RFID与基因表达式编程的经济统计时序挖掘刘齐宏1’2”,李天德2,周志斌3,易彬4,唐常杰5,刘齐巍6

(1.I+t;ll大学电气信息学院。四川成都610065;2.四川大学经济学院,四川成都610064;3.西南油气田分公司,IⅡI#l成都610051;

4.泸州老窖股份有限公司,四川泸州646000;5.四川大学计算机学院,四川成都610065;6.四川大学公共管理学院,四川成都610064)

摘要:为解决基因表达式编程(GEP)在符号回归、RFID分类及经济领域中对时序数据的挖掘速度和精度还不够的问题,提出了统计基因、统计染色体和统计时序一适应度的定义,并针对传统GEP经济时序模型进行了综合改,.进;提出了新颖的单变量时序和多变量时序挖掘算法,提高了GEP统计时序挖掘的速度和精度;实验表明,与传统GEP、单变量GEP时序算法相比,多变量GEP时序算法挖掘速度快,其预测精度比单变量时序算法高出5%以上。

该算法同样适用于RFID以及其他经济系统中的时序数据挖掘。

关键词:经济统计时序预测模型;单变量时序;多变量时序;GEP函数挖掘

中图分类号:TP311.13文献标识码:A

RFIDandEconomyStatisticalTimeSequenceDataMining

BasedonGeneExpression

LIUQi—hon91'2”,口Tian—de2,ZHOUZhi.bin3,HBing+,TANGCkng-jie5,HUQi—wei6

(1.SchoolofElectricalEng.andInfo.,SichuanUniv.Che唧h610065,China;

2.SchoolofEconomics,SichuanUniv.,Chengdu610064,China;

3.SouthwestOilandGasbfiddCo.,Chengdu610051,China;4.IAI小OllLaojiaoCo.Ltd,hazhou646000,China;

5.SchoolofComputerSci.,SichuanUniv.,Chengdu610065,China;

6.SchoolofPublicAdministration,SichumUn/v.,Chengdll610064。Chi眦)

Abstract:InordertosolvetheproblemthatGeneExpressionProgramming(GEP)hasnotstillturnuptrumpstotheminingrapidityandprecisionofRFIDandEconomyStatisticalTimeSequenceDatainsymbolregressionandchssdomain。thedefinitionofStatistical—Gene,Statistical.Chromosome。Statistical.fitnessandtheintegrationamel.iorationtotraditionalGEPtimeSequencemodelwereproposed.Thenovelminingalgorithmofsingle—variableandmulti??variabletimesequenceminingalgorithmweregiventoheightentheminingrapidityandprecisionofGEPe?-

model.Theeffectivenessofnewalgorithmwasdemonstratedbyextensiveexperimentsandconomytimesequence

theresultshowedthattheminingrapidityofmulti—variabletimesequenceminingalgorithmwasrapidnessandtheforecastprecisionwasheightenup5%comparedwithtraditionalGEPandsingle-variableGEPtimesequencemin—ingalgorithm.NewalgorithmWasappropriateforRFIDandothereconomysystemaswell.

Keywords:economystatisticaltimesequenceforecastmodel;single?-variableGEPtimesequence;multi—-variabletimesequence;GeneExpressionProgrammingfunctionmining

收稿日期:200r7—10-30

基金项目:国家自然科学基金资助项目(60473071);四川省科技攻关资助项目(2006201—027);I四]ll省科技支撑计划资助项目(07GG006-025)

作者简介:刘齐宏(1964一),男,副教授,博士后.研究方向:数据挖掘与金融工程.

122四川大学学报(工程科学版)第40卷

GEP经济统计时序挖掘算法涉及到时序基因、

时序染色体和适应度函数等概念,作者提出的GEP

时序挖掘模型是针对历年的经济统计时序数据,例

如对成都市国民经济和社会发展总量与速度等经济

指标时间序列进行预测。针对经济统计时序数据特

点,在传统GEP概念的基础上¨。J,提出了Statisti.

cal—C,ene、和Statistical—Fitness等新概念和技术。

1问题描述

为了形式化描述GEP时间序列的统计指标序

列数据对象,引入下列定义:

定义lGEP时序中的统计基因是一个5元组:Statistical—Gene=(E,r,F,Dp,s),其中,E为基因型;T(Terminal)为基因终端字符集;F(Func.tion)为基因运算符集合;op为基因遗传算子集合。s(score)为适应度。

定义2统计时序一适应度:在统计时序一GEP模型中,第i个个体的适应度函妣规定由式(1)计算:

Z=≥:(K-IP#一弓I)(1)

J=1

其中,K为绝对误差阈值【5。6】,由先验知识确定,P#表示第.『个样本根据第i个个体所对的表达式计算的值,m为样本个数,Z为第J个样本的目标值。由式(1)定义的适应度函数理论最大值为m幸K,该适应度函数在算法设计中具有简便易行的特点。为了在直观上理解所挖掘的函数模型的精度,针对时间序列函数模型,需要计算出其复相关系数(R):

R2=1一SSE/SST(2)

其中,SSE=∑(乃一觅)2,多为变量Y关于函数g的

估计值,称SSE为残差平方和。SST=∑(乃一乃)2,

Ji

Y为Y的平均值,称SST为总离差平方和。

例1:考虑表达式((a—b)gt(C+d))忱。函数集FunctionSet={Q,事,一,+},Q表述sqrt开方,终结符集TerminalSet=la,b,c,d},图l为时序基因的表达式树,对该ET进行层次遍历可以得到序列:“QX一+abcd”[5-71o

2统计数据的时序GEP算法

目前GEP与遗传算法和遗传编程一样,还存在未成熟收敛和收敛精度差的难题m8l。为解决其精度差问题,对GEP时间序列模型进行了综合改进。

图1GEP时序基因表达式树

Fig.1GEPtimeSequence-GeneEl"

1)GEP浮点数系数编码?

在GEP算法中,对于数值编码采用了浮点数编码的方法。经过实际应用,发现浮点数编码能提高了GEP运算效率,适合精度较高应用。

2)改进了适应度函数设计

在统计学中,R2是用于表示非线性模型的重要指标,用于评价两组数据符合程度的方法更多的是采用相关系数。所以,在作者建立的多变量的时序GEP预测模型中,第i个个体的适应度函数正规定由下式计算:

z=群_l-(骞)器-1-鼎

(3)其中,1spsn,SSE=∑(乃一舅)2,SST=∑(乃一一

J。lJ5l

乃)2,榔E,=SSE/(乃一1),多为变量Y关于函数g的估计值,Y为变量,,的平均值,称SSE为残差平方和,SST为总离差平方和。

在时序GEP算法中,结合了基因组多样性制导的策略及分阶段进化算法[9-101。单变量时序GEP算法的基本结构及特点如下:

算法1单变量时序GEP基本算法

输入:训练数据集Dataset;函数集Fucfionzet;基因头部长度LengthOfHead等进化参数;

输出:最优个体BestChromosome;

BEGIN

1.RandomlyinitializethePopulation

//随机地产生统计染色体初始种群

2.whne(terminationconditionsarenotreached)

3.ConverttheChromosomesintoexpressiontrees//解析统计染色体

4.EvaluatetheFitnessofChromosome

第5期刘齐宏,等:基于RFID与基因表达式编程的经济统计时序挖掘123

//评价适应度

5.if(terminationconditionsarereached)

6.returntheBestChromosome

//返回最优解

7.else

8.KeeptheBestChromosome

//保存上一代最优个体

9.ApplyGeneticoperationsonPopulation

//对统计染色体种群执行遗传(算子)操作10.endif

11.endwhile

END

3GEP多变量经济时序挖掘预测算法

在统计系统中,其多个统计变量存在相互影响,因此提出了多维指标的时间序列预测式挖掘。即多变量时序GEP算法框架如下:

算法2多变量时序GEP算法

输入:Mufti—VariableDataSet

//原始多变量训练数据集;

输出:BestTimeSequence

//最优时间序列表达式;

BEGIN

1.PCAW();

//利用PCAW对GEP输入变量进行降维预处理

2.StandandData();

//消除每个因素变量的量纲不同对主成分分析和对GEP建模带来的影响,对数据进行标准处理;

3.DataMatrix();’

//求出影响因素的样本相关矩阵;

4.CorrelationMatrix();

//求出样本相关矩阵的特征值;

5.Eigenvector();

//求出对应的特征向量和贡献率,特征值接降序排列:

-6.K—componentDataSet();

//计算主成得分值,选取主成分个数k,最后得到新的降维后的测试样本集;

7.PCAW-GEP();

//选取主成分作为新的输入样本集数据输入,开始GEP的时序挖掘过程;得到EPTimeSe—quence;

8.GEPTimeSequence();

//将新输入建立模型得出预测值;

9.Anti—StandandData();

//逆标准化得到真正的预测值;

lO.K—componentGEP();

//保留主成分个数,确定输入变量个数,最终建立正确的预测模型;

END

4实验与性能分析

1)数据来源

原始数据来源于(2006成都统计年鉴》,选择了影响GDP增长的6个指标,建立合适的数学模型并预测2003,2004,2005年的GDP。

2)多变量时序GEP实验

利用公式龟=二—二堕L对样本数据进行归一

玉Ⅲ一再血

化处理,则输入数据位于区间[O;1]。换算回预测值:

茹。=(戈mstt一菇mt。)量。+茗。‘。(4)运行实验100次,得到复相关系数达到了0.998325。采预报式检验,其挖掘预测函数关系为:y=

((((一“))+如))+((如)一如)宰(魄)一如))))+如)))

(5)经Mathematic化简后得:

,,i=2x2+石l(茗5一石2)(6)计算得出平均拟合相对误差是0.1579%,平均预测相对误差是一0.09105%。得到模型的拟合/预测精度比单变量的GEP算法高于5%以上。得到多变量时问序列挖掘模型的拟合/预测如图2所示。

璧塞星蔓塞墨萎室萎鲞萎量量萎

△口口∞昏小吼昏岔凸西呈宴旦

年份

图2GEP多变量时序挖掘模型

Fig.2GEPmulti-variabletimesequenceminingmodel

124IⅡtJII大学学报(工程科学版)第40卷

5结论

。根据经济领域中统计数据挖掘对预测国民经济GDP数据的特点,提出了新颖的经济统计时序GEP函数挖掘与预测方法和技术。主要贡献如下:针对多变量时间序列中各因素之间存在着一定的相关性,所观测到的时序在一定程度上反映的信息有所重叠,提出了基于GEP的多变量时序预测模型。通过主成分分析方法对影响时间序列的诸多因素进行成分约简,提取影响因子大的几个综合指标作为输入变量,提高了GEP时序挖掘的效率和准确率。通过实验证明,以同一批真实宏观的国民经济统计年鉴GDP数据为研究对象,以后面年度GDP数据为预测目标,分别建立单变量预测模型和多变量预测模型,然后在不同的经济预测模型上进行仿真挖掘预测。通过实验结果和相关性能指标的对比分析,证明多变量GEP经济统计时序预测模型的拟合/预测要比单变量GEP算法的预测精度提高了5%以上。该方法同样适用于RFID应用系统的时序数据挖掘。

参考文献:

[1]FerreiraC.C,eneExpressionProgramming:Anewada砸他algorithmfor80lvingproblems[J].ComplexSystems,2001,13(2):87—129..

[2]ColdbergDE,WangL.Adaptivenichingviaco-evolution—arysharing[c]//Qu籼,eta1.C,enetiealgorithminengineeringandcomputerscience,JohnWiley&Sons,Ltd,1997:21—38.

[3]JiaXiaobin,TangCha,miie,ZuoJie,eta1.1VliningfrequentfunctionsetbasedOilC,eneExpressionProgramming[J】.ChineseJouanalofComputers,2005,28(8):1247—1254.[贾晓斌,唐常杰,左劫,等.基于基因表达式编程的频繁函数集挖掘[J].计算机学报,2005,28(8):1247—1254~

[4]YuanChangan,TangChangiie,WenYtumguang,eta1.Im.plementationofintelligentmodelbasesystembasedOilGeneExpressionProgramming[J].JournalofSiehuanUniversity:EngineeringScienceEdition,2005,37(3):99—104.[元昌安,唐常杰,温远光,等.基于基因表达式编程的智能模型库系统的实现[J].四川大学学报:工程科学版,

2005,37(3):99—104.]

[5]HuangXiaodong,Tang(:hangjie,PuDonghang,eta1.Ageneexpressionprogrammingbasedructiondiscoverymethod[J].ComputerScience,2003,30(Supplenaent):278—182.[黄晓冬,唐常杰,普东航,等.基于基因表达式编程的函数关系发现方法[J].计算机科学,2003,30(增刊):278—182.]

[6]ZhongYixiao,TangChan商ie,ChertYu,eta1.ImproveKDDefficiencyofCeneExpressionProgl-ammi.gbyback—trackingstrategy[J].JournalofSiehatmIJniverBiry:NaturalScienceEdition,2006,43(2):299—304.[钟义啸,唐常杰,陈宇,等.提高基因表达式编程发现知识效率的回溯策略[J].四川大学学报:自然科学版,2006,43(2):299—304.]

(7]FerreiraC.GeneticrepresentationandneutralityinGeneExpressionProgramming[J].AdvancesinComplexst8一terns,2002,5(4):389—408.

[8]HuJi肌juJI,TangChangjie,Pengji.g,eta1.VPS-GEP:Skippingfromlocaloptimizationfastalgorithm[J].JoumalofSichaunUniversity:EngineeringScienceEdition,2007,39(1):128—133.[胡建军,唐常杰,彭京,等.快速跳出局部最优的VPS.GEP算法[J].四川大学学报:工程科学版,2007,39(1):128—133.]

[9]PengJing,TangChangjie,LiChuan,eta1.M—GEP:AlleW"evolutionalgorithmbased013.multi—hyerc:hl-onl060llle8GeneExpreBsionProgramming[J】.ChineseJouardofComputer,2005,28(9):1459—1466.[彭京,唐常杰,李川,等.M-GEP:基于多层染色体基因表达式编程的遗传进化算法[J].计算机学报,2005,28(9):1459—1466.]

[10]uuQihorIg,TangChangjie,HuJianjUll,eta1.Gene&-pressionProgramming

basedOndiversity?guidedgradingeVO-lution[J].JournalofSiehaunUniversiry:EngineeringSei—enceEdition,2006,38(6):108—113.[刘齐宏,唐常杰,胡建军,等.多样性制导分段进化的基因表达式编程[J].四川大学学报:工程科学版,2006,38(6):108—113.]

(编辑杨蓓)

相关文档