文档库

最新最全的文档下载
当前位置:文档库 > 岩溶水系统支持向量机泉流量预报模型研究

岩溶水系统支持向量机泉流量预报模型研究

岩溶水系统支持向量机泉流量预报模型研究

杨军耀,赵 涛

(太原理工大学水利科学与工程学院,太原 030024)

摘要:针对岩溶系统结构不甚清晰、基础资料不完备条件下泉水流量预报问题,引入了能较好地解

决小样本、非线性、高维数和局部极小点等问题的支持向量机(Support Vector Machines ,S VM )方

法,将泉流量影响因子时间序列与支持向量机方法有机结合,建立了岩溶水系统支持向量机泉流量预报模型,并与BP 神经网络模型进行了实例比较。结果表明,S VM 模型具有泛化能力强、预报精度高的特点,可很好地克服神经网络的过学习问题,同时,针对S VM 模型“峰值”预报精度差的缺点,提出了“峰值”预报解决方案。

关键词:支持向量机;神经网络;时间序列;泉流量预报模型中图分类号:P64118文献标识码:A Abstract :The method of Support Vector Machines (S VM )which is characterized by a small am ount of sam ples ,non 2linearity ,multi 2dimensions as well as the minimum in certain areas is introduced to s olve the problems in predicting the flow of springs based on the indistinct karst topography and incom plete reference.The factor of time sequence which exerts the in fluence on the flow of springs is combined with the method of S VM to produce the S VM m odel for predicting the flow of springs in karst topography.The com paris on of the S VM m odel with the cases of the back propagation neural netw ork is made to indicate the sweeping generalization and high accuracy of the S VM m odel in predicting s o as to s olve the over 2fitting problems of neural netw ork.Meanwhile ,a formula is proposed to settle the problems in predicting the peak value which is aimed at the low accuracy of S VM in predicting the peak value.

K ey w ords :Support Vector Machines ;neural netw ork ;time sequence ;predicting m odel for spring flow 收稿日期:2007201211;修订日期:2007207218

作者简介:杨军耀(1961-),男(汉族),山西闻喜人,副

教授,硕士.

0 前言

支持向量机是由Vapnik 等于1995年在统计学理论的基础上首次提出的一种新的算法,它是建立在VC 维(Vapnik 2Cherv onenks Dimension )理论和结构风险最小原理(Structural Risk Minimization Inductive Principle )基础上的,即在有限样本条件下对统计学中的VC 维理论和结构风险最小原理的具体实现,能较好地解决小样本、非线性、高维数和

局部极小点等实际问题[4,7,8]

。对岩溶泉流量的预报,涉及到水文、气象、开采量以及水文地质条件等多个方面,是一个复杂的高度非线性系统。传统的水文预测方法只能近似描述其过程,因而模拟精度大多不高。随后以神经网络为主的非线性模型开始引入,但是用神经网络进行系统模拟与预测,容

易陷入局部最优的情况[4]

。因此,在本文中将把支持向量机理论与时间序列相结合引入到岩溶泉流量预报之中,以解决以前方法存在的问题。

1 支持向量机的基本原理

[7,8]

支持向量机是从线性可分情况下的最优分类面发展而来的,也是统计学理论中最实用的部分,其基本思想可用图1的二维情况来说明。图1中,实心点和空心点分别代表两类样本,H 为分类超平面,H 1和H 2分别为过各类中离分类超平面最近的样本,且平行于分类超平面的平面,它们之间的距离叫做分类间隔(margin )。所谓最优分类面就是要求分类面不但能将两类正确分开(训练错误率为0),而且使分类间隔最大。距离最优分类超平面最近的向量称为支持向量。

设样本为年n 维向量,某区域k 个样本及其所属类别表示为

(x 1,y 1),…,(x k ,y k )∈R n ×{±1}(1) 超平面H 表示为

9

2 2007年第12期

工程勘察 Geotechnical Investigation &Surveying

岩溶水系统支持向量机泉流量预报模型研究

图1 线性可分情况下的最优分类面

w ?x +b =0(2)

显然,式(2)中w 和b 乘以系数后仍满足方程,

不失一般性。设对所有样本x i 满足下列不等式:

w ?x 1+b ≥1 若y i =1w ?x 1+b ≤1 若y i =-1

可将上述不等式的规范形式合并为如下紧凑型式:

y i (w ?x i +b )≥1 i =1,…,k (3)点x 到超平面H 的距离为:

d (w ,b ,x )=

|w ?x +b |

‖w ‖

(4)根据最优分类超平面的定义,则分类间隔可表示为:

p (w ,b )=min |x i

:y i

=1|

d (w ,b ,x i )+min |x j

:y j

=-1|

d (w ,b ,x j )

=

min

|x i

:y i

=1|

|w ?x i +b |

‖w ‖+

 min

|x j

:y j

=-1|

|w ?x j +b |

‖w ‖

=

2

‖w ‖

(5)

要使分类间隔最大,就是2Π‖w ‖最大。因此,构造最优分类超平面的问题可转化为在满足式(3)条件下最小化

Φ(w ,b )=12

w ?w (6)

的问题。另外,考虑到可能存在一些样本不能被超平面正确分类,因此引入松驰变量

εi ≥0 i =1,…,k

(7)显然,当分类出现错误时,εi 大于零,

k

i =1

εi

是分类错误数量的一个上界,为此引入错误惩罚分量。因

此,构造广义最优分类超平面问题就转化为在约束条件

y i (w ?x i +b )≥1-εi i =1,…,k

(8)下最小化函数

Φ(w ,b )=12w ?w +C ∑

k

i =1

εi

(9)式中,C 为一正常数,C 越大,对错误的惩罚越

重。其中第1项是样本到超平面的距离尽量大,从而提高泛化能力;第2项使误差尽量小。2 S VM 回归算法

[2]

目前,支持向量机方法常用于分类及回归分析。其基本思想是用少数支持向量代表整个样本集,本质上是通过某一事先选择好的非线性函数φ(?),将训练集数据x 映射到一个高维线性特征空间H ,在这个维数可能为无穷大的线性空间中,按结构风险最小化原理构造最优分类面。并利用原空间的核函数取代了高维特征空间ω和<(x )的点积运算,从而避免了复杂的点积计算。

S VM 的回归方法是将在解决分类识别问题中得到的结果推广应用到函数的估计当中。与分类问题不同的是,分类问题的样本点明确地属于某一类,而回归问题样本点属于的类别事先是不知道的,因而S VM 回归的样本点只有一类。对于给定的样本数据集

{(x i ,y i )|i =1,2,…,k }其中,x i 为输入值,y i 为预测值,要求拟合的函数形式为:

f (x )=ω

φ(x )+b 根据结构风险化最小原则,要寻求最优回归超平

面,满足

min 12‖ω‖2

+C ∑l

i =1

R (f (x i ),y i

式中,C 是不灵敏损失函数。则支持向量机的回归问题就等价于解决一个二次规划(Q p )问题。最优化问题为:

min w ,b ,ε12‖ω‖2+C ∑

l

l =1

(εi +ε3

i )s .t .y i -ωφ(x l )≤b +εl

y i -ωφ(x l )≤b +ε3l εl ≥0,

ε3

l ≥0,

i =1,2,…,l

S VM 用来估计回归函数时,常分为线性和非线

性拟合回归两类。由上式可求得线性回归函数为

f (x )=ωx +b =

∑SV

(αj

3

j

)(x j ,x )+b

对于非线性的情况,引入核函数即可。此时求得的

是非线性回归函数

f (x )=ωx +b =

∑SV

(αj

3

j

)K (x j ,x )+b

03 工程勘察 Geotechnical Investigation &Surveying

2007年第12期 

其中,K(x

i

,x j)=φ(x i)φ(x j)称为核函数。

核函数的选择必须满足Mercer条件,常见的核函数有:

线性函数:K(x

j

,x)=x i?x

多项式函数:K(x

j

,x)=(x i?x+1)d

径向基函数:K(x

j

,x)=exp(-‖x-x i ‖2Πσ2)

两层神经:K(x

j

,x)=tanh(kx i?x+θ)

3 基于S VM的岩溶泉流量预报

311 水文地质概念模型

本文以山西延河岩溶泉为例。延河泉位于山西省晋城市,沁河从中穿过。泉域地下水补给源为以大气降水入渗补给为主,其次为河流渗漏补给;排泄为泉和人工开采。沁河为常年性河流,由于缺乏系列测流资料,故其渗漏量视为一个常数。因此,将泉流量的主要影响因素概化为大气降水与人工开采[1]。

由于大气降水入渗补给以及人工开采对泉水流量影响的延迟性。因此,泉的流量大小还要受到降水量和开采量的时间序列影响,即受当年、前年甚至更长年份的降雨量与开采量的影响。因此,将当年的泉水流量作为输出目标值,将降水量与开采量的序列作为输入项,则形成多个输入一个输出的水文地质黑箱模型。

312 S VM建模

(1)降水量(P)和开采量(Q)的时间序列长度(m)初选

主要采用时间序列模型以及泉水流量与影响因

子动态曲线确定。即将P

m、P m-1……P1和Q m、Q m-1……Q1为输入项,泉水流量为输出项。

(2)样本归一化处理

归一化处理有利于避免各个因子之间的量级差异,消除各个因子由于量纲和单位不同的影响,对样本的输入、输出参数分别用下式进行规格化处理:

y i=2(x i-x min)

x max-x min

-1

式中,x

i 和y

i

分别为规格化前后的变量;x

max

x min分别为x的最大和最小值。

(3)确定核函数

由于核函数对算法的影响较大,故选择一个最好的核函数极为重要。

(4)核参数的选择

采用Cross2validation的方法求取核参数。

(5)采用平均相对误差M APE和均方根相对误差MSE作为预测结果的评估。

(6)如果对预测结果的评估不满意,调整影响因子时间序列长度,返回第二步,直到满意为止。

特别需要指出的是核函数的选取与时间序列的调整是模型建立的关键。

313 确定参数

通过对在程序中使用不同的参数[9,10],并将不同参数下程序运行的预测结果与已有的实测数据进行比较,我们可以得到下面比较好的参数,具体的程序参数如图2的程序运行截图。

4 预测结果分析

本例中最佳时间序列长度为2,即考虑本年度与前一年度的开采量与降水量作输入因子。最佳核函数为RBF函数,即径向基核函数,其形式如下: K(x j,x)=exp(-‖x-x i‖2Πσ2)

为了对比分析,本例还采用了BP神经网络模型进行预测,而BP神经网络模型的参数是有M AT LAB 软件进行确定和预测的。具体预测的数据结果见图2和表1。

延河泉流量S VM模型和BP模型预测结果对比表1年份

实测流量

(m3Πs)

S VM模型预测

流量(m3Πs)

BP模型预测

流量(m3Πs) 19872167216713210156

19883133312755214840

19892193218232217060

19903107311055214960

19912142214208216874

19922161215894213662

19932145215141216184

19942170216996217044

19952135213513215317

19963117214322215989

19972157215688213529

19982133213307215217

19992116211606217058

20001198211213216949

为了定量地评价这两种负荷预测方法的精度,本文采用平均相对误差M APE和均方根相对误差MSE作为预测结果的评估根据,即

MAPE=

1

n

∑n

i=1

|y i-^y i|

MSE=

1

n

∑n

i=1

(|y

i

-^y i|)2

13

 2007年第12期工程勘察 Geotechnical Investigation&Surveying

岩溶水系统支持向量机泉流量预报模型研究

图2 

程序运行参数截图

岩溶水系统支持向量机泉流量预报模型研究

岩溶水系统支持向量机泉流量预报模型研究

图3 延河泉S VM 模型和BP 模型泉流量预测对比

S VM 模型和BP 模型的误差评估结果

表2

评估指标M APE

MSE

模型类别

S VM 模型

BP 模型S VM 模型BP 模型误差

017827

217051

014292

018569

由表1、表2和图3可知,S VM 模型比BP 模型

对实际的泉水流量有更好的预测结果,更加符合实际泉水流量的趋势。但1996年S VM 模型预测值与实际值误差较大,由图3可知,1996年泉水流量出现“峰值”现象,这是由于本模型采用的是惩罚函数“全局误差”最小化准则所固有的缺陷引起的。解决“峰值”预测精度的基本思路是调正惩罚函数“全局误差”最小化准则为“峰值样本误差”惩罚

函数最小化准则[5,6]

,即

min 12‖ω‖2

+C ∑r

i =1

μi R (f (x i ),y i

式中,μi 为误差修正系数,定义为:

μi =

y i y max

式中,y i 为训练样本目标值最大值。5 结论

(1)正确概化水文地质模型和选取影响因子,

是建模的首要问题,是基础。

(下转第42页)

由表2可知,水库蓄水后库周未进行防渗时,沿库周在地下水位或相对隔水层顶板低于正常蓄水位部位的渗漏量很小,不必对库周进行帷幕灌浆,因此选择方案1。由图4可知,2m厚度时的渗漏量与4m厚度时的渗漏量相差很少,故帷幕灌浆厚度选择2m。由图3可知,帷幕深度1Lu以下5m时的渗漏量比3Lu以下5m深度时的渗漏量明显减小,但是后者防渗后的水库渗漏量已满足要求,考虑到工程造价,选择帷幕灌浆深度为3Lu线以下5m。

因此,建议蒲石河抽水蓄能电站上水库防渗设计首选方案为大坝基础进行帷幕灌浆,沿趾板布置一排防渗帷幕,帷幕深度为基岩透水率3Lu线以下5m,帷幕灌浆孔距为2m。该防渗方案不仅能够保证水库大坝的安全、经济、稳定运行,而且水库渗漏量为可接受的渗漏量,水库建成后不至于对下游水文地质环境产生不利的影响,从安全、环境和经济的角度考虑是合理、最优的防渗方案。

4 结论

通过对蒲石河抽水蓄能电站上水库的三维渗流计算及防渗设计方案的优化研究,建议计算区防渗设计首选方案为大坝基础进行帷幕灌浆,沿趾板布置一排防渗帷幕,帷幕深度为基岩透水率3Lu线以下5m,帷幕灌浆孔距为2m。该方案下正常蓄水位运行工况时,总渗漏量为2261165m3Πd,比防渗前减少了3571127m3Πd,仅占有效库容的0122‰。通过对防渗设计方案的三维渗流敏感性分析与计算可知,水库渗漏量随帷幕厚度的变化较小,随帷幕深度的变化比较明显。计算时未考虑降雨入渗和山体地下水的补给,这对防渗设计来说是偏于安全的。

参考文献

[1] 毛昶熙.渗流计算分析与控制[M].北京:水利电力出版

社,1990.

[2] 樊秀峰,吴振祥,钱会,熊传祥.西安市黑河水库左坝肩渗

漏与防渗三维数值模拟研究[J].福州大学学报(自然科学

版),2002,30(2):235~239.

[3] 孙讷正.地下水流的数学模型和数值方法[M].北京:地质

出版社,1981,25~51.

[4] 张景秀.坝基防渗与灌浆技术[M].北京:水利电力出版

社,1992.

[5] 马国彦,林秀山.水利水电工程灌浆与地下水排水[M].北

京:中国水利水电出版社,2001.

[6] 张立杰,杜新强,冶雪艳等.哈尔滨市磨盘山水利枢纽区渗

控方案分析[J].东北农业大学学报,2005,36(3):388~392.

[7] 黄洪海.岩溶水库坝基防渗帷幕灌浆幕深与幕长的结构形式

及处理[J].贵州地质,2003,20(4):223~227.

(上接第32页)

(2)核函数与时间序列是预报精度影响的主要因素。要优选核函数与时间序列长度,以保证模型预报最优。

(3)由预测结果可知,S VM方法是一种在学习样本数有限的情况下处理高度非线性问题的新的机器学习方法,同时在与BP神经网络方法预测结果的对比中,前者具有更好的泛化能力,它可以克服人工神经网络方法中无法避免的局部极值问题,并且容易使用,不需要象使用神经网络那样要求很多的技巧才能有较好预报结果[3],预测的结果更加符合实际情况的发展趋势。

(4)在本例中也看到对“峰值”预报精度较差,要通过“峰值样本误差”惩罚函数最小化准则解决,以提高预报精度。

参考文献

[1] 韩行瑞等.岩溶水系统———山西岩溶大泉研究[M].北京:

地质出版社,1993.[2] 卢敏,张展羽,冯宝平.支持向量机在径流预报中的应用

探讨[J].人民长江,2005,(8).

[3] 梅松,程伟平,刘国华.基于支持向量机的洪水预报模型

初探[J].中国农村水利水电,2005,(3).

[4] 王景雷,吴景社,孙景生,齐学斌.支持向量机在地下水

位预报中的应用研究[J].水利学报,2003,(5).

[5] 俞亭超,张土乔,柳景青.峰值识别的S VM模型及在时用水

量预测中的应用[J].系统工程理论与实践,2005,(1). [6] 张土乔,俞亭超.提高支持向量机洪水峰值预报精度研究

[J].水力发电学报,2005,(2).

[7] Vapnik V.The Nature of S tatistical Learning Theory(2nd ed.)

[M].New Y ork:S pringer2Verlag.2000.

[8] Vapnik V.S tatistical Learning Theory[M].New Y ork:W iley,

1998.

[9] Cherkassky V.,Y unqian M a.Practical Selection of S VM

Parameters and N oise Estimation for S VM Regression[J].Neural

Netw orks,2004,(17):113~126.

[10] Chapelle O.,Vapnik V,Bousquet O,et el.Choosing Multiple

Parameters for Support Vector M achines[J].M achines Learning,

2002,(46):131~159.