文档库 最新最全的文档下载
当前位置:文档库 › 位移反分析的进化支持向量机研究

位移反分析的进化支持向量机研究

位移反分析的进化支持向量机研究
位移反分析的进化支持向量机研究

第22卷 第10期

岩石力学与工程学报 22(10):1618~1622

2003年10月 Chinese Journal of Rock Mechanics and Engineering Oct.,2003

2002年6月14日收到初稿,2002年8月26日收到修改稿。

* 中国科学院知识创新重要项目(KJCX2-SW-L1-3)、国家自然科学基金(50179034)和国家重点基础研究发展规划(973)项目(2002CB412708)资助。 作者 赵洪波 简介:男,1971年生,现为博士研究生,主要从事智能岩石力学与工程方面的研究工作。

位移反分析的进化支持向量机研究*

赵洪波 冯夏庭

(中国科学院武汉岩土力学研究所岩土力学重点实验室 武汉 430071)

摘要 将支持向量机与遗传算法相结合,提出了一种用于位移反分析的进化支持向量机方法。这种方法基于试验设计和有限元计算获得学习样本和检验样本,用遗传算法搜索最优的支持向量机参数,用获得的最优模型进行学习,从而获得岩体的力学参数与位移之间的非线性映射关系,再用遗传算法从全局空间上搜索,进行岩体力学参数的识别。给出的两个算例结果是令人满意的。

关键词 最优化,支持向量机,位移反分析,遗传算法,有限元

分类号 O 224 文献标识码 A 文章编号 1000-6915(2003)10-1618-05

STUDY ON GENETIC-SUPPORT VECTOR MACHINE IN

DISPLACEMENT BACK ANALYSIS

Zhao Hongbo ,Feng Xiating

( Key Laboratory of Rock and Soil Mechanics ,Institute of Rock and Soil Mechanics ,

The Chinese Academy of Sciences , Wuhan 430071 China )

Abstract An evolutionary support vector machine for displacement back analysis is proposed by combining the support vector machine and genetic algorithm. The learning and testing samples produced in orthogonal and equality experiment are used to train the support vector machine whose parameter is determined in global optimal by genetic algorithm. Thus ,the support vector machine with optimal parameter is used to describe the relationship between the rock mechanics parameters and displacements. Then genetic algorithm is adopted again to search for the optimal rock mechanics parameters in their global ranges. As an example ,a back analysis for elastic and elasto-plastic problem is introduced. The results are satisfactory. Key words optimization ,support vector machine ,displacement back analysis ,genetic algorithm ,finite element

1 引 言

在岩土工程领域,位移反分析已引起人们的广泛重视。它以工程现场的量测位移反求岩体的力学参数、地应力等,为理论研究和数值模拟在岩土工程中的应用提供符合实际的参数。位移反分析法按照采用的计算方法可分为解析法和数值法。由于解析法只适用于简单几何形状和边界条件问题的反分析,难于为复杂的岩土工程所采用。数值方法既可

用于线性与各类非线性问题的反分析,也适用于弹

性、弹塑性等问题,具有广泛的应用范围。但是,由于岩土工程的复杂性,它所涉及的工程地质条件和岩体特性参数是不完全定量和高度非线性的,难于用确定的数学模型表达[1

,2]

;同时,数值方法具

有计算量大、解的稳定性较差等特点,并且不能保证搜索收敛到全局最优解。为此,本文提出了基于遗传算法的支持向量机方法,并通过算例对这种方法进行了探讨。

第22卷 第10期 赵洪波等. 位移反分析的进化支持向量机研究 ? 1619·

2 支持向量机简介

支持向量机(support vector machine)[3

~5]

是基于

统计学习理论的一种新的通用学习方法,它是建立在一套较好的有限样本下机器学习的理论框架和通用方法之下,既有严格的理论基础,又能较好地解决小样本、非线性、高维数和局部极小点等实际问题,其核心思想就是学习机器要与有限的训练样本相适应。支持向量机中的支持向量是通过解一个凸二次优化问题获得的,它保证找到的解是全局最优解。

支持向量机算法主要用于解决模式识别和函数拟合问题,基于支持向量机的模式识别问题在文[4]中已有详细的论述,下面主要说明基于支持向量机的函数拟合问题。

对于支持向量机函数拟合,首先考虑用线性拟合函数b x w x f +?=)(拟合数据{x i ,y i },=i 1,2,…,n ,R y R x i n i ∈∈,的问题。假设所有训练数据在ε

精度下无误差地用线性函数拟合,即

???=??+????) 2 1( k i y b x w b x w y i i i i ,,,L εε (1) 优化目标是最小化2

21w 。根据统计学习理论,

在这个优化目标下可取得较好的推广能力。考虑到允许误差的情况,引入松弛因子i ξ≥和*i ξ≥0,则式(1)变为

) 2 1( *??

?

??=+??+?+???k i y b x w b x w y i

i i i

i i ,,,L ξεξε (2)

优化目标是最小化∑=++k

i i i C w 1

*2

)(21ξξ,其中,

常数C >0,C 表示对超出误差ε 的样本的惩罚程

度。采用优化方法可以得到其对偶问题:

max : +????

=∑=))(()(21

)(*1

,**j i j j k

j i i i x x W αααααα,

∑∑==+??k

i i i k

i i i

i y 1

*1

*)()(ααεαα

(3)

s.t.:

0)(1

*=?∑=k

i i i

αα

0≤*i i αα,≤C ) 2 1(k i ,,,

L = 由上面的最小化函数可得到支持向量机拟合函数为

b x x b x w x f k

i i i i +??=+?=∑=1

*))(()(αα (5)

式中:*i i αα,只有小部分不为0,它们对应的样本就是支持向量。

对于非线性问题,可以通过非线性变换将原问题映射到某个高维特征空间中的线性问题进行求解。在高维特征空间中,线性问题中的内积运算可用核函数来代替,即)()()(j i j i x x x x K φφ=,,核函数可以用原空间中的函数来实现,没有必要知道非线性变换的具体形式。目前常用的核函数主要有多项式核函数、径向基函数核函数、Sigmoid 核函数。这样,式(3)~(5)变为如下形式:

max :

+????=∑=)()()(21)(*1

,**

j i j j k

j i i i x x K W αααααα,

∑∑==+??k

i i i k

i i

i

i y 1

*1

*

)()(ααεαα

(6)

s.t.:

0)(1

*=?∑=k

i i i

αα

0≤*i

i αα,≤C ) 2 1(k i ,,,L =

b x x K b x w x f k

i i i i +??=+?=∑=1

*)()()(αα (8)

3 进化支持向量机的基本思想

遗传算法[6

~8]

是一种全局最优化方法,它模拟

了自然界生物进化过程中的“优胜劣汰,适者生存”的法则,将复制、杂交、变异等引入到算法中,通过构造一定规模的初始可行解群体并对其进行遗传操作,直至搜索到最优解。它克服了传统优化方法的缺点,具有隐含并行性,可以较快地搜索到全局最优解。

支持向量机是基于统计学习理论的一种小样本的学习方法,它采用结构风险最小化原则,通过对有限样本的学习,就可获得很好的推广能力;同时,通过核函数的思想很好地解决了高维问题;并且支持向量的获得是通过解凸规划问题获得的,保证找到的解是全局最优解。支持向量机参数对支持向量机的推广能力有很大的影响,通常支持向量机参数的选择是人工试算获得的,通过将遗传算法和支持向量机结合,改进了支持向量机的参数选择。 3.1 岩体力学参数与岩体位移的支持向量机表示

≤ ≤ ≤ (4)

(7)

? 1620 ? 岩石力学与工程学报 2003年

由于岩体是一种复杂的地质介质,岩体力学参数与位移之间的关系具有高度非线性,很难用显式的数学表达式来描述[9]。支持向量机是一种新的通用机器学习方法,对于处理高维、非线性问题具有很好的适应性。因此,本文拟采用支持向量机来描述岩体力学参数与岩体位移之间的映射关系。即待反演参数与位移之间的非线性关系可以用支持向量机SVM (x 1,x 2,…,x n )来描述:

??

?

??==→) ()

(SVM )(SVM 21n n x x x X X Y R

R X ,,,:L

(9)

式中:X = (x 1,x 2,…,x n ),为待反演的岩土力学参数,如:弹性模量E 、泊松比μ 以及粘聚力c 和内摩擦角? 等;Y 为现场量测的某关键点位移值。为了建立这种映射关系,需要有一组样本供支持向量机进行学习,用以学习的样本可以通过数值计算或物理模型试验的方法获得。

由于不同的支持向量机参数(主要指核函数和c 值)对模型的推广预测能力有直接的影响,因此,支持向量机参数的选择是至关重要的。本文采用遗传算法来搜索最佳的支持向量机参数,具体方法是:首先,随机地产生一规模为N 的初始支持向量机参数,用给定的样本训练每一支持向量机参数对应的模型,用获得的支持向量机模型对给定的检验样本进行预测,以检验样本中的最大预测误差作为适应值;然后,通过遗传操作直至找到满意的支持向量机参数,用获得的参数对应的支持向量机对学习样本进行学习,获得表达岩体力学参数与岩体位移的支持向量机模型,这个模型可以很好地反映岩体力学参数与岩体位移之间的非线性映射关系,用这种关系可以很好地进行岩体力学参数的识别。 3.2 位移反分析的目标函数

进化支持向量机位移反分析就是基于上述方法所建立的关系,寻找与位移实测值相比误差最小的位移计算值对应的岩土力学参数,这时的岩土力学参数即为待反演参数。对于实际的工程问题,往往取多个关键点的位移进行反分析[10

,11]

,因此,以各

个关键点位移预测值与实测位移值的误差平方和最小作为选择待反演参数的依据。即:当反分析得到的参数对应的位移值与实测的位移值最接近时,该参数就是待反演参数。因此,目标函数可以采取以下的形式:

∑=?=n

i i i y X f X F 12])([)( (10)

式中:X = (x 1,x 2,…,x n ),为一组待反演参数;f i (X )为在第i 个测点对应的位移计算值;y i 为在第i 个 测点的位移实测值;n 为用于位移反分析的关键点的个数。位移反分析的目标就是求解上述目标函数,寻找一组适当的岩体力学参数X ,使对应的目标函数值最小。

3.3 进化支持向量机反分析的主要步骤

进化支持向量机的位移反分析就是采用遗传算

法来获得支持向量机的最佳参数,用此最佳参数的支持向量机,对构造的样本进行学习建立待反演岩体力学参数与位移之间的非线性关系;然后,采用遗传算法来寻找与实测位移值对应的岩体力学参数。用支持向量机建立起岩体力学参数与位移之间的映射关系后,对于任一给定的岩体力学参数,支持向量机均可求出其相应的位移值,如果某一位移值和实际位移值相比误差最小,则此位移值对应的岩土力学参数即为所求。进化支持向量机位移反分析的具体步骤如下:

(1) 依据实际问题,确定岩土力学参数的取值 范围,并依据试验设计原理构造计算方案;

(2) 采用有限元方法对构造的每一方案进行计算,获得每个方案对应的关键点位移,并将每个计算方案与对应的位移计算值构成一个学习样本;

(3) 用遗传算法搜索最佳的支持向量机参数; (4) 用获得的最佳支持向量机参数,对上面的 样本进行学习,建立待反演岩体力学参数与位移之间的非线性映射关系;

(5) 依据待反演岩体力学参数与位移之间的非线性映射关系,采用遗传算法来寻找待反演参数。

由支持向量机反分析的步骤可以看出,该方法既利用了支持向量机处理高维、非线性映射的优良特性,又利用了遗传算法的全局最优特性。而实际的岩土工程问题,大都具有高维、非线性的复杂特点,岩体力学参数与位移之间很难用确定、明显的数学关系式(如本构关系)来表达。因此,进化支持向量机的位移反分析具有较高的工程价值和实际意义。

4 实例分析

4.1 弹性位移反分析

对于弹性位移反分析的例子,在无限大岩体中开挖一个圆形隧洞,半径=R 1 m ,泊松比=μ0.25,初始地应力均匀分布,τxz = 0。假设地层弹性模量

第22卷 第10期 赵洪波等. 位移反分析的进化支持向量机研究 ? 1621·

=E 98 MPa ,初始地应力==z x σσ0.98 MPa ,然后用有限元计算出的关键点的位移作为实测位移,采用进化支持向量机方法进行反演其初始地应力。

构造样本时,每个参数取5个水平,即:0x σ,

0z σ取-1.0,-1.2,-1.4,-1.6和-1.8 MPa ;τxz

取-0.4,-0.2,0,0.2和0.4 MPa 。采用试验设计原理,学习样本用正交设计方法,其所有组合共25组;检验样本采用均匀设计方法,其所有组合共5组。对于构造的每一样本,计算5个关键点处的水平和垂直位移u x 和u y ,各关键点的坐标分别为:测点1(2.5,0)、测点2(2.31,0.96)、测点3(1.77,1.77)、测点4(0.96,2.31)、测点5(0,2.5)。

用正交设计构造的25个样本学习、均匀设计 构造的5个样本作为检验样本和遗传算法获得支持向量机的最佳参数,建立相应的支持向量机模型。用遗传算法搜索到的地应力结果如表1所示。表2和图1给出了采用的理论值与反分析获得的地应力有限元计算的关键点位移的比较。 4.2 弹塑性位移反分析

某隧洞为一圆形断面,半径为3.0 m ,均质岩性。设初始地应力为==z x σσ 1.0 MPa 。其杨氏模量=E 2 100 MPa ,泊松比=μ0.2,

粘聚力=c 1.1 MPa ,

表1 弹性位移反分析结果与理论值比较

Table 1 Comparison of elastic displacement back analysis

results and theoretic solutions

反分析 参数

理论值 /MPa 反演值 /MPa 绝对误差 /MPa 相对误差 /% σx 0 -0.98 -0.974 42 -0.005 58 0.569 08 σz 0 -0.98 -0.968 08 -0.011 92 1.216 02

τxz

-0.005 60

0.005 60

表2 各测点位移反分析计算值与理论值比较 Table 2 Comparison of displacements from back analysis

and theoretic solutions

测点 方向 理论值有限

元计算位移

/cm

反演值有限元计

算位移/cm

绝对误差

/cm

相对误差/%

1 -0.446 60 -0.451 8

2 0.005 22 -1.168 83x -0.412 00 -0.416 04 0.004 04 -0.980 582 z -0.17

3 60 -0.17

4 1

5 0.000 55 -0.31

6 82x -0.315 60 -0.31

7 3

8 0.001 78 -0.564 013 z -0.321 2 -0.320 95 -0.000 25 0.077 83

x -0.173 8 -0.174 03 0.000 23 -0.132 34

4

z

-0.419 5

-0.417 47 -0.002 03 0.483 915 -0.451 5

-0.448 67

-0.002 83

0.626 80

图1 各测点位移反分析计算值与理论值比较 Fig.1 Comparison of displacements from back analysis

calculation and theoretic solutions

内摩擦角=?30°。采用与弹性位移反分析同样的 方法,选取关键点,构造学习样本,然后反演参数弹性模量E 、泊松比μ、粘聚力c 和内摩擦角?。反演结果如表3和图2所示。

表3 弹塑性位移反分析结果与理论值比较 Table 3 Comparison of elasto-plastic displacement back

analysis results and theoretic solutions

方案比较 E / MPa μ c / MPa ? /(°) 理论值 2 100.00 0.20 1.10 30.00反演值 2 105.80 0.19

1.09

34.51

绝对误差 -5.80 0.01 0.01 -4.51相对误差/%

-0.28

7.06 1.07 -15.03

图2 各测点位移反分析计算值与理论值比较 Fig.2 Comparison of displacements from back analysis

and theoretic solutions

5 结 论

(1) 提出了一种新的位移反分析法——进化支持向量机方法。它用遗传算法搜索支持向量机参 数,由此可以找到满意的支持向量机模型。然后,

? 1622 ? 岩石力学与工程学报 2003年

用遗传算法在全局空间上搜索待反演的岩体力学参数。这种方法既克服了传统方法易于陷入局部极小值的缺点,又表达了岩体力学参数与位移之间复杂的非线性映射关系。

(2) 为了建立岩体力学参数与岩体位移之间的映射关系,需要给出一组样本进行学习,本文采用试验设计原理,用正交设计法构造学习样本,用均匀设计法构造检验样本,然后用有限元法计算获得。这种获得样本的方法是科学的,保证了样本具有代表性,可以用较少的样本得出较好的结果。

(3) 进化支持向量机的位移反分析方法是一种通用的岩土工程反分析方法,只要根据具体问题更换学习样本,即可获得相应的反分析模型,本文的例子表明了这种方法的可行性。对于进化支持向量机反分析在工程中的应用作者将另文论述。

参考文献

1 冯夏庭.智能岩石力学导论[M]. 北京:科学出版社,2000

2 杨林德. 岩土工程问题的反演理论和工程实践[M]. 北京:科学出版

社,1999 3 Alex J Smola,Bernhard Schoelkopf.A tutorial on support vector

regression[R]. NeuroCOLT2 Technical Report Series NC2-TR-1998030,1998

4 Burge C J C. A tutorial on support vector machines for pattern

recognition[J]. Data Mining and Knowledge Discovery,1998,(2):121~167

5 John C Platt. Sequential minimal optimization:a fast algorithm for

training support vector machines[R]. Technical Report MSR-TR-98- 14,1998

6 刘勇,康立山,陈毓屏. 非数值并行算法(第二册)——遗传算

法[M]. 北京:科学出版社,1997

7 高玮,郑颖人. 基于遗传算法的岩土本构模型辩识[J]. 岩石力学

与工程学报,2002,21(1):9~12

8 易达,徐明毅,陈胜宏. 遗传算法在岩体初始应力场反演中的应

用[J]. 岩石力学与工程学报,2001,20(增2):1 618~1 622

9 孙均,蒋树屏,袁勇等. 岩土力学反演问题的随机理论与方

法[M]. 汕头:汕头大学出版社,1996

10 冯夏庭,张治强,杨成祥等. 位移反分析的进化神经网络方法研

究[J]. 岩石力学与工程学报,1999,18(5):529~533

11 邓建辉,李焯芬,葛修润. 岩石边坡松动区与位移反分析[J]. 岩石

力学与工程学报,2001,20(2):171~174

山东科技大学科研成果延长煤矿寿命20年

山东科技大学资源与环境工程学院副院长蒋金泉教授针对孙村煤矿等深井开采的实际,创造性地建立了以上位煤层底板为承载层、以煤层为负载层的上行开采基本原则与基本层间距的研究方法及上行开采可行程度的评价方法,从而突破了传统的经验方法,将过去由上至下层层开采的方式大胆转变为自下而上的卸压开采方式。

该成果从根本上消除了深井高地压煤层开采的诸多障碍,消除了冲击地压危害,彻底解决了深井高地压巷道难支护与工作面复合顶板难管理等突出问题,大幅度提高了矿区煤炭产量与回采率,显著提升了矿区安全高效与社会效益。经专家鉴定,这种上行开采技术达到国际领先水平,能有效延长煤矿开采寿命20年。目前,上组煤上行卸压开采技术作为新的开采模式在山东新汶矿业集团推广,取得直接经济效益1.8亿元。据悉,该成果在全国为数众多的深井开采生产中具有广泛的推广应用前景。

(摘自2003年4月1日《科学时报》)

支持向量机算法

支持向量机算法 [摘要] 本文介绍统计学习理论中最年轻的分支——支持向量机的算法,主要有:以SVM-light为代表的块算法、分解算法和在线训练法,比较了各自的优缺点,并介绍了其它几种算法及多类分类算法。 [关键词] 块算法分解算法在线训练法 Colin Campbell对SVM的训练算法作了一个综述,主要介绍了以SVM为代表的分解算法、Platt的SMO和Kerrthi的近邻算法,但没有详细介绍各算法的特点,并且没有包括算法的最新进展。以下对各种算法的特点进行详细介绍,并介绍几种新的SVM算法,如张学工的CSVM,Scholkopf的v-SVM分类器,J. A. K. Suykens 提出的最小二乘法支持向量机LSSVM,Mint-H suan Yang提出的训练支持向量机的几何方法,SOR以及多类时的SVM算法。 块算法最早是由Boser等人提出来的,它的出发点是:删除矩阵中对应于Lagrange乘数为零的行和列不会对最终结果产生影响。对于给定的训练样本集,如果其中的支持向量是已知的,寻优算法就可以排除非支持向量,只需对支持向量计算权值(即Lagrange乘数)即可。但是,在训练过程结束以前支持向量是未知的,因此,块算法的目标就是通过某种迭代逐步排除非支持向时。具体的做法是,在算法的每一步中块算法解决一个包含下列样本的二次规划子问题:即上一步中剩下的具有非零Lagrange乘数的样本,以及M个不满足Kohn-Tucker条件的最差的样本;如果在某一步中,不满足Kohn-Tucker条件的样本数不足M 个,则这些样本全部加入到新的二次规划问题中。每个二次规划子问题都采用上一个二次规划子问题的结果作为初始值。在最后一步时,所有非零Lagrange乘数都被找到,因此,最后一步解决了初始的大型二次规划问题。块算法将矩阵的规模从训练样本数的平方减少到具有非零Lagrange乘数的样本数的平方,大减少了训练过程对存储的要求,对于一般的问题这种算法可以满足对训练速度的要求。对于训练样本数很大或支持向量数很大的问题,块算法仍然无法将矩阵放入内存中。 Osuna针对SVM训练速度慢及时间空间复杂度大的问题,提出了分解算法,并将之应用于人脸检测中,主要思想是将训练样本分为工作集B的非工作集N,B中的样本数为q个,q远小于总样本个数,每次只针对工作集B中的q个样本训练,而固定N中的训练样本,算法的要点有三:1)应用有约束条件下二次规划极值点存大的最优条件KTT条件,推出本问题的约束条件,这也是终止条件。2)工作集中训练样本的选择算法,应能保证分解算法能快速收敛,且计算费用最少。3)分解算法收敛的理论证明,Osuna等证明了一个定理:如果存在不满足Kohn-Tucker条件的样本,那么在把它加入到上一个子问题的集合中后,重新优化这个子问题,则可行点(Feasible Point)依然满足约束条件,且性能严格地改进。因此,如果每一步至少加入一个不满足Kohn-Tucker条件的样本,一系列铁二次子问题可保证最后单调收敛。Chang,C.-C.证明Osuna的证明不严密,并详尽地分析了分解算法的收敛过程及速度,该算法的关键在于选择一种最优的工

(完整版)支持向量机(SVM)原理及应用概述

支持向量机(SVM )原理及应用 一、SVM 的产生与发展 自1995年Vapnik (瓦普尼克)在统计学习理论的基础上提出SVM 作为模式识别的新方法之后,SVM 一直倍受关注。同年,Vapnik 和Cortes 提出软间隔(soft margin)SVM ,通过引进松弛变量i ξ度量数据i x 的误分类(分类出现错误时i ξ大于0),同时在目标函数中增加一个分量用来惩罚非零松弛变量(即代价函数),SVM 的寻优过程即是大的分隔间距和小的误差补偿之间的平衡过程;1996年,Vapnik 等人又提出支持向量回归 (Support Vector Regression ,SVR)的方法用于解决拟合问题。SVR 同SVM 的出发点都是寻找最优超平面(注:一维空间为点;二维空间为线;三维空间为面;高维空间为超平面。),但SVR 的目的不是找到两种数据的分割平面,而是找到能准确预测数据分布的平面,两者最终都转换为最优化问题的求解;1998年,Weston 等人根据SVM 原理提出了用于解决多类分类的SVM 方法(Multi-Class Support Vector Machines ,Multi-SVM),通过将多类分类转化成二类分类,将SVM 应用于多分类问题的判断:此外,在SVM 算法的基本框架下,研究者针对不同的方面提出了很多相关的改进算法。例如,Suykens 提出的最小二乘支持向量机 (Least Square Support Vector Machine ,LS —SVM)算法,Joachims 等人提出的SVM-1ight ,张学工提出的中心支持向量机 (Central Support Vector Machine ,CSVM),Scholkoph 和Smola 基于二次规划提出的v-SVM 等。此后,台湾大学林智仁(Lin Chih-Jen)教授等对SVM 的典型应用进行总结,并设计开发出较为完善的SVM 工具包,也就是LIBSVM(A Library for Support Vector Machines)。LIBSVM 是一个通用的SVM 软件包,可以解决分类、回归以及分布估计等问题。 二、支持向量机原理 SVM 方法是20世纪90年代初Vapnik 等人根据统计学习理论提出的一种新的机器学习方法,它以结构风险最小化原则为理论基础,通过适当地选择函数子集及该子集中的判别函数,使学习机器的实际风险达到最小,保证了通过有限训练样本得到的小误差分类器,对独立测试集的测试误差仍然较小。 支持向量机的基本思想:首先,在线性可分情况下,在原空间寻找两类样本的最优分类超平面。在线性不可分的情况下,加入了松弛变量进行分析,通过使用非线性映射将低维输

机器学习算法优缺点改进总结

Lecture 1 Introduction to Supervised Learning (1)Expectatin Maximization(EM) Algorithm (期望值最大) (2)Linear Regression Algorithm(线性回归) (3)Local Weighted Regression(局部加权回归) (4)k-Nearest Neighbor Algorithm for Regression(回归k近邻) (5)Linear Classifier(线性分类) (6)Perceptron Algorithm (线性分类) (7)Fisher Discriminant Analysis or Linear Discriminant Analysis(LDA) (8)k-NN Algorithm for Classifier(分类k近邻) (9)Bayesian Decision Method(贝叶斯决策方法) Lecture 2 Feed-forward Neural Networks and BP Algorithm (1)Multilayer Perceptron(多层感知器) (2)BP Algorithm Lecture 3 Rudiments of Support Vector Machine (1)Support Vector Machine(支持向量机) (此算法是重点,必考题) 此处有一道必考题 Lecture 4 Introduction to Decision Rule Mining (1)Decision Tree Algorithm (2)ID3 Algorithm (3)C4.5 Algorithm (4)粗糙集…… Lecture 5 Classifier Assessment and Ensemble Methods (1)Bagging (2)Booting (3)Adaboosting Lecture 6 Introduction to Association Rule Mining (1)Apriori Algorithms (2)FP-tree Algorithms Lecture 7 Introduction to Custering Analysis (1)k-means Algorithms (2)fuzzy c-means Algorithms (3)k-mode Algorithms (4)DBSCAN Algorithms Lecture 8 Basics of Feature Selection (1)Relief Algorithms (2)ReliefF Algorithms

支持向量机的实现

模式识别课程大作业报告——支持向量机(SVM)的实现 姓名: 学号: 专业: 任课教师: 研究生导师: 内容摘要

支持向量机是一种十分经典的分类方法,它不仅是模式识别学科中的重要内容,而且在图像处理领域中得到了广泛应用。现在,很多图像检索、图像分类算法的实现都以支持向量机为基础。本次大作业的内容以开源计算机视觉库OpenCV为基础,编程实现支持向量机分类器,并对标准数据集进行测试,分别计算出训练样本的识别率和测试样本的识别率。 本报告的组织结构主要分为3大部分。第一部分简述了支持向量机的原理;第二部分介绍了如何利用OpenCV来实现支持向量机分类器;第三部分给出在标准数据集上的测试结果。 一、支持向量机原理概述

在高维空间中的分类问题实际上是寻找一个超平面,将两类样本分开,这个超平面就叫做分类面。两类样本中离分类面最近的样本到分类面的距离称为分类间隔。最优超平面指的是分类间隔最大的超平面。支持向量机实质上提供了一种利用最优超平面进行分类的方法。由最优分类面可以确定两个与其平行的边界超平面。通过拉格朗日法求解最优分类面,最终可以得出结论:实际决定最优分类面位置的只是那些离分类面最近的样本。这些样本就被称为支持向量,它们可能只是训练样本中很少的一部分。支持向量如图1所示。 图1 图1中,H是最优分类面,H1和H2别是两个边界超平面。实心样本就是支持向量。由于最优超平面完全是由这些支持向量决定的,所以这种方法被称作支持向量机(SVM)。 以上是线性可分的情况,对于线性不可分问题,可以在错分样本上增加一个惩罚因子来干预最优分类面的确定。这样一来,最优分类面不仅由离分类面最近的样本决定,还要由错分的样本决定。这种情况下的支持向量就由两部分组成:一部分是边界支持向量;另一部分是错分支持向量。 对于非线性的分类问题,可以通过特征变换将非线性问题转化为新空间中的线性问题。但是这样做的代价是会造成样本维数增加,进而导致计算量急剧增加,这就是所谓的“维度灾难”。为了避免高维空间中的计算,可以引入核函数的概念。这样一来,无论变换后空间的维数有多高,这个新空间中的线性支持向量机求解都可以在原空间通过核函数来进行。常用的核函数有多项式核、高斯核(径向基核)、Sigmoid函数。 二、支持向量机的实现 OpenCV是开源计算机视觉库,它在图像处理领域得到了广泛应用。OpenCV 中包含许多计算机视觉领域的经典算法,其中的机器学习代码部分就包含支持向量机的相关内容。OpenCV中比较经典的机器学习示例是“手写字母分类”。OpenCV 中给出了用支持向量机实现该示例的代码。本次大作业的任务是研究OpenCV中的支持向量机代码,然后将其改写为适用于所有数据库的通用程序,并用标准数据集对算法进行测试。本实验中使用的OpenCV版本是,实验平台为Visual

支持向量机的matlab代码

支持向量机的matlab代码 Matlab中关于evalin帮助: EVALIN(WS,'expression') evaluates 'expression' in the context of the workspace WS. WS can be 'caller' or 'base'. It is similar to EVAL except that you can control which workspace the expression is evaluated in. [X,Y,Z,...] = EVALIN(WS,'expression') returns output arguments from the expression. EVALIN(WS,'try','catch') tries to evaluate the 'try' expression and if that fails it evaluates the 'catch' expression (in the current workspace). 可知evalin('base', 'algo')是对工作空间base中的algo求值(返回其值)。 如果是7.0以上版本 >>edit svmtrain >>edit svmclassify >>edit svmpredict function [svm_struct, svIndex] = svmtrain(training, groupnames, varargin) %SVMTRAIN trains a support vector machine classifier % % SVMStruct = SVMTRAIN(TRAINING,GROUP) trains a support vector machine % classifier using data TRAINING taken from two groups given by GROUP. % SVMStruct contains information about the trained classifier that is % used by SVMCLASSIFY for classification. GROUP is a column vector of % values of the same length as TRAINING that defines two groups. Each % element of GROUP specifies the group the corresponding row of TRAINING % belongs to. GROUP can be a numeric vector, a string array, or a cell % array of strings. SVMTRAIN treats NaNs or empty strings in GROUP as % missing values and ignores the corresponding rows of TRAINING. % % SVMTRAIN(...,'KERNEL_FUNCTION',KFUN) allows you to specify the kernel % function KFUN used to map the training data into kernel space. The % default kernel function is the dot product. KFUN can be one of the % following strings or a function handle: % % 'linear' Linear kernel or dot product % 'quadratic' Quadratic kernel % 'polynomial' Polynomial kernel (default order 3) % 'rbf' Gaussian Radial Basis Function kernel % 'mlp' Multilayer Perceptron kernel (default scale 1) % function A kernel function specified using @,

支持向量机非线性回归通用MATLAB源码

支持向量机非线性回归通用MA TLAB源码 支持向量机和BP神经网络都可以用来做非线性回归拟合,但它们的原理是不相同的,支持向量机基于结构风险最小化理论,普遍认为其泛化能力要比神经网络的强。大量仿真证实,支持向量机的泛化能力强于BP网络,而且能避免神经网络的固有缺陷——训练结果不稳定。本源码可以用于线性回归、非线性回归、非线性函数拟合、数据建模、预测、分类等多种应用场合,GreenSim团队推荐您使用。 function [Alpha1,Alpha2,Alpha,Flag,B]=SVMNR(X,Y,Epsilon,C,TKF,Para1,Para2) %% % SVMNR.m % Support Vector Machine for Nonlinear Regression % All rights reserved %% % 支持向量机非线性回归通用程序 % GreenSim团队原创作品,转载请注明 % GreenSim团队长期从事算法设计、代写程序等业务 % 欢迎访问GreenSim——算法仿真团队→https://www.wendangku.net/doc/3315752884.html,/greensim % 程序功能: % 使用支持向量机进行非线性回归,得到非线性函数y=f(x1,x2,…,xn)的支持向量解析式,% 求解二次规划时调用了优化工具箱的quadprog函数。本函数在程序入口处对数据进行了% [-1,1]的归一化处理,所以计算得到的回归解析式的系数是针对归一化数据的,仿真测 % 试需使用与本函数配套的Regression函数。 % 主要参考文献: % 朱国强,刘士荣等.支持向量机及其在函数逼近中的应用.华东理工大学学报 % 输入参数列表 % X 输入样本原始数据,n×l的矩阵,n为变量个数,l为样本个数 % Y 输出样本原始数据,1×l的矩阵,l为样本个数 % Epsilon ε不敏感损失函数的参数,Epsilon越大,支持向量越少 % C 惩罚系数,C过大或过小,泛化能力变差 % TKF Type of Kernel Function 核函数类型 % TKF=1 线性核函数,注意:使用线性核函数,将进行支持向量机的线性回归 % TKF=2 多项式核函数 % TKF=3 径向基核函数 % TKF=4 指数核函数 % TKF=5 Sigmoid核函数 % TKF=任意其它值,自定义核函数 % Para1 核函数中的第一个参数 % Para2 核函数中的第二个参数 % 注:关于核函数参数的定义请见Regression.m和SVMNR.m内部的定义 % 输出参数列表 % Alpha1 α系数 % Alpha2 α*系数 % Alpha 支持向量的加权系数(α-α*)向量

数据挖掘第二讲作业

第二讲大数据分析处理概述 1、Hadoop是一个(C) A.进行大数据分析处理的操作系统 B.专门存储大数据的数据库 C.大数据计算框架 D.收费的商业数据分析服务提供商 2、Hadoop集群可以运行的3个模式是(ABC)多选 A.本地模式 B.伪分布模式 C.全分布模式 D.离线模式 3、在Hadoop中,计算任务被称为Job,JobTracker是一个后台服务进程,启动之后,会一直监听并接收来自各个TaskTracker发送的心跳信息,包括资源使用情况和任务运行情况等信息,它使用的端口号是(B) A.70 B.30 C.80 D.60 4、在Hadoop中,一个作业(Job)包含多个任务(Task),从JobTracker接收并执行各种命令:运行任务、提交任务、杀死任务等;另一方面,将本地节点上各个任务的状态通过心跳周期性汇报给JobTracker,它使用的端口号是(D) A.70 B.30 C.80 D.60 5、Hadoop是由(B)语言编写的 A.C B.Java C.Python D.Scala 6、Hadoop中,集群的结构是(A) A.Master/Slave 结构 B.P2P结构 C.串行结构 D.以上都是 7、Hadoop平台中使用哪种技术可以运行Python语言编写的MapReduce代码(A)

A.Hadoop Streaming B.Hadoop C++编程接口 C.Hive D.Hbase 8、在Hadoop中,下列哪项主要提供基础程序包以及和操作系统进行交互(A) A.Hadoop Common package B.Hadoop Distributed File System C.Hadoop YARN D.MapReduce Engine 9、Hadoop的局限和不足(ABCD) A.抽象层次低,需要手工编写代码来完成,使用上难以上手 B.对于迭代式数据处理性能比较差 C.中间结果也放在HDFS文件系统中 D.时延高,只适用Batch数据处理,对于交互式数据处理,实时数据处理的支持不够 10、以下哪项不是Hadoop Streaming框架的优点(C) A.可以使用其他语言(包括脚本语言)编写的程序移植到Hadoop平台上 B.可以使用性能更好的语言(C/C++)来编写程序 C.可以不用设置Map与Reduce过程 D.Streaming框架汇总通过limit等方式可以灵活的先知应用程序使用的内存等资源 11、下列哪些选项是Hadoop Streaming框架的缺点(A) A.Hadoop Streaming默认只能处理文本数据,无法直接对二进制数据进行处理 B.Hadoop Streaming 不方便程序向Hadoop平台移植 C.Streaming中的mapper和reducer默认只能向标准输出写数据,不能方便地处理多路输出 D.只要程序能从标准输入读取数据、向标准输出写数据,就能使用Hadoop Streaming 12、在Hadoop中,下列哪项主要功能是计算资源的调度(C) A.Hadoop common package B.Hadoop Distributed File System C.Hadoop YARN D.MapReduce Engine 13、在Hadoop中,下列哪项负责文件的分布式存储与访问(B) A.Hadoop common package B.Hadoop Distributed File System C.Hadoop YARN D.MapReduce Engine 14、在Hadoop中,下列哪项负责计算任务的并行化(D) A.Hadoop common package B.Hadoop Distributed File System

支持向量机优缺点

SVM有如下主要几个特点: (1)非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射; (2)对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心; (3)支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。 (4)SVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”,大大简化了通常的分类和回归等问题。 (5)SVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。 (6)少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。这种“鲁棒”性主要体现在: ①增、删非支持向量样本对模型没有影响; ②支持向量样本集具有一定的鲁棒性; ③有些成功的应用中,SVM 方法对核的选取不敏感 两个不足: (1) SVM算法对大规模训练样本难以实施 由于SVM是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。针对以上问题的主要改进有有J.Platt的SMO算法、T.Joachims的SVM、C.J.C.Burges等的PCGC、张学工的CSVM以及O.L.Mangasarian等的SOR算法 (2) 用SVM解决多分类问题存在困难 经典的支持向量机算法只给出了二类分类的算法,而在数据挖掘的实际应用中,一般要解决多类的分类问题。可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式和SVM决策树;再就是通过构造多个分类器的组合来解决。主要原理是克服SVM固有的缺点,结合其他算法的优势,解决多类问题的分类精度。如:与粗集理论结合,形成一种优势互补的多类问题的组合分类器。

支持向量机

支持向量机 支持向量机模型选择研究 摘要:统计学习理论为系统地研究有限样本情况下的机器学习问题提供了一套 比较完整的理论体系。支持向量机 (suPportvectorMachine,SVM)是在该理论体系下产生的一种新的机器学习方法,它能较好地解决小样本、非线性、维数灾难和局部极小等问题,具有很强的泛化能力。支持向量机目前已经广泛地应用于模式识别、回归估计、概率密度估计等各个领域。不仅如此,支持向量机的出现推动了基于核的学习方法(Kernel-based Learning Methods) 的迅速发展,该方法使得研究人员能够高效地分析非线性关系,而这种高效率原先只有线性算法才能得到。目前,以支持向量机为主要代表的核方法是机器学习领域研究的焦点课题之一。 众所周知,支持向量机的性能主要取决于两个因素:(1)核函数的选择;(2)惩罚 系数(正则化参数)C的选择。对于具体的问题,如何确定SVM中的核函数与惩罚系 数就是所谓的模型选择问题。模型选择,尤其是核函数的选择是支持向量机研究的中心内容之一。本文针对模型选择问题,特别是核函数的选择问题进行了较为深入的研究。其中主要的内容如下: 1.系统地归纳总结了统计学习理论、核函数特征空间和支持向量机的有关理论与算法。 2.研究了SVM参数的基本语义,指出数据集中的不同特征和不同样本对分类结 果的影响可以分别由核参数和惩罚系数来刻画,从而样木重要性和特征重要性的考察可以归结到SVM的模型选择问题来研究。在

对样本加权SVM模型(例如模糊SVM)分析的基础上,运用了特征加权SVM模型,即FWSVM,本质上就是SVM与特征加权的结合。 3,在系统归纳总结SVM模型选择。尤其是核函数参数选择的常用方法(例如交叉验证技术、最小化LOO误差及其上界、优化核评估标准)。关键词:机器学习;模式分类;支持向量机;模型选择;核函数;核函数评估 支持向量机基础 引言 机器学习的科学基础之一是统计学。传统统计学所研究的是渐近理论,即当样本数目趋于无穷大时的极限特性。基于传统统计学的机器学习,也称为统计模式识别,由Duda等人提出。Duda的贡献主要是以经典统计理论为工具刻画了模式识别与机器学习的各类任务,同时暗示了对所建模型的评价方法。然而,在实际应用中,学习样本的数目往往是有限的,特别当问题处于高维空问时尤其如此。统计学习理论研究的是有限样本情况下的机器学习问题,它基于PAC(Probably Approximately Correct)框架给出关于学习算法泛化性能的界,从而可以得出误差精度和样木数目之间的关系。这样,样木集合成为泛化指标的随机变量,由此建立了结构风险理论。 Minsky和PaPert在20世纪60年代明确指出线性学习机计算能力有限。总体上,现实世界复杂的应用需要比线性函数更富有表达能力的假设空间"多层感知器可以作为这个问题的一个解,由此导向了 多层神经网络的反向传播算法。核函数表示方式提供了另一条解决途径,即将数据映射到高维空间来增强线性学习机的计算能力。核函数的引入最终使得在适当的特征空间中使用人们熟知的线性算法高效地检测非线性关系成为一可能。SVM是建立在统计学习理论(包括核函数的表示理论)基础上的第一个学习算法,目前主要应用于求解监督学习问题,即分类和回归问题。SVM以泛化能力为目标,其目的不是

MATLAB-智能算法30个案例分析-终极版(带目录)

MATLAB 智能算法30个案例分析(终极版) 1 基于遗传算法的TSP算法(王辉) 2 基于遗传算法和非线性规划的函数寻优算法(史峰) 3 基于遗传算法的BP神经网络优化算法(王辉) 4 设菲尔德大学的MATLAB遗传算法工具箱(王辉) 5 基于遗传算法的LQR控制优化算法(胡斐) 6 遗传算法工具箱详解及应用(胡斐) 7 多种群遗传算法的函数优化算法(王辉) 8 基于量子遗传算法的函数寻优算法(王辉) 9 多目标Pareto最优解搜索算法(胡斐) 10 基于多目标Pareto的二维背包搜索算法(史峰) 11 基于免疫算法的柔性车间调度算法(史峰) 12 基于免疫算法的运输中心规划算法(史峰) 13 基于粒子群算法的函数寻优算法(史峰) 14 基于粒子群算法的PID控制优化算法(史峰) 15 基于混合粒子群算法的TSP寻优算法(史峰) 16 基于动态粒子群算法的动态环境寻优算法(史峰) 17 粒子群算法工具箱(史峰) 18 基于鱼群算法的函数寻优算法(王辉) 19 基于模拟退火算法的TSP算法(王辉) 20 基于遗传模拟退火算法的聚类算法(王辉) 21 基于模拟退火算法的HEV能量管理策略参数优化(胡斐)

22 蚁群算法的优化计算——旅行商问题(TSP)优化(郁磊) 23 基于蚁群算法的二维路径规划算法(史峰) 24 基于蚁群算法的三维路径规划算法(史峰) 25 有导师学习神经网络的回归拟合——基于近红外光谱的汽油辛烷值预测(郁磊) 26 有导师学习神经网络的分类——鸢尾花种类识别(郁磊) 27 无导师学习神经网络的分类——矿井突水水源判别(郁磊) 28 支持向量机的分类——基于乳腺组织电阻抗特性的乳腺癌诊断(郁磊) 29 支持向量机的回归拟合——混凝土抗压强度预测(郁磊) 30 极限学习机的回归拟合及分类——对比实验研究(郁磊) 智能算法是我们在学习中经常遇到的算法,主要包括遗传算法,免疫算法,粒子群算法,神经网络等,智能算法对于很多人来说,既爱又恨,爱是因为熟练的掌握几种智能算法,能够很方便的解决我们的论坛问题,恨是因为智能算法感觉比较“玄乎”,很难理解,更难用它来解决问题。 因此,我们组织了王辉,史峰,郁磊,胡斐四名高手共同写作MATLAB智能算法,该书包含了遗传算法,免疫算法,粒子群算法,鱼群算法,多目标pareto算法,模拟退火算法,蚁群算法,神经网络,SVM等,本书最大的特点在于以案例为导向,每个案例针对一

机器学习十大算法的每个算法的核心思想、工作原理、适用情况及优缺点

5-1简述机器学习十大算法的每个算法的核心思想、工作原理、适用情况及优缺点等。 1)C4.5算法: ID3算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。ID3算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定的测试属性。 C4.5算法核心思想是ID3算法,是ID3算法的改进,改进方面有: 1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2)在树构造过程中进行剪枝 3)能处理非离散的数据 4)能处理不完整的数据 C4.5算法优点:产生的分类规则易于理解,准确率较高。 缺点: 1)在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算 法的低效。 2)C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程 序无法运行。 2)K means 算法: 是一个简单的聚类算法,把n的对象根据他们的属性分为k个分割,k < n。算法的核心就是要优化失真函数J,使其收敛到局部最小值但不是全局最小值。 ,其中N为样本数,K是簇数,r nk b表示n属于第k个 簇,u k是第k个中心点的值。

然后求出最优的u k 优点:算法速度很快 缺点是,分组的数目k是一个输入参数,不合适的k可能返回较差的结果。 3)朴素贝叶斯算法: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。算法的基础是概率问题,分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。朴素贝叶斯假设是约束性很强的假设,假设特征条件独立,但朴素贝叶斯算法简单,快速,具有较小的出错率。 在朴素贝叶斯的应用中,主要研究了电子邮件过滤以及文本分类研究。 4)K最近邻分类算法(KNN) 分类思想比较简单,从训练样本中找出K个与其最相近的样本,然后看这k个样本中哪个类别的样本多,则待判定的值(或说抽样)就属于这个类别。 缺点: 1)K值需要预先设定,而不能自适应 2)当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。 该算法适用于对样本容量比较大的类域进行自动分类。 5)EM最大期望算法 EM算法是基于模型的聚类方法,是在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量。E步估计隐含变量,M步估计其他参数,交替将极值推向最大。 EM算法比K-means算法计算复杂,收敛也较慢,不适于大规模数据集和高维数据,但比K-means算法计算结果稳定、准确。EM经常用在机器学习和计算机视觉的数据集聚(Data Clustering)领域。 6)PageRank算法 是google的页面排序算法,是基于从许多优质的网页链接过来的网页,必定还是优质网页的回归关系,来判定所有网页的重要性。(也就是说,一个人有着越多牛X朋友的人,他是牛X的概率就越大。) 优点: 完全独立于查询,只依赖于网页链接结构,可以离线计算。 缺点: 1)PageRank算法忽略了网页搜索的时效性。 2)旧网页排序很高,存在时间长,积累了大量的in-links,拥有最新资讯的新网页排名却很低,因为它们几乎没有in-links。

支持向量机算法学习总结

题目:支持向量机的算法学习 姓名: 学号: 专业: 指导教师:、 日期:2012年6月20日

支持向量机的算法学习 1.理论背景 基于数据的机器学习是现代智能技术中的重要方面,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。迄今为止,关于机器学习还没有一种被共同接受的理论框架,关于其实现方法大致可以分为三种: 第一种是经典的(参数)统计估计方法。包括模式识别、神经网络等在内,现有机器学习方法共同的重要理论基础之一是统计学。参数方法正是基于传统统计学的,在这种方法中,参数的相关形式是已知的,训练样本用来估计参数的值。这种方法有很大的局限性,首先,它需要已知样本分布形式,这需要花费很大代价,还有,传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于此假设。但在实际问题中,样本数往往是有限的,因此一些理论上很优秀的学习方法实际中表现却可能不尽人意。 第二种方法是经验非线性方法,如人工神经网络(ANN)。这种方法利用已知样本建立非线性模型,克服了传统参数估计方法的困难。但是,这种方法缺乏一种统一的数学理论。 与传统统计学相比,统计学习理论(Statistical Learning Theory或SLT)是一种专门研究小样本情况下机器学习规律的理论。该理论针对小样本统计问题建立了一套新的理论体系,在这种体系下的统计推理规则不仅考虑了对渐近性能的要求,而且追求在现有有限信息的条件下得到最优结果。V. Vapnik 等人从六、七十年代开始致力于此方面研究[1],到九十年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛的重视。 统计学习理论的一个核心概念就是 VC 维(VC Dimension)概念,它是描述函数集或学习机器的复杂性或者说是学习能力(Capacity of the machine)的一个重要指标,在此概念基础上发展出了一系列关于统计学习的一致性(Consistency)、收敛速度、推广性能(GeneralizationPerformance)等的重要结论。 支持向量机方法是建立在统计学习理论的 VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以

支持向量机matlab实现源代码知识讲解

支持向量机m a t l a b 实现源代码

edit svmtrain >>edit svmclassify >>edit svmpredict function [svm_struct, svIndex] = svmtrain(training, groupnames, varargin) %SVMTRAIN trains a support vector machine classifier % % SVMStruct = SVMTRAIN(TRAINING,GROUP) trains a support vector machine % classifier using data TRAINING taken from two groups given by GROUP. % SVMStruct contains information about the trained classifier that is % used by SVMCLASSIFY for classification. GROUP is a column vector of % values of the same length as TRAINING that defines two groups. Each % element of GROUP specifies the group the corresponding row of TRAINING % belongs to. GROUP can be a numeric vector, a string array, or a cell % array of strings. SVMTRAIN treats NaNs or empty strings in GROUP as % missing values and ignores the corresponding rows of TRAINING. % % SVMTRAIN(...,'KERNEL_FUNCTION',KFUN) allows you to specify the kernel % function KFUN used to map the training data into kernel space. The % default kernel function is the dot product. KFUN can be one of the % following strings or a function handle: % % 'linear' Linear kernel or dot product % 'quadratic' Quadratic kernel % 'polynomial' Polynomial kernel (default order 3) % 'rbf' Gaussian Radial Basis Function kernel % 'mlp' Multilayer Perceptron kernel (default scale 1) % function A kernel function specified using @, % for example @KFUN, or an anonymous function % % A kernel function must be of the form % % function K = KFUN(U, V) % % The returned value, K, is a matrix of size M-by-N, where U and V have M % and N rows respectively. If KFUN is parameterized, you can use % anonymous functions to capture the problem-dependent parameters. For % example, suppose that your kernel function is % % function k = kfun(u,v,p1,p2) % k = tanh(p1*(u*v')+p2); % % You can set values for p1 and p2 and then use an anonymous function: % @(u,v) kfun(u,v,p1,p2).

GIS空间分析名词解释

.... 拓扑分析、空间叠加、缓冲分析、网络分析P3 数字地面模型(DTM): 数字高程模型(DEM): 不规则三角网(TIN): 地质统计学:是利用空间变量的自相关特征研究空间随机场性质的一种统计理论。它分为(1)结构分析理论;(2)克立格插值理论(插值理论);(3)条件模拟理论。 协方差、空间采样理论P9 估计误差:是指实测值与真实值之间的误差。 估计方差:是指估计误差的离散程度。 z,它的空间分布由x , y水平坐标系统来描述。 DEM派生信息:以数字地面模型为基础,通过数字地形分析(DTA)手段可提取出用于描述地表不同方面特征的参数,这些参数统称为DEM派生信息。 坡度、坡向、曲率P16 地面曲率:地面曲率是对地形表面一点扭曲变化程度的定量化度量因子,地面曲率在垂直和水平两个方向上分量分别称为平面曲率和剖面曲率。 剖面曲率、平面曲率、坡形P18 汇流量(汇流面积):一个栅格单元的汇流量是其上游单元向其输送的水流量的总和。 地形湿度指数:单位等高线上的汇流面积与坡度之比。 通视分析:就是利用DEM判断地形上任意点之间是否可以相互可见的技术方法,分为视线分析和视域分析。 ,具体指在点. 线. 面实体周围自动建立的一定宽度的多边形。 叠置分析:是将同一地区的两组或两组以上的要素进行叠置,产生新的特征的分析方法。 合成叠置、统计叠置P30 交、并、剪P31 差、识别P32 距离分析:用于分析图像上每个点与目标的距离,如有多目标,则以最近的距离作为栅格值。 距离制图、直线距离分析P32 密度分析:针对一些点要素(或线要素)的特征值(如人口数)并不是集中在点上(或线上)的特点,对要素的特征值进行空间分配,从而更加真实地反映要素分布。 密度制图:根据输入的要素数据集计算整个区域的数据聚集状况,从而产生一个连续的密度表面。 泰森多边形:设平面有n个互不重叠的离散数据点,则其中任意一个离散数据点Pi都有一个临近范围Bi,在Bi中的任一点同Pi点间的距离都小于它们同其它离散数据点间的距离,其中Bi是一个不规则多边形,称为泰森多边形。 重分类Reclassify:即基于原有数值,对原有数值重新进行分类整理从而得到一组新值并输出,是对单个波段,改变值的分布。 重采样Resample:是改变影像分辨率(每个像素点代表矢量大小),可以用于多波段。 像元统计、邻域统计、区域统计P38 Aggregate、Majority Filter、Expand和Shrink P38 协方差函数、互协方差函数P44 平稳假设:指区域化变量Z(x)的任意n维分布函数不因空间点x发生位移而改变。 二阶平稳假设:数学期望与协方差函数均存在且平稳。 两点之差的方差之半定义为Z(x)的变差函数。 角度容差、距离容差P50 块金常数、变程、基台值P51 套和结构:实际的区域化变量的变化性是十分复杂的,反映在变差函数上就是它的结构不是单纯的一种结构,而是多层次结构叠加在一起称为套和结构。 ,克里格法是建立在变异函数理论及结构分析基础上,在有限区域内对区域化变量取值进行线性无偏最优估计的方法。

相关文档