文档库

最新最全的文档下载
当前位置:文档库 > 建模终极

建模终极

1问题的重述

DNA微阵列(DNA microarray),也叫基因芯片,是最近数年发展起来的一种能快速、高效检测DNA片段序列、基因表达水平的新技术.它将数目从几百个到上百万个不等的称之为探针的核苷酸序列固定在小的玻璃或硅片等固体基片或膜上,该固定有探针的基片就称之为DNA微阵列.

随着大规模基因表达谱( Gene expression profile ,或称为基因表达图) 技术的发展,人类各种组织的正常的基因表达已经获得,各类病人的基因表达分布图都有了参考的基准,因此基因表达数据的分析与建模已经成为生物信息学研究领域中的重要课题.如果可以在分子水平上利用基因表达分布图准确地进行肿瘤亚型的识别,对诊断和治疗肿瘤具有重要意义.因为每一种肿瘤都有其基因的特征表达谱.从DNA 芯片所测量的成千上万个基因中,找出决定样本类别的一组基因“标签”,即“信息基因”(informative genes )是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,同时也为抗癌药物的研制提供了捷径.

通常由于基因数目很大,在判断肿瘤基因标签的过程中,需要剔除掉大量“无关基因”,从而大大缩小需要搜索的致癌基因范围.事实上,在基因表达谱中,一些基因的表达水平在所有样本中都非常接近.因此,必须对这些“无关基因”进行剔除.1999 年《Science》发表了Golub 等针对上述急性白血病亚型识别与信息基因选取问题的研究结果.Golub 等以“信噪比”(Signal to noise ratio) 指标作为衡量基因对样本分类贡献大小的量度,采用加权投票的方法进行亚型的识别,仅根据72个样本就从7 129 个基因中选出了50 个可能与亚型分类相关的信息基因.Golub 的工作大大缩小了决定急性白血病亚型差异的基因范围,给出了亚型识别的基因依据,富有创造性.Guyon 等则利用支持向量机的方法再从中选出了8个可能的信息基因[2].

但信噪比肯定不是衡量基因对样本分类贡献大小的唯一标准,肿瘤是致癌基因、抑癌基因、促癌基因和蛋白质通过多种方式作用的结果,在确定某种肿瘤的基因标签时,应该设法充分利用其他有价值的信息.有专家认为在基因分类研究中忽略基因低水平表达、差异不大的表达的倾向应该被纠正,与临床问题相关的主要生理学信息应该融合到基因分类研究中.

作为提取基因图谱信息的前沿性课题研究,我们可以从以下四个方面开展工作:(1)由于基因表示之间存在着很强的相关性,所以对于某种特定的肿瘤,似乎会有大量的基因都与该肿瘤类型识别相关,但一般认为与一种肿瘤直接相关的突变基因数目很少.对于给定的数据,如何从上述观点出发,选择最好的分类因素?

(2)相对于基因数目,样本往往很小,如果直接用于分类会造成小样本的学习问题,如何减少用于分类识别的基因特征是分类问题的核心,事实上只有当这种特征较少时,分类的效果才更好些.对于给定的结肠癌数据如何从分类的角度确定相应的基因“标签”?

(3)基因表达谱中不可避免地含有噪声(见1999 年Golub在《Science》发表的文章),有的噪声强度甚至较大,对含有噪声的基因表达谱提取信息时会产生偏差.通过建立噪声模型,分析给定数据中的噪声能否对确定基因标签产生有利的影响?

(4)在肿瘤研究领域通常会已知若干个信息基因与某种癌症的关系密切,建立融入了这些有助于诊断肿瘤信息的确定基因“标签”的数学模型.比如临床有下面的生理学信息:大约90%结肠癌在早期有5号染色体长臂APC基因的失活,而只有40%~50%的ras相关基因突变.

2模型的假设和符号的设定

2.1模型的假设

(1)假设以上所有的样本都具有代表性,不包含特殊的样本;

(2)假设每个样本相互独立,每个样本中基因表达相互独立,互不影响; 2.2符号的设定

g 为基因

()g B 为基因g 的 Bhattacharyya 距离

θ为指定的Bhattacharyya 距离的阈值

Φ一个非线性的映射函数 ()I S card 集合数

b ,ω均为模型参数

其他变量符号在文中使用时给出说明.

3模型的准备

3.1 SVM 分类理论

支持向量机(support vector machine,SVM )是AT&TBell 实验室的V.Vapnik 提出的针对分类和回归问题的统计学习理论.SVM 能够较好地解决小样本、非线性、高维数等实际问题,而且具有全局最优性和较好的泛化能力.

对于支持向量机用于两类线性数据的分类问题,就是要找到一个可计算的分类函数

}1,1{,),(-∈∈=y R x x f y n (1) 对于给定的N 个样本),(11y x ,(22,y x ),),(N N y x ,其中,}1,1{,-∈∈i n i y R x ,来找到一个可将两样本分离开来的超平面.

0,=+b x (2)

能将两类数据分开的超平面很多,但从样本以及参数的鲁棒性来看的话,应该选择满足两类样本间隔最大的一个超平面.所谓的最优超平面,就是要求分类面不但能将两类样本正确分开,而且使分类间隔达到最大.

由(2)决定的超平面一般称为标准超平面,其中变量b ,ω要受到以下限制

1|,|min =+b x i ω (3)

建模终极

并且,具有标准形式的超平面需要满足下式

[]N i b x y

i i ,1,1,=≥+ω (4)

建模终极

因此,点x 到超平面()b ,ω的距离);,(x b d ω可以表示为

||

|||,|);,(ωωωb x x b d i +=

(5)

最有超平面的最大分类间隔ρ要受到(5)式的限制,分类间隔可表示如下

||

||2||

|||,|min

||

|||,|min

),,(min ),,(min ),(1

:1

:1

:1

:ωωωωωωωωρ=

+++=+==-==-=b x b b x b d x b d b i y x y x i y x i y x i i i i i i i i (6)

因此,最优分类超平面需要将下式最小化

2||||2

1

)(ωωφ= (7)

即最优超平面需要满足下列条件

[]1,..,2

1

min ≥+b x y t s i i ωω (8)

并且对应的识别函数为

())*(b x sign x f +=ω (9)

按照支持向量机的理论,对于上面的问题,可以转化为如下的二次优化问题:

∑∑==+-=N

i I j i j i j N

j i i x x y y M Max 1

1,)(21)(:αααα t s . N i i ,2,1,0=≥α

01

=∑=i

N

i i y

α

(10)

通过解上面的最优化问题即可获得相应的分类函数为

??

?

???+=∑=N i i i i b x x y sign x f 1)*()(α (11)

对于非线性的情况,其基本思想是通过使用一个非线性映射函数Φ,把数据映射到一个

高维特征的空间,再在高维特征空间内建立最优超平面,相应的超平面公式为:

0)(*=+Φb x M (12)

所以分类函数变为

))()(()(1b x x y sign x f i N

i i i +ΦΦ=∑=α (13)

由于在映射的高维特征空间内计算非线性映射十分复杂.因此核函数的引入很好的解决了这一问题,核函数可以利用输入空间中的函数来实现特征空间中的内积运算,也无需知道映射的具体形式(Mercer 定理).经常使用的两个核函数()j i x x K ,为线性核函数和径向基核函数.

()()∑∑==+-=N

i i j i j i j N

j i i x x K y y x M Max 1

1,,21:ααα

..t s N i i ,2,1,0=≥α

01

=∑=i

N

i i y

α (14)

分类函数可表示为:

()()??

?

??+=∑=N i i i i b x x K y sign x f 1,α (15)

4问题的分析

基于基因表达谱在分子水平上对肿瘤进行分类,构造预测性模型,从而准确的进行

肿瘤的分类和分型,对诊断和治疗肿瘤具有重要的意义.基于基因表达谱,如何从数以千计的基因中鉴别最佳的特征基因子集,提高生物类型(例如肿瘤与正常组织)鉴别的准确率已成为其中一个重要研究方向,也是分析该类表达谱数据的重点和目的.1999年,Golub 等首先采用邻域分析方法对白血病的两种亚型分类,以加权投票法选取了50个最相关基因构建分类器.同年,Alon 等对结肠癌的基因表达谱作了聚类分析,使用了t 统计量方法进行相关基因选取,得到了一些表达谱与肿瘤的对应关系.2001年,Khan 等在线性神经网前端加上主元分析法,根据神经网输出对输入的灵敏度,从2308个基因中选取出96个儿童小圆蓝细胞瘤的亚型分类特征基因.Furey 、Guyon 和Brown 等把支持向量机、神经网络、k 近邻等几种常用方法应用到基于基因表达谱的肿瘤分类中,并比较了分类效果,发现一般情况下采用支持向量机作为分类器效果较好.

本文研究了基于最小二乘法支持向量机算法在肿瘤特征基因选择和分类中的应用问题,提出了一种新方法.该方法先用Bhattacharyya 距离对结肠癌和正常组织的基因表达数据进行预处理,过滤掉大部分与分类无关的基因.然后用遗传算法选取基因子集,把这些基因子集存档,统计基因被选择的频率,确定一个基因空间,它包含20基因子集中出现频率最高的基因.最后,用LS-SVM 寻找分类特征基因,即用最小二乘法发现在支持向量机(SVM)分类器上具有好的分类性能且较小的特征基因子集.以结肠癌微阵列数据为例给出的实验结果可与应用其他基因选择方法的分类性能媲美,表明了其有效性和可行性.

4.1试验数据及其表达

为了验证上述方法,我们采用结肠癌病基因表达数据作为实验对象,该数据共有62个样本,每个样本有2000个基因组成,其中42个样本为肿瘤,22为正常结肠组织[2],本文选取其中前31个为训练样本,后31个为测试样本.用},,{21n g g g G =表示基因的集合,},{21m s s s S =表示样本的集合,n 和m 分别为基因和样本的个数,一般来说,n 要比m 大的多,所以一个基因矩阵可表示为()

n

m j

i x M ,,=,j i x ,为样本i s 第j g 基

因的表达水平.所以M 中的每行代表一m 个维的样本矢量i s )2,1(m i =,每一列代表一个n 维的基因矢量)2,1(n j g j =,就本文而言,m n ,分别代表2000和62.

建模终极

4.2特征基因的选取

如何从基因序列中剔除噪音基因是基因特征提取的难点,这实际上是类间可分性的

问题,但到目前为止,尚无通用的的可分性准则,提取出来的特征也很难具有较高的置信度[1].

基因表达谱数据的数千个基因中多数基因不含有分类的信息,大部分基因作为噪声基因而存在.这些噪音基因的存在不仅不会对分类提供有用的信息,反而会增加计算和实现的难度,干扰有效分类.为此,首先要对这些噪声基因进行过滤以获得更加有效的分类效果,基于文献分析,我们采取基因的Bhattacharyya 距离[3,4]来衡量基因中蕴含的分类信息量,即:

()(

)

???

?

??+++-=

212221

2

2

212

212ln 214σσσσσσμμB ,其中B 为基因的 Bhattacharyya 距离.由上式知 ,Bhattacharyya 距离由两部分构成:第一项体现了基因在两个类别中分布均值的差异对样本分类的贡献;第二项体现了分布方差的不同对分类的贡献.依据该距离公式 ,即使基因在两类不同样本中分布的均值相同 ,只要分布的方差出现大的差异 ,仍然可以获得较大的距离值[5].

计算出两类中每个基因j g 的B 值后,根据B 值对每个基因进行重排列.选择B 值较大的基因作为有效的特征基因[3].选出顶端最具表达的d 个基因作为样本的维数,取d=10,20,30,40,50,2000,对比不同的d 值对分类结果的影响.

图1基因Bhattaccharyya 距离分布情况

建模终极

依据基因所含样本类别信息的多少,将基因分为“信息基因” 和“无关基因”两类.设

I S 为信息基因集合, N S 为无关基因集合 ,则“信息基因”与“无关基因”可如下定义:

()()???≤>∈θ

θg B S g B S

g N

I

(16)

其中g 为基因 ,()g B 为基因g 的 Bhattacharyya 距离 ,θ为指定的Bhattacharyya 距离

的阈值[7]面的柱形图2可知 ,绝大部分基因的 Bhattacharyya 距离小于1.5的.这些基因在两个类别中的分布 ,无论其均值还是方差均无明显差异 ,可以作为无关基因剔除.根据图1和式子(16)知,在5.1=θ时,()227=I S card ,即在2000个基因中,有227个基因为信息基因,其余为无关基因.

建模终极

4.3特征基因子集的获取

信息基因集合I S 可以形成227682 2.1610≈?个不同的基因组合,每个组合被称为一个特征子集.

遗传算法就是一种很有效的全局启发式搜索算法,它借鉴了生物界自然选择和自然遗传的机制,其主要特点是群体搜索策略和群体中个体之间的信息交换,搜索不依赖于梯度信息.它尤其适用于处理传统搜索方法难以解决的复杂和非线性问题,可广泛用于涉及高维空间的组合优化和机器学习等领域.用遗传算法选择大量的能潜在区分结肠癌数据集中肿瘤和正常样本的含20个基因的子集.当获得大量的这样的子集后,通过统计分析评估基因被选择的频率.由于遗传算法是一种全局随机化搜索方法,被选择频率与基因的样本分类相对重要性是有很大关系的.被选择频率高的基因作为单个基因而言不一定具有好的分类能力,但具有较好的联合判别力,因而考虑用作对新样本分类的特征基因.设计遗传算法从227个候选基因组成的特征空间Si 中搜索近最优的基因子集,算法主要要素如下所述.

种群中的每个个体称为染色体.每个染色体都是1到227之间的20个随机的不同自然数组成的数组,每个数代表Si 中的一个基因,整个数组则代表一个大小为20的基因子集.在遗传算法中种群由10个小种群组成,每个小种群称为一个子群(niches).每个子群由100个染色体组成,即子群规模为100.在每次运行中,10个子群彼此独立地进化(选择和变异)一次之后,就对整个种群执行选择操作,即从当前代每个子群各选出一个最好的个体,组合起来,用这10个最好个体取代每个子群中10个最差的个体,形成新一代种群.这种策略保留了每代的最好个体,同时缩短了搜索时间.每个染色体(基因子集)的适应度用CFS 衡量.CFS 不仅考查特征子集中每个特征的个体分类预测能力,同时还考查特征之间的冗余程度,CFS 的定义见式(17).

建模终极

(17)

其中CFSS 是包含k 个特征的子集S 的评分,r cf 是平均特征类别相关系数(f ∈S),r ff

是平均特征特征相关系数.CFS与一般的过滤算法的区别在于,一般的过滤算法只是独立地为每个特征提供评分,而CFS给出了特征子集的启发式“度量”,并能报告它发现的最佳子集.子群的选择算子:如果种群的进化还没有满足停止条件,则需要从每个子群中依据“适者生存”的原理选择一组染色体作为生成后代子群的父本.每个子群的最好的那个染色体直接进入各自的后代子群,而子群其余的99个染色体则根据适应度函数值按排序选择方法(rank-based model)选择.子群的变异算子:变异把新基因引入染色体以促进种群的进化.根据选择概率与其适应度排序成正比的原则从父代子群中选择染色体.一旦选中某个染色体进行遗传操作,则随机选择其中1到5个基因进行变异,选择概率分别指定为0.531 25,0.25,0.125,0.062 5和0.031 25,这样,单基因变异赋予了最高的概率,而多基因同时变异则赋予了较低的概率.这种策略防止了每代引入许多新基因后不再进化,而退化为随机漫游式搜索.染色体中要发生变异的基因个数确定了之后,则从染色体中随机选择这些基因,并从227个不在染色体中的其他基因中随机选择同样数目的基因取而代之.当种群进化到最大代数(本文设定为200),或者种群的最佳个体连续20代没有发生变化时,则终止遗传算法的本次运行,从种群中选择最佳的10个不同染色体保存.重复运行遗传算法500次,这样总共可获得5 000个基因子集.统计分析Si中227个基因在5 000个子集中出现的频率,出现频率最高的20个基因形成子集S20.

建模终极

建模终极

5模型的建立

接下来我们将用LS -SVM 从这个子集中选择分类.即用最小二乘支持向量机的算法建模,模型如图1.

建模终极

图2

最小二乘支持向量机是支持向量机的一种类型,若训练样本集为

()R y R x n i y x d i i ∈∈=,.,2,1,, , R=1或-1 ,即把样本分为两类,1代表正常组织,-1

代表肿瘤.支持向量机建模的主要思想是,首先,用一非线性映射()*φ,将样本的输入

空间d R 映射到特征空间:

()()()()()n x x x x φφφ? ,,21=;

然后,在这个高维特征空间中构造最优决策函数();b x y T +=φω最后,以结构风险最小化为原则确定模型参数ω,b .结构风险的计算式为

2||||21

ω+=emp cR R (16)

其中c 为正规化参数;emp R 为损失函数,又称为经验风险.常见的损失函数又一次损失函数、二次损失函数和Hubber 损失函数,不同的损失函数代表不同的支持向量机模型.最小二乘支持向量机是损失函数二次的支持向量机,即i i

i ξξ,2∑为模型对训练样本

的预测误差.经验风险最小并不代表模型的期望风险最小,神经网络的过学习就是经验风险化原则失败的例子.根据统计学习理论,期望风险()αR 和经验风险emp R 之间至少以概率η-1满足如下关系:

()()()n

h n

h R R e m p ?

?

? ??-++

≤4ln 12ln ηα (17)

其中:h 是函数集的VC 维,n 是样本数.(17)式表明:同时减小经验风险和置信范围

可以降低期望风险;而降低函数集的VC 维可以缩小置信范围.又由于函数集的VC 维与

||||ω有关,减小||||ω可以降低VC 维的大小,因此将

2

||||2

ω作为结构风险最小化原则

的第二项.

基于结构风险最小化原则确定决策函数参数b ,ω,可等效为求解以下优化问题:

212

||||2

1

min ωξ+

=∑=n

i i c R , ..t s .,2,1,)(n i b x y i T i =+=φω (18)

用Lagrange 方法求解这个优化问题:

()()()

∑∑==-+-+=n

i i i T i n

i i i y b x c b L 1

2

12)(||||21,,,φωαωξαξω (19)

其中[]n αααα ,,21=是Lagrange 乘子. 根据优化条件

0,0,0,0=??=??=??=??i

i L

L b L L αξω

可得

0,)(1

1

==∑∑==n

i i n i i i x αφαω (20)

i i c αξ=2 i i T i b x y ξφω++=)( 由上面四个式子得

()()

i n

j i j j i c

b x x y αφφα21

)(,1

+

+=∑= (21) 若定义核函数()()i j j i x x x x K φφ),(,=,则

()()i n

j j i j i c

b x x K y αα21

,1

+

+=∑=.将(20)(21)合成线性方程组如下:()()()()()

()

()??

?

?

?

?

?

?

?

??????????

?

+

+

+

c x x K x x K x x K x x K c

x x K x x K x x K x x K c

x x K n n n n n n 21,,,1

,21|),(,1,),(21

,11

110212*********

???????

?????????=????????????????n n y y y b 21210ααα 基于训练样本集(),,2,1,,n i y x i i =求解上述方程组,可以得到模型参数

[]n b

ααα 21.最后所确定的决策函数为

b x x K x f i n

i i +=∑=),()(1

α

支持向量系数α中不等于零的元素i α所对应的样本()i i y x ,,称为支持向量.从上式的决策函数式可以看出,对象的特征主要是由支持向量决定的.

算法中的核函数()j i x x K ,是高维特征空间的内积,根据泛函的有关理论,只要满足mercer 条件的函数都可以作为核函数.不同的核函数构造不同的支持向量机,常见的

核函数形式有:

1. 线性核函数:()j i j i x x x x K =,

2. 多项式核函数:()()

d

j i j i x x x x K 1,+=

3. 径向基函数:()???

????

?--

=22

2exp ,σj

i j i x

x x x K ;

这里我们取径向基函数,我们用α的取值控制精度,把训练样本中的特征基因子集代入上述函数,通过mathlab 中的支持向量机工具箱编程(见附录1),我们得到α和b 的值,从而得到分类函数b x x K x f i n

i i +=∑=),()(1α.

建模终极

6模型的分析

6.1分类器的校验

再验证和分析过程中,分类器不但在测试样本上进行测试,而且用留一校验算法在训练集上进行测试.留一校验算法是评价某个学习算法表现情况的一个重要方法.留一校验算法不像经验误差,它在估计学习算法的泛化误差时几乎是无偏的.

在训练集上,不管基于前5,前10还是前15,留一校验的错误总是为0.而在测试集上,仅在前5出现了一次错误.这说明本文所采取的分类器是优良的.如表2

建模终极

6.2 误差分析

(1)在特征基因提取过程中,利用Bhattacharyya 距离作为衡量基因含有样本分类信息多少的尺度,这是因为Bhattacharyya 不仅直接体现了分类的错误率,而且还体现了分布的不同方差对分类的影响.[1]

(2)基于该基因组合的样本识别实验,在训练集上取得了 100 %的正确识别率,在测试集上出现了一个错误,误差为3.225%. 6.3 分类因素

通过文献分析,我们了解到分类时大多采用“信噪比”、“质心距离”、“灵敏度”、“误失率”、“Bhattaccharyya 距离”、“欧式距离”、“马氏距离”等指标算出基因表达水平,以基因表达水平的分布选择特征基因.但是我们也要考虑到临床生理学信息等因素在基

因分类中的作用.对于本文的结肠癌数据,我们把训练样本分为两类,通过计算两类的标准差和均值得出每种基因的Bhattaccharyya距离分布,对于专家提出的考虑临床生理学信息等因素在基因分类中的作用,需要进一步的研究论证.

6.4 确定基因“标签”

先用Bhattacharyya距离对结肠癌和正常组织的基因表达数据进行预处理,过滤掉大部分与分类无关的基因.然后用遗传算法选取基因子集,把这些基因子集存档,统计基因被选择的频率,确定一个基因空间,它包含20基因子集中出现频率最高的基因.最后,用LS-SVM寻找分类特征基因,即用最小二乘法发现在支持向量机(SVM)分类器上具有好的分类性能且较小的特征基因子集.

6.5“噪声”对确定基因标签的影响

基因表达谱中不可避免地含有噪声,有的噪声强度甚至较大,对含有噪声的基因表达谱提取信息时会产生偏差.我们在确定基因标签的过程中顾虑掉了大量的噪声基因,没有考虑噪声基因对确定基因标签的有利影响.但是我们可以用分类器模型在噪声基因上对样本进行识别检验发现有些噪声基因可以确定样本的类别,这说明我们把这些基因作为无关基因过滤掉了.我们猜测,噪声在小样本中可以对确定基因标签产生有利影响.6.6关于分类模型

我们使用最小二乘法支持向量机建立了分类模型.以结肠癌微阵列数据为例给出的实验结果可与应用其他基因选择方法的分类性能媲美,表明了其有效性和可行性.这个分类模型即是我们建立的融入了这些有助于诊断肿瘤信息的确定基因标签的数学模型.在肿瘤的研究领域,我们可以根据肿瘤基因图谱中的数据训练分类器,建立分类器函数模型,在基因分子表达水平上进行肿瘤识别,从而为诊断和治疗肿瘤提供依据.

8模型的改进方向

由基因Bhattaccharyya距离分布情况(图1)可知,基因表达呈正态分布,而在选取信息基因时,我们选取的是阈值大于1.5的基因高水平表达,忽略了基因低水平表达和差异不大的表达,有专家认为[6]这种倾向应该被纠正.

9 参考文献

[1] Fukunaga K. Int roduction to Statistical Pat tern Recognition[M] . Academic Press Limited , United States of America , NewYork , 1990.

[2] Alon U, Barkai N, Nptterman D A, et al.Broad patterns of gene ex-pression revealed by clustering analysis of tumor and normal colontissues probed by oligonucleotlde arrays[J].Cell Biology, 1999, 96:6745- 6750.

[3] Duda OR , Hart PE , Stork G D. Pattern Classification [M] . SecondEdition. New York :John wiley &S ons 2001 :46 - 48.

[4] Theodoridis S , K outroumbas K. Patter Recognition [ M] . SecondEdition. New York :Academic Press , 2003 ,177 - 179.

[5] Padil P ,Novovicova J , Kittler J . Floating search method in featureselection[ J ] . Pattern Recognition Letters , 1994 , 15 (11) : 1119 -1125.

[6]Z. Sun, P. Yang, Gene expression profiling on lung cancer Outcome Prediction:

Present Clinical Value and Future Premise, Cancer Epidemiology Biomarkers & Prevention, 2006, 15(11): 2063-2068

[7] 李颖新,刘全金,阮晓钢,急性白血病的基因表达谱分析与亚型分类特征的鉴别,中国生物医学工程学报,Vol. 24, No. 2, pp.240-244(2005)

附录1 输入: 训练例子

[]T

n x x x x 210=

类标签

[]T

n y y y y 21=

初始化:

存留特征的子集

[]n s 21= 特征分级列表

[]=r 基因分级

Repeat until []=r

限于特征指数良好的测试例子

()s x x :,0=

训练分类器

=αnon-liner kernel SVM-train(x,y)

计算分级标准()ααi H T -2

1

()i H -是一个矩阵,含有元素

()()()i x i x K y y k h k h --,,

其中()i x k -表示k x 的第i 行等于0 如果采用RBF 核,那么

()???

????

?--

=22

2exp ,σj

i j i x

x x x K γ由我们选择

()()ααi H i DJ T -=2

1

找出分级标准最小的特征

()DJ f min arg =

更新特征分级列表

()[]r f s r ,=

去除具有最小分级标准的特征

()()s length f f s s :1,1:1+-= 输出:

特征分级列表4