文档库 最新最全的文档下载
当前位置:文档库 › 2000A题DNA序列的类别(南昌大学全国一等奖)

2000A题DNA序列的类别(南昌大学全国一等奖)

2000A题DNA序列的类别(南昌大学全国一等奖)
2000A题DNA序列的类别(南昌大学全国一等奖)

用判别分析的方法判定DNA序列的类别桂贵龙万菁刘华昌

指导老师:陈钰菊

(南昌大学330047 )

摘要

判别分析法是多元统计分析中的重要内容之一。近年来,人们用判别分析的方法解决了不少在生产科研和日常生活中的实际问题。本文用Fisher判别的思想,从变量检验入手,给出了对DNA序列进行不同分类的理论依据,并探讨错判概率与判别效率之间的关系。通过对检验样本的回报情况分析可知,本文所建立的模型分辨率高(95%),错判率低(<1%),简单而易于运行,适合于各种长度的DNA序列的分类,因此实用性强,有较高的理论价值,为多元统计分析方法在生物信息学领域中应用的又一典型实例。

关键词:DNA序列、Fisher判别法、判别函数、错判率。

一、问题提出

1.背景

人类基因组计划中的DNA全序列图是一本记录着人类自生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A、C、G、T按一定的顺序排成的长约30亿的序列,其中没有断句,也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的内容知之甚少,难以读懂,破译这部世界上最巨量信息的“天书”是二十世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课题之一。对DNA序列的逐步认识让人们相信DNA序列中存在着局部的和全局的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。

2.问题

有20个已知类别的人工序列:A类,B类。

1. 从中提取特征,构造模型,找出合适的分类方法,并用该法对另20个给出的未知类别的人工序列进行分类,要求详述方法及给出计算程序。

2..对另给出的182个自然序列进行分类。

二.问题的分析

本题重在从已知类别的DNA序列中提取某些特征,构造分类方法,提取的某些特征应满足以下条件:

1)来源于已知样本。

2)具有给予未知类别的DNA序列分类的功能。

3)能较好的接受检验样本的检验。

全部地考虑各种因素(如碱基的排列组合,碱基间的键强及键长等等),无法得到分类方法。忽略以上特征,突出A、C、G、T在DNA序列中出现的频数,对这个特征利用多元统计分析方法可以达到要求。判别分析法对分类问题有着较强的适合性,而在Fisher判别法,Bayes判别法,距离判别法等方法中,Fisher判别法条件更宽、更通用。

三、符号与假设

1、主要假设

(1)分析DNA序列时,不考虑A、C、T、G出现的顺序。

(2)忽略碱基间间键的强弱、长短。

(3)假设文中较小容量的子样能体现母体的一些统计特性。

(4)认为DNA序列中A、C、G、T的出现是独立的。

(5)DNA序列中A、C、G、T对DNA序列的影响是平等的。

(6)将A类误判为B类与将B类误判为A类的损失是相等的。

2、符号的说明

V i(i=1、2): 协差矩阵

D i(i=1、2): 判别区域

△(u): 判别效率

W(y)、u(y): 判别函数

∏1、∏2: 随机向量母体

E i( i=1、2): 随机向量的均值

Ф(u),ф(u):分别为标准正态分布的分布函数与分布密度

V-1:矩阵的逆

uτ:向量u的转置

四、模型的建立

1模型的提出(Fisher判别准则)

Fisher判别准则是借助于方差分析的思想来导出判别函数,此判别函数可以是线性的,也可以是一般的Borel函数。

设有两个母体∏1、∏2,相应的均值、协差阵分别为E1、E2与V1、V2;任取一样本个体y(n维向量),考虑其线性函数u(y)=uτy(其中u为已知的n维向量),则在y来自∏i条件下均值与方差分别为

e i =E(u(y)︱∏i)=uτE i i=1、2

v i2=V(u(y)︱∏i)=uτV i u i=1、2

令B0= E0=

Fisher准则是适当选择u,使得△(u) =B0/E0达到最大,此△(u)称为判别效率。一般地,我们有

引理1若V1+V2的逆存在,则Fisher准则下的线性判别函数与判别效率分别为u(y)=yτ(V1+V2)-1(E1-E2) △(u)=1/2(E1-E2)τ(V1+V2)-1(E1-E2)

故u=(V1+V2)-1(E1-E2)

证明:见《多元统计分析引论》(方开泰,第四章定理3、1的系)

Fisher准则的理论意义之一在于将制定判别规则转为讨论一维随机变量

而对u(y)(一维随机变量)的讨论包含在距离判别法中。

引理二设有两个母体∏1、∏2 , 它们的均值、协差矩阵分别为E1、E2和V1、V2,令D i={y: d2(y, ∏i)≤min d2(y,∏j) ,j≠i} i=1、2

则距离判别规则为y∈∏i, 若y落在D i内,i=1、2

引理3 在引理1、2的前提与假设下,若V1=V2=V,

则有D1={y: (y-(E1+E2)/2)τV-1 (E1-E2)≥0},

D2=R n-D1;

其中n为随机向量变维数,W(y)= (y-(E1+E2)/2)τV-1(E1-E2)为判别函数。

由引理1,引理2,引理3很容易推得

定理1 在引理3的前提与假设下,对∏1、∏2有相应的判别区域

D1={y: uτ(y-E)≥0}

D2={y: uτ(y-E)<0}=R n-D1

此E=(E1+E2)/2。

2、模型的建立

(1)、特征的提取

令∏1、∏2分别表A类DNA序列与B类DNA序列的数字特征的随机向量母体,以片段长为110的DNA序列中所含A、C、G、T的频数(平均而言)为此序列的数字特征,其构成一四维向量(A,C,G,T)。

因母体∏1、∏2参数未知,故需通过检验样本来估计

令V1=1/(n1-1)×S1V2=1/(n2-1×S2

此S1、S2、n1、n2分别表A类检验样本与B类检验样本的方差的n1-1倍与容量(n1=10=n2)

故V1+V2=1/(n1-1×S1+ 1/(n2-1×S2=(S1+S2)/9

(2)、附加信息的检验

两个母体∏1、∏2,它们的分布分别为N4(E1,V1) N4(E2,V2),4为维数

需检验H0:E1=E2

当H0被接受时,则区分这两个母体是无意义的,建立判别函数也没意义的。当H0被否定时,这两个母体是可以区别的,检验的H0似然比统计量为∧=|E|/|E+B| 其中E=S1+S2,B=n1*n2/(n1+n2)(E1-E2)(E1-E2)τ

(E1, E2分别表A、B类检验样本的均值)

故∧=0.1293 (因为∧=|E|/|E+B| )

它遵从∧

(m=4,n=20,k=2 ) ,查表得∧0.01(4,118,1)=0.433867, ∧<∧0.01(4, 18,1)

高度显著,故A、B两类的指标有明显的差异,将这四组特征提取并区分A、B类

是有道理的。

(3)、判别函数和判别规则的确定

我们采用Fisher判别的方法,在Fisher准则下,E1,E2可由检验样本的统计量来估计。由于V1≠V2,故采用加权因子法,用(V1+V2)/2 来估计V,设E=(E1+E2)/2 故得判别函数W(y)=(y-E)τ((V1+V2)/2)-1(E1-E2)

判别规则为:y∈∏1,若W(y)>=0

y∈∏2,若W(y)<0

判别程序D为D=(D1,D2),其中

D1={y | W(y)>=0},

D2={y | W(y)<0} 。

3、模型的改进

令c、r1、r2为参数(c>0,r1+r2=1,r1>=0,r2>=0),

W(y)=(y-E)τ[(S1×r1+S2×r2 )/9]-1(E1-E2)- logc,

c、r1、r2的取值有上述模型对检验样本的检验估算出。

取c=18、r1=5/6、r2=1/6

得新的判别函数W(y)=(y-E)τ[(S1×5/6+S2×1/6 )/9] -1 (E1-E2)-log18,此时判别规则为:y∈∏1,若W(y)>=0

y∈∏2,若W(y)<0

判别程序D为D=(D1,D2),其中

D1={y | W(y)>=0},

D2={y | W(y)<0}。

4、模型的求解:

制作Mathematica软件包将待判样本个体y逐一代入。

五、模型的检验与应用

(1)、对训练样本的判别归类情况如下:

(2)、对序列归类判别

利用改进的判别函数W(y)解答问题1、2的结果如下:

问题1(按序号大小排序):

A类:22,23,25,27,29,34,35,36,37;

B类:21,24,26,28,30,31,32,33,38,39,40;

问题2(按序号大小排列):

A类:5,7,8,9,10, 12, 13,14,15,16,17,18,19,20,21,27,28, 32,34,35,36,38,40,41,42,43,47,49,50, 51, 52,53,58,59,

60,61,63,65,67,71,73,74, 75, 77,79,83, 84, 86,87, 88,89,

93,96,97,98,99,100,102,104,106,109,112,114,116,117,

119,120,121,127,128,130,136,138,141,143,146,147,150,151,152,154,

155,158,171。(共84条)

B类:1, 2, 3, 4, 6,11,22,23,24,25, 26,29,30, 31, 33,37, 39, 44,45,46,48,54,55, 56,57,62, 64, 66, 68,69, 70, 72,

76,78,80,81,82, 85,90,91, 92,94,95,101, 103,105, 107,

108,110,111, 113, 115,118,122,123,124, 125,126,129,131,

132, 133,134, 135,137,139,140,142,144,145,148, 149, 153,

156,157,159,160,161,162,163,164,165,166,167,168,

169,170,172, 173,174,175,176, 177,178,179,180,181, 182。

(共98条)

5、Fisher准则下误判概率求解与分析

给定一个判别程序D=(D1,D2),在执行中总会有两类可能的错误发生:

第一类错误是将本属于1类的个体判归于2类,其误判的概率为

P1(D)=∫D2 f1(x)dx

第二类错误是将本属于2类的个体判归于1类,其误判的概率为

P2(D)=∫D1 f2(x)dx

其中f1(x)、f2(x)分别表Π1、Π2的分布密度函数,

误判概率大小是衡量一个判别好坏的重要标志。

(1)、用Fisher判别方法会发生误判

如:y来自∏1,却有W(y)〈0

y来自∏2,有W(y)>= 0

如图:误判概率为图中阴影部分面积

如果Π1、Π2靠得很近,则无论用何种方法误判概率均很大,此时用判别分析意义不大。因此只有当母体的均值有着显著的差异才可作判别分析。

而附加信息的检验说明了将Π1、Π2分开是有道理的。

(2)、误(错)判概率的计算

引理4:当n1/n2 1 时,

P{(W(y)-4△(u))/√4△(u)≤u|∏1}=Ф(u)+1/nф(u) [2(m-1)/√4△(u) -(m+1/4)u -u3/4]+o(n-2)

此m为向量的维数,△(u)为判别效率,n=n1+n2-2

ф(u)为标准正态分布密度,Ф(u)为标准正态分布函数.

证明见参考文献[1]。

从引理4可以看到Ф(u)是极限分布,第二大项为修正项,误判概率有如下性质:u<0时它为正;m=1时,它不依赖于△(u),当m>1时,它随△(u)增大-而减小; u<0时,它随m增大而增大。

这些理论结果与实际非常吻合。

在本题中m=4, △(u)=(E1-E2)τ((S1+S2)/18)-1(E1-E2),令u= -√4△(u) 则: P1(D)=P{W(y)<0 ∣∏1}与P2(D)=P{ W(y)>=0 ∣∏2}均很小(<0.005)

若设事前概率q1>0、q2>0(q1+q2=1)

犯第1、2类错误的损失分别为c1和c2,则对于给定的判别D,由误判引起的平均损失(风险)即为c1×q1×P1(D)+c2×q2×P(D)

特别当c1=c2=1时

其数值即为平均误判概率。

注:上述参数c=q2c1/q1c2;

对于c1≠c2情形,读者可参考文献[1]。

六、模型的评价与改进方向

1)通过检验样本的回报情况来很看,判错的情况很少,因此说明将样本在这样的判别函数与规则下归类是合理的。

2)通过对假设H0的似然比统计量的计算来论证数字特征的提取与DNA序列分类的合理性。

3)对于一个新的DNA序列,通过上文给出的判别函数与判别规则计算它将落入哪一个总体,从而决定此DNA序列的其它特性,这为人类提供了又一种基因及其特征检验识别的方法。

4)通过本文对错判概率的分析可以认为文中给出的判别分析法在某种程度上具有很高的分辨率。

5)对DNA序列有效判别是多元统计分析方法在生物学中的又一重大应用。

6)通过错判率与实际误判率的比较,说明理论与实际还是有一定的差距的。这根源于本容量(10个)较小,若将检验样本容量增大(>=50个),结果将更加合理。

7)由于时间限制,本文没有论证抽取4个数字特征与抽取更少的数字特征(3或者2),孰优孰劣,但文中利用似然比统计量来论证假设的合理性这种方法可以做到这一点。

8)本文在假设中忽略各种碱基之间键长及其键强对分类的影响,也忽略DNA序列中碱基排列顺序,而这些均是识别DNA序列的重要因素。

参考文献

1 张尧庭、方开泰《多元统计分析引论》科学出版社1982年

2 雷功炎《数学模型讲义》北京大学出版社1999年

3 李尚志《数学建模竞赛教程》江苏教育出版社1996年

4 《应用概率统计》华东师大出版社2000年第16卷第3期

论文点评:

(待写)

本篇论文获得2000年数学建模的全国一等奖。

2000年全国大学生数学建模竞赛A题 DNA序列分类

2000年全国大学生数学建模竞赛A题DNA序列分类 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。 虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3 字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。 作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题: 1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,1 1-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—4 0)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入): A类__________ ;B类_______________ 。 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。 这40个序列也放在如下地址的网页上,用数据文件Art-model-data 标识,供下载: 网易网址:https://www.wendangku.net/doc/d06793242.html, 教育频道在线试题; 教育网: https://www.wendangku.net/doc/d06793242.html, New mcm2000 教育网: https://www.wendangku.net/doc/d06793242.html,/mcm 2)在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列,它们都较长。用你的分类方法对它们进行分类,像1)一样地给出分类结果。 提示:衡量分类方法优劣的标准是分类的正确率,构造分类方法有许多途径,例如提取序列

南昌大学机械工程控制基础考前训练题

训练一:选择题 1.设一阶系统的传递函数为 5 23 s ,则其时间常数和增益分别是(C )。 A. 2,3 B. 2,1.5 C. 0.4,0.6 D. 2.5,1.5 2.系统的传递函数(C )。 A.与外界无关 B.与系统的初始状态有关 C.反映了系统、输入、输出三者之间的关系 D.完全反映了系统的动态特性 3.以下关于线性系统时间响应的说法正确的是(C )。 A.时间响应就是系统输出的稳态值 B.由单位阶跃响应和单位脉冲响应组成 C.由强迫响应和自由响应组成 D.与系统的初始状态无关 4.以下关于系统稳态偏差的说法正确的是(C )。 A.稳态偏差值取决于系统结构和参数 B. 稳态偏差值取决于系统输入和干扰 C. 稳态偏差与系统结构、参数、输入和干扰等有关 D.系统稳态偏差始终为0

5.已知某环节频率特性Nyquist 图如图所示,则该环节为(C )。 A.比例环节 B.微分环节 C.积分环节 D.惯性环节 6.已知最小相位系统的对数幅频特性图如图所示,则系统包含(D )个环节。 A.0 B.1 C.2 D.3 7.已知单位反馈系统传递函数) 7)(2(2 )(--+= s s s s s G 则该系统(B )。 A.稳定 B.不稳定 C.临界稳定 D.无法判断 8.关于开环传递函数)(s G K 、闭环传递函数)(s G B 和辅助函数 )(1)(s G s F K +=三者之间的关系为(B )。 A.三者的零点相同 B.)(s G B 的极点与)(1)(s G s F K +=的零点相同; C.)(s G B 的极点与)(1)(s G s F K +=的极点相同; D )(s G B 的零点与)(1)(s G s F K +=的极点相同

数学建模DNA序列分类模型终

DNA序列分类模型DNA序列分类模型

毕业设计(论文)原创性声明和使用授权说明 原创性声明 本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。 作者签名:日期: 指导教师签名:日期: 使用授权说明 本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。 作者签名:日期:

学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名:日期:年月日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 涉密论文按学校规定处理。 作者签名:日期:年月日 导师签名:日期:年月日

DNA序列的一种分类方法

收稿日期:2002203210 作者简介:刘志(1965— )男,山东东平人,空军工程大学工程师文章编号:100123857(2002)Sup.20114203 D NA 序列的一种分类方法 刘 志 (空军工程大学导弹学院,陕西西安713800) 摘 要:基于小波变换和相关技术,提出了一种DNA 序列的分类方法.首先将DNA 序列转换成数字序列,然后对此序列进行Matlab 快速分解,计算未知类别序列与已知类别序列的相关系数,由此判定序列的类别.结果表明,该方法是切实可行的. 关键词:DNA 序列;相关技术;小波变换 中图分类号:O357 文献标识码:A 2000年6月,人类基因组计划中DNA 全部草图完成,预计2002年可以完成精确的全序列图,此后人类将拥有一本记录着自己生老病死及遗传进化的全部信息的“天书”.这本大自然写成的“天书”是由4个字符A ,T ,C ,G 按一定的顺序排成的长约30亿的序列,其中没有“断句”也没有“标点符号”,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂.破译这部世界上最巨量信息的天书是21世纪最重要的任务之一.虽然人类对这部天书知之甚少,但也发现了DNA 序列中的一些规律和结构.例如,在全序列中有一些是用于,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸.此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等.本文利用小波变换和相关技术,提出了一种DNA 序列的分类方法. 1 Matlab 快速算法 信号的小波分析相当于对信号加上一个可调的时—频窗.Matlab 根据多分辨分析的观点,利用共轭正交镜像滤波器,给出了离散小波变换的金字塔算法,使信号快速分解和重构得以实现.在Matlab 算法基础上,进一步对高频信号进行分解,将信号分解到不同的频带上,滤波时根据需要,选取所需频带内的信号进行重构,就可以完成信号的多通带滤波.小波变换不改变信号所引起的小波变换系数的极值点的位置,而噪声所引起的小波变换系数的极值点主要表现在第一、二尺度上,且随着尺度增大,小波系数的极值点越来越少.由第三级小波变换系数重构的信号的自相关函数的极大值的位置和原函数的自相关函数的极大值的位置完全相同,这是本文所提方案的依据.由第三级小波变换系数重构的信号的自相关函数图形比较光滑,而且,没有影响自相关函数的极大值的位置.此结论对信号检测非常有用. 根据多分辨分析理论,在二进正交小波基下,Matlab 快速算法[1]为 A k j f =∑n ∈Z h (n -2k )A n j -1f , j =1,2,…,J .第30卷 专 辑 陕西师范大学学报(自然科学版)Vol.30 Sup. 2002年5月Journal of Shaanxi Normal University (Natural Science Edition )May.2002

控制科学与工程的二级学科以及排名

控制科学与工程 是一门研究控制的理论、方法、技术及其工程应用的学科。它是20世纪最重要的科学理论和成就之一,它的各阶段的理论发展及技术进步都与生产和社会实践需求密切相关。11世纪我国北宋时代发明的水运仪象台就体现了闭环控制的思想。到18世纪,近代工业采用了蒸汽机调速器。但直到20世纪20年代逐步建立了以频域法为主的经典控制理论并在工业中获得成功应用,才开始形成一门新兴的学科——控制科学与工程。此后,经典控制理论继续发展并在工业中获得了广泛的应用。在空间技术发展的推动下,50年代又出现了以状态空间法为主的现代控制理论,并相继发展了若干相对独立的学科分支,使本学科的理论和研究方法更加丰富。60年代以来,随着计算机技术的发展,许多新方法和技术进入工程化、产品化阶段,显著加快了工业技术更新的步伐。在控制科学发展的过程中,模式识别和人工智能与控制相结合的研究变得更加活跃;由于对大系统的研究和控制学科向社会、经济系统的渗透,形成了系统工程学科。特别是近20年来,非线性及具有不确定性的复杂系统向“控制科学与工程”提出了新的挑战,进一步促进了本学科的迅速发展。目前,本学科的应用已经遍及工业、农业。交通、环境、军事、生物、医学、经济、金融、人口和社会各个领域,从日常生活到社会经济无不体现本学科的作用。 控制科学以控制论、信息论、系统论为基础,研究各领域内独立于具体对象的共性问题,即为了实现某些目标,应该如何描述与分析对象与环境信息,采取何种控制与决策行为。它对于各具体应用领域具有一般方法论的意义,而与各领域具体问题的结合,又形成了控制工程丰富多样的内容。本学科的这一特点,使它对相关学科的发展起到了有力的推动作用,并在学科交叉与渗透中表现出突出的活力。例如:它与信息科学和计算机科学的结合开拓了知识工程和智能机器人领域。与社会学、经济学的结合使研究的对象进入到社会系统和经济系统的范畴中。与生物学、医学的结合更有力地推动了生物控制论的发展。同时,相邻学科如计算机、通信、微电子学和认知科学的发展也促进了控制科学与工程的新发展,使本学科所涉及的研究领域不断扩大。 相关学科关系 本学科在本科阶段叫自动化,研究生阶段叫控制科学与工程,本学科下设的六个二级学科:“控制理论与控制工程”、“检测技术与自动装置”、“系统工程”、“模式识别与智能系统”、“导航、制导与控制”和“企业信息化系统与工程”。各二级学科的主要研究范畴及相互联系如下。

数学建模竞赛试题--基因识别问题及其算法实现

基因识别问题及其算法实现 一、背景介绍 DNA 是生物遗传信息的载体,其化学名称为脱氧核糖核酸(Deoxyribonucleic acid ,缩写为DNA )。DNA 分子是一种长链聚合物,DNA 序列由腺嘌呤(Adenine, A ),鸟嘌呤(Guanine, G ),胞嘧啶(Cytosine, C ),胸腺嘧啶(Thymine, T )这四种核苷酸(nucleotide )符号按一定的顺序连接而成。其中带有遗传讯息的DNA 片段称为基因(Gene )(见图1第一行)。其他的DNA 序列片段,有些直接以自身构造发挥作用,有些则参与调控遗传讯息的表现。 在真核生物的DNA 序列中,基因通常被划分为许多间隔的片段(见图1第二行),其中编码蛋白质的部分,即编码序列(Coding Sequence )片段,称为外显子(Exon ),不编码的部分称为内含子(Intron )。外显子在DNA 序列剪接(Splicing )后仍然会被保存下来,并可在 图1真核生物DNA 序列(基因序列)结构示意图 蛋白质合成过程中被转录(transcription )、复制(replication )而合成为蛋白质(见图2)。DNA 序列通过遗传编码来储存信息,指导蛋白质的合成,把遗传信息准确无误地传递到蛋白质(protein )上去并实现各种生命功能。 DNA 序列 外显子(Exon ) 内含子(Intron)

DNA序列 剪接、转录、复制 蛋白质序列 图2蛋白质结构示意图 对大量、复杂的基因序列的分析,传统生物学解决问题的方式是基于分子实验的方法,其代价高昂。诺贝尔奖获得者W.吉尔伯特(Walter Gilbert,1932—;【美】,第一个制备出混合脱氧核糖核酸的科学家)1991年曾经指出:“现在,基于全部基因序列都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设。” 随着世界人类基因组工程计划的顺利完成,通过物理或数学的方法从大量的DNA序列中获取丰富的生物信息,对生物学、医学、药学等诸多方面都具有重要的理论意义和实际价值,也是目前生物信息学领域的一个研究热点。 二、数字序列映射与频谱3-周期性: 对给定的DNA序列,怎么去识别出其中的编码序列(即外显子),也称为基因预测,是一个尚未完全解决的问题,也是当前生物信息学的一个最基础、最首要的问题。 基因预测问题的一类方法是基于统计学的[1]。很多国际生物数据网站上也有“基因识别”的算法。比如知名的数据网站https://www.wendangku.net/doc/d06793242.html,/GENSCAN.html提供的基因识别软件GENSCAN(由斯坦福大学研究人员研发的、可免费使用的基因预测软件),主要就是基于隐马尔科夫链(HMM)方法。但是,它预测人的基因组中有45000个基因,相当于现在普遍认可数目的两倍。另外,统计预测方法通常需要将编码序列信息已知的DNA序列作为训练数据

DNA序列分类实验报告

数理学院专业实践报告题目: 专业 学生姓名 班级学号 指导教师(签字) 指导教师职称 实习单位 负责人签字 日期

1.2000 年6月,人类基因组计划中DNA 全序列草图完成,预计2001 年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4 个字符A,T,C,G 按一定顺序排成的长约30 亿的序列,其中没有“断句”也没有标点符号,除了这4 个字符表示4 种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA 全序列具有什么结构,由这4 个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。虽然人类对这部“天书”知之甚少,但也发现了DNA 序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4 个字符组成的64 种不同的3 字符串,其中大多数用于编码构成蛋白质的20 种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A 和T 的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA 序列的结构也取得了 一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA 序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA 全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。作为研究 DNA 序列的结构的尝试,提出以下对序列集合进行分类的问题:

南昌大学自动控制原理实验报告实验一

南昌大学实验报告 学生姓名:王瑾然学号:6101113031 专业班级:电气131班 实验类型:■ 验证□ 综合□ 设计□ 创新实验日期:实验成绩: 一、实验项目名称 实验3.1.1 典型环节的模拟研究 二、实验要求 1.了解和掌握各典型环节模拟电路的构成方法、传递函数表达式及输出时域函 数表达式。 2.观察和分析各典型环节的阶跃响应曲线,了解各项电路参数对典型环节动态 特性的影响。 三、主要仪器设备及耗材 1.计算机一台(Wind ows XP操作系统) 2.AEDK-labACT自动控制理论教学实验系统一套 https://www.wendangku.net/doc/d06793242.html,bACT6_08软件一套 四、实验内容和步骤 1.观察比例环节的阶跃响应曲线 (1)打开虚拟示波器的界面,点击开始,按下信号发生器的阶跃信号按钮(0→+4V阶跃),用示波器观测A6输出端(Uo)的实际响应曲线Uo(t)。(2)改变比例系数,重新观测结果,填入实验报告。 2.观察惯性环节的阶跃响应曲线

(1)打开虚拟示波器的界面,点击开始,用示波器观测A6输出端,按下信号发生器的阶跃信号按钮时,等待完整波形出来后,移动虚拟示波器横游标到4V×0.632处,得到与惯性的曲线的交点,再移动虚拟示波器两根纵游标,从阶跃开始到曲线的交点,量得惯性环节模拟电路时间常数T。A6输出端的实际响应曲线Uo(t)。 (2)改变时间常数及比例系数,重新观测结果,填入实验报告。 3.观察积分环节的阶跃响应曲线 (1)打开虚拟示波器的界面,点击开始,用示波器观测A6输出端(Uo),调节调宽电位器使宽度从0.3秒开始调到积分输出在虚拟示波器顶端为止。 (2)等待完整波形出来后,移动虚拟示波器横游标到0V处,再移动另一根横游标到ΔV=1V处,得到与积分的曲线的交点,再移动虚拟示波器两根纵游标,从阶跃开始到曲线的交点,量得积分环节模拟电路时间常数Ti。A6输出端(Uo)的实际响应曲线Uo(t)。 (3)改变时间常数,重新观测结果,填入实验报告。 4、观察比例积分环节的阶跃响应曲线 (1)打开虚拟示波器的单迹界面,点击开始,用示波器观测A6输出端(Uo)。(2)待完整波形出来后,移动虚拟示波器横游标到1V(与输入相等)处,再移

南昌大学现代控制理论实验报告

现代控制理论实验报告 课程名称: 姓名: 学号: 专业班级: 2016年6月

目录 实验一系统能控性与能观性分析 (1) 实验二典型非线性环节 (3) 实验三二阶非线性控制系统的相平面分析法 (10) 实验四线性系统的状态反馈及极点配置 (20) 实验五控制系统极点的任意配置 (24) 实验六具有内部模型的状态反馈控制系统 (31) 实验七状态观测器的设计及应用 (35)

实验一系统的能控性与能观性分析 一、实验设备 计算机,MATLAB软件。 二、实验目的 ①学习系统状态能控性、能观测性的定义及判别方法; ②通过用MATLAB编程、上机调试,掌握系统能控性、能观测性的判别方法,掌握将一般形式的状态空间描述变换成能控标准形、能观标准形。 三、实验原理说明 参考教材利用MATLAB判定系统能控性,利用MATLAB判定系统能观测性。 四、实验步骤 ①根据系统的系数阵A和输入阵B,依据能控性判别式,对所给系统采用MATLAB编程;在MATLAB界面 下调试程序,并检查是否运行正确。 ②根据系统的系数阵A和输出阵C,依据能观性判别式,对所给系统采用MATLAB编程;在MATLAB界面 下调试程序,并检查是否运行正确。 ③构造变换阵,将一般形式的状态空间描述变换成能控标准形、能观标准形。 五.实验例题验证 1、已知系数阵A和输入阵B分别如下,判断系统的状态能控性与能观性

,,

2. 已知系统状态空间描述如下 (1)判断系统的状态能控性;(2)判断系统的状态能观测性; (3)构造变换阵,将其变换成能控标准形;(4)构造变换阵,将其变换成能观测标准形; 六、实验心得

19398-数学建模-DNA序列分类模型

DNA序列分类模型 陈荣生张海军张旭东指导教师:数模组 海军航空工程学院 摘要本文讨论了在给定A类和B类各10个DNA序列的情况下,如何找出判断DNA 序列类型的方法,并具体分析了DNA序列的局部特征,最后将总体特征与局部特征综合考虑。 文中我们先根据给出的已知类型的20组DNA序列,考虑了四个碱基及其组合形式出现的频率,以此为研究对象进行深入研究,并建立了两个数学模型,即信息熵模型和Z曲线模型,最后还给出了模型的改进方向。 本文采取的用Z曲线来研究DNA序列的方法很有意义。 一、问题的重述 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,DNA全序列是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号。人们发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A 和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。 作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题: 1)下面有20个已知类别的人工制造的序列,其中序列标号1—10 为A类,11-20为B 类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入): A类; B类。 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。 2),用你的分类方法对182个自然DNA序列进行分类,像1)一样地给出分类结果。二、问题的分析 为了找出分类方法,我们可以省略细节,突出特征,以某 种碱基出现的频率或以两种甚至三种碱基的组合出现的频率, 或者以几种碱基出现的频率之和为依据来考虑。现分别就A、 B两组DNA序列针对以下20个方面做一些简单分析: 1)A出现的频率; 2)C出现的频率; 3)G出现的频率; 4)T出现的频率;

南昌大学专业简介

专业简介 一、机电工程学院 1、机械设计制造及其自动化 本专业为江西省本科品牌专业。该专业培养具备创新思维和机电产品与系统研究、设计、制造及企业经营管理能力的高级工程技术人才。本着夯实基础、促进就业,“多能”与“一专”均衡发展的精神,加强基础教育、分模块突出专业特色,使学生既能够全面掌握本专业的基础知识与技能,又能在一定的专业方向上形成知识密集点。 本专业学生主修的专业基础课程包括工程制图、工程力学、工程材料、机械原理、机械设计、公差与技术测量、电工电子学、微机原理、测试技术、控制工程基础、工程经济学等,选修的专业课程包括机械产品设计、机械制造、机械自动化、制造业信息化、精密仪器及机械等不同的课程模块,工程实践包括课程实验、实习、课程设计、毕业设计等环节,以及创新设计大赛、创业大赛等课外活动。 2、材料成型及控制工程 本专业依托国家重点培育学科"材料加工工程"(江西省第一个博士点)和省部共建“先进成形与模具实验室”,为国家高等学校“第二类特色专业建设点”(我校第一个)、省级品牌专业。专业基本涵盖了机械制造领域热加工技术所有领域,分为铸造、锻压、焊接、聚合物成型、热处理五个专业方向。本专业培养具备有较强材料加工和模具设计能力,能够从事材料加工工程领域及计算机应用领域的科学研究、技术开发、设计制造、试验研究、企业管理和经营等方面工作的高素质复合型人才。

主要专业课程有:工程制图、工程力学、公差与技术测量、机械原理、机械设计、电工与电子学、C语言程序设计、微机原理及接口技术、检测技术与控制工程基础、材料成形原理、模具设计CAD/CAM技术、材料科学基础,各研究方向的专业课等。 3、热能与动力工程 该专业为江西省品牌专业,是国家未来20年就业面最宽的专业之一.主要培养从事汽车动力工程、制冷与低温技术、暖通空调,能源与环境工程、电厂热能动力、燃气工程、船舶、流体机械等方面的高级工程技术人才。同时本专业还拥有动力工程与工程热物理一级学科硕士点。 主要专业课程有:工程热力学、传热学、流体力学、工程力学、机械设计基础、微机原理与接口技术、热工测试技术、汽车构造、发动机原理、汽车电子控制技术、制冷原理、空气调节、供热工程、锅炉原理、发电厂热力设备及系统、新能源及可再生能源技术等。 学生毕业后可在汽车制造、制冷空调设备、建筑环境与设备、热力发电等相关企事业单位和科研院所从事产品研发、设计、制造与营销、教学等工作。本专业设有“昌大空调助学奖学金”,奖励热能与动力工程专业的在校统招本科生和当年第一志愿填报该专业的新生。 4、车辆工程 车辆工程专业培养具有现代汽车设计、制造、研究及服务等方面工作能力的开拓性高级专门人才。本专业目前设有汽车设计、汽车电器与电子控制技术、汽车覆盖件成型等主要专业方向,要求学生在四年的学习过程中,在打好宽广的学科基础之上,理论与实践紧密结合,学好汽车专业的主要专业课程,受到汽车工程师的专门训练。同时本专业还拥有江西省汽车电子工程技术研究中心,车辆工程硕士点。 本专业开设的主要学科基础课有:工程力学、工程制图、电工与电子技术、机械设计基础、微机原理与接口技术、控制工程基础等。开设的主要专业课程有:汽车构造、汽车发动机原理、汽车理论、汽车电器与电子控制技术、汽车设计、汽车制造工艺、汽车检测技术、汽车车身结构

DNA序列分类

DNA序列分类 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。 虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。 作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题: 1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,11-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):A类;B类。 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。 2)在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列,它们都较长。用你的分类方法对它们进行分类,像1)一样地给出分类结果。 提示:衡量分类方法优劣的标准是分类的正确率,构造分类方法有许多途径,例如提取序列的某些特征,给出它们的数学表示:几何空间或向量空间的元素等,然后再选择或构造适合这种数学表示的分类方法;又例如构造概率统计模型,然后用统计方法分类等。 Art-model-data 1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggc cggaagtgaagggggatatgaccgcttgg 2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctg gaacaaccggacggtggcagcaaagga 3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggaggaa ggagggcggcaatcggtacggaggcggcgga 4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaaatttgtattattatggt atcataaaaaaaggttgcga 5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcggaaaggcg gagggctggcaggaggctcattacggggag 6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagtggatattag gagggcggaataaaggaacggcggcaca

历年全国数学建模试题及其解法归纳

历年全国数学建模试题及解法归纳 赛题解法 93A非线性交调的频率设计拟合、规划 93B足球队排名图论、层次分析、整数规划94A逢山开路图论、插值、动态规划 94B锁具装箱问题图论、组合数学 95A飞行管理问题非线性规划、线性规划 95B天车与冶炼炉的作业调度动态规划、排队论、图论96A最优捕鱼策略微分方程、优化 96B节水洗衣机非线性规划 97A零件的参数设计非线性规划 97B截断切割的最优排列随机模拟、图论 98A一类投资组合问题多目标优化、非线性规划98B灾情巡视的最佳路线图论、组合优化 99A自动化车床管理随机优化、计算机模拟 99B钻井布局0-1规划、图论 00A DNA序列分类模式识别、Fisher判别、人工 神经网络 00B钢管订购和运输组合优化、运输问题 01A血管三维重建曲线拟合、曲面重建

赛题解法 01B 公交车调度问题多目标规划 02A车灯线光源的优化非线性规划 02B彩票问题单目标决策 03A SARS的传播微分方程、差分方程 03B 露天矿生产的车辆安排整数规划、运输问题 04A奥运会临时超市网点设计统计分析、数据处理、优化04B电力市场的输电阻塞管理数据拟合、优化 05A长江水质的评价和预测预测评价、数据处理 05B DVD在线租赁随机规划、整数规划 06A出版社书号问题整数规划、数据处理、优化06B Hiv病毒问题线性规划、回归分析 07A 人口问题微分方程、数据处理、优化07B 公交车问题多目标规划、动态规划、图 论、0-1规划 08A 照相机问题非线性方程组、优化 08B 大学学费问题数据收集和处理、统计分 析、回归分析 2009年A题制动器试验台的控制方法分析工程控制 2009年B题眼科病床的合理安排排队论,优化,仿真,综 合评价 2009年C题卫星监控几何问题,搜集数据

DNA序列的分类与判别分析

DNA序列的分类与判别分析 摘要: 本文对DNA 序列分类问题进行了讨论.。从“不同序列中碱基含量不同”入手,建立了欧氏距离判别模型、马氏距离判别模型以及Fisher准则判定模型。接着,本文对三种分类算法进行了对比, 对算法的稳定性进行了讨论。 关键词:DNA分类;欧氏距离;马氏距离;Fisher判别; DNA sequence classification and discriminant analysis MA Fuyu School of Management and Economics, China University of Geosciences, P.R.China, 430074 Abstract: In this paper, the classification of DNA sequences are discussed. From the “content of different base sequence in a different” approach, the establishment of a discriminant model of Euclidean distance, Mahalanobis distance, as well as Fisher discriminant model to determine the model guidelines. Then, this paper three classification algorithms were compared, the stability of the algorithm are discussed. Keywords: DNA taxonomy; Euclidean distance; Mahalanobis distance; Fisher Discriminant 1、问题的重述 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。 虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于

典型环节的模拟研究自动控制实验报告

实验报告 实验课程:自动控制理论 学生姓名: 学号: 专业班级:

2013年12 月20日 南昌大学实验报告 学生姓名:学号:专业班级: 实验类型:■验证□综合□设计□创新实验日期:实验成绩: 典型环节的模拟研究 一、实验要求: 1.了解和掌握各典型环节模拟电路的构成方法、传递函数表达式及输出时域函数表达式 2.观察和分析各典型环节的阶跃响应曲线,了解各项电路参数对典型环节动态特性的影响 二、主要仪器设备及耗材: 1.计算机一台(Windows XP操作系统) 2.AEDK-labACT自动控制理论教学实验系统一套 3.LabACT6_08软件一套 三、实验内容和步骤: 选用虚拟示波器,只要运行LABACT 程序,选择自动控制菜单下的线性系统的时域分析下的典型环节的模拟研究中的相应实验项目,就会弹出虚拟示波器的界面,点击开始即可使用本实验机配套的虚拟示波器(B3)单元的CH1测孔测量波形。具体用法参见用户手册中的示波器部分。 1).观察比例环节的阶跃响应曲线

典型比例环节模拟电路如图3-1-1所示。 图3-1-1 典型比例环节模拟电路 实验步骤:注:‘S ST’不能用“短路套”短接! (1)用信号发生器(B1)的‘阶跃信号输出’和‘幅度控制电位器’构造输入信号(Ui): B1单元中电位器的左边K3开关拨下(GND),右边K4开关拨下(0/+5V阶跃)。阶跃信号输出(B1的Y测孔)调整为4V(调节方法:按下信号发生器(B1)阶跃信号按钮,L9灯亮,调节电位器,用万用表测量Y测孔)。 (2)构造模拟电路:按图3-1-1安置短路套及测孔联线,表如下。 (a)安置短路套(b)测孔联线 (3)运行、观察、记录:(注:CH1选‘×1’档。时间量程选‘×1’档) ①打开虚拟示波器的界面,点击开始,按下信号发生器(B1)阶跃信号按钮(0→+4V阶跃),用示波器观测A6输出端(Uo)的实际响应曲线Uo(t)。

DNA序列分类

DNA序列分类

实验目的 学习利用MATLAB提取DNA序列特征建立向量的方法,掌握利用FCM命令进行DNA 分类的方法,学会做出分类图形直接给出分类结果的MATLAB编程。 知识扩展 DNA序列分类 DNA(Deoxyribonucleic acid),中文译名为脱氧核苷酸,是染色体的主要化学成分,同时也是基因组成的,有时被称为“遗传微粒”。DNA是一种分子,可组成遗传指令,以引导生物发育与生命机能运作。主要功能是长期性的资讯储存,可比喻为“蓝图”或“食谱”。DNA分子是由两条核苷酸链以互补配对原则所构成的双螺旋结构的分子化合物。其中两条DNA链中对应的碱基A-T以双键形式连接,C-G以三键形式连接,糖-磷酸-糖形成的主链在螺旋外侧,配对碱基在螺旋内侧。 FCM算法中样本点隶属于某一类的程度是用隶属度来反映的,不同的样本点以不同的隶属度属于每一类;但是算法中的概率约束∑uij=1使得样本的典型性反映

不出来,不适用于有噪音,样本分布不均衡,存在两个或者两个以上样本分别距两个类的距离相等的样本等等。 欧氏距离( Euclidean distance)也称欧几里得距离,它是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。 公式 在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是 d = sqrt((x1-x2)^+(y1-y2)^) 三维的公式是 d=sqrt(x1-x2)^+(y1-y2)^+(z1-z2)^) 推广到n维空间,欧式距离的公式是 d=sqrt( ∑(xi1-xi2)^ ) 这里i=1,2..n xi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标 n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),...x(n)),其中x(i)(i=1,2...n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)...y(n))之间的距离d(x,y)定义为上面的公式. 欧氏距离判别准则如下: 若dAdB,则将Xi点判为B类 若dA=dB,则将Xi点判为不可判别点。 欧氏距离看作信号的相似程度。距离越近 1.问题的提出 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001以完精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗的全部信息的“天书”,这本大自然写成的“天书”,是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂,破译这部世界上最巨量信息的“天书”是21实际最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课题之一。 2.问题的分析 这是一个比较典型的分类问题,为了表述的严格和方便,我们用数学的方法来重述这个问题。在这里问题的关键就是要从已知的20个字母序列中提取用于分类的特征。知道了这些特征,我们就可以比较容易的,对那些未标明类型的序列进行分类,下面我们将首先对用于分类的标准问题进行必要的讨论。 3.分类的方法 为了在众多可能的分类中寻求合理的分类结果,为此,就要确定合理的聚类准则。定义目标函数为

DNA序列研究数学建模问题

题目 DNA 序列 摘要 本文主要研究DNA 序列的结构问题,通过建立相应的数学模型,对DNA 序列中所隐藏的规律进行研究和分析,给出了解决问题的最优方案,并且对模型进行了评价和推广。 对于问题一,为了挖掘DNA 序列的特征将其分为A 类和B 类,以20种基本氨基酸为目标,利用Matlab 软件编程得出每一行每一种氨基酸出现的概率;再运用主成分分析法进行降维,利用SPSS 软件进行数据处理得到矩阵;然后再将模糊聚类问题转化为如下优化问题: 211 1 min (,)(()) ..1(1,2, 6) 01 n c q ik ik k i c ik i ik J U V u d s t u k u ======≤≤∑∑∑ 用模糊聚类分析方法来获取样本与聚类中心的加权距离最小的最佳分类,使其分 题一相同的方法进行分类,分类结果见问题二的求解。 总的来说,本模型在未知数据特征的情况下很好的将数据进行分类,成功地解决了此次数学建模的DNA 序列问题,是聚类分析问题的一个有效而且具有较强实用性的方法。 关键词:主成分分析 模糊聚类分析 Matlab 软件 Spss 软件

一、问题重述 1.1背景分析 随着DNA测序时代的到来,越来越多生物的全基因组序列正逐渐展现于人们的眼前。如何从中挖掘有用的信息成为对当今生物学乃至整个科学领域的一个挑战。本文主要致力于对DNA序列结构以及序列中所隐藏规律的研究。 1.2问题重述 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。 虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。 作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:问题一:下面有20个已知类别的人工制造的序列(见附录),其中序列标号1—10 为A类,11-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入): A类; B类。 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。

相关文档