文档库 最新最全的文档下载
当前位置:文档库 › 生物信息学名词解释(0001)

生物信息学名词解释(0001)

生物信息学名词解释(0001)
生物信息学名词解释(0001)

生物信息学名词解释

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。

2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。

5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。

6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94

7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98

8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29

9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29

10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影

响,序列中的空位的引入不代表真正的进化事件,所以要对其进行

罚分,空位罚分的多少直接影响对比的结果。P37

11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了

可以找到与查询序列(query)相匹配的随机或无关序列的概率,E

值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的

相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意

义。P95

12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复

度高的区域,如poly(A)。

13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,

Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)

加点,如果两条序列完全相同则会形成一条主对角线,如果两条序

列相似则会出现一条或者几条直线;如果完全没有相似性则不能连

成直线。

14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这

些序列做一个总体的比对,以观察它们在结构上的异同,来回答大

量的生物学问题。

15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而

可以通过分子进化推断出物种起源的时间。

16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或

其他性状,可以研究推断不同物种或基因之间的进化关系。

17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个

父分支都只能被分成两个子分支。

系统发育图:用枝长表示进化时间的系统树称为系统发育图,是

引入时间概念的支序图。

18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中

的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制

证据的情况下,具有共同祖先和相同功能的同源基因。)

19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重

复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于

基因重复事件产生的相似序列。)

20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘

关系的物种。

21.有根树:能够确定所有分析物种的共同祖先的进化树。

22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找

到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,

直到所有的聚类被加入,最终产生树根。

23.邻接法(neighbor-joining method):是一种不仅仅计算两两比

对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行

限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。

24.最大简约法(MP):在一系列能够解释序列差异的的进化树中

找到具有最少核酸或氨基酸替换的进化树。

25.最大似然法(ML):它对每个可能的进化位点分配一个概率,

然后综合所有位点,找到概率最大的进化树。最大似然法允许采用

不同的进化模型对变异进行分析评估,并在此基础上构建系统发育

树。

26.一致树(consensus tree):在同一算法中产生多个最优树,合并

这些最优树得到的树即一致树。

27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多

次重复取样,构建多个进化树,用来检查给定树的分枝可信度。

28.开放阅读框(ORF):开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。

29.密码子偏好性(codon bias):氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致,大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子偏好性。

30.基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界,调控区,预测基因组序列中包含的基因。31.结构域(domain):保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。

32.超家族:进化上相关,功能可能不同的一类蛋白质。

33.模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。

34.序列表谱(profile):是一种特殊位点或模体序列,在多序列比较的基础上,氨基酸的权值和空位罚分的表格。

35.PAM矩阵:PAM指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性,通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对。一个PAM 单位是蛋白质序列平均发生1%的替代量需要的进化时间。36.BLOSUM矩阵:模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如,在BLOSUM62矩阵中,比对的分值来自不超过62%一致率的一组序列。

37.PSI-BLAST:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵(scoring matrix)探测远缘相关的蛋白。38.RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定、

最被人承认的Genbank序列。

39.PDB(Protein Data Bank):PDB中收录了大量通过实验(X射

线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记

录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库

的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键

词搜索,还可以FASTA程序进行搜索。

40.GenPept:是由GenBank中的DNA序列翻译得到的蛋白质序列。

数据量很大,且随核酸序列数据库的更新而更新,但它们均是由核

酸序列翻译得到的序列,未经试验证实,也没有详细的注释。

41.折叠子(Fold):在两个或更多的蛋白质中具有相似二级结构的

大区域,这些大区域具有特定的空间取向。

42.TrEMBL:是与SWISS-PROT相关的一个数据库。包含从EMBL

核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且

这些序列尚未集成到SWISS-PROT数据库中。

43.MMDB(Molecular Modeling Database):是(NCBI)所开发的生

物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自

于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一

个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学

功能、产生功能的机制、分子的进化历史等,还提供生物大分子三

维结构模型显示、结构分析和结构比较工具。

44.SCOP数据库:提供关于已知结构的蛋白质之间结构和进化关系

的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数

据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还

包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。

可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结

构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族

(super family)、家族(family)、单个PDB蛋白结构记录。

45.PROSITE:是蛋白质家族和结构域数据库,包含具有生物学意

义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE

中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子

结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区

域等;PROSITE还包括根据多序列比对而构建的序列统计特征,

能更敏感地发现一个序列是否具有相应的特征。

46.Gene Ontology 协会:编辑一组动态的、可控的基因产物不同方

面性质的字汇的协会。从3个方面描述基因产物的性质,即,分

子功能,生物过程,细胞区室。

47.表谱(PSSM):指一张基于多序列比对的打分表,表示一个蛋

白质家族,可以用来搜索序列数据库。

48.比较基因组学:是在基因组图谱和测序的基础上,利用某个基因

组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、

位置、功能、表达机制和物种进化的学科。

49.简约信息位点:指基于DNA或蛋白质序列,利用最大简约

法构建系统发育树时,如果每个位点的状态至少存在两种,

每种状态至少出现两次的位点。其它位点为都是非简约性信

息位点。

1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学

为基础,应用计算机技术,研究生物学数据的科学。

2、相似性(similarity):两个序列(核酸、蛋白质)间的相关性。

3、同源性(homology):生物进化过程中源于同一祖先的分支之间

的关系。

4、同一性(identity):两个序列(核酸、蛋白质)间未发生变异序列的关系。

5、序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

6、生物数据库检索(database query,数据库查询):对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。

7、生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列。

1. 生物信息学:

1)生物信息学包含了生物信息的获取、处理、分析、和解

释等在内的一门交叉学科;

2)它综合运用了数学、计算机学和生物学的各种工具来进

行研究;

3)目的在于阐明大量生物学数据所包含的生物学意义。2. BLAST(Basic Local Alignment Search Tool)

直译:基本局部排比搜索工具

意译:基于局部序列排比的常用数据库搜索工具

含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库

3. PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA 的相似序列发现率。

4. 一致序列:这些序列是指把多序列联配的信息压缩至单条序列,

主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。

5. HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和

间隔的所有可能的组合来生成一组序列排列。(课件定义)是蛋

白质结构域家族序列的一种严格的统计模型,包括序列的匹配,

插入和缺失状态,并根据每种状态的概率分布和状态间的相互转

换来生成蛋白质序列。

6. 信息位点:由位点产生的突变数目把其中的一课树与其他树区分

开的位点。

7. 非信息位点:对于最大简约法来说没有意义的点。

8. 标度树:分支长度与相邻节点对的差异程度成正比的树。

9. 非标度树:只表示亲缘关系无差异程度信息。

10. 有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯

一的路径历经进化到达其他任何节点。

11. 无根树:只表明节点间的关系,无进化发生方向的信息,通过

引入外群或外部参考物种,可以在无根树中指派根节点。

12. 注释:指从原始序列数据中获得有用的生物学信息。这主要是

指在基因组DNA中寻找基因和其他功能元件(结构注释),并给

出这些序列的功能(功能注释)。

13. 聚类分析:一种通过将相似的数据划分到特定的组中以简化大

规模数据集的方法。

14. 无监督分析法:这种方法没有内建的分类标准,组的数目和类

型只决定于所使用的算法和数据本身的分析方法。

15. 有监督分析法:这种方法引入某些形式的分类系统,从而将表

达模式分配到一个或多个预定义的类目中。

16. 微阵列芯片:将探针有规律地排列固定于载体上,与标记荧光

分子的样品进行杂交,通过扫描仪扫描对荧光信号的强度进行

检测,从而迅速得出所要的信息。

17. 虚拟消化:是基于已知蛋白序列和切断酶的特异性的情况下进

行的理论酶切(课件定义)。是在已知蛋白质序列和蛋白外切酶

之类切断试剂的已知特异性的基础上,由计算机进行的一种

理论上的蛋白裂解反应。

18. 质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)

的方法,从而使分子质量的准确确定成为可能。

质谱分析的两个工具

19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。

20. 虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反

应和物质流的集合体。

21. 先导化合物:是指具有一定药理活性的、可通过结构改造来优

化其药理特性而可能导致药物发现的特殊化合物。就是利用计

算机在含有大量化合物三维结构的数据库中,搜索能与生物大

分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合

物,又称原型物,简称先导物,是通过各种途径或方法得到的

具有生物活性的化学结构

22. 权重矩阵(序列轮廓):它们表示完全结构域序列,多序列联配

中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可

能性均有一定的衡量方法(课件定义)。基础上针对特定的应用

目标而建立的数据库。

23. 系统发育学(phylogenetic):确定生物体间进化关系的科学分

支。

24. 系统生物学(systems biology):是研究一个生物系统中所有

组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下

这些组分间的相互关系,并分析生物系统在一定时间内的动力

学过程

25. 蛋白质组(proteome):是指一个基因组、一种生物或一个细胞

/组织的基因组所表达的全套蛋白质。

26. ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显

降解的质谱技术。

一、名词解释

1.GenBank:是美国全国卫生研究所维护的基因序列数据库,汇

集并注释了所有公开的核酸序列,与日本的DNA数据库DDBJ 以及欧洲分子实验室核酸序列数据库EMBL一起,都是国际核苷酸序列数据库合作的成员。

2.EMBL:EMBL实验室—欧洲分子生物学实验室,EMBL数

据库—是非盈利性学术组织EMBL建立的综合性数据库,EMBL核酸数据库是欧洲最重要的核酸序列数据库,它定期地与美国的GenBank、日本的DDBJ数据库中的数据进行交换,并同步更新。

3.DDBJ:日本DNA数据库,主要向研究者收集DNA序列信息

并赋予其数据存取号,信息来源主要是日本的研究机构,也接受其他国家呈递的序列。

4.BLAST:基本局部比对搜索工具的缩写,是一种序列类似性

检索工具。BLAST采用统计学几分系统,同时采用局部比对算法, BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。

5.BLASTn:是核酸序列到核酸库中的一种查询。库中存在

的每条已知序列都将同所查序列作一对一地核酸序列比对。

6.BLASTp:是蛋白序列到蛋白库中的一种查询。库中存在

的每条已知序列将逐一地同每条所查序列作一对一的序

列比对。

7.Clustsl X:是CLUSTAL多重序列比对程序的Windows版

本,是用来对核酸与蛋白序列进行多序列比较的程序,

也可以对来自不同物种的功能或结构相似的序列进行比

对和聚类,通过重建系统发生树判断亲缘关系,并对序

列在生物进化过程中的保守性进行估计。

8.Entrez:是由NCBI主持的一个数据库检索系统,它包括

核酸,蛋白以及Medline文摘数据库,在这三个数据库

中建立了非常完善的联系。因此,可以从一个DNA序列

查询到蛋白产物以及相关文献,而且,每个条目均有一

个类邻(neighboring)信息,给出与查询条目接近的信

息。

9.SRS(sequence retrieval system):序列查询系统,是EBI提供

的多数据库查询工具之一。有与Entrez类似的功能外,还提

供了一系列的序列分析工具,可以直接进行在线序列分析处

理。

10.SWLSS—MODE:是目前最著名的蛋白质三级结构预测服务

器,建立在已知生物大分子结构基础上,利用同源建模的方法

对未知序列的蛋白质三级结构进行预测。

11.homology modeling:是目前最为成功且实用的蛋白质结构预

测方法,它的前提是已知一个或多个同源蛋白质的结构。当两

个蛋白质的序列同源性高于35%,一般情况下认为他们的三

维结构基本相同。

12.Ab initio prediction:蛋白质三级结构预测方法—从头预测法,

在既没有已知结构的同源蛋白质、也没有已知结构的远程同源

蛋白质的情况下,只能采用从头预测方法,即(直接)仅仅根

据序列本身来预测其结构。

13.molecular phylogenetic tree:分子进化树,精确地反映物种间

或群体间在进化过程中发生的极微细的遗传变异,而且借助化

石提供的大分子类群的分化年代能定量地估计出物种间或群

体间的分化年代。

14.gene tree:基因树,表示一组基因或一组DNA顺序进化关系

的系统发生树。

15.neighbor—joining method:邻接法,基于最小进化原理经常

被使用的一种算法,它不检验所有可能的拓扑结构,能同时给

出拓扑结构和分支长度。在重建系统发生树时,认为在进化分

子上,发生趋异的次数可以不同,它是最有效的的基于距离数

据重建系统树的方法之一。

16.maximum parsimony method:最大简约法基于进化过程中所

需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确

的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作

为最优系统树。

17.MEGA(Molecular Evolutionary Genetics Analysis):是一款免

费的构树软件,它提供了序列比对、格式转换、数据修订、距

离计算、系统树重建和可信度评估等全套功能,能对DNA、

mRNA氨基酸序列及遗传距离进行系统发生分析以及基因分

化年代的分析。

18. BioEdit:BioEdit是一个序列编辑器与分析工具软件。功能包

括:序列编辑、外挂分析程序、RNA分析、寻找特征序列、

支持超过20000个序列的多序列文件、基本序列处理功能、

质粒图绘制等等。

19.EST:表达序列标签—是从一个随机选择的cDNA 克隆,

进行5’端和3’端单一次测序挑选出来获得的短的cDNA 部分序列,代表一个完整基因的一小部分

20.GSS:基因组勘测序列,是基因组DNA克隆的一次性部

分测序得到的序列。包括随机的基因组勘测序列、

cosmid/BAC/YAC末端序列、通过Exon trapped获得基

因组序列、通过Alu PCR获得的序列、以及转座子标记

(序列等。

21.ORF:核酸序列的开放阅读框,一个ORF就是一个潜在的蛋

白质编码区。

22.promoter:启动子,是RNA聚合酶识别、结合并开始转录所

必需的一段DNA序列。

23.3’UTR:3’非翻译区的缩写,真核生物的转录终止信号是在3’

非翻译区的polyA。

24.CpG island:是DNA上的一个区域,富含GC,两者以磷酸

酯键相连,长度约几百到几千bp不等,常出现在管家基因或频繁表达的基因的启动子附近,在这些部位,CpG岛具有阻止序列甲基化的作用。

25.coiled coil:卷曲螺旋,是蛋白质中由2~7条α螺旋链相互缠

绕形成类似麻花状结构的总称。卷曲螺旋是控制蛋白质寡聚化的元件,在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。

26.heptad repeat:七肽重复区是典型的卷曲螺旋结构类型之一,

由多个七肽单元连接而成的重复序列。

27.structure domain:结构域,是在蛋白质三级结构中介于二级

和三级结构之间的可以明显区分但又相对独立的折叠单元,每

个结构域自身形成紧实的三维结构,可以独立存在或折叠,但

结构域与结构域之间关系较为松散。

28.motif:又称模体,实序列中局部的保守区域,或者是一组序

列中共有的一小段序列模式。通常由2、3个二级结构单位组

成,一般为α螺旋、β折叠和环。motif作为结构域中的亚单

位,表现结构域的各种生物学功能。

29.linux operating system:linux操作系统,Linux是一类Unix

计算机操作系统的统称。Linux操作系统也是自由软件和开放

源代码发展中最著名的例子。

30.BioPerl:是Perl语言专门用于生物信息学、基因组学及其他

生命科学领域的工具与函数模块集。

31.PubMed:是一个免费的生物医学文摘数据库,提供部分

论文的摘要及指向全文的链接。作为Entrez 资讯检索

系统的一部分。

32.PDB(Protein Data Bank):PDB是目前最主要的收集生物

大分子(蛋白质、核酸和糖)三维结构的数据库,允许用

户用各种方式以及布尔逻辑组合(AND、OR和NOT)进

行检索。

33.HGP(human genome project);人类基因组计划,1990年由美

国能源部(DOE)和国立健康研究院(NIH)资助的一个研究计

划。目的是:①鉴定出人类的所有基因;②确定构成人类基

因组的约30亿个碱基对的序列;③将上述信息储存于专门的

数据库中,并开发出相应的分析工具;④研究由此而产生的

伦理、法律和社会问题并提出相应对策。

34.ncRNA:非编码RNA,是指没有编码蛋白质功能的所有RNA,

它缺乏开放阅读框,常由编码蛋白质的基因反转录而来。

35.miRNA:是一类小的非编码单链RNA,由19~25个核苷酸构

成,广泛存在于动植物中,调节着基因表达。

Silicon cloning:利用公共数据库信息, 借助计算机软件分析, 推测

目的基因的编码区序列, 辅助全长cDNA克隆的方法

BLAST:即基本局域联配搜索工具,Basic Local Alignment Search

Tool,是一个局部比对搜索工具,用来确定一条查询序列和一个数

据库的比对,最早的版本不引入间隙,但现在所用的版本已经允许

比对中引入间隙。

Entrez :是由NCBI 主持的一个数据库检索系统,它包括核酸,

蛋白以及Medline 文摘数据库,在这三个数据库中建立了非常完善

的联系。因此,可以从一个DNA 序列查询到蛋白产物以及相关

文献,而且,每个条目均有一个类邻(neighboring)信息,给出与查

询条目接近的信息。Entrez 中的数据库包括:Entrez 中核酸数

据库为:GenBank, EMBL, DDBJ 蛋白质数据库为:Swiss-Prot, PIR,

PFR, PDB

PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST 和FASTA

的相似序列发现率。

ORF:开放阅读框(ORF)是基因序列的一部分,包含一段可以编

码蛋白的碱基序列,不能被终止子打断。编码一个蛋白质的外显子

连接成为一个连续的ORF。当一个新基因被识别,其DNA 序列

被解读,人们仍旧无法搞清相应的蛋白序列是什么。这是因为在没

有其它信息的前提下,DNA 序列可以按六种框架阅读和翻译(每

条链三种,对应三种不同的起始密码子)ORF 识别包括检测这六

个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA 。

序列而其内部不包含启动子或终止子,符合这些条件的序列有可能

对应一个真正的单一的基因产物。ORF 的识别是证明一个新的

DNA 序列为特定的蛋白质编码基因的部分或全部的先决条件。相似性(similarity)/(identify):相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。

生物数据库检索(database query,数据库查询):对序列,结构以及各种二次数据库中的注释信息进行关键词匹配查找.

生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列.

E 值:对某个已识别出的相似度值S,E 值是分值大于等于S 的期望频率,改值可以被理解为期望随机得到等于S 或大于S 值的分值数目。

序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列.

同源性(homology):生物进化过程中源于同一祖先的分支之间的关系.

Refseq:美国国家生物信息技术中心(NCBI)提供了具有生物意义上的非冗余的基因和蛋白质序列的RefSeq参考序列数据库。

3’UTR:3’非翻译区的缩写,真核生物的转录终止信号是在3’非翻译区的:polyA。

CpG island:是DNA 上的一个区域,富含GC,两者以磷酸酯键相连,长度:约几百到几千bp 不等,常出现在管家基因或频繁表达的基因的启动子附近,在这些部位,CpG 岛具有阻止序列甲基化的作用。

GSS:基因组勘测序列,是基因组DNA 克隆的一次性部分测序得到的序:cosmid/BAC/YAC 末端序列、通过Exon 列。包括随机的基因组勘测序列、trapped 获得基因组序列、通过Alu PCR 获

得的序列、以及转座子标记(序列等。

EST:表达序列标签—是从一个随机选择的cDNA 克隆,进行5’

端和3’端单一次测序挑选出来获得的短的cDNA 部分序列,代表

一个完整基因的一小部分.。

MEGA(Molecular Evolutionary Genetics Analysis):是一款免费的

构树软件,:它提供了序列比对、格式转换、数据修订、距离计

算、系统树重建和可信度mRNA 氨基酸序列及遗传距离进行系统

发生分评估等全套功能,能对DNA、析以及基因分化年代的分

析。

maximum parsimony method:最大简约法基于进化过程中所需核

苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结

构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树。

neighbor—joining method:邻接法,基于最小进化原理经常被使用

的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构

和分支长度。在重建系统发生树时,认为在进化分子上,发生趋异

的次数可以不同,它是最有效的的基于距离数据重建系统树的方法

之一。

molecular phylogenetic tree:分子进化树,精确地反映物种间或群

体间在进:化过程中发生的极微细的遗传变异,而且借助化石提

供的大分子类群的分化年代能定量地估计出物种间或群体间的分

化年代。

Domain :功能域。蛋白质中具有某种特定功能的部分,它在序列

上未必是连续的。某蛋白质中所有功能域组合其起来决定着该蛋白

质的全部功能。

EMBL:EMBL 实验室—欧洲分子生物学实验室,EMBL 数据库

—是非盈利:性学术组织EMBL 建立的综合性数据库,EMBL

核酸数据库是欧洲最重要的核酸序列数据库,它定期地与美国的

GenBank、日本的DDBJ 数据库中的数据进行交换,并同步更新。

BLAST :Basic Local Alignment Search Tool,基本的基于局部对

准的搜索工具;一种快速查找与给定序列具有连续相同片断的序列

的技术。

SRS(sequence retrieval system):序列查询系统,是EBI 提供的多

数据库查询:工具之一。有与Entrez 类似的功能外,还提供了

一系列的序列分析工具,可以直接进行在线序列分析处理。

dynamic programming:动态规划程序;它将一个问题合理分解成

一些小的子问题,然后利用部分计算解得到最终答案。

Match score maximum likelihood approach methylation microarray

microsatellite MIAME(the minimum information about a

microarray experiment) minisatellite mismatch score molecular

clock匹配得分最大似然法:序列比较算法对相同字符匹配设置的得

分。指在一系列的序列比对中,考虑每一个字符被替代的概率的一

种系统发生学方法;也是一种基于纯统计的系统发生重建方法。一

个甲基( —CH 3 ) 附着在一个核苷酸的含氮碱基或者蛋白质

上。在一个固体基片上的已知位置固定了DNA 探针的有序阵列。

在基因组中很多非常短的核酸序列出现的区域,例如串接出现 5

‘-CA-3‘的重复序列;通常在个体间变化很大。

PAM unit:PAM 单位是一种进化单位;特别地,指被观察的对象

中每100 个残基发生一个替换所需要的平均进化时间。对两条序

列进行编辑操作,通过字符匹配和替换,或者插入和删除。

PubMed:是一个免费的生物医学文摘数据库,提供部分论文的摘

要及指:向全文的链接。作为Entrez 资讯检索系统的一部分。

motif:又称模体,实序列中局部的保守区域,或者是一组序列中共有的一小:段序列模式。通常由2、个二级结构单位组成,3 一般为α螺旋、β折叠和环。motif 作为结构域中的亚单位,表现结构域的各种生物学功能。

tructure domain:结构域,是在蛋白质三级结构中介于二级和三级结构之间:的可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。

coiled coil:卷曲螺旋,是蛋白质中由2~7 条α螺旋链相互缠绕形成类似麻花状结构的总称。卷曲螺旋是控制蛋白质寡聚化的元件,在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。

NCBI :美国国立生物技术信息中心(National Center for Biotechnology Information),1988 年设立,为美国国家医学图书馆(NLM)和国家健康协会(NIH)下属部门之一。提供生物医学领域的信息学服务,如世界三大核酸数据库之一的GenBank 数据库,PubMed 医学文献检索数据库等。。

Conserved sequence :保守序列。演化过程中基本上不变的DNA 中的碱基序列或蛋白质中的氨基酸序列。

Tandem repeat sequences:串联重复序列。染色体上同一碱基序列的多拷贝重复,在物理作图中用作标记物。

Sequence tagged site:序列示踪位点,简写为STS。在人类基因组中只出现一次的位置和序列已知的长约200到500bp的短DNA序列片断。由于可以通过PCR检测到,STS在将来源于许多不同实验室的

基因图谱和测序数据进行定位和定向时非常有用,并且STS在人类基因组的物理图谱中也具有界标的作用。表达的序列标签(ESTs)

就是那些得自cDNAs的STSs。

Gene mapping:基因作图。对DNA分子(染色体或质粒)中基

因的相对位置和距离进行确定的过程。

Physical map :物理图谱。不考虑遗传,DNA 中可识别的界标(如

限制性酶切位点和基因等)的位置图。界标之间的距离用碱基对度

量。对人类基因组而言,最低分辨率的物理图谱是染色体上的条带

图谱;最高分辨率的物理图谱是染色体中完整的核苷酸序列。

UniGene :美国国家生物技术信息中心提供的公用数据库,该数

据库将 GenBank 中属于同一条基因的所有片断拼接成完整的基因

进行收录。非蛋白质编码区:非蛋白质编码区(“Junk”DNA)占据

了人类基因组的大部分,研究表明“Junk”是许多对生命过程富有

活力的不同类型的 DNA 的复合体,它们至少包括以下类型的 DNA

成份或由其表达的 RNA 成分:内含子(intron)、卫星(Satellite)

DNA、小卫星(minisatellite)DNA、微卫星(microsatellite)

DNA、非均一核 RNA (hmRNA)短散置元、(short interspersed

elements)长散置元、(long interspersed elements)、伪基

因(pseudogenes)等。除此之外,顺式调控元件,如启动子、增强

子等也属于非编码序列。

PAM方阵:指的是氨基酸置换矩阵,属于打分矩阵,用序列相似的

一组蛋白质的对位排列来确定单步氨基酸变化,以此来预测进化过

程中大部分可能的氨基酸变化。

BLAST(Basic Local Alignment Search Tool):基于局部序列排比

的常用数据库搜索工具。

二级数据库:对于原始生物分子进行整理、分类的结果。是在一级

数据库、实验数据和理论分析的基础上针对特定的应用目标而建立

的(存放从初级数据库派生而来的序列信息的数据库)

权重矩阵:基础上针对特定的应用目标而建立的数据库。

标度树(scaled tree):分支长度与相邻节点对的差异程度成正比

的树。

rooted tree有根树:含有一个被认为是公共祖先的节点、并且该节

点到其他节点只存在唯一路径的一棵系统发生树。

无根树(unrooted tree):只表明节点间的关系,无进化发生方向

的信息,通过引用外群或外部参照物种,可以在无根树中指派跟节

点。(一种系统发育树,所有在树中的种系的最后共同祖先不显示。)

信息位点:由位点产生的突变数目把其中的一颗树与其他树区分开

的位点。在这个位点上至少有两种不同的核苷酸,且这些核苷酸至

少出现两次。

HMM(隐式马尔科夫模型):一种统计模型,它考虑有关匹配,错配

和间隔的所有可能的组合来产生一组序列排列。①

距离法:首先通过各个物种之间的比较,根据一定的假设(进

化距离模型)推导得出分类群之间的进化距离,构建一个进化距离

矩阵。其次基于这个矩阵中的进化距离关系构建进化树。

近邻:任意一颗无根树中仅被一个内部节点分隔的一对物种。

序列注释:是指从原始序列数据中获得有用的生物学信息。这主要

是指基因组DNA中寻找基因和其他功能元件(结构注释),并给出这

些序列的功能(功能注释)。

系统发育学(phylogenetic):确定生物体间进化关系的科学分支。

系统生物学(systems biology):是研究一个生物系统中所有组分

成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分

间的相互关系,并分析生物系统在一定时间内的动力学过程。

分子途径:指一组连续起作用以到共同目标的蛋白质。

折叠识别法:寻找与已知蛋白最合适的模板,进行结构和序列比对,最终建立机构模型。

又称为线索化方法。(另一版本:先假设一个特定的蛋白构象,然后对这一构象进行评估的过程。)

蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。

虚拟筛选:针对重要疾病特定靶标生物大分子的三维结构或定量构效关系(Quantitative structure-activity relationships,QSAR)模型,从现有小分子数据库中,搜寻与靶标生物大分子结合或符合QSAR模型的化合物,进行筛选实验研究。

生物信息学作业

生物信息学试题 1、构建分子系统树得主要方法有哪些?并简要说明构建分子进化树 得一般步骤。(20分) 答:(1)构建进化树得方法包括两种:一类就是序列类似性比较,主要就是基于氨基酸相对突变率矩阵(常用PAM250)计算不同序列差异性积分作为它们得差异性量度(序列进化树);另一类在难以通过序列比较构建序列进化树得情况下,通过蛋白质结构比较包括刚体结构叠合与多结构特征比较等方法建立结构进化树 (2)序列比对——选取所需序列——软件绘制 具体如下: a测序获取序列或者在NCBI上搜索所需得目得序列 b在NCBI上做blast:比对相似度较高得基因,并以fast格式下载,整合在*txt文档中。 c比对序列,比对序列转化成*meg格式 d打开保存得*meg格式文件,构建系统进化树 2、氨基酸序列打分矩阵PAM与BLOSUM中序号有什么意义?它们各自 得规律就是什么?(10分) (1)PAM矩阵:基于进化得点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个PAM就就是一个进化得变异单位, 即1%得氨基酸改变。 BLOSUM矩阵:首先寻找氨基酸模式,即有意义得一段氨基酸片断,分别比较相同得氨基酸模式之间氨基酸得保守性(某种氨基酸对另一种氨基酸得取代数据),然后,以所有60%保守性得氨基酸模式之间得比较数据为根据,产生BLOSUM60;以所有80%保守性得氨基酸模式之间得比较数据为根据,产生BLOSUM80。

(2)PAM用于家族内成员相比,然后把所有家族中对某种氨基酸得比较结果加与在一起,产生“取代”数据(PAM-1 );PAM-1自乘n次,得PAM-n。 PAM-n中,n 越小,表示氨基酸变异得可能性越小;相似得序列之间比较应该选用n值小得矩阵,不太相似得序列之间比较应该选用n值大得矩阵。PAM-250用于约 20%相同序列之间得比较。 BLOSUM-n中,n越小,表示氨基酸相似得可能性越小;相似得序列之间比较应该选用 n 值大得矩阵,不太相似得序列之间比较应该选用n值小得矩阵。BLOSUM-62用来比较62%相似度得序列,BLOSUM-80用来比较80%左右得序列。 3、蛋白质三维结构预测得主要方法有哪些?试选择其中得一种方 法,说明蛋白质三维结构预测得一般步骤。(10分) (1) a同源建模(序列相似性低于30%得蛋白质难以得到理想得结构模型 b折叠识别(已知结模板得序列一致率小于25%) c从头预测得方法(无已知结构蛋白质模板)。 (2) 4、您所熟悉得生物信息学软件有哪些?请选择其中得至少一种软 件,结合自己得研究课题,谈谈您所选择软件得基本原理,使用

生物信息学期末考试重点

第一讲 生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。 生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。 生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。 生物技术与生物信息学的区别及联系 生物信息学的发展历史 ?人类基因组计划(HGP) ?人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。 :

】 第二讲回顾细胞结构 细胞是所有生命形式结构和功能的基本单位 细胞组成 细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构 细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器 细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等 细胞核最大的细胞器 DNA的结构 碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G) 。 核苷酸 核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊 糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就 是A、T、C、G 基因是什么 基因是遗传物质的基本单位 基因就是核苷酸序列。 大部分的基因大约是1000-4000个核苷酸那么长。 基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。 基因在染色体上。

生物信息学作业1实验2

上海师范大学实验报告 实验二 一、实验原理 答:利用Blast全球联网数据库,对输入的序列进行生物信息学分析,给出与输入序列相关性最大的对应的基因信息,比较两者的同源性。 二、操作步骤 答:(1)先打开网址https://www.wendangku.net/doc/2e1834238.html,/ (2)点击右边的Blast链接,打开Blast数据库,进入Blast界面 (3)在Basic Blast中选择nucleotide blast (4)在对话框中输入核苷酸序列,在choose search set下的Database选项中选择Others (nr etc.) (5)把网页拉到最下方,点击Blast按钮 (6)在Descriptions 栏下找到Max ident 百分率最高的序列名称 (7)再往下拉,找到Alignments项下第一个序列,可以找到输入序列相关信息 (8)点击Accession,即能找到更多输入序列的相关信息。 1. tttcactcca tagttactcc ccaggtga 1.1它属于哪类生物? 答:属于Hepatitis C virus (丙型肝炎病毒) 1.2它属于哪类基因? 答:属于non-structural protein 5B gene 1.3它在该基因的什么位置? 答:它在该基因的第749-776这个位置。 1.4它与你搜索到的序列的同源性(Identities)是多少? 答:同源性100% 2.(1)ccacccactg aaactgcaca gacaaatttg tacataagag 1.1它属于哪类生物? 答:属于Influenza A virus (A/chicken/Iran261/01(H9N2)) hemagglutinin (HA) gene (A型流感病毒,A型伊朗型261鸡流感病毒,H9N2病毒,血细胞凝集素抗原基因为依据) 1.2它属于哪类基因? 答:属于ssRNA negative-strand viruses Orthomyxoviridae (单链RNA,负义链病毒,正粘病毒科) 1.3它在该基因的什么位置? 答:它在该基因的第1-40这个位置 1.4它与你搜索到的序列的同源性(Identities)是多少?

生物信息学复习题及答案

生物信息学复习题 名词解释 1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。 (直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。 (旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。 (异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。 Score:The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。 6.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。 值:得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP(高分片段对)得分的期望分布联系起来计算的。通常使用低于来定义统计的显著性。P=1-e-E 9.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法,是序列相似性分析的基础,其不同的选择将会出现不同的分析结果。 10.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 :美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有BLAST, Entrez ,GenBank等工具,还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 序列格式:是将DNA或者蛋白质序列表示为一个带有大于号(>)开始的核苷酸或者氨基酸序列的新文件,其中大于号后可以跟上序列的相关信息,其他无特殊要求。 13genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释,主要包含生物功能或数据库信息;第三部分是feature,对序列的注释;第四部分是序列本身,以“统发生树(Phylogenetic tree )是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系,是一种亲缘分支分类方法。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。是用来研究物种进化与多样性的基础,是相近物种相关生物学数据的来源。17.基因树与物种树:物种树反映一组物种进化历程的系统树,其中每一个内部节点就代表一个物种形成的过程,而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树,而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学 广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。 狭义:生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构 蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因 基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则 是指遗传信息从传递给,再从RNA传递给,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较 序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异 目的: 相似序列相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 7、一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 8、基因识别 基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。 9、系统发生学 系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

生物信息学课程作业

生物信息学作业 1. Align the leghemoglobin protein from soy bean and myoglobin from human with global and local alignment software (ex. needle and water) respectively and interpret the results. ANSWER: (1)Use Needle to Align the two sequence: Aligned_sequences: 2 # 1: CAA38024.1 # 2: NP_001157488.1 # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # Length: 203 # Identity: 43/203 (21.2%) # Similarity: 58/203 (28.6%) # Gaps: 90/203 (44.3%) # Score: 30.0 (2)Use Water to Align the two sequence: Aligned_sequences: 2 # 1: CAA38024.1 # 2: NP_001157488.1 # Matrix: EBLOSUM62 # Gap_penalty: 14 # Extend_penalty: 4 # Length: 32 # Identity: 11/32 (34.4%) # Similarity: 15/32 (46.9%) # Gaps: 0/32 ( 0.0%) # Score: 35 两种软件虽然使用同一罚分标准但得分不同。因为Needle程序实现标准pairwise全局比对,而Water则是局部比对。全局比对因为是比对全长序列,所以空位罚分多,得分较局部比对低。

生物信息学名词解释资料

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影 响,序列中的空位的引入不代表真正的进化事件,所以要对其进行 罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了 可以找到与查询序列(query)相匹配的随机或无关序列的概率,E 值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的 相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意 义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复 度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列, Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y) 加点,如果两条序列完全相同则会形成一条主对角线,如果两条序 列相似则会出现一条或者几条直线;如果完全没有相似性则不能连 成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这 些序列做一个总体的比对,以观察它们在结构上的异同,来回答大 量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而 可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或 其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个 父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是 引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中 的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制 证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重 复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于 基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘 关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找 到距离最近的两类将其归为一类,定义为一个节点,重复这个过程, 直到所有的聚类被加入,最终产生树根。 23.邻接法(neighbor-joining method):是一种不仅仅计算两两比 对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行 限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法(MP):在一系列能够解释序列差异的的进化树中 找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法(ML):它对每个可能的进化位点分配一个概率, 然后综合所有位点,找到概率最大的进化树。最大似然法允许采用 不同的进化模型对变异进行分析评估,并在此基础上构建系统发育 树。 26.一致树(consensus tree):在同一算法中产生多个最优树,合并 这些最优树得到的树即一致树。 27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多 次重复取样,构建多个进化树,用来检查给定树的分枝可信度。 精品文档

生物信息学试题整理

UTR的含义是(B ) A.编码区 B. 非编码区 C. motif的含义是(D )。 A.基序 B. 跨叠克隆群 C. algorithm 的含义是(B )。 A.登录号 B. 算法 C. RGR^ (D )。 A.在线人类孟德尔遗传数据 D.水稻基因组计划 下列Fasta格式正确的是(B) 低复杂度区域 D. 幵放阅读框 碱基对 D. 结构域 比对 D. 类推 B. 国家核酸数据库 C. 人类基因组计划 A. seql: agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta B. >seq1 agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta C. seq1:agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta D. >seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta 如果我们试图做蛋白质亚细胞定位分析,应使用(D) A. NDB 数据库 B. PDB 数据库 C. GenBank 数据库 D. SWISS-PROT 数

据库 Bioinformatics 的含义是(A )。 A. 生物信息学 B. 基因组学 C. 蛋白质组学 D. 表观遗传学 Gen Bank中分类码PLN表示是(D )。 A.哺乳类序列 B. 细菌序列 C.噬菌体序列 D. 植物、真菌和藻类序列 ortholog 的含义是(A)0 A.直系同源 B.旁系同源 C.直接进化 D.间接进化 从cDNA文库中获得的短序列是(D )o A. STS B. UTR C. CDS D. EST con tig的含义是(B )o A.基序 B. 跨叠克隆群 C. 碱基对 D. 结构域 TAIR (AtDB)数据库是(C)o A.线虫基因组 B. 果蝇基因组 C. 拟南芥数据库 D. 大肠杆菌基因组ORF的含义是(D )o A.调控区 B. 非编码区 C.低复杂度区域 D. 幵放阅读框

《生物信息学》上机作业

《生物信息学》上机作业 题目:对人血红蛋白(HBA1)编码基因序列的生物信息分析

目录 引言 .............................................................................................................................................. - 1 -1 正文......................................................................................................................................... - 2 - 1.1 NCBI上对相关核苷酸序列的查找............................................................................ - 2 - 1.2 BLAST运行及其结果.................................................................................................. - 2 - 1.3 BLASTX运行及其结果................................................................................................ - 6 - 2 其他软件的运行及其结果..................................................................................................... - 8 - 2.1 Clustal W运行及其结果 ............................................................................................. - 9 - 2.2 MEGA4.0运行及其结果............................................................................................. - 10 -结论 ............................................................................................................................................ - 10 -

生物信息学名词解释(原创)

名词解释(笔者承认偷了点懒,只是把能在网上找到的都整合在一张上面了,此整理仅适合开卷考试) 基因表达(gene expression):基因通过转录和翻译,产生蛋白质产物和直接转录RNA参与生物功能的过程。 基因调控:涉及基因的启动关闭、活性的增加或减弱,发生在转录阶段、转录后加工阶段和翻译阶段。 负调控(Negative control):阻遏蛋白(repressor protein)结合在受控基因上时不表达,不结合时就表达的形式。 正调控(Positive control):基因表达的活化物( activators )结合在受控基因上时,激活基因表达,不结合时就不表达的形式。 一次数据库:记录实验的结果和一些初步的解释。 二次数据库:对一次数据库的数据进行分析和提炼加工后形成的、便于使用的数据库。 空位罚分 (gap penalty ):序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分,以控制空位插入的合理性。 Consensus sequence:共有序列,指多种原核基因启动序列特定区域内,通常在转录起始点上游-10及-35区域存在一些相似序列。 FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 Similarity相似性:是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。 genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。 查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。 打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。 空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 PDB:PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。 Prosite:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。 PIR:是一个集成了关于蛋白质功能预测数据的公共资源的数据库,其目的是支持基因组蛋白质研究。SWLSS—MODE:是目前最著名的蛋白质三级结构预测服务器,建立在已知生物大分子结构基础上,利用同源建模的方法对未知序列的蛋白质三级结构进行预测。 E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。 点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解 释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计 算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技 术而揭示大量而复杂的生物数据所赋有的生物学奥秘。 2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于 距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后, 数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方 式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数 据存储的大型数据库系统都在各个方面得到了广泛的应用。 3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短 的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。EST 来源于一定环境下一个组织总 mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。 4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。 ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个 真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编 码基因的部分或全部的先决条件。 5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进 一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基 本结构。蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理 功能的必要基础。 6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别 DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因, 也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基 因组研究的基础。

生物信息学作业

CDK2基因和蛋白质序列的生物信息学分析 姓名: 学号: 专业: 1前言 细胞周期蛋白依赖激酶2(cyclin-dependent kinase 2,CDK2),又名细胞分裂激酶2(cell division kinase 2)或p33蛋白激酶(p33 protein kinase),其基因定位于人类基因组的12号染色体上的q13染色带上。CDK2基因全长6013bp,这部分中有7个外显子和6个内含子,7个外显子的长度依次为353bp、78bp、121bp、171bp、102bp、204bp、1264bp(可依次记为外显子1-7)。在翻译过程中,该基因转录成的mRNA的外显子1的前137bp和外显子7的后1159bp不进行翻译,属于调控序列。mRNA上只有中间的部分编码蛋白质。 CDK2基因可以转录为两种mRNA。其中,变体1长度为2325bp,编码298个氨基酸;变体2长度为2223bp,编码264个氨基酸。这两种蛋白质为CDK2的同型蛋白,功能相同,具有调控细胞分裂的功能,主要在G1期到S期和S期到G2期这两个阶段起作用。CDK2广泛分布在生物体的各种细胞的胞质溶胶和细胞核质中,但只在进行分裂的细胞中行使功能,这是因为CDK2只有与不同的细胞周期蛋白(cyclin)结合后才具有活性。CDK2可以与细胞周期蛋白A、B1、B3、E等结合后,参与细胞周期调控。由于CDK2在细胞内的数量变化有可能导致细胞周期异常而产生癌症,故CDK2基因可以被看作癌基因,其活性和表达量可以作为衡量癌症的指标。CDK2与周期蛋白E的复合体不仅能直接参与中心体复制的起始调控,还能与类Rb蛋白p107或转录因子E2F结合,促进细胞从G1期向S期转化或调控DNA复制有关的基因转录。而CDK2与周期蛋白A的复合体可以增强DNA复制因子RF-A的活性。 在CDK2分子中,被称为T环的氨基酸环阻断了活性部位,妨碍激酶履行它的酶功能,而且活性部位的氨基酸形成一种难于为蛋白质结合的形状。CDK2与周期蛋白结合时,周期蛋白将T环转出2nm以上,又将CDK2中的PSTAIRE螺旋部分转了, 并把活性部位氨基酸变成能与底物蛋白结合的正确构象。CDK2的活性不仅与周期蛋白有关,还与其上的Thr-15、Tyr-15、Thr-160三个位点是否磷酸化有关。一般情况下,与周期蛋白结合的CDK2的上述三个位点被Wee/Mik1和CAK激酶磷酸化,但此时复合体还没有活性,只有当Cdc25c将Thr-15、Tyr-15两个位点去磷酸化后,复合体才有活性。细胞中存在多种因子对CDK2进行修饰调节,此外还存在对其活性起负性调控的蛋白质,即CDK激酶抑制物,例如p21CIP/WAF1、p27KIP2等。 前面提到,CDK2基因转录的产物有两种。这两种mRNA的不同之处在于变体1由全部7个外显子组成,而变体2缺失外显子5,由剩余的6个外显子组成。这样翻译成的两种同型蛋白的长度就相差34个氨基酸。 2 材料和方法: 2.1序列数据来源 采用蛋白质名称对NCBI非冗余蛋白质数据库进行检索,CDK2蛋白的记录有1013个。而采用基因名称对NCBI非冗余核酸数据库进行检索,CDK2蛋白的记录有680个。 采用人(Homo sapiens)的CDK2蛋白序列进行BLAST搜索。 2.2序列分析方法

生物信息学名词解释(0001)

生物信息学名词解释

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影 响,序列中的空位的引入不代表真正的进化事件,所以要对其进行 罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了 可以找到与查询序列(query)相匹配的随机或无关序列的概率,E 值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的 相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意 义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复 度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列, Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y) 加点,如果两条序列完全相同则会形成一条主对角线,如果两条序 列相似则会出现一条或者几条直线;如果完全没有相似性则不能连 成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这 些序列做一个总体的比对,以观察它们在结构上的异同,来回答大 量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而 可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或 其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个 父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是 引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中 的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制 证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重 复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于 基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘 关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找 到距离最近的两类将其归为一类,定义为一个节点,重复这个过程, 直到所有的聚类被加入,最终产生树根。 23.邻接法(neighbor-joining method):是一种不仅仅计算两两比 对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行 限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法(MP):在一系列能够解释序列差异的的进化树中 找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法(ML):它对每个可能的进化位点分配一个概率, 然后综合所有位点,找到概率最大的进化树。最大似然法允许采用 不同的进化模型对变异进行分析评估,并在此基础上构建系统发育 树。 26.一致树(consensus tree):在同一算法中产生多个最优树,合并 这些最优树得到的树即一致树。 27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多 次重复取样,构建多个进化树,用来检查给定树的分枝可信度。

生物信息学试题复习参考(张弓)

2014-2015学年生物信息学期末考试题 写在前面:这是我考试时候写的答案的大致内容,具体文字我已经不记得了,给大家一个参考,希望对大家复习有帮助。因为我也是扣了很多分,所以答案也有很多错的,大家不要尽信。祝大家考试顺利。 一、实验设计和基础分析 以下qPT-PCR实验方案有哪些错误?请标出错误,并说明原因和写出正确方案。 目的:比较肺癌细胞迁移前后的X基因转录水平表达量 方法:(1)用Trizol法提取细胞总RNA,并用跑胶、OD260/280等方法确认无降解。 (2)用poly-dT引物进行反转录 (3)设计基因特异性PCR引物,用qPCR仪测定X基因和GAPDH基因的Ct值。GAPDH作为内参。 (4)以2^-ΔΔCt方法计算X基因相对于GAPDH的相对含量 (5)比较迁移前后的相对表达量,做三个重复,用t-test进行统计检验,P<0.05为差异显著 1.错误:不能用GAPDH基因作为定量标准;原因:癌症迁移前后GAPDH基因的表达量已经改变了,做定量标准不准确;方案:采用外参(如:其他物种的基因) 2.错误:不能用t-test进行统计检验;原因:t-test进行统计检验的前提是数据呈正态分布,基因表达量不一定呈正太分布;方案:将数据取log10,对数化。 上述两个是我考试时候写的答案,后来经提醒:还发现了一个错误:不能用poly-dT引物进行反转录;原因:。。。。。。;方案:用Oligodt进行逆转录。 二、双序列比对的生物学意义解释 两种细菌的同源蛋白质endonuclease III,长度都为200氨基酸左右,其功能相同,蛋白质序列使用BLAST 可以比对上,同源性高达57%,但其编码DNA序列用BLAST却无法比对上,为了尽可能提高亲缘关系较远的序列的比对效率,比对已经使用BLAST网站上Somewhat similar sequence选项,默认参数(见下图):

相关文档
相关文档 最新文档