文档库 最新最全的文档下载
当前位置:文档库 › 生物信息学分析方法

生物信息学分析方法

生物信息学分析方法
生物信息学分析方法

核酸和蛋白质序列分析

蛋白质, 核酸, 序列

关键词:核酸序列蛋白质序列分析软

在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(https://www.wendangku.net/doc/4916858138.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。

下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。

(一)核酸序列分析

1、双序列比对(pairwise alignment)

双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch 算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。

除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST

(https://www.wendangku.net/doc/4916858138.html,/BLAST/)。以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。

(1)BLAST和FASTA

FASTA(https://www.wendangku.net/doc/4916858138.html,/fasta33/)和BLAST

(https://www.wendangku.net/doc/4916858138.html,/BLAST/)是目前运用较为广泛的相似性搜索工具。这两

个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定有意义的局部比对。使用FASTA和BLAST,进行数据库搜索,找到与查询序列有一定相似性的序列。一般认为,如果蛋白的序列一致性为25-30%,则可认为序列同源。BLAST 根据搜索序列和数据库的不同类型分为5种(表2),另外PSI-BLAST通过迭代搜索,可以搜索到与查询序列相似性较低的序列。其中BLASTN、BLASTP在实践中最为常用,TBLASTN 在搜索相似序列进行新基因预测时特别有用。

使用BLAST时,先选择需要使用的BLAST程序,然后提供相应的查询序列,选择所比对的数据库即可。

(2)Needle和Pairwise BLAST:其中Needle适用于蛋白质和DNA序列,而Pairwise BLAST 仅适用于DNA序列

(3)相似性和同源性:必须指出,相似性(similarity)和同源性( homology)是两个完全不同的概念。同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。经过比对,当相似性高于一定程度,可以推测序列可能是同源序列,具有一定同源性。

2、多序列比对和进化树

在研究生物问题时,常常需要同时对两个以上的序列进行比对,这就是多序列比对。多序列比对可用于研究一组相关基因或蛋白,推断基因的进化关系,还可用于发现一组功能或结构相关基因之间的共有模式(pattern)。最常用的多序列比对工具为ClustalW (https://www.wendangku.net/doc/4916858138.html,/clustalw/),多用于比较蛋白序列。

ClustalW用法:

(1)输入:序列以FastA格式输入。

(2)输出:除了以文本形式外,还可以通过JalView显示和编辑结果。此外,还可以另外使用GeneDoc(常见于文献)及DNAStar软件等显示结果。多序列比对的结果还用于进一步绘制进化树。

3、ORF(Open Reading Frame)分析

从核酸序列翻译得到蛋白质序列,需要进行ORF分析,每个生物信息学分析软件包几乎都带有翻译功能。推荐使用NCBI的ORF Finder

(https://www.wendangku.net/doc/4916858138.html,/gorf/gorf.html)软件或EMBOSS中的getorf

(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/)软件。ORF Finder 以图形方式,分为正链+1、+2、+3和反链+1、+2、+3六个相位预测ORF;Getorf可指定预测ORF的长度下限和指定预测正反链。进行ORF分析虽然比较简单,但应注意以下几点:

(1)序列的准确性:尤其是通过计算机拼接的序列,需要根据EST和基因组序列进行反复

校正。

(2)ORF是否完整:看在ORF上游同一相位是否具有终止码,或者具有起始密码子。(3)参考Kozak一致性规律,即起始密码子位点符合A/GCCATGG。

(4)不要忽略反义读框。

4、染色体定位

根据基因组图谱对序列进行染色体定位和浏览其基因组上下游基因。具体方法为:(1)进行Genomic BLAST搜索。(2)通过“Genome view”观察基因组结构。(3)点击相应染色体区域,通过表意图(ideogram)和相应区域上下游的基因进行精确定位。

5、基因结构分析

根据基因的mRNA序列及基因组序列,可以进行基因结构的分析。推荐使用BLAST或BLAT(https://www.wendangku.net/doc/4916858138.html,/cgi-bin/hgBlat?command=start)进行分析。由于真核生物转录后内含子将被剪切,因此将mRNA和基因组进行比对以后,会发现mRNA的每个外显子与基因组序列片断匹配,根据这些片段可以判断外显子的数目和大小。外显子和内含子具体边界的确定,可以参考GT/AG一致性规则。BLAT的结果直接显示外显子数目、大小及边界。

6、基因上游调控区分析

(1)启动子预测:推荐使用冷泉港开发的FIRSTEF程序

(https://www.wendangku.net/doc/4916858138.html,/tools/FirstEF/)进行启动子预测。用RT-PCR等实验方法获得的mRNA往往缺少完整的5’端,采用FirstEF 程序可以对第一外显子(尤其是非编码的第一外显子)和CpG相关启动子进行预测。

方法:以FastA格式输入起始密码子上游序列。

(2)转录因子结合位点分析:推荐使用TFSEARCH程序

(http://www.cbrc.jp/research/db/TFSEARCH.html)及MATCH程序

(https://www.wendangku.net/doc/4916858138.html,/pub/programs.html#match)对转录因子数据库TRANSFAC(http://transfac.gbf.de/TRANSFAC/)进行搜索,寻找可能的转录因子结合位点。

方法:输入起始密码子上游序列。结果将给出很多可能的转录因子结合位点,注意选择其中分值较高的位点。

(二)蛋白质序列分析

1、跨膜区预测

各个物种的膜蛋白的比例差别不大,约四分之一的人类已知蛋白为膜蛋白。由于膜蛋白不溶于水,分离纯化困难,不容易生长晶体,很难确定其结构。因此,对膜蛋白的跨

膜螺旋进行预测是生物信息学的重要应用。

推荐使用TMHMM软件(http://www.cbs.dtu.dk/services/TMHMM/)对蛋白进行跨膜预测。TMHMM综合了跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限制等性质,采用隐马氏模型(Hidden Markov Models),对跨膜区及膜内外区进行整体的预测。TMHMM是目前最好的进行跨膜区预测的软件,它尤其长于区分可溶性蛋白和膜蛋白,因此首选它来判定一个蛋白是否为膜蛋白。所有跨膜区预测软件的准确性都不超过52%,但86%的跨膜区可以通过不同的软件进行正确预测。因此,综合分析不同的软件预测结果和疏水性图以获得更好的预测结果。

方法:输入待分析的蛋白序列即可。

2、信号肽预测

信号肽位于分泌蛋白的N端,当蛋白跨膜转移位置时被切掉。信号肽的特征是包括一个正电荷区域、一个疏水性区域和不带电荷但具有极性的区域。信号肽切割位点的-3和-1位为小而中性氨基酸。

推荐使用SignalP软件2.0版(http://www.cbs.dtu.dk/services/SignalP-2.0/)对PDCD5N 端序列进行信号肽分析。SignalP2.0根据信号肽序列特征,采用神经网络方法或隐马氏模型方法,根据物种的不同,分别选择用真核和原核序列进行训练,对信号肽位置及切割位点进行预测。信号肽切割位点预测用Y-score maximum来判断,对是否分泌蛋白用mean S-score来判断:如果mean S-score大于0.5,则预测为分泌蛋白,存在信号肽,但II型跨膜蛋白的N端序列可能被错误预测为分泌蛋白的信号肽。

方法:输入待分析的蛋白序列,如为原核基因选择原核训练集,否则选择真核训练集。

3、亚细胞定位预测

亚细胞定位与蛋白质的功能存在着非常重要的联系。亚细胞定位预测基于如下原理:(1)不同的细胞器往往具有不同的理化环境,它根据蛋白质的结构及表面理化特征,选择性容纳蛋白。(2)蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成。因此可以通过氨基酸组成进行亚细胞定位的预测。

推荐使用PSORT(http://psort.nibb.ac.jp/)II软件对PDCD5蛋白的细胞内定位进行预测。PSORT将动物蛋白质定位于10个细胞器:(1)细胞浆,(2)细胞骨架,(3)内质网,(4)胞外,(5)高尔基体,(6)溶酶体,(7)线粒体,(8)胞核,(9)过氧化物酶体(peroxisome)和(10)细胞膜。

DNA序列分析技术路线图

cDNA

Featues

AATAAA signal,Polyadenylation

Electronic elongation(EST)

ORFs(ORF Finder, getorf)

Restriction site(DNASIS)

Expression profile

EST

SAGEmap,SAGE Genie

Microarray(WormBase)

Genomic sequence

Features

chromosome location(Human Genome)

MW, base compositon(DNAMAN)

Exon-intron(SIM4)

Repeats(RepeatMasker)

SNPs(dbSNP, TSC)

5' flanking sequence

Promoter, TATA box(FIRSTEF)

CpG island(cpgplot)

Transcription factor binding site(TFSEARCH, match) Novel gene prediction(EST, stackPACK)

蛋白序列分析技术路线图

Protein

features

MW,pi,AA composition(EMBOSS) Hydrophobicity(BioEdit)

Transmembrane region(TMHMM)

Signal peptide(Signal P)

subcellular location(PSORT)

Coiled coil(COILS)

Antigenic site(DNAStar)

Function inference

Gene knockouts(WormBase)

Similarity search

Alignment(BLAST,FASTA,CLUSTALW) Phylogenic analysis(DNANAN)

Genome context(COG)

Motif,profile,domain(PROSITE,Pfam,SMART) Expression 'topology'(WormBase) Structure information

Secondary structure prediction(PHP) Structure classification(SCOP)

Structure modeling(HOMOLOGY,DISCOVER) Binding site analysis(Binding site)

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识 ㈠De Novo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。 目前国际上通用的基因组De Novo测序方法有三种: 1. 用Illumina Solexa GA IIx 测序仪直接测序; 2. 用Roche GS FLX Titanium直接完成全基因组测序; 3. 用ABI 3730 或Roche GS FLX Titanium测序,搭建骨架,再用Illumina Solexa GA IIx 进行深度测序,完成基因组拼接。 采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。 实验流程: 公司服务内容 1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头, 去污染);序列组装达到精细图标准 2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展 示平台搭建 1.基因组De Novo测序对DNA样品有什么要求?

(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上), OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;每次样品制备需要10 μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。 (2) 对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯合。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式 目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中,Roche 454的单端测序读长可以达到400 bp,经常用于基因组骨架的组装,而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。 单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。 图1 Single-read文库构建方法图2 Paired-end文库构建方法

生物信息学期末考试重点

第一讲 生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。 生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。 生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。 生物技术与生物信息学的区别及联系 生物信息学的发展历史 ?人类基因组计划(HGP) ?人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。 :

】 第二讲回顾细胞结构 细胞是所有生命形式结构和功能的基本单位 细胞组成 细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构 细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器 细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等 细胞核最大的细胞器 DNA的结构 碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G) 。 核苷酸 核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊 糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就 是A、T、C、G 基因是什么 基因是遗传物质的基本单位 基因就是核苷酸序列。 大部分的基因大约是1000-4000个核苷酸那么长。 基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。 基因在染色体上。

生物信息学软件及使用概述

生物信息学软件及使 刘吉平 liujiping@https://www.wendangku.net/doc/4916858138.html, 用概述 生 物秀-专心做生物! w w w .b b i o o .c o m

生物信息学是一门新兴的交叉学生物信息学的概念: 科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。 生 物秀-专心做生物! w w w .b b i o o .c o m

分析和处理实验数据和公共数据,生物信息学软件主要功能 1.2.提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验 3.实验数据的自动化管理 4.寻找、预测新基因及其结构、功能 5.蛋白质高级结构及功能预测(三维建模,目前研究的焦点和难点) 生 物秀-专心做生物! w w w .b b i o o .c o m

功能1. 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间 ?核酸:序列同源性比较,分子进化树构建,结构信息分析,包括基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框(ORF ),蛋白编码区(CDS )及外显子预测、RNA 二级结构预测、DNA 片段的拼接; ?蛋白:序列同源性比较,结构信息分析(包括Motif ,限制酶切点,内部重复序列的查找,氨基酸残基组成及其亲水性及疏水性分析),等电点及二级结构预测等等; ?本地序列与公共序列的联接,成果扩大。 生 物秀-专心做生物! w w w .b b i o o .c o m

Antheprot 5.0 Dot Plot 点阵图 Dot plot 点阵图能够揭示多个局部相似性的复杂关系 生 物秀-专心做生物! w w w .b b i o o .c o m

生物信息学分析实践

水稻瘤矮病毒(RGDV)外层衣壳蛋白 P8的同源模建 高芳銮(Raindy) 同源模建(homology modeling) ,也叫比较模建(Compatative modeling),其前提是一个或多个同源蛋白质的结构已知,当两个蛋白质的序列同源性高于35%,一般情况下认为它们的三维结构基本相同;序列同源性低于30%的蛋白质难以得到理想的结构模型。同源模建是目前最为成功且实用的蛋白质结构预测方法, SWISS-MODEL 是由SwissProt 提供的目前最著名的蛋白质三级结构预测服务器,创建于1993年,面向全世界的生物化学与分子生物学研究工作者提供免费的自动模建服务。SWISS-MODEL 服务器提供的同源模建有两种工作模式:首选模式(First Approach mode)和 项目模式(Project mode)。 本实例以RGDV P8蛋白为研究对象采用首选模式进行同源模建。 图1 SWISS-MODEL 的主界面 操作流程如下: 1.选择模式 单击左侧的“MENU ”菜单下方的“First Approach mode ”,右侧窗口自动SWISS-MODEL 工作窗口,在相应文本框中分别输入的E-mail 、项目标题、待模建的蛋白质序列,SWISS-MODEL 支持以FASTA 格式直接输入或提交UniProt 的登录号,如图2所示。 《生物信息学分析实践》样 稿

图2 SWISS-MODEL 的序列提交页面 2.参数设置 当前版本只有一个选项可设置,如果用户需要使用指定的模板,可在“Use a specific template ”后的输入框填入ExPDB 晶体图像数据库中的模板代码,其格式为“PDBCODE+ChainID ”,如“1uf2P ”。本例不使用指定模板,默认留空。完毕,点击“Submit Modeling Request ”提交模建请求,服务器返回提交成功的提示,如图3所示: 图3 成功提交 SWISS-MODEL WORKSPACEW 页面会自动刷新,直至模建完成,如图4所示,同时模建结果也会发送到指定的邮箱。 3结果解读 点击下图右上方的“Print/Save this page as ”后的图标,可以将整个结果以PDF 文档格式保存到本地计算机中。模建结果给出了五个部分的信息:模建详情(Model Details)、比对信息(Alignment)、模建评价 (Anolea/Gromos/Verify3D)、模建日志(Modelling log)、模板选择日志(Template Selection Log)。 《生物信息学分析实践》样稿

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学 广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。 狭义:生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构 蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因 基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则 是指遗传信息从传递给,再从RNA传递给,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较 序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异 目的: 相似序列相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 7、一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 8、基因识别 基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。 9、系统发生学 系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。

生物信息学试题整理

UTR的含义是(B ) A.编码区 B. 非编码区 C. motif的含义是(D )。 A.基序 B. 跨叠克隆群 C. algorithm 的含义是(B )。 A.登录号 B. 算法 C. RGR^ (D )。 A.在线人类孟德尔遗传数据 D.水稻基因组计划 下列Fasta格式正确的是(B) 低复杂度区域 D. 幵放阅读框 碱基对 D. 结构域 比对 D. 类推 B. 国家核酸数据库 C. 人类基因组计划 A. seql: agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta B. >seq1 agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta C. seq1:agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta D. >seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta 如果我们试图做蛋白质亚细胞定位分析,应使用(D) A. NDB 数据库 B. PDB 数据库 C. GenBank 数据库 D. SWISS-PROT 数

据库 Bioinformatics 的含义是(A )。 A. 生物信息学 B. 基因组学 C. 蛋白质组学 D. 表观遗传学 Gen Bank中分类码PLN表示是(D )。 A.哺乳类序列 B. 细菌序列 C.噬菌体序列 D. 植物、真菌和藻类序列 ortholog 的含义是(A)0 A.直系同源 B.旁系同源 C.直接进化 D.间接进化 从cDNA文库中获得的短序列是(D )o A. STS B. UTR C. CDS D. EST con tig的含义是(B )o A.基序 B. 跨叠克隆群 C. 碱基对 D. 结构域 TAIR (AtDB)数据库是(C)o A.线虫基因组 B. 果蝇基因组 C. 拟南芥数据库 D. 大肠杆菌基因组ORF的含义是(D )o A.调控区 B. 非编码区 C.低复杂度区域 D. 幵放阅读框

生物信息学概论

2013/5/23
生物信息学概论
2013-5
提纲
1. 发展简史 2. 主要研究领域 3. 软件和工具
1. 发展简史
1946年 1946 年
美国生产出第一台全自动电子数字计算机“埃尼阿克”
1

2013/5/23
1. 发展简史
1955年 1955 年
Frederick Sanger determined the complete amino acid sequence of insulin in 1955 and earned him his first Nobel prize in Chemistry in 1958.
1. 发展简史
1965年 1965 年
The first Atlas of Protein Sequence and Structure contained sequence information on 65 proteins.
Dr. Margaret Oakley Dayhoff (1925-1983) was a pioneer in the use of computers in chemistry and biology, beginning with her PhD thesis project in 1948. Her work was multi-disciplinary, and used her knowledge of chemistry, mathematics, biology and computer science to develop an entirely new field. She is credited today as a founder of the field of Bioinformatics.
1. 发展简史
1965年 1965 年
First use of molecular sequences for evolutionary studies
One of the founding fathers of the field of molecular evolution
Zuckerkandl, E. and Pauling, L. (1965). "Molecules as documents of evolutionary history." Journal of theoretical biology 8(2): 357.
2

蛋白质组学生物信息学分析介绍

生物信息学分析FAQ CHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION (3) 什么是GO? (3) GO和KEGG注释之前,为什么要先进行序列比对(BLAST)? (3) GO注释的意义? (3) GO和GOslim的区别 (4) 为什么有些蛋白没有GO注释信息? (4) 为什么GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致? (4) 什么是差异蛋白的功能富集分析&WHY? (4) GO注释结果文件解析 (5) Sheet TopBlastHits (5) Sheet protein2GO/protein2GOslim (5) Sheet BP/MF/CC (6) Sheet Level2_BP/Level2_MF/Level2_CC (6) CHAPTER TWO ABOUT KEGG PATHWAY ANNOTATION (7) WHY KEGG pathway annotation? (7) KEGG通路注释的方法&流程? (7) KEGG通路注释的意义? (7) 为什么有些蛋白没有KEGG通路注释信息? (8) 什么是差异蛋白的通路富集分析&WHY? (8) KEGG注释结果文件解析 (8) Sheet query2map (8) Sheet map2query (9) Sheet TopMapStat (9) CHAPTER THREE ABOUT FEATURE SELECTION & CLUSTERING (10) WHY Feature Selection? (10)

聚类分析(Clustering) (10) 聚类结果文件解析 (10) CHAPTER FOUR ABOUT PROTEIN-PROTEIN INTERACTION NETWORK (12) 蛋白质相互作用网络分析的意义 (12) 蛋白质相互作用 VS生物学通路? (12) 蛋白质相互作用网络分析结果文件解析 (12)

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

生物信息学分析

生物信息学分析 生物信息学难吗? 经常有人向我问这个问题,这有什么疑问吗?如果不难学,根本就不用问我这个问题。也无需投入那么多时间精力就能掌握,更无需花费三四千元参加线下的培训班,也不会月薪过万。所以,答案很肯定,道理很简单:生物信息比较难学。 为什么难学? 我总结里几点原因。首先,这是一个交叉学科,要求你既要有生物学的基础,又要有很强的计算机操作技能。这个就有点困难了。因为只是一个生物学就包括多个门类,有很多东西需要去学习,还需要学习计算机知识。很多人一门内容还没学明白,现在还得在加一门,这就属于祸不单行,雪上加霜,屋漏偏逢连夜雨。因此,这种既懂生物学,又懂计算机的复合型人才就比较短缺。而且,生物信息本质上属于数据挖掘,除了生物,计算机,到后面还需要极强的统计学知识才能做好数据分析,所以,还得加上统计学,也就是生物信息学=生物学+计算机科学+统计学三门学科的知识,这也就是为什么生物信息学比较难学。 第二个原因,生物信息本身就包括很多内容,比如DNA的分析,RNA的分析,甲基化的分析,蛋白质的分析等方面,每一

门类又完全不同,从物种方面来分,动物,植物,微生物,医学等有差别很大,很难有一劳永逸,放之四海而皆准的分析方法。 第三个原因就是生物信息是一门快速发展的学习,会出现很多新的测序方法,比如sanger测序,illumina,BGIseq,PacBio,IonTorrent,Nanopore等,每一个平台技术原理完全不同,因此数据特点也完全不同,这就需要针对每一个平台的数据做专门的学习,而且每个平台又在不断的推陈出现,可能今天你刚开发好的方法,产品升级了,都得推倒重来。还有很多新的技术,例如现在比较火的单细胞测序,Hi-C测序,Bionano测序等等内容,以后还出现更多新技术新方法,足够让你活到老,学到老。当然,你先要能活到老,吾生也有涯,而知也无涯。以有涯随无涯,殆已! 高风险才有高收益 当然啦,虽然你已经看到学习生物信息肯定是不容易了,门槛很高,但是呢,门槛高也有很多好处,就是挡住了一部分人,当你学会了,迈过门槛,你的身价就提高了。如果人人都很容易掌握了,那么也就不值钱了。所以,生物信息,前途是光明的,道路是曲折的。

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解 释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计 算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技 术而揭示大量而复杂的生物数据所赋有的生物学奥秘。 2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于 距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后, 数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方 式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数 据存储的大型数据库系统都在各个方面得到了广泛的应用。 3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短 的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。EST 来源于一定环境下一个组织总 mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。 4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。 ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个 真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编 码基因的部分或全部的先决条件。 5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进 一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基 本结构。蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理 功能的必要基础。 6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别 DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因, 也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基 因组研究的基础。

2019版国科大生物信息学期末考试复习题

中科院生物信息学期末考试复习题 陈润生老师部分: 1.什么是生物信息学,如何理解其含义?为什么在大规模测序研究中,生物信息学至关重要? 答:生物信息学有三个方面的含义: 1)生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和 解释的所有方面,是基因组研究不可分割的部分。 2)生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语 言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;其本质是识别基因信号。 3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它 是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。 2.如何利用数据库信息发现新基因,其算法本质是什么? 答:利用数据库资源发现新基因,根据数据源不同,可分2种不同的查找方式: 1)从大规模基因组测序得到的数据出发,经过基因识别发现新基因: (利用统计,神经网络,分维,复杂度,密码学,HMM,多序列比对等方法识别特殊序列,预测新ORF。但因为基因组中编码区少,所以关键是“数据识别”问题。)利用大规模拼接好的基因组,使用不同数据方法,进行标识查找,并将找到的可能的新基因同数据库中已有的基因对比,从而确定是否为新基因。可分为:①基于信号,如剪切位点、序列中的启动子与终止子等。②基于组分,即基因家族、特殊序列间比较,Complexity analysis,Neural Network 2)利用EST数据库发现新基因和新SNPs: (归属于同一基因的EST片断一定有overlapping,通过alignment可组装成一完整的基因,但EST片断太小,不存在数据来源,主要是拼接问题) 数据来源于大量的序列小片段,EST较短,故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用SiClone策略。其主要步骤有:构建数据库;将序列纯化格式标准化;从种子库中取序列和大库序列比对;延长种子序列,至不能再延长;放入contig库①构建若干数据库:总的纯化的EST数据库,种子数据库,载体数据库,杂质、引物数据库,蛋白数据库,cDNA数据库; ②用所用种子数据库和杂质、引物数据库及载体数据库比对,去除杂质; ③用种子和纯化的EST数据库比对 ④用经过一次比对得到的长的片段和蛋白数据库、cDNA数据库比较,判断是否为已有序列,再利用该大片段与纯化的EST数据库比对,重复以上步骤,直到序列不能再延伸; ⑤判断是否为全长cDNA序列。 (利用EST数据库:原理:当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。而到目前为止,公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。估计这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率。)

生物信息学复习重点

生物信息学是一门交叉学科, 包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面, 它综合运用数学、计算机科学和生物学等的各种工具来阐明和理解大量数据所包含的生物学意义。 生物信息学宗旨在揭示基因组信息结构的复杂性及遗传语言的根本规律。从生物分子获得和挖掘深层次生物学知识。人类基因组计划(HGP:获得遗传图、物理图、序列图、转录图;终极目标:阐明人类基因组全部DNA序列;识别基因;建立储存这些信息的数据库;开发数据分析工具;研究HGP实施所带来的伦理、法律和社会问题。其中我国承担了人类3 号染色体短臂。 记录:一个数据库记录一般由两部分组成:原始序列数据和描述这些数据生物学信息的注释。 冗余:在一个数据库存在着多个相同的项,如两个或者更多的记录中有一个相同序列 Fasta 格式开始于一个标识符:">" ,然后是一行描述。 GenBank格式:每个基因描述可有多个描述行,包含一行以LOUCU开头描述行,基因序列以ORIGN开头,以/结尾。 EMBL入口标识符ID,序列开始标识符SQ结束是/。 数据库的特点:①数据库是可以检索的,即具有检索功能;②数据库应该是定时更新的,即不断有新版内容发布;③数据库是交叉引用的,特别是在互联网时代,数据库应该通过超链接与其他数据库相连。 EST序列:表达序列标签对cDNA文库测序得到的,是转录的DNA序列。 STS序列:序列标签位点染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,(200bp —500bp)。 STS序列标签位点是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作的短的、单拷贝DNA序列,用于产生作图位点。 GSS序列:基因组概览测序基因组DNA克隆的一次性部分测序得到的序列。 HTG序列:高通量基因组序列 三大数据库: NCBI(GenBank):美国生物技术中心,建立了一系列生物信息数据和各种服务。 EMBL欧洲分子生物学实验室。 DDBJ日本遗传研究所。 同源性基因系指起源于同一祖先但序列已经发生变异的基因成员。基因同源性只有“是”和“非”的区别,是一种质的判断。 直系同源基因:分布在不同物种间的同源基因又称直系同源基因。 旁系同源基因:同一物种的同源基因则称旁系同源基因 (水平基因:, 水平基因由重复后趋异产生。 一致性:序列中同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员的百分比。 相似性:序列中同一位置相同或相似序列的百分比。如同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员,它们之间的代换不影响蛋白质(或酶)的生物学功能。 相似性和同源性关系:一般来说序列间的相似性越高的话,是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。 序列比对:确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。任务:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的根本差异。 相似性:可能是核酸/氨基酸序列的相似、可能是结构的相似、可能是功能的相似

生物信息学试题

华中农业大学研究生课程考试试卷(B) 考试科目名称:生物信息学考试时间:2011年6月15日备注:所有答案均要写在答题纸上,否则,一律无效。 提示:(1)2小时答题时间;(2)课堂开卷,独立完成;(3)答题简明扼要 1.请查询序列AK101913(GenBank注册号)的相关信息并回答下列问题:(1)若用限制性内切酶PstΙ消化这条序列,可以得到几个片段?(4分) (2)该序列编码的蛋白质有多少个氨基酸?哪种氨基酸所占比例最高?等电点是多少?是否糖蛋白质?如果是糖蛋白,请给出具体类型及糖基化位点。(10分)(3)请分析该序列编码蛋白的保守结构域,根据你的分析,该蛋白可能具有什么样的生物学功能?(6分) 2.任选一种基因结构分析工具,预测序列J04982(GenBank注册号)的基因结构及其编码产物的理化性质。请注明分析工具的名称,以及是否采用某一物种的数据作为参照。 (1)根据你所选用的分析方法,这条序列编码多少个基因?分别包含有多少个exon?预测基因(如有多个基因请注明是第几个基因)是否有转录起点和PolyA加尾信号? 分析结果是否与GenBank提供的注释信息相符合?(10分) (2)预测的第一个基因编码的蛋白质是否包含有信号肽(注明切割位点)和跨膜区域(注明跨膜区)?预测该蛋白的亚细胞定位。(10分) 注:3a、3b任选一题 3a.RZ220是水稻分子标记遗传连锁图上的一个分子标记,请回答下列有关问题:(1)这个分子标记/位点被定位于水稻的第几号染色体?在你检索的网站(请注明网址)多少水稻的遗传连锁图使用了该分子标记?请列出分子标记遗传连锁图的名称及 其类型(Map Type)(10分) (2)RZ220属于什么类型的分子标记?指出一个与该标记连锁或附近的QTL(注明其编号),并说明该QTL控制什么性状,列出定位该QTL的研究的相关文献。(10分) 3b.BM6506是羊分子标记遗传连锁图上的一个分子标记或位点,请回答下列有关问题:(请注明分析方法名称) (1)这个分子标记/位点被定位于羊的第几号染色体?(4分) (2)在SM1分子标记遗传连锁图上与这个分子标记/位点紧密连锁(两侧)的分子标记/位点的名称是什么?这个分子标记/位点在SM1分子标记遗传连锁图上的遗传位置 是多少?(8分) (3)列出一篇与该标记相关的文献及其在PubMed中的PMID号。(8分) 4.分析六条蛋白质序列(BAF63641、ABO31104、ACO11338、ABH07379、AAF65254、AAB38498)的同源性并回答下列问题(请注明分析方法名称): (1)哪两条序列的进化关系最近,一致性(Identity)是多少?相似度(Similarity/Positive)是多少?(10分)

生物信息学复习题及答案

一、名词解释: 1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。

生物信息学

中国科学技术大学 2007--2008学年第 1 学期考试试卷 考试科目: 生物信息学得分:__________ 学生所在系:___________ 姓名:__________ 学号:___________ 一、单项选择题(每题3分,共30分) 1. 下面哪个数据库不属于核酸的三大数据库之一( ) A.GenBank B. EBI C. UniProt D. DDBJ 2. 下面哪种算法为双序列比对全局优化算法( ) A. Smith-Waterman算法 B. Gibbs Sampler C. Hidden Markov Model算法 D. Needleman-Wunsch算法 3. 下面哪种工具为多序列比对工具( ) A. MegaBlast B. MEGA C. GPS D. POA 4. 双序列比对中,全局与局部的优化算法,其核心思想是( ) A.利用已知数据作为训练集,利用迭代的算法进行反复计算,使得结果收敛; B.根据已知数据,构建PSSM矩阵,再计算Log-odd ratio; C.采用动态规划算法,计算最优路径,并以此得到比对结果; D.采用邻接法构建进化树,在进化树的指导下进行双序列比对。 5. 下面何种描述适合Baum-Welch算法( ) A. 双序列比对的局部优化算法; B. Motif发现的方法之一 C. 对已知的训练数据,采用Viterbi算法计算最佳路径,并重新计算转移概率矩阵,反复计算直至结果收敛,得到优化的HMM模型; D. 对已知的训练数据,采用Smith-Waterman算法计算最佳路径,并重新计算转移概率矩阵,反复计算直至结果收敛,得到优化的HMM模型; 6. 实验学家在大肠杆菌中发现某种基因A,具有重要的转录调控功能,通过Reciprocal Best Hits的方法,实验学家用BLAST发现在人中基因B为基因A的高度相似基因。那么,人中基因A与基因B的关系为( ) A.旁系同源物 B. 趋同进化 C. 直系同源物 D. 异同源物

生物信息学复习资料全

一、名词解释(31个) 1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程 息的存贮、信息的涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、 实验数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组 序列的功能区域,也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树 状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该 是进化保守的并且在其他物种中具有直系同源性。 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度) 6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会 进化出新的与原来有关的功能。用来描述在同一物种由于基因复制而分离的同源基因。(来自百度) 7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的 核苷酸或氨基酸字符串。 8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止 密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度) 9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区 域,折叠得较为紧密,各行其功能,称为结构域。 10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空 位并进行罚分,以控制空位插入的合理性。(来自百度) 11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分 cDNA的3’或5’端序列。(来自文献) 12.Gene Ontology 协会: 13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编 码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单 的归类整理和注释 15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋 白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所 占的比例。 17.Blastn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将 同所查序列作一对一地核酸序列比对。(来自百度) 18.Blastp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐 一地同每条所查序列作一对一的序列比对。(来自百度)

相关文档
相关文档 最新文档