文档库 最新最全的文档下载
当前位置:文档库 › 核酸和蛋白质序列分析

核酸和蛋白质序列分析

核酸和蛋白质序列分析
核酸和蛋白质序列分析

核酸和蛋白质序列分析

在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG 岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站

(https://www.wendangku.net/doc/1511488403.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。

下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。

(一)核酸序列分析

1、双序列比对(pairwise alignment)

双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。

除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件

(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST

(https://www.wendangku.net/doc/1511488403.html,/BLAST/)。以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。

(1)BLAST和FASTA

FASTA(https://www.wendangku.net/doc/1511488403.html,/fasta33/)和BLAST

(https://www.wendangku.net/doc/1511488403.html,/BLAST/)是目前运用较为广泛的相似性搜索工具。这两个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定有意义的局部比对。使用FASTA和BLAST,进行数

据库搜索,找到与查询序列有一定相似性的序列。一般认为,如果蛋白的序列一

致性为25-30%,则可认为序列同源。BLAST根据搜索序列和数据库的不同类型

分为5种(表2),另外PSI-BLAST通过迭代搜索,可以搜索到与查询序列相

似性较低的序列。其中BLASTN、BLASTP在实践中最为常用,TBLASTN在搜索相似序列进行新基因预测时特别有用。

使用BLAST时,先选择需要使用的BLAST程序,然后提供相应的查询序列,选择所比对的数据库即可。

(2)Needle和Pairwise BLAST:其中Needle适用于蛋白质和DNA序列,

而Pairwise BLAST仅适用于DNA序列

(3)相似性和同源性:必须指出,相似性(similarity)和同源性( homology)是两个完全不同的概念。同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。经过比对,当相似性高于一定程度,可以推测序列可能是同源序列,具有一定同源性。

2、多序列比对和进化树

在研究生物问题时,常常需要同时对两个以上的序列进行比对,这就是

多序列比对。多序列比对可用于研究一组相关基因或蛋白,推断基因的进化关系,还可用于发现一组功能或结构相关基因之间的共有模式(pattern)。最常用的

多序列比对工具为ClustalW(https://www.wendangku.net/doc/1511488403.html,/clustalw/),多用于比较蛋

白序列。

ClustalW用法:

(1)输入:序列以FastA格式输入。

(2)输出:除了以文本形式外,还可以通过JalView显示和编辑结果。此外,还可以另外使用GeneDoc(常见于文献)及DNAStar软件等显示结果。多序列比对的结果还用于进一步绘制进化树。

3、ORF(Open Reading Frame)分析

从核酸序列翻译得到蛋白质序列,需要进行ORF分析,每个生物信息学分析软件包几乎都带有翻译功能。推荐使用NCBI的ORF Finder

(https://www.wendangku.net/doc/1511488403.html,/gorf/gorf.html)软件或EMBOSS中的getorf (http://bioinfo.pbi.nrc.ca:8090/EMBOSS/)软件。ORF Finder 以图形方式,分为正链+1、+2、+3和反链+1、+2、+3六个相位预测ORF;Getorf可指定预测ORF的长度下限和指定预测正反链。进行ORF分析虽然比较简单,但应注意以下几点:

(1)序列的准确性:尤其是通过计算机拼接的序列,需要根据EST和基因组序列进行反复校正。

(2)ORF是否完整:看在ORF上游同一相位是否具有终止码,或者具有起始密码子。

(3)参考Kozak一致性规律,即起始密码子位点符合A/GCCATGG。

(4)不要忽略反义读框。

4、染色体定位

根据基因组图谱对序列进行染色体定位和浏览其基因组上下游基因。具体方法为:(1)进行Genomic BLAST搜索。(2)通过“Genome view”观察基因组结构。(3)点击相应染色体区域,通过表意图(ideogram)和相应区域上下游的基因进行精确定位。

5、基因结构分析

根据基因的mRNA序列及基因组序列,可以进行基因结构的分析。推荐使用BLAST或BLAT(https://www.wendangku.net/doc/1511488403.html,/cgi-bin/hgBlat?command=start)进行分析。由于真核生物转录后内含子将被剪切,因此将mRNA和基因组进行比对以后,会发现mRNA的每个外显子与基因组序列片断匹配,根据这些片段可以判断外显子的数目和大小。外显子和内含子具体边界的确定,可以参考GT/AG一致性规则。BLAT的结果直接显示外显子数目、大小及边界。

6、基因上游调控区分析

(1)启动子预测:推荐使用冷泉港开发的FIRSTEF程序

(https://www.wendangku.net/doc/1511488403.html,/tools/FirstEF/)进行启动子预测。用RT-PCR等实验方法获得的mRNA往往缺少完整的5’端,采用FirstEF 程序可以对第一外显子(尤其是非编码的第一外显子)和CpG相关启动子进行预测。

方法:以FastA格式输入起始密码子上游序列。

(2)转录因子结合位点分析:推荐使用TFSEARCH程序

(http://www.cbrc.jp/research/db/TFSEARCH.html)及MATCH程序(https://www.wendangku.net/doc/1511488403.html,/pub/programs.html#match)对转录因子数据库TRANSFAC(http://transfac.gbf.de/TRANSFAC/)进行搜索,寻找可能的转录因子结合位点。

方法:输入起始密码子上游序列。结果将给出很多可能的转录因子结合位点,注意选择其中分值较高的位点。

(二)蛋白质序列分析

1、跨膜区预测

各个物种的膜蛋白的比例差别不大,约四分之一的人类已知蛋白为膜蛋白。由于膜蛋白不溶于水,分离纯化困难,不容易生长晶体,很难确定其结构。因此,对膜蛋白的跨膜螺旋进行预测是生物信息学的重要应用。

推荐使用TMHMM软件(http://www.cbs.dtu.dk/services/TMHMM/)对蛋白进行跨膜预测。TMHMM综合了跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限制等性质,采用隐马氏模型(Hidden Markov Models),对跨膜区及膜内外区进行整体的预测。TMHMM是目前最好的进行跨膜区预测的软件,它尤其长于区分可溶性蛋白和膜蛋白,因此首选它来判定一个蛋白是否为膜蛋白。所有跨膜区预测软件的准确性都不超过52%,但86%的跨膜区可以通过不同的软件进行正确预测。因此,综合分析不同的软件预测结果和疏水性图以获得更好的预测结果。

方法:输入待分析的蛋白序列即可。

2、信号肽预测

信号肽位于分泌蛋白的N端,当蛋白跨膜转移位置时被切掉。信号肽的特征是包括一个正电荷区域、一个疏水性区域和不带电荷但具有极性的区域。信号肽切割位点的-3和-1位为小而中性氨基酸。

推荐使用SignalP软件2.0版(http://www.cbs.dtu.dk/services/SignalP-2.0/)对PDCD5N端序列进行信号肽分析。SignalP2.0根据信号肽序列特征,采用神经网络方法或隐马氏模型方法,根据物种的不同,分别选择用真核和原核序列进行训练,对信号肽位置及切割位点进行预测。信号肽切割位点预测用Y-score maximum来判断,对是否分泌蛋白用mean S-score来判断:如果mean S-score 大于0.5,则预测为分泌蛋白,存在信号肽,但II型跨膜蛋白的N端序列可能被错误预测为分泌蛋白的信号肽。

方法:输入待分析的蛋白序列,如为原核基因选择原核训练集,否则选择真核训练集。

3、亚细胞定位预测

亚细胞定位与蛋白质的功能存在着非常重要的联系。亚细胞定位预测基于如下原理:(1)不同的细胞器往往具有不同的理化环境,它根据蛋白质的结构及表面理化特征,选择性容纳蛋白。(2)蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成。因此可以通过氨基酸组成进行亚细胞定位的预测。

推荐使用PSORT(http://psort.nibb.ac.jp/)II软件对PDCD5蛋白的细胞内定位进行预测。PSORT将动物蛋白质定位于10个细胞器:(1)细胞浆,(2)细胞骨架,(3)内质网,(4)胞外,(5)高尔基体,(6)溶酶体,(7)线粒体,(8)胞核,(9)过氧化物酶体(peroxisome)和(10)细胞膜。

蛋白质序列分析

蛋白质序列、性质、功能和结构分析 基于网络的蛋白质序列检索与核酸类似,从NCBI或利用SRS系统从EMBL 检索。 1、疏水性分析 ExPASy的ProtScale程序(https://www.wendangku.net/doc/1511488403.html,/cgi-bin/protscale.pl)可用来计算蛋白质的疏水性图谱。输入的数据可为蛋白质序列或SWISS-PROT数据库的序列接受号。也可用BioEdit、DNAMAN等软件进行分析。 2、跨膜区分析 蛋白质跨膜区域分析的网络资源有: TMPRED:https://www.wendangku.net/doc/1511488403.html,/software/TMPRED_form.html PHDhtm: http:www.embl-heidelberg.de/Services/sander/predictprotein/predictpro tein.html MEMSAT: ftp://https://www.wendangku.net/doc/1511488403.html, 3、前导肽和蛋白质定位 一般认为,蛋白质定位的信息存在于该蛋白自身结构中,并且通过与膜上特殊受体的相互作用得以表达。这就是信号肽假说的基础。这一假说认为,穿膜蛋白质是由mRNA编码的。在起始密码子后,有一段疏水性氨基酸序列的RNA片段,这个氨基酸序列就称为信号序列(signal sequence)。 蛋白质序列的信号肽分析可联网到http://genome.cbs.dtu.dk /services/SignalP/或其二版网址 http://genome.cbs.dtu.dk/services/SignalP-2.0/。该服务器也提供利用 e-mail进行批量蛋白质序列信号肽分析的方案 (http://genome.cbs.dtu.dk/services /SignalP/mailserver.html),e-mail 地址为signalp@ genome.cbs.dtu.dk。 蛋白质序列中含有的信号肽序列将有助于它们向细胞内特定区域的移动,如前导肽和面向特定细胞器的靶向肽。在线粒体蛋白质的跨膜运输过程中,通过线粒体膜的蛋白质在转运之前大多数以前体形式存在,它由成熟蛋白质和N端延伸出的一段前导肽或引肽(leader peptide)共同组成。迄今有40多种线粒体蛋白质前导肽的一级结构被阐明,它们约含有20~80个氨基酸残基,当前体蛋白跨膜时,前导肽被一种或两种多肽酶所水解转变成成熟蛋白质,同时失去继续跨膜能力。前导肽一般具有如下性质:①带正电荷的碱性氨基酸(特别是精氨酸)含量较丰富,它们分散于不带电荷的氨基酸序列中间;②缺失带负电荷的酸性

核酸和蛋白质序列分析

核酸和蛋白质序列分析 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG 岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站 (https://www.wendangku.net/doc/1511488403.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件 (http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST

核酸序列的一般分析流程

核酸序列的一般分析流程 1.1 核酸序列的检索 https://www.wendangku.net/doc/1511488403.html,:80/entrez/query.fcgi?db=Nucleotide 1.2 核酸序列的同源性分析 1.2.1 基于NCBI/Blast软件的核酸序列同源性分析 https://www.wendangku.net/doc/1511488403.html,/blast/blast.cgi 1.2.2 核酸序列的两两比较 https://www.wendangku.net/doc/1511488403.html,/gorf/bl2.html 1.2.3 核酸序列的批量联网同源性分析(方案) 1.3 核酸序列的电子延伸 1.3.1 利用UniGene数据库进行电子延伸(方案) 1.3.2 利用Tigem的EST Machine进行电子延伸 EST Extractor: http://gcg.tigem.it/blastextract/estextract.html EST Assembly: http://www.tigem/ESTmachine.html 1.3.3 利用THC数据库对核酸序列进行电子延伸 http://gcg.tigem.it/UNIBLAST/uniblast.html 1.4 核酸序列的开放阅读框架分析 1.4.1基于NCBI/ORF finder的ORF分析 https://www.wendangku.net/doc/1511488403.html,/gorf/gorf.html 1.5 基因的电子表达谱分析 1.5.1 利用UniGene数据库进行电子表达谱分析(方案) 1.5.2利用Tigem的电子原位杂交服务器进行电子表达谱分析 http://gcg.tigem.it/INSITU/insitublast.html 1.6 核酸序列的电子基因定位分析 1.6.1 利用STS数据库进行电子基因定位 https://www.wendangku.net/doc/1511488403.html,/genome/sts/epcr.cgi 1.6.2 利用UniGene数据库进行电子基因定位(方案) 1.7 cDNA的基因组序列分析 1.7.1 通过从NCBI查询部分基因组数据库进行基因组序列的分析(方案) 1.7.2 通过从NCBI查询全部基因组数据库进行基因组序列的分析 https://www.wendangku.net/doc/1511488403.html,/genome/seq/page.cgi?F=HsBlast.html&&ORG=Hs 1.7.3 通过从Sanger Centre查询基因组数据库进行基因组序列的分析 https://www.wendangku.net/doc/1511488403.html,/HGP/blast_server.shtml 1.8 基因组序列的初步分析 1.8.1 基因组序列的内含子/外显子分析 https://www.wendangku.net/doc/1511488403.html,/urllists/genefind.htm 1.8.2 基因组序列的启动子分析 https://www.wendangku.net/doc/1511488403.html,/projects/promoter.html 1.9核酸序列的注册 1.9.1 EST序列的注册(方案) 1.9.2 较长或全长cDNA序列的注册(方案)

序列分析软件DNAMan

序列分析软件DNAMAN 的使用方法简介 DNAMAN 是一种常用的核酸序列分析软件。由于它功能强大,使用方便,已成为一种普遍使用的DNA 序列分析工具。本文以DNAMAN 5.2.9 Demo version 为例,简单介绍其使用方法。 打开DNAMAN,可以看到如下界面: : 第一栏为主菜单栏。除了帮助菜单外,有十个常用主菜单,如下所示 第二栏为工具栏:如下所示:

第三栏为浏览器栏:如下所示: 在浏览器栏下方的工作区左侧,可见Channel 工具条,DNAMAN 提供20 个Channel,如左所示: 点击Channel 工具条上相应的数字,即可击活相应的Channel。每个Channel 可以装入一个序列。将要分析的序列(DNA 序列或氨基酸序列)放入Channel 中可以节约存取序列时间,加快分析速度。此版本DNAMAN 提供自动载入功能,用户只需激活某个Channel ,然后打开一个序列文件,则打开的序列自动载入被激活的Channel 中。 本文以具体使用DNAMAN 的过程为例来说明如何使用DNAMAN 分析序列。 1.将待分析序列装入Channel (1)通过File|Open 命令打开待分析序列文件,则打开的序列自动装入默认Channel。(初始为channel1)可以通过激活不同的channel(例如:channel5)来改变序列装入的Channel。 (2)通过Sequence|Load Sequence 菜单的子菜单打开文件或将选定的部分序列装入Channel。 可以通过Sequence|Current Sequence|Analysis Defination 命令打开一个对话框,通过此对话框可以设定序列的性质(DNA 或蛋白质),名称,要分析的片段等参数。

核酸蛋白序列比对分析

核酸\蛋白序列比对分析 生物技术 02级 021402198 曾彪 摘要生物信息学——是一门新兴的交叉学科,是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读的科学,是现代生命科学与计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。核酸与蛋白质序列分析是生物信息学的基本研究方法。核酸与蛋白质序列分析是生物信息学的基本研究方法。 关键词核酸/蛋白质序列分析生物信息数据与查询序列比较 DNA芯片质谱隐马尔可夫模型 正文人类基因组计划完成了人类基因组的测序与分析工作,也积累了大量的核酸和蛋白质序列数据,从而导致了分子数据库的建立。分子生物学家在此基础上依靠计算机进行核酸和蛋白质序列分析。 大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理。这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有

Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。 要在如此庞大的数据库中找到所需要的目标序列,必须建立数据库查询系统。数据库查询(也称为数据库检索)是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。常用的数据库查询系统有Entrez, SRS等。数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。常用的数据库搜索系统有BLAST 、FASTA 和BLITZ 。 面对大批由测序仪产生的序列数据,通过序列分析,人们能够了解这些序列的生物学信息和意义。线性核酸序列的分析主要包括同源比较,读框分析,酶切位点查找,GC比例分析,序列翻译,引物设计等;蛋白质序列分析包括同源比较,疏水性分析,序列模体识别,结构域识别,高级结构预测等。 核酸序列分析 核酸序列的基本分析 1.测定分子质量、碱基组成、碱基分布等基本数值; 2.序列变换:反向序列、互补序列、互补反向序列;

核酸蛋白序列比对分析

核酸\蛋白序列比对分析 生物技术02级021402198 曾彪 摘要生物信息学——是一门新兴的交叉学科,是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读的科学,是现代生命科学与计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。核酸与蛋白质序列分析是生物信息学的基本研究方法。核酸与蛋白质序列分析是生物信息学的基本研究方法。 关键词核酸/蛋白质序列分析生物信息数据与查询序列比较DNA芯片质谱隐马尔可夫模型 正文人类基因组计划完成了人类基因组的测序与分析工作,也积累了大量的核酸和蛋白质序列数据,从而导致了分子数据库的建立。分子生物学家在此基础上依靠计算机进行核酸和蛋白质序列分析。大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理。这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有

SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。 要在如此庞大的数据库中找到所需要的目标序列,必须建立数据库查询系统。数据库查询(也称为数据库检索)是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。常用的数据库查询系统有Entrez, SRS等。数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。常用的数据库搜索系统有BLAST 、FASTA 和BLITZ 。 面对大批由测序仪产生的序列数据,通过序列分析,人们能够了解这些序列的生物学信息和意义。线性核酸序列的分析主要包括同源比较,读框分析,酶切位点查找,GC比例分析,序列翻译,引物设计等;蛋白质序列分析包括同源比较,疏水性分析,序列模体识别,结构域识别,高级结构预测等。 核酸序列分析 核酸序列的基本分析 1.测定分子质量、碱基组成、碱基分布等基本数值; 2.序列变换:反向序列、互补序列、互补反向序列; 3.限制性酶切分析:限制酶的所有信息,包括甲基化酶、相应的

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件蛋白质数据库及蛋白质序列分析 第一节、蛋白质数据库介绍 一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据 库,目前这二个数据库在EMBL和GenBank数据库上均建 立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序 列,这些序列经过检验和注释。该数据库主要由日内瓦大 学医学生物化学系和欧洲生物信息学研究所(EBI)合作维 护。SWISS-PROT的序列数量呈直线增长。 2、TrEMBL数据库: SWISS-PROT的数据存在一个滞后问题,即 进行注释需要时间。一大批含有开放阅读 了解决这一问题,TrEMBL(Translated E 白质数据库,它包括了所有EMBL库中的 质序列数据源,但这势必导致其注释质量 3、PIR数据库: PIR数据库的数据最初是由美国国家生物医学研究基金 会(National Biomedical Research Foundation, NBRF) 收集的蛋白质序列,主要翻译自GenBank的DNA序列。 1988年,美国的NBRF、日本的JIPID(the Japanese International Protein Sequence Database日本国家蛋 白质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息 中心)合作,共同收集和维护PIR数据库。PIR根据注释 程度(质量)分为4个等级。 4、 ExPASy数据库: 目前,瑞士生物信息学研究所(Swiss I 质分析专家系统(Expert protein anal 据库。 网址:https://www.wendangku.net/doc/1511488403.html, 我国的北京大学生物信息中心(www.cbi.

核酸序列分析软件介绍

核酸序列分析 1、核酸序列检索 可通过NCBI使用Entrez系统进行检索,也可用EBI的SRS服务器进行检索。在同时检索多条序列时,可通过罗逻辑关系式按照GenBank接受号进行批量检索。如用“AF113671 [ac] OR AF113672 [ac]”可同时检索这两条序列。其中“[ac]”是序列接受号的描述字段。 2、核酸序列的基本分析 (1)分子质量、碱基组成、碱基分布 分子质量、碱基组成、碱基分布可通过一些常用软件等直接获得。如: BioEdit(https://www.wendangku.net/doc/1511488403.html,/BioEdit/bioedit.html), DNAMAN(https://www.wendangku.net/doc/1511488403.html,)。 (2)序列变换 进行序列分析时,经常需要对DNA序列进行各种变换,例如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列等。这些用DNAMAN软件可很容易实现,这些功能集中在Sequence→Display,从中可选择不同的序列变换方式对当前通道的序列进行转换。 (3)限制性酶切分析 该方面最好的资源是限制酶数据库(Restriction Enzyme Database,REBASE)。REBASE数据库(https://www.wendangku.net/doc/1511488403.html,,https://www.wendangku.net/doc/1511488403.html,/rebase)中含有限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源及公开发表的和未发表的参考文献。其它资源还有:WebGene:https://www.wendangku.net/doc/1511488403.html,/~tjyin/WebGene/RE.html, https://www.wendangku.net/doc/1511488403.html,/personal/tyin.html WebCutter2: http://www/https://www.wendangku.net/doc/1511488403.html,/firstmarkert/firstmarket/cutter/cut2.html 同时,很多软件也能够识别REBASE限制酶数据库。强烈推荐使用集成化的软件如BioEdit和DNAMAN等。所得出的结果给出指定DNA序列的酶切位点信息,为克隆鉴定和亚克隆提供了重要信息。 在实际进行分子生物学实验中,有时需要对多条相关序列(如发生突变的一批序列)同时进行酶切分析,以便为后续的克隆鉴定提供参考。此时DNAMAN软件是一个良好的选择。在对所有序列进行多重对齐后,其输出项“Output”中即有“Restriction Analysis”选项,执行后即可完成对所有参与对齐序列的酶切分析,能够得到所有序列的差异酶切图谱和一致酶切图谱。 (4)克隆测序分析 得到测序结果后,需要对所测序列进行后续分析,其中主要包括对测序峰图的查看和载体序列的去除等过程。 a. 测序峰图的查看 最简单的程序是澳大利亚的Conor McCarthy (https://www.wendangku.net/doc/1511488403.html,.au./~conor/)开发的Chromas.exe程序,但该程 N 序不支持Windows 95以上的长文件名。其实,集成化的软件如BioEdit和DNAMA 也具有此功能。 b. 载体序列的去除 许多数据库中收集了常用的测序载体序列,如:

实验二 核酸及蛋白质序列的比对

实验二核酸及蛋白质序列的比对 姓名:班级:序号:指导老师: 一、实验内容 利用检索出的蛋白质和核酸序列进行序列比对并进行分子进化树分析。 二、实验步骤 键入上次实验获得的phyA的核酸序列编号(NM_100828),获得核酸及蛋白质序列。利用blastx程序寻找与phyA蛋白质序列相似性的序列→选择下列序列:sorghum propinquum(高粱);zea mays(玉米);水稻;大豆;arabidopsis thaliana(拟南芥);cyrtosia septentrionalis(血红肉果兰)→点击get select sequence按钮显示序列为纯文本格式文件→分别命名为各自的文件名保存在本地电脑上备用。 在数字基因网找到dnaman及clustalx软件安装并进行多序列比对及分子进化树分析。 利用ebi上提供多序列比对工具再作一次比对.uk/clustalw/。 选作核酸序列的比对 5、打开ncbi主页点击BLAST→学习网页左侧的BLAST FAQS及program guide 三、作业 1、绘制分子进化树,并标明各个物种phyA蛋白之间的序列相似性。 2、根据你所学生物分类的知识,试解释该分子进化树的合理性 ①拟南芥:植物界种子植物门被子植物门双子叶植物纲十字花目十字花科鼠耳芥属(拟南芥属) ②大豆:植物界种子植物门被子植物亚门双子叶植物纲豆目蝶形花科大豆属 ③血红肉果兰:植物界种子植物门被子植物亚门百合纲百合目兰科树兰亚科肉果兰属 ④水稻:植物界种子植物门被子植物亚门单子叶植物纲禾本目禾本科稻属 ⑤玉米:植物界种子植物门被子植物亚门单子叶植物纲禾本目禾本科玉米属 ⑥高粱:植物界种子植物门被子植物亚门单子叶植物纲禾本目禾本科高粱属 经过对比可得下列同源性关系 高粱 玉米 水稻 拟南芥 大豆 血红肉果兰 与前面的同源树对比基本相似,说明软件分析结果与实际相符 3、找出一条可能的保守序列(多条蛋白共同的氨基酸序列)。 最长的保守序列:kliqpfgcllaldek

blast核酸氨基酸序列相似性比较

BLAST 核酸/氨基酸序列相似性比较 Blast(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。 BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。如果您想进一步了解BLAST算法,您可以参考NCBI的BLAST Course ,该页有BLAST算法的介绍。 BLAST的功能 BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。BLAST还能发现具有缺口的能比对上的序列。 BLAST是基于Altschul等人在上发表的方法在序列数据库中对查询序列进行同源性比对工作。从最初的BLAST发展到现在NCBI提供的,已将有缺口的比对序列也考虑在内了。BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。 所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。 BLAST包含的程序: 1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。 通常根据查询序列的类型(蛋白或核酸)来决定选用何种BLAST。假如是作核酸-核酸查询,有两种BLAST供选择,通常默认为BLASTN。如要用TBLASTX也可,但记住此时不考虑缺口。 BLAST适用于本地查询。可以下载公共数据库,对于该数据库的更新和维护是必不可少的。如果要直接到网上查询也可以(即NetBlast),但记住如果你认为自己的序列很有价值的话,还是谨慎为宜。 如何访问在线的BLAST功能服务 您只要通过浏览器访问Blast主页( 。所有的查询和分析都通过浏览器来完成,就象您在您的本地机上一样方便和快捷。

蛋白质序列分析

肽和蛋白质的直接测序法 目前,肽和蛋白质的测序有三种策略:①根据基因测序的结果,从cDNA演绎肽和蛋白质序列,这种策略简单、快捷,甚至可以得到未分离出的蛋白质或多肽的序列信息。但是,用这一策略得到的一级结构不含蛋白质翻译后修饰及二硫键位置等信息;②直接测序策略;③质谱测序与生物信息学搜索相结合的策略。第①种策略可参考分子生物学的有关专著,第③种策略将在本书蛋白质组与蛋白质组分析一章中介绍,本章介绍直接测序策略。 1953年,Frederick Sanger在对牛胰岛素的研究中首先提出氨基酸直接测序的概念,迄今为止,已通过直接测序阐明了几千种蛋白质的氨基酸序列。 在蛋白质序列测定中,因为可以得到的蛋白质样品十分有限,而且蛋白质包含的20种不同的氨基酸表现出不同的化学功能和化学活性,在测序过程中每一次变性或裂解所发生的一系列副反应,将使测定过程变得十分复杂,在蛋白质序列测定中由于没有类似于DNA序列测定中采用的PCR技术可应用,因此,与DNA 序列测定相比,蛋白质序列测定在许多方面要复杂得多。其基本的测序过程如下所述。 确定不同的多肽链数目 首先应该确定蛋白质中不同的多肽链数目,根据蛋白质N-端或C-端残基的摩尔数和蛋白质的相对分子质量可确定蛋白质分子中的多肽链数目。如果是单体蛋白质,蛋白质分子只含一条多肽链,则蛋白质的摩尔数应与末端残基的摩尔数相等;如果蛋白质分子是由多条多肽链组成,则末端残基的摩尔数是蛋白质的摩尔数的倍数。 肽链的裂解 当蛋白质分子是由二条或二条以上多肽链构成时,必须裂解这些多肽链。如果多肽链是通过非共价相互作用缔合的寡聚蛋白质,可采用8 mol L-1尿素,6 mo1 L-1盐酸胍或高浓度盐等变性剂处理,使寡聚蛋白质中的亚基裂解;如果多肽链之间是通过共价二硫键交联的,可采用氧化剂或还原剂断裂二硫键。然后再根据裂解后的单个多肽链的大小不同或电荷不同进行分离、纯化。 太长的多肽片段不能直接进行序列测定,一般肽片段长度不超过50个左右残基的肽段,当肽段超过这个长度时,由于反应的不完全以及副反应产生的杂质积累将影响测定结果,因此,必须通过特定的反应将它们裂解为更小的肽段。通过两种或几种不同的断裂方法(即断裂点不同)将每条多肽链样品降解成为两套或几套重叠的肽段或肽碎片,每套肽段分别进行分离、纯化,再对纯化后的每一肽段进行氨基酸组成和末端残基的分析。 使肽链中某些特殊位置上的肽键发生断裂,可采用化学反应或酶反应裂解产生若干能够进行测序的小片段。一般将蛋白质样品分为两等份,采用不同的试剂裂解产生两套不同的片段,两套片段在测序完成后,根据他们之间的重叠情况即可重新排序。 1 酶解法 蛋白质通过蛋白水解酶的裂解后将产生若干能够代表每个蛋白质特性的肽片段,用于特定的蛋白质裂解的蛋白水解酶包括外肽酶和内肽酶,裂解肽链的N-端或C-端的氨基酸可采用外肽酶,而内肽酶则用于切断肽链中某个特定部位。表10.5为常用的蛋白水解酶。 表10.5 用于蛋白质部分裂解的蛋白酶 蛋白酶酶切位点 内肽酶: 胰蛋白酶R n-1=Arg,Lys R n≠Pro 胃蛋白酶R n=Leu,Phe,Trp,Tyr,Val R n-1≠Pro 糜蛋白酶R n-1=Phe,Trp,Try R n≠Pro 内肽酶GluC R n-1=Glu

dna序列分析4

第四章 基因组测序的步骤:1、选择物种2、从细胞中分离DNA,获得大量高质量的样品3、吧经纯化的DNA随机切割成大小合适的重叠的片段4、把DNA片段插入载体中,这就可无限扩增5.、测出每一DNA片段的碱基序列6、确定片段间的重叠,把序列组装成最终的基因组序列 概念性翻译:给定一个DNA序列,可以利用遗传密码将其翻译为蛋白序列。 分子生物学的主要研究对象是核酸and 蛋白质生物大分子序列分析是生物信息学的核心方法。 “六框翻译”的步骤1对正向序列作Frame Shifting三次;2利用遗传密码表,得到三个正向翻译结果3将正向序列首尾对调,得到反向序列4对反向序列作A T G C 互补变换5对反向互补序列再作Frame Shifting三次6利用遗传密码表,得到三个反向翻译结果; EST分析工具通常分为3类: ①序列相似性查询( sequence similarity search )②序列组装( sequence assembly) ③序列聚类( sequence clustering) EST 要素1)EST字母表2)INDEL(插入/缺失)和移码(frame shift) 3)剪接变体4)非编码区EST 如何检测DNA序列中潜在的CDS? (1) ORF长度很难随机地发现很长的ORF,因而长的ORF很可能意味着存在CDS(2) Kozak 序列该序列是在起始密码子之前与核糖体作用的位点。在高等原核生物中其一致序列为GCCACC(ATG)而在酵母中为AAAAAA(ATG)。它们可以用来检测CDS的起始(3) 密码子用法(codon usage)在编码区和非编码区中,密码子用法是不同的。尤其是对特定氨基酸,密码子的用法可能随物种而变。因而,统计密码子用法可以用来推断5’和3’ UTR,并且有助于检测错译 当mRNA在编辑过程中产生不同的多肽时,所产生的蛋白质称为剪接变体(splice variant)或选择剪接形式(alternatively spliced form)。 表达序列标签(expressed sequence tag,EST)EST是从cDNA文库中生成的一些很短的序列(300-500bp),它们代表在特定组织或发育阶段表达的基因,有时可代表特定的cDNA。EST 可能是编码的,也可能不是,而两端有重叠序列的EST可以组装成全长的cDNA序列。 电子克隆,又称虚拟克隆(virtual cloning),其原理是根据大量EST具有相互重叠的性质,通过计算机算法获得cDNA全长序列。 子序列如果整个序列A与序列B的一部分完全一致,则称A为B的子序列。 序列对位排列分两大类全局对位排列(Global Alignment)针对序列的全长范围进行最优对位排列。局部对位排列(Local Alignment)只对局部范围进行最优对位排列。

蛋白质序列分析常用网站-2018.8

蛋白质序列分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。 基本理化性质分析:https://https://www.wendangku.net/doc/1511488403.html,/protparam/ 信号肽预测:http://www.cbs.dtu.dk/services/SignalP/ 在生物内,蛋白质的合成场所与功能场所常被一层或多层细胞膜所隔开,这样就涉及到蛋白质的转运。合成的蛋白质只有准确地定向运行才能保证生命活动的正常进行。一般来说,蛋白质的定位的信息存在于该蛋白质自身结构中,并通过与膜上特殊的受体相互作用而得以表达。在起始密码子之后,有一段编码疏水性氨基酸序列的RNA片段,这个氨基酸序列就这个氨基酸序列就是信号肽序列。含有信号肽的蛋白质一般都是分泌到细胞外,可能作为重要的细胞因子起作用,从而具有潜在的应用价值。 糖基化位点预测:http://www.cbs.dtu.dk/services/Net NGlyc/ 跨膜区分析:TMORED 蛋白质序列含有跨膜区提示它可能作为膜受体起作用,也可能是定位于膜的锚定蛋白或者离子通道蛋白等,从而,含有跨膜区的蛋白质往往和细胞的功能状态密切相关。 蛋白酶的结构功能进行预测和分析:http://smart.embl-heidelberg.de/ 同源建模分析:https://www.wendangku.net/doc/1511488403.html,//SWISS-MODEL.html 二级结构及折叠类预测:Predictprotein 特殊结构或结构预测:COILS MacStripe 疏水性分析:ExPASy的ProtScale 基于序列同源性分析的蛋白质功能预测: 至少有80个氨基酸长度范围内具有25%以上序列一致性才提示可能的显著性意义。类似于核酸序列同源性分析,用户直接将待分析的蛋白质序列输入NCBI/BLAST(https://www.wendangku.net/doc/1511488403.html,/blast),选择程序BLASTP就可网上分析。 基于motif、结构位点、结构功能域数据库的蛋白质功能预测 蛋白质的磷酸化与糖基化对蛋白质的功能影响很大,所以对其的分析也是生物信息学的一个部分。同时,分子进化方面的研究表明,蛋白质的不同区域具有

实验七核酸序列分析

实验七核酸序列分析 一、实验目的 1.掌握采用相关软件分析核酸序列分子质量、碱基组成及碱基分布等。2.掌握核酸序列变换的分析方法。 3.掌握核酸序列限制性酶切分析方法。4.了解引物设计的基本知识。 5.了解NCBI 序列信息提交方法,学习运用Bankit 进行序列提交。6.了解构建系统发育树的基本方法。 二、实验内容及操作程序 (一)DNAMAN 的安装和基本操作1.下载、安装DNAMAN 软件。 2 .使用Entrez信息查询系统检索一条你感兴趣的序列,如cytochrome oxidase (细胞色 素氧化酶)、catalse (过氧化氢酶)、H5N1 (禽流感)、peroxidase (过氧化物酶)、SOD (Superoxide Dimutase等部分或全长核酸序列,阅读序列注释,理解其含义;并将该序列以FASTA 序列格式显示和保存。 3. 打开DNAMAN 软件,点击edit—enter sequence>粘贴序列—OK (即生成一个文件) —点击File—Save as保存该序列文件(以.seq为后缀)。 4. 浏览该序列文件,在输出结果中Composition (碱基组成)和Percentage(碱基百分 比)以及Molecular Weight (分子质量)栏目中清楚地给出了关于该条序列的有关结果,并记录之。 5. 序列载入 6. 选择工作区左侧软件提供的Channel工具条,点击数字即可激活相应的Channel,每个 Channel 可存放一条序列。 7. 从碱基计数1 开始,选中该序列的所有碱基,点击Sequence—Load Sequence—From selection,即将该序列载入激活的Channel内,此时可对本序列进行分析。

基因序列分析

基因序列分析 核酸和蛋白质序列分析 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(https://www.wendangku.net/doc/1511488403.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment)双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST (https://www.wendangku.net/doc/1511488403.html,/BLAST/)。 以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。 (1)BLAST和FASTA FASTA(https://www.wendangku.net/doc/1511488403.html,/fasta33/)和BLAST(https://www.wendangku.net/doc/1511488403.html,/BLAST/)是目前运用较为广泛的相似性搜索工具。这两个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定有意义的局部比对。使用FASTA 和BLAST,进行数据库搜索,找到与查询序列有一定相似性的序列。一般认为,如果蛋白的序列一致性为25-30%,则可认为序列同源。BLAST 根据搜索序列和数据库的不同类型分为5种(表2),另外PSI-BLAST通过迭代搜索,可以搜索到与查询序列相似性较低的序列。其中BLASTN、BLASTP在实践中最为常用,TBLASTN在搜索相似序列进行新基因预测时特别有用。使用BLAST时,先选择需要使用的BLAST程序,然后提供相应的查询序列,选择所比对的数据库即可。

《蛋白质序列分析》word版

7 蛋白质序列分析与功能预测 (1) 7.1 引言 (1) 7.2 功能描述 (2) 7.2.1 基因本体 (3) 7.2.2 利用GO术语的功能注释 (7) 7.3 基于序列相似性的功能预测 (8) 7.3.1 基本预测方法 (10) 7.3.2 分析与讨论 (14) 7.3.3 蛋白质家族与序列的相似性聚类 (15) 7.4 基于蛋白质信号的功能预测 (17) 7.4.1 蛋白质信号 (17) 7.4.2 信号的描述 (22) 7.4.3 蛋白质模体、结构域和家族数据库 (28) 7.4.4 分析与讨论 (34) 7.5 基于蛋白质序列特征的功能预测 (35) 7.5.1 序列的理化性质 (35) 7.5.2 跨膜与卷曲螺旋分析 (37) 7.5.3 蛋白质翻译后修饰分析 (40) 7.5.4 亚细胞定位预测 (42) 7.5.5 基于序列特征的蛋白质分子功能预测 (44) 7.6 功能预测的其他思路 (45) 参考书目 (47)

7 蛋白质序列分析与功能预测 DNA经常被比喻为构筑生命的蓝图,相应地,蛋白质就是构筑生命体最主要的材料。蛋白质在生命过程中发挥着巨大的作用,它们执行着大部分生物功能。这些功能包括结构功能(如细胞骨架中的肌动蛋白)、酶功能(很多蛋白质可以催化生物反应,常见的蛋白质催化功能是使生物反应加速一定数量级),以及在细胞内或细胞间转运物质的功能。大量序列被测定带给了生物信息学家一个挑战,那就是如何从这些序列中找到基因,然后给基因加上注释,即给这些基因提供关于它们性质或功能的简单描述。 7.1 引言 继基因组结构注释(genome structural annotation)完成后,阐明基因组所表达的全部蛋白质的表达规律和生物功能,称为功能注释(functional annotation),成为研究的热点,是基因组注释(genome annotation)的重要组成部分。据Friedberg I称,2006年时,GeneBack中约有~40%的序列被标注为“unknown function”。由于蛋白质是生命活动的最终执行者,并且蛋白质功能的阐明将有助于疾病机理的研究并最终帮助人类进行药物设计与疾病治疗。因此,对基因产物——蛋白质的功能预测(protein functional prediction)是后基因组时代的一项重要任务。 尽管新的实验技术例如DNA芯片、酵母双杂交系统、RNA干扰以及大范围地、系统地缺失突变(knock-out)取得了巨大的进展,但这些方法都需要各种特定的设备,且价格昂贵、操作繁琐,成本高、周期长。由于实验同时会受到一些不可预知的环境以及人为因素的影响,其所得结果的可信度也需加以考虑。种种这些因素制约了蛋白质大规模分析的开展。目前,实验方法阐明蛋白质功能尚远远落后于序列的测定。面对呈指数增长的蛋白质序列数据,采用生物信息学的方法和手段来阐明大批量蛋白质序列的生物学功能具有非常重大的意义。 可采用生物信息学方法对蛋白质序列的功能进行预测的本质在于,承担核心生物功能的相当一部分基因被所有生物物种共享,从而可以利用某些特定物种中基因所编码的少量蛋白质序列(目前占已知蛋白质序列总数的5%)的已知生物功能信息(知识)对其他物种的大量蛋白质序列进行功能注释。Hawkins T于2006年在“Protein Science”上发表文章,将蛋白质序列分析和功能预测方法大致分为四类:

实验二 核酸序列分析

实验二核酸序列分析 【实验目的】 1、掌握已知或未知序列接受号的核酸序列检索的基本步骤; 2、掌握使用BioEdit软件进行核酸序列的基本分析; 1、熟悉基于核酸序列比对分析的真核基因结构分析(内含子/外显子分析); 2、了解基因的电子表达谱分析。 【实验原理】 针对核酸序列的分析就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求,有的程序只适用于长序列,而对EST这类残缺的序列则不适用。 1. 重复序列分析 对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。 2. 数据库搜索 把未知核酸序列作为查询序列,在数据库里搜索与之相似的已有序列是序列分析预测的有效手段。在理论课中已经专门介绍了序列比对和搜索的原理和技术。但值得注意的是,由相似性分析作出的结论可能导致错误的流传;有一定比例的序列很难在数据库里找到合适的同源伙伴。对于EST序列而言,序列搜索将是非常有效的预测手段。 3. 编码区统计特性分析 统计获得的经验说明,DNA中密码子的使用频率不是平均分布的,某些密码子会以较高的频率使用而另一些则较少出现。这样就使得编码区的序列呈现出可察觉的统计特异性,即所谓的“密码子偏好性”。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。这一类技术包括:双密码子计数(统计连续两个密码子的出现频率);核苷酸周期性分析(分析同一个核苷酸在3,6,9,...位置上周期性出现的规律);均一/复杂性分析(长同聚物的统计计数);开放可读框架分析等。 4. 启动子分析 启动子是基因表达所必需的重要序列信号,识别出启动子对于基因辨识十分重要。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征,并依次作为启动子预测的依据,但实际的效果并不十分理想,遗漏和假阳性都比

相关文档