文档库 最新最全的文档下载
当前位置:文档库 › 两条序列比对与多序列比对

两条序列比对与多序列比对

两条序列比对与多序列比对
两条序列比对与多序列比对

实验三:两条序列比对与多序列比对

实验目的:

学会使用MegAlign,ClustalX和MUSCLE进行两条序列和多条序列比对分析

实验内容:

双序列比对是使两条序列产生最高相似性得分的序列排列方式和空格插入方式。两条序列比对是生物信息学最基础的研究手段。第一次实验我们用dotplot方法直观地认识了两条序列比对。但是dotplot仅仅是展示了两条序列中所有可能的配对,并不是真正意义上的序列比对。这里介绍进行两条序列比对的软件-MegAlign。

多序列比对是将多条序列同时比对,使尽可能多的相同(或相似)字符出现在同一列中。多序列比对的目标是发现多条序列的共性。如果说序列两两比对主要用于建立两条序列的同源关系,从而推测它们的结构和功能,那么,同时比对多条序列对于研究分子结构、功能及进化关系更为有用。多序列比对对于系统发育分析、蛋白质家族成员鉴定、蛋白质结构预测、保守模块的搜寻等具有非常重要的作用。我们这节课主要学习多条序列比对的软件-ClustalX, MUSCLE。

一、MegAlign

DNASTAR公司的Lasergene软件包是一个比较全面的生物信息学软件,它包含了7个模块。其中MegAlign可进行两条或多条序列比对分析。

1. 两条序列比对

1.1 安装程序

解压DNASTAR Lasergene软件压缩包,双击Lasergene710WinInstall.exe文件,按照默认路径安装软件到自己电脑上。

1.2 载入序列

a.点击开始-程序-Lasergene-MegAlign,打开软件。

我们首先用演示序列(demo sequence)学习软件的使用。演示序列所在位置:C:\Program files\ DNASTAR\ Lasergene\ Demo Megalign\ Histone Sequences\。

b. 点击主菜单File—Enter sequence-选择序列所在文件夹,选择序列tethis21.seq和tethis22.seq,点击Add,这两条序列将出现在右侧selected sequences框中(Figure 3.1),选择完毕点击Done回到程序页面。

Figure 3.1 载入序列

此时程序窗口分为三部分,最左侧较窄的是sequence name,中间显示的是序列起始位置,最右侧显示序列末尾部分,可以通过拖动窗口底部滚动条,查看序列其它部分(Figure 3.2)。若想改变字体显示方式,点击主菜单OPTIONS,选择Font改变字体,选择Size改变字号大小。若要移除序列,选中sequence name的序列名,右击,选clear。

Figure 3.2 载入序列后(注意标注的绿色箭头,即为坐标位置)

1.3 设定序列比对位置

MegAlign允许使用者选择序列的一部分进行比对分析,例如,可以根据GenBank格式的序列中Features部分关于编码区(CDS)位置的描述,设定只对此编码区进行分析。

a. 点击最左侧Sequence Name框中的第一条序列tethis,然后选择主菜单OPTIONS

-Set sequence limits-from feature table。(Figure 3.3)此时根据feature内容,出现四个可以选择的片段,第一个为全长,从序列起始到末尾(1-906),其它三个则只包括序列的一部分,选择最后一个Histone H2B-1—CDS,点击Change the Reset,点击OK,同样对第二条序列进行上述操作,回到主界面工作区,此时窗口中的序列起始和终止位置已经发生了变化。(Figure 3.4)

Figure 3.3 利用Feature Table选择序列特定部分

Figure 3.4 选择序列特定部分

b. 我们还可以通过设定序列坐标进行部分序列比对,首先选定序列,选择主菜单

OPTIONS-Set sequence limits-by coordinates,输入起始和终止位置坐标来选择部分序列进行分析。

注意:只有genbank格式的序列才可以Set sequence limits from feature table,fasta格式的序列因为没有feature那一项内容,只可以Set sequence limits by coordinates。

1.4 进行两条序列比对

如果输入两条序列后不设置序列起始和终止位置,默认是全长序列进行比对。

按住Shift选择序列tethis21和tethis22,然后点击主菜单Align-One pair,由于目前输入的是核酸序列,此时有两个选项,Wilbur-Lipman Method和Martiner NW Method。如果输入的是蛋白质序列,这两个选项将是灰色,只能用Lipman-Pearson Method进行比对。Wilbur-Lipman Method是一种以word为单位的(word-based)启发式局部比对方法;Martiner NW Method是一种改进了的全局动态规划算法。Lipman-Pearson Method是序列相似度搜索软件Fasta的比对算法,也是一种以word为单位的快速启发式算法。选择其中一个,出现比对参数设定窗口(Figure 3.5),选择默认参数不做更改,直接点击OK即可。

Figure 3.5 Wilbur-Lipman比对方法参数设定

这时出现一个新窗口,即为比对结果。可以选择OPTION-size,放大字号观察比对结果。可以看到在窗口上部显示的是比对方法名称,所用参数,两条序列各自的起止位置,相似度值,比对结果中空位数目,长度和一致序列的长度。随后就是比对结果部分,其中第一行是第一条序列,它上面的v70是标尺,其中的“V”的位置对应的是第一条序列的第70个核苷酸所在位置;第三行是第二条序列,它下方的数字同样对应该序列位置坐标;中间那行是根据两条序列比对结果中匹配部分推断出来的一致序列(consensus sequence),错配或空位显示为空白(Figure 3.6)。

Figure 3.6 Wilbur-Lipman方法比对结果

设置比对结果显示方式:点击比对结果窗口最左侧的按钮,出现Alignment View Options窗口,可以选择匹配,错配和一致序列的字符颜色和其它显示选项。推荐使用设置:选择match为红色,mismatch为绿色,consensus为蓝色,并选择show identities as vertical bars (一致序列显示为竖线),则得到Figure 3.7。还可以尝试选中或不选show header, show ruler,show names,show contest四个选项,看看显示结果有何变化。

Figure 3.7 Alignment View Options

TIP:MegAlign分析自己下载的序列时要注意序列扩展名

如果是从NCBI直接下载的fasta格式文件,可以象上面一样,用enter sequence直接将序列读入程序。但是如果序列文件是复制粘贴到txt文档中的,MegAlign程序是无法识别扩展名为txt的文件。此时可将每条序列文件(fasta或genbank格式皆可)扩展名改为MegAlign可以识别的类型(核酸序列为seq,蛋白质序列为pro),即可从File-Enter sequence 载入。

更改文件扩展名的方法:找到你要更改扩展名的文件,将.txt改为.seq或 .pro,此时会弹窗口,提示“如果改变文件扩展名,可能会导致文件不可用。确实要更改吗?”选择“是”,文件图标会变成MegAlign特定图标,说明修改成功。若扩展名自动隐藏,打开文件夹,点击窗口上的主菜单工具-文件夹选项,在打开的页面选择选项卡查看,去掉“隐藏已知文件类型的扩展名”前面的对勾,确定退出。然后再用上述方法更改扩展名。

2. 多序列比对

2.1 载入序列

进行多条序列比对的演示序列(demo sequence)在c:\program files\ dnastar\ lasergene\ demo megalign\ Calmodulin Sequences\ 文件夹里。

点击主菜单File-Enter Sequence-根据路径到达Calmodulin Sequences文件夹,点击Add All,此时14条序列全都出现在右侧的selected sequences框中,点击Done,回到主程序工作区。(Figure 3.8)这是来自14个物种的钙调蛋白。

Figure 3.8载入14条序列

2.2 序列比对

第一步,选择比对所用的打分矩阵。点击主菜单Align-Set residue Weight Table,由于钙

调蛋白比较保守,我们选择PAM100作为打分矩阵,点击OK结束设定(Figure 3.9)。

Figure 3.9 选择打分矩阵

此时还可以通过点击Align-Method Parameters设定比对所用的其它参数。打开的新窗口

中包含三个选项卡,Jotun Hein、Clustal V和Clustal W,对应程序中多条序列比对可用的三种

算法。推荐大家不做修改,使用默认参数即可。

第二步,比对。点击Align-by Clustal V Method,此时出现窗口显示比对进度,比对结束

后,回到原来工作窗口,显示比对结果。注意序列上方彩色条块,颜色代表对应列中相似程

度,相似度由低到高,依次以深蓝、浅蓝、绿、黄、桔、红几种颜色代表。(Figure 3.10)

Figure 3.10 比对后结果

2.3 查看比对结果

此时可以通过几种方式观察比对结果。

a.点击View-Sequence Distances出现新窗口,显示两两序列percent identity(上半部分)和divergence(下半部分)。

Figure 3.11 比对结果-一致度(identity)

b.点击View-Residue Substitutions出现新窗口,显示比对中所有替换的类型和数目。

Figure 3.12 比对结果-替换情况

c.点击View-Phylogenetic Tree出现新窗口,显示根据14条序列比对结果构建出的进化树。

Figure 3.13 比对结果-进化树

d.点击View-Alignment Reports出现新窗口,显示比对结果报告。点击OPTIONS-Alignment report contents,选中show consensus strength,其它不变,点击OK。在序列上方出现条块,显示每一列序列的相似程度。

Figure 3.14选择show consensus strength显示结果

设置比对结果显示方式:突出显示匹配或错配的氨基酸。点击OPTIONS-New Decorations,在alignment decoration name框里输入shade disagreements(自己定义名字),选择decoration parameters为shade—residues differing from—the consensus,此时下方出现新的选项,选择对选定字符突出显示的颜色,选择完毕,点击OK,则与majority序列不同的字符将突出显示。(Figure 3.15)

Figure 3.15 修改alignment report显示模式

二、Clustalx

https://www.wendangku.net/doc/9211071058.html,/

Clustal是一种利用渐近法(progressive alignment)进行多条序列比对的软件。即从多条序列中最相似(距离最近)的两条序列开始比对,按照各个序列在进化树上的位置,由近及远的将其它序列依次加入到最终的比对结果。(Figure 3.16)

Figure 3.16 clustal 算法

Clustal软件有两个版本,其中clustalw采用命令行的形式在DOS下运行的。 Clustalx 是可视化界面的程序,我们今天学习Clustalx的使用。

2.1 安装clustalx

下载clustalx软件,按照默认安装到自己的电脑上。

2.2 准备要比对的序列

将上节课搜索到的同源核酸fasta文件,全部粘贴到一个文本文件中,所有的蛋白质序列存入另一个文本文件。注意序列的登录号最好是以NM、NP、NR开头,不要使用NC、NT或NW开头的序列,因为全基因组序列太长,分析起来速度非常慢。

TIP:可以在fasta序列“>”之后加上物种名称,加空位,方便看树时了解进化关系。

2.3 载入序列

点击开始-程序-clustalX2-clustalX2。

点主菜单File,选择Load Sequence-选择刚保存的序列文件,点打开。

注意:ClustalX程序无法识别汉字、带空位的文件夹名,如 my document。不要将序列文件保存在桌面上或带汉字的文件夹中,推荐保存在D盘根目录下。

载入序列后在左侧窗口里是fasta格式序列的标识号,取自序列第一行“>”后的字符。(Figure 3.17)

TIP:如果每条序列单独保存为一个文件,可以使用File-Append sequence选项将序列一条条添加进来。

Figure 3.17 载入序列

2.4 比对参数的选择

比对前先要设置两条序列比对的参数和多条序列比对的参数。

a.两条序列比对的参数

点击Alilgnment菜单,选择Alignment Parameters,再选择Pairwise Alignment Parameters,如Figure 3.18.首先可以选择比对的效果,是slow/accurate 还是fast/approximate。第一种模式采用的是动态规划算法进行比对的,第二种模式采用的是启发式的算法。除非序列非常长,一般采用第一种模式。可以选择空位罚分系统,DNA或蛋白质替换矩阵,也可以自己上传某个替换矩阵进行比对。

Figure 3.18 Pairwise Alignment Parameters

b.多条序列比对参数

点击Alilgnment菜单,选择Alignment Parameters,再选择Multiple Alignment Parameters,如Figure 3.19.

Figure 3.19 Multiple Alignment Parameters

Delay divergent sequence是指当两条序列的差异大于某个值(百分比)时,这两条序列的比对将推迟进行,程序先比对相似序列,对于相似度不够高的序列,晚些时候进行比对,加入到最终的多条序列比对结果时也要迟些。DNA transition Weight等于0的时候,程序将转换当作错配(mismatch)看待,等于1的时候,将转换和颠换同等看待。当参与比对的序列差异较大时,DNA transition Weight应该选择的小些(接近0),如果参与比对的序列差异较小时,DNA transition Weight可选择的大些(接近1)。

2.5 更改输出格式

点击Alignment菜单,选择Output Format Options,页面如Figure 3.20 。

默认的是输出clustal format,如果需要其它格式,可在复选框里打勾。如PHYLIP格式是利用PHYLIP软件进行建树时,需要输入的格式(这里两种格式都选上,以备下节课构建系统发育树使用)。

Figure 3.20 输出格式选项

2.6 进行比对

点击Aliglnment菜单,选择Do Complete Alignment.此时出现一个对话框,提示比对结果保存的位置,上一步选择了多少种输出格式,这里就需要给出多少个文件的路径。选择好了点OK即可。

要得到理想的比对结果,你可能需要选择不同的参数,进行多次比对,最后再对各种比对结果进行分析,选择哪个是最合理的结果(result making biological sense)。

比对结束后生成的aln文件是多条序列比对的结果,可以用写字板打开浏览(Figure 3.21)。在某一列比对结果下方如果出现“*”,说明这列是完全匹配。生成的dnd文件是比对过程中利用NJ方法生成的进化树,可以用treeview程序浏览。treeview软件安装和使用见第2.8部分内容。

Figure 3.21生成的aln文件

2.7迭代比对

可以采用迭代选项,多次迭代来寻找最佳比对结果。

点击Alignment菜单,选择iteration,选择iterate each alignment step或iterate final alignment.

然后再点击Aliglnment菜单,选择Do Complete Alignment进行比对,即可达到迭代的效果,将没有利用迭代比对得到的结果与迭代后的结果进行比较,看是否存在差异。

其它不详之处请参考clustalx.pdf文件。

2.8 Treeview

下载地址:https://www.wendangku.net/doc/9211071058.html,/rod/treeview.html

Treeview是一个专门绘制和浏览进化树的软件。Clustalx产生的进化树(即后缀为dnd 文件),可以通过treeview软件浏览。

双击treeview_setup.exe文件按照默认将程序安装到电脑上。

双击后缀为dnd的文件,选择treeview程序打开即可。也可以打开treeview软件,将dnd文件拖放到treeview软件窗口里打开。

TIP: 由于电脑中没有安装打印机导致treevie无法正常显示解决方案。

我的电脑右击-管理-服务和应用程序-服务-printspooler-点右键启动。

如果仍有问题,点击开始-设备和打印机-选添加打印机-按照向导提示任意添加一个打印机驱动即可。

三、MUSCLE

MUSCLE是一款非常好用的多序列比对软件,它的速度不输于Clustal,但精确度要高的多。

Figure 3.22 MUSCLE算法

MUSCLE的算法分为三步:首先计算两两序列共有的短片段(k-mer)数量,以此为基础构建初步引导树(TREE1),参照引导树,采用渐进算法得到多序列比对结果MSA1;然后,根据MSA1计算两两序列的距离,根据新的距离矩阵,构建更精确的引导树(TREE2),比较TREE2和TREE1,将发生变动部分的序列重新比对,得到新的多序列比对结果,重复前面的过程,即根据多序列比对结果构建距离矩阵,计算新的引导树,比较新树与旧树差异,重新比对部分序列,得到新的多序列比对结果,等到树型稳定或迭代次数超过一个值,这一迭代即可终止;第三步才是真正意义上的迭代,以引导树为基础将序列分为两组,分别比对后再比对得到所有序列的比对结果,如果新的比对方式使得分增加就保留,反之则抛弃,这样不断分组,比对,评估,直到比对得分收敛或迭代次数达到一定值。

MUSCLE是一款DOS环境的程序,EBI还提供了网页版的MUSCLE。

3.1 网页版MUSCLE: https://www.wendangku.net/doc/9211071058.html,/Tools/msa/muscle/

Figure 3.23 MUSCLE @ EBI

Figure 3.24 MUSCLE比对结果页面

3.2 DOS版MUSCLE

主页左侧一栏Download可下载DOS版程序,DOS版本的也很容易使用。

点击开始菜单-运行-输入CMD-利用DOS命令(cd)到达MUSCLE所在文件夹。-在DOS 窗口中输入“MUSCLE –in protein.txt –out output.txt –clw”点回车即可。这里解释一下上面参数的意义:

-in 后面是待比对的序列文件名(所有待比对fasta序列放在一个文件中),可自己定义。

-out后面是输出文件名,同样可以自定。

-clw 输出格式类似clustal程序,方便我们与clustal方法的结果作比较。

运行结束打开输出文件(output.txt)即可查看。

Figure 3.25 4.19 DOS版MUSCLE运行页面

Figure 3.26 MUSCLE运行结果

作业

1.从上节课搜索到的同源序列中选择两条序列,使用MegAlign进行全长比对,比对结果设

置为红色突出显示匹配字符。再选择序列部分区域进行比对〔通过feature table选择(需Genbank格式序列)或通过坐标coordinate选择(Fasta格式序列即可)〕,设置比对结果为匹配字符绿色,错配字符红色,用蓝色竖线表示一致序列,不显示标尺。

2.利用MegAlign对之前搜索到的同源核酸和蛋白质序列进行多序列比对分析。比对结果报

告(alignment report)以条状图显示每一列序列的相似程度,并以红色突出显示错配字符。

3.利用ClustalX对上题的序列进行多序列比对分析。说明你的参数如何设置,解释比对产

生的进化树(dnd文件),并对比对结果进行分析(序列之间相似度关系,是否存在保守位点及其所在位置等)。

4.利用MUSCLE将上题中的序列进行多序列比对,比对结果以Clustalw格式输出。

5.比较MegAlign,ClustalX和MUSCLE三种方法的结果是否存在差异?

Clustalx 多重序列比对图解教程(图解使用)

Clustalx 多重序列比对图解教程(By Raindy) 本帖首发于Raindy'blog,转载请保留作者信息,谢谢!欢迎有写生物学软件专长的战友,加入生信教程写作群:,接头暗号:你所擅长的生物学软件名称 软件简介: CLUSTALX-是CLUSTAL多重序列比对程序的Windows版本。Clustal X为进行多重序列和轮廓比对和分析结果提供一个整体的环境。 序列将显示屏幕的窗口中。采用多色彩的模式可以在比对中加亮保守区的特征。窗口上面的下拉菜单可让你选择传统多重比对和轮廓比对需要的所有选项。 主要功能: 你可以剪切、粘贴序列以更改比对的顺序; 你可以选择序列子集进行比对; 你可以选择比对的子排列(Sub-range)进行重新比对并可插入到原始比对中; 可执行比对质量分析,低分值片段或异常残基将以高亮显示。 当前版本:1.83 PS:如果你是新手或喜欢中文界面,推荐使用本人汉化的Clustalx 1.81版链接地址::ist&ID=7435(请完整复制) 应用:Clustalx比对结果是构建系统发育树的前提 实例:植物呼肠孤病毒属外层衣壳蛋白P8(AA序列)为例 流程:载入序列―>编辑序列―>设置参数―>完全比对―>比对结果 1.载入序列:运行ClustalX,主界面窗口如下所图(图1),依次在程序上方的菜单栏选择“File”-“Load Sequence”载入待比对的序列,如图2所示,如果当前已载入序列,此时会提示是否替换现有序列(Replace existing sequences),根据具体情形选择操作。

图1

图2 2.编辑序列:对标尺(Ruler)上方的序列进行编辑操作,主要有Cut sequences(剪切序列)、Paste sequences(粘贴)、Select All sequences(选定所有序列),Clear sequence Selection(清除序列选定)、Search for string(搜索字串)、Remove All gaps(移除序列空位)、Remove Gap-Only Columns(仅移除选定序列的空位)

实验3 两条序列比对与多序列比对

实验三:两条序列比对与多序列比对 实验目的: 学会使用MegAlign,ClustalX和MUSCLE进行两条序列和多条序列比对分析 实验内容: 双序列比对是使两条序列产生最高相似性得分的序列排列方式和空格插入方式。两条序列比对是生物信息学最基础的研究手段。第一次实验我们用dotplot方法直观地认识了两条序列比对。但是dotplot仅仅是展示了两条序列中所有可能的配对,并不是真正意义上的序列比对。这里介绍进行两条序列比对的软件-MegAlign。 多序列比对是将多条序列同时比对,使尽可能多的相同(或相似)字符出现在同一列中。多序列比对的目标是发现多条序列的共性。如果说序列两两比对主要用于建立两条序列的同源关系,从而推测它们的结构和功能,那么,同时比对多条序列对于研究分子结构、功能及进化关系更为有用。多序列比对对于系统发育分析、蛋白质家族成员鉴定、蛋白质结构预测、保守模块的搜寻等具有非常重要的作用。我们这节课主要学习多条序列比对的软件-ClustalX, MUSCLE。 一、MegAlign DNASTAR公司的Lasergene软件包是一个比较全面的生物信息学软件,它包含了7个模块。其中MegAlign可进行两条或多条序列比对分析。 1. 两条序列比对 1.1 安装程序 解压DNASTAR Lasergene软件压缩包,双击Lasergene710WinInstall.exe文件,按照默认路径安装软件到自己电脑上。 1.2 载入序列 a.点击开始-程序-Lasergene-MegAlign,打开软件。 我们首先用演示序列(demo sequence)学习软件的使用。演示序列所在位置:C:\Program files\ DNASTAR\ Lasergene\ Demo Megalign\ Histone Sequences\。 b. 点击主菜单File—Enter sequence-选择序列所在文件夹,选择序列tethis21.seq和tethis22.seq,点击Add,这两条序列将出现在右侧selected sequences框中(Figure 3.1),选择完毕点击Done回到程序页面。 Figure 3.1 载入序列

多重序列比对及系统发生树的构建

多重序列比对及系统发生树的构建 作者:佚名来源:生物秀时间:2007-12-31 【实验目的】 1、熟悉构建分子系统发生树的基本过程,获得使用不同建树方法、建树材料和建树参数对建树结果影响的正确认识; 2、掌握使用Clustalx进行序列多重比对的操作方法; 3、掌握使用Phylip软件构建系统发生树的操作方法。 【实验原理】 在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我们了解生物进化的历史和进化机制。 对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行比对(alignment)。⑵要构建一个进化树(phyligenetic tree)。构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。⑶对进化树进行评估,主要采用Bootstraping法。进化树的构建是一个统计学问题,我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基);

多序列比对

在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比对,都可以回答大量的其它的生物学问题。举例来说,面对一堆搜集的比对序列,人们会研究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性。 显然,分析一群相关蛋白质时,很有必要了解比对的正确构成。发展用于多序列比对的程序是一个很有活力的研究领域,绝大多数方法都是基于渐进比对(progressive alignment)的概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者更准确地说是系统发生学上的相互关联。不同算法从不同方面解决这一问题,但是当比对的序列大大地超过两个时(双重比对),对于计算的挑战就会很令人生畏。在实际操作中,算法会在计算速度和获得最佳比对之间寻求平衡,常常会接受足够相近的比对。不管最终使用的是什么方法,使用者都必须审视结果的比对,因为再次基础上作一些手工修改是十分必要的,尤其是对保守的区域。 由于本书偏重于方法而不是原理,这里只讨论一小部分现成的程序。我们从两个多序列比对的方法开始,接下去是一系列的利用蛋白质家族中已知的模体或是式样的方法,最后讨论两个具有赠送的方法,因为绝大多数公开的算法不能达到出版物的数量。在本章结尾部分将会列出更详细的多序列比对的算法。 渐进比对方法 CLUSTAL W CLUSTAL W算法是一个最广泛使用的多序列比对程序,在任何主要的计算机平台上都可以免费使用。这个程序基于渐进比对的思想,得到一系列序列的输入,对于每两个序列进行双重比对并且计算结果。基于这些比较,计算得到一个距离矩阵,反映了每对序列 Bioinformatics: A Practical Guide to the Analysis of genes and Proteins Edited by A.D. Baxevanis and B.E.E. Ouellette ISBN 0-471-191965. pages 172-188. Copyright ? 1998 Wiley – Liss. Inc.

用ClustalX做多序列比对分析

用ClustalX做多序列比对分析图示 1、打开程序 如下图所示: 2、Load Sequnce, 载入序列 如下图所示: fasta格式的文件关键不在于文件名的后缀是什么,而是在于序列的格式。fasta的格式是: 1、第一行以>开头,紧接着序列的注释和描述。 2、第二行是纯序列atgcg.... 其他序列再起一行,如此下去就可以了。 如: >seq1 |this is a example atgattggaacttgacgt.... >seq2 |this is another example ttgagttgaccgtgacgtgag.....

3、选择序列文件,FASTA格式的 如下图所示: 4、用文本编辑器察看FASTA序列文件容,这里用的是记事本,推荐用EditPlus或者Ultraedit

如下图所示: 5、序列Load进去之后如下图所示:

6、Do Complete Alignment, 通常情况下直接选这个即可,无须修改比对参数 如下图所示: 7、点Do Complete Alignment之后弹出的文件对话框,.dnd的是输出的指导树文件,.aln的是序列比对结果,它们都是纯文本文件 如下图所示:

点“ALIGN”之后开始等待,如果序列不多,很快就可以算完,如果数据很多,可能要等一段时间,这时候可以用眼睛盯着ClustalX的状态栏,那里会有程序运行状态和现在正在比对那两条序列的提示信息,看看可以消磨时间。。。 8、比对结束之后,我们可以看到这个结果 如下图所示:

9、这时候我们可以发现ClustalX已经生成了.dnd和.aln两个文件,仍然用文本编辑器打开来看,这时.aln文件,这个文件可以用Mega2做进一步的bootstrap进化树分析 如下图所示: 10、这是.dnd文件(指导树) 如下图所示:

多重序列比对

第三章序列比较 3.3 序列多重比对 与序列两两比对不一样,序列多重比对(Multiple Alignment)的目标是发现多条序列的共性。如果说序列两两比对主要用于建立两条序列的同源关系和推测它们的结构、功能,那么,同时比对一组序列对于研究分子结构、功能及进化关系更为有用。例如,某些在生物学上有重要意义的相似性只能通过将多个序列对比排列起来才能识别。同样,只有在多序列比对之后,才能发现与结构域或功能相关的保守序列片段。对于一系列同源蛋白质,人们希望研究隐含在蛋白质序列中的系统发育的关系,以便更好地理解这些蛋白质的进化。在实际研究中,生物学家并不是仅仅分析单个蛋白质,而是更着重于研究蛋白质之间的关系,研究一个家族中的相关蛋白质,研究相关蛋白质序列中的保守区域,进而分析蛋白质的结构和功能。序列两两比对往往不能满足这样的需要,难以发现多个序列的共性,必须同时比对多条同源序列。 图3.14是从多条免疫球蛋白序列中提取的8个片段的多重比对。这8个片段的多重比对揭示了保守的残基(一个是来自于二硫桥的半胱氨酸,另一个是色氨酸)、保守区域(特别是前4个片段末端的Q-PG)和其他更复杂的模式,如1位和3位的疏水残基。实际上,多重序列比对在蛋白质结构的预测中非常有用。

多重比对也能用来推测各个序列的进化历史。从图3.14可以看出,前4条序列与后4条序列可能是从两个不同祖先演化而来,而这两个祖先又是由一个最原始的祖先演化得到。实际上,其中的4个片段是从免疫球蛋白的可变区域取出的,而另4个片段则从免疫球蛋白的恒定区域取出。当然,如果要详细研究进化关系,还必须取更长的序列进行比对分析。 对于多重序列比对的定义,实际上是两个序列的推广。设有k个序列s1, s2, ... ,s k,每个序列由同一个字母表中的字符组成,k大于2;通过插入操作,使得各序列s1, s2, ... ,s k的长度一样,从而形成这些序列的多重比对。如果将各序列在垂直方向排列起来,则可以根据每一列观察各序列中字符的对应关系,如图3.14。 通过序列的多重比对,可以得到一个序列家族的序列特征。当给定一个新序列时,根据序列特征,可以判断这个序列是否属于该家族。对于多序列比对,现有的大多数算法都基于渐进比对的思想,在序列两两比对的基础上逐步优化多序列比对的结果。进行多序列比对后,可以对比对结果进行进一步处理,例如构建序列的特征模式,将序列聚类,构建分子进化树等。 3.3.1 SP模型 SP 模型(Sum-of-Pairs,逐对加和)是一种多重序列比对的评价模型。在多重比对中,首先要对所得到的比对进行评价,以确定其优劣。例如,对图3.14中的8条序列进行比对,可以得到另外两种结果,如图3.15所示。那么,这样的三个多重比对,哪一个更好呢?这就需要有一种方法来评价一个多重比对。

相关文档
相关文档 最新文档