文档库 最新最全的文档下载
当前位置:文档库 › 引物设计、序列比对、进化树制作

引物设计、序列比对、进化树制作

引物设计

构建进化树方法比较

【转载】分子进化树构建及数据分析的简介 分子进化树构建及数据分析的简介 mediocrebeing, rodger, lylover[1], klaus, oldfish, yzwpf [1] lylover. Email: lylover_2005@https://www.wendangku.net/doc/2e3201839.html, 一、引言 开始动笔写这篇短文之前,我问自己,为什么要写这样的文章?写这样的文章有实际的意义吗?我希望能够解决什么样的问题?带着这样的疑惑,我随手在丁香园(DXY)上以关键字“进化分析求助”进行了搜索,居然有289篇相关的帖子(2006年9月12日)。而以关键字“进化分析”和“进化”为关键字搜索,分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关,这里我保守的估计,大约有3,000~4,000篇帖子的内容,是关于分子进化的。粗略地归纳一下,我大致将提出的问题分为下述的几类:1.涉及基本概念。例如,“分子进化与生物进化是不是一个概念”,“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”,等等。 2.关于构建进化树的方法的选择。例如,“用boostrap NJ得到XX图,请问该怎样理解?能否应用于文章?用boostrap test中的ME法得到的是XXX树,请问与上个树比,哪个更好”,等等。 3.关于软件的选择。例如,“想做一个进化树,不知道什么软件能更好的使用且可以说明问题,并且有没有说明如何做”,“拿到了16sr RNA数据,打算做一个系统进化树分析,可是原来没有做过这方面的工作啊,都要什么软件”,“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”,“请问有做过进化树分析的朋友,能不能提供一下,做树的时候参数的设置,以及代表的意思。还有各个分支等数值的意思,说明的问题等”,等等。 4.蛋白家族的分类问题。例如,“搜集所有的关于一个特定domain的序列,共141条,做的进化树不知具体怎么分析”,等等。 5.新基因功能的推断。例如,“根据一个新基因A氨基酸序列构建的系统发生树,这个进化树能否说明这个新基因A和B同源,属于同一基因家族”,等等。 6.计算基因分化的年代。例如,“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近,具体推算出他们之间的分歧时间”,“如何估计病毒进化中变异所需时间”,等等。 7.进化树的编辑。例如生成的进化树图片,如何进行后续的编辑,比如希望在图片上标注某些特定的内容,等等。 由于相关的帖子太多,作者在这里对无法阅读全部的相关内容而致以歉意。同时,作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念,作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》(Molecular Evolution and Phylogenetics)一书,以及相关的分子进化方面的最新文献。对于问题7,作者之一lylover一般使用Powerpoint 进行编辑,而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。

构建系统发育树需要注意的几个问题

构建系统发育树需要注意的几个问题 1 相似与同源的区别:只有当序列是从一个祖先进化分歧而来时,它们才是同源的。 2 序列和片段可能会彼此相似,但是有些相似却不是因为进化关系或者生物学功能相近的缘故,序列组成特异或者含有片段重复也许是最明显的例子;再就是非特异性序列相似。 3 系统发育树法:物种间的相似性和差异性可以被用来推断进化关系。 4 自然界中的分类系统是武断的,也就是说,没有一个标准的差异衡量方法来定义种、属、科或者目。 5 枝长可以用来表示类间的真实进化距离。 6 重要的是理解系统发育分析中的计算能力的限制。任何构树的实验目的基本上就是从许多不正确的树中挑选正确的树。 7 没有一种方法能够保证一颗系统发育树一定代表了真实进化途径。然而,有些方法可以检测系统发育树检测的可靠性。第一,如果用不同方法构建树能得到同样的结果,这可以很好的证明该树是可信的;第二,数据可以被重新取样(bootstrap),来检测他们统计上的重要性。 分子进化研究的基本方法 对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。 表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(species tree)、基因树等等一些相同或含义略有差异的名称。 系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基

如何做系统进化树

大家好: 我在此介绍几个进化树分析及其相关软件的使用和应用范围。这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN (LINUX)。 在介绍软件之前,我先简要地叙述一下有关进化树分析的一些方法学问题。进化树也称种系树,英文名叫“Phyligenetic tree”。对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行排列(To align sequences)。做ALIGNMENT的软件很多,最经常使用的有CLUSTALX和CLUSTALW,前者是在WINDOW下的而后者是在DOS下的。⑵要构建一个进化树(To reconstrut phyligenetic tree)。构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。⑶对进化树进行评估。主要采用Bootstraping法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基);用最大可能性法分析序列则不需以上的诸多条件,但是此种方法计算极其耗时。如果分析的序列较多,有可能要花上几天的时间才能计算完毕。UPGMAM(Unweighted pair group method with arithmetic mean)假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就

Mega的使用以及进化树的绘制

1.MEGA构建系统进化树的步骤 2.CLUSTALX进行序列比对 1.MEGA构建系统进化树的步骤 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件,注意:所有序列的方向都要保持一致( 5’-3’)。如图: 2. 打开MEGA软件,选择"Alignment" - "Alignment Explorer/CLUSTAL",在对话框中选择Retrieve sequences from a file, 然后点OK,找到准备好的序列文件并打开,如图: 。 3. 在打开的窗口中选择”Alignment”-“Align by ClustalX” 进行对齐,对齐过程需要一段时间,对齐完成后,最好将序列两端切齐,选择两端不齐的部分,

单击右键,选择delete即可,如图: 。 4. 关闭当前窗口,关闭的时候会提示两次否保存,第一次无所谓,保存不保存都可以,第二次一定要保存,保存的文件格式是.meg。根据提示输入Title,然后会出现一个对话框询问是否是Protein-coding nucleotide sequence data, 根据情况选择Yes或No。最后出现一个对话框询问是否打开,选择Yes,如图: 。 5. 回到MEGA主窗口,在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” -“Neighbor-joining”,打开一个窗口,里面有很多参数可以设

置,如何设置这些参数请参考详细的MEGA说明书,不会设置就暂且使用默认值,不要修改,点击下面的Compute按钮,系统进化树就画出来了,如图: 在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“Minimun-evolution”,如图: 在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“Maximun-parsimony”,如图: 在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“UPGMA”,

进化树的建立过程

进化树的建立过程 1, 通过测序后,在NCBI 中进行BLAST 比对,看和哪个属中的种最近,从而确定进化树 中需比较的菌种,然后可以在权威的International Journal of Systematic and Evolutionary Microbiology 杂志中看最近是否有你要建树的菌的图,从而更捷径的得到典型的建树对比菌株(一般上标为T) 2, 打开MEGA 4在Alignment →Query Databank s → 在上图红色圈出的空格处添加建树对比菌的登入号,然后直接点击上头的Add to Alignment ,以此添加,当然添加的量可多也可少,按照自己的要求,建的树越大需要比对的就越多,反之,亦然。添加完之后会是如下的图形,可以参照 。 3 添加完对比的后,将自己测序菌株序列导入 如果拿回来后的序列是文本文档,就需要将它转化成fasta 格式,其实也就是在文本文档上头加个“>”号就可以,但是序列字母必须是大写的,如果是小写的,可以在DNAman 中转化成大写的(或者在EditSeq 中的先全选择序列后在edit 的reverse case 中转变,后如下操作),并且需每列中的数字去掉,保存为fasta 格式后, 这里输入建树的登入号

在MEGA的Edit→insert sequences to file将保存的fasta文件导入MEMA中,如果导入的序列是互补链的话,直接在添加的里面,点击导入链,右击后点击互补就行,选中所有的序列后,在Alignmen t选项中选中Align by clustalw让其自动分析后,出现这样的界面,然后在Date选项中输出格式选择为MEGA格式保存 4 再一次启动软件将上一步保存的文件打开,然后在我红色标记的采用的是“邻接法”建树。 然后点击“computer“就可以输出图了

运用mega5构建系统发生进化树.

1.准备序列文件 准备fasta格式序列文件(fasta格式:大于号>后紧跟序列名,换行后是序列。举例如下)。每条序列可以单独为一个文件,也可以把所有序列放在同一文件内。 核酸序列: >sequence1_name CCTGGCTCAGGATGAACGCT 氨基酸序列: >sequence2_name MQSPINSFKKALAEGRTQIGF 2.多序列比对 打开MEGA 5,点击Align,选择Edit/Build Alignment,选择Create a new alignment,点击OK。

这时需要选择序列类型,核酸(DNA)或氨基酸(Protein)。 选择之后,在弹出的窗口中直接Ctrl + V粘贴序列(如果所有序列在同一个文件中,即可全选序列,复制)。也可以:点击Edit,选择Insert Sequence From File,选择序列文件(可多选)。

序列文件加载之后,呈蓝色背景(为选中状态)。点击按钮,选择Align DNA (如果是氨基酸序列,则会出现Align Protein)。弹出的窗口中设置比对参数,一般都是采用默认参数即可。点击OK,开始多序列比对。

比对完成后,呈现以下状态。 这时需要截齐两端含有---的序列:选中含有---的序列,按键Delete删除(注意:两端都需要截齐)。截齐之后,保存文件为:filename.mas

3.构建系统进化树 多序列比对窗口,点击Data,选择Phylogenetic Analysis,弹出窗口询问:所用序列是否编码蛋白质,根据实际情况选择Yes或No。此时,多序列比对文件就激活了,可以返回MEGA 5主界面建树了。

多重序列比对及系统发生树的构建

多重序列比对及系统发生树的构建 作者:佚名来源:生物秀时间:2007-12-31 【实验目的】 1、熟悉构建分子系统发生树的基本过程,获得使用不同建树方法、建树材料和建树参数对建树结果影响的正确认识; 2、掌握使用Clustalx进行序列多重比对的操作方法; 3、掌握使用Phylip软件构建系统发生树的操作方法。 【实验原理】 在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我们了解生物进化的历史和进化机制。 对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行比对(alignment)。⑵要构建一个进化树(phyligenetic tree)。构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。⑶对进化树进行评估,主要采用Bootstraping法。进化树的构建是一个统计学问题,我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基);

构建系统进化树的方法步骤

构建系统进化树的方法步骤 1. 建树前的准备工作 1.1 相似序列的获得——BLAST BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。 首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。它们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。 这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。 BLASTN结果如何分析(参数意义): >gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus Query: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60 |||||||||||||||||||||||||||||||||||||||||| ||||||||| ||||| Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58 Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120 || ||||||||||||||||||||||||||||||| | |||||| ||||||||||||| Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118 Score :指的是提交的序列和搜索出的序列之间的分值,越高说明越相似;

构建生物进化树的方法比较

极为详细的建树方法,新手入门推荐 生物进化树的构建 目录 前言 (2) 一、 NCBI (6) 二、 Mega (9) 三、 DNAMAN (15) 四、DNAStar (18) 五、 Bio edit (21)

前言 1.背景资料 进化树(evolutionary tree)又名系统树(phylogenetie tree)进化树,用来表示物种间亲缘关系远近的树状结构图。在进化树中,各个分类单元(物种)依据进化关系的远近,被安放在树状图表上的不同位置。所以,进化树简单地表示生物的进化历程和亲缘关系。已发展成为多学科(包括生命科学中 的进化论、遗传学、分类学、分子生物学、生 物化学、生物物理学和生态学,又包括数学中的 概率统计、图论、计算机科学和群论)交叉形成的一个边缘领域。 归纳总结生物进化的总趋势有以下几类: ①结构上:由简单到复杂 ②生活环境上:由水生到陆生 ③进化水平上:由低等到高等 一般来说,进化树是一个二叉树。它由很多的分支和节点构成。根据位置的不同,进化树的节

点分为外部节点和内部节点,外部节点就是我们要进行分类的分类单元(物种)。而物种之间的进化关系则用节点之间的连线表示。内部节点表示进化事件发生的地方,或表示分类单元进化的祖先。在同一个进化树中,分类单元的选择应当标准一致。进化树上不同节点之间的连线称为分支,其中有一端与叶子节点相连的分支称为外枝,不与叶子节点相连的分支称为内枝。 进化树一般有两种:有根树和无根树。有根树有一个鲜明的特征,那就是它有一个唯一的根节点。这个根节点可以理解为所有其他节点的共同祖先。所以,有根树能可以准确地反映各个物种的进化顺序,从根节点进化到任何其他节点只有能有一条惟一的路径。无根树则不能直接给出根节点,无根树只反映各个不同节点之间的进化关系的远近,没有物种如何进化的过程。但是,我们可以在无根树种指派根节点,从而找出各个物种的进化路径。 无根树 有根树

进化树软件MEGA最新6.06说明书

第一步:打开软件 下面介绍菜单的使用: Data菜单: Creat a new :创建一个新的数据比对文件,也就是说当我们比对完一组后,想接着比对另一组,那么使用它就可以不用退出直接把数据文件导入; Open :打开先前已经比对并保存好的文件,它包含两个子菜单:retive sequence from file 和saved aligment session ; Close: 关闭当前的比对数据文件;

Save session :保存当前比对结果,可以给比对的结果一个文件名; Export alignment :将当前的序列比对结果输出到指定文件,有两种输入格式可供选 择:MGTA 和FASTA. DNA sequence :使用它来选择输入的数据DNA 序列,这里需要说明的是如果你输入的数据是氨基酸序列的话,比对窗口只显示一个标签,若是DNA 序列的话则显示两个标签,一个是DNA 序列的,另一个是氨基酸序列的。 Protein sequences :选择输入的氨基酸序列,选择后,所以的位点就被当作氨基酸残 基位点来对待。 Translate/untranslate :只有比对的序列是编码蛋白的DNA序列的时候才可用。它可以根据指定的遗传密码表将DNA 序列翻译成特定的氨基酸序列。 Select genetic code table :使用它将编码蛋白的DNA 翻译成特定的蛋白序列。 R everse complement :将选择的一整行的DNA 序列变为与之互补配对碱基序列。Exit alignment explorer :退出序列比对的资源管理窗口 Edit 菜单: 使用这个菜单可以对我们的比对序列进行想要的一些编辑工作具体为 Undo:撤销上一步操作; Copy:复制;Cut:剪切;Paste:粘贴;这三个操作都可以只针对一个碱基或 氨基酸残基也可以是一段甚至是整个序列; Delete:从比对表格中删除一段序列; Delete gaps:去掉序列中的空缺; Insert blank sequence:重新插入一空行;标签和序列都是空的; Insert sequence from file :从已保存的文件中插入新的序列;

MEGA构建系统进化树的步骤(以MEGA7为例)

MEGA构建系统进化树的步骤(以MEGA7为例) 本文是看中国慕课山东大学生物信息学课程总结出来的 分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化,是用它的DNA序列,还是翻译后的蛋白质序列呢?序列的选取要遵循以下原则:1)如果DNA序列的两两间的一致度≥70%,选用DNA 序列。因为,如果DNA序列都如此相似,它的蛋白质会相似到看不出区别,这对构建系统发生树是不利的。所以这种情况下应该选用DNA序列,而不选蛋白质序列。2)如果DNA序列的两两间的一致度≤70%,DNA序列和蛋白质序列都可以选用。 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件,注意:所有序列的方向都要保持一致( 5’-3’)。 想要做系统发生树先要做多序列比对,然后把多序列比对的结果提交给建树软件进行建树,所以在用MEGA建树时可以输入一个已经比对好的多序列比对,也可以输入一条原始序列,让MEGA先来做多序列比对,再建树(一般我们都是原始序列)。所以我们以后者为例。 2.打开MEGA软件,选择主窗口的”File”→“Open A File”→找到并打开fasta文件,这时会询问以何种方式打开,我们是原始序列,需要先进行多序列比对,所以选择“Align”。如果是比对好的多序列比对可以直接选择“Analyze”。 3.在打开的Alignment Explorer窗口中选择”Alignment”-“Align by ClustalW”进行多序列比对(MEGA提供了ClustalW和Muscle两种多序列比对方法,这里选择熟悉的ClustalW),弹出窗口询问“Nothing selected for alignment,Select all?”选择“OK”。 4. 之后,弹出多序列比对参数设置窗口。这个窗口和EMBL在线多序列比对一样,可以设置替换记分矩阵、不同的空位罚分(罚分填写的是正数,计算时按负数计算)等参数。MEGA的所有默认参数都是经过反复考量设置的,这保证了MEGA傻瓜机全自动档的品质,所以当你无从下手,或者没有什么特别要求的时候,直接点击“OK”,接受这些默认参数,开始多序列比对。

MEGA构建系统进化树的步骤(以MEGA7为例)教学文案

M E G A构建系统进化树的步骤(以M E G A7为 例)

MEGA构建系统进化树的步骤(以MEGA7为例) 本文是看中国慕课山东大学生物信息学课程总结出来的 分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化,是用它的DNA序列,还是翻译后的蛋白质序列呢?序列的选取要遵循以下原则:1)如果DNA序列的两两间的一致度≥70%,选用DNA序列。因为,如果DNA序列都如此相似,它的蛋白质会相似到看不出区别,这对构建系统发生树是不利的。所以这种情况下应该选用DNA序列,而不选蛋白质序列。2)如果DNA 序列的两两间的一致度≤70%,DNA序列和蛋白质序列都可以选用。 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件,注意:所有序列的方向都要保持一致 ( 5’-3’)。 想要做系统发生树先要做多序列比对,然后把多序列比对的结果提交给建树软件进行建树,所以在用MEGA建树时可以输入一个已经比对好的多序列比对,也可以输入一条原始序列,让MEGA先来做多序列比对,再建树(一般我们都是原始序列)。所以我们以后者为例。 2.打开MEGA软件,选择主窗口的”File”→“Open A File”→找到并打开fasta文件,这时会询问以何种方式打开,我们是原始序列,需要先进行多序列比对,所以选择“Align”。如果是比对好的多序列比对可以直接选择“Analyze”。 3.在打开的Alignment Explorer窗口中选择”Alignment”-“Align by ClustalW”进行多序列比对(MEGA提供了ClustalW和Muscle两种多序列比对方法,这

用MEGA构建进化树

如何用MEGA构建进化树 MEGA3、1就是一个关于序列分析以及比较统计得工具包,其中包括有距离建树法与MP建树法;可自动或手动进行序列比对,推断进化树,估算分子进化率,进行进化假设测验,还能联机得Web数据库检索。下载后可直接使用,主要包括几个方面得功能软件:i)DNA与蛋白质序列数据得分析软件。ii)序列数据转变成距离数据后,对距离数据分析得软件。iii)对基因频率与连续得元素分析得软件。iv)把序列得每个碱基/氨基酸独立瞧待(碱基/氨基酸只有0与1得状态)时,对序列进行分析得软件。v)绘制与修改进化树得软件,进行网上blast搜索。 用MEGA构建进化树有以下步骤: 1、16S rDNA测序与参考序列选取 从环境中分离到单克隆,去重复后扩增16S rDNA序列并测序,然后与数据库比对,找到相似度最高得几个序列,确定一下您分离得细菌大约属于哪个科哪个属,如果相似度达到百分之百那基本可以确定您分离得到得就就是Blast到得那个,然后找一到两个同科得,再找一到两个同目得,再找一到两个同纲得细菌,把序列全部下下来,以FSATA形式整合在TXT文档中,如 >TS1 GCAGTCGAACGATGAAGCCCAGCTTGCTGGGTGGA TTAGTGGCGAACGGGTGAGTAACACGTGGGTGATCTGCCCTGCACTTCGGGATAAGCCTGGGAAACTGGGTCTAATACCGGATAGGACCTCGGGA TGCATGTTCCGGGGTGGAAAGGTTTTCCGGTGCAGGATGGGCC >gi|117572706|gb|EF028124、1| Rhodococcus sp、Atl25 16S ribosomal RNAgene,partial sequence CGATTAGAGTTTGATCCTGGCTCAGGACGAACGCTGGCGGCGTGCTTAACACATGCAAGTCGAACGATGAAGCCCAGCTTGCTGGGTGGATTAGTGGCGAACGGGTGAGTAACACGTGGGTGA TCTGCCCTGCACTTCGGGATAAGCCTGGGAAACTGGGTCTAATACCGGAT >TS2 TGCAAGTCGAGCGAATGGA TTAAGAGCTTGCTCTTATGAAGTTAGCGGCGGA CGGGTGAGTAACACGTGGGTAACCTGCCCATAAGACTGGGATAACTCCGG GAAACCGGGGCTAATACCGGATAACATTTTGAACTGCATGGTTCGAAATTGAAAGGCGGCTTCGGCTGTCACT >gi|56383044|emb|AJ809498、1|Bacillus cereus partial16S rRNA gene, strainTMW 2、383 GA TGAACGCTGGCGGCGTGCCTAATACATGCAAGTCGAGCGAATGGATTAAGAGCTTGCTCTTATGAAGTTAGCGGCGGACGGGTGAGTAACACGTGGGTAACCTGCCCATAAGACTGGGA TAACTCCGGGAAACCGGGGCTAA TACCGGATAACA TTTTGAACYGCA TGGTTC…………………………、 …………………………、 参考序列选择有几个原则:a,不选非培养(unclutured)微生物为参比;b,所选参考序列要正确,里面无错误碱基;c,在保证同属得前提下,优先选择16S rDNA全长测序或全基因组测序得种;d,每个种属选择一个参考序列,如果自己得序列中同一属得较多,可适当选择两个参考序列。 2、序列比对

应用PHYLIP构建进化树的完整详细过程

一、获取序列 一般自己通过测序得到一段序列(已知或未知的都可以),通过NCBI的BLAST获取相似性较高的一组序列,下载保存为FASTA格式。用BIOEDIT等软件编辑序列名称,注意PHYLIP在DOS下运行,文件名不能超过10位,超过的会自动截留前面10位。 二、多序列比对 目前一般应用CLASTAL X进行,注意输出格式选用PHY格式。生成的指导树文件(DND文件)可以直接用TREEVIEW打开编辑,形式上和最终生成的进化树类似,但是注意不是真正的进化树。 三、构建进化树 1.N-J法建树 依次应用PHYLIP软件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和 CONSENSE.EXE打开。具体步骤如下: (1)打开seqboot.exe 输入文件名:输入你用CLASTAL X生成的PHY文件(*.phy)。 R为bootstrap的次数,一般为1000 (设你输入的值为M,即下两步DNADIST.EXE、NEIGHBOR.EXE中的M值也为1000) odd number: (4N+1)(eg: 1、5、9…) 改好了y 得到outfile(在phylip文件夹内) 改名为2 (2)打开Dnadist.EXE 输入2 修改M值,再按D,然后输入1000(M值) y 得到outfile(在phylip文件夹内) 改名为3 (3)打开Neighboor.EXE 输入3 M=1000(M值) 按Y 得到outfile和outtree(在phylip文件夹内) 改outtree为4,outfile改为402 (4)打开consense.exe 输入4 y 得到outfile和outtree(在phylip文件夹内) Outfile可以改为*.txt文件,用记事本打开阅读。 四、进化树编辑和阅读 outtree可改为*.tre文件,直接双击在treeview里看;也可以不改文件扩展名,直接用treeview、PHYLODRAW、NJPLOT等软件打开编辑。TREEVIEW可以显示BOOTSTRAN值,序列较多(60条以上)的时候打开直接显示有明显的重叠,可以在打印预览中显示,或输出为EMF WMF图片文件看,但是序列较多时BOOTSTRAN值的显示位置比较乱,和序列名称有重叠。 PHYLODRAW的编辑功能较强,可以自由调节X、Y轴的长度。输出格式为BMP、PS格式。缺点是不能直接显示BOOTSTRAN值,包括打开TREEVIEW输出的NEX文件,而且输出的BMP文件不全,类似截屏文件,我用PHOTOSHOP进行拼接合成,添加BOOTSTRAN值和注解符号等。据说也可以将PS文件用记事本打开,改变其中的字号,然后通过ADOBE DISTRILLOR将PS转化为P DF,就可以解决问题。如果发现还有重叠,可以再次改变PS文件中的字号大小,直到合适为止。 NJPLOT可以显示BOOTSTRAN值和分值长度。但是不能调节图片X、Y轴的长度。

构建系统进化树的详细步骤

构建系统进化树的详细步骤 1. 建树前的准备工作 1.1 相似序列的获得——BLAST BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool 的缩写,意 为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际著名生物信息中心 都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序 列之间相似性程度最高的片段,并作为核向两端延伸,以找出尽可能长的相似序列片段。 首先登录到提供BLAST服务的常用,比如国的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些提供的BLAST服务在界面上差不多,但所用的程序有所差异。它 们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明 行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是 任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就 可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。 这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。 BLASTN结果如何分析(参数意义): >gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus

phylip构建进化树详细操作过程

一、获取序列 将要比对的序列放到一个fasta文件中,文件内容类似如下: >gi|213627058|gb|热带爪蟾BC170657.1| Xenopus tropicalis ABO blood group (transferase A, alpha 1-3-N-acetylgalactosaminyltransferase; transferase B, alpha 1-3-galactosyltransferase), mRNA (cDNA clone MGC:197384 IMAGE:9039915), complete cds MVAFFCSLSWYAVKDRKWDPSIQHSCEEYWFRINGQKENRLQRMLYPKPETLKPPRTDVLTVSPWLAPI VWEGSFNTEILNNQFRQKGWRVGLTTFAIKKYIRFLKPFIETAEKFFMVGLPVNYYVFTDQASNVTDLN IIVGTGRQIIILEVPSYERWQDVTMRRMQMISDVCQQRFASEVDYLVCVDVDMRFQDHVGVEILSDVFG TLHPAFFVKGRDKFTYERRPESQAYIPEDEGDFYYAGGYFGGKVEEVYKLTNHCHHAMLTDKANNIEAI WHDESYLNSYFLYNKKPTKILSPEYLWNEMDGTAFYLRKIRFIALQKNMAEVRT >gi|homo MAEVLRTLAGKPKCHALRPMILFLIMLVLVLFGYGVLSPRSLMPGSLERGFCMAVREPDHLQRVSLPRM VYPQPKVLTPCRKDVLVVTPWLAPIVWEGTFNIDILNEQFRLQNTTIGLTVFAIKKYVAFLKLFLETAE KHFMVGHRVHYYVFTDQPAAVPRVTLGTGRQLSVLEVRAYKRWQDVSMRRMEMISDFCERRFLSEVDYL VCVDVDMEFRDHVGVEILTPLFGTLHPGFYGSSREAFTYERRPQSQAYIPKDEGDFYYLGGFFGGSVQE VQRLTRACHQAMMVDQANGIEAVWHDESHLNKYLLRHKPTKVLSPEYLWDQQLLGWPAVLRKLRFTAVP KNHQAVRNP 注意PHYLIP在DOS下运行,文件名不能超过10位,超过的会自动截留前面10位。 二、多序列比对 目前一般应用CLASTAL X进行,打开ClustalX 2.1,load sequence——save as (phylip)——Do complete alignment——获得*.Phy和*.dnd两个文件,生成的指导树文件(DND文件)可以直接用TREEVIEW打开编辑,形式上和最终生成的进化树类似,但是注意不是真正的进化树。 三、构建进化树 把文件拷贝到PHYLIP的exe文件夹目录下 1.N-J法建树 依次应用PHYLIP软件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和CONSENSE.EXE打开。具体步骤如下: (1)打开seqboot.exe 输入文件名:输入你用CLASTALX生成的PHY文件(*.phy); 按 R; 输入1000; Random number seed(must be odd): 本人一般设为5; 按Y; 得到outfile(在phylip的exe文件夹内),outfile改名为2; (2)打开Dnadist.EXE(若为蛋白序列,打开PROTDIST) 输入2; 按M; 再按D; 输入1000; 按Y; 得到outfile(在phylip的exe文件夹内),改名为3;

系统进化树视频教程-多序列比对教程等

所有视频内容和编号: 001-1系统进化树构建序列文件格式说明(1080P) 001-2 MEGA软件构建邻接树(NJ树) (1080P) 001-3 MEGA软件构建最大简约树(MP树) (1080P) 001-4 MEGA软件构建最大似然树(ML树) (1080P) 001-5 MEGA软件构建UPGMA树(1080P) 001-6 MEGA软件计算遗传距离和导出Excel(1080P) 001-7 MEGA软件分析序列特征-信息位点变异位点等(1080P) 001-8 MEGA软件对序列饱和性检验和作图(1080P) 001-9 MEGA软件最序列分组并计算组间和组内遗传距离(1080P) 001-10 MEGA软件对树图置根修改字体和字号等(1080P) 002-1 贝叶斯法Mrbayes构建系统进化树教程视频(1080P) 002-2 PAUP软件构建最大似然(ML)树教程 002-3 Mrbayes贝叶斯建树(MrMTgui模型计算)视频教程(1080P) 002-4 贝叶斯不收敛问题的解决办法(1080P) 002-5 PAUP软件构建最大似然(ML)树教程(1080P) 002-6 PAUP软件构建简约树(MP)树教程(1080P) 002-7 PAUP软件构建邻接树(NJ)树教程(1080P) 003-1 MAFFT多序列比对教程 003-2 Jmodeltest模型计算方法与说明 003-3 primer5引物设计 003-4 Photoshop图片排版(期刊格式) 003-4 primer5引物设计(加酶切位点)(1080P) 004-1 多基因序列快速联合(拼接)与格式转换-软件SequenceMatrix(1080P) 004-2 多基因序列快速联合(拼接)详细版-SequenceMatrix(1080P) 004-3 贝叶斯多基因片段联合分区建树(分区设定模型)(1080P) 005-1 MEGA软件美化树图置根等内容补充 005-2 如何编辑贝叶斯或PAUP(ML)树图(PDF格式)的名称、字体、分枝等并输出图片格式 005-3 MEGA软件修改树图标尺显示分枝长度自举值显示方式等设置(1080P)

序列谱进化树方法

活性中心序列谱及系统发育树的制作 杨曼丽 1 序列谱的制作 1.1 搜集数据 查找数据。在CAZy数据库(https://www.wendangku.net/doc/2e3201839.html,)中找到目标家族。All显示的是该家族所有的序列条目,Structure显示的是结构已经被实验解析的条目,Characterized显示的是有功能标注的条目。数据显示按Archaea、Bacteria和Eukaryota分类。排列按字母顺序。数据库中分别显示蛋白的名称、EC号、来源、GeneBank、Uniprot及PDB数据。 图1 下载PDB文件。将目标PDB文件下载。在同种蛋白含有不同PDB文件的时候注意文件的选取。可以通过上传时间、发表文献等找出最原始的结构,其他相关结构一般为该原始结构的突变结构。 下载Uniprot序列。将目标Uniprot文件下载,保存为Fasta格式。一般文件命名原则为:物种_EC号_Uniprot 号_PDB号(如果有的话)。物种用A、B、E标注。没有Uniprot号的用GenBank号代替。为了方便后续的建树,可以先将每个序列文件抬头(一般为第一行”>”标识)名称改为文件所命之名,这样可以省去在建树后改leaf名称的麻烦 1.2 活性中心架构的获取 底物的选取。用Pymol打开下载好的PDB文件,用present->ligands找出底物。也可显示全序列,查找序列末端。注意一般底物为BGC等糖环,而非ACT等小分子。有的底物在结构解析时有丢失,因此需要详细研究整个家族的PDB,以便将一些底物进行拼接。

图2 切点和方向的确定。找好底物后将整条糖链横向放置,找出非还原端和还原端(一般非还原端在左,还原端在右)。查找原始文献,找到切点位置,记录为0点。0点往非还原端方向的糖环分别为-1、-2、-3、-4……,往还原端方向的糖环分别为+1、+2、+3、+4……。 活性中心氨基酸的筛选。从一个糖环开始选取其邻近氨基酸。以5埃为例。选择第一个糖环的氧原子(如O6),Pymol的log会显示该原子的序号(如6006)。在CUI中输入命令:select near O6, resi 6006 around 5 。将选取出来的氨基酸保存后进行下一个原子周围的选取。 统计。用EXCEL对数据进行统计。一般首列为PDB号,首行为相对位置。比如一个氨基酸离-4位糖环的O4比较近,则命名此列为-4 O4。氨基酸的命名方法是位置号码+氨基酸名,如111A指的是111位的丙氨酸。将不同PDB的底物和相关氨基酸进行拼凑,至少保证每个位点上有一个氨基酸。 结构比对。打开VMD,Extension->Analysis->Multiseq. 输入PDB文件。选择Tools->Stamp Structural Alignment进行结构比对。比对完后找到目标氨基酸,将其同一位点所有结果都记录在EXCEL中。注意,空位点用“-”表示。 图3 注意:VMD使用的一些问题。 ①文件名不要超过8个字符否则会报错。因此之前为了建树方便的命名需要进行删减 ②在随后的结构模建中,用Swiss-model模建的结构有时候会有配体,而配体在源代码中显示为Z轴。这是VMD所不能识别的。因此,在结构比对之前需要把配体删除(如果是带有配体的PDB原文件则不影响)

相关文档
相关文档 最新文档