当前位置：文档库 › 多序列比对和进化树分析(含gendoc)页

多序列比对和进化树分析(含gendoc)页

进化树的研究

1 引言生物信息学是生物技术的核心，是在分子生物学和信息科学共同发展的基础上产生的一门交叉学科，包含对生物数据的获取、处理、存储、分发、分析、挖掘等方面的研究内容。生物信息学的研究对于最终改善人类自身生活质量，解决健康问题等也有重大的作用。随着分子生物学的不断发展，人们惊奇地发现DNA 的双螺旋结构中蕴涵着生命的密码，四种核苷酸的排列、变化包含着许多遗传、进化信息。人类基因组计划以来，有关核酸（或蛋白质）序列和结构的数据成指数增长，而面对如此复杂的数据，计算机在此方面的应用必不可少。因此，生物信息学研究的目的就在于，人们通过数学、计算机科学等各种工具，可以阐明和理解大量数据包含的生物学意义。由于深度测序和基因芯片技术的不断完善和发展，表达谱、转录组、基因组等数据不断增长。到目前为止，已被测序的昆虫基因至少有10个，被报道的转录组数据也有30多个。生物信息学在昆虫学研究中的应用价值随着昆虫学研究的不断深入和昆虫生物数据的大量积累越来越明显。大量医学昆虫、经济昆虫和农业昆虫的基因组在模式昆虫果蝇的基因组测序成功之后也相继被测序。昆虫种类繁多、进化关系复杂、个体发育系统多样对于生物的多样性组成也占有举足轻重的地位。此外，昆虫与人类的日常生活和生产亦有密切的关系。例如，家蚕、蜜蜂等经济类益虫能够为人类提供日常生产资料和生活资源，害虫能给人类带来巨大的损失。对昆虫基因组进行深入研究不仅能为传统昆虫学科的发展提供崭新的机遇，而且对深入了解昆虫的多样性及其生物学特征与本质具有重大意义。所有生物都可以追溯到共同的祖先，生物的产生和分化就像树一样的生长，分叉，因此以树的形式来表示生物间的进化关系是非常合理的。根据各类生物间的亲缘关系的远近，把生物安置在树状图表上，简明地表示生物的进化历程和亲缘关系的树状结构就是进化树。在进化树上每个叶子结点代表一个物种，每一条边都被赋予一个适当的权值的话，两个物种之间的差异程度就可以用两个叶子结点间的最短距离来表示。 2 生物信息学

介绍几个进化树分析及其相关软件

大家好：我在此介绍几个进化树分析及其相关软件的使用和应用范围。这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN （LINUX）。在介绍软件之前，我先简要地叙述一下有关进化树分析的一些方法学问题。进化树也称种系树，英文名叫“Phyligenetic tree”。对于一个完整的进化树分析需要以下几个步骤：⑴要对所分析的多序列目标进行排列（To align sequences）。做ALIGNMENT的软件很多，最经常使用的有CLUSTALX和CLUSTALW，前者是在WINDOW下的而后者是在DOS下的。⑵要构建一个进化树（To reconstrut phyligenetic tree）。构建进化树的算法主要分为两类：独立元素法（discrete character methods）和距离依靠法（distance methods）。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的（例如：一个序列上可能包含很多的酶切位点，而每个酶切位点的存在与否是由几个碱基的状态决定的，也就是说一个序列碱基的状态决定着它的酶切位点状态，当多个序列进行进化树分析时，进化树的拓扑形状也就由这些碱基的状态决定了）。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法（Maximum Parsimony methods）和最大可能性法（Maximum Likelihood methods）；距离依靠法包括除权配对法（UPGMAM）和邻位相连法（Neighbor-joining）。⑶对进化树进行评估。主要采用Bootstraping法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法，那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说，最大简约性法适用于符合以下条件的多序列：i 所要比较的序列的碱基差别小，ii 对于序列上的每一个碱基有近似相等的变异率，iii 没有过多的颠换/转换的倾向，iv 所检验的序列的碱基数目较多（大于几千个碱基）；用最大可能性法分析序列则不需以上的诸多条件，但是此种方法计算极其耗时。如果分析的序列较多，有可能要花上几天的时间才能计算完毕。UPGMAM（Unweighted pair group method with arithmetic mean）假设在进化过程中所有核苷酸/氨基酸都有相同的变异率，也就

进化树分析步骤

进化树分析步骤一、用CLUSTALX（1.83）排列序列（alignment）方法： 1、打开记事本，以FASTA格式粘贴序列到记事本，所有要比对的序列都这么粘贴，格式如下： >aa （序列名称） aaagggtttttcccc（序列） >bb aaagggtttttcccc >cc aaagggtttttcccc 2、用ClustalX打开记事本文件。导入第一个文件用load sequence, 后面的文件用append sequence。都在file下拉菜单里。 3、用ClustalX排序后，输出格式为*.PHY，保存。用记事本打开如下图：图中的8和50分别表示8个序列和每个序列有50个碱基。二、phylip软件进行进化树分析 1、打开软件SEQBOOT

路径输入刚才生成的*.PHY文件，并在Random number seed (must be odd) ?的下面输入一个4N+1的数字后，屏幕显示如下：图中的D、J、R、I、O、1、2代表可选择的选项，键入这些字母，程序的条件就会发生改变。D选项无须改变。J选项有三种条件可以选择，分别是Bootstrap、Jackknife 和Permute。文章上面提到用Bootstraping法对进化树进行评估，所谓Bootstraping 法就是从整个序列的碱基（氨基酸）中任意选取一半，剩下的一半序列随机补齐组成一个新的序列。这样，一个序列就可以变成了许多序列。一个多序列组也就可以变成许多个多序列组。根据某种算法（最大简约性法、最大可能性法、除权配对法或邻位相连法）每个多序列组都可以生成一个进化树。将生成的许多进化树进行比较，按照多数规则（majority-rule）我们就会得到一个最“逼真”的进化树。Jackknife 则是另外一种随机选取序列的方法。它与Bootstrap法的区别是不将剩下的一半序列补齐，只生成一个缩短了一半的新序列。Permute是另外一种取样方法，其目的与Bootstrap和Jackknife法不同。R选项让使用者输入republicate的数目。所谓republicate 就是用Bootstrap法生成的一个多序列组。根据多序列中所含的序列的数目的不同可以选取不同的republicate。当我们设置好条件后，键入Y按回车。得到一个文件outfile。（提示：在此最好把outfile更名为outfile1，因为后面步骤生成的文件都为outfile，可以一次更名为outfile1、outfile2….outfileN） Outfile用记事本打开如下：

分子进化树构建及数据分析的简介

【转载】分子进化树构建及数据分析的简介+oldfish的批评意见分子进化树构建及数据分析的简介 mediocrebeing, rodger, lylover1[1], klaus, oldfish, yzwpf 一、引言开始动笔写这篇短文之前，我问自己，为什么要写这样的文章？写这样的文章有实际的意义吗？我希望能够解决什么样的问题？带着这样的疑惑，我随手在丁香园（DXY）上以关键字“进化分析求助”进行了搜索，居然有289篇相关的帖子（2006年9月12日）。而以关键字“进化分析”和“进化”为关键字搜索，分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关，这里我保守的估计，大约有3,000~4,000篇帖子的内容，是关于分子进化的。粗略地归纳一下，我大致将提出的问题分为下述的几类： 1．涉及基本概念。例如，“分子进化与生物进化是不是一个概念”，“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”，等等。2．关于构建进化树的方法的选择。例如，“用boostrap NJ得到XX图，请问该怎样理解？能否应用于文章？用boostrap test中的ME法得到的是XXX树，请问与上个树比，哪个更好”，等等。 3．关于软件的选择。例如，“想做一个进化树，不知道什么软件能更好的使用且可以说明问题，并且有没有说明如何做”，“拿到了16sr RNA数据，打算做一个系统进化树分析，可是原来没有做过这方面的工作啊，都要什么软件”，“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”，“请问有做过进化树分析的朋友，能不能提供一下，做树的时候参数的设置，以及代表的意思。还有各个分支等数值的意思，说明的问题等”，等等。 4．蛋白家族的分类问题。例如，“搜集所有的关于一个特定domain的序列，共141条，做的进化树不知具体怎么分析”，等等。 5．新基因功能的推断。例如，“根据一个新基因A氨基酸序列构建的系统发生树，这个进化树能否说明这个新基因A和B同源，属于同一基因家族”，等等。 6．计算基因分化的年代。例如，“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近，具体推算出他们之间的分歧时间”，“如何估计病毒进化中变异所需时间”，等等。 7．进化树的编辑。例如生成的进化树图片，如何进行后续的编辑，比如希望在图片上标注某些特定的内容，等等。由于相关的帖子太多，作者在这里对无法阅读全部的相关内容而致以歉意。同时，作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念，作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》（Molecular Evolution and Phylogenetics）一书，以及相关的分子进化方面的最新文献。对于问题7，作者之一lylover一般使用Powerpoint进行编辑，而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。

进化树选择

系统进化树构建及数据分析的简介 Posted on 08 六月2009 by 柳城，阅读1,278 简洁版繁體一、引言开始动笔写这篇短文之前，我问自己，为什么要写这样的文章？写这样的文章有实际的意义吗？我希望能够解决什么样的问题？带着这样的疑惑，我随手在丁香园（DXY）上以关键字“进化分析求助”进行了搜索，居然有289篇相关的帖子（2006年9月12日）。而以关键字“进化分析”和“进化”为关键字搜索，分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关，这里我保守的估计，大约有3,000~4,000篇帖子的内容，是关于分子进化的。粗略地归纳一下，我大致将提出的问题分为下述的几类： 1．涉及基本概念例如，“分子进化与生物进化是不是一个概念”，“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”，等等。 2．关于构建进化树的方法的选择例如，“用boostrap NJ得到XX图，请问该怎样理解？能否应用于文章？用boostrap test中的ME法得到的是XXX树，请问与上个树比，哪个更好”，等等。 3．关于软件的选择例如，“想做一个进化树，不知道什么软件能更好的使用且可以说明问题，并且有没有说明如何做”，“拿到了16sr RNA数据，打算做一个系统进化树分析，可是原来没有做过这方面的工作啊，都要什么软件”，“请问各位高手用ClustalX做出来的进化树与phylip做的有什么区别”，“请问有做过进化树分析的朋友，能不能提供一下，做树的时候参数的设置，以及代表的意思。还有各个分支等数值的意思，说明的问题等”，等等。 4．蛋白家族的分类问题例如，“搜集所有的关于一个特定domain的序列，共141条，做的进化树不知具体怎么分析”，等等。 5．新基因功能的推断例如，“根据一个新基因A氨基酸序列构建的系统发生树，这个进化树能否说明这个新基因A和B同源，属于同一基因家族”，等等。 6．计算基因分化的年代例如，“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近，具体推算出他们之间的分歧时间”，“如何估计病毒进化中变异所需时间”，等等。 7．进化树的编辑例如生成的进化树图片，如何进行后续的编辑，比如希望在图片上标注某些特定的内容，等等。由于相关的帖子太多，作者在这里对无法阅读全部的相关内容而致以歉意。同时，作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念，作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》（Molecular Evolution and Phylogenetics）一书，以及相关的分子进化方面的最新文献。对于问题7，作者之一lylover一般使用Powerpoint进行编辑，而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。这里，作者在这里对问题2-6进行简要地解释和讨论，并希望能够初步地解答初学者的一些疑问。二、方法的选择首先是方法的选择。基于距离的方法有UPGMA、ME（Minimum Evolution，最小进化法）和NJ（Neighbor-Joining，邻接法）等。其他的几种方法包括MP（Maximum parsimony，最

多重序列比对及系统发生树的构建

多重序列比对及系统发生树的构建作者：佚名来源：生物秀时间：2007-12-31 【实验目的】 1、熟悉构建分子系统发生树的基本过程，获得使用不同建树方法、建树材料和建树参数对建树结果影响的正确认识； 2、掌握使用Clustalx进行序列多重比对的操作方法； 3、掌握使用Phylip软件构建系统发生树的操作方法。【实验原理】在现代分子进化研究中，根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。一个可靠的系统发生的推断，将揭示出有关生物进化过程的顺序，有助于我们了解生物进化的历史和进化机制。对于一个完整的进化树分析需要以下几个步骤：⑴要对所分析的多序列目标进行比对（alignment）。⑵要构建一个进化树（phyligenetic tree）。构建进化树的算法主要分为两类：独立元素法（discrete character methods）和距离依靠法（distance methods）。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的（例如：一个序列上可能包含很多的酶切位点，而每个酶切位点的存在与否是由几个碱基的状态决定的，也就是说一个序列碱基的状态决定着它的酶切位点状态，当多个序列进行进化树分析时，进化树的拓扑形状也就由这些碱基的状态决定了）。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法（Maximum Parsimony methods）和最大可能性法（Maximum Likelihood methods）；距离依靠法包括除权配对法（UPGMAM）和邻位相连法（Neighbor-joining）。⑶对进化树进行评估，主要采用Bootstraping法。进化树的构建是一个统计学问题，我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法，那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说，最大简约性法适用于符合以下条件的多序列：i 所要比较的序列的碱基差别小，ii 对于序列上的每一个碱基有近似相等的变异率，iii 没有过多的颠换/转换的倾向，iv 所检验的序列的碱基数目较多（大于几千个碱基）；

几个进化树相关软件的使用方法

几个进化树相关软件的使用方法我在此介绍几个进化树分析及其相关软件的使用和应用范围。这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN （LINUX）。在介绍软件之前，我先简要地叙述一下有关进化树分析的一些方法学问题。进化树也称种系树，英文名叫“Phyligenetic tree”。对于一个完整的进化树分析需要以下几个步骤：⑴要对所分析的多序列目标进行排列（To align sequences）。做ALIGNMENT的软件很多，最经常使用的有CLUSTALX和CLUSTALW，前者是在WINDOW下的而后者是在DOS下的。⑵要构建一个进化树（To reconstrut phyligenetic tree）。构建进化树的算法主要分为两类：独立元素法（discrete character methods）和距离依靠法（distance methods）。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的（例如：一个序列上可能包含很多的酶切位点，而每个酶切位点的存在与否是由几个碱基的状态决定的，也就是说一个序列碱基的状态决定着它的酶切位点状态，当多个序列进行进化树分析时，进化树的拓扑形状也就由这些碱基的状态决定了）。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法（Maximum Parsimony methods）和最大可能性法（Maximum Likelihood methods）；距离依靠法包括除权配对法（UPGMAM）和邻位相连法（Neighbor-joining）。⑶对进化树进行评估。主要采用Bootstraping法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法，那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说，最大简约性法适用于符合以下条件的多序列：i 所要比较的序列的碱基差别小，ii 对于序列上的每一个碱基有近似相等的变异率，iii 没有过多的颠换/转换的倾向，iv 所检验的序列的碱基数目较多（大于几千个碱基）；用最大可能性法分析序列则不需以上的诸多条件，但是此种方法计算极其耗时。如果分析的序列较多，有可能要花上几天的时间才能计算完毕。UPGMAM（Unweighted pair group method with arithmetic mean）假设在进化过程中所有核苷酸/氨基酸都有相同的变异率，也就

构建生物进化树的方法比较

极为详细的建树方法，新手入门推荐生物进化树的构建目录前言 (2) 一、 NCBI (6) 二、 Mega (9) 三、 DNAMAN (15) 四、DNAStar (18) 五、 Bio edit (21)

前言 1．背景资料进化树(evolutionary tree)又名系统树(phylogenetie tree)进化树，用来表示物种间亲缘关系远近的树状结构图。在进化树中，各个分类单元（物种）依据进化关系的远近，被安放在树状图表上的不同位置。所以，进化树简单地表示生物的进化历程和亲缘关系。已发展成为多学科(包括生命科学中的进化论、遗传学、分类学、分子生物学、生物化学、生物物理学和生态学,又包括数学中的概率统计、图论、计算机科学和群论)交叉形成的一个边缘领域。归纳总结生物进化的总趋势有以下几类： ①结构上：由简单到复杂 ②生活环境上：由水生到陆生 ③进化水平上：由低等到高等一般来说，进化树是一个二叉树。它由很多的分支和节点构成。根据位置的不同，进化树的节

点分为外部节点和内部节点，外部节点就是我们要进行分类的分类单元（物种）。而物种之间的进化关系则用节点之间的连线表示。内部节点表示进化事件发生的地方，或表示分类单元进化的祖先。在同一个进化树中，分类单元的选择应当标准一致。进化树上不同节点之间的连线称为分支，其中有一端与叶子节点相连的分支称为外枝，不与叶子节点相连的分支称为内枝。进化树一般有两种：有根树和无根树。有根树有一个鲜明的特征，那就是它有一个唯一的根节点。这个根节点可以理解为所有其他节点的共同祖先。所以，有根树能可以准确地反映各个物种的进化顺序，从根节点进化到任何其他节点只有能有一条惟一的路径。无根树则不能直接给出根节点，无根树只反映各个不同节点之间的进化关系的远近，没有物种如何进化的过程。但是，我们可以在无根树种指派根节点，从而找出各个物种的进化路径。无根树有根树

分子进化树构建及数据分析的简介

分子进化树构建及数据分析的简介开始动笔写这篇短文之前，我问自己，为什么要写这样的文章？写这样的文章有实际的意义吗？我希望能够解决什么样的问题？带着这样的疑惑，我随手在丁香园（DXY）上以关键字“进化分析求助”进行了搜索，居然有289篇相关的帖子（2006年9月12日）。而以关键字“进化分析”和“进化”为关键字搜索，分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关，这里我保守的估计，大约有3,000~4,000篇帖子的内容，是关于分子进化的。粗略地归纳一下，我大致将提出的问题分为下述的几类： 1．涉及基本概念。例如，“分子进化与生物进化是不是一个概念”，“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”，等等。 2．关于构建进化树的方法的选择。例如，“用boostrap NJ得到XX图，请问该怎样理解？能否应用于文章？用boostrap test中的ME法得到的是XXX树，请问与上个树比，哪个更好”，等等。 3．关于软件的选择。例如，“想做一个进化树，不知道什么软件能更好的使用且可以说明问题，并且有没有说明如何做”，“拿到了16sr RNA数据，打算做一个系统进化树分析，可是原来没有做过这方面的工作啊，都要什么软件”，“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”，“请问有做过进化树分析的朋友，能不能提供一下，做树的时候参数的设置，以及代表的意思。还有各个分支等数值的意思，说明的问题等”，等等。4．蛋白家族的分类问题。例如，“搜集所有的关于一个特定domain的序列，共141条，做的进化树不知具体怎么分析”，等等。 5．新基因功能的推断。例如，“根据一个新基因A氨基酸序列构建的系统发生树，这个进化树能否说明这个新基因A和B同源，属于同一基因家族”，等等。 6．计算基因分化的年代。例如，“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近，具体推算出他们之间的分歧时间”，“如何估计病毒进化中变异所需时间”，等等。 7．进化树的编辑。例如生成的进化树图片，如何进行后续的编辑，比如希望在图片上标注某些特定的内容，等等。由于相关的帖子太多，作者在这里对无法阅读全部的相关内容而致以歉意。同时，作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念，作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》（Molecular Evolution and Phylogenetics）一书，以及相关的分子进化方面的最新文献。对于问题7，作者之一lylover一般使用Powerpoint进行编辑，而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。这里，作者在这里对问题2-6进行简要地解释和讨论，并希望能够初步地解答初学者的一些疑问。二、方法的选择首先是方法的选择。基于距离的方法有UPGMA、ME（Minimum Evolution，最小进化法）和NJ（Neighbor-Joining，邻接法）等。其他的几种方法包括MP（Maximum parsimony，最大简约法）、ML（Maximum likelihood，最大似然法）以及贝叶斯（Bayesian）推断等方法。其中UPGMA法已经较少使用。一般来讲，如果模型合适，ML的效果较好。对近缘序列，有人喜欢MP，因为用的假设最

系统进化树视频教程-多序列比对教程等

所有视频内容和编号： 001-1系统进化树构建序列文件格式说明（1080P） 001-2 MEGA软件构建邻接树(NJ树) （1080P） 001-3 MEGA软件构建最大简约树(MP树) （1080P） 001-4 MEGA软件构建最大似然树(ML树) （1080P） 001-5 MEGA软件构建UPGMA树（1080P） 001-6 MEGA软件计算遗传距离和导出Excel（1080P） 001-7 MEGA软件分析序列特征-信息位点变异位点等（1080P） 001-8 MEGA软件对序列饱和性检验和作图（1080P） 001-9 MEGA软件最序列分组并计算组间和组内遗传距离（1080P） 001-10 MEGA软件对树图置根修改字体和字号等（1080P） 002-1 贝叶斯法Mrbayes构建系统进化树教程视频（1080P） 002-2 PAUP软件构建最大似然（ML）树教程 002-3 Mrbayes贝叶斯建树(MrMTgui模型计算)视频教程（1080P） 002-4 贝叶斯不收敛问题的解决办法（1080P） 002-5 PAUP软件构建最大似然（ML）树教程（1080P） 002-6 PAUP软件构建简约树（MP）树教程（1080P） 002-7 PAUP软件构建邻接树（NJ）树教程（1080P） 003-1 MAFFT多序列比对教程 003-2 Jmodeltest模型计算方法与说明 003-3 primer5引物设计 003-4 Photoshop图片排版（期刊格式） 003-4 primer5引物设计（加酶切位点）（1080P） 004-1 多基因序列快速联合（拼接）与格式转换-软件SequenceMatrix（1080P） 004-2 多基因序列快速联合（拼接）详细版-SequenceMatrix（1080P） 004-3 贝叶斯多基因片段联合分区建树（分区设定模型）（1080P） 005-1 MEGA软件美化树图置根等内容补充 005-2 如何编辑贝叶斯或PAUP（ML）树图（PDF格式）的名称、字体、分枝等并输出图片格式 005-3 MEGA软件修改树图标尺显示分枝长度自举值显示方式等设置（1080P）

分子进化树构建及数据分析的简介(入门极品)_图文(精)

分子进化树构建及数据分析的简介(入门极品 [color=black][color=black][b]这是转来的一篇文章,来自丁香园。做病毒的兄弟姐妹肯定离不开进化树的构建和序列比对,及最重要的结果分析。不同的构建方法能带来截然不同的结果。我根据使用经验加了一些标注。 [/b][/color] [/color] 分子进化树构建及数据分析的简介 mediocrebeing, rodger, lylover , klaus, oldfish, yzwpf 一、引言开始动笔写这篇短文之前,我问自己,为什么要写这样的文章?写这样的文章有实际的意义吗?我希望能够解决什么样的问题?带着这样的疑惑,我随手在丁香园(DXY 上以关键字“ 进化分析求助” 进行了搜索,居然有 289篇相关的帖子(2006年 9月12日。而以关键字“ 进化分析” 和“ 进化” 为关键字搜索, 分别找到 2,733和 7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关,这里我保守的估计, 大约有3,000~4,000篇帖子的内容,是关于分子进化的。粗略地归纳一下,我大致将提出的问题分为下述的几类: 1.涉及基本概念。例如, “ 分子进化与生物进化是不是一个概念” , “ 关于微卫星进化模型有没有什么新的进展” 以及“ 关于 Kruglyak 的模型有没有改进的出现” ,等等。 2.关于构建进化树的方法的选择。例如, “ 用 boostrap NJ得到 XX 图,请问该怎样理解?能否应用于文章?用 boostrap test中的 ME 法得到的是 XXX 树,请问与上个树比,哪个更好” ,等等。 3.关于软件的选择。例如, “ 想做一个进化树,不知道什么软件能更好的使用且可以说明问题,并且有没有说明如何做” , “ 拿到了 16sr RNA数据,打算做一个系统进化树分析,可是原来没有做过这方面的工作啊,都要什么软件” , “ 请问各位高手用

分子进化树构建及数据分析的简介(精)

分子进化树构建及数据分析的简介 mediocrebeing, rodger, lylover[1], klaus, oldfish, yzwpf 一、引言开始动笔写这篇短文之前，我问自己，为什么要写这样的文章？写这样的文章有实际的意义吗？我希望能够解决什么样的问题？带着这样的疑惑，我随手在丁香园（DXY）上以关键字“进化分析求助”进行了搜索，居然有289篇相关的帖子（2006年9月12日）。而以关键字“进化分析”和“进化”为关键字搜索，分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关，这里我保守的估计，大约有3,000~4,000篇帖子的内容，是关于分子进化的。粗略地归纳一下，我大致将提出的问题分为下述的几类： 1．涉及基本概念。例如，“分子进化与生物进化是不是一个概念”，“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”，等等。 2．关于构建进化树的方法的选择。例如，“用boostrap NJ得到XX图，请问该怎样理解？能否应用于文章？用boostrap test中的ME法得到的是XXX树，请问与上个树比，哪个更好”，等等。 3．关于软件的选择。例如，“想做一个进化树，不知道什么软件能更好的使用且可以说明问题，并且有没有说明如何做”，“拿到了16sr RNA数据，打算做一个系统进化树分析，可是原来没有做过这方面的工作啊，都要什么软件”，“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”，“请问有做过进化树分析的朋友，能不能提供一下，做树的时候参数的设置，以及代表的意思。还有各个分支等数值的意思，说明的问题等”，等等。 4．蛋白家族的分类问题。例如，“搜集所有的关于一个特定domain的序列，共141条，做的进化树不知具体怎么分析”，等等。 5．新基因功能的推断。例如，“根据一个新基因A氨基酸序列构建的系统发生树，这个进化树能否说明这个新基因A和B同源，属于同一基因家族”，等等。6．计算基因分化的年代。例如，“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近，具体推算出他们之间的分歧时间”，“如何估计病毒进化中变异所需时间”，等等。 7．进化树的编辑。例如生成的进化树图片，如何进行后续的编辑，比如希望在图片上标注某些特定的内容，等等。由于相关的帖子太多，作者在这里对无法阅读全部的相关内容而致以歉意。同时，作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念，作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》（Molecular Evolution and Phylogenetics）一书，以及相关的分子进化方面的最新文献。对于问题7，作者之一lylover一般使用Powerpoint进行编辑，而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。这里，作者在这里对问题2-6进行简要地解释和讨论，并希望能够初步地解答初学者的一些疑问。二、方法的选择

分子进化树构建及数据分析的简介(入门极品)

分子进化树构建及数据分析的简介（入门极品）一、引言粗略地归纳一下，我大致将提出的问题分为下述的几类： 1．涉及基本概念。例如，“分子进化与生物进化是不是一个概念”，“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”，等等。 2．关于构建进化树的方法的选择。例如，“用boostrap NJ得到XX图，请问该怎样理解？能否应用于文章？用boostrap test中的ME法得到的是XXX树，请问与上个树比，哪个更好”，等等。 3．关于软件的选择。例如，“想做一个进化树，不知道什么软件能更好的使用且可以说明问题，并且有没有说明如何做”，“拿到了16sr RNA数据，打算做一个系统进化树分析，可是原来没有做过这方面的工作啊，都要什么软件”，“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”，“请问有做过进化树分析的朋友，能不能提供一下，做树的时候参数的设置，以及代表的意思。还有各个分支等数值的意思，说明的问题等”，等等。（clustalX是clustaw的图形化版本，前者在windows环境下使用，后者在DOS环境下是使用） 4．蛋白家族的分类问题。例如，“搜集所有的关于一个特定domain的序列，共141条，做的进化树不知具体怎么分析”，等等。 5．新基因功能的推断。例如，“根据一个新基因A氨基酸序列构建的系统发生树，这个进化树能否说明这个新基因A和B同源，属于同一基因家族”，等等。 6．计算基因分化的年代。例如，“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近，具体推算出他们之间的分歧时间”，“如何估计病毒进化中变异所需时间”，等等。 7．进化树的编辑。例如生成的进化树图片，如何进行后续的编辑，比如希望在图片上标注某些特定的内容，等等。由于相关的帖子太多，作者在这里对无法阅读全部的相关内容而致以歉意。同时，作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念，作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》（Molecular Evolution and Phylogenetics）一书，以及相关的分子进化方面的最新文献。对于问题7，作者之一lylover一般使用Powerpoint进行编辑，而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。这里，作者在这里对问题2-6进行简要地解释和讨论，并希望能够初步地解答初学者的一些疑问。二、方法的选择首先是方法的选择。基于距离的方法有UPGMA、ME（Minimum Evolution，最小进化法）和NJ （Neighbor-Joining，邻接法）等。其他的几种方法包括MP（Maximum parsimony，最大简约法）、ML（Maximum likelihood，最大似然法）以及贝叶斯（Bayesian）推断等方法。其中UPGMA法已经较少使用。一般来讲，如果模型合适，ML的效果较好。对近缘序列，有人喜欢MP，因为用的假设最少。MP一般不用在远缘序列上，这时一般用NJ或ML。对相似度很低的序列，NJ往往出现Long-branch attraction （LBA，长枝吸引现象），有时严重干扰进化树的构建。贝叶斯的方法则太慢。对于各种方法构建分子进化树的准确性，一篇综述（Hall BG. Mol Biol Evol 2005, 22(3):792-802）认为贝叶斯的方法最好，其次是ML，然后是MP。其实如果序列的相似性较高，各种方法都会得到不错的结果，模型间的差别也不大。对于NJ和ML，是需要选择模型的。对于各种模型之间的理论上的区别，这里不作深入的探讨，可以参看Nei的书。对于蛋白质序列以及DNA序列，两者模型的选择是不同的。以作者的经验来说，对于蛋白质的序列，一般选择Poisson Correction（泊松修正）这一模型。而对于核酸序列，一般选择Kimura 2-parameter（Kimura-2参数）模型。如果对各种模型的理解并不深入，作者并不推荐初学者使用其他复杂的模型。