文档库 最新最全的文档下载
当前位置:文档库 › 全球首次完成杨树全基因组测序

全球首次完成杨树全基因组测序

全球首次完成杨树全基因组测序
全球首次完成杨树全基因组测序

全球首次完成杨树全基因组测序

由美国能源部启动并实施的杨树全基因组测序计划已圆满完成,并于2004年9月21日对公众开放了全序列数据库。南京林业大学科研人员尹佟明副教授参与了此项研究。杨树基因组的新闻发布及庆祝会定于12月6日在美国加州举行。该项研究可望使杨树这一重要树种的品种改良时间大大缩短,用区区几十年跨越千年关。

研究的完成,使杨树成为继拟南芥和水稻之后,第三个测定全序列的植物,并且是第一个测定全基因组序列的多年生木本植物。杨树因此被广泛接受为研究多年生植物基因组的模式物种,这使该项工作具有重大的科学意义。杨树同时又是一种重要的工业用材树种,杨树全基因组计划实施,将为生物能源的开发提供知识贮备,具有重要的实际应用价值。目前,杨树的改良还处在一种半野生的初级改良阶段,在基因组研究的基础上,通过群体和数量遗传学的手段在杨树属不同树种间开发有用等位基因,并通过遗传工程的手段进行基因重组,可望在几十年的时间里完成一般作物几千年的改良历程。

杨树全基因组全序列用“鸟枪法测定”,序列库中共含有7,649,993个序列片段,去除叶绿体基因组的污染,测得的序列大约为8×基因组长度。目前对序列拼接的组装已完成了483Mb,占杨树基因组物理全长的90%以上,基本上覆盖了杨树基因组常染色体的大部分。基于基因芯片和单核苷酸多态性检测技术,对小的序列拼接及序列间隙的填充工作正在进行中,预期这部分工作将于明年完成。南京林业大学尹佟明副教授自2001年以来一直参与此项研究,对杨树基因组的注释工作将于今年12月初完成。

国际杨树基因组计划协作组的总负责人杰瑞先生认为,从世界范围来看,杨树在中国的林业生产中占有的比重是最大的,因此在杨树基因组信息的应用方面,中国在未来的研究中可能会居于世界前列。杨树全基因组计划的完成对我国从事林业及生物技术的科学家而言,提供了前所未有的机遇和挑战。

Science 15 September 2006:

Vol. 313. no. 5793, pp. 1596 - 1604

DOI: 10.1126/science.1128691

RESEARCH ARTICLES

The Genome of Black Cottonwood, Populus trichocarpa (Torr. & Gray)

G. A. Tuskan,1,3* S. DiFazio,1,4S. Jansson,5J. Bohlmann,6I. Grigoriev,9U.

Hellsten,9N. Putnam,9S. Ralph,6S. Rombauts,10 A. Salamov,9J. Schein,11L. Sterck,10 A. Aerts,9 R. R. Bhalerao,5 R. P. Bhalerao,12 D. Blaudez,13 W. Boerjan,10 A. Brun,13 A. Brunner,14 V. Busov,15 M. Campbell,16 J. Carlson,17 M. Chalot,13 J. Chapman,9 G.-L. Chen,2 D. Cooper,6 P. M. Coutinho,19 J. Couturier,13 S. Covert,20 Q. Cronk,7 R. Cunningham,1 J. Davis,22 S. Degroeve,10 A. Déjardin,23 C. dePamphilis,18 J. Detter,9 B. Dirks,24 I. Dubchak,9,25 S. Duplessis,13 J. Ehlting,7 B. Ellis,6 K. Gendler,26 D. Goodstein,9 M. Gribskov,27 J. Grimwood,28 A. Groover,29 L. Gunter,1 B. Hamberger,7 B. Heinze,30 Y. Helariutta,12,31,33 B. Henrissat,19 D. Holligan,21 R. Holt,11 W. Huang,9 N. Islam-Faridi,34 S. Jones,11 M. Jones-Rhoades,35 R. Jorgensen,26 C. Joshi,15 J. Kangasj?rvi,32 J. Karlsson,5 C. Kelleher,6 R. Kirkpatrick,11 M. Kirst,22 A.

Kohler,13 U. Kalluri,1 F. Larimer,2 J. Leebens-Mack,21 J.-C. Leplé,23 P. Locascio,2 Y. Lou,9 S. Lucas,9 F. Martin,13 B. Montanini,13 C. Napoli,26 D. R. Nelson,36 C. Nelson,37 K. Nieminen,31 O. Nilsson,12 V. Pereda,13 G. Peter,22 R. Philippe,6 G. Pilate,23 A. Poliakov,25 J. Razumovskaya,2 P. Richardson,9 C. Rinaldi,13 K. Ritland,8 P. Rouzé,10 D. Ryaboy,25 J. Schmutz,28 J. Schrader,38 B. Segerman,5 H. Shin,11 A. Siddiqui,11 F. Sterky,39 A. Terry,9 C.-J. Tsai,15 E. Uberbacher,2 P. Unneberg,39 J. Vahala,32 K. Wall,18 S. Wessler,21 G. Yang,21 T. Yin,1 C. Douglas,7M. Marra,11G. Sandberg,12Y. Van de Peer,10 D. Rokhsar9,24

We report the draft genome of the black cottonwood tree, Populus trichocarpa. Integration of shotgun sequence assembly with genetic mapping enabled chromosome-scale reconstruction of the genome.More than 45,000 putative protein-coding genes were identified.Analysis of the assembled genome revealed a whole-genome duplication event; about 8000 pairs of duplicated genes from that event survived in the Populus genome. A second, older duplication event is indistinguishably coincident with the divergence of the Populus and Arabidopsis lineages. Nucleotide substitution,tandem gene duplication, and gross chromosomal rearrangement appear to proceed substantially more slowly in Populus than in Arabidopsis. Populus has more protein-coding genes than Arabidopsis, ranging on average from 1.4 to 1.6 putative Populus homologs for each Arabidopsis gene. However, the relative frequency of protein domains in the two genomes is similar. Overrepresented exceptions in Populus include genes associated with lignocellulosic wall biosynthesis, meristem development, disease resistance,and metabolite transport.

1 Environmental Sciences Division, Oak Ridge National Laboratory, Oak Ridge, TN 37831, USA.

2 Life Sciences Division, Oak Ridge National Laboratory, Oak Ridge, TN 37831, USA.

3 Plant Sciences Department, University of Tennessee, TN 37996, USA.

4 Department of Biology, West Virginia University, Morgantown, WV 26506, USA.

5 Ume? Plant Science Centre, Department of Plant Physiology, Ume? University, SE-901 87, Ume?, Sweden.

6 Michael Smith Laboratories, University of British Columbia, Vancouver, BC V6T 1Z4, Canada.

7 Department of Botany, University of British Columbia, Vancouver, BC V6T 1Z4, Canada.

8 Department of Forest Sciences, University of British Columbia, Vancouver, BC V6T 1Z4, Canada.

9 U.S. Department of Energy, Joint Genome Institute, Walnut Creek, CA 94598, USA.

10 Department of Plant Systems Biology, Flanders Interuniversity Institute for Biotechnology (VIB), Ghent University, B-9052 Ghent, Belgium.

11 Genome Sciences Centre, 100-570 West 7th Avenue, Vancouver, BC V5Z 4S6, Canada.

12 Ume? Plant Science Centre, Department of Forest Genetics and Plant Physiology, Swedish University of Agricultural Sciences, SE-901 83 Ume?, Sweden.

13 Tree-Microbe Interactions Unit, Institut National de la Recherche Agronomique (INRA)–Université Henri Poincaré, INRA-Nancy, 54280 Champenoux, France.

14 Department of Forestry, Virginia Polytechnic Institute and State University, Blacksburg, VA 24061, USA.

15 Biotechnology Research Center, School of Forest Resources and Environmental Science, Michigan Technological University, Houghton, MI 49931, USA.

16 Department of Cell and Systems Biology, University of Toronto, 25 Willcocks Street, Toronto, Ontario, M5S 3B2 Canada.

17 School of Forest Resources and Huck Institutes of the Life Sciences, The Pennsylvania State University, University Park, PA 16802, USA.

18 Department of Biology, Institute of Molecular Evolutionary Genetics, and Huck Institutes of Life Sciences, The Pennsylvania State University, University Park, PA 16802, USA.

19 Architecture et Fonction des Macromolécules Biologiques, UMR6098, CNRS and Universities of Aix-Marseille I and II, case 932, 163 avenue de Luminy, 13288 Marseille, France.

20 Warnell School of Forest Resources, University of Georgia, Athens, GA 30602, USA.

21 Department of Plant Biology, University of Georgia, Athens, GA 30602, USA.

22 School of Forest Resources and Conservation, Genetics Institute, and Plant Molecular and Cellular Biology Program, University of Florida, Gainesville, FL 32611, USA.

23 INRA-Orléans, Unit of Forest Improvement, Genetics and Physiology, 45166 Olivet Cedex, France.

24 Center for Integrative Genomics, University of California, Berkeley, CA 94720, USA.

25 Genomics Division, Lawrence Berkeley National Laboratory, Berkeley, CA 94720, USA.

26 Department of Plant Sciences, University of Arizona, Tucson, AZ 85721, USA.

27 Department of Biological Sciences, Purdue University, West Lafayette, IN 47907, USA.

28 The Stanford Human Genome Center and the Department of Genetics, Stanford University School of Medicine, Palo Alto, CA 94305, USA.

29 Institute of Forest Genetics, United States Department of Agriculture, Forest Service, Davis, CA 95616, USA.

30 Federal Research Centre for Forests, Hauptstrasse 7, A-1140 Vienna, Austria.

31 Plant Molecular Biology Laboratory, Institute of Biotechnology, University of Helsinki,

FI-00014 Helsinki, Finland.

32 Department of Biological and Environmental Sciences, University of Helsinki, FI-00014 Helsinki, Finland.

33 Department of Biology, 200014, University of Turku, FI-20014 Turku, Finland.

34 Southern Institute of Forest Genetics, United States Department of Agriculture, Forest Service and Department of Forest Science, Texas A&M University, College Station, TX 77843, USA.

35 Whitehead Institute for Biomedical Research and Department of Biology, Massachusetts Institute of Technology, Cambridge, MA 02142, USA.

36 Department of Molecular Sciences and Center of Excellence in Genomics and Bioinformatics, University of Tennessee, Memphis, TN 38163, USA.

37 Southern Institute of Forest Genetics, United States Department of Agriculture, Forest Service, Saucier, MS 39574, USA.

38 Developmental Genetics, University of Tübingen, D-72076 Tübingen, Germany.

39 Department of Biotechnology, KTH, AlbaNova University Center, SE-106 91 Stockholm, Sweden.

These authors contributed equally to this work as second authors.

These authors contributed equally to this work as senior authors.

* To whom correspondence should be addressed. E-mail: gtk@https://www.wendangku.net/doc/458680438.html,

DNA测序技术的发展和其最新进展

DNA测序技术的发展及其最新进展 摘要:自从诺贝尔奖得主桑格于1977年发明了第一代DN测序技术以来,DNA测序技术已经作为重要的实验技术广泛的应用于现代生物学研究当中。经过了几十年的发展,DNA测序技术日臻成熟,并且以单分子测序为特点的第三代测序技术也已经诞生。本文主要就每一代测序技术原理和特点及其最新进展做简要介绍。 关键词:DNA测序技术;第三代DNA测序技术;最新进展 The Development and New Progress of DNA Sequencing Technology Abstract: Since Nobel Prize Winner Sanger have founded the first generation of DNA Sequence technology in 1977, DNA sequencing technology has been widely used in modern biological researches as an important experimental. Over decades of year’s development, DNA sequence technology mature gradually and the third generation sequencing technologies characterized by single-molecule sequencing have also emerged. The mechanisms and features of each generation of sequencing technology and their latest progress will be discussed here. Key Words: DNA Sequence technology ; third generation DNA sequencing ;latest development 1.引言 DNA测序技术是分子生物学研究中最常用的技术,它的出现极大地推动了生物学的发展。自从1953年Watson和Crick发现DNA双螺旋结构后[1],人类就开始了对DNA序列的探索,在世界各地掀起了DNA测序技术的热潮。1977年Maxam和Gilbert报道了通过化学降解测定DNA序列的方法[2]。同一时期,Sanger发明了双脱氧链终止法[3]。20世纪90年代初出现的荧光自动测序技术将DNA测序带入自动化测序的时代。这些技术统称为第一代DNA测序技术。最近几年发展起来的第二代DNA测序技术则使得DNA测序进入了高通量、低成本的时代。目前,基于单分子读取技术的第三代测序技术已经出现,该技术测定DNA序列更快,并有望进一步降低测序成本,推进相关领域生物学研究。本文主要介绍DNA测序技术的发展历史及不同发展阶段各种主要测序技术的特点,并针对目前新一代DNA测序技术及目前国际DNA测序最新进展做简要综述。

新一代测序技术的发展及应用前景

2010年第10期杨晓玲等:新一代测序技术的发展及应用前景 等交叉学科的迅猛发展。 1.1第二代测序——高通量低成本齐头并进以高通量低成本为主要特征的第二代测序,不再需要大肠杆菌进行体内扩增,而是直接通过聚合酶或者连接酶进行体外合成测序¨】。根据其原理又可分为两类:聚合酶合成测序和连接酶合成测序。1.1.1聚合酶合成测序法Roche公司推出的454技术开辟了高通量测序的先河。该技术通量可达Sangcr测序的几百倍,而成本却只有几十分之一,因此一经推出,便受到了国际上基因组学专家的广泛关注。454采用焦磷酸合成测序法HJ,避免了传统测序进行荧光标记以及跑胶等繁琐步骤,同时利用乳胶系统对DNA分子进行扩增,实现了大规模并行测序。截止到2010年4月,已有700多篇文献是采用了454测序技术(http://454.com/publications.and—resources/publications.asp),对该技术是一个极大的肯定。 Illumina公司推出的Solexa遗传分析仪是合成技术的进一步发展与延伸。该技术借助高密度的DNA单分子阵列,使得测序成本和效率均有了较大改善。同时Solexa公司提出的可逆终止子”1也是该技术获得认可的原因之一。与454相比。Solexa拥有更高的通量,更低的成本。虽然片段长度较短仍是主要的技术瓶颈,但是对于已有基因组的物种来说,Solexa理所当然成为第二代测序技术的首选。2008年以来,利用该技术开展的研究大幅度上升,报道文献达400多篇(http://www.illumina.com/systems/genome—analyzer_iix.ilmn)o 1.1.2连接酶合成测序法2007年ABI公司在Church小组拍1研究成果的基础上推出了SOLID测序仪。该技术的创新之处在于双碱基编码…的应用,即每个碱基被阅读两次,因此大大减少了测序带来的错误率,同时可以方便的区分SNP和测序错误。在测序过程中,仪器自动加入4种荧光标记的寡核苷酸探针,探针与引物发生连接反应,通过激发末端的荧光标记识别结合上的碱基类型。目前SOLID3.0测序通量可达20G,而测序片段仅有35—50bp,这使得该技术与Solexa相比,应用范围还不够广泛。ABI公司正加快研发进度,争取在片段长度方面做出重大突破。 DanaherMotion公司推出Polonator¨1测序仪同样也是基于Church小组的研究成果,但是该设备的成本要低很多,同时用户在使用时可以根据自己的研究目的设置不同的测序条件。而CompleteGe—nomics公司推出的DNA纳米阵列与组合探针锚定连接测序法"1则具有更高的容错能力,试剂的消耗也进一步减少,目前已顺利完成3个个体基因组的测序工作。 1.2第三代测序——单分子长片段有望实现第二代测序技术虽然在各方面都有了较大的突破,但是仍然建立在PCR扩增的基础上。为了避免PCR扩增带来的偏差,科学家目前正在研制对DNA单个分子直接测序的第三代测序仪。最具代表性的包括Heliscope单分子测序仪,单分子实时合成测序法,纳米孔测序技术等。 Helicos技术仍然是基于合成测序原理¨…,它采用了一种新的荧光类似物和灵敏的监测系统,能够直接记录到单个碱基的荧光,从而克服了其他方法须同时测数千个相同基因片段以增加信号亮度的缺陷。PacificBioscienees公司研发的单分子实时合成测序法充分利用了DNA聚合酶的特性,可以形象的描述为通过显微镜实时观测DNA聚合酶,并记录DNA合成的整个过程。纳米孔测序技术[11’121则是利用不同碱基在通过纳米小孔时引起的静电感应稍有不同,或者不同碱基通过小孔的能力各有差异,来加以区分不同的碱基信号。 2应用与实践 Kahvejian在2008年的一篇综述中提到¨“:“如果你可以随心所欲地测序,你会开展哪些研究?”。人类基因组计划的完成和近年来高通量测序的兴起,使越来越多的科研工作者认识到,我们对于生物界的认识才刚刚起步。基因图谱的绘制并不意味着所有遗传密码的破解,癌症基因组的开展也没有解决所有的医学难题。DNA变异的模式和进化机制,基因调控网络的结构和相互作用方式,复杂性状及疾病的分子遗传基础等,仍是困扰生物学家和医学家的难题,而高通量测序的广泛应用,也许可以让我们知道的更多。 2.1DNA水平的应用 2.1.1全基因组测序新一代测序技术极大地推

高通量测序基础知识

高通量测序基础知识简介 陆桂 什么是高通量测序? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。 什么是Sanger法测序(一代测序) Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。 什么是基因组重测序(Genome Re-sequencing) 全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。 什么是de novo测序 de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。 什么是外显子测序(whole exon sequencing) 外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。

基因测序技术的优缺点及应用

基因测序技术的优缺点及应用 随着人类基因组计划的完成,人类对自身遗传信息的了解和掌握有了前所未有的进步。与此同时,分子水平的基因检测技术平台不断发展和完善,使得基因检测技术得到了迅猛发展,基因检测效率不断提高。从最初第一代以 Sanger 测序为代表的直接检测技术和以连锁分析为代表的间接测序技术,到 2005 年,以Illumina 公司的 Solexa技术和 ABI 公司的 SOLiD 技术为标志的新一代测序 (next-generation sequencing,NGS) 的相继出现,测序效率明显提升,时间明显缩短,费用明显降低,基因检测手段有了革命性的变化。其技术正向着大规模、工业化的方向发展,极大地提高了基因检测的检出率,并扩展了疾病在基因水平的研究范围。2009 年 3 月,约翰霍普金斯大学的研究人员在《Science》杂志上发表了通过 NGS外显子测序技术,发现了一个新的遗传性胰腺癌的致病基因PALB2,标志着 NGS 测序技术成功应用于致病基因的鉴定研究。同年,《Nature》发表了采用 NGS 技术发现罕见弗里曼谢尔登综合征MYH3 致病基因突变和《Nat Genet》发表了遗传疾病米勒综合征致病基因。此后,通过 NGS 技术,与遗传相关的致病基因不断被发现,NGS 技术已成为里程碑式的进步。2010 年,《Science》杂志将这一技术评选为当年“十大科学进展”。 近两年,基因检测成为临床诊断和科学研究的热点,得到了突飞猛进和日新月异的发展,越来越多的临床和科研成果不断涌现出来。同时,基因检测已经从单一的遗传疾病专业范畴扩展到复杂疾病和个体化应用更加广阔的领域,其临床检测范围包括高危疾病的新生儿筛查、遗传疾病的诊断和基因携带的检测以及基因药物检测用于指导个体化用药剂量、选择和药物反应等诸多方面的研究。目前,基因检测在临床诊断和医学研究的应用正越来越受到医生的普遍重视和引起研究人员的极大的兴趣。 本文介绍了几种 DNA 水平基因检测常见的方法,比较其优缺点和在临床诊断和科学研究中的应用,对指导研究生和临床医生课外学习,推进临床科研工作和提升科研教学水平有着指导意义。 1、第一代测序 1.1 Sanger 测序采用的是直接测序法。1977年,Frederick Sanger 等发明了双脱氧链末端终止法,这一技术随后成为最为常用的基因测序技术。2001 年,Allan Maxam 和 Walter Gibert 发明了 Sanger 测序法,并在此后的 10 年里成为基因检测的金标准。其基本原理即双脱氧核苷三磷酸(dideoxyribonucleoside triphosphate,ddNTP) 缺乏PCR 延伸所需的 3'-OH,因此每当 DNA 链加入分子 ddNTP,延伸便终止。每一次 DNA 测序是由 4个独立的反应组成,将模板、引物和 4 种含有不同的放射性同位素标记的核苷酸的ddNTP 分别与DNA 聚合酶混合形成长短不一的片段,大量起始点相同、终止点不同的 DNA 片段存在于反应体系中,具有单个碱基差别的 DNA 序列可以被聚丙烯酰胺变性凝胶电泳分离出来,得到放射性同位素自显影条带。依据电泳条带读取DNA 双链的碱基序列。 人类基因组的测序正是基于该技术完成的。Sanger 测序这种直接测序方法具有高度的准确性和简单、快捷等特点。目前,依然对于一些临床上小样本遗传疾病基因的鉴定具有很高的实用价值。例如,临床上采用 Sanger 直接测序 FGFR 2 基因证实单基因 Apert 综合征和直接测序 TCOF1 基因可以检出多达 90% 的

全基因组重测序数据分析

全基因组重测序数据分析 1. 简介(Introduction) 通过高通量测序识别发现de novo的somatic和germ line 突变,结构变异-SNV,包括重排 突变(deletioin, duplication 以及copy number variation)以及SNP的座位;针对重排突变和SNP的功能性进行综合分析;我们将分析基因功能(包括miRNA),重组率(Recombination)情况,杂合性缺失(LOH)以及进化选择与mutation之间的关系;以及这些关系将怎样使 得在disease(cancer)genome中的mutation产生对应的易感机制和功能。我们将在基因组 学以及比较基因组学,群体遗传学综合层面上深入探索疾病基因组和癌症基因组。 实验设计与样本 (1)Case-Control 对照组设计; (2)家庭成员组设计:父母-子女组(4人、3人组或多人); 初级数据分析 1.数据量产出:总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计,测序深度分析。 2.一致性序列组装:与参考基因组序列(Reference genome sequence)的比对分析,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。3.SNP检测及在基因组中的分布:提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基 因组信息对检测到的变异进行注释。 4.InDel检测及在基因组的分布: 在进行mapping的过程中,进行容gap的比对并检测可信的short InDel。在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,至少需 要3个Paired-End序列的支持。 5.Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有:插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基因组水平的结构变异并对检测到的变异进行注释。

全基因组从头测序(de novo测序)

全基因组从头测序(de novo测序) https://www.wendangku.net/doc/458680438.html,/view/351686f19e3143323968936a.html 从头测序即de novo 测序,不需要任何参考序列资料即可对某个物种进行测序,用生物信息学分析方法进行拼接、组装,从而获得该物种的基因组序列图谱。利用全基因组从头测序技术,可以获得动物、植物、细菌、真菌的全基因组序列,从而推进该物种的研究。一个物种基因组序列图谱的完成,意味着这个物种学科和产业的新开端!这也将带动这个物种下游一系列研究的开展。全基因组序列图谱完成后,可以构建该物种的基因组数据库,为该物种的后基因组学研究搭建一个高效的平台;为后续的基因挖掘、功能验证提供DNA序列信息。华大科技利用新一代高通量测序技术,可以高效、低成本地完成所有物种的基因组序列图谱。包括研究内容、案例、技术流程、技术参数等,摘自深圳华大科技网站 https://www.wendangku.net/doc/458680438.html,/service-solutions/ngs/genomics/de-novo-sequencing/ 技术优势: 高通量测序:效率高,成本低;高深度测序:准确率高;全球领先的基因组组装软件:采用华大基因研究院自主研发的SOAPdenovo软件;经验丰富:华大科技已经成功完成上百个物种的全基因组从头测序。 研究内容: 基因组组装■K-mer分析以及基因组大小估计;■基因组杂合模拟(出现杂合时使用); ■初步组装;■GC-Depth分布分析;■测序深 度分析。基因组注释■Repeat注释; ■基因预测;■基因功能注释;■ ncRNA 注释。动植物进化分析■基因家族鉴定(动物TreeFam;植物OrthoMCL);■物种系统发育树构建; ■物种分歧时间估算(需要标定时间信息);■基因组共线性分析; ■全基因组复制分析(动物WGAC;植物WGD)。微生物高级分析 ■基因组圈图;■共线性分析;■基因家族分析; ■CRISPR预测;■基因岛预测(毒力岛); ■前噬菌体预测;■分泌蛋白预测。 熊猫基因组图谱Nature. 2010.463:311-317. 案例描述 大熊猫有21对染色体,基因组大小2.4 Gb,重复序列含量36%,基因2万多个。熊猫基因组图谱是世界上第一个完全采用新一代测序技术完成的基因组图谱,样品取自北京奥运会吉祥物大熊猫“晶晶”。部分研究成果测序分析结果表明,大熊猫不喜欢吃肉主要是因为T1R1基因失活,无法感觉到肉的鲜味。大熊猫基因组仍然具备很高的杂合率,从而推断具有较高的遗传多态性,不会濒于灭绝。研究人员全面掌握了大熊猫的基因资源,对其在分子水平上的保护具有重要意义。 黄瓜基因组图谱黄三文, 李瑞强, 王俊等. Nature Genetics. 2009. 案例描述国际黄瓜基因组计划是由中国农业科学院蔬菜花卉研究所于2007年初发起并组织,并由深圳华大基因研究院承担基因组测序和组装等技术工作。部分研究成果黄瓜基因组是世界上第一个蔬菜作物的基因组图谱。该项目首次将传

新一代DNA测序技术总览

作者:尹银亮、陈会平、毛良伟译来源:生物谷 原文刊登于《分析化学》综述Analytical Chemistry 原文标题:Landscape of Next-Generation Sequencing Technologies 索引信息:https://www.wendangku.net/doc/458680438.html,/10.1021/ac2010857 | Anal. Chem. 2011, 83, 4327–4341 原文作者:Thomas P. Niedringhaus, Denitsa Milanova, Matthew B. Kerby, Michael P. Snyder,and Annelise E. Barro 译者资料: 尹银亮,香港华大基因研发中心有限公司email:stevenyinbio@https://www.wendangku.net/doc/458680438.html, 陈会平,毛良伟,武汉华大基因科技有限公司 【内容】 第二代测序 第二代测序成本 第三代测序技术 单分子测序法 边连接边测序法 边合成边测序法 纳米孔测序技术 蛋白质纳米孔测序法 固态纳米孔测序法 长距离阅读DNA的扩展方法 总结性评论 DNA测序正处在技术上天翻地覆剧变的阵痛之中,其突出特点是,测序通量(测序数据量)的大幅增长,原始数据中每个碱基的测序成本急剧下跌,并伴随着以巨资购买仪器以引进新技术的需求。以前看似高不可攀的奢侈性研究活动(如个人基因组测序,宏基因组学研究,以及对大量重要物种的测序),在短短几年之间,正以急速的步伐而变得越来越切实可行了。本篇综述将集中讨论在第三,第四代测序方法背后的故事:它们所面临的挑战;各种方法的局限性;以及它们带给我们的充满诱惑的前景。 第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解). 在1977年,桑格测定了第一个基因组序列,是噬菌 体X174的,全长5375个碱基。其测序方法和历史过程以前已做过详细回顾。 后来的四色荧光桑格测序法(每一种荧光代表四种碱基中的一种)被用在自动毛细管电泳测序系统中,此系统由应用生物系统有限公司(Applied Biosystems Inc.)推上市场,后来该公司被整合入生命技术公司(Life Technologies)和贝克曼.考尔特公司(Beckman Coulter inc.)(见表1)。发表于2001年的第一个人类基因组

重测序-产品类-GBS遗传图谱

方案设计诺禾致源最新发表GBS遗传图谱文章 123 微生物基因组测序16S/18S/ITS等扩增子测序细菌基因组 de novo 测序真菌基因组 de novo 测序微生物重测序宏基因组测序动植物基因组测序全基因组survey 全基因组 de novo 测序泛基因组测序变异检测BSA性状定位遗传图谱全基因组关联分析群体进化Hi-C测序人类基因组测序全基因组测序外显子测序目标区域测序单细胞基因组测序建库测序建库测序诺禾致源微信文章精彩阅读 >> 版权所有:北京诺禾致源科技股份有限公司 转录调控测序 真核有参转录组测序 医学转录组测序 真核无参转录组测序 比较转录组与泛转录组测序 原核转录组测序 宏转录组测序 单细胞转录组测序 LncRNA测序 circRNA测序 small RNA测序 ChiP-seq RIP-seq 全基因组甲基化测序图1 亲本间多态性SNP在全基因组及外显子区域的分布 图4 遗传图谱与物理图谱共线性分析 图2 玉米 bin map (横轴表示染色体编号,纵轴表示样本数; 红色表示与亲本Qi319基因型相同,蓝色表示与亲本Ye478相同; 黄色:杂合基因型) 图3 三个环境下的PH性状相关QTL在染色体上的分布GBS遗传图谱代表文献 中国农业科学院作物研究所研究人员携手诺禾致源重测序团队, 采用GBS技术,利用Illumina HiSeq 2500测序平台,对314株高 世代群体(RILs)进行双末端PE125低深度测序(平均测序深度 0.07×),检测群体SNP,并进行遗传标记开发,亲本间多态性 SNP标记分布如右图所示(图1)。 基于该图谱,对玉米3个株型相关的性状进行了定位,并且在3个 环境中定位出了主效QTL。通过这些定位出的QTL,预测到2个候 选基因,为后续进行基因的准确鉴定奠定了基础(图3)。案例1 基于GBS技术的玉米高密度遗传图谱构建和株型相关性状定位 案例西北农林科技大学研究人员与诺禾致源重测序团队合作,采用GBS技术,对枣树F 1群体的145个个体利用Illumina HiSeq PE150平台测序,检测群体SNP,并进行遗传标记开发,构建遗传图谱。本研究共得到12个连锁群,上图标记数为2540个,遗传距离总长为1456.53cM,标记间平均距离为0.88cM。 2 基于GBS技术构建枣树F 1代高密度遗传图谱 本研究通过亲本及子代SNP基因分型,开发bin 标记,基于4183个 bin 标记构建玉米高密度遗传图谱,遗传距离总长为1545.65cM, 标记间平均距离为0.37cM, 平均物理距离为0.51Mb(图2)。 类 别作物类林木类作物类作物类林木类作物类作物类发表时间2016201620152015201420132013发表刊物BMC Genomics Tree Genetics & Genomes Molecular Breeding BMC Genomics G3:Gene Genomes Genetics BMC Genomics Plos Genetics IF 3.8672.1322.1083.8672.913.8676.661策 略GBS GBS GBS GBS GBS GBS GBS link link link link link link link 物 种 玉米[1] 枣树[2] 狼尾草[3] 木薯[4] 苹果[5] 覆盆子[6] 柳枝稷[7]

动物基因组学重测序的应用研究进展

畜牧兽医学报 2016,47(10):1947-1953 A c t aV e t e r i n a r i a e tZ o o t e c h n i c aS i n i c a d o i :10.11843/j .i s s n .0366-6964.2016.10.001动物基因组学重测序的应用研究进展 汪文强1,2,赵生国2,马利青3,郭继军4,马月辉1*,赵倩君1* (1.中国农业科学院北京畜牧兽医研究所,北京100193;2.甘肃农业大学动物科学技术学院,兰州730070; 3.青海省畜牧兽医科学院,西宁810016; 4.青海省畜牧总站,西宁810001 )摘 要:随着第二代测序技术的研发和应用,基因组学的研究不断出新,为其带来了更新的科研方法和解决方案。基因组测序可以更深地了解一个物种的分子进化、基因组成和基因调控等特点,特别基因组重测序技术的发展和应用,将基因组学的研究推向了多领域、多样化、多功能的新阶段。现已从变异检测、性状定位、遗传图谱构建、群体进化分析等方面取得丰硕成果。文章阐述了动物基因组重测序学领域中全基因组测序技术和简化基因组测序技术的应用现状和发展趋势。关键词:重测序; 群体进化;变异检测;性状定位;遗传图谱中图分类号:S 813.3 文献标志码:A 文章编号:0366-6964(2016)10-1947-07收稿日期:2015-12-30 基金项目:中国农业科学院科技创新工程(A S T I P -I A S 01);国家自然科学基金项目(31201765);国家绒毛用羊产业技术体系(C A R S -40-01 )作者简介:汪文强(1991-),男,甘肃天水人,硕士生,主要从事动物遗传育种与繁殖研究,E -m a i l :187931128479@163.c o m *通信作者:赵倩君,副研究员,E -m a i l :z h a o q i a n j u n @c a a s .c n ;马月辉,研究员,E -m a i l :y u e h u i .m a @263.n e t T h eR e s e a r c hP r o g r e s s a n dA p p l i c a t i o no fR e s e q u e n c i n g B a s e d o nA n i m a lG e n o m i c s W A N G W e n -q i a n g 1,2,Z H A OS h e n g -g u o 2,M AL i -q i n g 3,G U OJ i -j u n 4,M A Y u e -h u i 1*,Z H A O Q i a n -j u n 1*(1.I n s t i t u t e o f A n i m a l S c i e n c e ,C h i n e s e A c a d e m y o f A g r i c u l t u r a l S c i e n c e s ,B e i j i n g 1 00193,C h i n a ;2.C o l l e g e o f A n i m a l S c i e n c e a n dT e c h n o l o g y ,G a n s uA g r i c u l t u r a lU n i v e r s i t y ,L a n z h o u 730070,C h i n a ;3.Q i n g h a i A c a d e m y o f A n i m a l S c i e n c e a n dV e t e r i n a r y M e d i c i n e ,X i n i n g 8 10016,C h i n a ;4.A n i m a lH u s b a n d r y S t a t i o n o f Q i n g h a i ,X i n i n g 8 10001,C h i n a )A b s t r a c t :W i t h t h e a p p l i c a t i o na n dd e v e l o p m e n t o f t h en e x t g e n e r a t i o ns e q u e n c i n g t e c h n i q u e ,t h e r e s e a r c h e so f g e n o m i c s a r e c o n s t a n t l y u p d a t i n g ,w h i c h f i n d s o u t n e ws o l u t i o n s a n d t e c h n o l o g i e s t o g e n o m i c s .T h e g e n o m e s e q u e n c i n g i s c o m p e t e n t t o l e a r nt h e p o p u l a t i o ne v o l u t i o n ,g e n ec o m p o s i -t i o na n d g e n e r e g u l a t i o nd e e p l y ,e s p e c i a l l y t h e a p p l i c a t i o na n dd e v e l o p m e n t o f g e n o m e r e s e q u e n c -i n g t e c h n o l o g y ,w h i c hm a k e s t h e g e n o m e r e s e a r c h c o m e i n t o b e i n g a n e we r a i nm u l t i r e g i o n ,d i v e r -s i f i c a t i o na n dm u l t i f u n c t i o n .N o w a d a y s t h e n e x t g e n e r a t i o n s e q u e n c i n g t e c h n i q u e h a sm a d e a l a r g e p r o g r e s s i nm u t a t i o nd e t e c t i o n , f i n em a p p i n g o f i m p o r t a n t g e n e s ,g e n e t i cm a p c o n s t r u c t i o n ,a n a l y -s i s o f p o p u l a t i o n e v o l u t i o n ,a n d s oo n .T h e r e v i e ws t a t e s a p p l i c a t i o n s t a t u s a n dd e v e l o p m e n t t e n d -e n c y o fw h o l e g e n o m e s e q u e n c i n g t e c h n o l o g y a n d r e d u c e d -r e p r e s e n t a t i o n g e n o m e s e q u e n c i n g t e c h -n o l o g y i na n i m a l g e n o m e r e s e q u e n c i n g .K e y w o r d s :r e s e q u e n c i n g ;p o p u l a t i o ne v o l u t i o n ;m u t a t i o n d e t e c t i o n ;f i n e m a p p i n g o fi m p o r t a n t g e n e s ;g e n e t i cm a p 随着S a n g e r 测序技术的限制性,第二代测序技术(N e x t g e n e r a t i o ns e q u e n c i n g ,N G S )的优势逐渐凸显,对重测序技术的发展起到了重要的作用。N G S 的核心思想是边合成边测序,即通过捕捉新合成的末端的标记来确定D N A 的序列,测序技术成本低、高通量、快速、高效等特点能有效地鉴别单核

人类全基因组测序

1 技术优势 全基因组测序(Whole Genome Sequencing,WGS)是利用高通量测序平台对人类不同个体或群体进行全基因组测序,并在个体或群体水平上进行生物信息分析。可全面挖掘DNA 水平的遗传变异,为筛选疾病的致病及易感基因,研究发病及遗传机制提供重要信息。 全基因组测序 平台优势 HiSeq X 测序平台 读长:PE150 通量:1.8T/run 测序周期:3 天 专为人全基因组测序准备、测序周期短、通量高

生物信息分析 技术路线 技术参数 样品要求 样本类型:DNA 样品 样本总量:≥1.0 μg DNA (提取自新鲜及冻存样本) ≥1.5 μg DNA (提取自FFPE 样本)样品浓度:≥ 20 ng/μl 测序平台及策略HiSeq X PE150 测序深度 肿瘤:癌组织(50X),癌旁组织/血液样本(30X)遗传病:30~50 X 项目周期37天

3 案例解析 该研究选取3个家系中6个患者和1个正常个体,首先使用基因芯片寻找纯合突变位点,然后对其中无亲缘关系的2例患者采用全基因组测序研究,在2例患者非编码区域均发现相同的变异,10号染色体PTF1A 末端发生一个点突变(chr10:23508437 A>G),且变异在患病人群和细胞试验中均得到了验证。研究解释了生长发育启动子隐性变异是罕见孟德尔遗传病的常见致病原因,同时说明许多疾病的致病突变也可能位于非编码区。 图1 检出的变异信息 智力障碍是影响新生儿心智发育的一类疾病。这项研究选取50个经过基因芯片和全外显子测序未确诊致病因子的trio 家系,全基因组测序检出84个de novo SNVs 和8个de novo CNVs,及一些结构变异(如VPS13B、STAG1、IQSEC2-TENM3),检出率为42%。揭示编码区的de novo SNVs 和de novo CNVs 是导致智力障碍的主要因素,全基因组测序可以作为可靠的遗传性检测应用工具。 案例一 单基因病研究——全基因组测序鉴定PTF1A末端增强子常染色体隐性突变导致胰腺 发育不全[1] 案例二 复杂疾病研究——全基因组测序解析智力障碍的主要致病因素[2] 图2 PTF1A 的家系图谱

基因组测序的数学模型分解

基因组组装 摘要 基因组测序是生物信息学的核心,有着极其重要的应用价值。新的测序技术大量涌现,产生的reads长度更短,数量更多,覆盖率更大,能直接读取的碱基对序列长度远小于基因组长度。所以测序之前DNA分子要经过复制若干份、随机打断成短片段。要获取整个DNA片段,需要把这些片段利用重合部分信息组织连接。如何在保证组装序列的连续性、完整性和准确性的同时设计耗时短、内存小的组装算法是本题的关键。 本文建立改进后OLC算法模型。该模型首先使用了特定的编码规定,通过C++程序对庞大的数据先后进行十进制和二进制的处理,不改变数据准确性的前提下尽可能减小内存和缩短计算机操作时间,并引入解决碱基识别错误问题的一般思路消除初始reads中的碱基错误。然后通过深度优先算法,设定适当的阈值,找出具有重叠关系的碱基片段并形成一有向赋权图,其中点是碱基片段,边代表具有重叠关系,权值代表片段重叠的多少,将问题转化为图论中寻找最大赋权通路的问题,从而对OLC算法进行改进,采用图论的方法更直观和更具操作性的解决DNA的拼接问题,从而对OLC算法进行改进。最后再根据OLC算法对Hamilton 路径进行拼接,生成共有序列,通过多序列比对等方法,获得最终的基因组序列。 关键词:基因组测序 OLC算法深度优先算法Hamilton路径

一问题的重述 1.1 问题背景 快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。对每个生物体来说,基因组包含了整个生物体的遗传信息,这些信息通常由组成基因组的DNA或RNA分子中碱基对的排列顺序所决定。获得目标生物基因组的序列信息,进而比较全面地揭示基因组的复杂性和多样性,成为生命科学领域的重要研究内容。 1.2 问题提出 确定基因组碱基对序列的过程称为测序。目前能直接读取的碱基对序列长度远小于基因组序列长度,因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。通常的做法是,将基因组复制若干份,无规律地分断成短片段后进行测序,然后寻找测得的不同短片段序列之间的重合部分,并利用这些信息进行组装。例如,若有两个短片段序列分别为 ATACCTT GCTAGCGT GCTAGCGT AGGTCTGA 则有可能基因组序列中包含有ATACCTT GCTAGCGT AGGTCTGA这一段。 由于技术的限制和实际情况的复杂性,最终组装得到的序列与真实基因组序列之间仍可能存在差异,甚至只能得到若干条无法进一步连接起来的序列。对组装效果的评价主要依据组装序列的连续性、完整性和准确性。连续性要求组装得到的(多条)序列长度尽可能长;完整性要求组装序列的总长度占基因组序列长度的比例尽可能大;准确性要求组装序列与真实序列尽可能符合。 利用现有的测序技术,可按一定的测序策略获得长度约为50–100个碱基对的序列,称为读长(reads)。基因组复制份数约为50–100。基因组组装软件可根据得到的所有读长组装成基因组,这些软件的核心是某个组装算法。一个好的算法应具备组装效果好、时间短、内存小等特点。新一代测序技术在高通量、低成本的同时也带来了错误率略有增加、读长较短等缺点,现有算法的性能还有较大的改善空间。具体解决问题如下: (1)建立数学模型,设计算法并编制程序,将读长序列组装成基因组。你的算法和程序应能较好地解决测序中可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况。 (2)现有一个全长约为120,000个碱基对的细菌人工染色体,采用Hiseq2000测序仪进行测序,测序策略以及数据格式的简要说明见附录一和附录二,测得的读长数据见附录三,测序深度约为70×,即基因组每个位置平均被测到约70次。试利

新一代高通量测序技术SOLiD简介

新一代高通量测序技术SOLiD简介 目前市场上有四种高通量测序仪,分别是Solexa,454 (GS-FLX),SOLiD和Polonator。根据测序原理,它们可以被分为两大类:使用合成法测序(Sequencing by Synthesis)的Solexa和454,及使用连接法测序(Sequencing by Ligation)的Polonator和SOLiD。这些高通量测序仪的共同点是不需要大肠杆菌系统进行DNA模板扩增,且测序所得序列较短:其中的454序列最长,为200~300个碱基,其余三种序列都只有几十个碱基。测序原理及序列长度的差异决定了各种高通量测序仪具有不同的应用领域。这就要求我们在熟悉各种高通量测序仪内在技术特点的基础上进行选择。 基因组所引进的SOLiD (Sequencing by Oligonucleotide Ligation and Detection)是ABI(Applied Biosystems)公司生产的高通量测序仪。目前这台SOLiD运行稳定,SOLiD实验及数据分析小组也可以为大家提供专业的技术服务。所以接下来的关键是如何把SOLiD测序仪应用到符合其技术特点的科研项目中。本短文将简单介绍SOLiD测序流程,双碱基编码原理及数据分析原理,以帮助大家了解SOLiD测序仪的技术特点和应用范围。 1.SOLiD关键技术及其原理 SOLiD使用连接法测序获得基于“双碱基编码原理”的SOLiD颜色编码序列,随后的数据分析比较原始颜色序列与转换成颜色编码的reference序列,把SOLiD颜色序列定位到reference上,同时校正测序错误,并可结合原始颜色序列的质量信息发现潜在SNP位点。 1.1. SOLiD文库构建 使用SOLiD测序时,可根据实际需要,制备片段文库(fragment library)或末端配对文库(mate-paired library)。简单地说,制备片段文库就是在短DNA片段(60~110 bp)两端加上SOLiD 接头(P1、P2 adapter)。而制备末端配对文库,先通过DNA环化、Ecop15I酶切等步骤截取长DNA片段(600bp到10kb)两末端各25 bp进行连接,然后在该连接产物两端加上SOLiD接头。两种文库的最终产物都是两端分别带有P1、P2 adapter的DNA双链,插入片段及测序接头总长为120~180 bp。 1.2:油包水PCR 我们知道,文库制备得到大量末端带P1、P2 adapter但内部插入序列不同的DNA双链模板。和普通PCR一样,油包水PCR也是在水溶液进行反应,该水相含PCR所需试剂,DNA模板及可分别与P1、P2 adapter结合的P1、P2 PCR引物。但与普通PCR不同的是,P1引物固定在P1磁珠球形表面(SOLiD将这种表面固定着大量P1引物的磁珠称为P1磁珠)。PCR反应过程中磁珠表面的P1引物可以和变性模板的P1 adapter负链结合,引导模板合成,这样一来,P1引物引导合成的DNA链也就被固定到P1磁珠表面了。 油包水PCR最大的特点是可以形成数目庞大的独立反应空间以进行DNA扩增。其关键技术是“注水到油”,基本过程是在PCR反应前,将包含PCR所有反应成分的水溶液注入到高速旋转的矿物油表面,水溶液瞬间形成无数个被矿物油包裹的小水滴。这些小水滴就构成了独立的PCR 反应空间。理想状态下,每个小水滴只含一个DNA模板和一个P1磁珠,由于水相中的P2引物和磁珠表面的P1引物所介导的PCR反应,这个DNA模板的拷贝数量呈指数级增加,PCR反应结束后,P1磁珠表面就固定有拷贝数目巨大的同来源DNA模板扩增产物。A BI公司提供的SOLiD 实验手册已经把小水滴体积及水相中DNA模板和磁珠的个数比等重要参数进行了技术优化和流程固定,尽可能提高“优质小水滴”(水滴中只含一个DNA模板一个P1磁珠)的数量,为后续SOLiD 测序提供只含有一种DNA模板扩增产物的高质量P1磁珠。

相关文档
相关文档 最新文档