文档库

最新最全的文档下载
当前位置:文档库 > Progress+in+environmental+transcriptomics+based+on+next-generation+high-throughput+sequencing

Progress+in+environmental+transcriptomics+based+on+next-generation+high-throughput+sequencing

生物多样性 2013, 21 (4): 401–410 Doi: 10.3724/SP.J.1003.2013.10031 Biodiversity Science http: //http://www.wendangku.net/doc/c16b4ba31eb91a37f1115cfd.html

基于新一代高通量测序的环境微生物

转录组学研究进展

蔡元锋贾仲君*

(中国科学院南京土壤研究所土壤与农业可持续发展国家重点实验室, 南京 210008)

摘要:环境微生物转录组学是一门新兴学科, 它以复杂环境样品中的微生物mRNA为研究对象, 利用近年兴起的RNA-Seq高通量测序技术, 在整体水平上对环境微生物的基因表达水平和调控规律进行研究。本文概述了环境微生物转录组研究从样品的采集保存、RNA提取、mRNA的富集、cDNA合成直到高通量测序及数据分析的基本流程。总结了该技术面临的主要瓶颈: 环境样品mRNA含量低、腐植酸等干扰杂质多、rRNA去除程度有限。针对 RNA 的提取、纯化以及mRNA的富集这些重点步骤, 详细阐述了近年来在提高mRNA的得率与纯度上的方法学进展。

重点介绍了高通量测序数据的处理及分析方法, 从测序数据的质量控制、序列组装、rRNA的鉴定及去除、功能基因注释及分类到差异表达基因的鉴定。最后总结了近年来环境微生物转录组学在新基因的发现、不同环境条件下微生物的基因表达及调控规律研究、有机物的代谢路径分析等3个主要研究领域的广泛应用。随着测序技术及生物信息学分析工具的发展进步, 环境微生物转录组学将具有更广阔的应用前景。

关键词:转录组学, RNA-seq, 高通量测序, 环境微生物学

Progress in environmental transcriptomics based on next-generation high-throughput sequencing

Yuanfeng Cai, Zhongjun Jia*

State Key Laboratory of Soil and Sustainable Agriculture, Institute of Soil Science, Chinese Academy of Sciences, Nanjing 210008

Abstract: Environmental transcriptomics, which focuses on microbial mRNA derived from complex envi-ronmental samples using the RNA-Seq method, allows investigation of expression and patterns of regulation of functional genes in natural microbial communities. This review outlines the basic protocol of environ-mental transcriptomics, from sample collection and preservation, total RNA isolation, mRNA enrichment, cDNA synthesis to high-throughput sequencing and data analysis. Main technological problems are pointed out, such as low yield of mRNA in environmental samples, contamination of mRNA by various impurities like humic substances and limited degree of rRNA removal. Recent progresses in specific methodologies to improve the quantity and quality of mRNA, especially in RNA extraction, purification and the enrichment of mRNA, are outlined. Bioinformatics methods that deal with the large volume of RNA-Seq data are ad-dressed, such as quality control of the sequence data, sequence assembly, detection and removal of rRNA, gene annotation and functional classification, and detection of differently expressed genes. The widely appli-cation of environmental transcriptomics, including detection of new genes, study of gene expression and regulation of microorganisms in different environments, and the analysis of metabolic pathways of special organic substances, are also highlighted. Environmental transcriptomics, combined with the further develop-ment of sequencing technology and bioinformatics tools in the future, are likely to be comprehensively used in the study of environmental microbiology.

Key words: transcriptomics, RNA-Seq, high-throughput sequencing, environmental microbiology

——————————————————

收稿日期: 2013-01-31; 接受日期: 2013-03-09

基金项目: 国家自然科学基金重大项目(41090281)

?通讯作者Author for correspondence. E-mail: jia@http://www.wendangku.net/doc/c16b4ba31eb91a37f1115cfd.html

402 生物多样性 Biodiversity Science第21卷

20世纪90年代以来, 分子生物学技术的快速发展极大地促进了人们对于自然界微生物多样性的认识, 特别是近年来随着DNA高通量测序技术的发展, 微生物全基因组水平的研究已经成为一种常规的实验手段。但是基因组序列本身不能提供微生物的基因功能信息, 因此开展微生物转录组学研究尤为重要。环境微生物转录组学以环境样品中微生物的全部转录本即mRNA为研究对象, 从群体水平上研究环境微生物功能基因的表达水平及其在不同环境条件下的转录调控规律, 是一门研究微生物与自然环境相互关系的新兴学科。然而, 环境微生物转录组学的研究进展非常缓慢, 主要因为: (1) mRNA占环境样品总RNA中提取量的比例较低, 通常仅为1–5%(Neidhardt & Umbarger, 1996); (2) mRNA非常不稳定, 极易被RNases降解, 半衰期在几秒到几分钟之间(Deutscher, 2006); (3)原核生物mRNA通常无多聚A尾, 无法像真核生物mRNA那样可通过oligo(dT)引物直接选择(Poretsky et al., 2005); (4)后续的分析中均涉及到大量的酶促反应如PCR扩增和测序, 但因环境样品组成复杂, 其中的重金属和腐殖质等物质都可能降低RNA纯度, 严重干扰下游分析; (5)测序技术是环境转录组学发展的重要技术瓶颈, 单个微生物细胞的基因通常高达上千个, 复杂环境中微生物的基因数量更是难以估算, 而传统的测序技术通量较低, 每次仅获得几百个mRNA序列, 信息量较小, 很难获得令人信服的微生物生理代谢过程的原位证据; 同时传统测序技术依赖于克隆文库构建, 费时费力且成本高昂, 无法应对转录组研究对大规模测序的需求。

自2008年以来, DNA测序技术取得了重大突破, 基于不同原理的新一代高通量测序技术逐渐成为目前的主流平台(Shendure & Ji, 2008)。与传统的Sanger测序法相比, 新一代测序技术的效率大幅提高, 一次测序可以获得高达上百万的通量, 单个碱基的测序成本也大幅下降。新一代测序技术的快速发展催生了RNA-Seq(High-throughput RNA sequen- cing)技术的出现。RNA-Seq是利用新一代高通量测序技术对转录组进行分析的技术(Wang et al., 2009b), 相比其他基于杂交技术的芯片技术(micro- arrays)(Schena et al., 1998)、基于序列分析的基因表达系列分析(serial analysis of gene expression, SAGE)(Velculescu et al., 1995)及其改进版的大规模平行信号测序系统(massively parallel signature se-quencing, MPSS)(Brenner et al., 2000), RNA-Seq具有明显的优势, 如检测范围广、无需特异性探针、高灵敏度等(Qi et al., 2011)。RNA-Seq使复杂环境样品中微生物转录组学研究变得简单易行, 近年来在水体(Frias-Lopez et al., 2008; Gilbert et al., 2008; Hollibaugh et al., 2011)、土壤(Leininger et al., 2006; Urich et al., 2008)、污泥(Yu & Zhang, 2012)、沉积物(Mills et al., 2012)、动物肠道(Poroyko et al., 2010; Turnbaugh et al., 2010)等多种环境中得到广泛应用, 在环境微生物学领域受到极大关注。

1环境微生物转录组学的技术流程

环境微生物转录组学的技术流程可大致分为以下几个步骤:

1.1环境样品的采集及保存

环境样品一般分为水样、土壤和寄主样品(如人体微生物)三大类, 不同样品类型决定了具体的采集和保存办法。一般的原则是严格控制样品采集的时间, 样品采集后要利用液氮原位快速冷冻, 并置于-70℃长期保存, 或者将样品浸入RNA保存液(如Ambion公司的RNA later保存液)中, -20℃长期保存。

1.2总RNA的提取

不同环境来源的样品RNA的提取方法各不相同, 但一般都包括细胞裂解、蛋白抽提、核酸沉淀、DNA酶解等步骤。另外, 有多种商业化的RNA提取试剂盒可供选择, 如RNeasy Mini Kit (Qiagen)、mir Vana miRNA Isolation Kit (Ambion)、PowerSoil? Total RNA Isolation Kit (Mo Bio Laboratories)等。1.3 mRNA的富集

由于mRNA在总RNA中含量很低, 所以通常情况下需要对mRNA进行富集。由于原核生物的mRNA不含多聚A尾, 所以不能用oligo(dT)直接进行选择, 只能通过消减rRNA的方法间接富集mRNA。这一步骤一般采用试剂盒进行, 如Ambion 公司的MICROB Express?Bacterial mRNA En-richment Kit、EpiCentre公司的mRNA-ONLY? Prokaryotic mRNA Isolation Kit等, 还有一些非试剂盒的物理化学方法。通常情况下, mRNA的含量会提高数倍到数十倍, 最高可达95%左右(Giannoukos et al., 2012)。此外, mRNA可以用化学水解法或酶降解法生成较小的片段以适应测序平台的需要, 例

第4期蔡元锋和贾仲君: 基于新一代高通量测序的环境微生物转录组学研究进展 403

如, Illumina或SOLiD测序平台适合200–250 nt大小的片段(Chu & Corey, 2012)。片段化步骤也可以在cDNA合成后进行。

1.4 cDNA的合成

以富集后的mRNA为模板, 经反转录酶催化生成cDNA的第一链, 再经DNA聚合酶等多种酶的共同作用生成cDNA的第二链。这一步骤的实现也有多种试剂盒可供选择, 如Invitrogen的SuperScript? Double-Stranded cDNA Synthesis Kit, Promega公司的Universal RiboClone? cDNA Synthesis System等。引物一般选择随机六聚体引物。

1.5高通量测序及数据分析

纯化后的cDNA经过一系列的前处理后, 进行高通量测序。这些步骤随不同的测序平台而有差异。通常情况下, 高通量测序的数据为FASTQ格式, 数据分析的过程因样品类型和研究目的不同而具有明显的差异, 在数据处理及分析部分会详细阐述。

2技术瓶颈及进展

环境微生物样品和纯培养菌株样品在许多方面存在差异, 首先是环境样品微生物多样性虽然高, 但目标微生物的RNA含量非常低, 受到样品量的限制, 大多数情况下不能满足测序量的要求; 其次是环境样品中存在多种杂质如腐植酸的干扰, 另外物种组成非常复杂, rRNA消减程度有限, 这些都加大了环境样品研究的难度。但近年来, 这些方面的研究都有不同程度的进展。

2.1 RNA的含量

高通量测序一般需要微克级的RNA, 而RNA 的产量受诸多因素的影响。以土壤样品为例, 土壤中活性微生物的多少、RNA提取方法的选择以及样品的纯化步骤在很大程度上都可能影响RNA的产量。不同类型的土壤中活性微生物含量差别巨大, 每克土壤RNA的提取量多则几微克, 少时仅几十纳克(Wang et al., 2012), 因此增加样品量是提高RNA 产量的方法之一。RNA提取的方法有很多种, 目前似乎没有一种方法可适合于所有的样品类型, 即使同样的样品, 用不同的方法提取, RNA产量也会有显著差异。因此, 需要根据样品类型及研究目的选择适当的方法或改进相应的技术。环境微生物转录组学研究一般包含多次RNA纯化步骤, 每次纯化过程都会造成一定量的RNA损失, 因此选择质量好的纯化试剂盒能够最大程度地减少这一损失。除了在

提取和纯化过程中对流程进行优化, 在cDNA合成

之前也可对mRNA进行扩增, Ambion公司的MessageAmp? Bacteria II RNA Amplification Kit试

剂盒可使RNA数量增加200–1,500倍, 已在多个研

究中得到应用(Frias-Lopez et al., 2008; Hewson et al., 2010; de Menezes et al., 2012)。

2.2 杂质的去除

获取高质量的RNA是转录组学研究的基础。RNA纯化试剂盒并不能除掉所有的杂质。以土壤样

品RNA提取为例, 主要的挑战是腐植酸的污染, 它

会在核酸提取过程中与核酸共沉淀, 并对后续的酶

反应造成不同程度的抑制。近年来有多种方法被证

明能够有效地去除腐植酸, 并可应用到RNA提取过

程中的不同阶段, 如控制裂解的温度(Wang et al., 2009a)、低pH条件(Mettel et al., 2010)、抽提液中加

入CTAB(cetyltrimethyl ammonium bromide) (Griffiths et al., 2000)或PVPP(polyvinylpolypyrroli- done) (Rajendhran & Gunasekaran, 2008)、用PEG来

沉淀RNA(Bürgmann et al., 2003)等。但有时仅改进

提取条件仍然不够, 对于腐植酸含量高的样品, 需

要对提取后的RNA进行进一步的纯化, 最近的研究

认为柱纯化方法, 如Sephacryl S-400凝胶过滤(Wang et al., 2009a)和Q-Sepharose Fast Flow离子交

换柱(Mettel et al., 2010)是相对高效的方法。

2.3 mRNA的富集

尽管高通量测序可以获得数量巨大的序列数据, 但由于mRNA在总RNA中的比例很低, 为了提

高测序的有效性同时也为了避免浪费, 需要去除总RNA中的rRNA以便对mRNA进行富集, 这也是转

录组学研究中的一个重要步骤。目前mRNA的富集

方法主要包括: 基于消减杂交法的Ambion公司的MICROB Express?Bacterial mRNA Enrichment Kit

和EpiCentre公司的Ribo-Zero? rRNA Removal Kit,

以及基于核酸外切酶法的EpiCentre公司的mRNA- ONLY? Prokaryotic mRNA Isolation Kit。MICROB- Express?Bacterial mRNA Enrichment Kit较早进入

市场, 目前使用非常广泛, 但是对于不同的环境样

品的富集效率差异较大(Stewart et al., 2010)。mRNA-ONLY? Prokaryotic mRNA Isolation Kit的

富集效果一般, 相关研究报道很少。Ribo-Zero? rRNA Removal Kit是由EpiCentre最新开发的,

404 生物多样性 Biodiversity Science第21卷

Giannoukos等(2012)评价了该试剂盒的rRNA去除效果, 对于3种GC含量不同的纯培养细菌的实验结果, rRNA含量均可降至1%以下。通过与其他试剂盒的比较, 作者认为Ribo-Zero? rRNA Removal Kit效率最高。此外, 该试剂盒对人粪便样品来源的混合微生物中rRNA的去除效果也较好, rRNA也可降至5%以下, 但对于其他类型的环境样品, 该试剂盒的处理效果还不清楚。最近, 利用 “not-so-random” 六聚体引物在cDNA合成过程中选择性富集mRNA 的基本原理(Armour et al., 2009), NuGEN公司开发了一种Ovation? Prokaryotic RNA-Seq System试剂盒, 该试剂盒可以单独使用或者和已有的rRNA 消减方法结合使用。另外, 还有一种基于双链特异性核酸酶(duplex-specific nuclease, DSN)的cDNA文库标准化方法(Zhulidov et al., 2004), DSN在cDNA 双链变性和复性的过程中选择性地降解数量较多的cDNA双链, 以此减少各种转录子的含量差异, 有利于大量rRNA的去除和稀有转录子的检测(Yi et al., 2011)。但由于该方法会改变不同转录子的相对含量, 因此不适合转录子的定量研究。除了以上提到的试剂盒方法, 还有一些非试剂盒方法如切胶纯化法(McGrath et al., 2008), 通过将琼脂糖电泳图中rRNA之间的胶切下来回收达到去除rRNA富集mRNA的目的。但这种方法需要的RNA上样量较大, 而且无法回收和rRNA迁移率一样的mRNA。另外, 还可根据样品的物种组成自行设计样品特异性的反义rRNA探针用于消减rRNA (Stewart et al., 2010), 但由于步骤繁琐, 尚未得到广泛使用。

3测序平台的选择

2005年以来, 陆续诞生了多种新一代高通量测序技术平台, 如罗氏公司(Roche)的454高通量测序平台、Illumina公司的Solexa平台以及ABI公司的SOLiD平台。由于这些平台基于不同的测序原理, 所以在平均读长、数据量、错误类型、运行时间以及测序费用上均有一定差异, 可根据自己的研究需要进行选择(Chu & Corey, 2012)。关于这些平台的测序原理及性能比较的文献已有很多(Shendure & Ji, 2008), 因此本文仅对这些具有代表性的平台作简要介绍。需要注意的是这些测序平台的名称在不同的文献中可能有所不同, 如有些文献以其公司名指代, 有些以具体的测序仪型号指代, 还有的以其核心技术指代, 如Riche 454高通量测序平台也称焦磷酸测序(pyrosequencing)。

3.1 Riche 454测序平台

2007年罗氏公司在454公司原有的Genome Sequencer 20(GS 20)测序仪的基础上, 推出第二代高通量测序仪GS FLX, 系统性能有了显著提高, 这就是Riche 454高通量测序平台, 是第一个商业化的新一代测序平台。其基础是焦磷酸测序技术。与其他测序平台相比, 该技术平台最显著的优势是序列有效读长可达800 bp, 耗时较短, 目前已发表的环境微生物转录组学相关研究文献多数采用这种测序平台。但缺点是测序通量较小、测序费用相对较高、准确率较低。

3.2 Illumina/Solexa测序平台

Illumina公司的新一代测序仪Genome Analyzer (GA, 通常称为Solexa仪)最早由Solexa公司研发, 后来包括Solexa公司和Illumina公司在内的4个公司合并后, 研发了目前的Illumina/Solexa测序平台, 其核心技术是“DNA簇”和“可逆性末端终结”(reversible terminator)。该测序平台具有多项优越性能, 如测序通量大、准确率高、成本低、所需样品量少, 最近逐渐开始在环境微生物转录组学研究中应用(Giannoukos et al., 2012; Xiong et al., 2012; Yu & Zhang, 2012), 具有很好的前景。其缺点是读长较短、运行时间较长, 但随着技术的改进, 这些不足正逐步得到改善。目前已有多种型号的测序仪可供选择, 如Illumina Hi-Seq和Mi-Seq高通量测序系统在序列读长方面都有一定的提高, 分别达到了150×2 bp和250×2 bp。鉴于微生物基因的大小通常为400 bp左右, 因此250×2 bp的测序读长可基本满足序列分析的要求。

3.3 SOLiD测序平台

SOLiD(supported oligo ligation detetion)平台是ABI公司自主研发的高通量测序平台, 与454及Sol- exa平台基于边合成边测序(sequencing by synthesis, SBS)不同, SOLiD的测序原理为基于磁珠的大规模并行克隆连接DNA测序法, 其优势是测序通量大、准确率高、成本低, 但同样存在读长短、运行时间长的缺点。使用该平台的研究较少(Liu et al., 2011)。

4数据处理及分析

序列数据的分析是环境微生物转录组学研究

第4期蔡元锋和贾仲君: 基于新一代高通量测序的环境微生物转录组学研究进展 405

的重点和难点。转录组数据分析涉及到一系列的工具和资源, 形式主要有数据库、门户网站、网络服务及一些单机程序(Cardenas & Tiedje, 2008)。主要的分析步骤及常用的方法如下。

4.1序列数据预处理

RNA-Seq数据通常以FASTQ格式输出和存储, 这个格式包括每个读段(reads)的ID号、序列和质量分数。在进行正式的序列分析之前, 一般需要对序列数据作一些预处理, 如除掉一些短的、质量差的和低复杂度的序列(low-complexity reads, 序列一般为几个碱基的简单重复), 以及纠正一些测序错误。每个被测的碱基都有一个质量分数(quality score), 代表着测序的精确度, 低的质量分数预示着可能的错误。对于454和Illumina数据来说, 目前已有相应的算法来完成错误的检验、去除或更正(Rougemont et al., 2008; Quince et al., 2009)。还有一些测序前人为加上的测序接头、标签等也需要去除。另外, 也可对序列的末端进行修剪, 因为末端的错误率通常较高(Balzer et al., 2010)。

由于测序长度通常局限在500 bp以下, 所以需要对这些读段进行组装以获得全长的转录子序列。对于不同类型的数据, 有3种序列组装策略可供选择: 有参考基因组的组装(reference-based或ab initio 装配)策略、重头组装策略(de novo strategy)及上述两种组装策略的结合。每种组装策略在原理、步骤、相应的序列定位及组装工具及使用优缺点上都存在差异, 关于这些组装策略及相关软件的详细介绍可参考Martin和Wang(2011)。对于微生物组成复杂的环境样品来说, 通常情况下并没有可供参考的基因组, 所以一般选择重头组装策略, 组装的效果主要受测序深度的影响。经过序列组装可以大大减少后续的比对工作量, 初步组装后获得的较长片段称为Contig或序列重叠群, 将已知的Contig用代表未知序列的N连接, 可以进一步组装成更长的片段, 称为Scaffold, 再进一步进行补洞处理, 可以得到含N量最少且两端不能继续延长的片段, 称为Unigene。组装后的序列即可进行后续的序列比对及各种分析。

4.2 rRNA序列的鉴定去除

由于测得的cDNA序列往往来源于多种RNA, 因此需要对这些序列进行初步分类, 以确定它们最初的来源。即便测序前进行了mRNA的富集, 一般情况下仍会产生大量的rRNA序列(Stewart et al., 2010)。因此首先要将rRNA来源的序列筛选出来并

去除, 一般使用BLASTn工具(Zhang et al., 2000)在

小亚基和大亚基rRNA数据库中进行查询和筛选。

实现本地化的blast需要到NCBI网站下载单机版的blast软件(ftp://http://www.wendangku.net/doc/c16b4ba31eb91a37f1115cfd.html/blast/executables/ blast+/LATEST/), 该软件有适合不同操作系统的多

个版本, 用户可根据自己的需要下载。用于比对的rRNA数据库可以根据测序对象的不同, 自行下载

后构建, 常见的rRNA来源的数据库有SILV A数据库(http://www.arb-silva.de)、RDP II (Cole et al., 2007)等。需要注意的是, 构建的数据库不能自动更新。

比对结果中如果bit scores大于设定值(如50), 则认

为该序列属于rRNA。比对结果以FASTA格式输出

保存, 然后通过MEGAN(http://ab.inf.uni-tuebingen. de/software/megan/welcome.html)(Huson et al., 2011)

等软件进行后续的各种生物信息学分析。

4.3 mRNA的分析

进行mRNA分析的工具较多, 目前环境转录组

学研究中最常用到的工具有MG-RAST(Meta Genome Rapid Annotation using Subsystems Technology)(Meyer et al., 2008)和MEGAN。MG-RAST是一种在线宏基因组和宏转录组分析工具, MEGAN是单机版软件, 目前MEGAN 4版本的

功能已有较大拓展, 可同时对多个样品进行基因功

能比较分析, 在环境转录组研究中应用非常广泛。

掌握这两种工具即可完成环境转录组学分析的大

部分工作。常见的几类mRNA分析有分类学分析(taxonomic analysis)、基因功能分析(functional analysis)、KEGG pathway分析和不同样品间的基因

表达差异分析。

分类学分析的目的是确定mRNA来源于哪些物种。用blast软件中BLASTx程序将除去rRNA后剩下

的RNA序列翻译为6种可能的氨基酸序列, 与蛋白

数据库进行比对, 常用的蛋白数据库有NCBI nr(no- redundant)、COG(Clusters of Orthologous Genes)、UniProtKB/Swiss-Prot、PIR(The Protein Information Resource)、KEGG(Kyoto Encyclopedia of Genes and Genomes)等。Bit scores大于设定值(如30), 则认为

该序列属于putative mRNA转录子, 结果输出后用MEGAN等软件进行后续的分析。MEGAN软件使用LCA(Least Common Ancestor)算法, 参照NCBI分类

406 生物多样性 Biodiversity Science第21卷

学方法将序列进行分类, 分类结果以树状图的方式呈现, 树的节点代表每个分类单元, 匹配到该分类单元的序列数量也会标注出来, 以方便比较这些分类单元在系统发育树上的分布情况。分类结果由序列和分类单元间的匹配特异性程度决定: 特异性程度越低, 分类越偏向于分类树的根部。

功能分析指mRNA编码基因的注释(annotation)及其功能分类。基因注释的依据是序列之间的同源性, 同源性高意味着功能上的高度相似性。通过BLASTx在各个蛋白数据库中进行搜索, 查找序列相似性最高的蛋白, 从而获知该mRNA编码基因的功能注释信息。基因的注释是后续基因功能分类的基础。利用GO(Gene Ontology)、COG(Clusters of Orthologous Groups)及SEED等数据库可以将已进行功能注释的基因分到不同的基因家族中。GO是基因本体联合会(Gene Onotology Consortium)所建立的数据库, 分为分子功能(Molecular Function)、细胞成分(Cellular Component)和生物过程(Biological Process)三大部分, 是应用最广泛的一种基因功能分类体系(Ashburner et al., 2000)。使用Blast2GO软件(Conesa et al., 2005)可对功能注释后的基因进行GO功能注释, 然后再用WEGO软件(Ye et al., 2006)统计GO功能分类, 即可得知某个样品中全部转录子的基因功能分布情况。COG数据库即直系同源序列聚类数据库, 是根据系统进化关系对细菌、藻类和真核生物的数十个完整基因组的编码蛋白分类构建而成, 用于预测蛋白质的功能。利用COG下的COGNITOR程序, 可以把某个蛋白质与所有COGs 中的蛋白质进行比对, 并把它归入适当的COG簇。基因功能分类还有一种重要的方法叫做SEED subsystem分类(Overbeek et al., 2005), 通过MG- RAST可以对mRNA编码基因进行SEED subsystem 分类, SEED数据库将不同功能的基因划分到不同的subsystem中。MG-RAST是以RAST服务器(Aziz et al., 2008)为基础的改进版, 通过一个免费注册的账号就可以自动进行功能基因的系统发育及功能分析。其优点是能够快速注释大量的短片段DNA序列。如果研究人员不想将自己未发表的数据上传到网上进行分析, 还可下载单机版的MEGAN软件。比较分析表明, 在进行SEED subsystem分类时, 对于同一样品, MG-RAST和MEGAN匹配到各个subsys- tem的序列数量是非常相似的(Mitra et al., 2011)。

KEGG pathway分析虽然本质上也是一种基因功能分析, 但是相对于上述的功能分类方法更加系统化。pathway指的就是基因所参与的各种生物学过程, KEGG据此定义了自己的直系同源群, 称为KEGG Orthology(KO), 每个KO都有一个收录号, 对应一个特定的pathway。通过KEGG可查询包括碳水化合物、各种氨基酸、核酸及其他多种有机物的生物降解的可能代谢途径, 对代谢过程中相关的酶也进行了注释, 是一种生物代谢过程分析的强大工具。通过将待分析序列匹配到KO收录号已知的参考序列, MG-RAST和MEGAN都可以完成未知样品序列的KEGG pathway分析。但是在给出的pathway 结果中, MG-RAST仅用一种颜色标示出现在path- way中的酶, 而MEGAN可以用不同的颜色梯度来表征这些酶的相对含量, 这非常有助于对酶动力学调控的理解(Mitra et al., 2011)。KEGG pathway分析有助于进一步了解mRNA编码的基因产物参与的代谢通路及其行使的生物学功能(Altermann & Klaenhammer, 2005; Kanehisa et al., 2008)。

在环境转录组学研究中常常需要比较不同环境条件下样品中的基因表达差异, MG-RAST和MEGAN均可完成这类比较分析。此外, RPKM (reads per kilo bases per million reads)指数(Mortazavi et al., 2008)在评估基因的表达水平时使用非常广泛, 计算公式为RPKM = 109 × (C/NL)。其中C代表匹配到某个基因的序列数, N代表匹配到所有基因的序列数, L代表该基因的核酸序列长度。RPKM方法消除了序列长度及测序深度对基因表达量评估的可能影响, 可直接用于比较不同样品间的基因表达水平差异。已有公开发表的软件用于计算RPKM值, 如Cufflinks(Trapnell et al., 2010)和DEGseq (Wang et al., 2010)。

4.4序列的提交

获得的高通量测序数据可以提交到NCBI、EBI、DDBJ等数据中心的数据库SRA(Sequence Read Archive, http://www.wendangku.net/doc/c16b4ba31eb91a37f1115cfd.html/Traces/ sra)中, 以实现各实验室数据的共享。

5环境微生物转录组学的应用及前景展望

5.1应用范围

基于RNA-Seq技术的环境微生物转录组学研究在近几年发展非常迅速, 目前已应用于水体、土

第4期蔡元锋和贾仲君: 基于新一代高通量测序的环境微生物转录组学研究进展 407

壤、淤泥、沉积物、动物肠道等多种环境类型。水体的研究目前大多集中于海水样品, 以美国Georgia大学Moran教授课题组及美国麻省理工学院Parsons实验室的DeLong教授课题组为代表, 近年来对多个地区海水微生物样品开展了一系列的转录组学研究, 研究区域覆盖太平洋、大西洋等多个海区, 类型涉及到表层海水(Frias-Lopez et al., 2008; Hewson et al., 2010)、河口(Hollibaugh et al., 2011)、人工模拟海洋生态系统(Gilbert et al., 2008)、海洋生物(水华藻类、海绵等)的附生微生物(Hewson et al., 2009; Radax et al., 2012)、海洋不同水层等(Stewart et al., 2011b)。对于淡水生态环境及内陆水体的研究目前还很少见(Liu et al., 2011)。关于土壤、淤泥及沉积物的研究也有一些, 涉及到的样品类型有农业土壤(Leininger et al., 2006)、贫瘠的沙质草地(Urich et al., 2008)、温带森林表层土壤(Stewart et al., 2011a)、人工模拟土壤环境(de Menezes et al., 2012)、污水处理厂活性淤泥(Yu & Zhang, 2012)、海底沉积物(Mills et al., 2012)等。此外, 关于人和动物的肠道(Poroyko et al., 2010; Turnbaugh et al., 2010; Gosalbes et al., 2011; Xiong et al., 2012)以及排泄物(Booijink et al., 2010)的微生物转录组学研究也有不少。

5.2研究实例分析

RNA-Seq技术最显著的特点是高通量, 借助该技术, 每个样品可得到数十万甚至上百万条序列数据, 通过对这些海量数据的分析可以获得传统方法无法得到的信息。

第一, 高通量的数据促进了大量的功能未知的新基因及小RNA的发现。例如, 在对太平洋表层海水样品进行微生物转录组学分析后, 发现高达50%的基因为新基因(Frias-Lopez et al., 2008); Gilbert等(2008)在挪威海岸一个人工模拟海洋生态系统(mesocosm)中进行的微生物转录组学分析显示, RNA-Seq技术在环境微生物新基因的发现上具有强大的能力, 在一些高度表达的大基因家族中, 约91%的基因是新成员。另外, 借助RNA-Seq技术, Shi 等(2009)发现在海水中存在独特的微生物小RNA 群, 它们和已知的小RNA不同, 位于基因组上的基因间隔区, 推测可能具有基因调节功能。

第二, 通过比较微生物在不同环境(自然环境或人工控制环境)条件下的高通量转录组数据, 结合宏基因组及定量PCR等其他研究手段,有助于发现环境条件对微生物代谢活性的影响以及微生物应对环境变化而进行的转录调控,了解微生物的转录活性对时空变化的响应模式。这一类应用是多方面的, 研究对象可以是样品中的整个微生物群落。如Poretsky等(2009)通过比较北太平洋副热带环流系的微生物转录组数据, 发现该区域的微生物在白天的代谢活动主要集中在光合作用、氧化磷酸化及C1化合物的合成, 到了夜间以细胞膜、氨基酸及维生素的合成代谢为主。Hewson等(2010)比较了全球开阔大洋中8个不同采样点的微生物转录组数据, 发现不同位点的微生物基因表达差异主要集中在几个关键的基因表达路径上, 包括光系统I、II和氨吸收, 原因可能是海洋表层水中的优势微生物为光能自养的原绿球藻, 不同采样点微生物转录组的差异主要来源于这种蓝细菌光营养代谢的差异。通过控制实验或者与定量PCR等其他研究手段结合, 也可以对某类功能菌群进行有针对性的研究。例如, 通过分析加入菲的土壤样品中的微生物转录组数据, 发现涉及芳香族化合物代谢及胁迫应答的转录子显著增加, 可以获知多环芳烃(PAH)这类有毒污染物对土壤微生物活性的影响以及土壤微生物对PAH胁迫的应答模式; 另外还第一次发现了重金属P型ATP酶和硫氧还蛋白与PAH胁迫相关联(de Menezes et al., 2012)。Hollibaugh等(2011)通过分析美国乔治亚州的某河口水样的微生物宏转录组, 结合定量PCR的结果发现, 泉古菌门的Marine group 1分支是该环境中参与氨氧化的优势微生物类群, 高达37%的转录子与氨吸收和氨氧化有关, 但未发现与氨氧化细菌相关的转录子, 说明古菌极可能主导了该环境中的氨氧化过程。

第三, 通过分析海量的微生物转录组数据, 可以推测微生物对某类营养物或污染物代谢的可能调控路径。如Vila-Costa等(2010)在海水中添加二甲基巯基丙酸内盐(DMSP)进行了富集实验(DMSP中的C3部分可以作为贫营养海水中γ变形菌纲和拟杆菌门中的多种浮游细菌的碳源), 研究了与DMSP降解相关的微生物及其基因。作者分析了添加DMSP 后转录活性升高的多种酶, 以KEGG数据库中的路径00640为基础, 构建了DMSP中C3部分的可能降解路径, 其最终去向可能是以乙酰辅酶A的形式加入三羧酸循环过程。McCarren等(2010)通过高分子

408 生物多样性 Biodiversity Science第21卷

量溶解性有机碳(HMWDOM)的短期添加实验, 揭示了与海洋中有机碳循环相关的微生物及代谢途径: HMWDOM的降解过程伴随着微生物的演替过程, 降解初期主要参与微生物包括Idiomarina和Alteromonass两个属, 高度表达的转录子包括TonB-关联的转运蛋白、氮同化相关基因、脂肪酸分解代谢相关基因及三羧酸循环相关酶; 随着HMWDOM 的不断降解, 微生物群体组成及转录活性也在发生变化, 到实验后期, 优势微生物为Methylophaga r属, 高度表达的基因涉及到一碳化合物的同化和异化路径的多个步骤。

5.3前景展望

尽管基于RNA-Seq技术的环境微生物转录组学研究开展仅有数年, 但高通量测序技术的快速发展极大地促进了该研究的进步。通过和宏基因组技术以及基因芯片等其他研究手段相结合, 该技术将深化人们对于微生物在复杂环境中的基因表达及调控方式的认识, 为了解微生物在生态系统中的地位、微生物之间以及微生物与周围环境的相互作用提供重要技术支撑。然而, 环境样品中RNA的提取与处理仍是目前环境转录组学研究的关键技术瓶颈。RNA-Seq一般需要较大的起始样品量, 针对稀缺环境的样品, 目前仍没有较好的解决办法, 需要开发新的技术来满足这类样品的测序需求。目前已有多种RNA扩增技术, 但这些方法仍有待进一步的评价, 包括RNA扩增的错误率、稳定性及物种覆盖度等关键参数的优化(Ozsolak & Milos, 2010)。不依赖于扩增的RNA-Seq技术也被证实能大大减少RNA的测序起始量, 但目前来看这些技术仍不成熟, 在稳定性和可靠性等方面还存在不足(Ozsolak & Milos, 2010)。另外, 对于微生物组成非常复杂的环境样品, mRNA的测序深度也需要继续提高, 这对于转录子的准确拼接及表达量的分析具有重要意义。最后, 海量数据的生物信息分析也是环境转录组学广泛应用所面临的主要挑战, 相信随着测序技术本身以及其他配套技术的不断发展完善, 这类技术难题也终将逐步得到解决。随着生物信息学分析工具的不断改进与发展, 宏转录组数据的分析将会进一步普及, 极有可能成为一种常规的实验手段。

参考文献

Altermann E, Klaenhammer TR (2005) PathwayVoyager: pathway mapping using the Kyoto Encyclopedia of Genes

and Genomes (KEGG) database. BMC Genomics,6, 60. Armour CD, Castle JC, Chen RH, Babak T, Loerch P, Jackson S, Shah JK, Dey J, Rohl CA, Johnson JM, Raymond CK (2009) Digital transcriptome profiling using selective hexamer priming for cDNA synthesis. Nature Methods,6, 647–649.

Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT (2000) Gene Ontology: tool for the unification of biology. Nature Genetics,25, 25–29.

Aziz R, Bartels D, Best A, DeJongh M, Disz T, Edwards RA, Formsma K, Gerdes S, Glass EM, Kubal M, Meyer F, Olsen GJ, Olson R, Osterman AL, Overbeek RA, McNeil LK, Paarmann D, Paczian T, Parrello B, Pusch GD, Reich C, Stevens R, Vassieva O, Vonstein V, Wilke A, Zagnitko O (2008) The RAST Server: Rapid Annotations Using Subsystems Technology. BMC Genomics,9, 75.

Balzer S, Malde K, Lanzén A, Sharma A, Jonassen I (2010) Characteristics of 454 pyrosequencing data-enabling realistic simulation with flowsim. Bioinformatics,26, i420–i425.

Booijink CC, Boekhorst J, Zoetendal EG, Smidt H, Kleerebezem M, de Vos WM (2010) Metatranscriptome analysis of the human fecal microbiota reveals subject-specific expression profiles, with genes encoding proteins involved in carbohydrate metabolism being dominantly expressed. Applied and Environmental Microbiology,76, 5533–5540.

Brenner S, Johnson M, Bridgham J, Golda G, Lloyd DH, Johnson D, Luo SJ, McCurdy S, Foy M, Ewan M, Roth R, George D, Eletr S, Albrecht G, Vermaas E, Williams SR, Moon K, Burcham T, Pallas M, DuBridge RB, Kirchner J, Fearon K, Mao JI, Corcoran K (2000) Gene expression analysis by massively parallel signature sequencing (MPSS) on microbead arrays. Nature Biotechnology,18, 630–634.

Bürgmann H, Widmer F, Sigler WV, Zeyer J (2003) mRNA extraction and reverse transcription-PCR protocol for detection of nifH gene expression by Azotobacter vinelandii in soil. Applied and Microbiology,69, 1928–1935. Cardenas E, Tiedje JM (2008) New tools for discovering and characterizing microbial diversity. Current Opinion in Biotechnology,19, 544–549.

Chu YJ, Corey DR (2012) RNA sequencing: platform selection, experimental design, and data interpretation.

Nucleic Acid Therapeutics,22, 271–274.

Cole JR, Chai B, Farris RJ, Wang Q, Kulam-Syed-Mohideen AS, McGarrell DM, Bandela AM, Cardenas E, Garrity GM, Tiedje JM (2007) The ribosomal database project (RDP-II): introducing myRDP space and quality controlled public data. Nucleic Acids Research,35, D169–D172.

Conesa A, G?tz S, García-Gómez JM, Terol J, Talón M, Robles M (2005) Blast2GO: a universal tool for annotation, visualization and analysis in functional genomics research.

Bioinformatics,21, 3674–3676.

de Menezes A, Clipson N, Doyle E (2012) Comparative metat- ranscriptomics reveals widespread community responses

第4期蔡元锋和贾仲君: 基于新一代高通量测序的环境微生物转录组学研究进展 409

during phenanthrene degradation in soil. Environmental Microbiology,14, 2577–2588.

Deutscher MP (2006) Degradation of RNA in bacteria: comparison of mRNA and stable RNA. Nucleic Acids Research,34, 659–666.

Frias-Lopez J, Shi Y, Tyson GW, Coleman ML, Schuster SC, Chisholm SW, Delong EF (2008) Microbial community gene expression in ocean surface waters. Proceedings of the National Academy of Sciences, USA, 105, 3805–3810. Giannoukos G, Ciulla DM, Huang K, Haas BJ, Izard J, Levin JZ, Livny J, Earl AM, Gevers D, Ward DV, Nusbaum C, Birren BW, Gnirke A (2012) Efficient and robust RNA-Seq process for cultured bacteria and complex community transcriptomes. Genome Biology,13, r23.

Gilbert JA, Field D, Huang Y, Edwards R, Li W, Gilna P, Joint

I (2008) Detection of large numbers of novel sequences in

the metatranscriptomes of complex marine microbial communities. PLoS ONE,3, e3042.

Gosalbes MJ, Durbán A, Pignatelli M, Abellan JJ, Jiménez-Hernández N, Pérez-Cobas AE, Latorre A, Moya A (2011) Metatranscriptomic approach to analyze the functional human gut microbiota. PLoS ONE,6, e17447. Griffiths RI, Whiteley AS, O’Donnell AG, Bailey MJ (2000) Rapid method for coextraction of DNA and RNA from natural environments for analysis of ribosomal DNA-and rRNA-based microbial community composition. Applied and Environmental Microbiology,66, 5488–5491.

Hewson I, Poretsky RS, Dyhrman ST, Zielinski B, White AE, Tripp HJ, Montoya JP, Zehr JP (2009) Microbial community gene expression within colonies of the diazotroph, Trichodesmium, from the Southwest Pacific Ocean. The ISME Journal,3, 1286–1300.

Hewson I, Poretsky RS, Tripp HJ, Montoya JP, Zehr JP (2010) Spatial patterns and light-driven variation of microbial population gene expression in surface waters of the oligotrophic open ocean. Environmental Microbiology,12, 1940–1956.

Hollibaugh JT, Gifford S, Sharma S, Bano N, Moran MA (2011) Metatranscriptomic analysis of ammonia-oxidizing organisms in an estuarine bacterioplankton assemblage. The ISME Journal,5, 866–878.

Huson DH, Mitra S, Ruscheweyh HJ, Weber N, Schuster SC (2011) Integrative analysis of environmental sequences using MEGAN4. Genome Research,21, 1552–1560. Kanehisa M, Araki M, Goto S, Hattori M, Hirakawa M, Itoh M, Katayama T, Kawashima S, Okuda S, Tokimatsu T (2008) KEGG for linking genomes to life and the environment.

Nucleic Acids Research,36, D480–D484.

Leininger S, Urich T, Schloter M, Schwark L, Qi J, Nicol G, Prosser J, Schuster S, Schleper C (2006) Archaea predominate among ammonia-oxidizing prokaryotes in soils.

Nature,442, 806–809.

Liu ZF, Klatt CG, Wood JM, Rusch DB, Ludwig M, Wittekindt N, Tomsho LP, Schuster SC, Ward DM, Bryant DA (2011) Metatranscriptomic analyses of chlorophototrophs of a hot-spring microbial mat. The ISME Journal,5, 1279–1290. Martin JA, Wang Z (2011) Next-generation transcriptome assembly. Nature Reviews Genetics,12, 671–682. McCarren J, Becker JW, Repeta DJ, Shi Y, Young CR, Malmstrom RR, Chisholm SW, DeLong EF (2010) Microbial community transcriptomes reveal microbes and metabolic pathways associated with dissolved organic matter turnover in the sea. Proceedings of the National Academy of Sciences, USA,107, 16420–16427.

McGrath KC, Thomas-Hall SR, Cheng CT, Leo L, Alexa A, Schmidt S, Schenk PM (2008) Isolation and analysis of mRNA from environmental microbial communities. Journal of Microbiological Methods,75, 172–176.

Mettel C, Kim Y, Shrestha PM, Liesack W (2010) Extraction of mRNA from soil. Applied and Environmental Microbiology,76, 5995–6000.

Meyer F, Paarmann D, D’souza M, Olson R, Glass E, Kubal M, Paczian T, Rodriguez A, Stevens R, Wilke A, Wilkening J, Edwards RA (2008) The metagenomics RAST server—a public resource for the automatic phylogenetic and functional analysis of metagenomes. BMC Bioinformatics,9, 386.

Mills HJ, Reese BK, Shepard AK, Riedinger N, Dowd SE, Morono Y, Inagaki F (2012) Characterization of meta- bolically active bacterial populations in subseafloor Nankai trough sediments above, within, and below the sulfate- methane transition zone. Frontiers in Microbiology,3, 113. Mitra S, Rupek P, Richter D, Urich T, Gilbert J, Meyer F, Wilke A, Huson DH (2011) Functional analysis of metage- nomes and metatranscriptomes using SEED and KEGG.

BMC Bioinformatics,12, S21.

Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B (2008) Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nature Methods,5, 621–628.

Neidhardt FC, Umbarger HE (1996) Chemical composition of Escherichia coli. In: Escherichia coli and Salmonella: Cellular and Molecular Biology (ed. Neidhardt FC), pp.

13–16. ASM Press, Washington, DC.

Overbeek R, Begley T, Butler RM, Choudhuri JV, Chuang HY, Cohoon M, de Crécy-Lagard V, Diaz N, Disz T, Edwards R, Fonstein R, Frank ED, Gerdes S, Glass EM, Goesmann A, Hanson A, Iwata-Reuy D, Jensen R, Jamshidi N, Krause L, Kubal M, Larsen N, Linke B, McHardy AC, Meyer F, Neuweger H, Olsen G, Olson R, Osterman A, Portnoy V, Pusch GD, Rodionov DA, Rückert C, Steiner J, Stevens R, Thiele I, Vassieva O, Ye YZ, Zagnitko O, Vonstein V (2005) The subsystems approach to genome annotation and its use in the project to annotate 1000 genomes. Nucleic Acids Research,33, 5691–5702.

Ozsolak F, Milos PM (2010) RNA sequencing: advances, challenges and opportunities. Nature Reviews Genetics,12, 87–98.

Poretsky RS, Bano N, Buchan A, LeCleir G, Kleikemper J, Pickering M, Pate WM, Moran MA, Hollibaugh JT (2005) Analysis of microbial gene transcripts in environmental samples. Applied and Environmental Microbiology,71, 4121–4126.

Poretsky RS, Hewson I, Sun S, Allen AE, Zehr JP, Moran MA

410 生物多样性 Biodiversity Science第21卷

(2009) Comparative day/night metatranscriptomic analysis of microbial communities in the North Pacific subtropical gyre. Environmental Microbiology,11, 1358–1375. Poroyko V, White JR, Wang M, Donovan S, Alverdy J, Liu DC, Morowitz MJ (2010) Gut microbial gene expression in mother-fed and formula-fed piglets. PLoS ONE,5, e12459.

Qi YX (祁云霞), Liu YB (刘永斌), Rong WH (荣威恒) (2011) RNA-Seq and its applications: a new technology for transcriptomics. Hereditas(Beijing)(遗传),33, 1191–1202.

(in Chinese with English abstract)

Quince C, Lanzen A, Curtis TP, Davenport RJ, Hall N, Head IM, Read LF, Sloan WT (2009) Accurate determination of microbial diversity from 454 pyrosequencing data. Nature Methods,6, 639–641.

Radax R, Rattei T, Lanzen A, Bayer C, Rapp HT, Urich T, Schleper C (2012) Metatranscriptomics of the marine sponge Geodia barretti: tackling phylogeny and function of its microbial community. Environmental Microbiology,14, 1308–1324.

Rajendhran J, Gunasekaran P (2008) Strategies for accessing soil metagenome for desired applications. Biotechnology Advances,26, 576–590.

Rougemont J, Amzallag A, Iseli C, Farinelli L, Xenarios I, Naef F (2008) Probabilistic base calling of Solexa sequencing data. BMC Bioinformatics,9, 431.

Schena M, Heller RA, Theriault TP, Konrad K, Lachenmeier E, Davis RW (1998) Microarrays: biotechnology’s discovery platform for functional genomics. Trends in Biotechnology, 16, 301–306.

Shendure J, Ji H (2008) Next-generation DNA sequencing.

Nature Biotechnology,26, 1135–1145.

Shi YM, Tyson GW, DeLong EF (2009) Metatranscriptomics reveals unique microbial small RNAs in the ocean’s water column. Nature,459, 266–269.

Stewart FJ, Ottesen EA, DeLong EF (2010) Development and quantitative analyses of a universal rRNA-subtraction protocol for microbial metatranscriptomics. The ISME Journal,4, 896–907.

Stewart FJ, Sharma AK, Bryant JA, Eppley JM, DeLong EF (2011a) Community transcriptomics reveals universal patterns of protein sequence conservation in natural microbial communities. Genome Biology,12, R26.

Stewart FJ, Ulloa O, DeLong EF (2011b) Microbial metatranscriptomics in a permanent marine oxygen minimum zone. Environmental Microbiology,14, 23–40. Trapnell C, Williams BA, Pertea G, Mortazavi A, Kwan G, van Baren MJ, Salzberg SL, Wold BJ, Pachter L (2010) Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nature Biotechnology,28, 511–515. Turnbaugh PJ, Quince C, Faith JJ, McHardy AC, Yatsunenko T, Niazi F, Affourtit J, Egholm M, Henrissat B, Knight R,

Gordon JI (2010) Organismal, genetic, and transcriptional variation in the deeply sequenced gut microbiomes of identical twins. Proceedings of the National Academy of Sciences, USA,107, 7503–7508.

Urich T, Lanzén A, Qi J, Huson DH, Schleper C, Schuster SC (2008) Simultaneous assessment of soil microbial community structure and function through analysis of the meta-transcriptome. PLoS ONE,3, e2527.

Velculescu VE, Zhang L, Vogelstein B, Kinzler KW (1995) Serial analysis of gene expression. Science,270, 484–487. Vila-Costa M, Rinta-Kanto JM, Sun SL, Sharma S, Poretsky R, Moran MA (2010) Transcriptomic analysis of a marine bacterial community enriched with dimethylsulfoni- opropionate. The ISME Journal,4, 1410–1420.

Wang L, Feng Z, Wang X, Wang X, Zhang X (2010) DEGseq: an R package for identifying differentially expressed genes from RNA-Seq data. Bioinformatics,26, 136–138.

Wang Y, Hayatsu M, Fujii T (2012) Extraction of bacterial RNA from soil: challenges and solutions. Microbes and Environments,27, 111–121.

Wang Y, Morimoto S, Ogawa N, Oomori T, Fujii T (2009a) An improved method to extract RNA from soil with efficient removal of humic acids. Journal of Applied Microbiology, 107, 1168–1177.

Wang Z, Gerstein M, Snyder M (2009b) RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews Genetics,10, 57–63.

Xiong X, Frank DN, Robertson CE, Hung SS, Markle J, Canty AJ, McCoy KD, Macpherson AJ, Poussier P, Danska JS, Parkinson J (2012) Generation and analysis of a mouse intestinal metatranscriptome through Illumina based RNA-sequencing. PLoS ONE,7, e36009.

Ye J, Fang L, Zheng H, Zhang Y, Chen J, Zhang Z, Wang J, Li S, Li R, Bolund L, Wang J (2006) WEGO: a web tool for plotting GO annotations. Nucleic Acids Research,34, W293–W297.

Yi H, Cho YJ, Won S, Lee JE, Jin YH, Kim S, Schroth GP, Luo S, Chun J (2011) Duplex-specific nuclease efficiently removes rRNA for prokaryotic RNA-Seq. Nucleic Acids Research,39, e140.

Yu K, Zhang T (2012) Metagenomic and metatranscriptomic analysis of microbial community structure and gene expression of activated sludge. PLoS ONE,7, e38183.

Zhang Z, Schwartz S, Wagner L, Miller W (2000) A greedy algorithm for aligning DNA sequences. Journal of Computational Biology,7, 203–214.

Zhulidov PA, Bogdanova EA, Shcheglov AS, Vagner LL, Khaspekov GL, Kozhemyako VB, Matz MV, Meleshkevitch E, Moroz LL, Lukyanov SA, Shagin DA (2004) Simple cDNA normalization using kamchatka crab duplex-specific nuclease. Nucleic Acids Research,32, e37.

(责任编委: 贺纪正责任编辑: 时意专)

TOP相关主题