文档库 最新最全的文档下载
当前位置:文档库 › 转录组测序技术的应用及发展综述

转录组测序技术的应用及发展综述

转录组测序技术的应用及发展综述
转录组测序技术的应用及发展综述

转录组测序技术的应用及发展综述

摘要:转录组测序(RNA-Seq)作为一种新的高效、快捷的转录组研究手段正在改变着人们对转录组的认识。RNA-Seq利用高通量测序技术对组织或细胞中所有RNA 反转录而成cDNA文库进行测序,通过统计相关读段(reads)数计算出不同RNA的表达量,发现新的转录本;如果有基因组参考序列,可以把转录本映射回基因组,确定转录本位置、剪切情况等更为全面的遗传信息,已广泛应用于生物学研究、医学研究、临床研究和药物研发等。文章主要比较近年来转录组研究的几种方法和几种RNA-Seq的研究平台,着重介绍RNA-Seq的原理、用途、步骤和生物信息学分析,并就RNA-Seq技术面临的挑战和未来发展前景进行了讨论及在相关领域的应用等内容,为今后该技术的研究与应用提供参考。

关键词: RNA-Seq;原理应用;方法;挑战;发展前景

Abstract:Transcriptome sequencing (RNA-Seq) is a kind of high efficiency, quick transcriptome research methods are changing our understanding of transcriptome. RNA-Seq to use high-throughput sequencing of tissues or cells of all RNA reverse transcription into cDNA library were sequenced, through statistical correlation read paragraph (reads) numbers were calculated from the expression of different RNA transcripts, find new; if the genome reference sequence, the transcripts mapped to genomic, determine the position of the transcription shear condition, more genetic information, has been widely used in biological research, medical research, clinical research and drug development. This paper compared several methods of platform transcriptome studies and several kinds of RNA-Seq in recent years, RNA-Seq focuses on the principle, purpose, steps and bioinformatics analysis, and discusses the

RNA-Seq technology challenges and future development prospect and the application in related field and other content, provide the reference for the research and application of the technology future.

Key word:RNA-Seq ;application; principle; method; challenge; development prospects

前言:转录组是特定组织或细胞在某一发育阶段或功能状态下转录出来的所有RNA的集合。转录组研究能够从整体水平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理。转录组测序(RNA-Seq)是指利用第二代高通量测序技术进行cDNA测序,全面快速地获取某一物种特定器官或组织在某一状态下的几乎所有转录本。随着后基因组时代的到来,转录组学、蛋白质组学、代谢组学等各种组学技术相继出现,其中转录组学是率先发展起来以

及应用最广泛的技术[1]。遗传学中心法则表明,遗传信息在精密的调控下通过信使RNA(mRNA)从DNA传递到蛋白质。因此,mRNA被认为是DNA 与蛋白质之间生物信息传递的一个“桥梁”,而所有表达基因的身份以及其转录水平,综合起来被称作转录组(Transcriptome)[2]。转录组是特定组织或细胞在某一发育阶段或功能状态下转录出来的所有RNA的总和,主要包括mRNA和非编码

RNA(non-coding RNA,ncRNA)[2, 3]。转录组研究是基因功能及结构研究的基础和出发点, 了解转录组是解读基因组功能元件和揭示细胞及组织中分子组成所必需的,并且对理解机体发育和疾病具有重要作用。整个转录组分析的主要目标是:对所有的转录产物进行分类;确定基因的转录结构,如其起始位点,5′和3′末端,剪接模式和其他转录后修饰;并量化各转录本在发育过程中和不同条件下(如生理/病理)表达水平的变化[2,3]。在过去的十几年里,杂交技术的发展,再加上以标签序列为基础的方法的应用,第一次使研究人员对这一领域有了深入的了解,但毋庸置疑,随着新一代测序(Next-generation sequencing,NGS)平台的市场化,RNA-Seq(RNA sequencing)技术的应用已经彻底改变了转录组学的思维方式。RNA-Seq,即RNA 测序又称转录组测序,是最近发展起来的利用深度测序技术进行转录组分析的技术[3],该技术能够在单核苷酸水平对任意物种的整体转录活动进行检测,在分析转录本的结构和表达水平的同时,还能发现未知转录本和稀有转录本,精确地识别可变剪切位点以及cSNP(编码序列单核苷酸多态性),提供更为全面的转录组信息。相对于传统的芯片杂交平台,RNA-Seq无需预先针对已知序列设计探针,即可对任意物种的整体转录活动进行检测,提供更精确的数字化信号,更高的检测通量以及更广泛的检测范围,是目前深入研究转录组复杂性的强大工具,已广泛应用于生物学研究、医学研究、临床研究和药物研发等。本文在扼要介绍支持RNA-Seq的新一代测序平台的基础上,对RNA-Seq原理、特点以及到目前为止在研究真核生物转录特征方面的进展做一个较为全面的综述,并对其中有待进一步研究的问题进行了展望。

1、转录组测序基本原理及平台[4]

随着后基因组时代的到来,转录组测序成为率先发展且应用相对广泛的技术[5]。最早广泛应用测序技术为70 年代的Sanger 法,这也是完成人类基因组计划的基础,因其测序通量低、费时费力,科学家们一直在寻求通量更高、速度更快、价格更便宜、自动化程度更高的测序技术。自2005 年以来,以Roche 公司的454 技术、Illumina 公司的Solexa 技术以及ABI 公司的SOLiD 技术为标志的高通量测序技术相继诞生[6]。相较于传统方法,该技术主要特点是测序通量高、测序时间和成本显着下降,可以一次对几十万到几百万条DNA 分子序列测定,这使某物种全基因组和转录组的全貌细致分析成为可能,又称为深度测序,很多文献中称其为新一代测序技术,足见其划时代意义[7]。利用深度测序技术进行对某物种转录组分析的技术即RNA 测序(RNA-Seq),该项技术能够在单核苷

酸水平对任意生物种的整体转录进程检测,不仅可以分析转录本的结构和表达水平,还能够发现未知转录本和稀有转录本,准确地识别可变剪切位点以及

cSNP(编码序列单核苷酸多态性),使得到的转录组信息更为全面,便于进一步注释分类[8]。与基因芯片相比,RNA-Seq 无需预先设计探针即可对特定条件下任意物种生长发育阶段整体转录活动进行检测,提供更精确的数字化信号、更高的检测通量以及更广泛的检测范围,因而其成为目前深入研究转录组复杂变化活动的强大且颇具优越性的技术手段。一般来说,上述所有的高通量测序技术都能进行转录组测序,但不同平台和机型的测序方法及效果差异决定了各种高通量测序仪具有不同的应用侧重(表1),这就要求在熟悉各种高通量测序仪内在技术特点的基础上进行选择应用;另一方面,也可尝试结合其他生物技术以获得更好的数据覆盖度和更为廉价的成本[9]。

表1 几种主要测序平台的比较[10]

2、目前研究转录组的方法主要有

(l)基于杂交技术,如CDNA芯片和寡聚核昔酸芯片;(2)基于测序技术,如早先基于Sange:测序的SAGE(SerialAnalysisofGeneExpression)和

MpSS(Massivelypara-llelSignaturesequeneing)。全长DNA文库和EST文库的测序分析。现在对CDNA、EST等的测序工作已升级为第二代测序技术新一代测序技术较sange测序技术通量更高、运行时间更短、测序片段更长现在通常将基于第二代测序技术的转录组测序分析称为RNA-Seq。

、种主要的转录组研究方法的比较

见表2,其中RNA一Seq具有以下优势:(l)通量高,运用第二代测序平台可得到几个到几百亿个碱基序列,可以达到覆盖整个基因组或转录组的要求;(2)

灵敏度高,可以检测细胞中少至几个拷贝的稀有转录本;(3)分辨率高,RNA一Seq的分辨率能达到单个碱基,准确度好,同时不存在传统微阵列杂交的荧光模拟信号带来的交叉反应和背景噪音问题;(4)不受限制性,可以对任意物种进行全转录组分析,无需预先设计特异性探针,能够直接对任何物种进行转录组分析。同时能够检测未知基因,发现新的转录本,并准确地识别可变剪切位点及SNP、UTR区域[3,4]。表3是转录组测序技术与其他转录组学技术的比较,通过比较可以看出该技术应用的范围。

3、RNA一Seq的主要用途[11]

RNA一seq技术能够在单核昔酸水平对特定物种的整体转录活动进行检测,从而全面快速地获得该物种在某一状态下的几乎所有转录本信息。由于转录组测序可以得到全部RNA转录本的丰度信息,加之准确度又高,使得它具有十分广泛的应用领域。主要应用于:(l)检测新的转录本,包括未知转录本和稀有转录本;

(2)基因转录水平研究,如基因表达量、不同样本间差异表达;(3)非编码区域功

能研究,如microRNA、非编码长RNA (IncRNA)、RNA编辑;(4)转录本结构变异研究,如可变剪接、基因融合;(5)开发SNPs和SSR等。

表2 三种转录组研究方法的比较[10]

表3 RNA-Seq与其他转录组学技术比较

3、RNA一Seq的主要用途[11]

RNA一seq技术能够在单核昔酸水平对特定物种的整体转录活动进行检测,从而全面快速地获得该物种在某一状态下的几乎所有转录本信息。由于转录组测序可以得到全部RNA转录本的丰度信息,加之准确度又高,使得它具有十分广泛的应用领域。主要应用于:(l)检测新的转录本,包括未知转录本和稀有转录本;

(2)基因转录水平研究,如基因表达量、不同样本间差异表达;(3)非编码区域功能研究,如microRNA、非编码长RNA (IncRNA)、RNA编辑;(4)转录本结构变异研究,如可变剪接、基因融合;(5)开发SNPs和SSR等。

4、RNA一Seq的基本步骤[11]

提取样本总RNA后,根据所测RNA种类进行分离纯化。再进而片段化为所用测序平台所需的长度(或反转录后片段化),反转录后连接测序接头。接着利用PCR扩增达到一定丰度上机测序,直到获得足够的序列。所得序列通过与参考基因组比对或从头组装(denovoassembling)形成全基因组范围的转录谱。试验流程,如图1所示。

图1 RNA一eq试验流程

、送样要求

1) 请提供请提供OD260/280介于~之间,浓≥250ng/μl,总量≥40μg的总RNA,并确保RNA无降解,无污染;或提供浓度≥50ng/μl,总量≥400ng的mRNA。

2) 送样管务必标清样品编号,管口使用Parafilm膜密封。

3) 样品保存期间切忌反复冻融。

4) 送样时使用干冰运输。

5) 质检以我方电泳胶图、紫外分析仪定量为准。

6) 请填写完整的送样订单,并提供RNA电泳检测照片,用自封袋密封后随同样品一起送样。

5、序言转录组技术在生物学、医学、农学中的应用

随着第二代测序技术的迅猛发展,其高通量、快速、低成本的特点成为越来越多的生物学研究者在解决生物学问题时的首选,尤其在转录组测序方面更显示出极大的潜力。转录组(transcriptome)是指特定生物体在某种状态下所有基因转录产物的总和,转录组研究是功能基因组研究的一项重要内容。转录组是连接基因组遗传信息与生物功能(蛋白质组)的必然纽带,同时相对于真核

生物全基因组测序来说,转录组测序得到的序列不含有内含子及其它非编码序列,因此转录组测序有着无可比拟的高性价比优势。研究基因组结构的复杂性及遗传语言的根本规律,更需要对测序所得的海量数据进行精准且全面的揭示和分析,于是生物信息学便成为一门迅速兴起的交叉学科,它位于生物、计算机、数学等多个领域的交叉点上,不断深入去探索碱基序列数据背后的生物学意义。目前转录组测序及分析技术可以解决新基因的深度发掘、低丰度转录本的发现、转录图谱绘制、可变剪接的调控、代谢途径确定、基因家族鉴定及进化分析等各方面的问题。转录组研究是基因功能及结构研究的基础和出发点,已经被广泛应用于生物学、医学、农学等许多领域。

、转录组技术在生物学中的应用

快速获得您感兴趣的细胞、组织或生物体内的mRNA种类及其丰度,帮助您发现由于可变剪接或者可变多聚腺苷化位点选择所产生的新mRNA isoforms;快速获得您感兴趣的不同细胞或者不同组织内的mRNA种类及其丰度,分析mRNA 的差异表达信息。通过差异表达基因功能分析,可以发现在细胞分化,特别是胚胎干细胞和神经干细胞分化,机体发育,信号转导等生物学过程中基因表达调控改变的整体特征;如果您希望研究某种基因如何通过改变细胞的基因表达调控网络来发挥其生物学功能,您可以对该基因进行突变、敲除或敲低,然后对照组和实验组的细胞内的RNA-seq分析,通过差异表达分析即可以快速全面获得您需要的信息。

、哺乳动物组织的转录组分析[12]

哺乳动物基因组的巨大性和复杂性给其转录组研究带来严峻挑战。Mortazavi 等研究员结合Illumina测序平台,对成年小鼠的脑、肺、骨骼肌组织RNA进行转录组高通量测序及分析,获得亿数据,约90%的位置与已知外显子相匹配,同时也发现了未见报道的序列信息。约3000个新鉴定的3’UTR,可能在microRNA介导的转录后水平和翻译水平调控中起重要作用;约3000个新鉴定的5’外显子,提示有新的启动子序列被利用。尤其在RNA剪接方面,该研究利用高通量测序获得的海量数据,对比到约2×105种可能剪接方式的数据库,鉴定出×105种不同的剪接方式,其中可变剪接占主导,3500个基因拥有至少一种内部剪接方式。该研究成果表明:高通量测序技术不仅能够检测到低丰度转录本,而且可以发现未知转录本,精确识别可变剪接位点,提供全面的转录组信息,这些均是芯片杂交技术或SAGE文库测序技术无法比拟的,是目前深入研究转录组复杂性的有力工具。

、转录组技术在医学中的应用

在癌变和其他复杂疾病发生和发展过程中,细胞内的基因表达模式会发生显着改变。如果您是临床医生或者从事相关研究的科学家,希望快速全面掌握您感兴趣的癌症或者其他疾病发生中基因表达模式的改变,对该疾病的诊断和治疗提

供重要解决策略;那么,RNA-seq可以通过对照正常样本和疾病样本中表达模式发生显着变化的基因,及其功能分析快速为您提供正确答案。在细菌和病毒侵染时,细胞内的基因表达模式也会发生显着变化。这些变化对机体的抗感染功能至关重要。如果您是从事相关研究的医生或者科学家,希望快速全面掌握在某病毒或者细菌侵染过程中细胞基因表达模式的改变特征,为有效抵抗病原侵染提供重要解决策略;那么RNA-seq可以通过对照正常样本和侵染样本中表达模式发生显着变化的基因,及其功能分析为您提供正确答案。

、癌细胞和组织中的基因融合[13]

2009年美国密歇根大学医学院的Christopher A. Maher等研究者采用转录组高通量测序技术对癌细胞进行测序分析,以期找到新的基因融合。该研究成功“重新发现”了慢性粒细胞白血病细胞中BCR-ABL1 10的基因融合、前列腺癌细胞和前列腺癌组织中TMPRSS2-ERG2基因融合。另外,研究者还验证了在癌细胞和肿瘤组织中导致嵌合转录的新的基因融合(SLC45A3-ELK4)。表征癌细胞中特定基因组失常在确定癌症的治疗目标中有重要的作用,因此确定诱发癌症的基因失常是癌症研究的一个主要手段。由癌细胞中染色体重新排列而导致的基因融合被认为是一些最普遍的“癌症基因”产生的主要原因。由于它们在致癌过程中的诱发作用和精确地癌细胞局限性,融合基因可以描绘出理想的诊断标记物和合理的治疗目标物。周期性基因融合,与血液恶性肿瘤、罕见骨肿瘤及软组织肿瘤密切相关,并且最近还发现了其在一些常见的实体瘤中的作用,如:前列腺癌和肺癌。Christopher A. Maher等人通过对不同细胞系进行转录组测序及后续的qRT-PCR、FISH、Array CGH或高密度SNP Array的验证,证实了转录组测序对于检测基因融合是一个非常有效地工具。另外,在Christopher A. Maher等人用Illumina GenomeAnalyzer进行转录组测序的研究中,为了消除假阳性数据,克服缺少长读子的深度及减少局部基因定位排列中的短读子的难度,长读子和短读子的序列数据被并入到一起进行分析。结果证明,这种整体化的处理方法极有效地减少了假候选基因并大大增加了试验可行的候选基因的比率。一个重要的局限性则是,当邻侧的两个基因只引起调控序列的融合而不是转录序列的时候,则不能使用转录组测序这个方法。但无论如何,该研究建立了基于转录组高通量测序技术发现新基因融合的可靠方法路线,为系统界定癌症相关突变开辟了重要途径。

、转录组技术在农业中的应用

在植物的正常生长,抗旱、抗逆、以及优良品系培育等过程中细胞的基因表达模式会发生显着变化。如果您是从事农业研究的科学家或农学家,RNA-seq可以通过对照正常样本和您感兴趣样本中表达模式发生显着差异的基因让您快速全面掌握在您感兴趣的植物性状中起重要功能的基因,给力您育种或者相关农业应用研究的进程。

、拟南芥可变剪接研究[14]

等研究者采用转录组高通量测序技术对拟南芥进行可变剪接分析,发现42%以上具有内含子的基因具备可变剪接形式,这个数据远远高于EST测序方法(20%-30%)。可变剪接转录本多数具有提前终止密码子(PTC+),PTC+可作为无义介导的mRNA降解监控机制(NMD)的靶标,或通过调控非预期剪接和转录机制(RUST)来调控功能转录本水平。该研究还发现在不同环境因素胁迫下,PTC+及相关剪接变体的相对比率会随之发生转变。研究成果还提示,和动物体内类似,NMD和RUST同样在植物体内的基因表达中广泛存在并扮演非常重要的角色。

6、转录组测序技术面临的挑战和展望前景

随着测序技术的不断进步,我们能够对转录组开展更为深入的测序工作,能够发现更多、更可靠的转录子,目前的大规模并行测序技术已经彻底改变了我们对转录组的研究方法,测序结果的质量也在不断提高,得到的信息量也在爆炸式增长。然而和其他所有新生技术一样,RNA-Seq技术也面临着一系列新问题:其一是庞大的数据量所带来的信息学难题,比如如何最好地诠释和比对鉴定多个类似的同源基因,如何确定最佳测序量,获得高质量的转录图谱等[15];其二是如何针对更复杂的转录组来识别和追踪所有基因中罕见RNA 亚型的表达变化。有可能提前实现这一目标的将是使用配对末端测序和单分子测序等更新的测序技术,以及使用更长的读段来增加测序深度和覆盖度[16];其三,目前的高通量测序技术大都需要较多的样品起始量,这使得来源极为有限的生物样品分析受到限制,因此如何对单细胞或少量细胞进行转录组测序是一个亟待解决的问题。最近这方面的研究也取得了一定进展,如Tang等[17]建立了一种mRNA-Seq 方案,它以PCR 为基础扩增单个细胞的mRNA 转录组,成功分析了取自小鼠四细胞胚胎时期的单个卵裂球的转录组。然而该方法只能捕捉带有poly(A)尾巴的mRNA,也不能检测绝大多数较长的mRNA(大于3 kb)的5′末端, 同时也不能保留原转录子的方向信息。除此之外还有一些新的针对低数量细胞进行转录组研究的技术正在不断被开发[18]。最后,标准的RNA-Seq技术不能提供序列转录的方向信息,而这对于转录组注释尤为重要,采用single-strand sequencing[19]和strandspecificsequencing[20]技术能很好的解决这一问题,或将成为RNA-Seq 技术发展的一个重要方向。虽然

RNA-Seq技术还面临着种种困难,但作为一个刚刚起步的新技术RNA-Seq已经显示出其他转录组学技术无可比拟的优势:既能提供单碱基分辨率的转录组注释又能提供全基因组范围的“数字化”的基因表达谱,而且其成本通常比芯片和大规模的Sanger EST测序要低,有人甚至提出了RNA-Seq 最终取代基因芯片的猜测。然而就目前来看,作为两个高通量的转录组学研究技术,在应用的某些方面既存在重叠和竞争也存在优势互补,一种技术能弥补另一种技术遗漏的部分, 通常对一个生物学问题的回答需要不同实验技术的协同配合,例如序列捕获(Sequence Capture)技术就是结合了芯片和深度测序,利用芯片探针捕获待测片段,再用深

度测序技术分析核酸序列。但基因芯片的缺点,就在于它是一个“封闭系统”,它只能检测人们已知序列的特征(或有限的变异);而RNA-Seq的强项,就在于它是一个“开放系统”,它的发现能力和寻找新的信息的能力从本质上高于芯片技术,相信随着相关学科的进一步发展和测序成本的进一步降低,RNA-Seq必将在转录组学研究领域占主导地位。

参考文献:

[1] Lockhart DJ, Winzeler EA. Genomics, gene expressionand DNA arrays. Nature, 2000, 405(6788): 827–836.

[2] Costa V, Angelini C, De Feis I, Ciccodicola A. Uncovering the complexity of transcriptomes

with RNA-Seq. J BiomedBiotechnol, 2010, 2010: 853916.

[3] Wang Z, Gerstein M, Snyder M. RNA-Seq: a revolutionarytool for transcriptomics. Nat Rev Genet, 2009, 10(1): 57–63.

[4]许波,张伟强,冯晓曦,等.转录组测序技术在玉米中的应用研究进展[J].玉米科

学,2014,22(1):67~72,78.

[5] Maher CA,Kumar- sinha C,Cao XH, Sequencing to detect gene fusions in ,2009,458 (7234):97一101.

[6] 周晓光,任鲁风,李运涛,等.下一代测序技术:技术回顾与展望[J].中国科学生命科

学,2010,40(1);23-37

[7] . Zhou X G, Ren L F, Li Y T, et al. The next-generation sequencingtechnology: a technology review and future perspective[J].ScientiaSinicaVitae, 2010,40(1): 23-37.

[8] Schuster S sequencing transforms today's biology [J]. Nature, 2008, 200(8): 16-18.

[9] Wang Z, Gerstein M, Snyder M. RNA-Seq: a revolutionary tool fortranscriptomics[J]. Nature Reviews Genetics, 2009, 10(1): 57-63.

[10] 杨晓玲,施苏华,唐恬.新一代测序技术的发展及应用前景[J].生物技术通报,2010(10):76-81 .

[11]张春兰,秦孜娟,王桂芝,等.转录组与RNA一Seq技术.生物孩术通报,2012年第12期,

[12]祁云霞,刘永斌,荣威恒.转录组研究新技术:RNA一seq及其应用.遗传,2011,33(11):1191一1202.

[13] Ali Mottazavi, Williams BA, McCue K, et al. Mapping and quantifying mammalian transcriptomes byRNA-seq. Nat Methods, 2008,5(7):621-8.

[14] Maher CA, Sinhal CK, Cao XH, et al. Transcriptomesequencing to detect gene fusions in cancer. Nature, 2009, 458: 97-101.

[15] Sergei A. Filichkin, Henry D. Priest, Scott A. Givan, etal. Genome-wide mapping of alternative splicing in Arabidopsis thaliana. GenomeRes, 2010,20:45-58.

[16] Vliet VA. Next generation sequencing of microbial transcriptomes: challenges and opportunities. FEMS Microbiol Lett, 2010, 302(1): 1–7.

[17] Wang Z, Gerstein M, Snyder M. RNA-Seq: a revolutionarytool for transcriptomics. Nat Rev Genet, 2009, 10(1):57–63. [4] 454 Home Page.

[18] Tang FC, Barbacioru C, Wang YZ, Nordman E, Lee C, XuNL, Wang XH, Bodeau J, Tuch BB, Siddiqui A, Lao KQ, Surani MA. mRNA-Seq whole-transcriptome analysis of asingle cell. Nat Methods, 2009, 6(5): 377–382.

[19]杨晓玲,施苏华,唐恬.新一代测序技术的发展及应用前景[J].生物技术通报,2010(10):76-81 .

[20] Croucher NJ, Fookes MC, Perkins TT, Turner DJ, MargueratSB, Keane T, Quail MA, He M, Assefa S, B?hler J, Kingsley RA, Parkhill J, Bentley SD, Dougan G, ThomsonNR. A simple method for directional transcriptome sequencing using Illumina technology. Nucleic Acids Res, 2009, 37(22): e148.

[21] Vivancos AP, Güell M, Dohm JC, Serrano L, HimmelbauerH. Strand-specific deep sequencing of the Res, 2010, 20(7): 989–999.

有参考基因组的转录组生物信息分析

一、生物信息分析流程 获得原始测序序列(Sequenced Reads)后,在有相关物种参考序列或参考基因组的情况下,通过如下流程进行生物信息分析: 二、项目结果说明 1 原始序列数据 高通量测序(如illumina HiSeq TM2000/MiSeq等测序平台)测序得到的原始图像数据文件经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。 FASTQ格式文件中每个read由四行描述,如下: @EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT + @@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF 其中第一行以“@”开头,随后为illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为illumina 测序标识符(选择性部分);第四行是对应序列的测序质量(Cock et al.)。 illumina 测序标识符详细信息如下:

第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。如果测序错误率用e表示,illumina HiSeq TM2000/MiSeq的碱基质量值用Q phred 表示,则有下列关系: 公式一:Q phred = -10log 10 (e) illumina Casava 1.8版本测序错误率与测序质量值简明对应关系如下: 2 测序数据质量评估 2.1 测序错误率分布检查 每个碱基测序错误率是通过测序Phred数值(Phred score, Q phred )通过公式1转化得到,而Phred 数值是在碱基识别(Base Calling)过程中通过一种预测碱基判别发生错误概率模型计算得到的,对应关系如下表所显示: illumina Casava 1.8版本碱基识别与Phred分值之间的简明对应关系 测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。对于RNA-seq技术,测序错误率分布具有两个特点: (1)测序错误率会随着测序序列(Sequenced Reads)的长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致的,并且为illumina高通量测序平台都具有的特征(Erlich and Mitra, 2008; Jiang et al.)。 (2)前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq 建库过程中反转录所需要的随机引物的长度。所以推测前6个碱基测序错误率较高的原因为随机引物和RNA模版的不完全结合(Jiang et al.)。测序错误率分布检查用于检测在测序长度范围内,有无异常的碱基位置存在高错误率,比如中间位置的碱基测序错误率显着高于其他位置。一般情况下,每个碱基位置的测序错误率都应该低于0.5%。 图2.1 测序错误率分布图

转录组学主要技术与应用研究

转录组学主要技术及其应用研究 姓名:梁迪 专业:微生物学 年级:2013 学号:3130179 二零一四年六月十五日

转录学主要技术及其应用研究 摘要:转录组(transcriptome)是特定组织或细胞在某一发育阶段或功能状态下转录出来的所有RNA的集合。转录组学研究能够从整体水平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理。目前,转录组学研究技术主要包括两种:基于杂交技术的微阵列技术(microarray)和基于测序技术的转录组测序技术,包括表达序列标签技术(Expression Sequence Tags Technology,EST)、基因表达系列分析技术(Serial analysis of gene expression,SAGE)、大规模平行测序技术(Massively parallel signature sequencing,MPSS)、以及RNA 测序技术(RNA sequencing,RNA-seq)。文章主要介绍了以上转录组学主要研究技术的原理、技术特点及其应用,并就这些技术面临的挑战和未来发展前景进行了讨论,为其今后的研究与应用提供参考。 关键词:转录组学;微阵列技术;转录组测序技术;应用 Study on the main technologies of transcriptomics and their application Abstract: The transcriptome is the complete set of transcripts for certain type of cells or tissues in a specific developmental stage or physiological condition. Transcriptome analysis can provide a comprehensive understanding of molecularmechanisms involved in specific biological processes and diseases from the information on gene structure and function. Currently, transcriptomics technology mainly includes microarry -based on hybridization technology and transcriptome sequencing-based on sequencing technology, involving Expression sequence tags technology, Serial analysis of gene expression, Massively parallel signature sequencing and RNA sequencing. The detailed principles, technical characteristics and applications of the main transcriptomics technologies are reviewed here, and the challenges and application potentials of these technologies in the future are also discussed. This will present the useful information for other researchers. Keywords: transcriptomics ; microarray ; transcriptome sequencing; application 随着后基因组时代的到来,转录组学、蛋白质组学、代谢组学等各种组学技术相继出现,其中转 录组学是率先发展起来以及应用最广泛的技术[1]。

转录组测序结题报告

转录组测序结题报告 1.mRNA纯化: 抽提得到的总RNA首先利用10U的DNaseI(Ambion,美国)在37℃消化1小时;然后利用Micropoly(A)PuristTM mRNA purification kit(Ambion,美国),进行mRNA纯化:把RNA稀释到250μl的体积,按照Kit的操作步骤(Cat.No:

1919)进行;最后得到的mRNA用100μl预热的THE缓冲液洗脱,利用NanoDrop 进行定量。 2.cDNA合成: cDNA合成是在Ng等2005年发表的方法基础上改进而成(文献1,图1)。第一链cDNA合成利用GsuI-oligo dT作为反转录引物,10μg的mRNA作为模板,用1000 单位的Superscript II reverse transcriptase (Invitrogen,美国)在42℃作用1小时完成;随后利用NaIO4(Sigma,美国)氧化mRNA的5’帽子结构,并连接生物素;通过Dynal M280磁珠(Invitrogen,美国)筛选连接了生物素的mRNA/cDNA,并通过碱裂解释放第一链cDNA;然后通过DNA ligase(TaKaRa,日本)在第一链cDNA的5’末端加上接头,然后通过Ex Taq polymerase (TaKaRa,日本)合成第二链cDNA。最后通过GsuI酶切去除polyA和5’端接头。 图1. 全长cDNA合成示意图 3.cDNA测序: 合成的cDNA利用超声仪(Fisher)打断到300-500bp的范围,利用Ampure beads(Agencourt,美国)进行纯化。随后纯化的cDNA利用TruSeq TM DNA XXmple Prep Kit – Set A (illumina,美国)制备文库,并利用TruSeq PE Cluster Kit (illumina,美国)进行扩增。最后在illumina机器上进行测序反应。 测序得到的数据统计见表1. 表1. Solexa测序统计 样品对照 1 2

转录组测序

真核mRNA测序是基于HiSeq平台,对真核生物特定组织或细胞在某个时期转录出来的所有mRNA进行测序,既可研究已知基因,亦能发掘新基因,全 面快速地获得mRNA序列和丰度信息。真核mRNA测序方法可以分为:有参考转录组、无参考转录组以及数字基因表达谱(DGE)三大类。 技术参数 案例解析 [案例一] mRNA和small RNA转录组揭示新合成异源六倍体小麦杂种 优势的动态部分同源调控 诺禾致源携手中国农业科学院作物科学研究所,利用转录组测序技术,对杂交亲本、新合成异源六倍体小麦的幼苗、穗和种子进行了mRNA和smallRNA测序及信息分析,发现新合成异源六倍体小麦绝大部分基因表现为12类基因表达模式,包括加性表达,少部分的基因表现为非加性,基因的非加性表现出非常强的发育时期特异性,与生长势密切相关;miRNA的丰度随着倍性的增加逐渐下降,新合成异源六倍体小麦中非加性表达的 miRNA也同样表现出亲本显性表 达,miRNA的表达敏感性与生长势和适应性密切相关。该研究揭示了不同倍性 非对等杂种优势的分子基础。 [案例二] 磷酸三(2,3-二氯丙基)酯(TDCPP)对四膜虫生长繁殖的 抑制作用与核糖体相关 诺禾携手华中农业大学,利用转录组测序和信息分析技术,研究了TDCPP处理组和对照组差异基因表达,并对差异表达基因进行KEGG通路分析,发现核糖体基因通路显著富集, 同时伴随胞浆和粗面内质网上核糖体数量减少体积增大。这些探索表明四膜虫可以作为TDCPP反应的生物指标,为后续研究TDCPP作用其他生物的毒理机制提供了新视角。 [案例三] 转录组揭示寄主植物与宿主之间进行RNA交换的机制 参考文献 菟丝子被称作勒死草,会用被称作吸根的专用器官穿透宿主组织与其建立联系,可以吸取宿主的水份与营养物质,也能吸取RNA(mRNA)分子。本研究分别选取菟丝子和拟南芥及番茄的共生体茎上的三段组织进行转录组学的研究,发现寄生植物与寄主之间mRNA的转移量很大且是一种双向转移的模式;两种宿主相比,更多的拟南芥RNA被转移到菟丝子植物之中,而且菟丝子与拟南芥之间较自由的交换,可表明调节菟丝子吸根选择性的机制可能是宿主特异性的,从而揭示了寄主与宿主之间进行RNA转移的遗传机制。 [1] Li A, Liu D, Wu J, et al . mRNA and small RNA transcriptomes reveal insights into dynamic homoeolog regulation of allopolyploid heterosis in nascent hexaploid wheat [J]. The Plant Cell, 2014: tpc. 114.124388.[2] Jing Li, John P , Giesy, Liqin Yu, et al . Effects of Tris (1,3-dichloro-2-propyl) Phosphate (TDCPP) in Tetrahymena Thermophila: Targeting the Ribosome. Scientific Reports. 2015, 5:10562. [3] Kim G, LeBlanc M L, et al . Genomic-scale exchange of mRNA between a parasitic plant and its hosts [J]. Science, 2014, 345(6198): 808-811. 图1 非加性表达miRNA与亲本显性表达miRNA的 等级聚类分析和两者的关联 图2 显著富集的KEGG通路 图3 菟丝子与拟南芥、番茄转移RNA和非转移RNA的表达和富集分析 样品要求文库类型测序策略数据量类型 分析内容 项目周期 真核有参转录组测序 真核无参转录组测序 6 Gb、8 Gb、10 Gb、12 Gb clean data 6 M clean reads 3 Gb clean data 项目数据至少12 Gb clean data 数字基因表达谱(DGE) HiSeq PE150 HiSeq PE150 HiSeq SE50HiSeq PE125普通转录组文库; 链特异性转录组文库 40天50天30天 35天(有参)45天(无参) RNA样品总量≥1.5 μg; RNA样品浓度≥50 ng/μL 参考基因组比对 新转录本预测可变剪切分析SNP/InDel分析 基因表达水平分析RNA-seq整体质量评估 转录因子注释GO/KEGG富集分析蛋白互作网络分析基因共表达网络构建可视化结果展示 参考转录组拼接 转录本/Unigene长度统计 基因功能注释NR,NT,Swiss Prot GO,KEGG,KOG Protein Family CDS预测分析SNP/SSR分析

转录组测序技术的应用及发展综述

转录组测序技术的应用及发展综述 摘要:转录组测序(RNA-Seq)作为一种新的高效、快捷的转录组研究手段正在改变着人们对转录组的认识。RNA-Seq利用高通量测序技术对组织或细胞中所有RNA 反转录而成cDNA文库进行测序,通过统计相关读段(reads)数计算出不同RNA的表达量,发现新的转录本;如果有基因组参考序列,可以把转录本映射回基因组,确定转录本位置、剪切情况等更为全面的遗传信息,已广泛应用于生物学研究、医学研究、临床研究和药物研发等。文章主要比较近年来转录组研究的几种方法和几种RNA-Seq的研究平台,着重介绍RNA-Seq的原理、用途、步骤和生物信息学分析,并就RNA-Seq技术面临的挑战和未来发展前景进行了讨论及在相关领域的应用等内容,为今后该技术的研究与应用提供参考。 关键词: RNA-Seq;原理应用;方法;挑战;发展前景 Abstract:Transcriptome sequencing (RNA-Seq) is a kind of high efficiency, quick transcriptome research methods are changing our understanding of transcriptome. RNA-Seq to use high-throughput sequencing of tissues or cells of all RNA reverse transcription into cDNA library were sequenced, through statistical correlation read paragraph (reads) numbers were calculated from the expression of different RNA transcripts, find new; if the genome reference sequence, the transcripts mapped to genomic, determine the position of the transcription shear condition, more genetic information, has been widely used in biological research, medical research, clinical research and drug development. This paper compared several methods of platform transcriptome studies and several kinds of RNA-Seq in recent years, RNA-Seq focuses on the principle, purpose, steps and bioinformatics analysis, and discusses the RNA-Seq technology challenges and future development prospect and the application in related field and other content, provide the reference for the research and application of the technology future. Key word:RNA-Seq ;application; principle; method; challenge; development prospects

华大转录组测序内部培训资料

(内部资料,请勿外传) 动植物转录组 (Transcriptome ) 产品说明书 科技服务体系 动植物研究方向

版本信息: 2011年07月08日

目录 1产品概述 (1) 1.1 什么是转录组测序 (1) 1.2 转录组测序的产品功能 (1) 1.3 转录组测序产品优势 (1) 1.4 转录组测序产品发展史 (1) 1.5 项目执行时间 (3) 1.6 产品交付结果 (3) 2转录组测序研究方法 (4) 2.1 产品策略 (4) 2.2 样品准备 (5) 2.2.1 RNA样品要求 (5) 2.2.2 RNA样品送样标准 (6) 2.2.3 RNA提取的组织用量建议 (6) 2.3 样品运输要求 (7) 2.3.1 样品包装 (7) 2.3.2 样品标识 (8) 2.3.3 样品运输条件 (8) 2.4 文库的构建及测序 (9) 2.4.1 实验流程 (9) 2.4.2 测序及数据处理 (10) 2.5 转录组生物信息学分析 (10) 2.5.1 没有参考序列的转录组De novo (10) 2.5.2 有参考序列的转录组Re-sequencing (18) 2.5.3 参考文献 (24) 3成功案例 (25)

3.1 华大成功案例 (25) 3.2 相关文献解读 (26)

1产品概述 1.1什么是转录组测序? 转录组测序的研究对象为特定细胞在某一功能状态下所能转录出来的所有RNA的总和,包括mRNA和非编码RNA。转录组测序是指用新一代高通量测序技术对物种或者组织的转录本进行测序并得到相关的转录本信息。 1.2转录组测序的产品功能 1.获得物种或者组织的转录本信息; 2.得到转录本上基因的相关信息,如:基因结构,功能等; 3.发现新的基因; 4.基因结构优化; 5.发现可变剪切; 6.发现基因融合; 7.基因表达差异分析。 1.3转录组测序产品优势 覆盖度高:检测信号是数字信号,几乎覆盖所有转录本; 检测精度高:几十到数十万个拷贝精确计数; 分辨率高:可以检测到单碱基差异,基因家族中相似基因及可变剪切造成的不同转录本的表达; 完成速度快:整个项目周期只需要50个工作日时间; 成本低:基本上每个实验室可以承担相关研究经费。 1.4转录组测序产品发展史 转录组的研究手段大体包括:EST序列构建及研究,芯片研究,运用第二代测序技术研究等。EST是从一个随机选择的cDNA 克隆进行5’端和3’端单一次sanger测序获得的短的cDNA 部分序列,代表一个完整基因的一小部分,在

转录组测序RNA-seq技术转录组是某个物种或者特定细胞类型产生

转录组测序(RNA-seq)技术 转录组是某个物种或者特定细胞类型产生的所有转录本的集合。转录组研究能够从整体水平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理,已广泛应用于基础研究、临床诊断和药物研发等领域。基于Illumina高通量测序平台的转录组测序技术使能够在单核苷酸水平对任意物种的整体转录活动进行检测,在分析转录本的结构和表达水平的同时,还能发现未知转录本和稀有转录本,精确地识别可变剪切位点以及cSNP(编码序列单核苷酸多态性),提供最全面的转录组信息。相对于传统的芯片杂交平台,转录组测序无需预先针对已知序列设计探针,即可对任意物种的整体转录活动进行检测,提供更精确的数字化信号,更高的检测通量以及更广泛的检测范围,是目前深入研究转录组复杂性的强大工具。 技术优势: 数字化信号:直接测定每个转录本片段序列,单核苷酸分辨率的精确度,同时不存在传统微阵列杂交的荧光模拟信号带来的交叉反应和背景噪音问题。 高灵敏度:能够检测到细胞中少至几个拷贝的稀有转录本。 任意物种的全基因组分析:无需预先设计特异性探针,因此无需了解物种基因信息,能够直接对任何物种进行转录组分析。同时能够检测未知基因,发现新的转录本,并精确地识别可变剪切位点及cSNP,UTR区域。 更广的检测范围:高于6个数量级的动态检测范围,能够同时鉴定和定量稀有转录本和正常转录本。 应用领域:转录本结构研究(基因边界鉴定、可变剪切研究等),转录本变异研究(如基因融合、编码区SNP研究),非编码区域功能研究(Non-coding RNA研究、microRNA前体研究等),基因表达水平研究以及全新转录本发现。 图1 RNA-seq获得的数据能够进行全面的数据挖掘,既能够进行基因结构分析,鉴定UTR、可变剪切位点,也能够发现新的转录本及非编码RNA,比较样本间的表达水平差异

转录组RNAseq术语解释

RNA-Seq名词解释 1.index 测序的标签,用于测定混合样本,通过每个样本添加的不同标签进行数据区分,鉴别测序样品。 2.碱基质量值 (Quality Score或Q-score)是碱基识别(Base Calling)出错的概率的整数映射。碱基质量值越高 表明碱基识别越可靠,碱基测错的可能性越小。 3.Q30 碱基质量值为Q30代表碱基的精确度在99.9%。 4.FPKM(Fragments Per Kilobase of transcript per Million fragments mapped) 每1百万个map上的reads中map到外显子的每1K个碱基上的fragment个数。计算公式为 公式中,cDNA Fragments 表示比对到某一转录本上的片段数目,即双端Reads数目;Mapped Reads(Millions)表示Mapped Reads总数, 以10为单位;Transcript Length(kb):转录本长度,以kb个碱基为单位。 5.FC(Fold Change) 即差异表达倍数。 6.FDR(False Discovery Rate) 即错误发现率,定义为在多重假设检验过程中,错误拒绝(拒绝真的原(零)假设)的个数占所有被拒绝 的原假设个数的比例的期望值。通过控制FDR来决定P值的阈值。 7.P值(P-value) 即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P<0.05 为显著,P<0.01为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05或0.01。 8.可变剪接(Alternative splicing)

诺禾致源有参转录组结题报告

NHXXXXXX_species转录组生物信息分析结题报告建库测序流程 Total RNA样品检测 文库构建 库检 上机测序 生物信息分析流程 结果展示及说明 原始序列数据 测序数据质量评估 参考序列比对分析 可变剪切分析 新转录本预测 SNP和InDel分析 基因表达水平分析 RNA-seq整体质量评估 基因差异表达分析 差异基因GO富集分析 差异基因KEGG富集分析 差异基因蛋白互作网络分析 参考文献 附录 文件目录列表 软件列表 Methods英文版 备注

一、建库测序流程 从RNA样品到最终数据获得,样品检测、建库、测序每一个环节都会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的结果。为了从源头上保证测序数据的准确性、可靠性,诺禾致源对样品检测、建库、测序每一个生产步骤都严格把控,从根本上确保了高质量数据的产出。流程图如下:

1 Total RNA样品检测 诺禾致源对RNA样品的检测主要包括4种方法: (1) 琼脂糖凝胶电泳分析RNA降解程度以及是否有污染 (2) Nanodrop检测RNA的纯度(OD260/280比值) (3) Qubit对RNA浓度进行精确定量 (4) Agilent 2100精确检测RNA的完整性 2 文库构建 样品检测合格后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则通过试剂盒去除rRNA来富集mRNA)。随后加入fragmentation buffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(random hexamers)合成一链cDNA,然后加入缓冲液、dNTPs和DNA polymerase I合成二链cDNA,随后利用AMPure XP beads纯化双链cDNA。纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPure XP beads进行片段大小选择,最后进行PCR富集得到最终的cDNA文库。构建原理图如下: 3 库检 文库构建完成后,先使用Qubit2.0进行初步定量,稀释文库至1ng/ul,随后使用Agilent 2100对文库的insert size进行检测,insert size符合预期后,使用Q-PCR方法对文库的有效浓度进行准确定量(文库有效浓度>2nM),以保证文库质量。 4 上机测序 库检合格后,把不同文库按照有效浓度及目标下机数据量的需求pooling后进行HiSeq/MiSeq测序。

转录组测序技术介绍

广州基迪奥生物科技有限公司 / 转录组是指某个物种或者特定细胞或组织在某一状态下所转录出来的所有转录本的集合。转录组为核酸研究提供了全新的角度,可用于预测基因结构、可变剪切和其他转录组修饰、并可定量测定每个转录本在生长过程中和不同条件下的表达水平的变化。通过新一代高通量测序,能够全面快速地获得某一物种特定组织或者器官在某一状态下的几乎所有转录本序列信息。 原核转录组与真核转录组的分析基本相似。但由于原核生物的mRNA 没有polyA 尾结构,因此原核生物的mRNA 富集直接采用去rRNA 的策略(真核生物采用的策略为直接富集polyA 尾的RNA )。 建库策略:300bp 插入片段文库 测序策略:125PE 测序 测序平台:Hiseq2500测序 样品质量检测→常规/链特异性转录组测序文库制备→上机测序→生物信息分析 原始序列数据 数据质控 De novo 拼接 (无参考) 比对参考基因组 (有参考) 基因差异表达分析 GO 功能显著性富集分析 Pathway 显著性富集分析 预测编码蛋白框(CDS) Unigene 功能注释 新基因预测 基因可变剪切鉴定 SNP 检测 基因融合鉴定

图2 比较转录组ka/ks分析 通过杨树两个近缘种单拷贝同源基因的ka(非同 义突变率)和ks(同义突变率)的比较。图中 Ka/ks>1(红色斜线上方)的基因属于快速进化的 基因,潜在与沙漠干旱环境适应性相关[1]。 图3 基因家族进化树以及蛋白结构域分析 某蛋白家族在拟南芥、玉米多个物种的序列进化关系。从左图进化树可以推断这个家族可以分为4 个亚家族。而从右图的蛋白结构域分析中,可以进一步发现不同蛋白亚家族由不同的结构域构成, 而这可能与亚家族功能的分化相关。 图1 Unigene与近缘物种同源序列比较 通过与近缘种同源序列比较,可以判断转录组Unigene组 装结果的整体完整性,直观反映组装质量。图中大部分 Unigene(蓝色以及蓝色以上点)对同源基因的覆盖度在 50%以上,说明组装结果具有较好的完整性。

转录组测序结题报告

转录组测序结题报告 篇一:转录组测序问题集锦 转录组测序问题集锦 转录组是某个物种或者特定细胞类型产生的所有转录本的集合,转录组测序(RNA-seq) 是最近发展起来的利用深度测序技术进行转录分析的方法,可以对全转录组进行系统的研究。 Roche GS FLX Titanium 、Illumina Solexa GA IIx和AB SOLID 4均可以对转录组进行测序, Roche GS FLX Titanium与Illumina Solexa GA IIx和AB SOLID 4相比,拥有更长的读长和较小的数据量,适用于表达量较高基因的RNA全长测序。但是对低表达丰度的基因,可能需要多次测序才能得到足够的数据,成本比较高,而Illumina Solexa GA IIx和AB SOLID 4数据读取量大,能够得到较高的覆盖率,可以较好的降低成本。若是位置基因组序列的物种,则Roche GS FLX Titanium测序更有优势,其较长的读长便于拼接,获得更好的转录本数据。 转录组测序可以供研究者在转录本结构研究(基因边界鉴定、可变剪切研究等),转录本变异研究(如基因融合、编码区 SNP研究),非编码区域功能研究(Non-coding RNA

研究、miRNA前体研究等),基因表达水平研究以及全新转录本发现等方面进行深入研究。 研究转录组的方法有哪些? 目前研究转录组的方法主要三种,基于杂交技术的cDNA 芯片和寡聚核苷酸芯片,基于sanger测序法的SAGE (serial analysis of gene expression)、LongSAGE和MPSS(massively parallel signature sequencing),基于第二代测序技术的转录组测序,又称为RNA-Seq。 转录组测序比其他研究方法有哪些优势? (1)可以直接测定每个转录本片段序列、单核苷酸分辨率的准确度,同时不存在传统微阵列杂交的荧光模拟信号带来的交叉反应和背景噪音问题; (2)灵敏度高,可以检测细胞中少至几个拷贝的稀有转录本; (3)可以对任意物种进行全基因组分析,无需预先设计特异性探针,因此无需了解物种基因信息,能够直接对任何物种进行转录组分析,同时能够检测未知基因,发现新的转录本,并准确地识别可变剪切位点及cSNP,UTR区域。 (4)检测范围广,高于6个数量级的动态检测范围,能够同时鉴定和定量稀有转录本和正常转录本。

转录组测序

转录组分析 研究背景: RNA-Seq是通过结合实验和计算方法来鉴定生物样品中RNA序列的种类和丰度的一种技术。通过RNA-seq,我们就能够确定单链RNA分子中ATCG的顺序。整个过程主要包括:从细胞或组织中提取RNA分子、文库的构建以及后继的生物信息学数据分析。RNA-Seq技术具有许多早期研究方法(如:微阵列)所不具备的优点,如:RNA-Seq平台的高通量、新技术所带来的高灵敏度、发现新转录本、新基因模型以及非编码RNA的能力等。 RNA-Seq技术的到来,使人们认识到,无论是单细胞模式生物还是人类,我们对其转录组的认知异常匮乏。而RNA-Seq产生的新的数据,则可以帮助我们发现基因结构上的巨大差异、鉴定出新的转录本以及能够对small non-coding RNA和lncRNAs有着更好的了解。而且随着测序花费的降低,RNA-Seq的优势体现的更加明显。 服务流程: 样品选取

mRNA片段化 cDNA合成 末端修复、加polyA、加接头,PCR扩增 数据分析 测序方案: 内容:TotalRNA检测,普通转录组文库构建及测序及信息分析。测序方式:HiseqPE125。 项目周期:有参45天,无参50天。 分析内容: 无参考基因组: 1.1质量控制 1.11评估碱基质量 1.12过滤低质量reads 1.13 去掉低质量碱基和接头序列 1.14 统计N比例和reads长度 1.15 统计GC含量和reads重复度 1.2 Reads的从头比对组装

1.4基因表达差异分析 1.41 统计基因在不同条件下的差异表达情况 1.5差异基因富集分析 1.51 通过GO、KEGG对差异基因进行功能富集分析 1.6差异表达基因的蛋白质互作网络分析 1.7SNV/Indel分析 1.8样本间相关性分析 有参考基因组: 2.1质量控制(同无参) 2.2 Reads比对组装 2.22 统计reads与参考基因组比对情况 2.22 分析对插入、删除和连接体情况 2.23 统计转录本在参考基因组上位置、长度和覆盖度情况 2.3基因表达差异分析 2.4差异基因富集分析 2.5差异表达基因的蛋白质互作网络分析 2.6新转录本预测 2.7 SNV/Indel分析 2.8 UTR分析 2.9可变剪接分析 3.0 Non-coding RNA分析 3.1样本相关性分析 案例解读: 案例:通过poly(A)+ RNA-Seq分析Drosophila melanogaster转录组的动态性 本项研究通过poly(A)+ RNA-Seq技术对果蝇的细胞系进行测序,鉴定出一批通过替换启动子和RNA剪接来转录出大量转录本的神经特异性基因。通过后继分析还发现,对于RNA剪接变化,组织间的差异要远远大于发育阶段间的差异。另外,发现性腺表达了成百上千的未知的蛋白编码和lncRNAs,其中一些甚至是反义转录的。显示了果蝇转录组的动态性和多样性。 小部分的基因(0.2%)编码出大部分的转录本。

转录组测序以及常用算法简介

转录组测序以及常用算法简介 转录组测序,也被称为“全转录组鸟枪法测序”(WTSS),由于转录组测序的高覆盖率,它也被称为深度测序。它主要利用新一代高通量测序技术,对物种或组织的RNA反转录而成的cDNA文库进行测序,并得到相关的RNA信息。其研究对象为特定细胞在某一功能状态下所能转录出来的所有RNA的总和,包括mRNA和非编码RNA。它是指用新一代高通量测序技术,对物种或组织的RNA反转录而成的cDNA文库进行测序,并得到相关的RNA信息。转录组测序根据有无基因组参考序列分为:有参考基因组的转录组测序,和无参考基因组的de novo测序。如果有基因组参考序列,可以把转录本映射回基因组,确定转录本位置、剪切情况等更为全面的遗传信息,而这些遗传信息可以广泛应用于生物学研究、医学研究、临床研究中。虽然转录组测序和基因组测序的步骤大体相同,但是在文库制备和分析方法上却有很大的区别。在生物信息学领域,序列比对作为识别DNA、RNA和蛋白质相似区域的有效手段,有助于我们更好地研究其结构、功能以及进化方向的关系。下图简要说明了转录组测序的主要流程:首先将细胞中所有的反转录产物转化为cDNA文库,再将cDNA随机剪切为小DNA片段,并在两端加上接头(Adapter),所得序列通过比对(有参考基因组)或者从头组装de novo(无参考基因组),形成全基因组范围的转录谱。 图1 转录组测序流程图 常用算法简介 TopHat(https://www.wendangku.net/doc/5918232528.html,/software/tophat/index.shtml) TopHat是Cole Trapnell等人于2009年发表在Bioinformatics上的基于Bowtie的转录组测序比对算法,是马里兰大学生物信息和计算机生物中心,以及加利福尼亚大学伯克利分校数学系和分子细胞生物学系以及哈佛大学的干细胞与再生生物学系联合开发的结果。它通过超快的高通量短序列比对RNA序列来识别剪切位点。

相关文档
相关文档 最新文档