文档库 最新最全的文档下载
当前位置:文档库 › 华大转录组测序内部培训资料

华大转录组测序内部培训资料

华大转录组测序内部培训资料
华大转录组测序内部培训资料

(内部资料,请勿外传)

动植物转录组

(Transcriptome )

产品说明书

科技服务体系 动植物研究方向

版本信息:

2011年07月08日

目录

1产品概述 (1)

1.1 什么是转录组测序 (1)

1.2 转录组测序的产品功能 (1)

1.3 转录组测序产品优势 (1)

1.4 转录组测序产品发展史 (1)

1.5 项目执行时间 (3)

1.6 产品交付结果 (3)

2转录组测序研究方法 (4)

2.1 产品策略 (4)

2.2 样品准备 (5)

2.2.1 RNA样品要求 (5)

2.2.2 RNA样品送样标准 (6)

2.2.3 RNA提取的组织用量建议 (6)

2.3 样品运输要求 (7)

2.3.1 样品包装 (7)

2.3.2 样品标识 (8)

2.3.3 样品运输条件 (8)

2.4 文库的构建及测序 (9)

2.4.1 实验流程 (9)

2.4.2 测序及数据处理 (10)

2.5 转录组生物信息学分析 (10)

2.5.1 没有参考序列的转录组De novo (10)

2.5.2 有参考序列的转录组Re-sequencing (18)

2.5.3 参考文献 (24)

3成功案例 (25)

3.1 华大成功案例 (25)

3.2 相关文献解读 (26)

1产品概述

1.1什么是转录组测序?

转录组测序的研究对象为特定细胞在某一功能状态下所能转录出来的所有RNA的总和,包括mRNA和非编码RNA。转录组测序是指用新一代高通量测序技术对物种或者组织的转录本进行测序并得到相关的转录本信息。

1.2转录组测序的产品功能

1.获得物种或者组织的转录本信息;

2.得到转录本上基因的相关信息,如:基因结构,功能等;

3.发现新的基因;

4.基因结构优化;

5.发现可变剪切;

6.发现基因融合;

7.基因表达差异分析。

1.3转录组测序产品优势

覆盖度高:检测信号是数字信号,几乎覆盖所有转录本;

检测精度高:几十到数十万个拷贝精确计数;

分辨率高:可以检测到单碱基差异,基因家族中相似基因及可变剪切造成的不同转录本的表达;

完成速度快:整个项目周期只需要50个工作日时间;

成本低:基本上每个实验室可以承担相关研究经费。

1.4转录组测序产品发展史

转录组的研究手段大体包括:EST序列构建及研究,芯片研究,运用第二代测序技术研究等。EST是从一个随机选择的cDNA 克隆进行5’端和3’端单一次sanger测序获得的短的cDNA 部分序列,代表一个完整基因的一小部分,在

数据库中其长度一般从20 到7000 bp不等,平均长度为360 ±120 bp。EST 来源于一定环境下一个组织总mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。基因芯片研究(microarray)是将大量探针分子固定于支持物上,然后与标记的样品进行杂交,通过检测杂交信号的强度及分布来进行分析基因表达差异。高通量测序技术研究转录本则是利用第二代测序技术,直接对全部转录本进行研究,无需繁琐的建库流程,就可以得到高覆盖度高精度的转录本信息。尤其是基于Illumina高通量测序平台的转录组测序技术使能够在单核苷酸水平对任意物种的整体转录活动进行检测。在分析转录本的结构和表达水平的同时,还能发现未知转录本和稀有转录本,精确地识别可变剪切位点以及cSNP(编码序列单核苷酸多态性),提供最全面的转录组信息。

表1-1转录组研究技术比较

高通量测序技术研究转录本以低成本为主要特征,目前世面上的转录组测序产品主要有Roche 454和Illumina HiSeq 2000为平台的产品。Roche 454测序仪读长较长,但是在判断连续单碱基重复区时准确度不高;Illumina HiSeq兼有高通量、高准确度、低成本的优点,美中不足的就是读长低于454。为此,华大基因专门针对Solexa,开发了专门的基因组组装软件SOAPdenovo。随着第一篇完全利用Solexa技术完成的熊猫基因组文章的发表,华大SOAPdenovo软件的组

装效果也同时获得了科学界的一致肯定。至此,华大基因组测序与组装走在了世界的前列。同时,华大的基因组测序也走向了产业化,大量的转录组项目为华大的信息分析人员积累了更多的测序和组装经验,将为客户提供世界顶级的转录组测序组装服务。

1.5项目执行时间

从样品检测合格开始,不包括由于样品问题停滞的时间,动植物转录组测序、及生物信息分析整体的完成周期为50个工作日。

1.6产品交付结果

交付指标:

数据量

1.基因组极大的物种,如:小麦,玉米等,建议8 Gb;

2.普通基因组物种,建议4 Gb。

交付数据:

标准信息分析(无参考序列)

1. 对原始数据进行去除接头、污染序列及低质量reads的处理

2. 数据产出统计及测序数据的成分和质量评估

3. 组装结果分析(Contig长度分布、Scaffold长度分布、Unigene长度

分布)

4. Unigene功能注释

5. Unigene的GO分类

6. Unigene的COG分类

7. Unigene代谢通路分析

8. 预测编码蛋白框(CDS)

9. Unigene表达差异分析(两个或两个以上样品)

10. Unigene在样品间的差异GO分类(需两个或两个以上样品)和

Pathway富集性分析

●定制化信息分析

1.多个样品做de novo分析时,分析并提供每个样品的Unigene的GO、

pathway等结果

2.将Hiseq数据与其他数据如EST等联合组装(需要客户提供其他数据)

标准信息分析(需提供参考基因序列、参考基因组序列及基因注释结果)

1. 对原始数据进行去除接头、污染序列及低质量reads 的处理

2. 测序评估(比对统计、测序随机性评估、Reads在基因组上的分布)

●高级信息分析(基于1-2标准分析)

3. 基因表达注释(基因覆盖度、覆盖深度分布等)

4. 基因差异表达分析(两个或两个以上样品)

5. 对基因结构进行优化(仅针对真核生物)

6. 鉴定基因的可变剪接(仅针对真核生物)

7. 预测新转录本

8. SNP分析(仅针对真核生物)

●定制化信息分析

1.将两个样品之间的可变剪切进行比较分析, 统计几个样品间的可变

剪切和新转录本的异同

2.基因融合分析

3.组与组之间的的差异分析

4.重复间的数据相关性分析

2转录组测序研究方法

2.1产品策略

转录组de novo产品策略:

图2-1:转录组de novo产品策略

有ref的转录组re-sequencing产品策略:

图2-2:有ref的转录组re-sequencing产品策略

2.2样品准备

2.2.1RNA样品要求

1.样品类型:去蛋白并进行DNase处理后的完整总RNA;

2.样品需求量(单次):植物样品:≥ 20 μg;人、大鼠、小鼠样品:≥ 5 μg;

其他类型动物:≥ 10 μg;

3.样品浓度:植物样品:≥ 400 ng/μl;人、大鼠、小鼠样品:≥ 80 ng/μl;其

它类型动物样品:≥ 200 ng/μl;原核生物样品:≥ 500 ng/μl;

4.样品纯度:OD260/280= 1.8~2.2;OD260/230 ≥ 2.0;动物植物样品:RIN ≥ 7.0,

28S:18S ≥ 1.0;原核生物样品:RIN ≥ 6.0,23S:16S= 1.2~2.2。

2.2.2RNA样品送样标准

合作伙伴需要提供Nanodrop、Gel-Electrophotometric 或者Aglient中一种或多种形式的样品分析结果;

应仔细纯化样品,尽量避免多糖、蛋白质、和外切酶的残留;样品必须注明溶剂成分。

表2-1:转录组送样标准

2.2.3RNA提取的组织用量建议

表2-2:转录组RNA提取组织用量建议

注:不同类型的样品RNA产量差别较大,像人或哺乳动物的全血中红细胞没有细胞核,每毫升血液中实用细胞数少,RNA得率低,送样量需要加大;鸟类或鱼类的血液中红细胞含有细胞核,可适当减少送样量;含肌纤维和脂肪一类物质以及含多糖多酚较高的复杂植物,RNA得率一般较低,送样量需要增加;代谢活跃的肝脏组织细胞量旺盛,每50 mg组织可达20~30 ug RNA,可适当降低送样量。

2.3样品运输要求

2.3.1样品包装

对于RNA样品,我们建议合作伙伴尽量用1.5 ml Eppendorf管装载样品,为了防止Eppendorf管在运输过程中受到挤压破裂,导致样品损失,最好将Eppendorf管装在50 ml离心管(或其他支撑物)中,里面还可以添加棉花、吸水纸等固定。如是大批量样品,请用冻存盒之类的存放盒装好样品,防止样品受损。(注意:切勿在50 ml管内或其他支撑物内加入液氮等危险品)。

图2-3:在15 ml EP管中装棉花或包膜固定样品管

对于组织样品,一般建议用1.5 ml的Eppendorf管,或2 ml的螺旋管装载。

在样品运输过程中请用parafilm膜将管口密封好。不建议样品溶于无水乙醇、异丙醇等有机溶剂邮寄,因为有机试剂比较容易泄露、泄露后容易使管壁字迹模糊,甚至造成样品交叉污染。如果一定需溶于有机溶剂运输,那么Eppendorf 管的管口至少要用parafilm膜封5圈以上。

图2-4:用封口膜封好

对于血液样品,可用5~10 ml 抗凝管装载,但为了防止抗凝管在运输过程中受到碰撞而破裂,需要将抗凝管放在泡沫或棉花中固定,并彼此隔开。

2.3.2 样品标识

不建议用油性笔直接在管壁或管盖上写样品名称等信息,最好将样品名称等各种信息写在标签纸上,贴在管壁,外面再用透明胶带缠绕一圈(一方面防止样品名称被泄露的有机溶剂溶掉,另一方面也可以防止标签纸没有粘牢脱落,导致样品无法应用)。

图2-5:管壁上先用纸条写好,再用胶片缠绕;PCR 板请在侧面标记,再用胶布贴好 邮寄样品时,必须附有我们华大提供的标准格式的样品信息单(电子版、文字版),请合作伙伴仔细检查,务必保证信息单中填写的样品名称、数量需要与实际邮寄的样品名称标识、样品数量完全一致。

2.3.3 样品运输条件

a) DNA 样品如果用乙醇沉淀,则可以常温运输,否则在运输过程中,应放

于干冰中,时间不要超过72小时;或利用冰袋运输,时间最好不要超过

24小时;

b) RNA 、组织样品无论溶于什么溶剂,都需放于干冰中运输,时间不要超过

72小时;

c)血浆要保存在干冰中运输,确保样品送达接收地点时有足量的干冰剩余,

并及时存放血浆于-80℃冰箱中,禁止将样品在室温状态下放置;全血要

在生物冰袋条件下运输,且在12小时内送达;

d)运输过程中需要添加的干冰和冰袋的量与季节、运输时间长短、泡沫盒的

薄厚有关(为更有利于保温,尽量选用大块的干冰,如果条件允许,建议

可在邮寄的泡沫盒的上下填充一些棉花等,以隔绝热量的传递)。

2.4文库的构建及测序

2.4.1实验流程

图2-6:转录组实验流程

提取样品总RNA后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则用试剂盒去除rRNA后进入下一步)。加入fragmentation buffer

将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(random hexamers)合成第一条cDNA链,然后加入缓冲液、dNTPs、RNase H和DNA polymerase I 合成第二条cDNA链,在经过QiaQuick PCR试剂盒纯化并加EB缓冲液洗脱之后做末端修复、加poly(A)并连接测序接头,然后用琼脂糖凝胶电泳进行片段大小选择,最后进行PCR扩增,建好的测序文库(200 bp)用Illumina HiSeq? 2000进行测序。

2.4.2测序及数据处理

数据处理的步骤:(de novo和有ref的转录组re-sequencing是相同的)1 去除含adaptor的reads

2去除N的比例大的reads

3 去除低质量reads(质量值Q <= 10的碱基数占整个read的50%以上)

4去重复(duplication)

2.5转录组生物信息学分析

2.5.1没有参考序列的转录组De novo

图2-7:转录组de novo信息分析流程及详情

产量统计

测序的数据产量是合同的重要指标,一个样品由clean reads得到的测序碱基数应不少于合同的规定,该项工作的完成情况见下:

表2-3:测序产量统计

测序得到的原始图像数据经base calling转化为序列数据,我们称之为raw data或raw reads,结果以fastq文件格式存储,fastq文件为用户得到的最原始文件,里面存储reads的序列以及reads的测序质量。在fastq格式文件中每个read由四行描述:

图2-8:测序数据描述

每个序列共有4行,第1行和第3行是序列名称(有的fq文件为了节省存储空间会省略第三行“+”后面的序列名称),由测序仪产生;第2行是序列;第4行是序列的测序质量,每个字符对应第2行每个碱基,第4行每个字符对应的ASCII值减去64,即为该碱基的测序质量值,比如c对应的ASCII值为99,那么其对应的碱基质量值是35。从Illumina GA Pipeline v1.3开始(目前为v1.6),碱基质量值范围为2到35。表1为测序错误率与测序质量值简明对应关系。具体地,如果测序错误率用E表示,碱基质量值用sQ表示,则有下列关系:

sQ= -10log10E

表2-4:测序错误率与测序质量值简明对应关系

图2-9:转录组de novo组装示意图

组装方法:

我们使用短reads组装软件SOAPdenovo(Li et al. 2009)做转录组从头组装。SOAPdenovo首先将具有一定长度overlap的reads连成更长的片段,这些通过reads overlap关系得到的不含N的组装片段我们称之称为Contig。然后,我们将reads比对回Contig,通过paired-end reads能确定来自同一转录本的不同Contig以及这些Contig之间的距离,SOAPdenovo将这些Contig连在一起,中间未知序列用N表示,这样就得到Scaffold。进一步利用paired-end reads对Scaffold做补洞处理,最后得到含N最少,两端不能再延长的序列,我们称之为Unigene。如果同一物种做了多个样品测序,则不同样品组装得到的Unigene可通过序列聚类软件做进一步序列拼接和去冗余处理,得到尽可能长的非冗余Unigene。最后,将Unigene序列与蛋白数据库nr、Swiss-Prot、KEGG和COG 做blastx比对(e-value<0.00001),取比对结果最好的蛋白确定Unigene的序列方向。如果不同库之间的比对结果有矛盾,则按nr、Swiss-Prot、KEGG和COG 的优先级确定Unigene的序列方向,跟以上四个库皆比不上的Unigene我们用软件ESTScan(Iseli et al. 1999)预测其编码区并确定序列的方向。对于能确定序列方向的Unigene我们给出其从5'到3'方向的序列,对于无法确定序列方向的Unigene我们给出组装软件得到的序列。

组装质量统计:

图2-10:组装质量统计图

基因注释

功能注释信息给出Unigene的蛋白功能注释、COG功能注释。

首先,通过blastx将Unigene序列比对到蛋白数据库nr、Swiss-Prot、KEGG和COG(e-value<0.00001),得到跟给定Unigene具有最高序列相似性的蛋白,从而得到该Unigene的蛋白功能注释信息。

COG是对基因产物进行直系同源分类的数据库,每个COG蛋白都被假定来自祖先蛋白,COG数据库是基于细菌、藻类、真核生物具有完整基因组的编码蛋白、系统进化关系进行构建的,我们将Unigene和COG数据库进行比对,预测Unigene可能的功能并对其做功能分类统计,从宏观上认识该物种的基因功能分布特征。

图2-11:COG功能聚类

Unigene的GO分类

根据nr注释信息我们能得到GO功能注释。Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology,分别描述基因的分子功能(molecular function)、所处的细胞位置(cellular component)、参与的生物过程(biological process)。我们根据nr注释信息,使用Blast2GO软件(Conesa et al.2005)得到Unigene的GO注释信息。Blast2GO已被其它文献引用超过150次,是同行广泛认可的GO注释软件。得到每个Unigene的GO注释后,我们用WEGO软件(Ye et al. 2006)对所有Unigene做GO功能分类统计,从宏观上认识该物种的基因功能分布特征。

图2-12:Unigene 的GO分类

Unigene代谢通路分析

KEGG是系统分析基因产物在细胞中的代谢途径以及这些基因产物的功能的数据库,利用KEGG可以进一步研究基因在生物学上的复杂行为。根据KEGG注释信息我们能进一步得到Unigene的Pathway注释。

预测编码蛋白框(CDS)

首先,我们按nr、Swiss-Prot、KEGG和COG的优先级顺序将Unigene序列与以上蛋白库做blastx比对(e-value<0.00001),如果某个Unigene序列比对上高优先级数据库中的蛋白,则不进入下一轮比对,否则自动跟下一个库做比对,如此循环直到跟所有蛋白库比对完。我们取blast比对结果中rank最高的蛋白确定该Unigene的编码区序列,然后根据标准密码子表将编码区序列翻译成氨基酸序列,从而得到该Unigene编码区的核酸序列(序列方向5'->3')和氨基酸序列。最后,跟以上蛋白库皆比对不上的Unigene我们用软件ESTScan(Iseli et al. 1999)预测其编码区,得到其编码区的核酸序列(序列方向5'->3')和氨基酸序列。

基因表达量的计算

Unigene表达量的计算使用RPKM法(Reads Per kb per Million reads)(Mortazavi et al. 2008),其计算公式为:

设RPKM(A)为Unigene A的表达量,则C为唯一比对到Unigene A的reads 数,N为唯一比对到所有Unigene的总reads数,L为Unigene A的碱基数。

差异Unigene的GO和Pathway分析

GO功能分析

Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology(本体),分别描述基因的分子功能(molecular function)、所处的细胞位置(cellular component)、参与的生物过程(biological process)。GO的基本单位是term(词条、节点),每个term 都对应一个属性。GO功能分析一方面给出差异表达基因的GO功能分类注释;另一方面给出差异表达基因的GO功能显著性富集分析。

GO功能分类注释给出具有某个GO功能的基因列表及基因数目统计。

GO功能显著性富集分析给出与基因组背景相比,在差异表达基因中显著富集的GO功能条目,从而给出差异表达基因与哪些生物学功能显著相关。该分析首先把所有差异表达基因向Gene Ontology数据库的各个term映射,计算每个term的基因数目,然后应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著富集的GO条目,其计算公式为

其中,N为所有Unigene中具有GO注释的基因数目;n为N中差异表达基因的数目;M为所有Unigene中注释为某特定GO term的基因数目;m为注释为某特定GO term的差异表达基因数目。计算得到的pvalue通过Bonferroni校正之后,以corrected-p value≤0.05为阈值,满足此条件的GO term定义为在差异表达基因中显著富集的GO term。通过GO功能显著性富集分析能确定差异表达基因行使的主要生物学功能。

Gene Ontology数据库为https://www.wendangku.net/doc/f414124328.html,/。

我们的GO功能分析同时整合了表达模式聚类分析,研究人员能方便地看到具有某一功能的所有差异基因的表达模式。例,immune response为在差异表达

转录组测序结题报告

转录组测序结题报告 1.mRNA纯化: 抽提得到的总RNA首先利用10U的DNaseI(Ambion,美国)在37℃消化1小时;然后利用Micropoly(A)PuristTM mRNA purification kit(Ambion,美国),进行mRNA纯化:把RNA稀释到250μl的体积,按照Kit的操作步骤(Cat.No:

1919)进行;最后得到的mRNA用100μl预热的THE缓冲液洗脱,利用NanoDrop 进行定量。 2.cDNA合成: cDNA合成是在Ng等2005年发表的方法基础上改进而成(文献1,图1)。第一链cDNA合成利用GsuI-oligo dT作为反转录引物,10μg的mRNA作为模板,用1000 单位的Superscript II reverse transcriptase (Invitrogen,美国)在42℃作用1小时完成;随后利用NaIO4(Sigma,美国)氧化mRNA的5’帽子结构,并连接生物素;通过Dynal M280磁珠(Invitrogen,美国)筛选连接了生物素的mRNA/cDNA,并通过碱裂解释放第一链cDNA;然后通过DNA ligase(TaKaRa,日本)在第一链cDNA的5’末端加上接头,然后通过Ex Taq polymerase (TaKaRa,日本)合成第二链cDNA。最后通过GsuI酶切去除polyA和5’端接头。 图1. 全长cDNA合成示意图 3.cDNA测序: 合成的cDNA利用超声仪(Fisher)打断到300-500bp的范围,利用Ampure beads(Agencourt,美国)进行纯化。随后纯化的cDNA利用TruSeq TM DNA XXmple Prep Kit – Set A (illumina,美国)制备文库,并利用TruSeq PE Cluster Kit (illumina,美国)进行扩增。最后在illumina机器上进行测序反应。 测序得到的数据统计见表1. 表1. Solexa测序统计 样品对照 1 2

有参考基因组的转录组生物信息分析

一、生物信息分析流程 获得原始测序序列(Sequenced Reads)后,在有相关物种参考序列或参考基因组的情况下,通过如下流程进行生物信息分析: 二、项目结果说明 1 原始序列数据 高通量测序(如illumina HiSeq TM2000/MiSeq等测序平台)测序得到的原始图像数据文件经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。 FASTQ格式文件中每个read由四行描述,如下: @EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT + @@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF 其中第一行以“@”开头,随后为illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为illumina 测序标识符(选择性部分);第四行是对应序列的测序质量(Cock et al.)。 illumina 测序标识符详细信息如下:

第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。如果测序错误率用e表示,illumina HiSeq TM2000/MiSeq的碱基质量值用Q phred 表示,则有下列关系: 公式一:Q phred = -10log 10 (e) illumina Casava 1.8版本测序错误率与测序质量值简明对应关系如下: 2 测序数据质量评估 2.1 测序错误率分布检查 每个碱基测序错误率是通过测序Phred数值(Phred score, Q phred )通过公式1转化得到,而Phred 数值是在碱基识别(Base Calling)过程中通过一种预测碱基判别发生错误概率模型计算得到的,对应关系如下表所显示: illumina Casava 1.8版本碱基识别与Phred分值之间的简明对应关系 测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。对于RNA-seq技术,测序错误率分布具有两个特点: (1)测序错误率会随着测序序列(Sequenced Reads)的长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致的,并且为illumina高通量测序平台都具有的特征(Erlich and Mitra, 2008; Jiang et al.)。 (2)前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq 建库过程中反转录所需要的随机引物的长度。所以推测前6个碱基测序错误率较高的原因为随机引物和RNA模版的不完全结合(Jiang et al.)。测序错误率分布检查用于检测在测序长度范围内,有无异常的碱基位置存在高错误率,比如中间位置的碱基测序错误率显着高于其他位置。一般情况下,每个碱基位置的测序错误率都应该低于0.5%。 图2.1 测序错误率分布图

转录组学主要技术与应用研究

转录组学主要技术及其应用研究 姓名:梁迪 专业:微生物学 年级:2013 学号:3130179 二零一四年六月十五日

转录学主要技术及其应用研究 摘要:转录组(transcriptome)是特定组织或细胞在某一发育阶段或功能状态下转录出来的所有RNA的集合。转录组学研究能够从整体水平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理。目前,转录组学研究技术主要包括两种:基于杂交技术的微阵列技术(microarray)和基于测序技术的转录组测序技术,包括表达序列标签技术(Expression Sequence Tags Technology,EST)、基因表达系列分析技术(Serial analysis of gene expression,SAGE)、大规模平行测序技术(Massively parallel signature sequencing,MPSS)、以及RNA 测序技术(RNA sequencing,RNA-seq)。文章主要介绍了以上转录组学主要研究技术的原理、技术特点及其应用,并就这些技术面临的挑战和未来发展前景进行了讨论,为其今后的研究与应用提供参考。 关键词:转录组学;微阵列技术;转录组测序技术;应用 Study on the main technologies of transcriptomics and their application Abstract: The transcriptome is the complete set of transcripts for certain type of cells or tissues in a specific developmental stage or physiological condition. Transcriptome analysis can provide a comprehensive understanding of molecularmechanisms involved in specific biological processes and diseases from the information on gene structure and function. Currently, transcriptomics technology mainly includes microarry -based on hybridization technology and transcriptome sequencing-based on sequencing technology, involving Expression sequence tags technology, Serial analysis of gene expression, Massively parallel signature sequencing and RNA sequencing. The detailed principles, technical characteristics and applications of the main transcriptomics technologies are reviewed here, and the challenges and application potentials of these technologies in the future are also discussed. This will present the useful information for other researchers. Keywords: transcriptomics ; microarray ; transcriptome sequencing; application 随着后基因组时代的到来,转录组学、蛋白质组学、代谢组学等各种组学技术相继出现,其中转 录组学是率先发展起来以及应用最广泛的技术[1]。

转录组测序技术的应用及发展综述

转录组测序技术的应用及发展综述 摘要:转录组测序(RNA-Seq)作为一种新的高效、快捷的转录组研究手段正在改变着人们对转录组的认识。RNA-Seq利用高通量测序技术对组织或细胞中所有RNA 反转录而成cDNA文库进行测序,通过统计相关读段(reads)数计算出不同RNA的表达量,发现新的转录本;如果有基因组参考序列,可以把转录本映射回基因组,确定转录本位置、剪切情况等更为全面的遗传信息,已广泛应用于生物学研究、医学研究、临床研究和药物研发等。文章主要比较近年来转录组研究的几种方法和几种RNA-Seq的研究平台,着重介绍RNA-Seq的原理、用途、步骤和生物信息学分析,并就RNA-Seq技术面临的挑战和未来发展前景进行了讨论及在相关领域的应用等内容,为今后该技术的研究与应用提供参考。 关键词: RNA-Seq;原理应用;方法;挑战;发展前景 Abstract:Transcriptome sequencing (RNA-Seq) is a kind of high efficiency, quick transcriptome research methods are changing our understanding of transcriptome. RNA-Seq to use high-throughput sequencing of tissues or cells of all RNA reverse transcription into cDNA library were sequenced, through statistical correlation read paragraph (reads) numbers were calculated from the expression of different RNA transcripts, find new; if the genome reference sequence, the transcripts mapped to genomic, determine the position of the transcription shear condition, more genetic information, has been widely used in biological research, medical research, clinical research and drug development. This paper compared several methods of platform transcriptome studies and several kinds of RNA-Seq in recent years, RNA-Seq focuses on the principle, purpose, steps and bioinformatics analysis, and discusses the RNA-Seq technology challenges and future development prospect and the application in related field and other content, provide the reference for the research and application of the technology future. Key word:RNA-Seq ;application; principle; method; challenge; development prospects

转录组测序

真核mRNA测序是基于HiSeq平台,对真核生物特定组织或细胞在某个时期转录出来的所有mRNA进行测序,既可研究已知基因,亦能发掘新基因,全 面快速地获得mRNA序列和丰度信息。真核mRNA测序方法可以分为:有参考转录组、无参考转录组以及数字基因表达谱(DGE)三大类。 技术参数 案例解析 [案例一] mRNA和small RNA转录组揭示新合成异源六倍体小麦杂种 优势的动态部分同源调控 诺禾致源携手中国农业科学院作物科学研究所,利用转录组测序技术,对杂交亲本、新合成异源六倍体小麦的幼苗、穗和种子进行了mRNA和smallRNA测序及信息分析,发现新合成异源六倍体小麦绝大部分基因表现为12类基因表达模式,包括加性表达,少部分的基因表现为非加性,基因的非加性表现出非常强的发育时期特异性,与生长势密切相关;miRNA的丰度随着倍性的增加逐渐下降,新合成异源六倍体小麦中非加性表达的 miRNA也同样表现出亲本显性表 达,miRNA的表达敏感性与生长势和适应性密切相关。该研究揭示了不同倍性 非对等杂种优势的分子基础。 [案例二] 磷酸三(2,3-二氯丙基)酯(TDCPP)对四膜虫生长繁殖的 抑制作用与核糖体相关 诺禾携手华中农业大学,利用转录组测序和信息分析技术,研究了TDCPP处理组和对照组差异基因表达,并对差异表达基因进行KEGG通路分析,发现核糖体基因通路显著富集, 同时伴随胞浆和粗面内质网上核糖体数量减少体积增大。这些探索表明四膜虫可以作为TDCPP反应的生物指标,为后续研究TDCPP作用其他生物的毒理机制提供了新视角。 [案例三] 转录组揭示寄主植物与宿主之间进行RNA交换的机制 参考文献 菟丝子被称作勒死草,会用被称作吸根的专用器官穿透宿主组织与其建立联系,可以吸取宿主的水份与营养物质,也能吸取RNA(mRNA)分子。本研究分别选取菟丝子和拟南芥及番茄的共生体茎上的三段组织进行转录组学的研究,发现寄生植物与寄主之间mRNA的转移量很大且是一种双向转移的模式;两种宿主相比,更多的拟南芥RNA被转移到菟丝子植物之中,而且菟丝子与拟南芥之间较自由的交换,可表明调节菟丝子吸根选择性的机制可能是宿主特异性的,从而揭示了寄主与宿主之间进行RNA转移的遗传机制。 [1] Li A, Liu D, Wu J, et al . mRNA and small RNA transcriptomes reveal insights into dynamic homoeolog regulation of allopolyploid heterosis in nascent hexaploid wheat [J]. The Plant Cell, 2014: tpc. 114.124388.[2] Jing Li, John P , Giesy, Liqin Yu, et al . Effects of Tris (1,3-dichloro-2-propyl) Phosphate (TDCPP) in Tetrahymena Thermophila: Targeting the Ribosome. Scientific Reports. 2015, 5:10562. [3] Kim G, LeBlanc M L, et al . Genomic-scale exchange of mRNA between a parasitic plant and its hosts [J]. Science, 2014, 345(6198): 808-811. 图1 非加性表达miRNA与亲本显性表达miRNA的 等级聚类分析和两者的关联 图2 显著富集的KEGG通路 图3 菟丝子与拟南芥、番茄转移RNA和非转移RNA的表达和富集分析 样品要求文库类型测序策略数据量类型 分析内容 项目周期 真核有参转录组测序 真核无参转录组测序 6 Gb、8 Gb、10 Gb、12 Gb clean data 6 M clean reads 3 Gb clean data 项目数据至少12 Gb clean data 数字基因表达谱(DGE) HiSeq PE150 HiSeq PE150 HiSeq SE50HiSeq PE125普通转录组文库; 链特异性转录组文库 40天50天30天 35天(有参)45天(无参) RNA样品总量≥1.5 μg; RNA样品浓度≥50 ng/μL 参考基因组比对 新转录本预测可变剪切分析SNP/InDel分析 基因表达水平分析RNA-seq整体质量评估 转录因子注释GO/KEGG富集分析蛋白互作网络分析基因共表达网络构建可视化结果展示 参考转录组拼接 转录本/Unigene长度统计 基因功能注释NR,NT,Swiss Prot GO,KEGG,KOG Protein Family CDS预测分析SNP/SSR分析

华大转录组测序内部培训资料

(内部资料,请勿外传) 动植物转录组 (Transcriptome ) 产品说明书 科技服务体系 动植物研究方向

版本信息: 2011年07月08日

目录 1产品概述 (1) 1.1 什么是转录组测序 (1) 1.2 转录组测序的产品功能 (1) 1.3 转录组测序产品优势 (1) 1.4 转录组测序产品发展史 (1) 1.5 项目执行时间 (3) 1.6 产品交付结果 (3) 2转录组测序研究方法 (4) 2.1 产品策略 (4) 2.2 样品准备 (5) 2.2.1 RNA样品要求 (5) 2.2.2 RNA样品送样标准 (6) 2.2.3 RNA提取的组织用量建议 (6) 2.3 样品运输要求 (7) 2.3.1 样品包装 (7) 2.3.2 样品标识 (8) 2.3.3 样品运输条件 (8) 2.4 文库的构建及测序 (9) 2.4.1 实验流程 (9) 2.4.2 测序及数据处理 (10) 2.5 转录组生物信息学分析 (10) 2.5.1 没有参考序列的转录组De novo (10) 2.5.2 有参考序列的转录组Re-sequencing (18) 2.5.3 参考文献 (24) 3成功案例 (25)

3.1 华大成功案例 (25) 3.2 相关文献解读 (26)

1产品概述 1.1什么是转录组测序? 转录组测序的研究对象为特定细胞在某一功能状态下所能转录出来的所有RNA的总和,包括mRNA和非编码RNA。转录组测序是指用新一代高通量测序技术对物种或者组织的转录本进行测序并得到相关的转录本信息。 1.2转录组测序的产品功能 1.获得物种或者组织的转录本信息; 2.得到转录本上基因的相关信息,如:基因结构,功能等; 3.发现新的基因; 4.基因结构优化; 5.发现可变剪切; 6.发现基因融合; 7.基因表达差异分析。 1.3转录组测序产品优势 覆盖度高:检测信号是数字信号,几乎覆盖所有转录本; 检测精度高:几十到数十万个拷贝精确计数; 分辨率高:可以检测到单碱基差异,基因家族中相似基因及可变剪切造成的不同转录本的表达; 完成速度快:整个项目周期只需要50个工作日时间; 成本低:基本上每个实验室可以承担相关研究经费。 1.4转录组测序产品发展史 转录组的研究手段大体包括:EST序列构建及研究,芯片研究,运用第二代测序技术研究等。EST是从一个随机选择的cDNA 克隆进行5’端和3’端单一次sanger测序获得的短的cDNA 部分序列,代表一个完整基因的一小部分,在

RNA-Seq项目常见问题与解答

RNA-Seq项目常见问题与解答 这两年随着测序成本的下降和转录组研究的日渐火热,RNA-seq俨然已经成为了分子生物学课题组推进项目的首选方向。在我们接触的转录组项目中,有些老师对项目分析结果存在或多或少不清楚或有疑惑的地方。那么春天来了,花儿开了,今天福利也到了,我们特意将转录组项目中常见的一些问题进行了汇总,各位老师可以按需自取哈。 1.如何判定生物学重复一致性的高低?生物学重复统计方法及公式 答:(1)皮尔逊相关系数r可以作为生物学重复相关性的评估指标,理想的生物学重复试验r2≧0.92。考虑到个体差异、取材环境、时间以及人员操作熟练程度等因素对测序数据的影响,一般r2≧0.8为可接受范围。 (2)Pearson(皮尔逊)相关系数:皮尔逊相关也称为积差相关(或积矩相关)是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。 2.DEG基因用Transcripts还是Unigenes? 答:DEG基因用的是Unigene。 3.transcript-id代表什么意思?为什么有的基因有多个transcript-id? 答:基因转录本id;因为可变剪切的缘故,一个基因可能有多个转录本。 4.在miRNA鉴定中,可能成为miRNA的reads是怎样计算的?哪些条件会影响到mrd值?micro RNA在不同组织有异构体的存在,是如何处理的? 答:与 Rfam, miRbase, RepBase和 Exon\Intro 序列库进行比对,获得 sRNA 注释信息,以此作为预测新的 miRNA 的基础。 miRNA的鉴定是利用miRDeep2软件进行已知及新(保守及非保守)的miRNA鉴定。miDeep2会在reads比对到基因组上的位置两端分别延伸75、15bp进行结构预测,此软件认为极可能与可能是miRNA的根据是通过mrd值来区分的,mrd>-10为可能,mrd>0为极可能; 影响mrd值的有reads在基因组上的分布和碱基结合的自由能等; 5.对于有生物学重复的项目,怎样计算差异基因? 答:两两比对使用的是R的EBseq包, 是基于负二项分布检验的方式对reads数进行差异显著性检验,重复间的比对使用的是R的DEseq包,是基于分层贝叶斯模型的原理对组合内样品进行分析。 6.外显子,内含子及基因间区各自的比例如何评估建库情况? 答:理论上,来自成熟mRNA的reads应该比对到外显子区。但是,由于基因组注释水平、可变剪切导致的内含子序列保存,以及很多RNA(比如lncRNA)就来自基因间区和内含子,因此有比对到内含子和基因间区的reads。受物种等的影响外显子所占比例不同,一般情况下外显子区域所占比例超过70%即比较理想。

转录组测序RNA-seq技术转录组是某个物种或者特定细胞类型产生

转录组测序(RNA-seq)技术 转录组是某个物种或者特定细胞类型产生的所有转录本的集合。转录组研究能够从整体水平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理,已广泛应用于基础研究、临床诊断和药物研发等领域。基于Illumina高通量测序平台的转录组测序技术使能够在单核苷酸水平对任意物种的整体转录活动进行检测,在分析转录本的结构和表达水平的同时,还能发现未知转录本和稀有转录本,精确地识别可变剪切位点以及cSNP(编码序列单核苷酸多态性),提供最全面的转录组信息。相对于传统的芯片杂交平台,转录组测序无需预先针对已知序列设计探针,即可对任意物种的整体转录活动进行检测,提供更精确的数字化信号,更高的检测通量以及更广泛的检测范围,是目前深入研究转录组复杂性的强大工具。 技术优势: 数字化信号:直接测定每个转录本片段序列,单核苷酸分辨率的精确度,同时不存在传统微阵列杂交的荧光模拟信号带来的交叉反应和背景噪音问题。 高灵敏度:能够检测到细胞中少至几个拷贝的稀有转录本。 任意物种的全基因组分析:无需预先设计特异性探针,因此无需了解物种基因信息,能够直接对任何物种进行转录组分析。同时能够检测未知基因,发现新的转录本,并精确地识别可变剪切位点及cSNP,UTR区域。 更广的检测范围:高于6个数量级的动态检测范围,能够同时鉴定和定量稀有转录本和正常转录本。 应用领域:转录本结构研究(基因边界鉴定、可变剪切研究等),转录本变异研究(如基因融合、编码区SNP研究),非编码区域功能研究(Non-coding RNA研究、microRNA前体研究等),基因表达水平研究以及全新转录本发现。 图1 RNA-seq获得的数据能够进行全面的数据挖掘,既能够进行基因结构分析,鉴定UTR、可变剪切位点,也能够发现新的转录本及非编码RNA,比较样本间的表达水平差异

RNA产品线常见问题汇总

RNA线常见问题汇总 Q:1、如何确定研究物种有无参考基因组? A:根据研究物种的拉丁文名,可在Ensembl (https://www.wendangku.net/doc/f414124328.html,/index.html)、JGI(https://www.wendangku.net/doc/f414124328.html,/) NCBI(https://www.wendangku.net/doc/f414124328.html,/)中搜索是否有该物种的基因组信息,也可在其他专门介绍某种物种的网站寻找参考基因组。 一般下载的文件包括:Assembled scaffolds(masked)、Genes、Functional Annotations三种文件;需要下载的文件具体如下: 1)序列信息:.fasta文件,用于进行mapping比对。 2)基因注释信息:.gff文件,里面包含基因名字,基因所在位置等信息,用于进行测得序列的基因注释,注释所得基因可以进行下一步表达差异分析。 3)GO注释信息:.txt文件,里面包含基因名字和对应注释信息编号(GO号),有此信息可以不用再重新进行GO注释,直接利用此信息进行GO富集分析。Q:2、送样要求? A:1)组织样品 动物组织:>2g;植物组织:>4g;培养细胞:>1×107个; 血液样品:≥2ml(最好是全血) 2)真核生物RNA 请提供浓度≥200ng/μL,总量≥10μg的RNA(单次建库用量为5μg);OD260/2801.8~2.2之间,OD260/230≥2.0,RIN≥6.5,28S:18S≥1.0,确保RNA无降解;送样时请标记清楚样品编号,管口使用Parafilm膜密封; 样品保存期间切忌反复冻融;送样时请使用干冰运输。

3)原核生物RNA 请提供浓度≥200ng/μL,总量≥10μg的RNA(单次建库用量为5μg); OD260/280介于1.8~2.2之间,OD260/230≥2.0,RIN≥6.5,23S:16S≥1.0,确保RNA无降解;送样时请标记清楚样品编号,管口使用Parafilm膜密封;样品保存期间切忌反复冻融;送样时请使用干冰运输。 Q:3是否一定要求设置生物学重复,以及重复次数? 目前没有生物学重复的实验发文章比较困难,尤其是IF≥5的杂志。如果确实受限于研究经费,无法设置生物学重复。文章投出之后,遭编辑质疑。那就得结合强有力的实验数据做支撑,比如定量实验,FISH荧光原位杂交,或者是northern 杂交等,用实验数据说服编辑。重复设置原则上越多越好,然而考虑到现实条件,重复设置≥3。一般不建议设置两个重复,因为如果两者结果不一致,我们无法确定以哪个数据为参考。 注:3个生物学重复,不等同于将3个样品的RNA等量混合后测序。3个样品等量混合测序,相当于将3个样本的基因表达量取了平均值,其实就是相当于取了一个样本,由此得到的差异基因同样不可信,不能反应群体生物学现象。Q:4isogene与"unigenes"有什么区别? Isogene是Trinity拼接软件得到的转录本,真核生物存在可变剪切,因此一个基因可能对应多个转录本。而Unigenes是组装得到的转录本中,最长的一条。Q:5为什么分析到的差异表达基因与Q-PCR实验结果不一致,无法被验证?RNA-seq是大规模筛选用的,反应样本整体的基因表达变化趋势,但不能保证每一个基因的变化趋势都与Q-PCR一致。RNA-seq与RT-PCR本身就是两种

转录组测序问题集锦

转录组测序问题集锦 转录组是某个物种或者特定细胞类型产生的所有转录本的集合,转录组测序(RNA-seq) 是最近发展起来的利用深度测序技术进行转录分析的方法,可以对全转录组进行系统的研究。 Roche GS FLX Titanium 、Illumina Solexa GA IIx和AB SOLID 4均可以对转录组进行测序, Roche GS FLX Titanium与Illumina Solexa GA IIx和AB SOLID 4相比,拥有更长的读长和较小的数据量,适用于表达量较高基因的RNA 全长测序。但是对低表达丰度的基因,可能需要多次测序才能得到足够的数据,成本比较高,而Illumina Solexa GA IIx和AB SOLID 4数据读取量大,能够得到较高的覆盖率,可以较好的降低成本。若是位置基因组序列的物种,则Roche GS FLX Titanium测序更有优势,其较长的读长便于拼接,获得更好的转录本数据。 转录组测序可以供研究者在转录本结构研究(基因边界鉴定、可变剪切研究等),转录本变异研究(如基因融合、编码区 SNP研究),非编码区域功能研究(Non-coding RNA研究、miRNA前体研究等),基因表达水平研究以及全新转录本发现等方面进行深入研究。 研究转录组的方法有哪些? 目前研究转录组的方法主要三种,基于杂交技术的cDNA芯片和寡聚核苷酸芯片,基于sanger测序法的SAGE (serial analysis of gene expression)、LongSAGE和MPSS(massively parallel signature sequencing),基于第二代测序技术的转录组测序,又称为RNA-Seq。 转录组测序比其他研究方法有哪些优势? (1)可以直接测定每个转录本片段序列、单核苷酸分辨率的准确度,同时不存在传统微阵列杂交的荧光模拟信号带来的交叉反应和背景噪音问题; (2)灵敏度高,可以检测细胞中少至几个拷贝的稀有转录本; (3)可以对任意物种进行全基因组分析,无需预先设计特异性探针,因此无需了解物种基因信息,能够直接对任何物种进行转录组分析,同时能够检测未知基因,发现新的转录本,并准确地识别可变剪切位点及cSNP,UTR区域。 (4)检测范围广,高于6个数量级的动态检测范围,能够同时鉴定和定量稀有转录本和正常转录本。 转录组测序有什么样的样品要求? (1)样品纯度要求: OD值应在1.8至2.2之间;电泳检测28S:18S至少大于1.8。 (2)样品浓度: total RNA浓度不低于400 ng/μg。

转录组RNAseq术语解释

RNA-Seq名词解释 1.index 测序的标签,用于测定混合样本,通过每个样本添加的不同标签进行数据区分,鉴别测序样品。 2.碱基质量值 (Quality Score或Q-score)是碱基识别(Base Calling)出错的概率的整数映射。碱基质量值越高 表明碱基识别越可靠,碱基测错的可能性越小。 3.Q30 碱基质量值为Q30代表碱基的精确度在99.9%。 4.FPKM(Fragments Per Kilobase of transcript per Million fragments mapped) 每1百万个map上的reads中map到外显子的每1K个碱基上的fragment个数。计算公式为 公式中,cDNA Fragments 表示比对到某一转录本上的片段数目,即双端Reads数目;Mapped Reads(Millions)表示Mapped Reads总数, 以10为单位;Transcript Length(kb):转录本长度,以kb个碱基为单位。 5.FC(Fold Change) 即差异表达倍数。 6.FDR(False Discovery Rate) 即错误发现率,定义为在多重假设检验过程中,错误拒绝(拒绝真的原(零)假设)的个数占所有被拒绝 的原假设个数的比例的期望值。通过控制FDR来决定P值的阈值。 7.P值(P-value) 即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P<0.05 为显著,P<0.01为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05或0.01。 8.可变剪接(Alternative splicing)

RNA-Seq项目常见问题与解答知识讲解

R N A-S e q项目常见问 题与解答

RNA-Seq项目常见问题与解答 这两年随着测序成本的下降和转录组研究的日渐火热,RNA-seq俨然已经成为了分子生物学课题组推进项目的首选方向。在我们接触的转录组项目中,有些老师对项目分析结果存在或多或少不清楚或有疑惑的地方。那么春天来了,花儿开了,今天福利也到了,我们特意将转录组项目中常见的一些问题进行了汇总,各位老师可以按需自取哈。 1.如何判定生物学重复一致性的高低?生物学重复统计方法及公式 答:(1)皮尔逊相关系数r可以作为生物学重复相关性的评估指标,理想的生物学重复试验r2≧0.92。考虑到个体差异、取材环境、时间以及人员操作熟练程度等因素对测序数据的影响,一般r2≧0.8为可接受范围。 (2)Pearson(皮尔逊)相关系数:皮尔逊相关也称为积差相关(或积矩相关)是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。 2.DEG基因用Transcripts还是Unigenes? 答:DEG基因用的是Unigene。 3.transcript-id代表什么意思?为什么有的基因有多个transcript-id?答:基因转录本id;因为可变剪切的缘故,一个基因可能有多个转录本。4.在miRNA鉴定中,可能成为miRNA的reads是怎样计算的?哪些条件会影响到mrd值?micro RNA在不同组织有异构体的存在,是如何处理的?

答:与 Rfam, miRbase, RepBase和 Exon\Intro 序列库进行比对,获得sRNA 注释信息,以此作为预测新的 miRNA 的基础。 miRNA的鉴定是利用miRDeep2软件进行已知及新(保守及非保守)的miRNA鉴定。miDeep2会在reads比对到基因组上的位置两端分别延伸75、 15bp进行结构预测,此软件认为极可能与可能是miRNA的根据是通过mrd值来区分的,mrd>-10为可能,mrd>0为极可能; 影响mrd值的有reads在基因组上的分布和碱基结合的自由能等;5.对于有生物学重复的项目,怎样计算差异基因? 答:两两比对使用的是R的EBseq包, 是基于负二项分布检验的方式对reads 数进行差异显著性检验,重复间的比对使用的是R的DEseq包,是基于分层贝叶斯模型的原理对组合内样品进行分析。 6.外显子,内含子及基因间区各自的比例如何评估建库情况? 答:理论上,来自成熟mRNA的reads应该比对到外显子区。但是,由于基因组注释水平、可变剪切导致的内含子序列保存,以及很多RNA(比如lncRNA)就来自基因间区和内含子,因此有比对到内含子和基因间区的reads。受物种等的影响外显子所占比例不同,一般情况下外显子区域所占比例超过70%即比较理想。 7.影响组装Contig结果的因素? 答:a.物种的特异性;b.测序质量;c.测序的数据量;d.SNP的杂合率;e.组装参数的选择。

诺禾致源有参转录组结题报告

NHXXXXXX_species转录组生物信息分析结题报告建库测序流程 Total RNA样品检测 文库构建 库检 上机测序 生物信息分析流程 结果展示及说明 原始序列数据 测序数据质量评估 参考序列比对分析 可变剪切分析 新转录本预测 SNP和InDel分析 基因表达水平分析 RNA-seq整体质量评估 基因差异表达分析 差异基因GO富集分析 差异基因KEGG富集分析 差异基因蛋白互作网络分析 参考文献 附录 文件目录列表 软件列表 Methods英文版 备注

一、建库测序流程 从RNA样品到最终数据获得,样品检测、建库、测序每一个环节都会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的结果。为了从源头上保证测序数据的准确性、可靠性,诺禾致源对样品检测、建库、测序每一个生产步骤都严格把控,从根本上确保了高质量数据的产出。流程图如下:

1 Total RNA样品检测 诺禾致源对RNA样品的检测主要包括4种方法: (1) 琼脂糖凝胶电泳分析RNA降解程度以及是否有污染 (2) Nanodrop检测RNA的纯度(OD260/280比值) (3) Qubit对RNA浓度进行精确定量 (4) Agilent 2100精确检测RNA的完整性 2 文库构建 样品检测合格后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则通过试剂盒去除rRNA来富集mRNA)。随后加入fragmentation buffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(random hexamers)合成一链cDNA,然后加入缓冲液、dNTPs和DNA polymerase I合成二链cDNA,随后利用AMPure XP beads纯化双链cDNA。纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPure XP beads进行片段大小选择,最后进行PCR富集得到最终的cDNA文库。构建原理图如下: 3 库检 文库构建完成后,先使用Qubit2.0进行初步定量,稀释文库至1ng/ul,随后使用Agilent 2100对文库的insert size进行检测,insert size符合预期后,使用Q-PCR方法对文库的有效浓度进行准确定量(文库有效浓度>2nM),以保证文库质量。 4 上机测序 库检合格后,把不同文库按照有效浓度及目标下机数据量的需求pooling后进行HiSeq/MiSeq测序。

全转录组测序

全转录组测序 全转录组是指某个物种或特定的细胞在某一功能状态下转录产生的所有RNA的总和,包括mRNA和非编码RNA(non-coding RNA)。针对非编码RNA的研究主要集中在具有调控作用small RNA(比如miRNA)、长非编码RNA(long non-coding RNA, lncRNA)和环状RNA(circle RNA, circRNA)。 全转录组测序研究,可同时分析同一样本中的多种RNA,是研究细胞表型和功能的重要手段,可深入挖掘生命现象背后的转录调控问题。lncRNA不编码蛋白,但可通过其保守的二级结构与蛋白、DNA和RNA 相互作用,参与调控多种生物学过程,如指导染色质修饰、调控转录、转录后调控等。使用rRNA去除的方法来富集lncRNA和mRNA,之后进行建库测序,可分析lncRNA和mRNA的表达情况,并发现大量新的lncRNA及预测其靶标。 技术参数 样品准备测序策略推荐数据周期 2ug RNA 2×106细胞量 300bp RNA文库 HiSeq PE150测序 一般测序数据量:10Gb clean data 超大测序数据量:20Gb clean data 60个工作日 建库方法技术流程

技术特征 (1)一个测序文库即可全面获得mRNA、lncRNA的信息 (2)可预测新的lncRNA及其靶标 (3)可变剪接、RNA编辑、SNP/InDel分析等多种个性化分析内容 (4)可结合miRNA-seq、mRNA-seq数据,构建lncRNA-mRNA共表达网络、lncRNA-miRNA- mRNA 共表达网络 部分结果展示 差异表达基因散点图共表达网络分析 lncRNA二级结构预测新lincRNA预测 案例解析 肝癌原癌基因MBNL3调控lncRNA-PXN差异可变剪接 已知基因MBNL3在肝癌组织中高表达,且MBNL3表达上调的肝癌病人预后不良。文章作者证实了MBNL3在肝癌发生中的核心地位,并对MBNL3调控肝癌发生的具体分子机制进行深入研究。 研究人员对稳定敲除MBNL3的SMMC-7721肝癌细胞系以及对照进行全转录组测序,找到了527个存

转录组测序相关问题

转录组测序相关问题 转录组是某个物种或者特定细胞类型产生的所有转录本的集合,转录组测序(RNA-seq) 是最近发展起来的利用深度测序技术进行转录分析的方法,可以对全转录组进行系统的研究。 转录组测序可以供研究者在转录本结构研究(基因边界鉴定、可变剪切研究等),转录本变异研究(如基因融合、编码区SNP研究),非编码区域功能研究(Non-coding RNA研究、miRNA前体研究等),基因表达水平研究以及全新转录本发现等方面进行深入研究。 1.mRNA的纯化分离方法? 答:进行mRNA研究中,首先需要对样本进行总RNA抽提,抽提得到的RNA除含有mRNA外,还含有rRNA和tRNA,为防止这两类RNA对转录组研究的影响,因此我们需要对mRNA进行分离纯化。真核细胞的mRNA分子最显著的结构特征是具有5’端帽子结构(m7G)和3’端的Poly(A)尾巴。绝大多数哺乳类动物细胞mRNA的3’端存在20-30个腺苷酸组成的Poly(A)尾,通常用Poly(A+)表示。这种结构为真核mRNA的提取,提供了极为方便的选择性标志,寡聚(dT)纤维素或寡聚(U)琼脂糖亲合层析分离纯化mRNA的理论基础就在于此。mRNA的分离方法较多,其中以寡聚(dT)-纤维素柱层析法最为有效,已成为常规方法。此法利用mRNA 3’末端含有Poly(A+)的特点,在RNA 流经寡聚(dT)纤维素柱时,在高盐缓冲液的作用下,mRNA被特异地结合在柱上,当逐渐降低盐的浓度时或在低盐溶液和蒸馏水的情况下,mRNA被洗脱,经过两次寡聚(dT)纤维柱后,即可得到较高纯度的mRNA。 2.使用Solexa进行转录组测序时,样本RNA如何进行片段化处理?cDNA 插入片段长度的选择? 答:Solexa转录组测序文库构建时采用专用的打断Buffer对RNA样本进行片段化处理,这种方法充分利用RNA对二价阳离子的敏感性,具有稳定性好的优点,通过这种方法打断能得到更加均匀的覆盖率。mRNA-seq可以既可以采用单端测序(single read)还可以采用双端测序(paired end),对于单端测序来说片段长度150-200bp是理想的长度范围,对于双端测序来说片段长度推荐300-500bp,由于两端加入了Solexa的锚定序列和引物序列,样品准备完成后所

转录组测序技术介绍

广州基迪奥生物科技有限公司 / 转录组是指某个物种或者特定细胞或组织在某一状态下所转录出来的所有转录本的集合。转录组为核酸研究提供了全新的角度,可用于预测基因结构、可变剪切和其他转录组修饰、并可定量测定每个转录本在生长过程中和不同条件下的表达水平的变化。通过新一代高通量测序,能够全面快速地获得某一物种特定组织或者器官在某一状态下的几乎所有转录本序列信息。 原核转录组与真核转录组的分析基本相似。但由于原核生物的mRNA 没有polyA 尾结构,因此原核生物的mRNA 富集直接采用去rRNA 的策略(真核生物采用的策略为直接富集polyA 尾的RNA )。 建库策略:300bp 插入片段文库 测序策略:125PE 测序 测序平台:Hiseq2500测序 样品质量检测→常规/链特异性转录组测序文库制备→上机测序→生物信息分析 原始序列数据 数据质控 De novo 拼接 (无参考) 比对参考基因组 (有参考) 基因差异表达分析 GO 功能显著性富集分析 Pathway 显著性富集分析 预测编码蛋白框(CDS) Unigene 功能注释 新基因预测 基因可变剪切鉴定 SNP 检测 基因融合鉴定

图2 比较转录组ka/ks分析 通过杨树两个近缘种单拷贝同源基因的ka(非同 义突变率)和ks(同义突变率)的比较。图中 Ka/ks>1(红色斜线上方)的基因属于快速进化的 基因,潜在与沙漠干旱环境适应性相关[1]。 图3 基因家族进化树以及蛋白结构域分析 某蛋白家族在拟南芥、玉米多个物种的序列进化关系。从左图进化树可以推断这个家族可以分为4 个亚家族。而从右图的蛋白结构域分析中,可以进一步发现不同蛋白亚家族由不同的结构域构成, 而这可能与亚家族功能的分化相关。 图1 Unigene与近缘物种同源序列比较 通过与近缘种同源序列比较,可以判断转录组Unigene组 装结果的整体完整性,直观反映组装质量。图中大部分 Unigene(蓝色以及蓝色以上点)对同源基因的覆盖度在 50%以上,说明组装结果具有较好的完整性。

相关文档
相关文档 最新文档