文档库 最新最全的文档下载
当前位置:文档库 › 白菜与芜菁亚种间杂交种及其亲本莲座期基因差异表达

白菜与芜菁亚种间杂交种及其亲本莲座期基因差异表达

白菜与芜菁亚种间杂交种及其亲本莲座期基因差异表达
白菜与芜菁亚种间杂交种及其亲本莲座期基因差异表达

白菜与芜菁亚种间杂交种及其亲本莲座期基因差异表达*

吴才君1,2曹家树1?何勇1董德坤1

(1浙江大学蔬菜研究所,杭州 310029;2江西农业大学农学院,南昌 330045)

摘要:以白菜‘矮脚黄’97-3-2自交系作为母本、‘白蔓菁’001-24自交系为父本及其杂交后获得F1

代为材料,利用cDNA-AFLP技术,分析杂种与亲本在莲座期叶片的基因差异表达类型与主要产量性状的杂

种优势关系。研究表明,基因的差异表达与杂种优势的形成有密切关系,其中双亲共沉默(ABF1)与叶片数

杂种优势呈显著正相关;杂种特异表达 (UNF1)和单亲表达沉默 (UNP)与单株重杂种优势呈显著正相关。

关键词:白菜;芜菁;杂种优势; cDNA-AFLP;基因差异表达类型

中图分类号:S634 文献标识码:A 文章编号:

白菜(Brassica campestris L. ssp. chinensis Makino)与芜菁(B. campestris L. ssp. rapifera (Matzg.) Sinsk)同属十字花科芸薹属芸薹种(B. campestris L. syn. B. rapa L.),其中白菜原产于我国,芜菁也是我国古老蔬菜之一,且大白菜(B. campestris L. ssp. pekinensis Olsson)起源于它们的杂种后代,是少见的杂种优势固定的物种之一[1]。而各自亚种内自交系间及亚种间均具有明显的杂种优势。杂种优势是一复杂的遗传现象,影响因素较多。围绕杂种优势形成的遗传学基础,国内外学者做了大量的理论探讨,相继提出了许多有关杂种优势的学说,例如显性假说、超显性假说、上位性作用[2]、基因组互补作用[3]、基因多态性、基因网络系统[4]、杂合酶协同效应[5]]等。

两个基因型不同的亲本杂交,F1代产生杂种优势,显然同亲本基因在杂种遗传背景下的表达调控有关。Romagnoli等[6]和 Tsaftsris等[7]从基因表达水平上进行研究发现,与亲本相比,杂交种的mRNA含量和种类均发生了变化。Xiong等 [8]以水稻为材料,对叶片的基因差异表达与杂种优势分析后认为:杂种优势与亲本基因在杂种中抑制表达有关。Sun等 [9]和倪中福等 [10]对种间和品种间小麦杂交种和亲本的分析认为,超亲表达基因可能在小麦杂种优势形成中起重要作用。吴利民等 [11]的研究认为小麦家族基因的双亲沉默表达与杂种优势呈显著负相关。吴敏生等 [12]利用*受高等学校博士学科点专项科研基金(20030335117)和浙江省重大科技项目(计划编号:021102536)资助

?通讯作者,Anthor for correspondence, E-mail: jshcao@https://www.wendangku.net/doc/6711932308.html,

cDNA-AFLP技术对玉米的2个杂交种及其自交系基因差异表达进行了比较,认为玉米杂种优势的大小可能与双亲基因间的抑制有关。但是,以上研究主要集中在粮食作物上。本研究以‘矮脚黄’白菜自交系(97-3-2)和‘白蔓菁’芜菁自交系(001-24)及其组配的杂交种为材料,运用cDNA-AFLP技术,研究莲座期亚种间杂交种与亲本叶片的基因差异表达类型与主要产量性状杂种优势的相关性,为探讨白菜、大白菜与芜菁等物种间杂种优势的形成机理提供依据。

1 材料与方法

1.1 供试材料

以‘矮脚黄’白菜自交系(97-3-2)作为母本、‘白蔓菁’芜菁自交系(001-24)为父本及其杂交后获得F1代为材料,2002年9月播于苗床,10月移栽于试验田,按照完全随机区组设计,3个重复,田间管理按常规进行。莲座期,取叶备用,并对取样调查的植株编号挂牌。

TRIzol?购自Life Technologies公司。Taq DNA聚合酶购自上海Promega公司。cDNA合成试剂盒SMART TM PCR cDNA Synthesis Kit购自Clontech公司。EDTA、DEPC、Acrylamide、Bis-adrylamide、尿素、过硫酸铵、TEMED等购自上海生工生物工程技术服务有限公司。cDNA-AFLP所用接头和引物由上海生工生物工程技术服务有限公司合成,其序列如下:TaqⅠ接头:5`-GACGATGAGTCCTGAC-3`;5`-CGGTCAGGACTCAT-3`;

TaqⅠ预扩增引物:5`-GACGATGAGTCCTGACCGA-3`;

TaqⅠ选择性扩增引物:5`-GATGAGTCCAGACCGANN-3`(N代表ATCG中任意一种,T4 ~ T19共16条引物);

AseⅠ接头:5`-GCGTAGACTGCGTACC-3`;5`-TAGGTACGCAGTC-3`;

AseⅠ预扩增引物:5`-CTCGTAGACTGCGTACCTAAT-3`;

AseⅠ选择性扩增引物:5`-GACTGCGTACCTAATNN-3`( A4 ~ A19共16条引物)。

1.2 总RNA的提取与cDNA的合成

分别取亲本和杂交种莲座期的叶片为材料,用TRIzol抽提总RNA,具体操作方法参照TRIzol?产品手册。cDNA第一链和第二链的合成参照SMART TM PCR cDNA Synthesis Kit User Manual 方法进行。

1.3 cDNA-AFLP方法

参照http://www.dpw.wau.nl/pv/index.htm 上的cDNA-AFLP Procotol进行。电泳采用6%的聚

丙烯酰胺凝胶电泳,1×TBE电泳缓冲液,1700V电压电泳至二甲苯青距下部边沿10cm处停止电泳并银染检测。

1.4 统计分析

在莲座期观测亲本和F1在田间生长的性状(随机测取50个单株):株高(植株基部与地面接触处至植株叶片最高处的自然高度)、株幅(植株外叶开展最宽处,包括纵横两个垂直方向)、叶幅(最大叶片的长与宽,长度量至叶翼基部)、叶数、单株重,并进行统计分析。杂种优势采用中亲优势,通过下列公式计算H=F1-(P1+P 2)/2(H表示杂种优势值,F1表示杂种所测的性状值,P1和P2表示所测的亲本性状值)。统计2次重复扩增中稳定存在的条带。扩增条带存在时记录为1,否则为0。根据同一cDNA片段在两个亲本和杂种F1中出现与否分成4种类型,将每种差异表达类型的数量作为变量,与产量性状的杂种表现(F1性状平均值)和杂种优势进行相关性分析,相关系数在Microsoft Excel软件中计算。

2 结果与分析

2.1 白菜与芜菁亚种间杂交亲本与杂种产量构成性状的杂种优势

白菜、芜菁莲座期的亲本与F1代,在株高、株幅、叶幅、叶数、单株重上存在较大的差异。在这些产量构成性状中,单株重显示出最高的杂种优势,株高、叶数、株幅、叶幅亦显示出较高的杂种优势(表1)。

表1白菜与芜菁亚种间杂交亲本与杂种产量构成性状的杂种优势

Table 1 Midparent heterosis of yield component traits in rosette leaves stages of Chinese cabbage-pak-choi, turnip and their hybrids

项目

Item

株高(cm)

Height of plant

株幅(cm×cm)

Breadth of plant

叶幅(cm×cm)

Breadth of leaf

叶数(片)

Leaf No.

单株重(kg)

Weight of plant

97-3-2 24 34×39

22×15 15 0.19 001-24 32 42×40

35×16 10 0.28 F1 41

46×52

47×17

17

0.42 杂种优势 Heterosis 13 8×12.5

18.5×1.5 4.5 0.185

百分率% Percent 46.4 36 78.7 2.2 白菜与芜菁亚种间杂交种和亲本间基因表达差异

利用256对引物组合对莲座期的白菜与芜菁亚种间杂交种及其亲本进行cDNA-AFLP分析,

共计扩增出14872条带,其中2次PCR扩增中稳定存在的带平均数为13215条,可重复率为88.86%。在这稳定存在的13215条带中有2460.6条表现出多态性,差异表达比例为18.62%。杂种和亲本间差异表达的条带可分为4种类型(图1):(1)杂种特异表达类型(UNF1),即该条带仅在杂种中出现,而在双亲中均不出现;(2)双亲共沉默类型(ABF1),即该条带在双亲都有,而杂种中没有;(3)单亲表达沉默类型(UNP),即该条带仅出现在亲本之一,而在另一亲本和杂种中没有出现;(4)单亲表达一致类型(DMP),即该条带在在双亲之一和杂种中出现,而在另一亲本不出现。不同的引物组合中各种差异条带所占比例不同,但趋势大致相同:均以DMP为最高,UNF1最少。UNF1平均为2.67%,ABF1为5.12%,UNP 为3.36%,DMP 为7.47%。

图1 白菜与芜菁杂交种与亲本间莲座期基因差异表达类型。1、2、3泳道分别代表F1、母本‘97-3-2白菜’、父本‘001-24白蔓菁’;A:杂种特异表达类型;B:双亲共沉默类型;C :单亲表达沉默类型(母本);D:单亲表达沉默类型(父本);E:单亲表达一致类型(偏母本和偏父本)。

Fig 1 Patterns of differential gene expression in rosette stages of Chinese cabbage-pak-choi, turnip and their hybrids. Lanes 1, 2, 3 indicate hybrid,female parent97-3-2, male parent 001-24; A: bands observed only in F1 not in parents; B: bands observed in both parents but not in F1; C: bands observed only in female parent but not in F1 and male parent; D: bands observed only in male parent but not in F1 and female parent; E: bands observed in female parent and F1 not in male parent, bands observed in male parent and F1 not in female parent.

2.3 白菜与芜菁亚种间杂交种莲座期基因差异表达类型与杂种优势的相关分析

白菜与芜菁亚种间杂交种及其亲本的4种基因差异表达类型与杂种优势的相关的cDNA-AFLP分析结果表明,基因差异表达类型与某些性状的杂种优势表现出显著相关。其中双亲共沉默(ABF1)与叶片数杂种优势呈显著正相关;杂种特异表达(UNF1)和单亲表达沉默(UNP)与单株重杂种优势呈显著正相关(表2)。

表2 白菜与芜菁亚种间杂交种及其亲本的4种基因差异表达类型与3个产量构成性状杂种优势表现相关分析Table 2 Correlations of various patterns of differential expression in rosette stages with heterosis of 3 yield component traits in rosette stages of Chinese cabbage-pak-choi, turnip and their hybrids

基因差异表达类型patterns of differential expression

株高(cm)

Height of plant

叶数(片)

Leaf No.

单株重(kg)

Weight of plant

UNF1 -0.188

0.156

0.472*

ABF1 -0.025

0.509*

0.044

UNP -0.085

-0.088

0.510*

DMP -0.110

-0.273

-0.133 注:*为0.05水平相关显著;**为0.01水平相关显著。Note: * and ** represent significant at 0.05 and 0.01 respectively

3 讨论

3.1杂种优势的复杂性

杂种优势的产生是一个很复杂的过程,它涉及到两个遗传背景不同的体系的相互作用。在相

互作用过程中,双亲间基因的相互促进和抑制决定了杂交种基因表达。杂交种相对于亲本而言,

基因表达不仅存在质的差异,还存在量的差异。正是这两方面基因表达的变化,导致表型的变化。

通过比较本研究中基因差异表达类型所占比例与Xiong等 [8]对水稻、田曾元等 [13]对玉米、王章

奎等 [14]对小麦的分析结果,可以看到,尽管在不同作物、不同生育期、不同器官中不同差异表达

类型所占的比例不同,但至少表明,杂交种的遗传表现不是亲本遗传物质的简单相加,而是两套

基因在杂种中相互作用,引起基因表达质和量两方面的变化,进而表现出杂种优势。所以有理由

推测基因表达的调控机制与杂种优势的形成更值得关注。

3.2 上位效应与芸薹种作物杂种优势的关系

在本研究中,基因差异表达类型与产量构成性状杂种优势的相关系数有3个达到显著水平,

即双亲共沉默(ABF1)与1个性状、杂种特异表达(UNF1)和单亲表达沉默(UNP)同与1个

性状的杂种优势呈显著正相关。吴敏生等 [12]认为玉米杂种优势的大小可能与双亲基因间的抑制

有关。王章奎等 [14]发现杂种特异表达与杂种优势呈显著正相关,并认为杂交种在杂合状态下能激

发某种机制,表达一些新的基因产物。田曾元等 [13]对玉米研究发现单亲表达沉默与杂种优势关系

最密切,田增元认为对于单亲表达的基因来说,该基因在杂交种中被抑制有利于杂种优势的形成。

但笔者通过本研究的杂种优势与双亲共沉默、杂种特异表达、单亲表达沉默有关认为:这3种基

因差异表达类型都与基因相互作用有关,诸如产量、生活力之类的性状均是一系列生长、发育过程的最终产物,是许多基因共同作用的结果,这些性状与基因之间的关系有如Wright[15]所描述的“网状”结构,因此,上位性应是杂种优势的主要遗传学组分。另外,杂种特异表达与超显性关系密切,即杂交种在杂合状态下能激发某种机制,调控参与代谢基因的各种生理生化反应,表现出杂种优势。从以上研究结果看,杂种优势的形成可能是显性效应、超显性效应和上位效应共同作用的结果,不可能只有一种基因效应在起作用。芜菁与白菜同属一种,而且是大白菜的祖先,大白菜在产量和品质上比芜菁与白菜更具优势。芜菁与白菜最早可能有共同的遗传物质基础,随后适应各自不同环境条件而形成各自地理型(亚种),有了各自的适应基础,由生活标志(环境影

响)差异产生了亲缘标志(RNA)差异,从而适应各自的环境。在良好的(正向)环境条件下,同样得到充分的表达,便有杂种优势[1]。大白菜的杂交起源是后代杂种优势在一定条件下(农业生产水平提高)保持的表现,上位效应能说明后代杂种优势的保持问题。因此,上位性效应是白菜杂种优势的重要遗传基础之一。

本研究结果表明,cDNA-AFLP技术是研究基因表达一种较好的方法,cDNA-AFLP由于使用严格的PCR条件和加接头,具有较高的重复性(本研究达88.86%)。杂种优势的形成是一个多方面动态积累的过程,涉及到一系列生理代谢有关方面基因的表达调控。基因表达具有时序表达的特征,同时也受外界环境条件(如光、温、水等)的影响。本研究仅涉及到白菜莲座期叶的基因差异表达与产量性状杂种优势的关系,故得出的结论具有一定的局限性。

参考文献:

1 曹家树. 中国白菜的起源、演化和分类研究进展.北京:科学出版社,园艺学年评,1996,2:145~159

2 Zhang QF, Zhou GP, Yang CG. Molecular marker heterozygosity and hybrid performance in Indica and

Japonica rice.Theor Appl Genet., 1996, 93: 1218~12243

3 Srivastava HK. Heterosis and intergenomic complementation mitochondria,chloroplast and nucleus.In:Frankel

R(ed.),Heterosis,reappraisal of theory and practice.Springer Berlin Heidelberg,New York,1983:260~286

4 鲍文奎. 机会与风险——40余年育种研究的思考.植物杂志,1990,(4):4~5

5谭远德. 杂种优势的一种可能机理—杂合酶的协同效应.南京师范大学报(自然科学版),1998,21(3):80~87 6 Romagnoli S, Maddaloni M, Livini C. Relationship between gene expression and hybrid vigor in primary root

tips of young maize (Zea mays L.) plantets. Theor Appl Genet.,1990,80:769~779

7 Tsaftaris A S,Polidoros AN. Studying the expression of genes in maize parental inbreds and their heterotic and

Ⅱ:283~292 nonheterotic hybrids.In Proc X Eucarpia maize and sorghum conference. Bergamo. Italy. 1993

8 Xiong L Z,Yang G P,Xu C G.Relationships of differential gene expression in leaves wjth heterosis and

heterozygosjty in a rice diallel cross.Mo1ecular Breeding,1998, 4: 129~136

9 Sun Qinxin, Ni Zhongfu, Liu Zhiyong. Differential gene expresssion between wheat hybrids and their parental

inbreds in seedling 1eaves.Euphytica,1999,106: 11~17, 123

10 倪中福,孙其信,吴利民. 普通小麦不同优势杂交种及其亲本之间基因表达差异比较研究.中国农业大

学学报,2000,5(1): 1~8

11 吴利民,倪中福,孙其信. 小麦杂种及其亲本苗期叶片家族基因差异表达及其与杂种优势关系的初步研

究.遗传学报,2001,28(3):256~266

12 吴敏生,高志环,戴景瑞. 利用cDNA-AFLP技术研究玉米基因的差异表达.作物学报,2001,27(3):

339~342

13 田曾元,戴景瑞. 利用cDNA-AFLP技术分析玉米灌浆期功能叶基因差异表达与杂种优势.科学通报,

2002’, 47(18): 1412~1416

14 王章奎,倪中福,孟凡荣,吴利民,谢晓东,孙其信. 小麦杂交种及其亲本拔节期根系基因差异表达与

杂种优势关系的初步研究.中国农业科学,2003,36(5): 473~479

15 Wright S.Evolution and Genetics of Population.Chicago:Univ Chicago Press,Vol.1, 1968

The Relationship between Differential Gene Expression Patterns in Rosette Stages and Heterosis in Chinese cabbage-pak-choi, Turnip and Their Hybrids

Wu Caijun1,2 , Cao Jiashu1 , He Yong1 , Dong Dekun1

(1Institute of Vegetable Science, Zhejiang University, Hangzhou 310029, China; 2College of Agronomy, Jiangxi Agriculture University, Nanchang 330045, China)

Abstract: With the inbred line Aijiaohuang 97-3-2 of Chinese cabbage-pak-choi(Brassica campestris L. ssp. chinensis Makino cv. Aijiaohuang) the inbred line Baimanjing 001-24 of turnip(B. campestris L. ssp. rapifera (Matzg.) Sinsk cv. Baimanjing) and their hybrids as experimental material, the relationship between differential gene expression patterns at rosette stages and heterosis of yield component traits in the hybrid and their parents were analyzed by using cDNA-AFLP. Four types

of differential gene expression patterns were detected between hybrid and their parents: bands observed only in F1 not in parents(UNF1); bands observed in both parents but not in F1(ABF1); bands observed only in one parent but not in F1 and another parent(UNP); bands observed in one parent and F1 not in another parent(DMP). Analysis showed that ABF1 was significantly correlated with heterosis in leaf No., UNF1 and UNP were significantly correlated with heterosis in weight of plant.These results indicated that differential expressed genes might play an important role in heterosis. Key words: Chinese cabbage-pakchoi; Turnip; Brassica campestris L. syn. Brassica rapa L.; Heterosis; cDNA-AFLP; Differential gene expression patterns

基因表达的分析技术

第二篇细胞的遗传物质 第三章基因表达的分析技术 生物性状的表现均是通过基因表达调控实现的。对基因结构与基因表达调控进行研究,是揭示生命本质的必经之路。在基因组研究的过程中,逐步建立起一系列行之有效的技术。针对不同的研究内容,可建立不同的研究路线。 第一节PCR技术 聚合酶链反应(polymerase chain reaction,PCR)技术是一种体外核酸扩增技术,具有特异、敏感、产率高、快速、简便等突出优点。。PCR技术日斟完善,成为分子生物学和分子遗传学研究的最重要的技术。应用PCR技术可以使特定的基因或DNA片段在很短的时间内体外扩增数十万至百万倍。扩增的片段可以直接通过电泳观察,并作进一步的分析。 一、实验原理 PCR是根据DNA变性复性的原理,通过特异性引物,完成特异片段扩增。第一,按照欲检测的DNA的5'和3'端的碱基顺序各合成一段长约18~24个碱基的寡核苷酸序列作为引物(primer)。引物设计需要根据以下原则:①引物的长度保持在18~24bp之间,引物过短将影响产物的特异性,而引物过长将影响产物的合成效率;②GC含量应保持在45~60%之间;③5'和3'端的引物间不能形成互补。第二,将待检测的DNA变性后,加入四种单核苷酸(dNTP)、引物和耐热DNA聚合酶以及缓冲液。通过95℃变性,在进入较低的温度使引物与待扩增的DNA链复性结合,然后在聚合酶的作用下,体系中的脱氧核苷酸与模板DNA链互补配对,不断延伸合成新互补链,最终使一条DNA双链合成为两条双链。通过变性(92~95℃)→复性(40~60℃)→引物延伸(65~72℃)的顺序循环20至40个周期,就可以得到大量的DNA片段。理论上循环20周期可使DNA扩增100余万倍。

全基因组表达谱分析方法(DGE)

全基因组表达谱分析方法(DGE)----基于新一代测序技术的 技术路线 该方法首先从每个mRNA的3’端酶切得到一段21bp的TAG片段(特异性标记该基因);然后通过高通量测序,得到大量的TAG序列,不同的TAG序列的数量就代表了相应基因的表达量;通过生物信息学分析得到TAG代表的基因、基因表达水平、以及样品间基因表达差异等信息。技术路线如下: 1、样品准备: a) 提供浓度≥300ng/ul、总量≥6ug、OD260/280为1.8~2.2的总RNA样品; 2、样品制备(见图1-1): a) 类似SAGE技术,通过特异性酶切的方法从每个mRNA的3’末端得到一段21bp 的特异性片段,用来标记该基因,称为TAG; b) 在TAG片段两端连接上用于测序的接头引物; 3、上机测序: a) 通过高通量测序每个样品可以得到至少250万条TAG序列; 4、基本信息分析: a) 对原始数据进行基本处理,得到高质量的TAG序列; b) 通过统计每个TAG序列的数量,得到该TAG标记的基因的表达量; c) 对TAG进行注释,建立TAG和基因的对应关系; d) 基因在正义链和反义链上表达量间的关系; e) 其它统计分析; 5、高级信息分析: a) 基因在样品间差异表达分析; b) 库容量饱和度分析;

c) 其它分析; 测序优势 利用高通量测序进行表达谱研究的优势很明显,具体如下: 1.数字化信号:直接测定每个基因的特异性表达标签序列,通过计数表达标签序列的数目来确定该基因的表达量,大大提高了定量分析的准确度。整体表达差异分布符合正态分布,不会因为不同批次实验引起不必要的误差。 2.可重复性高:不同批次的表达谱度量准确,能够更准确的进行表达差异分析。 3.高灵敏度:对于表达差异不大的基因能够灵敏的检测其表达差异;能够检测出低丰度的表达基因。 4.全基因组分析,高性价比:由于该技术不用事先设计探针,而是直接测序的方式,因此无需了解物种基因信息,可以直接对任何物种进行包括未知基因在内的全基因组表达谱分析,因此性价比很高。 5.高通量测序:已有数据表明,当测序通量达到200万个表达标签时,即可得到样本中接近全部表达基因的表达量数据,而目前每个样本分析可以得到300 万~600万个表达标签。

基因表达谱测序

基因表达谱测序 背景介绍 基因表达谱分析利用HiSeq 2000高通量测序平台对mRNA进行测序,获得10M读长为49nt的原始reads,每一个reads可以对应到相应的转录本,从而研究基因的表达差异情况。与转录组测序相比,基因表达谱分析要求的读长更短,测序通量更小,仅可用于基因表达差异的研究。该方法具有定量准、可重复性高、检测阈值宽、成本低等特点,能很好的替代以往的数字化表达谱分析。 技术路线

生物信息学分析 送样要求 样品要求 1. 所需Total RNA 的量均不少于 20μg/文库,Total RNA 可以保存在DEPC 处理过的水中、75%的乙醇、异丙醇中,具体以什么方式保存请注明。 2. 如提供实验材料为动物组织材料,样品质量需大于2g ; 3. 如提供实验材料为植物样品,样品质量需大于4g ; 4. 如提供实验材料为培养细胞,请提供1×107培养好的细胞; 5. 如提供实验材料为血液样品,请提供≥2ml 的样品。 我们强烈建议在送样的同时客户做好备份,以备后续实验之用。 样品纯度要求 1. OD 260/OD 280在1.8- 2.0之间,RNA 无降解、28S 和18S 核糖体RNA 条带非常亮且清晰(其

大小决定于用于抽提RNA的物种类型),28S的密度大约是18S的2倍;Agilent 2100检测仪分析RNA完整性数据RIN≥8。 2. 无蛋白质、基因组DNA污染,如有污染请去蛋白并进行DNase I处理。 请提供至少一种样品的凝胶电泳或者Agilent 2100检测仪检测图片,并注明其浓度、体积、OD260/OD280、溶剂名称、制备时间、物种来源以及特别备注。最终以我方定量、质检为准。 样品采集 为了保证提取RNA的完整性,确保后续实验的顺利进行,请务必确保样品的新鲜,对于如何确保样品的新鲜针对不同的样品获取材料的方法如下: 1. 动物组织:从活体上迅速的取下组织(切成黄豆粒大小的块状),每切成一个黄豆粒大小的块状立即放入液氮中,重复上述操作,直至足够提取总RNA的量;准备一个50ml的离心管,做相应的标记(样品名称、编号、客户姓名、时间),最好既在管盖上做好标记,也在管壁上做好相应的标记,先放入液氮中预冷2-3min,拿出离心管(离心管的下部分还是保持在液氮中),打开离心管的盖子,将液氮中黄豆粒大小的块状收集进离心管中。 2. 植物组织: (1)如所采集的是果实、麦穗等体积偏大的样品,收集样品请参照1.动物组织取样方法;(2)如采集的是叶片等体积偏小的样品,请尽量采集嫩叶、幼芽等,每采集一片叶片立即放入液氮中,直至足够提取总RNA的量,后续操作请参照动物组织的采集。 (3)如是植物的花,在采集花骨朵的时候请尽量不要采集到花萼、叶片等,每采集一个花骨朵请立即放入液氮中,直至足够提取总RNA的量;后续操作请参照动物组织的采集。3. 如提供实验材料为菌丝体,请取500μl的菌液于1.5ml离心管中,离心去上清,剩余菌丝体放入液氮或干冰中,请提供不少于5管的菌丝体。 样品运输 从液氮中取出准备好的样品,请立即放入干冰中,并用干冰掩埋好样品。请填写完整订单,放入自封袋中与样品一起邮寄。为防止RNA的降解,请确保干冰的量足够运送到目的地。我们强烈建议在寄送RNA样品时将RNA保存在75%的乙醇或异丙醇中。 如是特殊样品,关于送样量和保存问题请与我们联系沟通,以便双方共同协商解决。 提供结果 根据客户需求,提供不同深度的信息分析结果。

基因表达谱芯片的数据分析

基因表达谱芯片的数据分析(2012-03-13 15:25:58)转载▼ 标签:杂谈分类:生物信息 摘要 基因芯片数据分析的目的就是从看似杂乱无序的数据中找出它固有的规律, 本文根据数据分析的目的, 从差异基因表达分析、聚类分析、判别分析以及其它分析等角度对芯片数据分析进行综述, 并对每一种方法的优缺点进行评述, 为正确选用基因芯片数据分析方法提供参考. 关键词: 基因芯片; 数据分析; 差异基因表达; 聚类分析; 判别分析 吴斌, 沈自尹. 基因表达谱芯片的数据分析. 世界华人消化杂志2006;14(1):68-74 https://www.wendangku.net/doc/6711932308.html,/1009-3079/14/68.asp 0 引言 基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析, 通过有效数据的筛选和相关基因表达谱的聚类, 最终整合杂交点的生物学信息, 发现基因的表达谱与功能可能存在的联系. 然而每次实验都产生海量数据, 如何解读芯片上成千上万个基因点的杂交信息, 将无机的信息数据与有机的生命活动联系起来, 阐释生命特征和规律以及基因的功能, 是生物信息学研究的重要课题[1]. 基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析, 假如分类还没有形成, 非监督分析和聚类方法是恰当的分析方法; 假如分类已经存在, 则监督分析和判别方法就比非监督分析和聚类方法更有效率。根据研究目的的不同[2,3], 我们对基因芯片数据分析方法分类如下: (1)差异基因表达分析: 基因芯片可用于监测基因在不同组织样品中的表达差异, 例如在正常细胞和肿瘤细胞中; (2)聚类分析: 分析基因或样本之间的相互关系, 使用的统计方法主要是聚类分析; (3)判别分析: 以某些在不同样品中表达差异显著的基因作为模版, 通过判别分析就可建立有效的疾病诊断方法. 1 差异基因表达分析(difference expression, DE) 对于使用参照实验设计进行的重复实验, 可以对2样本的基因表达数据进行差异基因表达分

基因差异表达的研究方法

基因差异表达的研究方法 摘要寻找差异表达基因成为目前基因研究的一个非常重要的手段。寻找差异表达基因的方法有消减杂交法、mRNA 差异显示、代表性差异分析法、基因表达的序列分析、抑制消减杂交、表达序列标签、cDNA微阵列、半定量PCR、定量PCR。特综述以上各种方法的原理、方法过程、优缺点及其应用,随着科学技术的发展对差异表达基因的研究会更加完善。 关键词基因;差异表达;消减杂交;差异显示;研究方法 在真核生物的生命现象中,从个体的发育、生长、衰老、死亡,到组织、细胞的分化、凋亡或肿瘤的恶化以及细胞对各种生物、理化因子的应答,本质上都涉及基因在时间上或空间上的选择性表达,即基因的差异表达。基因的差异表达与组织、细胞的生物学性状和功能密切相关,成为生命科学的重要研究课题(潘美辉等,1997)。比较不同细胞或不同基因型在基因表达上的差异,不仅是研究生命过程分子机制的基础,亦是分离克隆目的基因的前提(胡昌华,2001)。寻找差异表达基因成为目前基因研究的一个非常重要的内容。差异表达的基因通常用稳定状态下mRNA的丰度高低有无来比较。差异表达基因有2个含义,即表达基因的种类改变和基因表达量的变化。通过它能找到疾病不同阶段、不同状态下表达不同丰度的基因,从而为进一步研究打下基础。分离和鉴定差异表达基因是了解各项生命活动和疾病分子调控机制的重要手段(梁自文,2001)。笔者拟对目前现有的寻找差异基因的方法作一综述。 1消减杂交法(subtractive hybridization) 消减杂交在1984年由Palmer和Lamer(Lamar EE et at.,1984)提出,其目的是分离出两类同源分子间差异表达的基因,关键是利用分子杂交原理去除共同序列,保留差异序列,通过PCR多次循环扩增而分离,从而能进一步研究其差异表达基因。 具体做法:首先以oligo-dT为引物,从tester中制备放射性标记的单链cDNA 文库。然后将这些cDNA探针与过量的来自driver的mRNA(其poly-A尾已与生物素耦联)杂交,大部分单链cDNA探针和driver中的mRNA形成异源双链,并通过羟基磷灰石柱层除去cDNA×mRNA杂交体,以此富增tester中特异的cDNA。消减杂交法的最大优点是它适用于未被克隆的基因组片段;其次它特别适于寻找那些由于缺失造成突变的基因。但这一方法需要大量的driver mRNA才能使消减杂交充分进行,所回收的cDNA量也很低,而且操作步骤复杂、耗资

第24章 基因表达谱分析的生物信息学方法思考与练习参考答案

第24章 基因表达谱分析的生物信息学方法 思考与练习参考答案 1.据教材表24–3提供的数据信息可以构建一棵决策树,请利用最大信息增益方法写出如何选出根结点中用于分割的特征。 教材表24-3 天气情况与是否去打球的关系数据集 注:该信息表示根据天气情况决定是否出去打球,数据集共包含14个样本,两个类别信息(Yes 、No ),每个样本包含3 个特征信息(Outlook 、Temp 、Windy )。 解:计算用每一个特征进行分割时所获取的信息增益,取信息增益最大的那个特征作为分割特征,以Outlook 特征为例计算(参照练习图24-1) 练习图24-1 同Outlook 特征进行分割所获得的信息增益 )14 9 log 149145 log 145()(220+-=S H

)5 2 log 5253 log 53()(2211+-=S H 0)4 4 log 44()(212=-=S H )52 log 5253 log 53()(2213+-=S H )(14 5 )(144)(145)(1312111S H S H S H S H ++= infor-gain (Outlook )=)()(10S H S H - 同理,计算其他两个特征的信息增益,最后从三个值中选取最大的一个对应的特征作为根结点的分割特征。 2.请从https://www.wendangku.net/doc/6711932308.html,/上下载一原始未经标准化的表达谱数据,并对该数据进行如下分析: (1)对数据进行标准化处理。 (2)对数据进行分类分析。 (3)分别对基因和样本进行聚类分析。 (4)选择特征基因。 (答案略)

寻找差异表达的基因

基因表达谱数据 基因表达谱可以用一个矩阵来表示,每一行代表一个基因,每一列代表一个样本(如图1)。所有基因的表达谱数据在“gene_exp.txt ”文件中存储,第一列为基因的entrez geneid ,第2~61列是疾病样本的表达,第62~76列是正常样本的表达。 图1 基因表达谱的矩阵表示 寻找差异表达的基因: 原理介绍: 差异表达分析是目前比较常用的识别疾病相关miRNA 以及基因的方法,目前也有很多差异表达分析的方法,但比较简单也比较常用的是Fold change 方法。它的优点是计算简单直观,缺点是没有考虑到差异表达的统计显著性;通常以2倍差异为阈值,判断基因是否差异表达。Fold change 的计算公式如下: normal Disease x x c Fold = _ 即用疾病样本的表达均值除以正常样本的表达均值。 差异表达分析的目的:识别两个条件下表达差异显著的基因,即一个基因在两个条件中的表达水平,在排除各种偏差后,其差异具有统计学意义。我们利用一种比较常见的T 检验(T-test )方法来寻找差异表达的miRNA 。T 检验的主要原理为:对每一个miRNA 计算一个T 统计量来衡量疾病与正常情况下miRNA 表达的差异,然后根据t 分布计算显著性p 值来衡量这种差异的显著性,T 统计量计算公式如下: n s n s x x t normal Disease normal Disease miRNA //22+-= 对于得到的显著性p 值,我们需要进行多重检验校正(FDR ),比较常用的是BH 方法(Benjamini and Hochberg, 1995)。

基因表达谱芯片数据分析及其Bioconductor实现

基因表达谱芯片数据分析及其Bioconductor实现 1.表达谱芯片及其应用 表达谱DNA芯片(DNA microarrays for gene expression profiles)是指将大量DNA片段或寡核昔酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片,待测样品中的mRNA被提取后,通过逆转录获得cDNA,并在此过程中标记荧光,然后与包含上千个基因的DNA芯片进行杂交反应30min~20h后,将芯片上未发生结合反应的片段洗去,再对玻片进行激光共聚焦扫描,测定芯片上个点的荧光强度,从而推算出待测样品中各种基因的表达水平。用于硏究基因表达的芯片可以有两种:①cDNA芯片;② 寡核昔酸芯片。 cDNA芯片技术及载有较长片段的寡核昔酸芯片采用双色荧光系统:U前常用Cy3—dUTP (绿色)标记对照组mRNA, Cy5—dUTP (红色)标记样品组mRNAUl。用不同波长的荧光扫描芯片,将扫描所得每一点荧光信号值自动输入计?算机并进行信息处理,给出每个点在不同波长下的荧光强度值及其比值(ratio值),同时计算机还给出直观的显色图。在样品中呈高表达的基因其杂交点呈红色,相反,在对照组中高表达的基因其杂交点呈绿色,在两组中表达水平相当的显黄色,这些信号就代表了样品中基因的转录表达情况⑵。 基因芯片因具有高效率,高通量、高精度以及能平行对照研究等特点,被迅速应用于动、植物和人类基因的研究领域,如病原微生物毒力相关基因的。基因表达谱可直接检测mRNA的种类及丰度,可以同时分析上万个基因的表达变化,来揭示基因之间表达变化的相互关系。表达谱芯片可用于研究:①同一个体在同一时间里,不同基因的表达差异。芯片上固定的已知序列的cDNA或寡聚核昔酸最多可以达到30 000多个序列,与人类全基因组基因数相当,所以基因芯片一次反应儿乎就能够分析整个人的基因⑶。②同一个体在不同时间里,相同基因的表达差异。 ③不同个体的相同基因表达上的差异。利用基因芯片可以分析多个样本,同时筛选不同样本(如肿瘤组织、癌前病变和正常组织)之间差异表达的基因,这样可以避免了芯片间的变异造成的误差⑷。张辛燕⑸ 等将512个人癌基因和抑癌基因的cDNA用点样仪点在特制玻片上制成表达谱芯片,对正常人卵巢组织及卵巢癌组织基因表达的差异性进行比较研究,结果发现在卵巢癌组织中下调的基因有23个,上调的基因有15个,初步筛选出了卵巢癌相关基因。Lowe⑹等利用胰腺癌、问充质细胞癌等组织的cDNA制备基因芯片,筛选到胰腺癌细胞中高表达的基因,为医疗诊断、病理研究及新药设计 奠定基础。 2.表达谱芯片的数据处理技术

基因表达分析

基因表达分析 1、EST(Expressed Sequence Tag)表达序列标签(EST)分析 1、EST基本介绍 1、定义: EST是从已建好的cDNA库中随机取出一个克隆,进行5’端或3’端进行一轮单向自动测序,获得短的cDNA部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20到7000bp不等,平均长度为400bp。 EST来源于一定环境下一个组织总mRNA所构建的cDNA文库,因此,EST也能说明该组织中各基因的表达水平。 2、技术路线: 首先从样品组织中提取mRNA,在逆转录酶的作用下用oligo(dT)作为引物进行RT-PCR 合成cDNA,再选择合适的载体构建cDNA文库,对各菌株加以整理,将每一个菌株的插入片段根据载体多克隆位点设计引物进行两端一次性自动化测序,这就是EST序列的产生过程。

3、EST数据的优点和缺点: (1)相对于大规模基因组测序而言,EST测序更加快速和廉价。 (2)EST数据单向测序,质量比较低,经常出现相位的偏差。 (3)EST只是基因的一部分,而且序列里有载体序列。 (4)EST数据具有冗余性。 (5)EST数据具有组织和不同时期特异性。 4、EST数据的应用 EST作为表达基因所在区域的分子标签因编码DNA序列高度保守而具有自身的特殊性质,与来自非表达序列的标记(如AFLP、RAPD、SSR等)相比,更可能穿越家系与种的限制。因此,EST标记在亲缘关系较远的物种间比较基因组连锁图和比较质量性状信息是特别有用的。同样,对于一个DNA序列缺乏的目标物种,来源于其他物种的EST也能用于该物种有益基因的遗传作图,加速物种间相关信息的迅速转化。具体说,EST的作用表现在:

基因差异表达技术

基因差异表达技术 真核生物中,从个体的生长、发育、衰老、死亡,到组织的得化、调亡以及细胞对各种生物、理化因子的应答,本质上都涉及基因的选择性表达。高等生物大约有30000个不同的基因,但在生物体内任意8细胞中只有10%的基因的以表达,而这些基因的表达按特定的时间和空间顺序有序地进行着,这种表达的方式即为基因的差异表达。其包括新出现的基因的表达与表达量有差异的基因的表达。生物体表现出的各种特性,主要是由于基因的差异表达引起的。 由于基因的差异表达的变化是调控细胞生命活动过程的核心机制,通过比较同一类细胞在不同生理条件下或在不同生长发育阶段的基因表达差异,可为分析生命活动过程提供重要信息。研究基因差异表达的主要技术有差别杂交(differential hybridization)、扣除(消减)杂交(subtractive hybridization of cDNA,SHD)、mRNA差异显示(mRNA differential display,DD)、抑制消减杂交法(suppression subtractive hybridization,SSH)、代表性差异分析(represential display analysis,RDA)、交互扣除RNA差别显示技术(reciprocal subtraction differential RNA display)、基因表达系列分析(serial analysis of gene expression,SAGE)、电子消减(electronic subtraction)和DNA微列阵分析(DNA microarray)等。 一、差别杂交与扣除杂交 差别杂交(differential hybridization)又叫差别筛选(differential screening),适用于分离经特殊处理而被诱发表达的mRNA的cDNA克隆。为了增加这种方法的有效性,后来又发展出了扣除杂交(subtractive hybridization)或扣除cDNA克隆(subtractive cDNA cloning),它是通过构建扣除文库(subtractive library)得以实现的。 (一)差别杂交 从本质上讲,差别杂交也是属于核酸杂交的范畴。它特别适用于分离在特定组织中表达

基因表达谱聚类

基因表达谱聚类分析 [ 文章来源:| 文章作者:| 发布时间:2006-12-21| 字体:[大中小] 学习过程可以采用从全局到局部的策略。采取这种策略时,学习初期可设定较大的交互作用半径R ,随着学习过程的不断推进,逐步减小R ,直至不考虑对邻近单元的影响。邻域的形状可以是正方形或者圆形。 KFM 的聚类结果与K 均值相似,它的优点是自动提取样本数据中的信息,同时也是一种全局的决策方法,能避免陷入局部最小,缺点在于必须实现人为设定类的数目与学习参数,而且学习时间较长。KFM 方法克服了K- 均值聚类的一些缺点:它应用类间的全局关系,能提供大数据集内相似性关系的综合看法,便于研究数据变量值的分布及发现类结构。而且,它具有更稳健更准确的特点,对噪声稳定,一般不依赖于数据分布的形状。 8.4.2.5 其它聚类方法 聚类方法是数据挖掘中的基本方法,数据挖掘的方法很多,在基因表达谱的分析中,除了以上常用方法外,还有一些其它的方法。由于对聚类结果尚没有一种有效的方法进行评价,尤其是对聚类结果的进一步生物学知识发现尚没有新的分析思路和成功应用,因此,科学家们在不断地研究一些新方法。这些方法有不同的原理,能够提取不同数据特征,有可能对具体的数据得到更有意义的结果,发现更多的生物学知识。这里,简单介绍这些方法的原理,更详细的介绍请参看相关文献。 (1)模糊聚类分析方法:这是一种模拟人类的思维方法,通过隶属度函数来反映某一对象属于某一类的程度。基本思路是计算两两基因表达谱之间的相似性程度,构建模糊相似矩阵,利用模糊数学中的传递闭包计算方法得到模糊等价矩阵,选择不同的置信水平从模糊等价矩阵中构建动态聚类图。对于特定的置信水平,可以实现对基因表达谱的分类。该方法的优点是利用了模糊数学中的隶属度概念,能够更好的反映基因表达谱之间的相互关系,而且它是一种全局的优化方法,与向量的顺序无关。 (2)模糊C均值算法:该方法同样将模糊数学中的隶属度概念引入到常用的K 均值聚类方法中。对于K 均值算法,一个基因表达谱所属的类只有一个,因此,它与各类别的关系要么是 1 ,要么是0 ,即属于或不属于某一类。而对于模糊 C 均值法,一个基因表达谱是否属于某一类,是以隶属度来确定第i 个样本属于第j 类的可能性。最终的聚类结果取决于分析的目的,可以根据最大隶属度来确定基因表达谱的分类,即一个基因表达谱只属于一类;但往往是确定隶属度的阈值,只要大于该阈值,就可以将基因表达谱划分为该类,这样的划分结果是一个基因表达谱可以属于多个类,这也是可以被生物学家接受的。模糊 C 均值法与K 均值法的实现过程基本相同,所不同的是对于

基因表达差异分析方法进展

高等真核生物的基因组一般具有80 000~100 000个基因,而每一个细胞大约只表达其中的15%[1]。基因在不同细胞间及不同生长阶段的选择性表达决定了生命活动的多样性,如发育与分化、衰老与死亡、内环境稳定、细胞周期调控等。比较细胞间基因表达的差异为我们揭示生命活动的规律提供了依据。 由于真核细胞mRNA 3′端一般含有Poly(A)尾,因此现有的方法基本上都是利用共同引物将不同的mRNA反转录成cDNA,以cDNA为对象研究基因表达的差异。1992年Liang等[2]建立了一种差异显示反转录PCR法(differential display reverse transcription PCR,DDRT-PCR),为检测成批基因表达的差异开辟了新天地。迄今为止已出现了大量应用该技术的研究报道[3,4]。然而,尽管应用DDRT-PCR方法已经取得了不少成果,而且该方法还在不断改进之中,但它仍然存在几个难以解决的问题:(1) 重复率低,至少有20%的差异条带不能被准确重复[5];(2) 假阳性率可以高达90%[6];(3) 获得的差异表达序列极少包含编码信息。近年来,针对DDRT-PCR方法的不足,又有几种新的检测差异表达基因的方法出现,现仅就这方面的进展做一简要介绍。 1.基因表达指纹(gene expression fingerprinting,GEF):GEF技术使用生物素标记的引物Bio-T13合成cDNA第一链,用dGTP对其进行末端加尾,再以富含C的引物引发合成cDNA第二链。用限制性内切酶消化双链cDNA,以交联有抗生物素蛋白的微球捕获cDNA3′端,以T4DNA连接酶连接同前述内切酶相对应的适配子,并以Bio-T13及适配子中的序列作为新的引物进行特异的PCR 扩增,得到大量的特异cDNA片段。适配子末端被32P-dATP标记后,固定于微球上的cDNA片段经过一系列酶切,产生的酶切片段从微球表面释放出来,其中那些含有标记末端的片段经凝胶电泳后构成mRNA指纹图谱。通过分析不同细胞间的指纹图谱就能得到差异表达的序列[7]。GEF技术所需的工作量较DDRT-PCR明显减少,由于用酶切反应替代了条件不严格的PCR反应,其重复性也较好,假阳性率低,并且所获得的片段中包含有一定的编码信息。GEF技术最大的缺点在于电泳技术的局限。由于它的指纹图谱要显示在同一块电泳胶上,经过几轮酶切之后常会得到1 000~2 000条电泳带,而现有的PAGE电泳很少能分辨超过400条带,故只有15%~30%的mRNA能够被辨认出来,因此得

基因表达系列分析(Serial Analysis of Gene Expression,SAGE)技术

SAGE 技术 MRNA 结合到微珠子上(Microscopic Bead and mRNA) mRNA 转录成DNA(mRNA binds to bait and is copied into DNA)

用酶切开DNA的一小段(An enzyme cuts the DNA) 另一个酶定在DNA末端以便切下一小段(An enzyme locks onto the DNA and cuts off a short tag),这一小段就被视为这个基因的标签 两个标签连在一起(Two tags are linked together)

在末端的定位分子被切掉(Enzymes cut off the "Docking Molecules") 都连成一条线(Di-Tags are combined into large concatemers)

DNA上所携带的遗传信息,需要通过RNA为中介体,合成出组织和正常生理功能所需要的蛋白质,这个过程被称为基因的表达。在生物体中不同的组织和器官所表达的基因群是不一样的,我们把基因群的表达状况称为基因表达谱。目前,高通量地研究基因表达谱的方法主要有两种,即生物芯片和基因表达串联分析(serial analysis of gene expression, SAGE)。基因芯片所能检测的基因必须是已知的基因,放在芯片上几种基因的探针就只能检测这几种基因的表达谱;相比之下,SAGE能以远高于DNA芯片的精确度和重复性来检测在病理条件下基因表达谱的改变,而不必考虑所检测的基因是已知的还是未知的。因此在检测疾病相关的新基因,特别是无法用基因芯片进行检测的低表达量致病基因时,SAGE是目前的最佳手段,无可取代。 SAGE技术为Genzyme公司所拥有的专利技术。其技术简介如下: SAGE技术得以建立的理论基础 首先,一段来自于任一转录本特定区域的"标签"(Tag),即长度仅9-14bp的短核苷酸序列,就已包含足够的信息以特异性地确定该转录本。例如:一个9碱基的序列能有49=262144种不同的排列组合,而人类基因组据估计仅编码80000种转录本,因此在理论上每一个9碱基标签就能够代表一种转录本的特征序列。 第二,如果将短片段标签相互连接、集中形成长的DNA分子,则对该克隆进行

表达谱

对于基因表达谱数据的分析是生物信息学的研究热点和难点。转化为数学问题,分析任务是从数据矩阵 M 中找出显著性结构,结构类型包括全局模型 (model) 和局部模式 (pattern) 。对基因表达谱数据的分析是数据挖掘问题,所采用的方法包括通过可视化进行探索性数据分析( Exploratory Data Analysis )、描述建模 (descriptive modeling) 、分类、聚类、回归和机器学习等。 基因表达谱分析所采用的常用方法是聚类,其目的就是将基因分组。从数学的角度,聚类得到的基因分组,一般是组内各成员在数学特征上彼此相似,但与其它组中的成员不同。从生物学的角度,聚类分析方法所隐含的生物学意义或基本假设是,组内基因的表达谱相似,它们可能有相似的功能。然而,产物有相同功能的编码基因(例如对其它蛋白质有磷酸化作用),不一定共享相似的转录模式。相反,有不同功能的基因可能因为巧合或随机扰动而有相似的表达谱。尽管有许多意外的情况存在,大量功能相关的基因的确在相关的一组条件下有非常相似的表达谱,特别是被共同的转录因子共调控的基因,或者产物构成同一个蛋白复合体,或者参与相同的调控路径。因此,在具体的应用中,可以根据对相似表达谱的基因进行聚类,从而指派未知基因的功能。 聚类分析是模式识别和数据挖掘中普遍使用的一种方法,是基于数据的知识发现的有效方法,特别适用于模式分类数不知道的情况。聚类分析是一种无监督学习方法,不需要任何先验领域知识,它根据数学特征提取分类标准,对数据进行分类,这种数学特征的例子有统计平均值、相关系数、协方差矩阵的本征值及本征向量等。聚类分析在基因表达数据分析中应用得很多,主要有层次聚类、 K 均值、自组织特征映射网络等。本节将介绍基因表达数据分析中常用的聚类方法及与此相关的内容。 8.4.1 相似性度量函数 对基因表达谱进行聚类分析之前,必须首先确定反映不同基因表达谱相似程度的度量函数,根据该函数可以将相似程度高的基因分为一类。在实际计算中,还可以用距离代替相似的概念,相似性度量被转化为两个基因表达谱之间的距离。距离越小,表达模式越相近;反之,则表达模式差异大。 常见的相似性度量有距离、点积、相关系数( correlation coefficient )、互信息( mutual information )等。假设两个基因表达谱分别为X = (x 1 ,x 2 ,…,x m )和Y = (y 1 ,y 2 ,…, y m ) , 距离函数 d( X ,Y ) 必须满足如下条件: d( X ,Y ) ≧ 0 d( X ,Y ) = d( Y ,X ) d( X ,Y ) = 0 if X = Y

基因表达谱分析技术

基因表达谱分析技术 1微阵列技术(microarray) 这是近年来发展起来的可用于大规模快速检测基因差别表达、基因组表达谱、DNA序列多态性、致病基因或疾病相关基因的一项新的基因功能研究技术。其原理基本是利用光导化学合成、照相平板印刷以及固相表面化学合成等技术,在固相表面合成成千上万个寡核苷酸“探针”(cDNA、ESTs或基因特异的寡核苷酸),并与放射性同位素或荧光物标记的来自不同细胞、组织或整个器官的DNA或mRNA反转录生成的第一链cDNA进行杂交,然后用特殊的检测系统对每个杂交点进行定量分析。其优点是可以同时对大量基因,甚至整个基因组的基因表达进行对比分析。包括cDNA芯片(cDNA microarray)和DNA芯片(DNA chips)。 cDNA芯片使用的载体可以是尼龙膜,也可以是玻片。当使用尼龙膜时,目前的技术水平可以将20000份材料点在一张12cm×18cm的膜上。尼龙膜上所点的一般是编好顺序的变性了的双链cDNA片段。要得到基因表达情况的数据,只需要将未知的样品与其杂交即可。杂交的结果表示这一样品中基因的表达模式,而比较两份不同样品的杂交结果就可以得到在不同样品中表达模式存在差异的基因。杂交使用的探针一般为mRNA的反转录产物,标记探针使用32PdATP。如果使用玻片为载体,点阵的密度要高于尼龙膜。杂交时使用两种不同颜色的荧光标记不同的两份样品,然后将两份样品混合起来与一张芯片杂交。洗去未杂交的探针以后,能够结合标记cDNA的点受到激发后会发出荧光。通过扫描装置可以检测各个点发出荧光的强度。对每一个点而言,所发出的两种不同荧光的强度的比值,就代表它在不同样品中的丰度。一般来讲,显示出来的图像中,黄色的点表示在不同的样品中丰度的差异不大,红色和绿色的点代表在不同样品中其丰度各不相同。使用尼龙膜为载体制作cDNA芯片进行研究的费用要比玻片低,因为尼龙膜可以重复杂交。检测两种不同的组织或相同组织在不同条件下基因表达的差异,只需要使用少量的尼龙膜。但是利用玻片制作的cDNA芯片灵敏度更高,而且可以使用2种探针同时与芯片杂交,从而降低了因为杂交操作带来的差异;缺点是无法重复使用还必须使用更为复杂的仪器。 Guo等(2004)将包含104个重组子的cDNA文库点在芯片上,用于检测拟南芥叶片衰老时的基因表达模式,得到大约6200差异表达的ESTs,对应2491个非重复基因。其中有134个基因编码转录因子,182个基因预测参与信号传导,如MAPK级联传导路径。Li等(2006)设计高密度的寡核苷酸tiling microarray方法,检测籼稻全基因组转录表达情况。芯片上包含13,078,888个36-mer寡核苷酸探针,基于籼稻全基因组shot-gun测序的序列合成,大约81.9%(35,970)的基因发生转录事件。Hu等(2006)用含有60,000寡核苷酸探针(代表水稻全部预测表达基因)的芯片检测抗旱转基因植株(过量表达SNAC1水稻)中基因的表达情况,揭示大量的逆境相关基因都是上升表达的。 2基因表达系列分析(Serial analysis of gene expression,SAGE) 基因表达系列分析(SAGE)是一种转录物水平上研究细胞或组织基因表达模式的快速、有效的技术,也是一种高通量的功能基因组研究方法,它可以同时将不同基因的表达情况进行量化研究(Velculescu et al.,1995)。SAGE的基本原理是:每一条mRNA序列都可以用它包含的9bp的小片段(TAG)代替,因此考查这些TAGs出现的频率就能知道每一种mRNA 的丰度。首先利用生物素标记的oligo(dT)引物将mRNA反转录成双链cDNA,然后利用NlaIII 酶切双链cDNA。NlaIII酶的识别位点只有4bp,因此cDNA都被切成几十bp的小片段。带有生物素标记的小片段cDNA被分离出来,平均分成2份。这2份cDNA分别跟2个接头连接,2个接头中均有一个FokI酶切位点。FokI是一种II S型核酸内切酶,其识别位点不对称,切割位点位于识别位点下游9bp且不依赖于特异的DNA序列。FokI酶切分成2份的cDNA之

基因表达谱数据分析技术

第18卷第6期微阵列技术[1-3]的到来对生物学和医学来说是一场 革命,通过它可以同时观测成千上万个基因的表达水平,从而能够在基因组水平上以系统的、 全局的观念去研究生命现象及其本质。还可以根据基因在不同条件下表达的差异性来进行复杂疾病诊断、药物筛选、个性化治疗、基因功能发现、农作物优育和优选、环境检测和防治、食品卫生监督及司法鉴定等,因此对基因表达谱的研究具有重要的理论价值和应用意义。微阵列基因表达数据具有维数高、样本小、非线性的特点,这对一些传统的机器学习方法提出了新的挑战,对其数据的分析已成为生物信息学研究的焦点。 1基因表达数据采集 基因表达数据采集可分为三个步骤:微阵列设计、 图像分析和数据获取、过滤、标准化。基因芯片(gene chip ),简称为微阵列,就是指固着在载体上的高密度 DNA 微点阵,具体地说就是将靶基因或寡核苷酸片段有序地、高密度排列在玻璃、硅等载体上。mRNA (信使核糖核酸)的表达水平的获得是通过选取来自不同状态的样本(如正常组织与肿瘤组织、不同发育阶段组织,或用药之前与用药之后组织等,一种称为实验样本,另外一种称为参考样本),在逆转录过程中,实验样本和参考样本RNA (核糖核酸)分别用不同的红、绿荧光染料去标记,并将它们混合,与微阵列上的探针序列进行杂交,经适当的洗脱步骤与激光扫描仪对芯片进行扫描,获得对应于每种荧光的荧光强度图像,通过专用的图像分析软件,可获得微阵列上每个点的红、绿荧光强度(Cy5和Cy3),其比值(Cy5/Cy3)表示该基因在实验样本中的表达水平。在通常情况下,考虑Cy5和Cy3的数值时,还应考虑相应的背景数值,如果微阵列上某个基因的Cy5或Cy3数值比相应的背景数值低,则该基因的表达水平无法确定。为了方便数据处理,常 孟令梅等:一种基于DCT 变换的图像认证算法文章编号:1005-1228(2010)06-0017-03 基因表达谱数据分析技术 刘 玲 (江苏财经职业技术学院,江苏淮安 223001) 摘 要:人类基因组计划的研究已进入后基因组时代,后基因组时代研究的焦点已经从测序转向功能研究,主要采用无监 督和有监督技术来分析基因表达谱和识别基因功能,通过基因转录调控网络分析细胞内基因之间的相互作用关系的整体表示,说明生命功能在基因表达层面的展现,对目前基因表达谱数据分析技术及它们的发展,进行了综述性的研究,分析了它们的优缺点,提出了解决问题的思路和方法,为基因表达谱的进一步研究提供了新的途径。关键词:基因表达谱;分类;无监督;有监督;基因调控网络中图分类号:Q81;TP181 文献标识码:A Gene Expression Data Analysis LIU Ling (Jiangsu Vocational College of Finance &Econimics ,huai ’an 223001,China ) Abstract :As the work of sequencing the genome of the human has been fully finished,the post-genomic era has begun.Scientists are turning their focus toward identifying gene function from sequencing.Clustering technology,as one of the important tools of analyzing gene expression data and identifying gene function,has been used widely.Transcriptive regulatory networks are the global representation of multiple interactions between genes and their products ,which can help us understand the cell ’s function at the level of gene expression In this paper we discuss main clustering technology about gene expression data at present,analyze their advantages and disadvantages ,present the methods to solve the problems and given approaches to study gene expression data. Key words:gene expression profile ; classification ;gene regulatory network Vol.18No.6Dec 2010 第18卷第6期2010年12月 电脑与信息技术Computer and Information Technology 收稿日期: 2010-06-09项目资助: 江苏省淮安市科技发展计划项目(HAG08015)作者简介: 刘玲(1964-),山东胶州人,副教授,硕士,主要研究方向:生物信息。

基因表达及分析技术

基因表达及其分析技术 生命现象的奥秘隐藏在基因组中,对基因组的解码一直是现代生命科学的主流。基因组学研究可以说是当今生命科学领域炙手可热的方向。从DNA 测序到SNP、拷贝数变异(copy number variation , CNV)等DNA多态性分析,到DNA 甲基化修饰等表观遗传学研究,生命过程的遗传基础不断被解读。 基因组研究的重要性自然不言而喻。应该说,DNA 测序技术在基因组研究 中功不可没,从San ger测序技术到目前盛行的新一代测序技术(Next Gen eration Seque ncing NGS)到即将走到前台的单分子测序技术,测序技术是基因组解读最重要的主流技术。而基因组测序、基因组多态性分析、DNA 甲基化修饰等表观遗传分析等在基因组研究中是最前沿的课题。但是基因组研究终究类似“基因算命”,再清晰的序列信息也无法真正说明一个基因的功能,基因功能的最后鉴定还得依赖转录组学和蛋白组学,而转录作为基因发挥功能的第一步,对基因功能解读就变得至关重要。声称特定基因、特定SNP、特定CNV、特定DNA修饰等与某种表型有关,最终需要转基因、基因敲除、突变、 RNAi 、中和抗体等技术验证,并必不可少要结合基因转录、翻译和蛋白修饰等数据。 基因实现功能的第一步就是转录为mRNA或非编码RNA,转录组学主要研究基因转录为RNA 的过程。在转录研究中,下面几点是必须考虑的: 1,基因是否转录(基因是否表达)及基因表达水平高低(基因是低丰度表达还是中、高丰度表达)。特定基因有时候在一个细胞中只有一个拷贝的表达,而表达量会随细胞类型不同或发育、生长阶段不同或生理、病理状态不同而改变。因此任何基

相关文档
相关文档 最新文档