文档库 最新最全的文档下载
当前位置:文档库 › 全基因组关联分析在植物中的应用

全基因组关联分析在植物中的应用

全基因组关联分析在植物中的应用
全基因组关联分析在植物中的应用

亿学与生物互程2013,V01.30No.6

Chemis研&B;oenginee湘9

doi:10.3969/j.issn.1672—5425.2013.06.002

全基因组关联分析在植物中的应用

涂雨辰1”,田云k2,卢向阳1’2

(1.湖南省农业生物工程研究所,湖南长沙410128;2.湖南农业大学生物科学技术学院,湖南长沙410128)

摘要:全基因组关联分析(GwAS)已被广泛应用到植物遗传学和育种相关的重要性状研究中。关联分析是一种基于连锁不平衡来识别分子标记之间或候选基因与性状之间关系的方法。简单介绍了GwAS的发展背景、研究原理及研究策略,对GwAS在重要的植物基因位点方面的应用研究进展进行了综述。

关键词:全基因组关联分析(GwAS);基因位点;重要性状;植物

中图分类号:Q78文献标识码:A文章编号:1672—5425【2013)06一o007一04

lGWAs的发展背景

重要的农艺性状如产量、作物品质以及植物抗病性是由多个基因控制的,均受连续变化且脆弱的环境影响。与单基因控制的性状相比,其遗传基础更为复杂。Visscher等[13指出,众多科学和生物的发现已通过全基因组关联分析(GWAS)所验证。GWAS是经典的定量遗传理论的拓展,对基因的研究具有重大意义。作为一个整体,定量特征是由许多具有同等作用的微效基因互相影响,通过建立遗传模型和估计遗传方差,选择统计参数来迸行研究。许多经典的定量遗传模型都在育种实践中发挥着重要作用,比如籽粒的淀粉∞]和维生素A原含量嘲、小麦的籽粒大小和研磨品质【4]、拟南芥(Ar口6idD加fs£^口zi彻口)的开花期[51和抗病性[阳等。然而,在“Micro.effectgene”理论中,具体影响数量性状的基因尚未发现,分子生物学机制的定量特征变化也未能得出确切结论。近年随着生物技术的发展,尤其是分子标记技术的出现与发展,人们对量化特征的认识从基因水平发展到数量性状分析水平,充分说明理解遗传机制的定量特征已经上升到分子水平的高度。

此外,植物的数量性状往往受到等位基因多样性的影响,而传统研究仅能得到有限的基因组相关解析。GWAS克服传统基因映射方法的一些局限性,通过提供更高的分辨率,在基因水平上利用样本的数量关联到表型变化的差异。由于高密度单核苷酸(SNP)多态性的出现,进行全基因组扫描时,能识别很小范围的与数量性状变异显著相关的单元型域。这些方法的出现使得研究性状的可能性不断增大。目前,GWAS已经确定了许多与性状相关的重要位点,为生产实践提供理论指导。

2GWAS的研究原理及研究策略

与日益普及的基因组多态性数据相比,GWAS正成为研究遗传学定量特征的默认方法。通过GWAS,已经发现了数以百计的遗传变异与人类疾病相关的复杂的特征,彻底改变了人类基因图谱,并且现在也广泛应用于植物研究中。

GwAS的研究原理是:在基因水平上通过分子标记的手段,对整个基因组内的SNP进行综合分析与分型,再将不同表现的性状变异统计出来,提出假设,并且验证其与期望性状间的关联性。

GwAS的研究策略类似于传统的候选基因法。在设计初始GWAS实验时,一般分成两个阶段:首先对整个基因组SNP基因分型芯片和SNP多态性进行统计分析,通常能够筛选少量阳性SNPs,然后在更多样本中对这些阳性SNPs进行基因分型,最后整合两个阶段的结果进行分析。GwAS两阶段研究策略减少了工作量和成本,通过重复实验也减小了误测率;但

基金项目:国家自然科学基金资助项目(31000536),湖南省自然科学基金重点资助项目(13JJ2028)

收稿日期:2013一03—12

作者简介:涂雨展(1988一),女,湖南长沙人,硕士研究生,研究方向:植物生物化学研究,E-mail:cherr)rtt.p“ncess@163.com;通讯作者;耻I云,副研究员,E-mail:tianyun79616@j63.coml卢向阳.教授,E-maill】【iang”ngcn@163.com.

万方数据

Il——————————————————————————一涂雨辰等:全基因组关联分析在植物中的应用/2013奄饕6期

是在第一阶段,所有可能与疾病相关联的SNP多态性的样本量不足。为了寻找更多的易感基因位点,目前常用的方法是扩大GWAS的样本量,即在同一时间适当放宽第一阶段的选择标准并扩大验证SNP多态性的范围。

3GWAs在植物中的应用

3.1在玉米育种方面的应用

在过去的20年中,伴随着基因组学以及分子标记技术的飞速发展,作物遗传育种方面的研究得到有效且深入的开展。在玉米研究方面,2011年《NatureG占netics》上发表了1篇关于GWAS研究玉米相关性状的文章。文中通过GWAS得到一个玉米嵌套的关联映射面板,确定了玉米重要叶片结构的基础架构特征和一些关键基因,并证明了叶片性状、基因结构是受‘基因多效性及环境相互作用的影响。GWAS结果表明,突变体基因的变化导致更多的叶片向上生长。玉米的多样性对GWAS来说是个挑战。然而,在玉米HapMap中160万个SNPs位点被鉴定、嵌套关联绘图(NAM)也有所发展之后,在玉米研究中有效开展GWAS不再是难题。玉米NAM嵌板是基于一个参考线,由25条不同的交叉线组成,然后产生5000个重组自交系(RILs)。作者运用这种新型的玉米NAM设计并分析向上叶片角度的结构、叶片长度以及宽度,再运用Jointstepwiseregression鉴定出30~36个QTI。s,解释了74.8%~80.3%的表型变异,以及大于83%的遗传方差。为了进一步剖析这些QTLs,通过输入160万个HapMapSNPs位点进行GwAS分析,发现27个NAM母系映射到RILs上。在160万个测试的SNPs中,作者探测到与叶片角度、长度、宽度相关的SNP位点分别是203、287、295。在其它复杂的玉米性状里也能观察到类似的基因结构[7’8],与动物一样‘91,对自花授粉植物有更大的影响‘协12]。这些结果表明复杂性状的基因结构在异形杂交和自交的物种中的进化程度相同。

3.2在大麦及大豆分子标记研究中的应用

Lorenz等[13]研究发现,大麦中单独关联到早熟性状的位点对应着33个染色体区域,并确定了15个与其它性状相关的重要标记和7个区域[1“。对于每一个性状的分析,都需要经过包括SSR、SNP和DArT在内的760个标记来确定。研究发现,共有130个显著特征关联标记以及8~22个重要位点,这也代表了

62个标记存在于除染色体5d之外的所有染色体上。而观察图谱的位置,最明显的候选基因(Pp小l,‰一1,W以一2,Ⅵ铆一3,W靠一4,R^产1)也表现出显著的相关性[15。8]。而在大豆中,关联到重要性状的重要位点分别为I、T、W1、R、O[19’2引,这些位点的确定对植物生长和作物生产实践都起到重大的作用。

3.3在挖掘水稻重要遗传基因位点方面的应用世界上约一半人口以大米为主食,但其产量常常受到大量病原微生物或昆虫的严重威胁[21。2引。为了有效识别遗传多样性的种植水稻种质资源,挖掘水稻高品质性状相关的基因、培养遗传改良品种的水稻,对水稻实践生产意义重大。

近年来开展的全基因组测序分析可通过基因组之间的差异挖掘出与水稻重要性状相关的位点。研究者分别对517类不同的水稻种质测序,鉴定出360万个SNP序列,构成一个水稻基因高密度单体型图。通过GWAS研究,解释了水稻品种中36%的表型方差,将其分为以下5类农艺性状:形态特征(分蘖数、叶角度)、收益率(谷粒宽度、粒长、千粒重和小穗数)、粮食质量(糊化温度和直链淀粉含量)、着色(顶端颜色、果皮颜色和外壳颜色)和生理特性(抽穗期、抗旱能力和种子破碎的程度)。通过GWAS研究,确定了稻籼亚种的14个农艺性状。研究者将高通量基因组测序技术应用于950份来自不同国家的水稻种质材料中,通过基因分型鉴定基因的变异。该体系能高效、准确地确定多个重要性状的关联位点,分别鉴定出1个控制花期的位点和10个与粮食主产性状相关的32个新位点[24]。3.4在拟南芥性状研究中的应用

研究复杂性状的遗传基础,如开花时间、伸长速度和产量,已经成为改善作物和了解植物适应性的重点。拟南芥分布广泛,一直是研究植物自然变异和适应性的极具价值的模式植物。通过全基因组基因分析,Aranzana等确定了拟南芥基因中控制自然变异、开花时间和病原体抵抗的相关位点。通过分析拟南芥的107种表型,GWAS搜寻到250000个SNP位点口51。通过GWAS来识别潜在的反应变异,其中最为明显的反应为控制下胚轴的伸长。结果表明,这些性状的变异受基因座的影响,符合Ⅵ圯cA5、Ⅵ厄CA9和RGAl3组基因的控制模式。砌CCA5和H尼CA9都参与生长素生物合成,而RGAl是DELLA家族的成员。下胚轴表型包括在这项研究中,它们是高度的高R:FR条件(模拟太阳)、高度的低R:FR条件(模拟阴影)和2个不同指数响应低R:FR条件。GWAS结果表明,这些性状的变异由许多基因座的低到中度影响控制。

不同作物重要性状的相关位点见表1。

万方数据

涂雨辰等:全基因组关联分析在植物中的应用/2013年簧6啊————————二————————————————————_I盈

表l不同作物重要性状的相关位点

Tab-lThereIatedI∞iofimportanttraitsfordifferentspeci器

种类性状位点效量位点文献谷粒宽度1qSw5[26]

谷粒长度1GS3[26]

顶端颜色l05cl[26]水稻

果皮颜色1Rc[26]

淀粉酶含量1waxy[26]

凝胶化温度1ALK[26]

4结语

GWAS为大量的基因组测序提供了一个很好的平台,由于其技术方法能扩展到在生态环境中且能适应遗传变异的结构化背景,与人类疾病GWAS相比,在植物研究中获得了更大的成功[3引。为了能更高效地运用GwAS技术,首先,在选择基因样本时,应尽量选择优质品种的优良基因,以提高分析的精确度与有效性;其次,SNP位点对作物性状的影响基于影响基因的表达程度,所以应该提高对基因编码区以及相关调控方式的认识,更确切地了解植物复杂性状的成因;最后,GWAS能够一次性对重要性状进行轮廓性概览,适用于复杂性状的研究。在全基因组层面上,开展多中心、大样本、反复验证的基因与性状的关联研究,是全面揭示疾病发生、控制其发展的重要手段。

由于植物性状与基因组之间的关系受多种因素的作用[3¨,GWAS也面临着一些问题,如结果不能完全解释某些复杂性状等。但随着功能标记开发、反向遗传学研究及生理学等学科的综合推进,作为一种综合性的分析方法,GWAS必将迎来更为广阔的发展空间。在提高自动化和高效率的同时,通过降低成本、挖掘与植物重要经济性状或生理性状相关的位点,GwAs必将在植物遗传育种中发挥更大的作用。

参考文献:

[1]VisscherPM。BrownMA.McCarthyMI.eta1.Fivey龃rsof

GwASdiscovery[J].AmJHumGenet,2012,90(1):7—24.

[2]wenw。MeiH,FellgF。eta1.Populationstructureandassociationmappingonchromosome7usingadiversepanelofChine5egerm—plasmoffice(∞嘲犯ff懈L.)[J].TheorApplGenet.2009,119(3):459—470.

[3]Ha巧esCE,RochefordTR,BaiL,eta1.NatunlgeneticvariationinLyco户P玎P。户sfzo玎fyc如即tappedformaizebiofortifIcation[J].Sdence.2008,319(5861):330一333.

[4]BreseghelloF,SorreIlsME.Assodationmpp啦ofken"lsizeandmilIingquaIityinwheat(丁'f£fc口辨4Ps£i豫肌L.)cl|ltivars口].Genetics,2006,172(2):1165—1177.

[5]OlsenKM,HalldorsdottirSS.StinchcombeJR,eta1.LinkagedisequilibriummappingofAm6fdops缸CRy2floweringtimeaI—leles[J].Genetics,2004,167(3):1361—1369.

[6]Ara眦anaMJ,Kims,zhaoK,etaI.Genome.wideassociationmappinginAr口6fdops如identifiespreviouslyknownnoweriIlgtimeandpathogenresistancegenes[刀.PLosGenet,2005,1(5):

e60.

[7]BucklerEs,HollandJB,BradburyP了,eta1.Thegeneticarchi—tectureofmaizefloweringtime[J].Science.2009.325(5941):714—718.

[8]LaurieCC,ChasalowSD,LeDeauxJR,etaI.Thegeneticarchi.tectufeofrespon∞tolon争termartmdal5e王ectionforoilconcen’t抬tionirIthemaizekernel[J].Genetics,2004,168(4)12141—2155.[9]FIintJ。MackayTFCGenetica”Mtectureofq∞ntitatjvetraitsinmice。nies,andhumans[J].GenomeRe5,2009.19(5):723—733.[10]KoornneefM。Alonso-Blancoc,VreugdenhilD.Naturallyoc印r.ringgeneticvariationinAr口6ido户f如咖4zf4拙口[J].AfIlluRev

PlantB.01.2004,55(4):141-17Z.

[11]TakahasKY.TeshimaKM.Yokois,eta1.variationsinHdl

万方数据

万方数据

全基因组关联分析在植物中的应用

作者:涂雨辰, 田云, 卢向阳, TU Yu-chen, TIAN Yun, LU Xiang-yang

作者单位:湖南省农业生物工程研究所,湖南长沙410128;湖南农业大学生物科学技术学院,湖南长沙410128刊名:

化学与生物工程

英文刊名:Chemistry & Bioengineering

年,卷(期):2013,30(6)

本文链接:https://www.wendangku.net/doc/d47119938.html,/Periodical_hbhg201306002.aspx

全基因组关联分析的原理和方法

全基因组关联分析(Genome-wide association study;GWAS)是应用基因组中 数以百万计的单核苷酸多态性(single nucleotide ploymorphism ,SNP)为分子 遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种新策略。 随着基因组学研究以及基因芯片技术的发展,人们已通过GWAS方法发现并鉴定了大量与复杂性状相关联的遗传变异。近年来,这种方法在农业动物重要经济性状主效基因的筛查和鉴定中得到了应用。 全基因组关联方法首先在人类医学领域的研究中得到了极大的重视和应用,尤其是其在复杂疾病研究领域中的应用,使许多重要的复杂疾病的研究取得了突破性进展,因而,全基因组关联分析研究方法的设计原理得到重视。 人类的疾病分为单基因疾病和复杂性疾病。单基因疾病是指由于单个基因的突变导致的疾病,通过家系连锁分析的定位克隆方法,人们已发现了囊性纤维化、亨廷顿病等大量单基因疾病的致病基因,这些单基因的突变改变了相应的编码蛋白氨基酸序列或者产量,从而产生了符合孟德尔遗传方式的疾病表型。复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。目前已经鉴定出的与人类复杂性疾病相关联的SNP位点有439 个。全基因组关联分析技术的重大革新及其应用,极大地推动了基因组医学的发展。(2005年, Science 杂志首次报道了年龄相关性视网膜黄斑变性GWAS结果,在医学界和遗传学界引起了极大的轰动, 此后一系列GWAS陆续展开。2006 年, 波士顿大学医学院联合哈佛大学等多个研究机构报道了基于佛明翰心脏研究样本关于肥胖的GWAS结果(Herbert 等. 2006);2007 年, Saxena 等多个研究组联合报道了与2 型糖尿病( T2D ) 关联的多个位点, Samani 等则发表了冠心病GWAS结果( Samani 等. 2007); 2008 年, Barrett 等通过GWAS发现了30 个与克罗恩病( Crohns ' disrease) 相关的易感位点; 2009 年, W e is s 等通过GWAS发现了与具有高度遗传性的神经发育疾病——自闭症关联的染色体区域。我国学者则通过对12 000 多名汉族系统性红斑狼疮患者以及健康对照者的GWAS发现了5 个红斑狼疮易感基因, 并确定了4 个新的易感位点( Han 等. 2009) 。截至2009 年10 月, 已经陆续报道了关于人类身高、体重、 血压等主要性状, 以及视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分 裂症、风湿性关节炎等几十种威胁人类健康的常见疾病的GWAS结果, 累计发表了近万篇 论文, 确定了一系列疾病发病的致病基因、相关基因、易感区域和SNP变异。) 标记基因的选择: 1)Hap Map是展示人类常见遗传变异的一个图谱, 第1 阶段完成后提供了 4 个人类种族[ Yoruban ,Northern and Western European , and Asian ( Chinese and Japanese) ] 共269 个个体基因组, 超过100 万个SNP( 约1

全基因组关联分析(GWAS)解决方案

全基因组关联分析(GWAS)解决方案 ※ 概述 全基因组关联研究(Genome-wide association study,GWAS)是用来检测全基因组范围的遗传变异与 可观测的性状之间的遗传关联的一种策略。2005年,Science杂志报道了第一篇GWAS研究——年龄相关性黄 斑变性,之后陆续出现了有关冠心病、肥胖、2型糖尿病、甘油三酯、精神分裂症等的研究报道。截至2010年 底,单是在人类上就有1212篇GWAS文章被发表,涉及210个性状。GWAS主要基于共变法的思想,该方法是 人类进行科学思维和实践的最重要工具之一;统计学研究也表明,GWAS很长时期内都将处于蓬勃发展期(如 下图所示)。 基因型数据和表型数据的获得,随着诸多新技术的发展变得日益海量、廉价、快捷、准确和全面:如 Affymetrix和Illumina公司的SNP基因分型芯片已经可以达到2M的标记密度;便携式电子器械将产生海量的表型 数据;新一代测序技术的迅猛发展,将催生更高通量、更多类别的基因型,以及不同类别的高通量表型。基于 此,我们推出GWAS的完整解决方案,协助您一起探索生物奥秘。 ※ 实验技术流程 ※ 基于芯片的GWAS Affymetrix公司针对人类全基因组SNP检测推出多个版本检测芯片,2007年5月份,Affymetrix公司发布了 人全基因组SNP 6.0芯片,包含90多万个用于单核苷酸多态性(SNP)检测探针和更多数量的用于拷贝数变化(CNV)检测的非多态性探针。因此这种芯片可检测超过180万个位点基因组序列变异,即可用于全基因组 SNP分析,又可用于CNV分析,真正实现了一种芯片两种用途,方便研究者挖掘基因组序列变异信息。 Illumina激光共聚焦微珠芯片平台为全世界的科研用户提供了最为先进的SNP(单核苷酸多态性)研究平 台。Illumina的SNP芯片有两类,一类是基于infinium技术的全基因组SNP检测芯片(Infinium? Whole Genome Genotyping),适用于全基因组SNP分型研究及基因拷贝数变化研究,一张芯片检测几十万标签SNP位点,提 供大规模疾病基因扫描(Hap660,1M)。另一类是基于GoldenGate?特定SNP位点检测芯片,根据研究需要挑选SNP位点制作成芯片(48-1536位点),是复杂疾病基因定位的最佳工具。 罗氏NimbleGen根据人类基因组序列信息设计的2.1M超高密度CGH芯片,可以在1.1Kb分辨率下完成全基 因组检测,可有效检测人基因组中低至约5kb大小的拷贝数变异。

全基因组关联分析

全基因组关联分析(Genome-wide association study,GWAS) 是一种对全基因组范围内的常见遗传变异: 单核苷酸多态性(Single nucleotide polymorphism , SNP) 进行总体关联分析的方法, 即在全基因组范围内选择遗传变异进行基因分型, 比较病例和对照间每个变异频率的异差, 计算变异与疾病的关联强度, 选出最相关的变异进行验证并最终确认与疾病相关。 单核苷酸多态性(英语:Single Nucleotide Polymorphism,简称SNP,读作/snip/)指的是由单个核苷酸—A,T,C或G的改变而引起的DNA序列的改变,造成包括人类在内的物种之间染色体基因组的多样性。 在后GWAS时代,利用已有的GWAS数据在多个人群间进行meta分析已经成为一种常用的分析手 段,这不仅可以进一步扩大样本量,更重要的是提高了统计效能。GWAS meta分 析已经成功应该用在多种复杂疾病的遗传学研究,发现一批新的易感基因。 全基因组关联水平(P_meta < 5.0×10-8)罕见等位基因(MAF < 5%), 基因型填补(imputation):依据已分型位点的基因型对数据缺失位点或未分型位点进行基因型预测的方法。可用于精细定位(fine-mapping),填补已确认的关联位点附近的位点,以便评价相邻SNP位点的关联证据。加快复杂性疾病易感基因的定位。 连锁与连锁不平衡(linkage disequilibrium,LD): 连锁:如果同一条染色体上2个位点的位置比较近,则这2个位点上的等位基因倾向于一起传递给下一代。 连锁不平衡:又称等位基因关联,是指同一条染色体上,两个等位基因间的非随机相关。即当位于同一条染色体上的两个等位基因同时存在的概率大于人群中因随机分布而同时出现的概率时,就称这两个位点处于LD状态。所谓的连锁不平衡是一种遗传标记的非随机性组合。比如,一个基因有两个位点,一个位点有两种基因型,那么子代应该有2的2次方,即4种基因型。但是发现子代的基因型往往会少于4种,这就是连锁不平衡现象。这是由于两个位点距离较近引起的两个位点上的等位基因经常同时出现在同一染色体上。

基于全基因组关联分析的基因(环境)交互作用统计学方法进展

万方数据

万方数据

708 图lMDR基本步骤示意图 划分为不同的分类,也就是图中的单元格。单元格中左侧直方图表示病例,右侧直方图表示对照。 第4步:在n维的每个多因子分类(单元格)中,计算病例数和对照数的比值,若病例数与对照数之比达到或超过某个阈值(例如≥1),则标为高危,反之则为低危。这样就把n维的结构降低到一维两水平。 第5步:多因子分类的集合中包含了MDR模型中各因子的组合。在所有的两因子组合中,选择错分最小的那个MDR模型,该两位点模型在所有模型中将具有最小的预测误差。 第6步:通过十重交叉验证评估模型的预测误差,一以及单元格分配时的相对误差。也就是说,模型拟合9/10的数据(训练样本),其预测误差将通过剩下1/10的数据(检验样本)来衡量。选择预测误差最小的模型作为最终的模型,取lO次检验的预测误差平均值,作为模型相对预测误差的无偏估计。由于数据分组的方式对交叉验证的结果影响较大,因此,十重交叉验证过程将重复进行10次,对n个因子可能的集合将重复进行10×10次的交叉验证。 通过十重交叉验证,在一定程度上可以避免因数据转换的偶然性,使I类错误增大而产生假阳性结果的影响。预测误差是衡量MDR模型在独立检验的亚组中预测危险状态的指标,通过十重交叉验证的亚组中每一个的预测误差的平均值来计算。根据交叉验证的预测误差的平均值,选择最佳的Tl因子模型,并根据不同的因子数重复以上过程。最终筛选出最有可能存在交互作用的基因。 MDR的优势在于不需要考虑疾病的遗传模型,它利用计算机运算速度快的优势,对多个基因进行随机组合,按照上述方法找出存在交互作用的基因位点。但当主效应存在时,用MDR方法很难得到最终模型,且同样受遗传异质性的影响;它只是一种数据挖掘方法,不是严格意义上的统计方法,还无法判断它的I类错误和检验功效。 MDR分析软件包可在http://www.epistasis.org/mdr.html免费下载。 4基于复合LD的交互作用分析法 吴学森等Ⅲ’提出基于复合LD的交互作用的分析法。该方法以病例一对照试验设计为基础,基于LD计算方法,构建完全有别于以上方法的一种新型基因间交互作用的统计分析方法:(1)用两个位点(基因)单倍型的外显率(只。)与等位基因的边际外显率的乘积(Pa?P。)的偏差(6.口=PA。一只?P8),分别定义病例组和对照组两个位点交互作用的度量.进而综合两组交互作用度量构造检验交互作用的统计量;(2)对于基因一环境交互作用模型的构建,则将环境(分类型变量)变量视为“虚拟位点”(例如E=l表示环境暴露。E=0表示即非暴露),则同样依据上述方法构建其模型。4.1基因型数据的联合概率分布及其表达对于基因之间、基因与环境之间的交互作用统计量的构建,无论是二阶或高阶情形,均至少涉及两个变量。在本研究中,均以病例一对照试验设计为基础,个体的基因数据一律用其基因型表示。无论是病例组还是对照组,均设两个位点的等位基因分别为A,a;B,b,则它们的联合基因型分布可表述为表3的形式: 则.配子的LD系数为:6.。=%一PAP。;非配子的LD系数为:乳口=九日一只-匕,其中,P.e=尸竺+PAB舳+碟+P竺;JD∥。=P竺+P竺+P::+形:。但是,当计算病例组或对照组的6.。时,需要知道双杂合子的概率P苫、P::。然而。当它们的相未知时,则无法确定其值,只能进行单倍型推断。由于单倍型推断总是存在误差,这给后面构造的检验交互作 用的统计量带来很多不确  万方数据

GWAS原理剖析资料

全基因组关联分析(Genome-wide Association Study)是利用高通量基因分型技术,分析数以万计的单核苷酸多态性(SNPs)以及这些SNPs与临床表型和可测性状的相关性。简单地理解全基因组关联分析,GW AS就是标记辅助选择在全基因组范围上的应用,在全基因组层面上开展大样本的、多中心的、重复验证的技术,并对相关基因与复杂性状进行关联研究,从而全面地揭示出不同复杂性状的遗传机制和基础。GW AS是一项开创性的研究方法,因为它可以在以前很难达到的分辨率水平上对成千上万无关样本的全基因组进行研究,且不受与疾病有关的先验性假设的限制,GWAS在全基因组范围、零假设性较候选基因研究都迈出了重要的一步,而且随着高通量测序成本的降低,GW AS在人类疾病以及畜禽经济性状的研究上都表现出巨大的优势。 GW AS的优势除了可以一次性检测到数以万计的SNPs信息,从而提高试验效率以及检验功效以外,其还有其他两个显著的优势,主要表现在:(1)对未知信息的基因进行定位探索。传统的QTL定位仅仅限于对已知的候选基因进行分析探索,而GW AS是对全基因组的范围内的所有位点进行关联分析,因此其拥有更广泛的关联信息,相比候选基因分析GW AS 更有可能找到与性状真正关联的候选基因,因此不再受到预先假设的候选基因的限制。(2)对于GWAS在研究不同的复杂性状之前,不需要像以往的研究一样“盲目地”预设一些假定条件,而是通过在病理和对照组中,有目的地比较全基因组范围内所有SNPs的等位基因频率或者通过家系进行传递不平衡检验(TDT,Transmission disequilibrium test),从而找出与复杂性状显著相关的序列变异。到目前为止,利用全基因组关联分析研究已经挖掘出众多与各种复杂性状相关联的基因和染色体区域,在这些被新鉴定出的位点和区域中,只有小部分结果位于以前对这些性状研究的区域之中或者附近,绝大多数位于以前从未被研究过的区域,GW AS的研究结果表明以前没有被纳入研究的未知区域有可能对于复杂性状也是十分

玉米穗行数全基因组关联分析

作物学报 ACTA AGRONOMICA SINICA 2014, 40(1): 1?6 https://www.wendangku.net/doc/d47119938.html,/ ISSN 0496-3490; CODEN TSHPA9 E-mail: xbzw@https://www.wendangku.net/doc/d47119938.html, 本研究由国家自然科学基金项目(31201219)和国家重点基础研究发展计划(973计划)项目(2011CB100106)资助。 * 通讯作者(Corresponding authors): 翁建峰, E-mail: jfweng@https://www.wendangku.net/doc/d47119938.html,; 李新海, E-mail: lixinhai@https://www.wendangku.net/doc/d47119938.html, 第一作者联系方式: E-mail: zhanghuanxin150@https://www.wendangku.net/doc/d47119938.html, Received(收稿日期): 2013-06-19; Accepted(接受日期): 2013-09-16; Published online(网络出版日期): 2013-10-22. URL: https://www.wendangku.net/doc/d47119938.html,/kcms/detail/11.1809.S.20131022.1730.016.html DOI: 10.3724/SP.J.1006.2014.00001 玉米穗行数全基因组关联分析 张焕欣 翁建峰* 张晓聪 刘昌林 雍洪军 郝转芳 李新海* 中国农业科学院作物科学研究所 / 作物分子育种国家工程实验室, 北京100081 摘 要: 穗行数是玉米产量的重要组成性状, 其遗传解析对高产育种具有指导意义。本文以203份主要玉米自交系为材料, 2007年在新疆乌鲁木齐、吉林公主岭和海南三亚进行穗行数测定; 采用分布于玉米基因组的41 101个单核苷酸多态性(SNP)标记对穗行数进行关联分析。共鉴定出9个与穗行数显著关联(P < 0.0001)的SNP, 分别位于染色体框1.02、1.10、7.03、8.02、9.06和10.03。8个SNP 位于已定位的数量性状座位(QTL)区间内。在显著SNP 位点LD 区域内发掘出4个候选基因, 分别编码含F-box 结构域的生长素受体蛋白、玉米kn1蛋白、AP2结构域蛋白和富亮氨酸重复的跨膜蛋白激酶。采用全基因组关联分析策略发掘穗行数基因位点及候选基因, 将为克隆控制玉米产量性状基因奠定基础。 关键词: 玉米; 穗行数; 全基因组关联分析; 候选基因 Genome-wide Association Analysis of Kernel Row Number in Maize ZHANG Huan-Xin, WENG Jian-Feng *, ZHANG Xiao-Cong, LIU Chang-Lin, YONG Hong-Jun, HAO Zhuan-Fang, and LI Xin-Hai * Institute of Crop Science, Chinese Academy of Agricultural Sciences / National Engineer Laboratory of Crop Molecular Breeding, Beijing 100081, China Abstract: Kernel row number (KRN) is one of grain yield components in maize (Zea mays L.). Investigation of its genetic archi-tecture will help develop high-yield varieties in maize. In this study, the KRN in a panel of 203 maize inbred lines was detected in Urumqi of Xinjiang, Gongzhuling of Jilin, and Sanya of Hainan in 2007, and used to perform the genome-wide analysis for KRN using MaizeSNP50 BeadChip. A total of nine SNPs were found to be significantly associated with KRN at a threshold of P < 0.0001, which were on chromosome Bins 1.02, 1.10, 7.03, 8.02, 9.06, and 10.03, respectively. Eight of these SNPs were located in the QTL intervals reported previously. Meanwhile, four candidate genes were scanned, encoding auxin signaling F-box containing protein, kn1 protein, AP2 domain containing protein and leucine-rich repeat transmembrane protein kinase respectively. In sum-mary, these identified genes and SNPs will offer essential information for cloning yield-related genes in maize. Keywords: Maize; Kernel row number; Genome-wide association analysis; Candidate gene 玉米穗行数(kernel row number, KRN)形成于小穗分化期, 由小穗成对分生组织数目决定[1]。穗行数是决定玉米产量的主要构成因素, 属于数量性状, 广义遗传力较高[2], 其遗传解析对玉米高产育种具有指导意义。分子标记的发展使得QTL 作图成为解析穗行数遗传结构的有效方法[3]。目前, 关于穗行数定位研究报道较多, 影响穗行数的QTL 在玉米10条染色体上均有分布。Ma 等[4]利用综3×87-1构建 的294份重组自交系(recombinant inbred line, RIL)群体检测出13个穗行数QTL, 分别位于第1、第3、第4、第5、第8、第9和第10染色体。Lu 等[5]利用掖478×丹340的150个F 2:3家系共定位到13个控制穗行数的QTL, 位于染色体框7.03位点来自丹340的穗行数主效QTL qkrn7可解释平均表型变异17.86%。Guo 等[6]用郑58×昌7-2的231个F 2:3家系在两种播种密度下进行穗行数QTL 定位, 分别检测

相关文档