文档库 最新最全的文档下载
当前位置:文档库 › 基于基因表达芯片数据和DNA甲基化芯片数据识别人类结肠癌亚型

基于基因表达芯片数据和DNA甲基化芯片数据识别人类结肠癌亚型

基于基因表达芯片数据和DNA甲基化芯片数据识别人类结肠癌亚型
基于基因表达芯片数据和DNA甲基化芯片数据识别人类结肠癌亚型

中文摘要

人数占到了亚太地区的一半以上(发病:22.1:39.4万人;死亡:11:18.2)。在中国国内结直肠癌的发病也呈区域性分布,东南沿海等较发达地区相比于内地欠发达地区的发病率较高,其中浙江、上海、江苏、福建成为了中国结直肠癌的高发地区。据2010年深圳市的统计,10大恶性肿瘤发病第一位是肺癌,第二位为结直肠癌,结直肠癌占十大肿瘤患者比例的10.35%。总体上,结直肠癌已经成为中国人的第五大癌症杀手。为此科学家们投入了大量的精力和财力来研究结直肠癌。

结直肠癌在发病位置上分为结肠癌和直肠癌,直肠癌属于肠道的末端,因此在一些研究中将直肠癌和结肠癌区别研究。另外,直肠癌相比于结肠癌有较高的复发率,并且在治疗方案上也不同于结肠癌的治疗方案,它需要对所有直肠癌患者在术后进行辅助化疗。故此,在本研究中,只考虑结肠癌病例和结肠癌的相关特性。

众所周知,相同的癌症在不同个体身上的发病表现不同,相同的发病表现却需要不同的治疗方案;癌症的不同分期虽然反映了癌症的一些特性,也能够帮助临床医生制定针对特定分期的治疗方案,但是由于分子水平的变化导致的个体差异性使得相同的病理分期用相同的治疗方案却得到了不同的治疗结果。这一现象的根本原因就是目前无论是科学家还是临床医生对特定癌症在人体内部发生、进展、转移的分子机制了解的不多,不能达到个体化治疗的阶段。应对这一问题的方法就是在大量临床样本的支持下,在癌症的某一分子水平上利用生物信息学的方法进行系统研究,比如说在基因表达水平利用基因表达芯片研究癌症组织和癌旁组织基因表达的差异,来探寻导致癌症发生的原因或者寻找因癌症带来的某些基因表达水平的改变。在国外有大量的对结肠癌类似的研究,他们针对特定结肠癌病理分期的样本,比如StageII或者DukeB分期研究导致这一病理分期的分子机制和相应的治疗靶点以及治疗方案。

另外,还有针对大量的结肠癌样本在基因表达水平、MicroRNA表达水平、DNA甲基化水平进行结肠癌亚型的分析。由于使用了较大样本量和较先进的分析方法,针对结肠癌的各表达水平的亚型分类具有一定的可靠性。同时利用基

全基因组表达谱分析方法(DGE)

全基因组表达谱分析方法(DGE)----基于新一代测序技术的 技术路线 该方法首先从每个mRNA的3’端酶切得到一段21bp的TAG片段(特异性标记该基因);然后通过高通量测序,得到大量的TAG序列,不同的TAG序列的数量就代表了相应基因的表达量;通过生物信息学分析得到TAG代表的基因、基因表达水平、以及样品间基因表达差异等信息。技术路线如下: 1、样品准备: a) 提供浓度≥300ng/ul、总量≥6ug、OD260/280为1.8~2.2的总RNA样品; 2、样品制备(见图1-1): a) 类似SAGE技术,通过特异性酶切的方法从每个mRNA的3’末端得到一段21bp 的特异性片段,用来标记该基因,称为TAG; b) 在TAG片段两端连接上用于测序的接头引物; 3、上机测序: a) 通过高通量测序每个样品可以得到至少250万条TAG序列; 4、基本信息分析: a) 对原始数据进行基本处理,得到高质量的TAG序列; b) 通过统计每个TAG序列的数量,得到该TAG标记的基因的表达量; c) 对TAG进行注释,建立TAG和基因的对应关系; d) 基因在正义链和反义链上表达量间的关系; e) 其它统计分析; 5、高级信息分析: a) 基因在样品间差异表达分析; b) 库容量饱和度分析;

c) 其它分析; 测序优势 利用高通量测序进行表达谱研究的优势很明显,具体如下: 1.数字化信号:直接测定每个基因的特异性表达标签序列,通过计数表达标签序列的数目来确定该基因的表达量,大大提高了定量分析的准确度。整体表达差异分布符合正态分布,不会因为不同批次实验引起不必要的误差。 2.可重复性高:不同批次的表达谱度量准确,能够更准确的进行表达差异分析。 3.高灵敏度:对于表达差异不大的基因能够灵敏的检测其表达差异;能够检测出低丰度的表达基因。 4.全基因组分析,高性价比:由于该技术不用事先设计探针,而是直接测序的方式,因此无需了解物种基因信息,可以直接对任何物种进行包括未知基因在内的全基因组表达谱分析,因此性价比很高。 5.高通量测序:已有数据表明,当测序通量达到200万个表达标签时,即可得到样本中接近全部表达基因的表达量数据,而目前每个样本分析可以得到300 万~600万个表达标签。

基因表达谱芯片的数据分析

基因表达谱芯片的数据分析(2012-03-13 15:25:58)转载▼ 标签:杂谈分类:生物信息 摘要 基因芯片数据分析的目的就是从看似杂乱无序的数据中找出它固有的规律, 本文根据数据分析的目的, 从差异基因表达分析、聚类分析、判别分析以及其它分析等角度对芯片数据分析进行综述, 并对每一种方法的优缺点进行评述, 为正确选用基因芯片数据分析方法提供参考. 关键词: 基因芯片; 数据分析; 差异基因表达; 聚类分析; 判别分析 吴斌, 沈自尹. 基因表达谱芯片的数据分析. 世界华人消化杂志2006;14(1):68-74 https://www.wendangku.net/doc/df2904809.html,/1009-3079/14/68.asp 0 引言 基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析, 通过有效数据的筛选和相关基因表达谱的聚类, 最终整合杂交点的生物学信息, 发现基因的表达谱与功能可能存在的联系. 然而每次实验都产生海量数据, 如何解读芯片上成千上万个基因点的杂交信息, 将无机的信息数据与有机的生命活动联系起来, 阐释生命特征和规律以及基因的功能, 是生物信息学研究的重要课题[1]. 基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析, 假如分类还没有形成, 非监督分析和聚类方法是恰当的分析方法; 假如分类已经存在, 则监督分析和判别方法就比非监督分析和聚类方法更有效率。根据研究目的的不同[2,3], 我们对基因芯片数据分析方法分类如下: (1)差异基因表达分析: 基因芯片可用于监测基因在不同组织样品中的表达差异, 例如在正常细胞和肿瘤细胞中; (2)聚类分析: 分析基因或样本之间的相互关系, 使用的统计方法主要是聚类分析; (3)判别分析: 以某些在不同样品中表达差异显著的基因作为模版, 通过判别分析就可建立有效的疾病诊断方法. 1 差异基因表达分析(difference expression, DE) 对于使用参照实验设计进行的重复实验, 可以对2样本的基因表达数据进行差异基因表达分

基因表达谱测序

基因表达谱测序 背景介绍 基因表达谱分析利用HiSeq 2000高通量测序平台对mRNA进行测序,获得10M读长为49nt的原始reads,每一个reads可以对应到相应的转录本,从而研究基因的表达差异情况。与转录组测序相比,基因表达谱分析要求的读长更短,测序通量更小,仅可用于基因表达差异的研究。该方法具有定量准、可重复性高、检测阈值宽、成本低等特点,能很好的替代以往的数字化表达谱分析。 技术路线

生物信息学分析 送样要求 样品要求 1. 所需Total RNA 的量均不少于 20μg/文库,Total RNA 可以保存在DEPC 处理过的水中、75%的乙醇、异丙醇中,具体以什么方式保存请注明。 2. 如提供实验材料为动物组织材料,样品质量需大于2g ; 3. 如提供实验材料为植物样品,样品质量需大于4g ; 4. 如提供实验材料为培养细胞,请提供1×107培养好的细胞; 5. 如提供实验材料为血液样品,请提供≥2ml 的样品。 我们强烈建议在送样的同时客户做好备份,以备后续实验之用。 样品纯度要求 1. OD 260/OD 280在1.8- 2.0之间,RNA 无降解、28S 和18S 核糖体RNA 条带非常亮且清晰(其

大小决定于用于抽提RNA的物种类型),28S的密度大约是18S的2倍;Agilent 2100检测仪分析RNA完整性数据RIN≥8。 2. 无蛋白质、基因组DNA污染,如有污染请去蛋白并进行DNase I处理。 请提供至少一种样品的凝胶电泳或者Agilent 2100检测仪检测图片,并注明其浓度、体积、OD260/OD280、溶剂名称、制备时间、物种来源以及特别备注。最终以我方定量、质检为准。 样品采集 为了保证提取RNA的完整性,确保后续实验的顺利进行,请务必确保样品的新鲜,对于如何确保样品的新鲜针对不同的样品获取材料的方法如下: 1. 动物组织:从活体上迅速的取下组织(切成黄豆粒大小的块状),每切成一个黄豆粒大小的块状立即放入液氮中,重复上述操作,直至足够提取总RNA的量;准备一个50ml的离心管,做相应的标记(样品名称、编号、客户姓名、时间),最好既在管盖上做好标记,也在管壁上做好相应的标记,先放入液氮中预冷2-3min,拿出离心管(离心管的下部分还是保持在液氮中),打开离心管的盖子,将液氮中黄豆粒大小的块状收集进离心管中。 2. 植物组织: (1)如所采集的是果实、麦穗等体积偏大的样品,收集样品请参照1.动物组织取样方法;(2)如采集的是叶片等体积偏小的样品,请尽量采集嫩叶、幼芽等,每采集一片叶片立即放入液氮中,直至足够提取总RNA的量,后续操作请参照动物组织的采集。 (3)如是植物的花,在采集花骨朵的时候请尽量不要采集到花萼、叶片等,每采集一个花骨朵请立即放入液氮中,直至足够提取总RNA的量;后续操作请参照动物组织的采集。3. 如提供实验材料为菌丝体,请取500μl的菌液于1.5ml离心管中,离心去上清,剩余菌丝体放入液氮或干冰中,请提供不少于5管的菌丝体。 样品运输 从液氮中取出准备好的样品,请立即放入干冰中,并用干冰掩埋好样品。请填写完整订单,放入自封袋中与样品一起邮寄。为防止RNA的降解,请确保干冰的量足够运送到目的地。我们强烈建议在寄送RNA样品时将RNA保存在75%的乙醇或异丙醇中。 如是特殊样品,关于送样量和保存问题请与我们联系沟通,以便双方共同协商解决。 提供结果 根据客户需求,提供不同深度的信息分析结果。

真核生物基因表达的调控

真核生物基因表达的调控 一、生物基因表达的调控的共性 首先,我们来看看在生物基因表达调控这一过程中体现的共性和一些基本模式。 1、作用范围。生物体内的基因分为管家基因和奢侈基因。管家基因始终表达,奢侈基因只在需要的时候表达,但二者的表达都受到调控。可见,调控是普遍存在的现象。 2、调控方式。基因表达有两种调控方式,即正调控与负调控,原核生物和真核生物都离不开这两种模式。 3、调控水平。一种基因表达的调控可以在多种层面上展开,包括DNA水平、转录水平、转录后加工水平、翻译后加工水平等。然为节省能量起见,转录的起始阶段往往作为最佳调控位点。 二、真核生物基因表达调控的特点 真核生物与原核细胞在结构上就有着诸多不同,这决定了二者在运行方面的迥异途径。真核生物比原核生物复杂,转录与翻译不同时也不同地,基因组与染色体结构复杂,因而有着更为复杂的调控机制。 1、 2、 3、 4、多层次。真核生物的基因表达可发生在染色质水平、转录起始水平、无操纵子和衰减子。 大多数原核生物以负调控为主,而真核生物启动子以正调控为主。 个体发育复杂,而受环境影响较小。真核生物多为多细胞生物,在转录后水平、翻译水平以及翻译后水平。

生长发育过程中,不仅要随细胞内外环境的变化调节基因表达,还要随发育的不同阶段表达不同基因。前者为短期调控,后者属长期调控。 从整体上看,不可逆的长期调控影响更深远。 三、真核生物基因表达调控的机制 介于真核生物表达以多层次性为最主要特点,我们可以分别从它的几个水平着眼,剖析它的调控机制。 1、染色质水平。真核生物基因组DNA以致密的染色质形式存在,发生在染色质水平的调控也称作转录前水平的调控,产生永久性DNA序列和染色质结构的变化,往往伴随细胞分化。染色质水平的调控包括染色质丢失、基因扩增、基因重排、染色体DNA的修饰,等等。a.基因丢失:丢失一段DNA或整条染色体的现象。在细胞分化过程中,可以通过丢失掉某些基因而去除这些基因的活性。某些原生动物、线虫、昆虫和甲壳类动物在个体发育中,许多体细胞常常丢失掉整条或部分的染色体,只有将来分化产生生殖细胞的那些细胞一直保留着整套的染色体。如马蛔虫2n=2,但染色体上有多个着丝粒。第一次卵裂是横裂,产生上下2个子细胞。第二次卵裂时,一个子细胞仍进行横裂,保持完整的基因组,而另一个子细胞却进行纵向分裂,丢失部分染色体。目前,在高等真核生物(包括动物、植物)中尚未发现类似的基因丢失现象。 b.基因扩增:基因扩增是指某些基因的拷贝数专一性增大的现象,它使得细胞在短期内产生大量的基因产物以满足生长发育的需要,是基因活性调控的一种方式。如非洲爪蟾卵母细胞中rDNA的基因扩增是因发育需要而出现的基因扩增现象;基因组拷贝数增加,即多倍性,在植物中是非常普遍的现象。基因组拷贝数增加使可供遗传重组的物质增多,这可能构成了加速基因进化、基因组重组和最终物种形成的一种方式。 c.基因重排:将一个基因从远离启动子的地方移到距它很近的位点从而启动转录,这种方式被称为基因重排。通过基因重排调节基因活性的典型例子是免疫球蛋白结构基因的表达。在人类基因组中,所有抗体的重链和轻链都不是由固定的完整基因编码的,而是由不同基因片段经重排后形成的完整基因编码的。

第24章 基因表达谱分析的生物信息学方法思考与练习参考答案

第24章 基因表达谱分析的生物信息学方法 思考与练习参考答案 1.据教材表24–3提供的数据信息可以构建一棵决策树,请利用最大信息增益方法写出如何选出根结点中用于分割的特征。 教材表24-3 天气情况与是否去打球的关系数据集 注:该信息表示根据天气情况决定是否出去打球,数据集共包含14个样本,两个类别信息(Yes 、No ),每个样本包含3 个特征信息(Outlook 、Temp 、Windy )。 解:计算用每一个特征进行分割时所获取的信息增益,取信息增益最大的那个特征作为分割特征,以Outlook 特征为例计算(参照练习图24-1) 练习图24-1 同Outlook 特征进行分割所获得的信息增益 )14 9 log 149145 log 145()(220+-=S H

)5 2 log 5253 log 53()(2211+-=S H 0)4 4 log 44()(212=-=S H )52 log 5253 log 53()(2213+-=S H )(14 5 )(144)(145)(1312111S H S H S H S H ++= infor-gain (Outlook )=)()(10S H S H - 同理,计算其他两个特征的信息增益,最后从三个值中选取最大的一个对应的特征作为根结点的分割特征。 2.请从https://www.wendangku.net/doc/df2904809.html,/上下载一原始未经标准化的表达谱数据,并对该数据进行如下分析: (1)对数据进行标准化处理。 (2)对数据进行分类分析。 (3)分别对基因和样本进行聚类分析。 (4)选择特征基因。 (答案略)

基因芯片的数据分析

基因表达谱芯片的数据分析 基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析,通过有效数据的筛选和相关基因表达谱的聚类,最终整合杂交点的生物学信息,发现基因的表达谱与功能可能存在的联系。然而每次实验都产生海量数据,如何解读芯片上成千上万个基因点的杂交信息,将无机的信息数据与有机的生命活动联系起来,阐释生命特征和规律以及基因的功能,是生物信息学研究的重要课题[1]。基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析,假如分类还没有形成,非监督分析和聚类方法是恰当的分析方法;假如分类已经存在,则监督分析和判别方法就比非监督分析和聚类方法更有效率。根据研究目的的不同[2,3],我们对基因芯片数据分析方法分类如下。(1)差异基因表达分析:基因芯片可用于监测基因在不同组织样品中的表达差异,例如在正常细胞和肿瘤细胞中;(2)聚类分析:分析基因或样本之间的相互关系,使用的统计方法主要是聚类分析;(3)判别分析:以某些在不同样品中表达差异显著的基因作为模版,通过判别分析就可建立有效的疾病诊断方法。 1 差异基因表达分析(difference expression, DE) 对于使用参照实验设计进行的重复实验,可以对2样本的基因表达数据进行差异基因表达分析,具体方法包括倍数分析、t检验、方差分析等。 1.1倍数变化(fold change, FC) 倍数分析是最早应用于基因芯片数据分析的方法[4],该方法是通过对基因芯片的ratio值从大到小排序,ratio 是cy3/cy5的比值,又称R/G值。一般0.5-2.0范围内的基因不存在显著表达差异,该范围之外则认为基因的表达出现显著改变。由于实验条件的不同,此阈值范围会根据可信区间应有所调整[5,6]。处理后得到的信息再根据不同要求以各种形式输出,如柱形图、饼形图、点图等。该方法的优点是需要的芯片少,节约研究成本;缺点是结论过于简单,很难发现更高层次功能的线索;除了有非常显著的倍数变化的基因外,其它变化小的基因的可靠性就值得怀疑了;这种方法对于预实验或实验初筛是可行的[7]。此外倍数取值是任意的,而且可能是不恰当的,例如,假如以2倍为标准筛选差异表达基因,有可能没有1条入选,结果敏感性为0,同样也可能出现很多差异表达基因,结果使人认为倍数筛选法是在盲目的推测[8,9]。 1.2 t检验(t-test) 差异基因表达分析的另一种方法是t检验[10],当t超过根据可信度选择的标准时,比较

基因表达

生物信息前沿研究进展讲座结课论文 ——基因表达调控网络研究文献综述 物理学院张玉萍 10304830 摘要 近些年来,基因序列测序的完成、大规模测定基因表达水平的基因芯片(Microarray)技术的出现和高性能计算机的使用使得用模拟计算的方法大规模的研究基因表达调控成为可能,一些研究者已经开始绘制控制整个活细胞基因表达的调控网络。例如λ噬菌体的溶原/裂解活性的调控网络的数学模型已经构建出来。用数学模型的方法预测网络结构是目前研究的热点。本文对表达转录调控网络的研究现状进行综述。 基因表达调控网络 Wyrick(2002)[1] 中给出了一个基因表达调控网络的定义:一组调控因子如何调控一套基因表达的过程称为基因表达调控网络。基因表达调控网络是基因调控网络的一个重要部分。参与基因表达调控网络的元素主要包括cDNA、mRNA、蛋白、小分子等。从元素间相互联系的角度来看,基因表达调控网络是一个由节点(调控元素)、边(调控作用)组成的一个有向图结构。如图1 图1:简单基因网络结构示意图 图中每一个圆圈代表一个节点,也就是调控网络的元素,如基因。有向箭头表示表达增强作用,末端断线表示表达抑制作用。在基因网络中,存在基因对自身表达的自调控的现象。 总的来说表达调控网络有如下特点:

A:网络结构复杂 网络中节点和边的数目庞大。在人体中总共有3万到4万左右的基因,而且真核生物中大多数的基因会同时被两个和两个以上的基因调控,这就使网络形成了一个非常高维的结构。 B:网络结构变化 生物学的实验表明,相同的基因在人和动物的细胞周期中可以参加不同的生理过程,实现不同的生理功能。还有一些基因只在某些时刻和特定的外界条件下是有相互作用的,在其他条件下不会发生作用。简单的说就是两个基因间的那条边是否存在、作用的方向在不同时期是可能不一样的。 C:相互作用类型多变 在生物体中,基因间相互作用可以有很多类型(如图1),包括了很多作用的特征:两个基因间谁影响谁、影响的方式、增强的作用还是抑制的作用、影响产生的条件、影响的强弱量级、被调控基因的表达量和调控基因的表达量直接的关系等。目前的研究表明,基因间的相互作用可能是一种非线形的作用关系。在多因子调控模式中还要考虑不同的调控因子对同一个目标调控基因产生作用时的某种逻辑关系,这种逻辑关系是由调控模式中各调控因子的相互关系决定。 D:节点类型多样 网络节点的元素可以是DNA、mRNA、蛋白、分子、大分子、外界环境等等。 E:节点状态变化 在细胞周期过程中,每一个基因的表达量不是固定的,会随着条件的变化而变化、蛋白质在不断的合成,同时也在不断的被降解。在不同的调控模式下,蛋白合成和降解的比率会发生变化,从而会使蛋白处在不同的水平上。基因的表达量的变化会影响到相互作用的变化,会引起网络结构的变化。 F:有向循环结构 在生物体中各种生理上的周期现象,我们很容易理解生物体中的相互作用存在周期性。至少在网络的局部上是循环的。在已经研究的比较多的低等生物E.coli的表达调控网络[2]中已经发现了循环的结构。 表达转录调控网络的研究现状 目前关于基因调控的绝大部分问题还没有解决。除了生物学家努力通过新的实验技术和生物理论来研究问题外,近几年,利用数学、统计学、神经网络、人工智能等方法在计算机上分析模拟表达调控机理,是计算分子生物学方面一个飞速发展的方向。由于分析模型的不同和采用的数据类型的差异,目前研究主要分为两个方面:基于基因芯片数据的关系推断模型和基于基因序列信息的调控因子结合位点推断模型。 下面分别就这两个方面的一些方法做一个简要介绍。 (一)基于基因芯片数据的关系推断方法 基因芯片的数据形式为:

真核生物的基因表达调控机制

一、真核基因组的复杂性 与原核生物比较,真核生物的基因组更为复杂,可列举如下。 1. 真核基因组比原核基因组大得多,大肠杆菌基因组约4×106bp,哺乳类基因组在 109bp数量级,比细菌大千倍;大肠杆菌约有4000个基因,人则约有10万个基因。 2. 真核生物主要的遗传物质与组蛋白等构成染色质,被包裹在核膜内,核外还有遗传 成分(如线粒体DNA等),这就增加了基因表达调控的层次和复杂性。 3. 原核生物的基因组基本上是单倍体,而真核基因组是二倍体。 4. 如前所述,细菌多数基因按功能相关成串排列,组成操纵元的基因表达调控的单元, 共同开启或关闭,转录出多顺反子(polycistron)的mRNA;真核生物则是一个结构基因转录生成一条mRNA,即mRNA是单顺反子(monocistron),基本上没有操纵元的结构,而真核细胞的许多活性蛋白是由相同和不同的多肽形成的亚基构成的,这就涉及到多个基因协调表达的问题,真核生物基因协调表达要比原核生物复杂得多。 5. 原核基因组的大部分序列都为基因编码,而核酸杂交等实验表明:哺乳类基因组中 仅约10%的序列为蛋白质、rRNA、tRNA等编码,其余约90%的序列功能至今还不清楚。 6. 原核生物的基因为蛋白质编码的序列绝大多数是连续的,而真核生物为蛋白质编码 的基因绝大多数是不连续的,即有外显子(exon)和内含子(intron),转录后需经剪接(splicing)去除内含子,才能翻译获得完整的蛋白质,这就增加了基因表达调控的环节。 7. 原核基因组中除rRNA、tRNA基因有多个拷贝外,重复序列不多。哺乳动物基因组 中则存在大量重复序列(repetitive sequences)。用复性动力学等实验表明有三类重复序列:1)高度重复序列(highly repetitive sequences),这类序列一般较短,长10-300bp,在哺乳类基因组中重复106次左右,占基因组DNA序列总量的10-60%,人的基因组中这类序列约占20%,功能还不明了。2)中度重复序列(moderately repetitive sequences),这类序列多数长100-500bp,重复101-105次,占基因组10-40%。例如哺乳类中含量最多的一种称为Alu的序列,长约300bp,在哺乳类不同种属间相似,在基因组中重复3×105次,在人的基因组中约占7%,功能也还不很清楚。在人的基因组中18S/28SrRNA基因重复280次,5SrRNA基因重复2000次,tRNA基因重复1300次,5种组蛋白的基因串连成簇重复30-40次,这些基因都可归入中度重复序列范围。3)单拷贝序列(single copy sequences)。这类序列基本上不重复,占哺乳类基因组的50-80%,在人基因组中约占65%。绝大多数真核生物为蛋白质编码的基因在单倍体基因组中都不重复,是单拷贝的基因。 从上述可见真核基因组比原核基因组复杂得多,至今人类对真核基因组的认识还很有限,使现在国际上制订的人基因组研究计划(human gene project)完成,绘出人全部基因的染色体定位图,测出人基因组109bp全部DNA序列后,要搞清楚人全部基因的功能及其相互关系,特别是要明了基因表达调控的全部规律,还需要经历很长期艰巨的研究过程。 二、真核基因表达调控的特点 尽管我们现在对真核基因表达调控知道还不多,但与原核生物比较它具有一些明显的特点。

真核生物基因表达调控

第十章作业 1. 简述真核生物基因表达调控的7个层次。 ①染色体和染色质水平上的结构变化与基因活化 ②转录水平上的调控,包括基因的开与关,转录效率的高与低 ③RNA加工水平的调控,包括对出事转录产物的特异性剪接、修饰、编辑等。 ④转录后加工产物在从细胞核向细胞质转运过程中所受到的调控 ⑤在翻译水平上的控制,即对哪一种mRNA结合核糖体进行翻译的选择以及蛋白质成量的控制 ⑥对蛋白质合成后选择性地被激活的控制,蛋白质和酶分子水平上的剪接等的控制 ⑦对mRNA选择性降解的调控 2. 真核基因表达调控与原核生物相比有何异同? 相同点:①与原核基因的调控一样,真核基因表达调控也有转录水平调控和转录后水平的调控,并且也以转录水平调控为最重要; ②在真核结构基因的上游和下游(甚至内部)也存在着许多特异的调控成分,并依靠特异蛋白因子与这些调控成分的结合与否调控基因的转录。 不同点:①原核细胞的染色质是裸露的DNA,而真核细胞染色质则是由DNA与组蛋白紧密结合形成的核小体。 ②在原核基因转录的调控中,既有激活物参与的正调控,也有阻遏物参与的负调控,二者同等重要。 ③原核基因的转录和翻译通常是相互偶联的,即在转录尚未完成之前翻译便已开始。 ④真核生物大都为多细胞生物,在个体发育过程中发生细胞分化后,不同细胞的功能不同,基因表达的情况也就不一样,某些基因仅特异地在某种细胞中表达,称为细胞特异性或组织特异性表达,因而具有调控这种特异性表达的机制。 3. DNA 甲基化对基因表达的调控机制。 甲基化抑制基因转录的机制:DNA甲基化会导致某些区域DNA构象改变,包括甲基化后染色质对于核酸酶或限制性内切酶的敏感度下降,更容易与组蛋白H1相结合,DNaseⅠ超敏感位点丢失,使染色质高度螺旋化, 凝缩成团, 直接影响了转录因子与启动区DNA的结合效率的结合活性,不能启始基因转录。DNA的甲基化不利于模板与RNA聚合酶的结合,降低了转录活性。 4. 转录因子结合DNA的结构基序(结构域)有哪几类? ①螺旋-转折-螺旋 ②锌指结构 ③碱性-亮氨酸拉链 ④碱性-螺旋-环-螺旋 5. 真核基因转调控中有几种方式能够置换核小体? ①占先模式:可以解释转录时染色质结构的变化。该模型认为基因能否转录取决于特定位置上组蛋白和转录因子之间的不可逆竞争性结合。 ②动态模式该模型认为转录因子与组蛋白处于动态竞争之中,基因转录前染色质必须经历结构上的改变,即转换核小体中的全部或部分成分并重新组装,这个耗能的基因活化过程称为染色质重构 6. 简述真核生物转录水平调控过程。 真核生物在转录水平的调控主要是通过反式作用因子、顺式作用元件和RNA聚合酶的相互作用来完成的,主要是反式作用因子结合顺式作用元件后影响转录起始复合物的形成过程:①转录起始复合物的形成:真核生物RNA聚合酶识别的是由通用转录因子与DNA形成的

从基因表达数据中发现知识摘要

从基因表达数据中发现知识 摘要 OPSM模型作为一种基于模式的双聚类方法,在分析基因数据矩阵等方面被广泛的应用。在一个OPSM聚类中,形成聚类的若干基因在特定的条件子集下有一致的表达模式。这种关联的共同表达隐含着基因的关联调控。所以在基因数据矩阵上进行的双聚类分析有极大的生物意义。将挖掘OPSM聚类,转化为序列模式挖掘,双聚类问题就转化为频繁项集的挖掘问题。然而随着越来越多的基因被发现,基因数据矩阵变得越来越庞大。目前针对基因表达数据的双聚类算法都存在时间效率较低的问题。这给频繁项集的发现带来了困难。特别是一些支持度较小的长频繁项集,更是以往的双聚类方法难以发现的有意义信息。Deep-OPSM问题,针对基因数据矩阵中一些支持度较小的长频繁模式的挖掘。将在基因数据分析上有更大的生物意义。但现有的双聚类模型,在针对大型基因数据矩阵的分析时,性能都会受到严重影响。以致于一些隐含在大型基因数据矩阵的深层意义信息难以被发现。所以亟需更加高效的寻找OPSM的方法。 本文根据OPSM模型,建立了一个快速有效的精确性寻找方法,来挖掘分散在基因数据矩阵中的OPSM聚类。首先在基因数据矩阵中的每两行寻找其公共子序列,然后利用STL map,在整个基因数据矩阵的范围内,对找到的公共子序列进行支持度的统计,并将达到支持度阈值的OPSM聚类输出。实验证明该方法能够快速地找到符合条件的OPSM聚类,并且能够通过条件存储,针对长频繁模式进行寻找分析,挖掘出更具生物意义的Deep-OPSM聚类。此外,通过条件存储,可以在多台计算机上实现并行计算,提高分析处理速度,适应大型数据矩阵的分析需求。最后从生物学的角度,验证了该方法的可行性。 关键词:OPSM,序列模式,Deep-OPSM,STL map

基因芯片数据功能分析

生物信息学在基因芯片数据功能分析中的应用 2009-4-29 随着人类基因组计划(Human Genome Project)即全部核苷酸测序的即将完成,人类基因组研究的重心逐渐进入后基因组时代(Postgenome Era),向基因的功能及基因的多样性倾斜。通过对个体在不同生长发育阶段或不同生理状态下大量基因表达的平行分析,研究相应基因在生物体内的功能,阐明不同层次多基因协同作用的机理,进而在人类重大疾病如癌症、心血管疾病的发病机理、诊断治疗、药物开发等方面的研究发挥巨大的作用。它将大大推动人类结构基因组及功能基因组的各项基因组研究计划。生物信息学在基因组学中发挥着重大的作用, 而另一项崭新的技术——基因芯片已经成为大规模探索和提取生物分子信息的强有力手段,将在后基因组研究中发挥突出的作用。基因芯片与生物信息学是相辅相成的,基因芯片技术本身是为了解决如何快速获得庞大遗传信息而发展起来的,可以为生物信息学研究提供必需的数据库,同时基因芯片的数据分析也极大地依赖于生物信息学,因此两者的结合给分子生物学研究提供了一条快捷通道。 本文介绍了几种常用的基因功能分析方法和工具: 一、GO基因本体论分类法 最先出现的芯片数据基因功能分析法是GO分类法。Gene Ontology(GO,即基因本体论)数据库是一个较大的公开的生物分类学网络资源的一部分,它包含38675 个Entrez Gene注释基因中的17348个,并把它们的功能分为三类:分子功能,生物学过程和细胞组分。在每一个分类中,都提供一个描述功能信息的分级结构。这样,GO中每一个分类术语都以一种被称为定向非循环图表(DAGs)的结构组织起来。研究者可以通过GO分类号和各种GO数据库相关分析工具将分类与具体基因联系起来,从而对这个基因的功能进行描述。在芯片的数据分析中,研究者可以找出哪些变化基因属于一个共同的GO功能分支,并用统计学方法检定结果是否具有统计学意义,从而得出变化基因主要参与了哪些生物功能。 EASE(Expressing Analysis Systematic Explorer)是比较早的用于芯片功能分析的网络平台。由美国国立卫生研究院(NIH)的研究人员开发。研究者可以用多种不同的格式将芯片中得到的基因导入EASE 进行分析,EASE会找出这一系列的基因都存在于哪些GO分类中。其最主要特点是提供了一些统计学选项以判断得到的GO分类是否符合统计学标准。EASE 能进行的统计学检验主要包括Fisher 精确概率检验,或是对Fisher精确概率检验进行了修饰的EASE 得分(EASE score)。 由于进行统计学检验的GO分类的数量很多,所以EASE采取了一系列方法对“多重检验”的结果进行校正。这些方法包括弗朗尼校正法(Bonferroni),本杰明假阳性率法(Benjamini falsediscovery rate)和靴带法(bootstraping)。同年出现的基于GO分类的芯片基因功能分析平台还有底特律韦恩大学开发的Onto-Express。2002年,挪威大学和乌普萨拉大学联合推出的Rosetta 系统将GO分类与基因表达数据相联系,引入了“最小决定法则”(minimal decision rules)的概念。它的基本思想是在对多张芯片结果进行聚类分析之后,与表达模式

基因表达谱芯片数据分析及其Bioconductor实现

基因表达谱芯片数据分析及其Bioconductor实现 1.表达谱芯片及其应用 表达谱DNA芯片(DNA microarrays for gene expression profiles)是指将大量DNA片段或寡核昔酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片,待测样品中的mRNA被提取后,通过逆转录获得cDNA,并在此过程中标记荧光,然后与包含上千个基因的DNA芯片进行杂交反应30min~20h后,将芯片上未发生结合反应的片段洗去,再对玻片进行激光共聚焦扫描,测定芯片上个点的荧光强度,从而推算出待测样品中各种基因的表达水平。用于硏究基因表达的芯片可以有两种:①cDNA芯片;② 寡核昔酸芯片。 cDNA芯片技术及载有较长片段的寡核昔酸芯片采用双色荧光系统:U前常用Cy3—dUTP (绿色)标记对照组mRNA, Cy5—dUTP (红色)标记样品组mRNAUl。用不同波长的荧光扫描芯片,将扫描所得每一点荧光信号值自动输入计?算机并进行信息处理,给出每个点在不同波长下的荧光强度值及其比值(ratio值),同时计算机还给出直观的显色图。在样品中呈高表达的基因其杂交点呈红色,相反,在对照组中高表达的基因其杂交点呈绿色,在两组中表达水平相当的显黄色,这些信号就代表了样品中基因的转录表达情况⑵。 基因芯片因具有高效率,高通量、高精度以及能平行对照研究等特点,被迅速应用于动、植物和人类基因的研究领域,如病原微生物毒力相关基因的。基因表达谱可直接检测mRNA的种类及丰度,可以同时分析上万个基因的表达变化,来揭示基因之间表达变化的相互关系。表达谱芯片可用于研究:①同一个体在同一时间里,不同基因的表达差异。芯片上固定的已知序列的cDNA或寡聚核昔酸最多可以达到30 000多个序列,与人类全基因组基因数相当,所以基因芯片一次反应儿乎就能够分析整个人的基因⑶。②同一个体在不同时间里,相同基因的表达差异。 ③不同个体的相同基因表达上的差异。利用基因芯片可以分析多个样本,同时筛选不同样本(如肿瘤组织、癌前病变和正常组织)之间差异表达的基因,这样可以避免了芯片间的变异造成的误差⑷。张辛燕⑸ 等将512个人癌基因和抑癌基因的cDNA用点样仪点在特制玻片上制成表达谱芯片,对正常人卵巢组织及卵巢癌组织基因表达的差异性进行比较研究,结果发现在卵巢癌组织中下调的基因有23个,上调的基因有15个,初步筛选出了卵巢癌相关基因。Lowe⑹等利用胰腺癌、问充质细胞癌等组织的cDNA制备基因芯片,筛选到胰腺癌细胞中高表达的基因,为医疗诊断、病理研究及新药设计 奠定基础。 2.表达谱芯片的数据处理技术

真核生物与原核生物基因表达调控的区别

原核生物和真核生物基因表达调控特点的比较1.相同点:转录起始是基因表达调控的关键环节2.不同点:A.原核基因的表达调控主要包括转录和翻译水平 真核基因的表达调 控主要包括染色质活化、转录、转录后加工、翻译、翻译后加工多个层次B.原核基因表达调控主要为负调控,真核主要为正调控C.原核转录不需要转录因子,RNA聚合酶直接结合启 动子,由sita因子决定基因表的的特异性 真核基因转录起始需要基础特异两类转录因子 依赖DNA-蛋白质、蛋白质-蛋白质相互作用 调控转录激活D.原核基因表达调控主要采用操纵子模型 转录出多顺反子RNA 实现协调调节 真核基因转录产物为单顺反子RNA 功能相关蛋白的协调表达机制更为复杂。真核生物基因表达调控的环节主要在转录水平 其次是翻译水平。原核生物基因以操纵子的形式存在。转录水平调控涉及到启动子、sita因子 与RNA聚合酶结合 、阻遏蛋白 负调控 、正调控蛋白、倒位蛋白、RNA聚合酶抑制物、衰减子等。翻译水平的调控涉及SD序列、mRNA的稳定性 不稳定(5’端和3’端的发夹结构可保护不被酶水解mRNA的5’端与核糖体结合 可明显提高稳定性)、翻译产物及小分子RNA的调控作用。真核生物基因表达的调控环节较多 在DNA水平上可以通过染色体 丢失、基因扩增、基因重排、DNA甲基化、染色体结构改变影响基因表达。在转录水平主要通过反式作用因子调控转录因子与TATA盒的结合、RNA聚合酶与转录因子-DNA复合物的结合及转录起始复合物的形成。在转录后水平主要通过RNA修饰、剪接及mRNA运输的控制来影响基因表达。在翻译水平有影响起始翻译的阻遏蛋白、5’AUG、5’端非编码区长度、mRNA 的稳定性调节及小分子RNA。真核基因调控中最重要的环节是基因转录 真核生物基因表达需要转录因子、启动子、沉默子和增强子。葡萄糖存在 乳糖不存在 此时无诱导剂

基因表达谱聚类

基因表达谱聚类分析 [ 文章来源:| 文章作者:| 发布时间:2006-12-21| 字体:[大中小] 学习过程可以采用从全局到局部的策略。采取这种策略时,学习初期可设定较大的交互作用半径R ,随着学习过程的不断推进,逐步减小R ,直至不考虑对邻近单元的影响。邻域的形状可以是正方形或者圆形。 KFM 的聚类结果与K 均值相似,它的优点是自动提取样本数据中的信息,同时也是一种全局的决策方法,能避免陷入局部最小,缺点在于必须实现人为设定类的数目与学习参数,而且学习时间较长。KFM 方法克服了K- 均值聚类的一些缺点:它应用类间的全局关系,能提供大数据集内相似性关系的综合看法,便于研究数据变量值的分布及发现类结构。而且,它具有更稳健更准确的特点,对噪声稳定,一般不依赖于数据分布的形状。 8.4.2.5 其它聚类方法 聚类方法是数据挖掘中的基本方法,数据挖掘的方法很多,在基因表达谱的分析中,除了以上常用方法外,还有一些其它的方法。由于对聚类结果尚没有一种有效的方法进行评价,尤其是对聚类结果的进一步生物学知识发现尚没有新的分析思路和成功应用,因此,科学家们在不断地研究一些新方法。这些方法有不同的原理,能够提取不同数据特征,有可能对具体的数据得到更有意义的结果,发现更多的生物学知识。这里,简单介绍这些方法的原理,更详细的介绍请参看相关文献。 (1)模糊聚类分析方法:这是一种模拟人类的思维方法,通过隶属度函数来反映某一对象属于某一类的程度。基本思路是计算两两基因表达谱之间的相似性程度,构建模糊相似矩阵,利用模糊数学中的传递闭包计算方法得到模糊等价矩阵,选择不同的置信水平从模糊等价矩阵中构建动态聚类图。对于特定的置信水平,可以实现对基因表达谱的分类。该方法的优点是利用了模糊数学中的隶属度概念,能够更好的反映基因表达谱之间的相互关系,而且它是一种全局的优化方法,与向量的顺序无关。 (2)模糊C均值算法:该方法同样将模糊数学中的隶属度概念引入到常用的K 均值聚类方法中。对于K 均值算法,一个基因表达谱所属的类只有一个,因此,它与各类别的关系要么是 1 ,要么是0 ,即属于或不属于某一类。而对于模糊 C 均值法,一个基因表达谱是否属于某一类,是以隶属度来确定第i 个样本属于第j 类的可能性。最终的聚类结果取决于分析的目的,可以根据最大隶属度来确定基因表达谱的分类,即一个基因表达谱只属于一类;但往往是确定隶属度的阈值,只要大于该阈值,就可以将基因表达谱划分为该类,这样的划分结果是一个基因表达谱可以属于多个类,这也是可以被生物学家接受的。模糊 C 均值法与K 均值法的实现过程基本相同,所不同的是对于

基因芯片数据处理流程与分析介绍

基因芯片数据处理流程与分析介绍 关键词:基因芯片数据处理 当人类基因体定序计划的重要里程碑完成之后,生命科学正式迈入了一个后基因体时代,基因芯片(microarray) 的出现让研究人员得以宏观的视野来探讨分子机转。不过分析是相当复杂的学问,正因为基因芯片成千上万的信息使得分析数据量庞大,更需要应用到生物统计与生物信息相关软件的协助。要取得一完整的数据结果,除了前端的实验设计与操作的无暇外,如何以精确的分析取得可信数据,运筹帷幄于方寸之间,更是画龙点睛的关键。 基因芯片的应用 基因芯片可以同时针对生物体内数以千计的基因进行表现量分析,对于科学研究者而言,不论是细胞的生命周期、生化调控路径、蛋白质交互作用关系等等研究,或是药物研发中对于药物作用目标基因的筛选,到临床的疾病诊断预测,都为基因芯片可以发挥功用的范畴。 基因表现图谱抓取了时间点当下所有的动态基因表现情形,将所有的探针所代表的基因与荧光强度转换成基本数据(raw data) 后,仿如尚未解密前的达文西密码,隐藏的奥秘由丝丝的线索串联绵延,有待专家抽丝剥茧,如剥洋葱般从外而内层层解析出数千数万数据下的隐晦含义。 要获得有意义的分析结果,恐怕不能如泼墨画般洒脱随兴所致。从raw data 取得后,需要一连贯的分析流程(图一),经过许多统计方法,才能条清理明的将raw data 整理出一初步的分析数据,当处理到取得实验组除以对照组的对数值后(log2 ratio),大约完成初步的统计工作,可进展到下一步的进阶分析阶段。

图一、整体分析流程。基本上raw data 取得后,将经过从最上到下的一连串分析流程。(1) Rosetta 软件会透过统计的model,给予不同的权重来评估数据的可信度,譬如一些实验操作的误差或是样品制备与处理上的瑕疵等,可已经过Rosetta error model 的修正而提高数据的可信值;(2) 移除重复出现的探针数据;(3) 移除flagged 数据,并以中位数对荧光强度的数据进行标准化(Normalized) 的校正;(4) Pearson correlation coefficient (得到R 值) 目的在比较技术性重复下的相似性,R 值越高表示两芯片结果越近似。当R 值超过0.975,我们才将此次的实验结果视为可信,才继续后面的分析流程;(5) 将技术性重复芯片间的数据进行平均,取得一平均之后的数据;(6) 将实验组除以对照组的荧光表现强度差异数据,取对数值(log2 ratio) 进行计算。 找寻差异表现基因 实验组与对照组比较后的数据,最重要的就是要找出显著的差异表现基因,因为这些正是条件改变后而受到调控的目标基因,透过差异表现基因的加以分析,背后所隐藏的生物意义才能如拨云见日般的被发掘出来。 一般根据以下两种条件来筛选出差异表现基因:(i) 荧光表现强度差异达2 倍变化(fold change 增加2 倍或减少2倍) 的基因。而我们通常会取对数(log2) 来做fold change 数值的转换,所以看的是log2 ≧1 或≦-1 的差异表现基因;(ii) 显著值低于0.05 (p 值< 0.05) 的基因。当这两种条件都符合的情况下所交集出来的基因群,才是显著性高且稳定的差异表现基因。

真核生物基因表达调控

真核生物基因表达的调控远比原核生物复杂,可以发生在DNA水平、转录水平、转录后的修饰、翻译水平和翻译后的修饰等多种不同层次。但是,最经济、最主要的调控环节仍然是在转录水平上。 DNA水平的调控 DNA水平上的调控主要指通过染色体DNA的断裂,删除,扩增,重排,修饰(如甲基化与去甲基化,乙酰化与去乙酰化等)和染色质结构变化等改变基因的数量、结构顺序和活性而控制基因的表达。 转录水平的调控 转录水平的调控包括染色质的活化和基因的活化。通过染色质改型,组蛋白乙酰化,染色质变得疏松化及DNA去甲基化以便被酶和调节蛋白作用,基因的表达受顺式作用元件包括启动子及应答元件,转座元件,增强子,抑制子的调控,同时受反式作用因子包括基本转录因子,上游转录因子和转录调节因子等的调控。 转录后调控 转录后调控包括hnRNA的选择性加工运输和RNA编辑 在真核生物中,蛋白质基因的转录产物统称为hn RNA,必须经过加工才能成为成熟的mRNA分子。加工过程包括三个方面:加帽、加尾和去掉内含子。同一初级转录产物在不同细胞中可以用不同方式剪接加工,形成不同的成熟mRNA分子,使翻译成的蛋白质都可能不同。转录后的RNA在编码区发生碱基插入,缺失或转换的现象。

翻译水平的调控 阻遏蛋白与mRNA结合,可以阻止蛋白质的翻译并使成熟的mRNA变为失活状态贮存起来。一些调控作用的micRNAh和siRNA 还可以与mRNA作用降解mRNA,阻止其翻译 此外,还可以控制mRNA的稳定性和有选择的进行翻译。 翻译后调控 直接来自核糖体的线状多肽链是没有功能的,必须经过加工才具有活性。在蛋白质翻译后的加工过程中,还有一系列的调控机制。 1.蛋白质折叠 线性多肽链必须折叠成一定的空间结构,才具有生物学功能。在细胞中,蛋白质的折叠必须有分子伴侣的作用下才能完成折叠。 2.蛋白酶切割 末端切割 有些膜蛋白、分泌蛋白,在氨基端具有一段疏水性强的氨基酸序列,称为信号肽,用于前体蛋白质在细胞中的定位。信号肽必须切除多肽链才具有功能。 多聚蛋白质的切割 有些新合成的多肽链含有几个蛋白质分子的序列,切割以后产生具有不同功能的蛋白质分子。

相关文档
相关文档 最新文档