文档库 最新最全的文档下载
当前位置:文档库 › 生物信息学综述

生物信息学综述

生物信息学综述
生物信息学综述

果蝇属麦芽糖酶的鉴定

摘要:本文通过应用生物信息学的研究方法,对已报道的12种果蝇的麦芽糖酶进行了研究,揭示了果蝇属麦芽糖酶基因家族的进化史。科学界已经对果蝇属中另一种相近的糖苷水解酶-α-淀粉水解酶的分子进化进行了较长时间的详尽的研究,α-淀粉水解酶也被用作研究多基因家族进化的一个模型。然而,对麦芽糖酶的研究却很少。因此,本研究作者通过对比氨基酸序列以及分析同源基因的内含子和外显子的组成,对果蝇属麦芽糖酶基因在基因组中的空间分布进行了研究。结果发现在果蝇的两条染色体上分布着两个基因簇共十种基因。这两个基因簇是远古一系列基因重复的结果,这大约发生在3.5亿至六千万年前,远在现有果蝇种类形成之前。在这两个基因簇中有一些特别的麦芽糖酶基因,其组成具有显著的内含子/外显多样性。

关键词:果蝇属,麦芽糖酶,生物信息学,进化

1前言

麦芽糖酶属于α-葡糖苷酶,是一类在淀粉的酶解过程中催化麦芽糖水解生成葡萄糖的酶。原来是对可使麦芽糖水解生成2分子葡萄糖的酶所用的名称,但现在一般地是作为作用于结合各种配糖基的a-D-葡萄糖苷的a-葡萄糖苷酶的别名来使用。麦芽糖(maltose)指2分子D-葡萄糖α-1,4成键的二糖。按化学系统命名法称为4-O-a-D-葡萄吡喃糖基-(1-4)-a-D-葡萄吡喃糖。由于用麦芽或从麦芽抽提出的糖化酶(淀粉酶)作用于淀粉溶液生成的化合物,所以产生这一名称。

α-葡萄糖苷酶在自然界分布广泛,种类繁多,性质各异,几乎存在于所有生物体内。目前已经进行研究的α-葡萄糖苷酶除少数来源于植物和动物外,绝大多数均来自于微生物中。

在昆虫体内,α- 葡萄糖苷酶在生理和代谢方面起着很重要的作用:①能量储存和血淋巴糖水平调节。昆虫体内的碳水化合物储存以肝糖原形式储存。在生理上,这种储存可保持昆虫体内血淋巴中海藻糖循环的平衡,也就是说海藻糖活性在昆虫代谢中起着重要的作用;②体内外的碳水化合物消化。家蝇通过唾腺分泌淀粉酶可体外消化淀粉,酶的作用除了为机体直接提供碳水化合

物外,还可以通过刺激细菌生长使果蝇得到喂养。在果蝇的中肠中,酶固定于肠膜上,可对不同程度的淀粉进行消化产生葡萄糖[ 1 幻;③生长。在昆虫形

体变化进程中需对幼虫组织自溶,释放出肝糖原,在这个过程中,会出现淀

粉酶。与之相似的是在哺乳动物中则是酸性麦芽糖酶水解肝糖原。对昆虫来说,若缺乏相应的 a-葡萄糖苷酶,则会产生形体上的严重缺陷。而对哺乳动物是否

一样,目前还不清楚;④环境敏感。在成年果蝇唾腺中的 a-葡萄糖苷酶可以起

到与环境交换信息的作用。当a - 葡萄糖苷酶与底物相遇,会引发体内神经元

反应,从而产生与环境交换信息的过程;⑤ N-端相关的糖基化。昆虫和真核生物一样合成一种碳水化合物前体 Glc3Man9GlcNAc2,前体可转化为蛋白质、葡

萄糖和其他残余物,在蛋白质离开内质网前,前体可被 a-葡萄糖苷酶 I和 II除去。葡萄糖需被修饰,并在检查点被检查是否正确折叠后才会进人合成糖蛋白;

⑥生理作用。a - 葡萄糖苷酶转糖苷活性生理重要性已在临床和微生物领域得到证明,出生第一年内先天转糖苷紊乱可导致肝肿大;抑制病毒 a -葡萄糖苷酶活性会产生病毒颗粒组装缺陷;当细胞内无a -葡萄糖苷酶活性时植物会发生形态

失常。在真菌中,旷葡萄糖苷酶缺乏与分生孢子减少有关,会导致分隔缺陷、

极性生长缺陷和细胞壁组成缺陷等。

表1 部分α-葡萄糖苷酶的来源及性质

来源种类最适底物专一性

pH 温度/℃

植物Grape berries ( 葡萄) 5.1

65 麦芽糖

Sweet corn( 甜玉米) Malted barley

( 大麦麦芽) Spinach seeds

( 菠菜种子)

Rice seeds ( 稻谷) 3.1~3.8

麦芽糖

淀粉

低聚麦芽糖

低聚麦芽糖

动物Drosophila melanogaster

( 黑腹果蝇)

6.0 淀粉和肝糖原

Aplysia fasciata( 海兔) 麦芽糖Entamoeba histolytica

( 痢疾阿米巴)

异麦芽糖、黑曲霉素

微生物Bacillus subtilis

( 枯草杆菌) 7.5 直链淀粉、麦芽低聚

Bacillus cereus

( 蜡状芽孢杆菌)

7.0

40 淀粉

Bacillus amylolyticus

( 溶淀粉芽孢杆菌)

7.0 麦芽糖

Bacillus stearothermophilus

( 嗜热脂肪芽孢杆菌)

6.5 75 麦芽糖Therrrlococcus ( 嗜热古菌)

7.0 100 支链淀粉

Geobacillus

( 地衣芽孢杆菌) 6.8

60

低聚麦芽糖、糊

精、松二糖

Aspergillus niger ( 黑曲霉) 4.2 支链淀粉

Saccharomyces cerevisiae

( 啤酒酵母)

7.5 90 麦芽糖

根据碳水化合物活性酶分类体系,发现a-葡萄糖苷酶存在于糖苷水解酶(GHs)中的 4个家族: GH4、GH13、GH31和GH97。家族GH13、GH31和GH97的活性区域都有一个(β/a)8桶状折叠。同时我们发现来自于家族GH13和GH31的酶之间拥有较远的同源性。相比之下,家族GH4中的酶显示出与NAD-依赖型脱氢酶(2-羟基酸脱氢酶)结构相似,在他们的NAD+结合位点都拥有典型的Rossman折叠。

根据生物分类学的观点,家族GH31中的a-葡萄糖苷酶分布最为广泛。他们在古生菌、细菌和真核生物(原生生物、真菌、植物和多细胞动物)这三大领域中均被发现。家族GH13起源于细菌,在真核生物中的分布主要局限于真菌和昆虫。家族GH4和GH97中的a-葡萄糖苷酶仅存在于细菌中。

昆虫的α-葡萄糖苷酶只存在于GH13家族中,被归类为GH13_17亚族。家族GH13、 GH70和GH77共同构成GH-H酶系。 GH-H酶系具有以下特征:1.有一个(β/a)8桶状折叠形成的催化区(定义为结构域A),另外在β 3 和a3

链之间有另外一个突出的较小的结构域B。

2.催化结构包括:一个位于β4的天冬氨酸(催化亲核体)、一个位于β5链

的谷氨酸(质子供体)、另一个位于β7链的的天冬氨酸(过渡态稳定器)3.氨基酸序列包含4-7个保守序列区域( CSRs ),主要位于催化区A的β

链。

家族GH13属于最大的GH家族,包含几乎30种不同的特异性酶。经过鉴定显示,不同的特异性酶根据他们的序列相似性,可以被归类为不同的亚族。基于第五CSR的特异性序列,可以确定两个GH13亚族:①寡聚-1,6-葡萄糖苷酶亚族,以蜡状芽孢杆菌中的CSR V(167_QPDLN)为代表②新支链淀粉酶亚族,以嗜热脂肪芽孢杆菌中的CSR V(295_MPKLN)为代表。根据这种分类方法,a-葡萄糖苷酶应归类为寡聚-1,6-葡萄糖苷酶亚族。现在,家族GH13被分为36个亚族,昆虫a-葡萄糖苷酶归类于GH13-17亚族。

尽管通过序列比对预测出昆虫中的许多疑似a-葡萄糖苷酶,但是其中仅有一小部分被鉴定。在意大利蜜蜂中,有三种a-葡萄糖苷酶同工酶I、II和III,分别由hbg1、hbg2和hbg3三个基因所编码,并在不同的器官中得以表达,显示出不同的底物特异性和最适pH。在埃及伊蚊成虫的唾液腺中,有一种与酵母麦芽糖酶相似的疑似a-葡萄糖苷酶。同时,发现两个疑似的麦芽糖酶基因在冈比亚疟蚊的中肠中表达。在黑腹果蝇中,一个小基因簇已经被鉴定和测序。这个基因簇是一段8kb长的DNA,位于2号染色体右臂的44D染色体区域。它包含三个协同表达的基因lvpH、lvpD和lvpL(幼虫内脏蛋白H、D和L)。由于他们之间拥有较高的氨基酸序列相似性(48~53%),这个基因簇可能是由基因重组引起的。但是,因为他们基因的内含子/外显子组成不保守,这个基因重

组有可能是一个远古事件。起初这些基因的功能尚不清楚,但由于他们与啤酒酵母麦芽糖酶的氨基酸相似性,后来他们被归类为麦芽糖酶。为了弄清在果蝇远亲种属之间,麦芽糖酶簇的空间结构是否存在保守性,本文对黑果蝇的假定同源性麦芽糖酶簇进行了研究。结果发现它包含了两个基因(mav1和mav2),他们以相同的方向并与内脏表皮基因簇一起位于4号染色体上。有趣的是,其

4号染色体与黑腹果蝇的2号染色体右臂并不同源,但与2号染色体的左臂同源。这一现象似乎违反了在果蝇进化期间基因不能在不同染色体基质间转移的原则。黑果蝇有两个而不是像黑腹果蝇中有三个基因(lvpH、lvpD和lvpL),黑腹果蝇的这三个基因以不同的方向转录,而黑果蝇的两个基因以相同的方向转录。再者,在这两个基因(mav1、mav2)和基因lvpHDL之间的内含子构成上无任何保守性。由这两个基因簇之间的显著差异,我们可以推测出他们有着各自独立的起源。

为了能更好的揭示果蝇属中12种果蝇的进化历史,本文运用了生物信息学

的方法,对已被测序的12种果蝇的麦芽糖酶基因簇的空间结构进行了研究,并

比对了这些基因所编码的麦芽糖酶的氨基酸序列和他们的内含子/外显子组成。

2材料和方法

2、1同源性鉴定

使用BLAST检索蛋白氨基酸序列,用意大利蜜蜂中的特征性a-葡萄糖苷

酶进行查寻( GenPept 登录号:NP—001035326; GeneID: 409889, hbg1 ),检

索仅限于果蝇属。作为对照,添加了两个蜜蜂麦芽糖酶基因hbg1和hbg2,以

及两个冈比亚疟蚊麦芽糖基因agm1和agm2。

表2 本研究中使用的部分代表性麦芽糖酶基因

注:Length指氨基酸序列,GenBank是指数据库的登录号。

2、2序列比对

使用ClustalX程序进行氨基酸序列的比对工作。根据相关文献,手工确定序列保守区CSRs。 Clustal是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。

2、3进化分析

运用Neighbor-joining (邻接法,NJ) 、maximum parsimony(最大简约法,MP) 以及ML(最大似然法),通过MEGA 4.1 程序包构建系统发育树。

邻接法(Neighbor-joining)一种快速的聚类方法,不需要关于分子钟的假设,不考虑任何优化标准,基本思想是进行类的合并时,不仅要求待合并的类

是相近的,而且要求待合并的类远离其他的类,从而通过对完全没有解析出的

星型进化树进行分解,来不断改善星型进化树。

最大简约法(maximum parsimony)是一种常使用于系统发生学分析的方法,根据离散型性状包括形态学性状和分子序列(DNA,蛋白质等)的变异程度,

构建生物的系统发育树,并分析生物物种之间的演化关系。在最大简约法的概

念下,生物演化应该遵循简约性原则,所需变异次数最少(演化步数最少)的

演化树可能为最符合自然情况的系统树。

最大似然法(maximum likelihood method)是一种统计方法,它用来求一个样本集的相关概率密度函数的参数。这个方法最早是遗传学家以及统计学家罗纳德·费雪爵士在 1912 年至1922 年间开始使用的。

最大似然法明确地使用概率模型,其目标是寻找能够以较高概率产生观察

数据的系统发生树。最大似然法是一类完全基于统计的系统发生树重建方法的

代表。该方法在每组序列比对中考虑了每个核苷酸替换的概率。

2、4内含子/外显子组成

通过GenBank和Flybase检索获得各个代表性蛋白的氨基酸序列及其相应

的核苷酸序列,然后使用GeneWise软件对比二者,从而确定这些蛋白基因的

外显子/内含子构成。

2、5分子钟

分子钟一种关于分子进化的假说,认为两个物种的同源基因之间的差异程

度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系。基于

这个假说,可以计算生物谱系发育的年代表。 39 million years ago作为果蝇亚

属和果蝇属之间的假定分歧时间使用TreeFinder程序的局部速率最小形变法,

解释各分支之间的进化速率的差异。运用DILTAG运算法则可推测麦芽糖酶簇

的进化历史。

3结果和讨论

3、1果蝇属中的麦芽糖酶簇

1983年 Snyder and Davidson的一项研究表明黑腹果蝇的麦芽糖酶簇包含三

个基因,分别被测序并命名为 lvpH、lvpD和lvpL 。他们彼此相邻分布于2号

染色体的右臂上。但后来黑腹果蝇的基因测序结果表明在这一区域共有8个基因,其余5个基因与昆虫的编码a-葡萄糖苷酶基因特征相似,但是没有被鉴定。

这5个基因在氨基酸序列水平上有45–71% 的同一性,并且基于GH13 特

征性的CSRs 和活性残基,本文鉴定出它们属于GH13_17亚族,均编码a-葡萄

糖苷酶。由于他们在分布上也挨得很近,作者推测所有的这8个基因属于同一

基因簇(基因簇A)。另外,在2号染色体的左臂上,有另一个基因簇B。基

因簇B包含两个基因,具有很高的序列相似性(65% 的氨基酸同一性)。

这两个基因簇的10个基因均有GH13_17亚族 a-葡萄糖苷酶的显著特征。

通过GenPept和Flybase查询每个基因的ESTs,发现ESTs可以覆盖黑腹果蝇这10个基因的整个序列。因此可以排除他们中有假基因的可能。然后作者研究了

另外11种果蝇的同源麦芽糖酶基因簇A和B,发现其中有7种果蝇(Drosophila ananassae, Drosophila erecta, Drosophila mojavensis, Drosophila persimilis, Drosophila virilis, Drosophila willistoni, and Drosophila yakuba)的基因簇A和B的

构成与黑腹果蝇完全一样。另外四种(Drosophila grimshawi,Drosophila pseudoobscura, Drosophila sechellia, and Drosophila simulans)的基因簇A有些许的差别。如下图:

图1 果蝇属麦芽糖酶簇基因空间分布图

注:箭头表示特定基因,箭头的方向代表特定基因转录的方向。最上面两行代表麦芽糖酶基因簇A和B的普通空间结构,发现于Drosophila ananassae, Drosophila erecta, Drosophila melanogaster,Drosophila mojavensis, Drosophila persimilis, Drosophila virilis, Drosophila willistoni, and Drosophila yakuba.最上面数字显示的是各个麦芽糖酶基因之间的距离(核苷酸单位)。下面4行表示基因簇有些许偏差的4种果蝇种。断裂的箭头代表基因出现断裂或扭曲。灰色高亮标记的箭头代表重复基因。

仅仅通过生物信息学的方法,并不能完全鉴别果蝇种类之间麦芽糖酶基因簇A和B的差异是真实情况还是测序的误差。D.persimilis, D. sechellia和D. simulans的基因组测序的覆盖率较低(4×),而其余种类果蝇基因组测序的覆盖率较高(8×),因此,上述的一些数据可能有人为误差存在。

3、2序列对比

本文以意大利蜜蜂的3个α-葡萄糖苷酶(hbg1, hbg2 and hbg3)和两个冈比亚疟蚊麦芽糖酶(agm1 and agm2)为特征性麦芽糖酶,与来自12种果蝇的麦芽糖酶簇的108个氨基酸序列进行比对。序列的多重比对涵盖了家族GH13的结构域A、B和C。比对结果清晰表明,不同物种的直系同源之间比同一物种的旁系同源之间有更高的相似性。α-葡萄糖苷酶的GH13家族的酶都有4个不变的保守残基:Asp206 (催化亲核体), Glu230(质子供体), Asp297 (过渡态稳定器), Arg204 (米曲霉中Taka-淀粉酶 A 的编号)。

结构域A(positions氨基酸序列1–122 and 203–489)包括:CSR I(β3)、CSR II(β4)、CSR III(β5)、CSR IV(β7)。在蚊子、蜜蜂、以及所有果蝇的麦芽糖酶基因中有很好的保守性。CSR V位于结构域B碳端的附近,CSRs VI和VII分别位于β2和β8链。

图2 黑腹果蝇和黑果蝇10种麦芽糖酶基因的氨基酸比对

注:从上而下依次是意大利蜜蜂的3个α-葡萄糖苷酶基因hbg1, hbg2和hbg3,两个冈

比亚疟蚊麦芽糖酶基因agm1 and agm2,以及黑腹果蝇和黑果蝇的麦芽糖酶基因mal_B1–

B2和mal_A1–A8。CSRs(I–VII)和内含子(1-9和N1-N3)分别被标记于序列上方。具有同

一性的氨基酸序列用灰色标示,催化三联体用黑白高亮标记。

结果分析:

a)CSR I:保守序列是DLVPNH,位于β3链上,具有普遍的保守性。除了

hbg1是DLVPNH外,DFVPNH在其他所有的序列中都高度保守。

b)CSR II:位于β4链上,GFRIDA为同一性序列,mal_A7 和mal_A8中异亮

氨酸被半胱氨酸替代,mal_A6中被甲硫氨酸替代

c)CSR III:位于β5链上,EAY为同一性序列,mal_A4和agm2中的Y(酪氨

酸)变成W(色氨酸),mal_A4-A8EA变成ET,由A(丙氨酸)变成T (苏氨酸),mal-B1由EAY变成EGY,其中的A(丙氨酸)变成G(甘氨酸)。

在β6链上,有4个氨基酸残基PFNF,除了mal_A2是PMNF,F代表苯丙氨酸、M代表甲硫氨酸,具有普遍的保守性。

d)CSR IV:位于β7链上,NWXXXGNHD为同一性保守序列。中间三个残基

略有不同。

e)CSRV:临近与结构域B(positions 123–202)的碳端,QPDLN为保守序列,

在mal_ A7(除了D. grimshawi and D. willistoni两种果蝇)中变成QADLN,P代表脯氨酸、A代表丙氨酸。在mal_A4,由QPDLN 变成QPDFN,L代表亮氨酸、F代表苯丙氨酸

f)CSR VI:位于β2链上,(WLSP)在所有的序列中完全一样,除了两种果

蝇D. persimilis和D. pseudoobscura的mal_B1中的亮氨酸变成了甲硫氨酸(数据未显示)。

g)CSR VII:GEE为同一性序列,具有很好的保守性。

h)结构域C(positions 490–588):直系同源序列显示了很高的相似性,然而两

个旁系统原序列之间相似性很低,甚至没有任何保守残基。

4麦芽糖酶簇的进化史

根据113个麦芽糖酶的氨基酸序列的比对结果,运用NJ(邻接法)、MP (最大简约法)、ML(最大似然法)构建系统发育树。从中可以看出,所有的直系同源基因在分支上紧紧相邻。这也意味着不同物种间的直系同源基因比同一物种的旁系同源基因拥有更高的形似度。同时这也进一步表明,复制发生于物种形成之前,此后,基因的复制会以独立的而非协同的方式进化。

图3 12种果蝇麦芽糖酶基因簇的系统进化树

在基因簇A中, mal_A3、mal_A4和 mal_A5属于同一分支(自展值高97%),其中mal_A3和 mal_A4之间的相似度高于他们与mal_A5之间的相似

度( ML和MP 型系统发育树分别仅有47和44%的自展值,NJ系统发育树有90% 的自展值)。Mal_A2与mal_A3、mal_A4和 mal_A5同一个分支,但自展

值较低( ML 86%、MP50%、 NJ70% )。 mal_A6、mal_A7和mal_A8为同一

分支(三种方法的自展值都高于97%),mal_A7和mal_A8之间的相似度更高。

mal_A1单独一个分支,但自展值较低( ML 86%、MP38%、 NJ65% )。根据ML tree的分支长度,可估算出特定基因复制的分歧时间。 39MYA是果蝇亚属

和果蝇属之间的假定分歧时间,用此作为一个校准点。现在一般认为350 MYA 为昆虫进化的分歧时间。

图4 果蝇属麦芽糖酶基因簇的基因重组发生时间分布概要图

从上图可以看出,果蝇属分离出亚属大约发生于60–40 MYA。可以看出,所有的这些基因重复都发生在现有果蝇种类共同的一个共同祖先中。

5内含子的排列

本文调查研究了12种果蝇的10个麦芽糖酶基因,以及意大利蜜蜂中的麦

芽糖酶同工酶基因hbg1, hbg2, hbg3和冈比亚疟蚊的两个麦芽糖酶基因agm1和agm2。通过对比分析发现,hbg1 and hbg3两个基因共含有9个内含子,其中6

个位于结构域A,一个位于结构域B,两个位于结构域C。

图5 果蝇属麦芽糖酶簇基因的内含子组成

从上图可以看出,hbg1和hbg3基因的9个可能的内含子已经被鉴定。其中,6个内含子位于结构域A、一个位于结构域B、两个位于结构域C。 N1–N3是

仅在果蝇属中存在的内含子。

6总结

1、麦芽糖酶基因可分为两个古老而不断稳定进化的基因簇:基因簇A和B,这两个基因簇共包含10个基因,其中基因簇A包含8个麦芽糖酶基因,基因簇B

包含2个麦芽糖酶基因。

2、特定旁系同源基因有非常相似的序列,这或许是净化选择的结果。不同物种间的直系同源基因比同一物种的旁系同源基因拥有更高的相似度。麦芽糖酶簇

基因的基因重复发生于现有果蝇物种形成之前,此后,基因的复制会以独立的

而非协同的方式进化。

3、由于现有果蝇种类的共同祖先的麦芽糖酶基因重复,果蝇属麦芽糖酶基因

拥有显著的外显子/内含子多样性。N1–N3是果蝇属麦芽糖酶簇基因所包含的

独特的特异性的内含子。

参考文献

[1] 胡先望,杨震,陈朋,等。α-葡萄糖苷酶的研究进展(J)。甘肃科学学报,2011,23(1):143-148。

[2] 廖朝晖,朱必风,刘安玲,等。酵母麦芽糖酶合成的调控机制研究(J)。

韶关学院学报(自然科学版),2002,23(12):146-151.

[3] Adams MD, Celniker SE, Holt RA, Evans CA, Venter JC et al (2000).The genome sequence of Drosophila melanogaster. Science.287:2185–2195

[4] Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990) Basiclocal alignm- ent search tool. J Mol Biol 215:403–410

[5] Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW (2009) GenBank. Nucleic Acids Res 37(Database issue):D26–D31

[6] Beverley SM, Wilson AC (1984) Molecular evolution in Drosophila and the higher Diptera II. A time scale for ?y evolution. J MolEvol 21:1–13

[7] Birney E, Clamp M, Durbin R (2004) GeneWise and Genomewise.Genome Res 14:988–995

[8] Brown CJ, Aquadro CF, Anderson WW (1990) DNA sequence evolution of the amylase multigene family in Drosophila pseudoobscura. Genetics 126:131–138

[9] Cantarel BL, Coutinho PM, Rancurel C, Bernard T, Lombard V,Henrissat B (2009) The Carbohydrate-Active EnZymes database (CAZy): an expert resource for Glycogenomics. Nucleic Acids Res 37(Database issue):D233–D238

[10] Godany A, Majzlova K, Horvathova V, Vidova B, Janecek S (2010) Tyrosine 39 of GH13 a-amylase from Thermococcus hydrothermalis contributes to its thermostability. Biologia 65:408–415

[11] Guindon S, Gascuel O (2003) A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst Biol 52:696–704

[12] Hartl DL, Lozov- skaya ER (1994) Genome evolution: between the nucleosome and the chromosome. In: Schierwater B, Streit B,Wagner GP, DeSalle R (eds) Molecular ecology and evolution:approaches and applications. Birkha ¨user Verlag, Basel,pp 579–592

[13] Henikoff S, Wallace JC (1988) Detection of protein similarities using nucleotide sequence databases. Nucleic Acids Res 16:6191–6204

[14] Huber RE, Thompson DJ (1973) Studies on a honey bee sucrose exhibiting unusu- al kinetics and transglucolytic activity. Biochemistry 12:4011–4020

[15] Inomata N, Yamazaki T (2000) Evolution of nucleotide substitutions and gene regulation in the amylase multigenes in Drosophila kikkawai and its sibling species. Mol Biol Evol 17:601–615

[16] James AA, Blackmer K, Racioppi JV (1989) A salivary gland-speci?c, maltase-like gene of the vector mosquito, Aedes aegypti. Gene 75:73–83

[17]Janecek S (1992) New conserved amino acid region of a-amylases in the third loop of their (b/a)8-barrel domains. Biochem J 288:1069–1070

[18] Janecek S (1994a) Sequence similarities and evolutionary relationships of microbial, plant and animal a-amylases. Eur J Biochem224:519–524

[19] Janecek S (1994b) Parallel b/a-barrels of a-amylase, cyclodextrin glycosyltrans- ferase and oligo-1,6-glucosidase versus the barrel of b-amylase: evolutionary distance is a re?ection of unrelated sequences. FEBS Lett 353:119–123

[20] Janecek S (1995) Close evolutionary relatedness among functionally distantly related members of the (a/b)8-barrel glycosyl hydrolases suggested by the similarity of their ?fth conserved sequence region. FEBS Lett 377:6–8

[21]Janecek S (2002) How many conserved sequence regions are there in the a-amylase family? Biologia 57(Suppl. 11):29–41

生物信息学软件及使用概述

生物信息学软件及使 刘吉平 liujiping@https://www.wendangku.net/doc/ba9906731.html, 用概述 生 物秀-专心做生物! w w w .b b i o o .c o m

生物信息学是一门新兴的交叉学生物信息学的概念: 科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。 生 物秀-专心做生物! w w w .b b i o o .c o m

分析和处理实验数据和公共数据,生物信息学软件主要功能 1.2.提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验 3.实验数据的自动化管理 4.寻找、预测新基因及其结构、功能 5.蛋白质高级结构及功能预测(三维建模,目前研究的焦点和难点) 生 物秀-专心做生物! w w w .b b i o o .c o m

功能1. 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间 ?核酸:序列同源性比较,分子进化树构建,结构信息分析,包括基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框(ORF ),蛋白编码区(CDS )及外显子预测、RNA 二级结构预测、DNA 片段的拼接; ?蛋白:序列同源性比较,结构信息分析(包括Motif ,限制酶切点,内部重复序列的查找,氨基酸残基组成及其亲水性及疏水性分析),等电点及二级结构预测等等; ?本地序列与公共序列的联接,成果扩大。 生 物秀-专心做生物! w w w .b b i o o .c o m

Antheprot 5.0 Dot Plot 点阵图 Dot plot 点阵图能够揭示多个局部相似性的复杂关系 生 物秀-专心做生物! w w w .b b i o o .c o m

生物信息学题库

■一、选择题: 1.以下哪一个是mRNA条目序列号: A. J01536■. NM_15392 C. NP_52280 D. AAB134506 2.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■. Unigene B. Entrez C. LocusLink D. PCR 3.一个基因可能对应两个Unigene簇吗?■可能 B. 不可能 4.下面哪种数据库源于mRNA信息:■dbEST B. PDB C. OMIM D. HTGS 5.下面哪个数据库面向人类疾病构建: A. EST B. PDB ■. OMIM D. HTGS 6.Refseq和GenBank有什么区别: A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列 ■. Refseq源于GenBank,提供非冗余序列信息D. GenBank源于Refseq 7.如果你需要查询文献信息,下列哪个数据库是你最佳选择: A. OMIM B. Entrez ■PubMed D. PROSITE 8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A. 因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B. 搜索结果很可能 一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同 9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W 10.直系同源定义为:■不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列 C. 同一物种中由基因复制产生的同源序列 D. 同一物种中具有相似的并且通常是冗余的功能的同源序列 11.下列那个氨基酸最不容易突变: A. 丙氨酸B. 谷氨酰胺 C. 甲硫氨酸■半胱氨酸 12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变: A. 1% B. 20%■. 80% D. 250% 13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A. 全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙,而局 部比对不允许C. 全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列 14.假设你有两条远源相关蛋白质序列。为了比较它们,最好使用下列哪个BLOSUM和PAM矩阵:■BLOSUM45和PAM250 B. BLOSUM45和PAM 1 C. BLOSUM80和PAM250 D. BLOSUM10和PAM1 15.与PAM打分矩阵比较,BLOSUM打分矩阵的最大区别是:A. 最好用于比对相关性高的蛋白B. 它是基于近相关蛋白的全局多序列比对 ■它是基于远相关蛋白的局部多序列比对D. 它结合了全局比对和局部比对 16.如果有一段DNA序列,它可能编码多少种蛋白质序列: A. 1 B. 2 C. 3 ■. 6 17.要在数据库查询一段与某DNA序列编码蛋白质最相似的序列,应选择: A. blastn B. blastp C. tblastn D. tblastp■blastx 18.为什么ClustalW(一个采用了Feng-Doolittle渐进比对算法的程序)不报告E值:A. ClustalW报告E值■使用了全局比对 C. 使用了局部比对 D. 因为是多序列比对 19.Feng-Doolittle方法提出“一旦是空隙,永远是空隙”规则的依据是:A. 保证空隙不会引物序列加入而填充B. 假定进化早期分歧的序列有较高优先级别■假定最近序列空隙应 该保留 D. 假定最远序列空隙应该保留 20.根据分子钟假说:A. 所有蛋白质都保持一个相同的恒定进化速率 B. 所有蛋白质的进化速率都与化石记录相符合C. 对于每一个给定的蛋白质,分子进化的速率是逐 渐减慢的,就如同不准时的钟■对于每一个给定的蛋白质,其分子进化的速率在所有的进化分支上大致是恒定 21.系统发生树的两个特征是: A. 进化分支和进化节点■树的拓扑结构和分支长度C. 进化分支和树根D. 序列比对和引导检测方法 22.下列哪一个是基于字母特征的系统发生分析的算法:A. 邻位连接法(NJ法)B. Kimura算法■最大似然法(ML)D. 非加权平均法(UPGMA) 23.基于字母特征和基于距离的系统发生分析的算法的基本差异是:■基于字母特征的算法没有定义分支序列的中间数据矩阵 B. 基于字母特征的算法可应用于DNA或者蛋白质序列,而基于距离仅能用于DNA C. 基于字母特征的算法无法运用简约算法 D. 基于字母特征的算法的进化分支与进化时间无关 24.一个操作分类单元(OTU)可指:A. 多序列比对■蛋白质序列C. 进化分支D. 进化节点 25.构建进化树最直接的错误来源是:■多序列比对错误B. 采样的算法差异C. 假设进化分支是单一起源D. 尝试推测基因的进化关系 26.第一个被完整测定的基因组序列是:A. 啤酒酵母的3号染色体B. 流感病毒■ФX174 D. 人类基因组 27.普通的真核生物线粒体基因组编码大约多少个蛋白质:■10 B. 100 C. 1000 D. 10000 28.根据基因组序列预测蛋白质编码基因的算法的最大问题是:A. 软件太难使用■. 假阳性率太高,许多不是外显子的序列部分被错误指定C. 假阳性率太高,许 多不是外显子功能未知 D. 假阴性率太高,丢失太多外显子位点 29.HIV病毒亚型的系统演化研究可以:A. 证实HIV病毒是由牛病毒演化而来■. 用于指导开发针对保守蛋白的疫苗C. 证实哪些人类组织最容易遭受病毒侵染 30.一个典型的细菌基因组大小约为多少bp:A. 20000■. 200000 C. 2000000 D. 20000000

生物信息学期末考试重点

第一讲 生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。 生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。 生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。 生物技术与生物信息学的区别及联系 生物信息学的发展历史 ?人类基因组计划(HGP) ?人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。 :

】 第二讲回顾细胞结构 细胞是所有生命形式结构和功能的基本单位 细胞组成 细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构 细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器 细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等 细胞核最大的细胞器 DNA的结构 碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G) 。 核苷酸 核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊 糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就 是A、T、C、G 基因是什么 基因是遗传物质的基本单位 基因就是核苷酸序列。 大部分的基因大约是1000-4000个核苷酸那么长。 基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。 基因在染色体上。

生物信息学名词解释资料

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影 响,序列中的空位的引入不代表真正的进化事件,所以要对其进行 罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了 可以找到与查询序列(query)相匹配的随机或无关序列的概率,E 值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的 相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意 义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复 度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列, Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y) 加点,如果两条序列完全相同则会形成一条主对角线,如果两条序 列相似则会出现一条或者几条直线;如果完全没有相似性则不能连 成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这 些序列做一个总体的比对,以观察它们在结构上的异同,来回答大 量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而 可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或 其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个 父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是 引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中 的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制 证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重 复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于 基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘 关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找 到距离最近的两类将其归为一类,定义为一个节点,重复这个过程, 直到所有的聚类被加入,最终产生树根。 23.邻接法(neighbor-joining method):是一种不仅仅计算两两比 对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行 限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法(MP):在一系列能够解释序列差异的的进化树中 找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法(ML):它对每个可能的进化位点分配一个概率, 然后综合所有位点,找到概率最大的进化树。最大似然法允许采用 不同的进化模型对变异进行分析评估,并在此基础上构建系统发育 树。 26.一致树(consensus tree):在同一算法中产生多个最优树,合并 这些最优树得到的树即一致树。 27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多 次重复取样,构建多个进化树,用来检查给定树的分枝可信度。 精品文档

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学 广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。 狭义:生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构 蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因 基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则 是指遗传信息从传递给,再从RNA传递给,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较 序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异 目的: 相似序列相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 7、一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 8、基因识别 基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。 9、系统发生学 系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。

生物信息学概论

2013/5/23
生物信息学概论
2013-5
提纲
1. 发展简史 2. 主要研究领域 3. 软件和工具
1. 发展简史
1946年 1946 年
美国生产出第一台全自动电子数字计算机“埃尼阿克”
1

2013/5/23
1. 发展简史
1955年 1955 年
Frederick Sanger determined the complete amino acid sequence of insulin in 1955 and earned him his first Nobel prize in Chemistry in 1958.
1. 发展简史
1965年 1965 年
The first Atlas of Protein Sequence and Structure contained sequence information on 65 proteins.
Dr. Margaret Oakley Dayhoff (1925-1983) was a pioneer in the use of computers in chemistry and biology, beginning with her PhD thesis project in 1948. Her work was multi-disciplinary, and used her knowledge of chemistry, mathematics, biology and computer science to develop an entirely new field. She is credited today as a founder of the field of Bioinformatics.
1. 发展简史
1965年 1965 年
First use of molecular sequences for evolutionary studies
One of the founding fathers of the field of molecular evolution
Zuckerkandl, E. and Pauling, L. (1965). "Molecules as documents of evolutionary history." Journal of theoretical biology 8(2): 357.
2

生物信息学复习题及答案(陶士珩)

生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、问答题 1)生物信息学与计算生物学有什么区别与联系 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么请列举3个以上NCBI 维护的数据库。 ¥ 5)序列的相似性与同源性有什么区别与联系 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么 7)简述BLAST搜索的算法。 8)什么是物种的标记序列 9)什么是多序列比对过程的三个步骤 10)简述构建进化树的步骤。 11)简述除权配对法(UPGMA)的算法思想。 12)简述邻接法(NJ)的算法思想。 13)简述最大简约法(MP)的算法思想。 14)简述最大似然法(ML)的算法思想。 ? 15)UPGMA构树法不精确的原因是什么 16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其含义。 17)试述DNA序列分析的流程及代表性分析工具。 18)如何用BLAST发现新基因 19)试述SCOP蛋白质分类方案。 20)试述SWISS-PROT中的数据来源。 21)TrEMBL哪两个部分 22)试述PSI-BLAST 搜索的5个步骤。[ 3) 三、操作与计算题 1)如何获取访问号为U49845的genbank文件解释如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999

网上生物信息学教程

网上生物信息学教程EMBL biocomputing tutorials https://www.wendangku.net/doc/ba9906731.html,/Embnetut/Gcg/index.html Plant genome dababase tutorial https://www.wendangku.net/doc/ba9906731.html,/pgdic 生物信息学机 NCBI https://www.wendangku.net/doc/ba9906731.html,/ International Nucleotide Sequence Database Collaboration. https://www.wendangku.net/doc/ba9906731.html,/collab/ EBI https://www.wendangku.net/doc/ba9906731.html,/ USDA https://www.wendangku.net/doc/ba9906731.html,/ Sanger Centre https://www.wendangku.net/doc/ba9906731.html,/ 北京大学生物信息学中心 https://www.wendangku.net/doc/ba9906731.html, 数据库信息发布及其它 GenBank Release Notes ftp://https://www.wendangku.net/doc/ba9906731.html,/genbank/gbrel.txt dbEST summary report https://www.wendangku.net/doc/ba9906731.html,/dbEST/dbESTsummarv.html EMBL release notes http://www.bio.unizh.ch/db/docu.html?data=emrel Eukaryotic promoter database release notes http://www.genome.ad.jp/dbget/dbget2.html KEGG release notes http://www.genome.jp/kegg/docs/relnote.html 核苷酸数据库 GenBank https://www.wendangku.net/doc/ba9906731.html,/ dbEST https://www.wendangku.net/doc/ba9906731.html,/dbEST/index.html dbSTS https://www.wendangku.net/doc/ba9906731.html,/dbSTS/index.html dbGSS https://www.wendangku.net/doc/ba9906731.html,/dbGSS/index.html

生物信息学概论复习题

生物信息学概论复习题 一、名词解释: 1.合成生物学 2.蛋白质组学 3.相似性,同一性,同源性 4.直系同源基因,旁系同源基因 5.序列比对 6.生物信息学 7.多序列比对 8.打分矩阵 9.蛋白质同源建模 10.分子钟 11.虚拟细胞 12.蛋白质结构比对 13.EST 14.contig 15.unigene 16.Entrez 17.一级数据库 18.二级数据库 19.系统发育 20.BLAST 21.外类群 22.有根树 23.系统生物学 24.比较蛋白质组学 二、简述题: 1.常用的序列比对软件有哪些?

2.序列比对有哪些用途? 3.蛋白质结构比对? 4.系统生物学与分子生物学的差异和联系? 5.分子进化的中性学说? 6.GO数据库的内容及用途? 7.KEGG数据库的内容及用途? 8.蛋白质组与基因组的差别? 9.蛋白质组的研究内容? 10.列举分离鉴定蛋白质技术有哪些? 11.基因组外显子的组成特征有哪些? 12.NCBI Blast程序有哪些子程序?有何区别? 13.蛋白质数据库有哪些?各自特点是什么? 14.列举可以通过NCBI进行的生物信息学分析。 15.设计引物要遵循哪些原则? 16.知道某蛋白的氨基酸序列后,如何进行各级结构的生物信息学分析? 17.系统发育树的构建步骤是什么? 18.蛋白质有哪些结构层次,如何定义? 19.蛋白质组的特点? 20.双向电泳及其工作原理? 21.构建系统树的主要方法? 22.主要的生物信息数据库有哪些? 三、论述题 1.构建进化树有几种方法?如何选择? 2.第二代测序技术与第一代测序技术相比有什么异同?优势是什么? 3.什么EST序列?得到EST数据后,如何进行生物信息学分析?

生物信息学复习资料全

一、名词解释(31个) 1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程 息的存贮、信息的涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、 实验数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组 序列的功能区域,也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树 状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该 是进化保守的并且在其他物种中具有直系同源性。 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度) 6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会 进化出新的与原来有关的功能。用来描述在同一物种由于基因复制而分离的同源基因。(来自百度) 7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的 核苷酸或氨基酸字符串。 8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止 密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度) 9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区 域,折叠得较为紧密,各行其功能,称为结构域。 10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空 位并进行罚分,以控制空位插入的合理性。(来自百度) 11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分 cDNA的3’或5’端序列。(来自文献) 12.Gene Ontology 协会: 13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编 码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单 的归类整理和注释 15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋 白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所 占的比例。 17.Blastn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将 同所查序列作一对一地核酸序列比对。(来自百度) 18.Blastp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐 一地同每条所查序列作一对一的序列比对。(来自百度)

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解 释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计 算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技 术而揭示大量而复杂的生物数据所赋有的生物学奥秘。 2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于 距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后, 数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方 式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数 据存储的大型数据库系统都在各个方面得到了广泛的应用。 3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短 的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。EST 来源于一定环境下一个组织总 mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。 4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。 ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个 真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编 码基因的部分或全部的先决条件。 5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进 一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基 本结构。蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理 功能的必要基础。 6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别 DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因, 也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基 因组研究的基础。

2021高中生物最新辅导书籍推荐

2021高中生物最新辅导书籍推荐 许多准备参加生物竞赛的高中小盆友总会向别人请教买什么辅导资料最好,问的人多了,答案也就五花八门,然并卵,在这浩如烟海的书目中也是茫然无措。特此归纳整理了各方建议,希望能对生竞选手们有所帮助。 首先,要知道什么是生物联赛。我们通常所说的中学生物学奥赛是分为以下五个赛程的:各省的初赛、全国中学生生物学联赛、全国中学生生物学竞赛、全国中学生生物学冬令营、国际中学生生物学奥林匹克竞赛即IBO。就是通过这层层的严格选拔,在全国范围内发掘出高手中的高手作为国家对选手参加IBO,为国争光。而当下由于很多高校都把学科竞赛省赛成绩作为自主招生申请条件之一,所以作为第二阶段的全国中学生生物学联赛也就获得更多的关注了。 其次,要知道生物联赛的考核内容。我们都知道该考试以高中生物学为基础,并会扩展至高校普通生物学内容,具体考核点与分值分布是这样的: 1.细胞生物学、生物化学、微生物学、生物信息学 25% 2.植物和动物的解剖、生理、组织和器官的结构与功能 30% 3.动物行为学、生态学 20% 4.遗传学与进化生物学、生物系统学 25% 最后回归主题吧,到底该准备些什么备考资料呢? 入门篇: 吴相钰著《陈阅增普通生物学》——高等教育出版社看过之后对生物有个大致的概念 尹长明著《生物奥林匹克竞赛教程》-——湖南师范大学出版社 北京大学生物学家编著《精英教案》基础生物教程上、中、下册——军事谊文出版社 北京大学生物学家编著《精英教案》生物习题专集——军事谊文出版社 拔高篇: 刘凌云著《细胞生物学》——高等教育出版社 刘凌云、郑光美著《普通动物学》——高等教育出版社 王玢、左明雪著《人体及动物生理学》-——高等教育出版社

生物信息学的主要研究内容

常用数据库 在DNA序列方面有GenBank、EMBL和等 在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等 在蛋白质和其它生物大分子的结构方面有PDB等 在蛋白质结构分类方面有SCOP和CATH等 生物信息学的主要研究内容 1、序列比对(Alignment) 基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包BLAST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。 2、结构比对 基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。 3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一 从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建(Homology)和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。 4、计算机辅助基因识别(仅指蛋白质编码基因)。最重要的课题之一 基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。 5、非编码区分析和DNA语言研究,是最重要的课题之一 在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA 序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。 6、分子进化和比较基因组学,是最重要的课题之一 早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。 7、序列重叠群(Contigs)装配 一般来说,根据现行的测序技术,每次反应只能测出500或更多一些碱基对的序列,这就有一个把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明,这是一个NP-完备

浅谈生物信息学在生物方面的应用

浅谈生物信息学在生物方面的应用 生物信息学(bioinformaLics)是以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象,以数学、信息学、计算机科学为主要手段,对浩如烟海的原始数据和原始资料进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获得基因的编码、凋控、遗传、突变等知识;研究核酸和蛋白质等生物大分子的结构、功能及其相互关系;研究它们在生物体内的物质代谢、能量转移、信息传导等生命活动中的作用机制。 从生物信息学研究的具体内容上看,生物信息学可以用于序列分类、相似性搜索、DNA 序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算工具已成为变态反应研究工作的重要组成部分。针对核酸序列的分析就是在核酸序列中寻找过敏原基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。针对蛋白质序列的分析,可以预测出蛋白质的许多物理特性,包括等电点分子量、酶切特性、疏水性、电荷分布等以及蛋白质二级结构预测,三维结构预测等。 生物信息学中的主要方法有:序列比对,结构比对,蛋白质结构的预测,构造分子进化树,聚类等。基因芯片是基因表达谱数据的重要来源。目前生物信息学在基因芯片中的应用主要体现在三个方面。 1、确定芯片检测目标。利用生物信息学方法,查询生物分子信息数据库,取得相应的序列数据,通过序列比对,找出特征序列,作为芯片设计的参照序列。 2、芯片设计。主要包括两个方面,即探针的设计和探针在芯片上的布局,必须根据具体的芯片功能、芯片制备技术采用不同的设计方法。 3、实验数据管理与分析。对基因芯片杂交图像处理,给出实验结果,并运用生物信息学方法对实验进行可靠性分析,得到基因序列变异结果或基因表达分析结果。尽可能将实验结果及分析结果存放在数据库中,将基因芯片数据与公共数据库进行链接,利用数据挖掘方法,揭示各种数据之间的关系。 生物信息学在人类基因组计划中也具有重要的作用。 大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。目前,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙,到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起.拼接与组装中的难点是处理重复序列,这在含有约30%重复序列的人类基因组中显得尤其突出。 人类基因组的工作草图即将完成,因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段,可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组(约1300万bp)所包含6千多个基因,大约60%是通过信息分析得到的。 当人类基因找到之后,自然要解决的问题是:不同人种间基因有什么差别;正常人和病人基因又有什么差别。”这就是通常所说的SNPs(单核苷酸多态性)。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps 的研究。在我国开展中华民族SNPs研究也是至重要的。总之,生物信息学不仅将赋予人们各种基础研究的重要成果,也会带来巨大的经济效益和社会效益。在未来的几年中DNA 序列数据将以意想不到的速度增长,这更离不开利用生物信息学进行各类数据的分析和解释,研制有效利用和管理数据新工具。生物信息学在功能基因组学同样具有重要的应用目前应用最多的是同源序列比较、模式识别以及蛋白结构预测。所谓同源序列,是指从某一共同祖先经趋异进化而形成的不同序列。利用数据库搜索找出未知核酸或蛋白的同源序列,是序列分析的基础[lol。如利用BLASTn和BLASTx两种软件分别进行核苷酸和氨基

生物信息学重点资料

一、名词解释 分子进化中性学说1968,木村资生提出,认为多数或绝大多数突变都是中性的,即无所谓有利或不利,因此对于这些中性突变不会发生自然选择与适者生存的情况。生物的进化主要是中性突变在自然群体中进行随机的“遗传漂变”的结果,而与选择无关。 相似性不同染色体之间的相似程度 同源性两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列的相似程度 外显子断裂基因中的编码序列。成熟mRNA上保留下的编 码序列,蛋白质生物合成过程中表达为蛋白质。内含子断裂基因的非编码区,可被转录到前体RNA,在 mRNA加工过程中被剪切掉,成熟mRNA上无内含 子编码序列,无法表达为蛋白质。 基于距离构建系统发育树首先获得分类群间的进化距离度量,再依 据距离度量来重建一颗系统发育树,并使得该树能 最好的反应已知序列之间的距离 最大简约法根据离散型性状{包括形态学性状和分子序列(DNA,蛋白质等)}的变异程度,构建生物的系统发育树,并分析生物物种之间的演化关系。 最大似然法(ML)是完全基于统计的方法,以一个特定的替代模型分析一组序列数据,使所得的每一个拓扑结构的似然值均为最

大,筛选出最大似然值的拓扑结构为最终树 EST expressed sequence tags,表达序列标签,指从不同组 织来源的cDNA序列。 SNP Single Nucleotide Polymorphisms,单核苷酸的多态性 二、选择 1、RNA不含的碱基 T 2、生物性息学数据库检索6个last,五个程序,何时用 3、DNA.RNA连接方式、方向性、是否重复、RNA易被水解? 磷酸二酯键都5′→3′------ RNA更易水解

生物信息学课程教学大纲

《生物信息学》课程教学大纲 适用对象:生物工程、生物技术等专业学生 (学分:2学分学时:36) 一、课程的性质和任务 生物学与信息科学是当今世界上发展最迅速、影响最大的两门科学。而这两门科学的交叉融合形成了广义的生物信息学,正以崭新的理念吸引着科学家的注意。生物信息学(Bioinformatics)是生命科学领域中的新兴学科,面对人类基因组计划所产生的庞大的分子生物学信息,生物信息学的重要性将越来越突出,它无疑将会为生命科学的研究带来革命性的变革。它是综合利用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。 本课程主要讲授生物信息学的基本概念和研究内容、方法及其应用等的基本知识,学习从Internet如何获取、处理、存储、分配和解释基因组信息,并应用计算机软件进行蛋白空间结构模拟和预测,以便发掘和造就学生跨学科学习的本领。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。 生物信息学是生物工程和生物技术专业的选修课程,适宜于已有生物化学和分子生物学基础的学生。本课程以多媒体教学为主,课堂辅助答疑为辅;结合网上资源和课程软件,基本上实现学生不限时段的网上学习、在线交流等功能。 二、教学内容和要求 绪论 目的:了解本课程的研究对象、内容和方法以及国内研究的领军人物。 内容:本课程的研究对象和内容;学科发展史;主要研究方法;国内研究的领军人物。要求:1 了解本课程研究对象、内容和学科发展史;2 理解本课程的主要研究方法; 3 对国内的一些研究团体和领军任务有所了解。 第一章生物信息学的基础知识 目的:掌握生物信息学所需的生物学、计算机科学和网络知识。 内容:生物学知识包括:细胞的分类和亚结构、中心法则、基因和基因组、蛋白质的结构层次(从一级结构到无级结构)、蛋白质组学、核酸的结构和功能、密码子的特征;计算机知识主要包括数据库的基本知识、网络的域名、Ftp服务以及生物信息学常见的一些ftp服务。 要求:1 了解细胞的分类和亚结构、中心法则、基因和基因组、蛋白质的结构层次(从一级结构到五级结构)、蛋白质组学、核酸的结构和功能、密码子的特征等生物学基础知识;2 理解这些生物学知识在生物信息学中的重要性;3 理解数据库的基本知识、网络的域名、Ftp服务以及生物信息学常见的一些ftp服务;4 熟练掌握利用数据库资源进行数据检索和查询。

相关文档
相关文档 最新文档