文档库 最新最全的文档下载
当前位置:文档库 › 生物信息学_复习题及答案(打印)

生物信息学_复习题及答案(打印)

生物信息学_复习题及答案(打印)
生物信息学_复习题及答案(打印)

一、名词解释:

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。

2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。

5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。

6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94

7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98

8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29

9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29

10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37

11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95

12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。

13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。

14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。

15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。

16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。

17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。

系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。

18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)

19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。)

20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。

21.有根树:能够确定所有分析物种的共同祖先的进化树。

22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。

23.邻接法(neighbor-joining method):是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。

24.最大简约法(MP):在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。

25.最大似然法(ML):它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。

26.一致树(consensus tree):在同一算法中产生多个最优树,合并这些最优树得到的树即一致树。

27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。

28.开放阅读框(ORF):开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。

29.密码子偏好性(codon bias):氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致,大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子偏好性。

30.基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界,调控区,预测基因组序列中包含的基因。

31.结构域(domain):保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。

32.超家族:进化上相关,功能可能不同的一类蛋白质。

33.模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。

34.序列表谱(profile):是一种特殊位点或模体序列,在多序列比较的基础上,氨基酸的权值和空位罚分的表格。

35.PAM矩阵:PAM指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性,通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对。一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。

36.BLOSUM矩阵:模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如,在BLOSUM62矩阵中,比对的分值来自不超过62%一致率的一组序列。

37.PSI-BLAST:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵(scoring matrix)探测远缘相关的蛋白。

38.RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的Genbank序列。

39.PDB(Protein Data Bank):PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。

40.GenPept:是由GenBank中的DNA序列翻译得到的蛋白质序列。数据量很大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。

41.折叠子(Fold):在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。

42.TrEMBL:是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。

43.MMDB(Molecular Modeling Database):是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,还提供生物大分子三维结构模型显示、结构分析和结构比较工具。

44.SCOP数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族(super family)、家族(family)、单个PDB蛋白结构记录。

45.PROSITE:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。

46.Gene Ontology 协会:编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。从3个方面描述基因产物的性质,即,分子功能,生物过程,细胞区室。

47.表谱(PSSM):指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。

48.比较基因组学:是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。

49.简约信息位点:指基于DNA或蛋白质序列,利用最大简约法构建系统发育树时,如果每个位点的状态至少存在两种,每种状态至少出现两次的位点。其它位点为都是非简约性信息位点。

4. 一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,

它们不能表示任何概率信息。

5. HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。(课

件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。

6. 信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。

7. 非信息位点:对于最大简约法来说没有意义的点。

8. 标度树:分支长度与相邻节点对的差异程度成正比的树。

9. 非标度树:只表示亲缘关系无差异程度信息。

10. 有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其他任何节点。

11. 无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在无根树中指派根

节点。

18. 质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法,从而使分子质量的准确确定成为可能。

质谱分析的两个工具

19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。

20. 虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反应和物质流的集合体。

21. 先导化合物:是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。

就是利用计算机在含有大量化合物三维结构的数据库中,搜索能与生物大分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合物,又称原型物,简称先导物,是通过各种途径或方法得到的具有生物活性的化学结构22. 权重矩阵(序列轮廓):它们表示完全结构域序列,多序列联配中每个位点的氨基酸都有分值,并且特定位置插入

或缺失的可能性均有一定的衡量方法(课件定义)。基础上针对特定的应用目标而建立的数据库。

23. 系统发育学(phylogenetic):确定生物体间进化关系的科学分支。

24. 系统生物学(systems biology):是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在

特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程

25. 蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。

26. ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显降解的质谱技术。

1.鸟枪法测序(shotgun method)一种测序方法,包括从基因组中获得随机的、已测序的克隆片段,并且对初始基因

的位置一无所知。

2.BLAST:基本局部相似性比对搜索工具。在序列数据库中快速查找与给定的序列具有最优局部对准结果的序列的一种

序列对算法。

3.整体联配(global alignment):对两个核苷酸或蛋白质序列的全长所进行的比对。

4.FASTA:是第一个被广泛使用的数据库相似性搜索算法,这个程序通过扫描序列中“词”的小配对,从而寻找最优局

部比对。

5.算法(algorithm):在计算机程序中包含的一种固定过程。

6.序列比对(alignment):将两个或多个序列排在一起,以达到最大一致性的过程(对于氨基酸序列是比较他们的保

守性),这样评估序列间的相似性和同源性。

7.多序列比对(multiple sequence alignment):三个或多个序列之间的比对,如果序列在同一列有相同结构位置的

残基和(或)祖传的残基,则会在该位置插入空位。

8.最佳联配(optimal alignment):两个序列之间有最高打分值的排列。

9.空位(gap):在两条序列比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除。

10.模块替换矩阵(BLUSUM)在替换矩阵中,每个位置的打分是在相关蛋白局部比对模块中观察到的替换的频率而获得

的,每个矩阵被修改成一个特殊的进化距离。

11.可接受点突变(PAM)一个用于衡量蛋白质序列的进化突变程度的单位。

12.互补序列(complementary sequence)能够与其他DNA片段根据碱基互补序列(A与T配对,G与C配对)形成两练

结构的核苷酸序列。

13.保守序列(conserved sequence)指DNA分子中的一个核苷酸片段或者蛋白质中氨基酸片段,它们在进化过程中基

本保持不变。

14.邻接片段(contig)与支架(scaffold)

15.邻接片段:一组在染色体上有重叠区域的DNA片段的克隆;

16.支架:由序列重叠群拼接而成。

17.注释(annotation)对数据库中原始的DNA碱基序列添加相关信息(比如编码的基因,氨基酸序列等)或其他的注

解。

18.基因预测(gene prediction)用计算机程序对可能的基因所做的预测,它是基于DNA片段与已知基因序列的匹配程

度的。

19.直系同源(Orthologous)指不同种类的同源序列,他们是在物种的形成事件中从一个祖先序列独立进化而成的,可

能有相似功能,也可能没有。

20.旁系同源(paralogous)是通过类似基因复制的机制产生的同源序列。

21.替换(substitution)在指定的位置不相同的氨基酸进行连配,如果联配的残基有相似的物化性质,那么替换是保

守的。

22.表达序列标签(EST)一种短的DNA片段,是cDNA分子的一部分,可用来鉴定基因,通常用于基因定位和基因图谱

中。

23.多态性(PolyMorphism)多个个体之间DNA的差异叫多态性。

24.基因预测(Gene Prediction)同19

25.序列模式(Motif)蛋白质序列中短的保守区域,它们是结构域中保守性很高的部分。

26.结构域(domain):蛋白质在折叠时候与其它部分相独立的一个不连续部分,他有自己独特的功能。

27.开放阅读框(ORF)位于DNA或RNA上起始密码子与终止密码子之间的序列。

28.表达谱(profile)一个显示某个同源家族中指定位置打分值和空位罚分的表格,可以用于搜索序列数据库。

29.分子钟(molecular clock)对于每一个给定基因(或蛋白质)其分子进化率大致是恒定的。

30.系统发生(phylogeny)是指生物种族的进化历史,亦即生物体在整个进化谱

31.分子进化树(molecular evolutionary tree)在研究生物进化和系统分类中,常用一种类似树状分支的图形来概

括各种(类)生物之间的亲缘关系,这种树状分支的图形成为系统发育树(phylogenetic tree)。

■一、选择题:

1.以下哪一个是mRNA条目序列号: A. J01536 ■. NM_15392 C. NP_52280 D. AAB134506

2.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■. Unigene B. Entrez C.

LocusLink D. PCR

3.一个基因可能对应两个Unigene簇吗?■可能 B. 不可能

4.下面哪种数据库源于mRNA信息:■ dbEST B. PDB C. OMIM D. HTGS

5.下面哪个数据库面向人类疾病构建: A. EST B. PDB ■. OMIM D. HTGS

6.Refseq和GenBank有什么区别: A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供

的是非冗余序列

■. Refseq源于GenBank,提供非冗余序列信息D. GenBank源于Refseq

7.如果你需要查询文献信息,下列哪个数据库是你最佳选择: A. OMIM B. Entrez ■ PubMed D.

PROSITE

8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A. 因为GenBank的数据比EMBL

更多,Entrez给出的搜索结果将更多B. 搜索结果很可能一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同

9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■ N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W

10.直系同源定义为:■不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的

同源序列

C. 同一物种中由基因复制产生的同源序列

D. 同一物种中具有相似的并且通常是冗余的功能的同源序列

11.下列那个氨基酸最不容易突变: A. 丙氨酸 B. 谷氨酰胺 C. 甲硫氨酸■半胱氨酸

12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变: A. 1% B. 20% ■.

80% D. 250%

13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A. 全局比对通常用于比对DNA序列,而局部比对

通常用于比对蛋白质序列B. 全局比对允许间隙,而局部比对不允许C. 全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列

14.假设你有两条远源相关蛋白质序列。为了比较它们,最好使用下列哪个BLOSUM和PAM矩阵:■ BLOSUM45和PAM250

B. BLOSUM45和PAM 1

C. BLOSUM80和PAM250

D. BLOSUM10和PAM1

15.与PAM打分矩阵比较,BLOSUM打分矩阵的最大区别是:A. 最好用于比对相关性高的蛋白B. 它是基于近相关蛋白的

全局多序列比对

■它是基于远相关蛋白的局部多序列比对D. 它结合了全局比对和局部比对

16.如果有一段DNA序列,它可能编码多少种蛋白质序列: A. 1 B. 2 C. 3 ■. 6

17.要在数据库查询一段与某DNA序列编码蛋白质最相似的序列,应选择: A. blastn B. blastp C. tblastn D.

tblastp ■ blastx

18.为什么ClustalW(一个采用了Feng-Doolittle渐进比对算法的程序)不报告E值:A. ClustalW报告E值■

使用了全局比对 C. 使用了局部比对 D. 因为是多序列比对

19.Feng-Doolittle方法提出“一旦是空隙,永远是空隙”规则的依据是:A. 保证空隙不会引物序列加入而填充B. 假

定进化早期分歧的序列有较高优先级别■假定最近序列空隙应该保留 D. 假定最远序列空隙应该保留

20.根据分子钟假说: A. 所有蛋白质都保持一个相同的恒定进化速率 B. 所有蛋白质的进化速率都与化石记录相符

合 C. 对于每一个给定的蛋白质,分子进化的速率是逐渐减慢的,就如同不准时的钟■对于每一个给定的蛋白质,其分子进化的速率在所有的进化分支上大致是恒定

21.系统发生树的两个特征是: A. 进化分支和进化节点■树的拓扑结构和分支长度C. 进化分支和树根D. 序列比

对和引导检测方法

22.下列哪一个是基于字母特征的系统发生分析的算法: A. 邻位连接法(NJ法)B. Kimura算法■最大似然法(ML)

D. 非加权平均法(UPGMA)

23.基于字母特征和基于距离的系统发生分析的算法的基本差异是:■基于字母特征的算法没有定义分支序列的中间数

据矩阵

B. 基于字母特征的算法可应用于DNA或者蛋白质序列,而基于距离仅能用于DNA

C. 基于字母特征的算法无法运用简约算法

D. 基于字母特征的算法的进化分支与进化时间无关

24.一个操作分类单元(OTU)可指:A. 多序列比对■蛋白质序列C. 进化分支D. 进化节点

25.构建进化树最直接的错误来源是:■多序列比对错误B. 采样的算法差异C. 假设进化分支是单一起源D. 尝试推测

基因的进化关系

26.第一个被完整测定的基因组序列是: A. 啤酒酵母的3号染色体B. 流感病毒■ФX174 D. 人类基因组

27.普通的真核生物线粒体基因组编码大约多少个蛋白质:■ 10 B. 100 C. 1000 D. 10000

28.根据基因组序列预测蛋白质编码基因的算法的最大问题是: A. 软件太难使用■. 假阳性率太高,许多不是外

显子的序列部分被错误指定C. 假阳性率太高,许多不是外显子功能未知 D. 假阴性率太高,丢失太多外显子位点

29.HIV病毒亚型的系统演化研究可以: A. 证实HIV病毒是由牛病毒演化而来■. 用于指导开发针对保守蛋白的疫苗

C. 证实哪些人类组织最容易遭受病毒侵染

30.一个典型的细菌基因组大小约为多少bp: A. 20000 ■. 200000 C. 2000000 D. 20000000

31.细菌基因组与真核生物基因组分析工具存在较大差异的主要原因是:A. 细菌拥有不同的密码子 B. 细菌没有细

胞核C. 细菌很少有基因与真核同源■细菌DNA的基因含量、组成结构很不一样

32.下列具有最小基因组的原核生物可能是:A. 嗜极生物B. 病毒■胞内细菌D. 杆菌

33.要证明某大肠杆菌中的某个基因是水平转移而来,需要:A. 分析该大肠杆菌中该基因的GC含量与其他基因是否有很

大差异B. 分析该大肠杆菌中该基因的密码子使用与其他基因是否有很大差异C. 系统发生分析该基因与其他物种中基因的同源关系■获取以上三个方面的信息

34.C值矛盾是指: A. 某些基因组中核苷酸C的含量少B. 真核生物基因组大小同编码蛋白质的基因个数没有相关性

■真核生物基因组大小同屋中的复杂性相关性很小D. 真核生物基因组大小同进化上的年龄相关性小

35.成百上千个4~8bp的重复序列单元最可能出现在: A. 散布性重复序列中 B. 假基因中■端粒中 D. 片段复制

区域

36.从头预测真核基因的原因有:A. 外显子/内含子边界难以确定B. 内含子长度可能只有几个碱基对

C. 编码区域的GC含量并不总是与非编码区相同■以上三个方面的原因

37.人类基因组大小大约是多少Mb: A. 130 B. 300 ■3000 D. 30000

38.各种重复元件在人类基因组中大约占的百分比为: A. 5% B. 25% ■50% D. 95%

39.蛋白质编码区域占人类基因组百分比是:■ 1-5% B. 5-10% C. 10-20% D. 20-4-%

40.人类基因组中GC含量高的区域:A. 基因密度相对较低■基因密度相对较高C. 基因密度多变 D. 基因所

含密码子相对较少

41.人类复合孟德尔遗传的基因疾病约占疾病基因的:■ 1% B. 10% C. 50% D. 60%

42.单基因疾病趋向于:■在普通人群较少见,并且发生时间较早 B. 在普通人群较常见,并且发生时间较早

C. 在普通人群较少见,并且发生时间较晚

D. 在普通人群较常见,并且发生时间较晚

二.填空题

1. 常用的三种序列格式:NBRF/PIR,FASTA和GDE

2. 初级序列数据库:GenBank,EMBL和DDBJ

3. 蛋白质序列数据库:SWISS-PROT和TrEMBL

4. 提供蛋白质功能注释信息的数据库:KEGG(京都基因和基因组百科全书)和PIR(蛋白质信息资源)

5. 目前由NCBI维护的大型文献资源是PubMed

6. 数据库常用的数据检索工具:Entrez,SRS,DBGET

7. 常用的序列搜索方法:FASTA和BLAST

8. 高分值局部联配的BLAST参数是HSPs(高分值片段对),E(期望值)

9. 多序列联配的常用软件:Clustal

10. 蛋白质结构域家族的数据库有:Pfam,SMART

11. 系统发育学的研究方法有:表现型分类法,遗传分类法和进化分类法

12. 系统发育树的构建方法:距离矩阵法,最大简约法和最大似然法

13. 常用系统发育分析软件:PHYLIP

14. 检测系统发育树可靠性的技术:bootstrapping和Jack-knifing

15. 原核生物和真核生物基因组中的注释所涉及的问题是不同的

16.检测原核生物ORF的程序:NCBI ORF finder

17. 测试基因预测程序正确预测基因的能力的项目是GASP(基因预测评估项目)

18. 二级结构的三种状态:α螺旋,β折叠和β转角

19. 用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层,隐含层和输出层

20. 通过比较建模预测蛋白质结构的软件有SWISS-PDBVIEWER(SWISS—MODEL网站)

21. 蛋白质质谱数据搜索工具:SEQUEST

22. 分子途径最广泛数据库:KEGG

23.聚类分析方法,分为有监督学习方法,无监督学习方法

24. 质谱的两个数据库搜索工具:SEQEST和Lutkefish

二、问答题

1)生物信息学的发展经历了哪几个阶段

答:生物信息学的发展经历了3个阶段。

第一个阶段是前基因组时代。这一阶段主要是以各种算法法则的建立、生物数据库的建立以及DNA和蛋白质序列分析为主要工作;

第二阶段是基因组时代。这一阶段以各种基因组计划测序、网络数据库系统的建立和基因寻找为主要工作。

第三阶段是后基因组时代。这一阶段的主要工作是进行大规模基因组分析、蛋白质组分析以及其他各种基因组学研究。

2)生物信息学步入后基因组时代后,其发展方向有哪几个方面。

答:生物信息学步入后基因组时代后,其发展方向主要有:

①各种生物基因组测序及新基因的发现;②单核苷酸多态性(SNP)分析;③基因组非编码区信息结构与分析;

④比较基因组学和生物进化研究;⑤蛋白质结构和功能的研究。

3)美国国家生物技术信息中心(NCBI)的主要工作是什么?请列举3个以上Entrez系统可以检索的数据库。(NCBI 维护的数据库)NCBI的主要工作是在分子水平上应用数学和计算机科学的方法研究基础生物,医学问题。为科学界开发,维护和分享一系列的生物信息数据库;开发和促进生物信息学数据库,数据的储存,交换以及生物学命名规则的标准化。维护的主要数据库包括

答:PubMed、核酸序列数据库GenBank、PROW、三维蛋白质结构分子模型数据库MMDB。

4)序列的相似性与同源性有什么区别与联系?

答:相似性是指序列之间相关的一种量度,两序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系。P147

5)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?

答:blastn是将给定的核酸序列与核酸数据库中的序列进行比较;Blastp是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系;Blastx将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序

列进行比对,对分析新序列和EST很有用;Tblastn将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对,对于寻找数据库中序列没有标注的新编码区很有用;Tblastx只在特殊情况下使用,它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对。P97

6)简述BLAST搜索的算法思想。

答:BLAST是一种局部最优比对搜索算法,将所查询的序列打断成许多小序列片段,然后小序列逐步与数据库中的序列进行比对,这些小片段被叫做字”word”;当一定长度的的字(W)与检索序列的比对达到一个指定的最低分(T)后,初始比对就结束了;一个序列的匹配度由各部分匹配分数的总和决定,获得高分的序列叫做高分匹配片段(HSP),程序将最好的HSP双向扩展进行比对,直到序列结束或者不再具有生物学显著性,最后所得到的序列是那些在整体上具有最高分的序列,即,最高分匹配片段(MSP),这样,BLAST既保持了整体的运算速度,也维持了比对的精度。P95

7)什么是物种的标记序列?

答:指物种特有的一段核苷酸序列。可以通过相似性查询,得到某一序列在数据库中的某一物种中反复出现,且在其他物种中没有的明显相似的序列。

8)什么是多序列全局比对的累进算法?(三个步骤)

答:第一,所有的序列之间逐一比对(双重比对);第二,生成一个系统树图,将序列按相似性大致分组;第三,使用系统树图作为引导,产生出最终的多序列比对结果。P52

9)简述构建进化树的步骤,每一步列举1-2种使用的软件或统计学方法。

答:(1)多序列比对:Clustal W

(2)校对比对结果:BIOEDIT

(3)建树:MEGA

(4)评估系统发育信号和进化树的牢固度:自举法(Bootstrap)P114

10)简述除权配对法(UPGMA)的算法思想。

答:通过两两比对聚类的方法进行,在开始时,每个序列分为一类,分别作为一个树枝的生长点,然后将最近的两序列合并,从而定义出一个节点,将这个过程不断的重复,直到所有的序列都被加入,最后得到一棵进化树。P119

11)简述邻接法(NJ)构树的算法思想。

答:邻接法的思想不仅仅计算最小两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制。这种算法由一棵星状树开始,所有的物种都从一个中心节点出发,然后通过计算最小分支长度的和相继寻找到近邻的两个序列,每一轮过程中考虑所有可能的序列对,把能使树的整个分支长度最小的序列对一组,从而产生新的距离矩阵,直到寻找所有的近邻序列。P117

12)简述最大简约法(MP)的算法思想。P68

答:是一种基于离散特征的进化树算法。生物演化应该遵循简约性原则,所需变异次数最少(演化步数最少)的演化树可能为最符合自然情况的系统树。在具体的操作中,分为非加权最大简约分析(或称为同等加权)和加权最大简约分析,后者是根据性状本身的演化规律(比如DNA不同位点进化速率不同)而对其进行不同的加权处理。P120

13)简述最大似然法(ML)的算法思想。P69

答:是一种基于离散特征的进化树算法。该法首先选择一个合适的进化模型,然后对所有可能的进化树进行评估,通过对每个进化位点的替代分配一个概率,最后找出概率最大的进化树。P122

14)UPGMA构树法不精确的原因是什么?P69

答:由个于UPGMA假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟;这种算法当所构建的进化树的序列进化速率明显不一致时,得到的进化树相对来说不准确的。P119,倒数第2段,前4行。

15) 在MEGA2软件中,提供了哪些碱基替换距离模型,试列举其中3种,解释其含义。

答:碱基替换模型包括,No.of differences 、p-distance、Jukes-Cantor distance、T ajima-Nei distance、Kimur 2-parameter distance、Tamura 3-parameter distance、Tamura-Nei distance

p-distance:表示有差异的核苷酸位点在序列中所占比例,将有差异的核苷酸位点数除已经比对的总位点数就可以得到

Jukes-Cantor:模型假设A T C G 的替换速率是一致的,然后给出两个序列核苷酸替换数的最大似然估计

Kimura 2-parameter:模型考虑到了转换很颠换队多重击中的影响,但假设整个序列中4钟核苷酸的频率是相同哈德在不同位点上的碱基替换频率是相同的

16)列举5项DNA序列分析的内容及代表性分析工具。

答:(1)寻找重复元件:RepeatMasker

(2)同源性检索确定是否存在已知基因:BLASTn

(3)从头开始方法预测基因:Genscan

(4)分析各种调控序列:TRES/DRAGON PROMOTOR FINDER

(5) CpG岛:CpGPlot P130,表格

代表性工具:ORF Finder、BLASTn、tBLASTx、BLASTx、Gene Wise

17)如何用BLAST发现新基因?

答:从一个一直蛋白质序列开始,通过tBLASTn工具搜索一个DNA数据库,可以找到相应的匹配,如与DNA编码的已知蛋白质的匹配或者与DNA编码的相关蛋白质的匹配。然后通过BLASTx或BLASTp在蛋白质数据库中搜索DNA 或蛋白质序列来“确定”一个新基因。

18)试述SCOP蛋白质分类方案

答:SCOP将PDB数据库中的蛋白质按传统分类方法分成α型、β型、α/β型、α+β型,并将多结构域蛋白、膜蛋白和细胞表面蛋白、N蛋白单独分类,一共分成7种类型,并在此基础上,按折叠类型、超家族、家族三个层次逐级分类。对于具有不同种属来源的同源蛋白家族,SCOP数据库按照种属名称将它们分成若干子类,一直到蛋白质分子的亚基。

19)试述SWISS-PROT中的数据来源。

答:(1)从核酸数据库经过翻译推导而来;

(2)从蛋白质数据库PIR挑选出合适的数据;

(3)从科学文献中摘录;

(4)研究人员直接提交的蛋白质序列数据。

20)T rEMBL哪两个部分?

答:

(1)SP-TrEMBL(SWISS-PROT TrEMBL)

包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。

(2)REM-TrEMBL(REMaining TrEMBL)

包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。

21)试述PSI-BLAST 搜索的5个步骤。

答:

[1]选择待查序列(query)和蛋白质数据库;

[2] PSI-BLAST 构建一个多序列比对,然后创建一个序列表谱(profile)又称特定位置打分矩阵(PSSM);

[3] PSSM被用作query搜索数据库

[4] PSI-BLAST 估计统计学意义(E values)

[5] 重复[3] 和[4] , 直到没有新的序列发现。

22)列举5种常用的系统发育分析软件PHYLIP、PAUP、MEGA、PAML、TreeView。

三. 操作与计算题

1.如何获取访问号为U49845的genbank文件?解释如下genbank文件的LOCUS行提供的信息:

LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999

答:(1)访问NCBI的Entrez检索系统,(2)选择核酸数据库,(3)输入U49845序列访问号开始检索。

第一项是LOCUS名称,前三个字母代表物种名

第二项是序列长度

第三项是序列分子类型

第四项是分子为线性的

第五项是GenBank分类码

第六项是最后修订日期P13

2.利用Entrez检索系统对核酸数据搜索,输入如下信息,将获得什么结果:

AF114696:AF114714[ACCN]。P35

答:获得序列访问号AF114696到AF114714之间的连续编号的序列。

3.相比使用BLAST套件搜索数据库,BLAST2工具在结果呈现上有什么优点?

答:BLAST2序列分析工具,它能进行两条序列的精确比对,同时给出两序列的图形化比对结果和文本形式的联配结果。

4.MEGA2如何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件?

答:(1)选择菜单file,(2)选择Text File Editor and Format Coverter 工具,(3)调入需要转换的序列和相应的格式,(4)获得转换后的MEGA格式的文件并保存。

5.什么简约信息位点Pi?

答:指基于DNA或蛋白质序列,应用最大简约法构建系统发育树时,如果某个位点的状态存在两种或两种以上,每种状态出现两次或两次以上,这样的位点称简约信息位点。

6. 以下软件的主要用途是什么?

RepeatMasker, CpGPlot, Splice View, Genscan, ORF finder, neural network promoter prediction.

答:RepeatMasker:是对重复序列进行分析的软件

GpGPlot:用来查找一条DNA序列中CpG岛,使用Gardine-Garden和Frommer描述的方法

Splice View:是对一段序列进行剪接位点的分析即其中的受体和供体位点

Genscan:是一种从头分析工具

ORF finder:是用来分析序列ORF的工具

neural networkpromoter prediction:神经网络启动子预测是另外一种分析启动子的方法

10.试述蛋白质三维结构预测的三类方法

(1)同源建模,对于一个未知结构的蛋白质,找到一个已知结构的同源蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型,序列相似性低于30%的蛋白质难以得到理想的结构模型;(2)在已知结模板的序列一致率小于25%时,使用折叠识别方法进行预测;(3)在找不到已知结构的蛋白质模板时使用从头预测的方法。

1. FASTA序列格式

第一行以“>”开头但并没有指明是蛋白质还是核酸序列。后跟代码,接着是注释(在同一行),通常注释要以“|”

符号相隔,第一行没有长度限制。值得注意的是FASTA文件允许以小写字母表示氨基酸。文件扩展名为“.fasta”。

(NBIR/PIR序列格式

第一行以“>”开头,后面紧跟两字母编码(P1代表蛋白质序列,N1代表核酸),再接一个分号,分号后紧跟序列标识号。后面是说明行,该行可长可短,没有长度限制。接下来是序列本身,以“*”号终止。文件的扩展名为“.pir”

或“.seq”。

GDE序列格式

与FASTA的格式基本相同,但行首为“%”,文件扩展名为“.gde”。)

2. BLAST的五个子程序

3.

一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释;

二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

4. PSI-Blast的原理:

PSI-BLAST是一种将双序列比对和多序列比对结合在一起的数据库搜索方法。其主要思想是通过多次迭代找出最佳结果。每次迭代都发现一些中间序列,用于在接下去的迭代中寻找查询序列的更多疏远相关序列(拓展了序列进化关系的覆盖面积)。

具体做法是最初对查询序列进行BLAST搜索,接着把查找得到的每一击中项作为BLAST搜索第二次迭代的查询序列,重复这个过程直到找不到有意义的相似序列为止。

(以下为研究生课件部分)

PSI-BLAST的基本思路在于根据最初的搜索结果,依照预先定义的相似性阈值将序列分成不同的组,构建一个位点特异性的序列谱,并通过多次迭代不断改进这一序列谱以提高搜索的灵敏度。

利用第一次搜索结果构建位置特异性分数矩阵,并用于第二次的搜索,第二次搜索结果用于第三次搜索,依此类推,直到找出最佳搜索结果。此外,BLAST不仅可用于检测序列对数据库的搜索,还可用于两个序列之间的比对。

5. 多序列联配的意义:

1)分析多个序列的一致序列;2)用于进化分析,是用系统发育方法构建进化树的初始步骤;3)寻找个体间单核苷酸多态性;4)通过序列比对发现直亲同源与旁系同源基因;5)寻找同源基因(相似的序列往往具有同源性);6)寻找蛋白家族识别多个序列的保守区域;7)相似的蛋白序列往往具有相似的结构与功能;8)辅助预测新序列的二级或三级结构;9)可以直观地看到基因的哪些区域对突变敏感;10)PCR引物设计。

6. 系统发育学的研究方法:

1)表现型分类法:将表型相像的物种归类在一起,所有特征都要被考虑到;

2)遗传分类法:具有共有起源的物种归类在一起,也就是说,这些字符并没有出现在离它们较远的祖先序列;

3)进化分类法:该方法综合了表现型分类法和遗传分类法的原理,进化方法被普遍认为是最好的系统发育分析方法,因为该方法承认并采用目前的进化理论;

7. 系统发育树的构建方法:

1)距离矩阵法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推到得出分类群之间的进化距离,构建一个进化距离矩阵,其次基于这个矩阵中的进化距离关系构建进化树;

2)最大简约法:该法依据在任何位置将一条序列转变成另一条序列所需要突变的最少数量对序列进行比较和聚类; 3)最大似然法:该模型可将一个给定替代发生在序列中任何位置的概率融合进算法,该方法计算序列中每个位置的一个给定序列变化的可能性,最可靠的树为总的可能性最大的那棵。

8. 简述人工神经网络预测蛋白质二级结构的基本步骤。

1)输入数据(来自PDB)

2)产生一个神经网络(一个计算程序)

3)用已知的蛋白质二级结构来训练这个模型

4)由训练好的模型来给出未知蛋白的一个可能的结构

5)最后从生物角度来检验预测的一系列氨基酸是否合理

9. 预测蛋白质三级结构的三种方法

1)同源建模法:依据蛋白质与已知结构蛋白比对信息构建3D模型;

2)折叠识别法:寻找与未知蛋白最合适的模板,进行序列与结构比对,最终建立结构模型;

3)从头预测法:根据序列本身从头预测蛋白质结构。

10. 分子途径和网络的特点:

1)分子途径和网络的结构随意性大。图可以很简单,也可以非常复杂。它们可能包含了多个分支,盘绕的连接和

回路。

2)它们通常也显示出节点间关系的方向,例如表示出代谢通路或信号传导的方向。调控途径和网络的图也应该说

明相互作用是正的还是负的。正的相互作用(促进或者活化作用)常常用箭头表示,而负的交互效应(抑制或者失活作用)常常用T型棒表示。

11. 先导化合物的来源有四种来源:

1)通过偶然性观察发现的先导化合物(这个方法最著名的例子就是亚历山大.弗莱明发现的青霉素,今天所用的许多抗生素皆由其发展出来)

2)也可以通过替代疗法的药物开发中发现的药物副作用来识别先导化合物(例如,镇定剂氯化物丙嫀是在试验中发现用在抗组胺剂时被发现的)

3)先导化合物也可以来自传统医药学(如奎宁化合物就来自金鸡纳的树皮)

4)先导化合物也可以来自天然的底物或是配体(比如说,肾上腺素作为舒喘宁的类似物用来治疗哮喘)

12. 简述DNA计算机的基本原理:

1)以编码生命信息的遗传物质—DNA序列,作为信息编码的载体,利用DNA分子的双螺旋结构和碱基互补配对的性

质,将所要处理的问题映射为特定的DNA分子;

2)在生物酶的作用下,通过可控的生化反应生成问题的解空间;最后利用各种现代分子生物技术如聚合酶链反应

RCR、超声波降解、亲和层析、分子纯化、电泳、磁珠分离等手段破获运算结果。

DNA计算机优点:低能耗、存储容量高、运算速度快,可真正实现并行工作。

13. 简述DNA计算实现方式中,表面方式与试管方式相比具有哪些优点?

试管方式:就是在一个或多个试管的溶液里进行生化反应;

表面方式:是将对应的解空间的DNA分子固定在一块固体上,其次进行各种生化反应,或是在表面逐步形成解空间,然后根据具体问题对所有可能的解进行筛选,最后得到运算结果。

(1)操作简单,易于实现自动化操作;

(2)减少人为操作过程中造成的DNA分子的丢失及其它操作失误;

(3)减少分子在表面上的相互作用,同时增强分子间的特异性结合;

(4)信息储存密度大,据估计,10毫克DNA表面上的储存密度是传统计算姬的10的8次方倍,而在溶液中仅为10

的5次方倍;

(5)结果易于纯化。

14. 简述PCR引物设计的基本原则及其注意要点

原则:首先引物与模板的序列要紧密互补,其次引物与引物之间避免形成稳定的二聚体或发夹结构,再次引物不能再模板的非等位点引发DNA聚合反应(即错配)。

注意要点:1、引物的长度一般为15-30bp,常用的是18-27bp,但不应大于38,因为过长会导致其延伸温度大于74℃,不适合于TaqDNA聚合酶进行反应。

2、引物序列在模板内应当没有相似性较高,尤其是3’端相似性较高的序列,否则容易导致错配。引物3’端出现3个以上的连续碱基,如GGG或CCC,也会使错误引发几率增加。

3、引物3’端的末位碱基对Taq酶的DNA合成效率有较大的影响。不同的末位碱基在错配位置导致不同的扩增效率,末位碱基为A的错配效率明显高于其他3个碱基,因此应当避免在引物的3’端使用碱基。另外,引物二聚体或发夹结构也可能导致PCR反应失败。5’端序列对PCR影响不太大,因此常用来引进修饰位点或标记物。

4、引物序列的GC含量一般为40-60%,过高或过低都不利于引发反应。上下游引物的GC含量不能相差太大。

5、引物所对应模板位置序列的Tm值在72℃左右可使复性条件最佳。Tm值的计算有很多种方法,如按公式Tm=4(G+C)+2(A+T),在Oligo软件中使用的是最邻近法(thenearestneighbormethod)。

6、G值是指DNA双链形成所需的自由能,该值反映了双链结构内部碱基对的相对稳定性。应当选用3’端G值较低(绝对值不超过9),而在5’端和中间G值相对较高的引物。引物的3’端的G值过高,容易在错配位点形成双链结构并引发DNA聚合反应。

7、引物二聚体及发夹结构的能值过高(超过4.5kcal/mol)易导致产生引物二聚体带,并且降低引物有效浓度而使PCR反应不能正常进行。

8、对引物的修饰一般是在5’端增加酶切位点,应根据下一步实验中要插入PCR产物的载体的相应序列而确定。

15. 假设你得到一段未知基因的DNA序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未

知基因的功能和家族类别(包括系统发育树构建)

1、得到未知基因的DNA序列,用Blast做序列比对,找出与其基因相似的核苷酸序列和蛋白质序列。

2、接着,用搜索出来的较相似的序列用ClustW进行多序列比对,得到该序列的保守情况和突变情况。

3、最后用距离法构建系统发育树。

16. 假设你得到一段未知蛋白的氨基酸序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该

未知蛋白的功能和家族类别以及其结构预测。

1、用该序列进行BLASTP搜索。

2、再对其进行蛋白质结构域、功能域的搜索,可以用Znterproscan、Pfam,并对其进行结构分析。

3、再用ClustW进行多序列比对。

4、用人工神经网络的方法对其结构进行结构预测。

17. BLAST中,E值和P值分别是什么,它们有什么意义?

答:BLAST中使用的统计值有概率p值和期望e值。

E期望值(E-value)这个数值表示你仅仅因为随机性造成获得这一比对结果的可能次数。这一数值越接近零,发生这一事件的可能性越小。从搜索的角度看,E值越小,比对结果越显著。默认值为10,表示比对结果中将有10个匹配序列是由随机产生,如果比对的统计显著性值(E值)小于该值(10),则该比对结果将被检出,换句话说,比较低的E值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。

p值表示比对结果得到的分数值的可信度。一般说来,p值越接近于零,则比对结果的可信度越大;相反,p值越大,则比对结果来自随机匹配的可能性越大。

18. 什么是序列比对中使用的PA M矩阵和BLOSUM矩阵,它们的作用是什么,一般BLAST选择使用的矩阵是什么答:PAM矩阵和BLOSUM矩阵都是用于序列相似性的记分矩阵(scoring matrix)。记分矩阵中含有对齐时具体使用的数值。一般FASTA和BLAST都提供BLOSUM或PAM系列矩阵供选择,若要进行突变性质的进化分析时可以使用PAM,FASTA缺省推荐BLOSUM50矩阵。

PAM矩阵(Point Accepted Mutation)基于进化的点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个PAM就是一个进化的变异单位, 即1%的氨基酸改变,但这并不意味100次PAM 后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基酸。

模块替换矩阵BLOSUM(BLOcks Substitution Matrix)首先寻找氨基酸模式,即有意义的一段氨基酸片断(如一个结构域及其相邻的两小段氨基酸序列),分别比较相同的氨基酸模式之间氨基酸的保守性(某种氨基酸对另一种氨基酸的取代数据),然后,以所有60%保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM60;以所有80%保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM80。

19. 为什么蛋白质空间结构预测很重要,目前有哪几条途径用于从蛋白质的氨基酸序列预测其空间三维结构?

答:蛋白质空间结构的预测很重要。研究蛋白质结构,有助于了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质(或其它分子)之间的相互作用,通过分析蛋白质的结构,确认功能单位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子结构。

目前有三条途径用于从蛋白质一级序列预测其空间三维结构:

A、同源建模法。是蛋白质三维结构预测的主要方法。对于一个未知结构的蛋白质,首先通过序列同源分析找到一个已知结构的同源蛋白质,然后,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。前提是必须要有一个已知结构的同源蛋白质。

B、穿针引线法。需建立核心折叠数据库,在预测蛋白质空间结构时将一个待预测结构的蛋白质序列与数据库中核心折叠进行比对,找出比对结果最好的核心折叠,作为构造待预测蛋白质结构模型的根据。

C、从头开始法。在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,直接根据序列本身来预测其结构。该方法先对蛋白质及溶剂作近似处理,再建立能量函数,通过对构象空间进行快速搜索找到与某一全局最小能量相对应的构象。

简答题

1)生物信息学数据库的组成包括哪些部分?数据库有哪些类型?答案:生物信息学数据库的组成包括一级数据库

和二级数据库。数据库的类型包括核算和蛋白质一级结构序列数据库、基因组数据库、生物大分子三维空间结构数据库、以上述3类数据库和文献资料为基础构建的二次数据库。

2)简要介绍GenBank中的DNA序列格式。答案:GenBank中的DNA序列格式可以分成三个部分,第一部分为描

述符,从第一行LOCUS行到ORIGIN行,包含了关于整个记录的信息;第二部分为特性表,从FEA TURES行开始,包含了注释这一纪录的特性,是条目的核心,中间使用一批关键字;第三部分是核苷酸序列的本身。

3)简要介绍FAST A序列格式答案:FASTA格式,又叫Pearson格式,是最简单的,使用最多的格式。它的基

本形式分为三个部分:⑴第一行:大于号(﹥)表示一个新的序列文件的开始,为标记符。后面可以加上文字说明,gi号,GenBank检索号,LOCUS名称等信息。⑵第二行:序列本身,为DNA的标准符号,通常大小写均可。

⑶结束:无特殊标志,但建议多留一个空行,以便将序列和其他内容区分开。

4)生物信息学数据库的要求和基本特征是什么?答案:

5)生物信息学的基本方法有哪些?答案略

6)生物信息学的目标和任务?答案:收集和管理生物分子数据;数据分析和挖掘;开发分析工具和实用软件:生物

分子序列比较工具、基因识别工具、生物分子结构预测工具、基因表达数据分析工具。

7)生物信息学主要研究内容。答案(1)生物分子数据的收集与管理;(2)数据库搜索及序列比较;(3)基因组序

列分析;(4)基因表达数据的分析与处理;(5)蛋白质结构预测。

8)为什么要构建生物分子数据库。答案:(1)生物分子数据高速增长(2)分子生物学及相关领域研究人员迅速获

得最新实验数据。

9)预测基因的一般步骤是什么?答案:⑴获取DNA目标序列⑵查找ORF并将目标序列翻译成蛋白质序列,利

用相应工具查找ORF并将DNA序列翻译成蛋白质序列⑶在数据库中进行序列搜索,利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索⑷进行目标序列与搜索得到的相似序列的全局对比⑸查找基因家族进行多序列比对,获得比对区段的基因家族信息⑹查找目标序列中的特定模序,分别在Prosite、BLOCK、Motif数据库中进行profile、模块(block)、模序(motif)检索⑺预测目标序列蛋白质结构,利用PredictProtein(EMBL)、NNPREDICT 等预测目标序列的蛋白质二级结构。

10)生物信息学所用的方法和技术。答案(1)数学统计方法;(2)动态规划方法;(3)机器学习与模式识别技术;

(4)数据库技术及数据挖掘;(5)人工神经网络技术;(6)专家系统;(7)分子模型化技术;(8)量子力学和分子力学计算;(9)生物分子的计算机模拟;(10)因特网(Internet)技术。

11)国际上权威的核酸序列数据库有那些?答案(1)欧洲分子生物学实验室的EMBL 。(2)美国生物技术信息中心

的GenBank。(3)日本遗传研究所的DDBJ。

12)生物信息学在基因芯片中的应用有哪些?答案:(1)确定芯片检测目标。(2)芯片设计。(3)实验数据管理与分

析。

13)生物信息学分析的数据对象主要有哪几种?这些数据之间存在着什么关系?答案:其研究重点主要落实在核酸和

蛋白质两个方面,包括它们的序列、结构和功能。生物信息学以基因组DNA序列信息分析作为出发点,破译遗传语言,认识遗传信息的组织规律,辨别隐藏在DNA序列中的基因,掌握基因调控信息,对蛋白质空间结构进行模拟和预测,依据蛋白质结构和功能的关系进行药物分子设计。

14)基因芯片对于生物分子信息检测的作用和意义?答案:在生命科学领域中,基因芯片为分子生物学、生物医学等

研究提供了强有力的手段。利用基因芯片技术,可研究生命体系中不同部位、不同生长发育阶段的基因表达,比较不同个体或物种之间的基因表达,比较正常和疾病状态下基因及其表达的差异。基因芯片技术也有助于研究不同层次的多基因协同作用的生命过程,发现新的基因功能,研究生物体在进化、发育、遗传过程中的规律。

15)在基因组序列分析方面,科学家关注哪些信息?答案:就人类基因组而言,编码区域在人类基因组所占的比例不

超过3%。其余97%是非编码序列。对于非编码序列,人们了解得比较少,尚不清楚其含义或功能。然而,非编码区域对于生命活动具有重要的意义。这部分序列主要包括内含子、简单重复序列、移动元件(mobile element)及其遗留物、伪基因(pseudo gene)等。

16)为什么要进行序列片段组装?在进行序列片段组装时会遇到哪些问题?答案:大规模基因组测序得到待测序列的

一系列序列片段,这些序列片段覆盖待测序列,序列片段之间也存在着相互覆盖或者重叠。遇到的问题:碱基标识错误;不知道片段的方向;存在重复区域;缺少覆盖。

17)序列分析的任务和目的分别是什么?答案:任务(1)发现序列之间的相似性;(2)辨别序列之间的差异。目的:

(1)相似序列:相似的结构,相似的功能(2)判别序列之间的同源性(3)推测序列之间的进化关系

18)PCR引物设计有哪些原则?答案:⑴产物不能形成二级结构;⑵引物长度一般在15~30个碱基之间;⑶G+C含量

在40%~60%之间;⑷碱基要随机分布;⑸引物自身不能有连续4个碱基互补;⑹引物之间不能有连续4个碱基的互补;⑺引物端可以修饰;⑻引物不可修饰;⑼引物端要避开密码子的第三位。

19)生物分子数据类型有哪些?答案:DNA序列数据、蛋白质序列数据、生物分子结构数据、生物分子功能数据、

20)基因识别:答案:基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序

列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。

1)生物信息学研究意义?

答案:

(1)认识生物本质

了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。

(2)改变生物学的研究方式

改变传统研究方式,引进现代信息学方法

(3)在医学上的重要意义

为疾病的诊断和治疗提供依据,为设计新药提供依据

2)DNA双螺旋结构模型的意义

(1) 为合理解释遗传物质的各种功能、解释生物的遗传和变异、揭示自然界色彩纷纭的生命现象奠定了理论基础;(2) 揭示了生命世界多样性和生命本质的一致性的辨正统一;

(3) 现代生命科学的里程碑。

3)什么是序列比对?及其基本分类?

答案:序列比对(Sequence Alignment)是通过在序列中搜索一系列单个性状或性状模式来比较2个(双序列比对)或更多(多重序列比对)序列的方法。

序列比对的分类:A、双序列比对:两条序列的比对。B、多序列比对:三条或以上序列的比对

论述题

1)简述人类基因组计划与生物信息学之间的相互促进关系。

答案:

人类基因组计划(Human Genome Project, HGP)是美国在1990年提出实施的一项伟大的科学计划,与阿波罗登月计划、曼哈顿原子弹计划同称为人类自然科学史上的三大计划。自实施以来,该计划在世界各国引起了很大反响。在人类基因组计划中,人们准备用15年时间,投入30亿美元,完成人类全部24条染色体中3×109个碱基对(bp,base pair)的序列测定,其主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别,还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。

随着人类基因组计划的提出和实施,实验数据和可利用信息急剧增加,人类基因组计划提供了以往不可想象的巨量的生物学信息资源。基因组信息的收集、储存、分发、分析显得越来越紧迫和重要,信息的管理和分析成为人类基因组计划实施过程中的一项重要工作,人类基因组计划向信息学提出了巨大的挑战。值得庆幸的是,人类基因组计划一开始就与计算机技术、信息高速公路同步发展,信息技术为生物信息学的发展提供了非常好的条件,为生物信息学的研究和应用提供了非常好的支撑。生物信息学与人类基因组计划紧密结合,互相渗透,生物信息学成为基因组计划不可分割的一部分。事实证明,人类基因组计划在生物信息学的支持下,前进步伐大大加快,已经提前完成计划,功能基因组研究也已经全面展开。而人类基因组计划反过来又大大促进了生物信息学的发展,HGP丰富了生物信息学的研究内容,促进生物信息学新思想、新方法的产生,生物信息学在最近10年迅速发展的历程证明了这一点。

2)掌握蛋白质结构有什么意义?为什么要进行蛋白质结构预测?

答案(1)研究蛋白质的结构意义重大,分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。研究蛋白质结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质(或其它分子)之间的相互作用,这无论是对于生物学还是对于医学和药学,都是非常重要的。(2)对于未知功能或者新发现的蛋白质分子,通过结构分析,可以进行功能注释,指导设计进行功能确认的生物学实验。通过分析蛋白质的结构,确认功能单位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子结构。

作物育种学模拟题及答案

《作物育种学》模拟题(五) )20分小题,每小题2分,共一、名词解释(共101.品种 2.种质资源 3.诱变育种 4.特殊配合力 5.杂交育种 6.杂种优势 7.生理小种 8.白交系品种 9.二环系 10.垂直抗性 二、单项选择题(本大题共10小题,每小题1分,共10分) 1、纬度相近地区之间的引种 ( ) A)较易成功 B)较难成功 C)不可能成功 D)肯定成功 2、小麦杂交育种配制三交种时,作为第二次杂交的亲本是( ) A)任何一个亲本 B)综合性状最好的亲本 C)具有特殊优良性状的个体 D)表现一般的亲本 3、在[(AXB)XC]XD的杂交方式中,C的遗传成分在其中占 ( ) A)1/2 B)1/4 C)1/8 D)1/16 4、与91—1—2—5—4—3亲缘关系最近的系统是 ( ) A) 91—2—3—5—4—3 B) 91—1—2—5—3—3 C) 91—1—3—5—4—3 D) 91—1—2—5—4—5 5、测交所用的共同亲本称为 ( ) A)测验种 B)测交种 C)杂交种 D)单交种 6、在防变育种中,经过诱变处理的种子或营养器官所长成的植株或直接处理的植株称为 ( ) (A)诱变一代(M1) (B) 诱变二代(M2 (C) 诱变三代(M3 ) (D) 诱变四代(M4) 、组合育种利用的遗传学原理是7. A)基因重组与基因积累(B)基因积累与基因互作 C)基因重组与基因互作(D) 基因积累与基因连锁 8、染色体组成为AAAABB的生物体 A)同源六倍休 B)异源六倍休 C)同源异源六倍体 D)节段异源六倍体 9、隐性核不育一般无法通过测交找到 A)不育系 B)保持系 C)恢复系 D)广亲和系 10、现代生物技术比传统育种技术的优越性主要在于能更好地( )

生物信息学复习题及答案

生物信息学复习题 名词解释 1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。 (直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。 (旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。 (异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。 Score:The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。 6.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。 值:得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP(高分片段对)得分的期望分布联系起来计算的。通常使用低于来定义统计的显著性。P=1-e-E 9.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法,是序列相似性分析的基础,其不同的选择将会出现不同的分析结果。 10.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 :美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有BLAST, Entrez ,GenBank等工具,还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 序列格式:是将DNA或者蛋白质序列表示为一个带有大于号(>)开始的核苷酸或者氨基酸序列的新文件,其中大于号后可以跟上序列的相关信息,其他无特殊要求。 13genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释,主要包含生物功能或数据库信息;第三部分是feature,对序列的注释;第四部分是序列本身,以“统发生树(Phylogenetic tree )是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系,是一种亲缘分支分类方法。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。是用来研究物种进化与多样性的基础,是相近物种相关生物学数据的来源。17.基因树与物种树:物种树反映一组物种进化历程的系统树,其中每一个内部节点就代表一个物种形成的过程,而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树,而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因

土壤学复习题及参考答案

二、填空题 1、五大成土因素是指母质、气候、地形、时间、生物,其中生物是主导因素。 2、土壤基本粒级有石砾、砂粒、粉粒、粘粒。 3、影响土壤阳离子交换能力的因素是电荷价、离子半径和离子浓度。 4、按照吸附机理可以把土壤吸附性能分为交换性吸附、专性吸附和负吸附。 5、产生阳离子专性吸附的土壤胶体物质是铁、铝、锰的氧化物及其水化物,被专性吸附的阳离子主要是 BⅠ、BⅡ族和其它过渡金属离子。 6、土壤钾元素形态可分为水溶态钾、交换性钾、非交换性钾、矿物态钾。 7、若土壤的容重为,质量含水量为20%,则土壤的孔隙度为 50% , 空隙比为 1:1 ,三相比为固:液:气=50:: 。 8、旱作土壤有效水含量为田间持水量与萎焉系数的差值。 9、良好的土壤结构性,实质上是具有良好的空隙性,即要求总孔隙大 而且大小孔隙合理分布,有利于土壤水、肥、气、热状况的调节和植物根系活动。 10、根据土壤胶体表面的结构特点,大致可将土壤胶体表面分为硅氧烷型表面、水合氧化物表面、有机物表面、等3种类型,2:1型粘土矿物的表面属于硅氧烷类型。 11、根据土壤水分所受力的作用,土壤水分类型分为吸附水、毛管水、重力水。 12、土壤三相的导热率顺序是固>液>气,热容量顺序是液>固>气。 13、土壤潜性酸包括交换性酸和水解性酸,其中交换性酸度更能代表潜性酸度。 14、一个良好的土壤应该能使植物吃得饱、喝得足、住得好、站得稳。 15、土壤微生物营养类型的多样性包括土壤微生物类型多样性、土壤微生物种群多样性、土壤微生物营养类型多样性、微生物呼吸类型多样性。 16、土壤胶体电荷产生的原因有同晶替代、吸附、断键、解离。 17、土壤碱度的液相指标是总碱度,固相指标碱化度。 18、土壤水分含量的常用表示方法有质量含水量、容积含水量、相对含水量、土壤水贮量。 19、1:1型粘土矿物是由 1层硅片和1层铝片结合而成,代表矿物是高岭石;2:1型粘土矿物由 2层硅片和1层铝片结合而成,胀缩型如蒙脱,非胀缩型如伊利石。

作物育种学历年考题及答案

四川农业大学2003年招收攻读博士学位研究生入学考试试题382作物育种学 看到此处 一、名词解释(20分,每小题2分)0378考过名词解释 1.品种:是在一定的生态条件和经济条件下,根据人类的需要所选育的某种作物的群体,这种群体具有相对稳定的遗传特性,在生物学、形态学,经济性状上的相对一致性,与同一作物的其他群体在特征、特性上有所区别,在相应的地区和耕作条件下种植,在产量,品质,抗性等方面都能符合生产发展的需要,是人工进化和人工选择的结果,是重要的农业生产资料。 2.杂交种:利用不同基因型的品种或类型杂交,以创造变异,获得新类型,并通过培育和选择而育成的品种。 杂交种品种是在严格选择亲本和控制授粉的条件下,生产的各类杂交组合的F1植株群体,他们的基因型是高度杂合的,群体又具有不同程度的同质性,表现出很高的生产力。杂交种品种通常只种植F1,即利用杂种优势。杂交种不能稳定遗传,F2将发生基因型分离,杂合度降低,导致产量下降。 自交系品种又称纯系品种,是对突变或杂合基因型经过连续多代的自交加选择而得到的同质纯合群体,它实际上包含了自花授粉作物和常异花授粉作物的纯系品种和异花授粉作物的自交系品种。 3.测交种:用不育系作母本,用恢复系作父本进行杂交获得的品种。 测验自交系配合力所进行的杂交叫测交,测交所得的后代成为测交种。 用不育系作为母本,恢复系作为父本,测验自交系配合力进行的测交,所获得的后代称为测交种。 4.杂种:不同基因型的品种或类型杂交后获得的基因型混杂的未经选择的种群。 5.制种:按照良种繁殖技术规范进行大规模种子繁殖称为制种。 6.系统育种:根据育种目标,从现有品种的自然变异类型中,选出具有优良变异的个体,分别种植,每一个体形成一个系统,经连续比较鉴定,选优去劣而育成新品种的方法。 7.系谱法:自交种第一次分离世代开始选株,分别种植成株行,即系统,以后各世代均在优良系统中继续进行单株选择,直至选出性状优良一致的系统升级进行产量实验。在选择过程中,各世代予以系统编号,以便考察株系历史和亲缘关系,故称系谱法。

生物信息学复习题及答案陶士珩

生物信息学复习题及答 案陶士珩 Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】

生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、问答题 1)生物信息学与计算生物学有什么区别与联系 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么请列举3个以上NCBI维护的数据库。 5)序列的相似性与同源性有什么区别与联系 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么 7)简述BLAST搜索的算法。

生物信息学期末考试重点

第一讲 生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。 生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。 生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。 生物技术与生物信息学的区别及联系 生物信息学的发展历史 ?人类基因组计划(HGP) ?人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。 :

】 第二讲回顾细胞结构 细胞是所有生命形式结构和功能的基本单位 细胞组成 细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构 细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器 细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等 细胞核最大的细胞器 DNA的结构 碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G) 。 核苷酸 核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊 糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就 是A、T、C、G 基因是什么 基因是遗传物质的基本单位 基因就是核苷酸序列。 大部分的基因大约是1000-4000个核苷酸那么长。 基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。 基因在染色体上。

土壤学习题与答案

土壤学试题与答案 一按章节复习 第一章绪论 一、填空 1.德国化学家李比希创立了(矿质营养)学说和归还学说,为植物营养和施肥 奠定了理论基础。 2.土壤形成的五大自然因素是(母质)、(气候)、(生物)、(地形)和时间。 3.发育完全的自然土壤剖面至少有(表土层)、(淀积层)和母质层三个层次。 4.土壤圈处于(岩石圈)、(大气圈)、(生物圈)、(水圈)的中心部位,是它们 相互间进行物质,能量交换和转换的枢纽。 5.土壤四大肥力因素是指(水分)、(养分)、(空气)和(热量)。 6.土壤肥力按成因可分为(自然肥力)、(人工肥力);按有效性可分为(有效 肥力)、(潜在肥力) 二、判断题 1.(√)没有生物,土壤就不能形成。 2.(×)土壤三相物质组成,以固相的矿物质最重要。 3.(×)土壤在地球表面是连续分布的。 4.(×)土壤的四大肥力因素中,以养分含量多少最重要。 5.(×)一般说来,砂性土壤的肥力比粘性土壤要高,所以农民比较喜欢砂性 土壤。 6.(√)在已开垦的土壤上自然肥力和人工肥力紧密结合在一起,分不出哪是 自然肥力,哪是人工能力。 三、名词解释 1. 土壤:是具有肥力特性因而能生产植物收获物的地球陆地疏松表层。 2. 土壤肥力:土壤能适时地供给并协调植物生长所需的水、肥、气、热、固着条件和无毒害物质的能力。 3. 土壤剖面:在野外观察和研究土壤时,从地面垂直向下直到母质挖一断面。 四、简答题 1. 土壤在农业生产和自然环境中有那些重要作用? (1)土壤是植物生长繁育和生物生产的基地,是农业的基本生产资料。 (2)土壤耕作是农业生产中的重要环节。 (3)土壤是农业生产中各项技术措施的基础。

作物育种学课后思考题题目及部分答案

绪论 1.作物品种的概念是什么?它在农业生产中有什么作用? 作物品种(Variety)概念:指某一栽培作物适应于一定的自然生态和生产经济条件,具有相对稳定的遗传性和相对一致的生物学特性和形态特征,并与同一作物的其它类似群体相区别的生态类型。(品种属性:生产资料属性;经济类型属性;地区性时间性。作物品种的类型:纯系品种、杂种品种、综合品种、无性系品种等。) 优良品种的作用:提高单位面积产量;改进产品品质;保持稳产性和产品品质;扩大作物种植面积。 2.作物育种学的任务和主要内容是什么?它与哪些学科关系密切?你打算如何学好作物育种学这门课程? 作物育种学(crop breeding)研究选育和繁育作物优良品种的原理与方法的科学。 主要任务:研究育种规律;培育新品种,实现品种良种化;繁育良种,实现种子标准化。 作物育种学的主要内容 ?育种目标的制订及实现目标的相应策略; ?种质资源的搜集、保存、研究、创新与利用; ?选择的理论与方法; ?人工创新变异的途径、方法及技术; ?杂种优势利用的途径与方法 ?目标性状的遗传、鉴定及选育方法 ?作物育种各阶段的田间试验技术; ?新品种的审定、推广及种子生产 3.常规育种技术的主要任务和特点是什么? 主要任务:提高产量、改进品质和增强抵抗不良环境的能力(抗病、虫、草害和抗旱、寒、碱等)。 特点: 综合多个优良基因; 同步改良作物的产量、品质、抗性水平; 盲目性大; 育种是科学艺术。4.现代作物育种发展动向的主要表现是什么? 1.进一步加强种质资源研究 2.深入开展育种理论与方法的研究 3.加强多学科的综合研究和育种单位间的协作 4.种子产业化 5.调查了解农作物优良品种在提高单位面积产量、改善农产品品质等方面的具体表现。 第1章作物繁殖方式与品种类型 名词解释:

生物信息学 复习题及答案(打印)

一、名词解释: 1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E 值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

土壤学复习题及参考答案

土壤学复习题及参考答案 一、名词解释 1、土壤:土壤是指地球表面上能够生长植物的疏松表层,它的本质特征是具有肥力。 2、土壤肥力:土壤为植物生长供应和协调营养条件和环境条件的能力。 3、同晶替代:是指组成矿物的中心离子被电性相同、大小相近的离子所取代而晶格构造保持不变的现象。 4、土壤有机质:是指存在于土壤中的所有含碳的有机物质,它包括土壤中各种动植物残体,微生物体及其分解和合成的各种有机物质。 5、土壤腐殖质:指除未分解和半分解的动、植物组织和土壤生命体等以外的土壤中有机化合物的总称。 6、土壤腐殖物质:是指经土壤微生物作用后,由多酚和多醌类物质聚合而成的含芳香环结构的,新形成的黄色至棕黑色的高分子有机化合物。 7、矿化过程:是指土壤有机质通过微生物的作用分解为简单的化合物,同时释放出矿质养分的过程。 8、腐殖化过程:是指有机质在微生物的作用下,通过生化和化学作用转化为腐殖质的过程。 9、土壤密度:单位容积固体土粒(不包含粒间孔隙的体积)的质量。单位为:克/厘米3。 10、土壤容重:田间自然垒结状态下单位容积土体(包括土粒和孔隙)

的质量或重量,单位为:克/厘米3。 11、土壤孔度(孔隙度、总孔度):在一定容积的土体内,土壤孔隙容积占整个土体容积的百分数。 12、粒级:通常根据土粒直径大小及其性质上的变化,将其划分为若干组,称为土壤粒级(粒组)。 13、当量粒径:细粒部分则根据颗粒半径与颗粒在静水中沉降速率的关系(斯托克斯定律)计算不同粒级土粒在静水中的沉降速度,把土粒看作光滑的实心球体,取与此粒级沉降速率相同的圆球直径作为其当量粒径。 14、机械组成:是指土壤中各粒级矿物质土粒所占的百分含量,也称颗粒组成。 15、土壤质地:是根据机械组成划分的土壤类型,一般分为砂土、壤土和粘土三类。 16、土壤结构体:是土粒互相排列和团聚成为一定形状和大小的结构的土块或土团。 17、土壤结构性:是由土壤结构体的种类、数量及结构体内外的孔隙状况等产生的综合性质。 18、当量孔径:是指相当于一定的土壤水吸力的孔径。 19、毛管持水量:地下水位较浅时,毛管上升水达到最大时土壤的含水量。 20、田间持水量:毛管悬着水达到最大值时的土壤含水量称为田间持水量。

作物育种学试题5_作物育种学

专业《作物育种学》课程试题5 一填空题(每空0.5分,共10分) 1.品种的主要类型包括自交系品种、、群体品种和。 2.选择育种的基本原理是作物品种的变异现象和学说。 3.作物授粉方式的分类是根据自然异交率高低而定的,一般自然异交率在4%以下的是典型的授粉作物;自然异交率在50%-100%的是典型的授粉作物;常异花授粉作物的自然异交率介于二者之间,一般为4%-50%。 4.引种的基本原理是指相似性原理,生态条件和相似性原理。 5.杂交育种按其指导思想可分为两种类型,一种是育种,另一种是育种。 6.在回交育种中用于多次回交的亲本称亲本,因为他是有利性状(目标性状)的接受者,又称为受体亲本;只有一次杂交时应用的亲本称为亲本,他是目标性状的提供者,故称供体亲本。 7.远缘杂种夭亡和不育的根本原因是由于其遗传系统的破坏,包括核质互作不平衡; 不平衡; 不平衡和组织不协调。 8.按照雄性不育花粉败育发生的过程,雄性不育可分为 不育和不育两种类型 9.作物群体改良是通过鉴定选择、人工控制下的自由交配等一系列育种手段,改变基因、基因型频率,增加优良基因的重组,从而达到提高 和的频率。 10.普通小麦是倍体,有42条染色体;玉米是倍体,有20条染色体。 二、单项选择题(本大题共10小题,每小题1分,共10分) 1.作物育种学的涵义是() A)研究遗传和变异的科学B) 一门人工进化的科学 C)研究选育和繁育优良品种的理论与方法的科学 D)一门综合性强的应用科学 2.选择育种中选择的基本方法有() A) 系谱法和混合法 B) 单株选择和混合选择 C) 一粒传和混合选择 D) 定向选择和分裂选择 3.稳定不分离的株系称为( ) A) 品种 B) 株行

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解 释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计 算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技 术而揭示大量而复杂的生物数据所赋有的生物学奥秘。 2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于 距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后, 数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方 式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数 据存储的大型数据库系统都在各个方面得到了广泛的应用。 3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短 的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。EST 来源于一定环境下一个组织总 mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。 4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。 ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个 真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编 码基因的部分或全部的先决条件。 5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进 一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基 本结构。蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理 功能的必要基础。 6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别 DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因, 也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基 因组研究的基础。

(完整版)作物育种学总论复习题及答案

作物育种学总论复习题及答案 1、作物育种学、品种的概念 作物育种学:是研究选育及繁殖作物优良品种的理论与方法的科学 品种:是人类在一定的生态条件和经济条件下,根据人类的需要所选育的某种作物的一定群体;这种群体具有相对稳定的遗传特性,在生物学、形态学及经济性状上的相对一致性,与同一作物的其他群体在特征、特性上有所区别;这种群体在相应地区和耕作条件下种植,在产量、抗性、品质等方面都能符合生产发展的需要。 2、简述作物育种学的特点和任务 作物育种学的特点:作物育种学是作物人工进化的科学,是一门以遗传学、进化论为主要基础的综合性应用科学,它涉及植物学、植物生理学、植物生态学、生物化学、病理学、生物统计与实验设计、生物技术、农产品加工学等领域的知识与研究方法。作物育种学与作物栽培学有着密切的联系。 作物育种学的任务:(1)研究作物遗传性状的基本规律;(2)搜索、创造和研究育种资源,培育优良新品种;(3)繁育良种,生产优良品种的种子。 3、简述作物品种的概念和作用 4、基本概念:自然进化、人工进化 自然进化:由自然变异和自然选择演变发展的进化过程。 人工进化:是指由于人类发展生产的需要,人工创造变异并进行人工选择的进化,其中也包括有意识的利用自然变异和自然选择的作用。 5、生物进化的三大要素及其相互关系 三大要素:变异、遗传和选择 相互关系:遗传变异是进化的内因和基础,选择决定进化的基本方向。 第一章作物的繁殖方式及品种类型 1、说明作物繁殖方式的种类和各类作物群体遗传特点及代表作物 作物遗传方式的种类:一类是有性繁殖,凡是由雌配子(卵子)和雄配子(精子)相互结合,经过受精过程,最后形成种子繁衍后代的,称为有性繁殖。第二种是无性繁殖,凡不经过两性细胞受精过程的方式繁殖后代的统称为无性繁殖。 有性繁殖主植物主要有自花授粉作物、异花授粉作物、常异花授粉作物: (1)自花授粉是指同一朵花的花粉传到同一朵花的雌蕊柱头上,代表作物有水稻、大麦、小麦、大豆、豌豆、花生、烟草、绿豆、亚麻等。自花授粉作物的天然异交率一般低于1%,不超过4%。 (2)异花授粉是指雌蕊柱头接受异株或异花花粉,代表作物有玉米、黑麦、向日葵、白菜型油菜、甘蔗、甜菜、大麻、三叶草等。异花授粉的天然异交率至少在50%以上。 (3)常异花授粉是指一种作物同时依靠自花授粉和异花授粉两种方式繁殖后代的,代表作物是棉花、甘蓝型油菜、芥菜型油菜、高粱、蚕豆等,常异花授粉的天然异交率在5%-50%之间。 2、论述作物品种的类型和各类作物的育种特点 作物品种的类型: (1)自交系品种:又称纯系品种,是对突变或杂合基因型经过连续多代的自交加选择而得到的同质结合群体。

2019版国科大生物信息学期末考试复习题

中科院生物信息学期末考试复习题 陈润生老师部分: 1.什么是生物信息学,如何理解其含义?为什么在大规模测序研究中,生物信息学至关重要? 答:生物信息学有三个方面的含义: 1)生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和 解释的所有方面,是基因组研究不可分割的部分。 2)生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语 言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;其本质是识别基因信号。 3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它 是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。 2.如何利用数据库信息发现新基因,其算法本质是什么? 答:利用数据库资源发现新基因,根据数据源不同,可分2种不同的查找方式: 1)从大规模基因组测序得到的数据出发,经过基因识别发现新基因: (利用统计,神经网络,分维,复杂度,密码学,HMM,多序列比对等方法识别特殊序列,预测新ORF。但因为基因组中编码区少,所以关键是“数据识别”问题。)利用大规模拼接好的基因组,使用不同数据方法,进行标识查找,并将找到的可能的新基因同数据库中已有的基因对比,从而确定是否为新基因。可分为:①基于信号,如剪切位点、序列中的启动子与终止子等。②基于组分,即基因家族、特殊序列间比较,Complexity analysis,Neural Network 2)利用EST数据库发现新基因和新SNPs: (归属于同一基因的EST片断一定有overlapping,通过alignment可组装成一完整的基因,但EST片断太小,不存在数据来源,主要是拼接问题) 数据来源于大量的序列小片段,EST较短,故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用SiClone策略。其主要步骤有:构建数据库;将序列纯化格式标准化;从种子库中取序列和大库序列比对;延长种子序列,至不能再延长;放入contig库①构建若干数据库:总的纯化的EST数据库,种子数据库,载体数据库,杂质、引物数据库,蛋白数据库,cDNA数据库; ②用所用种子数据库和杂质、引物数据库及载体数据库比对,去除杂质; ③用种子和纯化的EST数据库比对 ④用经过一次比对得到的长的片段和蛋白数据库、cDNA数据库比较,判断是否为已有序列,再利用该大片段与纯化的EST数据库比对,重复以上步骤,直到序列不能再延伸; ⑤判断是否为全长cDNA序列。 (利用EST数据库:原理:当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。而到目前为止,公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。估计这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率。)

《土壤学》试题库

《土壤学》在线课程试题库 绪论 1、水、肥、气、热是土壤的(肥力)要素 2 3 4 5、土壤在植物生长和农业生产中的作用主要体现在以下那些方面: (四个选项都选。) 稳定和缓冲环境变化 生物支撑作用 接纳、储存和供应水分 储存和供应养分 物质,所以答案大家选有机质这个选项。 7没有生物,土壤就不能形成。√ 8、土壤在地球表面是连续分布的。× 9、土壤的四大肥力因素中,以养分含量多少最重要。× 10、在已开垦的土壤上自然肥力和人工肥力紧密结合在一起,分不出 哪是自然肥力,哪是人工能力。√ 第一章地质学基础 认识矿物 1、具有玻璃光泽的矿物是方解石解理面 2、硬度为4的矿物是萤石 3、具有两组解理的矿物是正长石

4、没有解理的矿物是石英 5、具有油脂光泽的是石英断口 6、云母的解理为不完全解理。× 7、方解石属于原生矿物。× 8、晶体石英有六个光滑的晶体表面,所以它有六组解理。× 9、黑云母比白云母更容易风化。√ 10、矿物的颜色有自色、他色和假色之分。√ 认识岩石 1、下列SiO2最多的岩石是花岗岩 2、下列岩石中,具有斑状结构的是流纹岩 3、以下变质岩中,片理最不发达的是板岩 4、下列岩石中,属于变质岩的是大理岩 5、下列岩石中,具有变晶结构的是石英岩 6、花岗岩是变质岩× 7、板岩属于沉积岩× 8、沉积岩在地球陆地表面出露面积最多。√ 9、只有深成的岩浆岩才具有块状构造。× 10、沉积岩主要是根据它的结构来分类的,因此同一类沉积岩可能其 组成的矿物不一定相同。√ 第二章岩石风化和土壤形成 判断题: 1岩石的风化按作用因素与作用性质的不同,可分为物理风化、化学风化和生物风化三大类,事实上这三者是联合进行与相互助长的。√ 2. 母质的物理性质对形成土壤的土层影响主要表现为:抗物理风化 弱则土层薄,抗物理风化强则土层厚。×

作物育种学各论玉米试题库答案版

作物育种学各论 玉米育种试题库 一、名词解释 1、玉米自交系:单株玉米经过多代连续自交和选择,最后育成的基因型相对纯合、性状整齐一致的自交后代群体。 2、一环系:从异质杂合的群体品种或综合品种中选育出的自交系。 3、二环系:从自交系间杂交种后代中选育出的自交系。 4、顶交种:选用一个品种和一个自交系或单交种杂交而成。 5、三交种:选用一个自交系与一个单交种杂交而成。 6、双交种:先选用四个自交系分别配成两个单交种,再用两个单交种杂交而成双交种。 7、S型雄性不育系:育性不稳定、配子体不育、恢复基因Rf3表现显性、抗玉米小斑病 8、T型雄性不育系:育性稳定、孢子体不育、恢复基因Rf1和Rf2 表现显性互补、高感玉米小斑病 9、C型雄性不育系:育性稳定、孢子体不育、恢复基因Rf4和Rf5 表现重叠作用、抗玉米小斑病 10、孢子体雄性不育系:指不育系的花粉的育性受孢子体的基因型所控制,而与花粉本身所含基因无关。 11、配子体雄性不育系:指不育系的花粉育性直接受雄配子体本身的基因所决定。 12、测验种:在测定配合力时,用来与被测系杂交的品种、杂交种、自交系、不育系、恢复系等称为测验种。 13、测交种:测交所产生的杂种。 14、轮回选择:轮回选择是反复鉴定、选择、重组的过程,每完成一次鉴定、选择、重组过程便称为一个周期或一个轮回。 15、糯玉米:又称粘玉米,其胚乳淀粉几乎全由支链淀粉组成。

16、普通甜玉米:以su1为基础。在乳熟期,纯合su的还原糖和蔗糖含量增加,尤其是水溶性多糖(water soluble polysaccharide)增多,使支链淀粉变为水溶多糖。 17、超甜玉米:以sh2和以bt1,bt2为基础,sh2突变体子粒的含糖量是普通玉米的10倍,其作用是在胚乳发育过程中阻止蔗糖向合成淀粉底物的转化,故使胚乳中蔗糖含量增加,淀粉减小。能较长期地保持高糖分水平。 18、杂种优势群:是指遗传基础广泛、遗传变异丰富、具有较多有利基因、较高一般配合力、种性优良的育种群体。是在自然选择和人工选择作用下经过反复重组种质互渗而形成的活基因库,从中可不断分离出高配合力的优良自交系。 19、杂交种:指基因型不同的两个植株个体通过雌雄配子融合所产生的后代,作物育种上的杂交种是指基于杂种优势培育原理生产的高产优质作物品种。 20、马齿型玉米:植株高大,耐肥水,产量高,成熟较迟。果穗呈筒形,子粒长大扁平,子粒的两侧为角质淀粉,中央和顶部为粉质淀粉,成熟时顶部粉质淀粉失水干燥较快,子粒顶端凹陷呈马齿状而得名。凹陷的程度取决于淀粉含量。食味品质不如硬粒型。 21、硬粒型玉米:又称燧石型,适应性强,耐瘠、早熟。果穗多呈锥型,子粒顶部呈圆形,由于胚乳外周是角质淀粉。故子粒外表透明,外皮具光泽,且坚硬,多为黄色。食味品质优良,产量较低。 22、甜玉米:是由于一个或几个基因的存在而不同于其他玉米的一种类型。甜玉米是菜用玉米的一个类型。 23、一般配合力:是指某一亲本自交系在一系列的杂交组合中,对杂种后代的某一性状所产生的平均影响。 24、特殊配合力:是指亲本自交系在特定的杂交组合中对杂种后代某一性状平均值产生偏离的情况. 25、雄性不育系:雌雄同株植物中,雄蕊发育不正常,不能产生有功能的花粉,但它的雌蕊发育正常,能接受正常花粉而受精结实,并能将雄性不育性遗传给后代的植物品系。26、雄性不育恢复系:雄性不育恢复系是指与雄性不育系杂交后,可使子代恢复雄性可育

生物信息学复习题及答案(陶士珩)

生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、问答题 1)生物信息学与计算生物学有什么区别与联系 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么请列举3个以上NCBI 维护的数据库。 ¥ 5)序列的相似性与同源性有什么区别与联系 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么 7)简述BLAST搜索的算法。 8)什么是物种的标记序列 9)什么是多序列比对过程的三个步骤 10)简述构建进化树的步骤。 11)简述除权配对法(UPGMA)的算法思想。 12)简述邻接法(NJ)的算法思想。 13)简述最大简约法(MP)的算法思想。 14)简述最大似然法(ML)的算法思想。 ? 15)UPGMA构树法不精确的原因是什么 16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其含义。 17)试述DNA序列分析的流程及代表性分析工具。 18)如何用BLAST发现新基因 19)试述SCOP蛋白质分类方案。 20)试述SWISS-PROT中的数据来源。 21)TrEMBL哪两个部分 22)试述PSI-BLAST 搜索的5个步骤。[ 3) 三、操作与计算题 1)如何获取访问号为U49845的genbank文件解释如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999

相关文档
相关文档 最新文档