文档库 最新最全的文档下载
当前位置:文档库 › 《生物信息学》

《生物信息学》

《生物信息学》

《生物信息学》

课程名称 生物信息学 课程编号 1040193

英文名称 bioinformatics 课程类型 本专业推荐选修 总学时 36 理论学时 36 实验学时 实践学时

学分 2 预修课程 生物学、生物化学、分子生

物学、信息技术基础等

适用对象 生物科学、理科基地

课程简介 生物信息学已经成为生物医学、农学、分子生物学等学科发展的强大推动力量,也是药物设计、环境监测的重要组成部分。生物信息学课程主要介绍如何获取、加工、储存、分配、分析和释读生物信息,综合运用数学、计算机科学和生物学工具,达到理解数据中的生物学含义的目的。生物信息学研究的目标是揭示基因组信息结构的复杂性及遗传语言的根本规律,掌握它不仅有助于人们理解复杂的基因组全部DNA序列及其功能,而且还有助于揭示“信息结构”,最终进行蛋白质、核酸的分子设计、药物设计和个体化的医疗保健设计。

生物信息学复习题及答案

生物信息学复习题 名词解释 1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。 (直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。 (旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。 (异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。 Score:The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。 6.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。 值:得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP(高分片段对)得分的期望分布联系起来计算的。通常使用低于来定义统计的显著性。P=1-e-E 9.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法,是序列相似性分析的基础,其不同的选择将会出现不同的分析结果。 10.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 :美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有BLAST, Entrez ,GenBank等工具,还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 序列格式:是将DNA或者蛋白质序列表示为一个带有大于号(>)开始的核苷酸或者氨基酸序列的新文件,其中大于号后可以跟上序列的相关信息,其他无特殊要求。 13genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释,主要包含生物功能或数据库信息;第三部分是feature,对序列的注释;第四部分是序列本身,以“统发生树(Phylogenetic tree )是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系,是一种亲缘分支分类方法。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。是用来研究物种进化与多样性的基础,是相近物种相关生物学数据的来源。17.基因树与物种树:物种树反映一组物种进化历程的系统树,其中每一个内部节点就代表一个物种形成的过程,而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树,而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因

生物信息学习题

一:名词解释 1.生物信息学 2.NCBI 3.PubMed 4.生物芯片 5.BLAST 6.UniProt 7.电子克隆 8.EMBL 二:填空题 1.基因芯片可以分为 2. 人类基因组全序列分析分两大步骤即制图和测序,并最终绘制出四张 图谱: 3. 分子系统发生分析主要分为三个步骤即 4. 国际上最主要的三大核酸序列数据库分别是 5. 蛋白质得分矩阵有 7. 文献是掌握科研进展的最直接方式,目前由NCBI维护的大型文献资源 是。 3. 用于核酸序列比对中常见的三种得分矩阵,分别为 4. 根据生物芯片探针分子类型的不同,可以将生物芯片哪三种, 5. 核酸序列分析所获得的信息主要有(举例说明四个) 6. 限制性酶切分析是分子生物学实验中的日常工作之一,这方面最好的

限制酶数据库是 三:选择题 1、如果试图确定一个新蛋白质序列属于哪一个蛋白质家族,或该序列 可能包含何种结构域或功能位点,应使用:() A: PROSITE数据库 B: DDBJ数据库 C: PIR数据库 D: PDB数据库 2、构建序列进化树的一般步骤不包括:() A:建立DNA文库 B:建立数据模型 C:建立取代模型 D:建立进化树3、BLAST教案所程序中,哪个方法是不存在的?() A:BLASTP B:BLASTN C:BLASTX D:BLASTQ 4. 以下常见的几个物种,哪一个目前还没有完成全基因组测序:()A: 茶树 B: 玉米 C: 水稻 D: 小鼠 5、向核酸序列数据库(GenBank/EMBL/DDBJ)提交数据,应该使用下面 哪个软件:()。 A: Blast B:Sequin C:SRS D:Swiss-Model 6、在蛋白质序列数据库中比较查询手头未知的蛋白质序列,应使用Blast中哪个具体的算法:()。 A:BLASTX B:tBLASTN C:BLASTP D:BLASTN 7、下列中属于一级蛋白质结构数据库的是:() A:EMBL B:DDBJ C:PDB D:SWISS-PROT 8、下面不属于SWISS-PROT蛋白质数据库的注释范畴的是:()A: 与其它蛋白质的相似性 B: 蛋白质的二级结构 C: 由于缺乏该蛋白质而引起的疾病 D: 核酸的功能描述 9、下列属于蛋白质二级结构预测的软件程序是() A: BLASTX B:SOPMA C:DNAstar D:GO

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

2019版国科大生物信息学期末考试复习题

中科院生物信息学期末考试复习题 陈润生老师部分: 1.什么是生物信息学,如何理解其含义?为什么在大规模测序研究中,生物信息学至关重要? 答:生物信息学有三个方面的含义: 1)生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和 解释的所有方面,是基因组研究不可分割的部分。 2)生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语 言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;其本质是识别基因信号。 3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它 是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。 2.如何利用数据库信息发现新基因,其算法本质是什么? 答:利用数据库资源发现新基因,根据数据源不同,可分2种不同的查找方式: 1)从大规模基因组测序得到的数据出发,经过基因识别发现新基因: (利用统计,神经网络,分维,复杂度,密码学,HMM,多序列比对等方法识别特殊序列,预测新ORF。但因为基因组中编码区少,所以关键是“数据识别”问题。)利用大规模拼接好的基因组,使用不同数据方法,进行标识查找,并将找到的可能的新基因同数据库中已有的基因对比,从而确定是否为新基因。可分为:①基于信号,如剪切位点、序列中的启动子与终止子等。②基于组分,即基因家族、特殊序列间比较,Complexity analysis,Neural Network 2)利用EST数据库发现新基因和新SNPs: (归属于同一基因的EST片断一定有overlapping,通过alignment可组装成一完整的基因,但EST片断太小,不存在数据来源,主要是拼接问题) 数据来源于大量的序列小片段,EST较短,故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用SiClone策略。其主要步骤有:构建数据库;将序列纯化格式标准化;从种子库中取序列和大库序列比对;延长种子序列,至不能再延长;放入contig库①构建若干数据库:总的纯化的EST数据库,种子数据库,载体数据库,杂质、引物数据库,蛋白数据库,cDNA数据库; ②用所用种子数据库和杂质、引物数据库及载体数据库比对,去除杂质; ③用种子和纯化的EST数据库比对 ④用经过一次比对得到的长的片段和蛋白数据库、cDNA数据库比较,判断是否为已有序列,再利用该大片段与纯化的EST数据库比对,重复以上步骤,直到序列不能再延伸; ⑤判断是否为全长cDNA序列。 (利用EST数据库:原理:当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。而到目前为止,公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。估计这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率。)

生物信息学复习题及答案(陶士珩)

生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、问答题 1)生物信息学与计算生物学有什么区别与联系 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么请列举3个以上NCBI 维护的数据库。 ¥ 5)序列的相似性与同源性有什么区别与联系 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么 7)简述BLAST搜索的算法。 8)什么是物种的标记序列 9)什么是多序列比对过程的三个步骤 10)简述构建进化树的步骤。 11)简述除权配对法(UPGMA)的算法思想。 12)简述邻接法(NJ)的算法思想。 13)简述最大简约法(MP)的算法思想。 14)简述最大似然法(ML)的算法思想。 ? 15)UPGMA构树法不精确的原因是什么 16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其含义。 17)试述DNA序列分析的流程及代表性分析工具。 18)如何用BLAST发现新基因 19)试述SCOP蛋白质分类方案。 20)试述SWISS-PROT中的数据来源。 21)TrEMBL哪两个部分 22)试述PSI-BLAST 搜索的5个步骤。[ 3) 三、操作与计算题 1)如何获取访问号为U49845的genbank文件解释如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999

生物信息学复习题及答案

一、名词解释: 1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。

《生物信息学》练习题剖析

1、在Genbank中查找以下6个植物蛋白序列:protein1:NP_974673.2; protein2: NP_187969.1; protein3: NP_190855.1; protein4: NP_565618.1; protein5: NP_200511.1; protein6: NP_191407.1 (以FASTA格式)。 (1)用EBI上的ClustalW2工具对其进行多序列比对,分析各蛋白序列之间的同源性。 序列比对结果 比对结果表明:protein1:NP_974673.2和protein4: NP_565618.1的亲缘关系最近。

(2)利用Phylip软件,选择距离法构建其进化树(要求写出具体的建树步骤)。 1.将蛋白序列保存为FASTA格式,存于txt文档; 2.用Clustalx打开txt文本,保存为*.phy文件; 3.用seqboot程序打开phy文件,输出结果文件*_seqboot 4.用protdist程序打开*_seqboot文件,输出为*_protdist文件 5. 用neighbor程序打开*_protdist文件,输出为*_neighbor文件 6. 用consense程序打开*_neighbor文件,输出为*_consense文件 7.用dratree程序打开*_consense文件得到进化树。 (注:由于seqboot软见无法正常运行,因此进化树无法显示) (3)任意选取其中的一个蛋白进行蛋白质一级序列分析、二级结构预测及三维结构的模拟。 选择protein3: NP_190855.1 一级结构 网址:https://www.wendangku.net/doc/7d16850977.html,/tools/protparam.html Number of amino acids: 456 氨基酸数目 Molecular weight: 51154.5 相对分子质量 Theoretical pI: 8.69 理论 pI 值 Amino acid composition 氨基酸组成 Ala (A) 30 6.6% Arg (R) 28 6.1% Asn (N) 15 3.3% Asp (D) 27 5.9% Cys (C) 5 1.1% Gln (Q) 18 3.9% Glu (E) 28 6.1% Gly (G) 37 8.1% His (H) 16 3.5% Ile (I) 16 3.5% Leu (L) 42 9.2%

生物信息学习题

GenBank数据库的基本信息单位是(B)。 A. FASTA B. GBFF C. GCG D. ASN.1 DNA中Tm值与(B )含量成正比。 A. G+A B. G+C C. T+C D. A+T 目前应用于基因芯片表达数据统计分析的主要方法是(C )。 A. 卡方检验 B. 相关分析 C. 聚类分析 D. 正态性分布检验 accession number的含义是(A)。 A. 登录号 B. 算法 C. 比对 D. 类推 LCR的含义是(C)。 A. 编码区 B. 非编码区 C. 低复杂度区域 D. 开放阅读框 ortholog的含义是(A)。 A. 直系同源 B. 旁系同源 C. 直接进化 D. 间接进化 Genomics的含义是(B )。 A. 生物信息学 B. 基因组学 C. 蛋白质组学 D. 表观遗传学 蛋白质信号肽的预测工具有(D )。 A. nnpredict B. PredictProtein C. SingalD D. SingalP 隐马尔科夫模型的代号是(A)。 A. HMM B. CDD C. HTGS

D. GSS 如果我们试图做蛋白质亚细胞定位分析,应使用(B)。 A. NDB数据库 B. PDB数据库 C. GenBank数据库 D. SWISS-PROT数据库 Blast结果中HSP的含义是(D )。 A. 空位 B. 期望值 C. 过滤 D. 高分配对片段 analogy的含义是(B)。 A. 登录号 B. 算法 C. 比对 D. 类推 RGP是(D )。 A. 在线人类孟德尔遗传数据 B. 国家核酸数据库 C. 人类基因组计划 D. 水稻基因组计划 SAGE的含义是(A )。 A. 基因表达连续分析 B. 聚丙烯酰胺凝胶电泳 C. 基因组分析 D. 双向电泳分析 利用中国知网文献数据库(中国知网)查找论文题目是“扩张蛋白家族蛋白序列分析”发表在期刊“生物信息学”2008年第7卷第3期上()。 1分 A. 第3-5页 B. 第93-95页 C. 第193-195页 D. 第293-295页 19 顶部 生物芯片分析中使用的聚类分析输出图形主要以下列哪种方式表现?(A) 1分 A. 以彩色小方块阵列表示 B. 以蜂窝形状表示 C. 以黑白圆点表示 D. 以彩色线条表示 20 顶部 蛋白质基序(motif)中[ST]的含义是(C)。 1分 A. 氨基酸为ST

生物信息学复习题已附答案

本卷的答案仅做参考,如有疑问欢迎提出。后面的补充复习题要靠你们 自己整理答案了。 生物信息学复习题 一、填空题 1、识别基因主要有两个途径即基因组DNA外显子识别和基于EST策略的基因鉴定。 2、表达序列标签是从mRNA 中生成的一些很短的序列(300-500bp),它们代表在特定组织或发育阶段表达的基因。 3、序列比对的基本思想,是找出检测基因和目标序列的相似性,就是通过在序列中插入空位的方法使所比较的序列长度达到一致。比对的数学模型大体分为两类,分别是整体比对和局部比对。 4、2-DE的基本原理是根据蛋白质等电点和分子量不同,进行两次电泳将之分离。第一向是等电聚焦分离,第二向是SDS-PAGE分离。 5、蛋白质组研究的三大关键核心技术是双向凝胶电泳技术、 质谱鉴定技术、计算机图像数据处理与蛋白质数据库。 二、判断题 1、生物体的结构和功能越复杂的种类就越多,所需要的基因也越多,C值越大,这是真核生物基因组的特点之一。(对) 2、CDS一定就是ORF。(对) 3、两者之间有没有共同的祖先,可以通过序列的同源性来确定,如果两个基因或蛋白质有着几乎一样的序列,那么它们高度同源,就具有共同的祖先。(错) 4、STS,是一段200-300bp的特定DNA序列,它的序列已知,并且在基因组中属于单拷贝。(对) 5、非编码DNA是“垃圾DNA”,不具有任何的分析价值,对于细胞没有多大的作用。(错) 6、基因树和物种树同属于系统树,它们之间可以等同。(错) 7、基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。(对) 8、对任意一个DNA序列,在不知道哪一个碱基代表CDS的起始时,可用6框翻译法,获得6个潜在的蛋白质序列。(对) 9、一个机体只有一个确定的基因组,但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。(对) 10、外显子和内含子之间没有绝对的区分,一个基因的内含子可以是另一个基因的外显子,同一个基因在不同的生理状况或生长发育的不同阶段,外显子组成也可以不同。(对) 11、比较是科学研究中最常见的方法,在生物信息学研究中,比对是最常用和最经典的研究方法。(对) 12、ORF一定就是CDS。(错) 13、用不同的方法可以构建不同的系统发育树,为保证分析结果的可靠性,需要对进化树进行评估。(对) 14、相似性是一种很直接的数量关系,无需实验验证。(错) 15、基因树和物种树同属于系统树,它们之间可以等同。(错) 16、蛋白质和DNA的同源性常常通过它们序列的相似性来判定,如果两个基因或蛋白质有着几乎一样的序列,具有高度的相似性,那么它们一定是同源。(错) 17、所谓局部比对是找出两个被比较序列的最类似片段。(对) 三、不定项选择题

生物信息学习题

1、基序(motif):通过多序列比对,将同源序列收集在一起,以得到保守区域。这些保守区域称为基序(motifs) 2、可读框(ORF):没有终止密码子(TGA,TAA或TAG)打断的阅读框。 3、剪切变体:从同一DNA,转录得到不同mRNA,并最终翻译成不同的蛋白质称为剪接变体 4、表达标签序列(EST):是从cDNA文库中生成的一些很短的序列(300—500bp),它们代表在特定组织或发育阶段表达的基因,有时可代表特定的cDNA. 5、系统发生学:通过比较五种的特征,认为特征相似的五种在遗传学上相近,研究五种之见的进化关系 二、填空题(共20分,每空1分) l、列举至少2种权威的核酸序列数据库Genbank 、EMBL 等。 2、列举至少3种权威的蛋白质序列数据库PIR 、Swiss-prot 、MIPs 等。 3、核酸序列比对使用的得分矩阵类型有等价矩阵、BLAST 、和转换-颠换矩阵等。 4、蛋白质结构分类数据库主要有SCOP 和CAH 和PDBsum 等。 5、构建系统树的主要方法有UPGMA法、邻近归并法、Fitch-Margoliash法、最小进化法(ME)、最大似然法(ML)、等。 6、列举至少4中NCBI的服务功能Pubmed 、Entrez 、BLAST 和OMIM 等。 1、为什么说Swiss-Prot是重要的蛋白质序列数据库? SwissProt数据库中的所有序列条目都经过有经验的分子生物学家和蛋白质化学家通过计算机工具并查阅有关文献资料仔细核实。SIB和EBI共有70多人的研究队伍,专门从事蛋白质序列数据的搜集、整理、分析、注释、发布,力图提供高质量的蛋白质序列和注释信息。 SwissProt数据库的每个条目都有详细的注释,包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、突变体等。该数据库中还包括了与核酸序列数据库EMBL/GenBank/DDBJ、蛋白质结构数据库PDB以及Prosite、PRINTTS等十多个二次数据库的交叉引用代码。 特别值得一提的是,专门聘请了由200多位国际知名生物学家组成的网上专家评审团,并将SwissProt数据库中的蛋白质分成200多个类别,每个类别由1位或2位评审专家负责,通过计算机网络进行审核。网站上列出了这些评审专家的姓名、电子邮件地址和他们所负责评审蛋白质种类。用户若对某个蛋白质条目有疑义,可以直接和相应的评审专家取得联系。 2、下面是Genbank中一条记录,是解释其主要含义 序列识别码:AJ627251,长度159930bp,环状DNA分子,植物类,2005年4月15日建立 睡莲叶绿体全基因组 参考文献显示作者、论文标题、期刊年卷期页等信息及于Pubmed链接 外显子位于159465-159895,基因名rpl2 详细序列顺序 3、构建蛋白质二级数据库的主要方法有哪些? 单基序法、多基序法和全域对位排列法 4、概括总结序列比较的主要用途。 1). 用于系统发育分析(phylogenetic analysis) 通过序列比对,可以寻找序列间的同源性(相似性),这种同源相似性是序列间进化关系的一种反映,所构建的数据矩阵成为系统发育分析的基础。 2). 结构预测(structure prediction) 将新获得的序列与已知结构的蛋白质序列进行比对,可以通过序列同源性来粗略地推测其结构的相似性。 3). 序列基序鉴定(sequence motif identification) 局部排列可以鉴定蛋白质和核苷酸序列中潜在的序列和功能基序。 4). 功能预测(function prediction) 蛋白质序列间的高度相似性通常意味着同源序列间的功能相似性。 5). 数据库搜索(database search)

生物信息学考试复习

——古 A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 同源性:两个基因或蛋白质序列具有共同祖先的结论。13.

(完整版)生物信息学复习题及答案西农

生物信息学复习题及答案(陶士珩) 名词解释 1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。 2.Orthologs(直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。 3.Paralogs(旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。 4.Xenologs (异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。 5.Identity Score:The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。 6.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。 8.P值:得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP(高分片段对)得分的期望分布联系起来计算的。通常使用低于0.05来定义统计的显著性。P=1-e-E 9.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法,是序列相似性分析的基础,其不同的选择将会出现不同的分析结果。 10.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 11.NCBI:美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有BLAST, Entrez ,GenBank等工具,还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 12.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有大于号(>)开始的核苷酸或者氨基酸序列的新文件,其中大于号后可以跟上序列的相关信息,其他无特殊要求。 13genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释,主要包含生物功能或数据库信息;第三部分是feature,对序列的注释;第四部分是序列本身,以“//”结尾。 14.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点,可以使用关键词如基因名字、物种名字及生物学功能检索等。

生物信息学复习题及答案(陶士珩)

生物信息学复习题及答案(陶士珩)

生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E 值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif), 序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、问答题 1)生物信息学与计算生物学有什么区别与联系? 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么?请列举3个以上NCBI 维护的数据库。 5)序列的相似性与同源性有什么区别与联系? 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途 什么? 7)简述BLAST搜索的算法。 8)什么是物种的标记序列? 9)什么是多序列比对过程的三个步骤? 10)简述构建进化树的步骤。 11)简述除权配对法(UPGMA)的算法思想。 12)简述邻接法(NJ)的算法思想。 13)简述最大简约法(MP)的算法思想。 14)简述最大似然法(ML)的算法思想。 15)UPGMA构树法不精确的原因是什么? 16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释 其含义。 17)试述DNA序列分析的流程及代表性分析工具。 18)如何用BLAST发现新基因? 19)试述SCOP蛋白质分类方案。 20)试述SWISS-PROT中的数据来源。 21)TrEMBL哪两个部分? 22)试述PSI-BLAST 搜索的5个步骤。 三、操作与计算题 1)如何获取访问号为U49845的genbank文件?解释如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 2)利用Entrez检索系统,对核酸数据搜索,输入如下信息,将获得什

生物信息学 复习题

问题一:生物信息学的含义是什么?举一到两个例子说明你对生物信息学的哪方面感兴趣。参考答案:生物信息学有三个方面的含义:1、它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。2、生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;其本质是识别基因信号。3、生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。 例子:怎样从新测得的DNA序列中找到编码区?非编码区与编码区的差别是什么?非编码区有什么具体功能?RNAi现象对于细胞来说有着很重要的意义,包括基因表达的调控等等,那么都有哪些具体机制可以诱导正常细胞产生RNAi现象?SARS病毒的比较基因组研究;治疗SARS的RNAi设计;SARS蛋白的结构预测和模拟。 问题二:有哪些数据库可以发现新基因,其本质是什么? 参考答案:大部分新基因是靠理论方法预测出来的。 a)、利用NCBI中EST( E xpression Sequence Tag) 数据库(dbEST) 发现新基因和新SNPs。国际上现已出现了几个基于EST的基因索引如UniGene, Merck-Gene, GenExpress-index . 其本质是: : 以一个序列片段为线索, 通过它和整个数据库的比较, 还原出全序列原貌。当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。 b)、从基因组DNA序列中预测新ORF。基于信号或基于组成。 问题三:1、基于核酸和蛋白质序列如何研究生物进化?2、主要步骤是什么?3、当前的主要困难是什么? 参考答案:1、构建系统进化树。2、主要步骤如下:A、序列相似性比较。就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;B、序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;C、构建系统进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,象PYLIP、MEGA等;D、稳定性检验。为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70%以上)出现的分支点才是可靠的。通用的方法使用Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。3、当前的主要困难是发现了基因的横向迁移(LGT)现象。即进化程度不同的物种间存在着遗传信息基因的传递,如果拿迁移的基因做进化分析就会出错。克服LGT的方法:一是在所有序列中筛选出有垂直进化关系的序列数据集,如COG数据库;二是用完整的基因组和蛋白质组比较。 问题四:<1> 什么叫SNP?为什么SNP研究如此重要?举2-3个SNP相关的website。 参考答案:1、SNP本意是单核苷酸多态性,泛指基因组上一个碱基的取代,现在有所扩展,也包括一些更广泛的变化,例如2-3个碱基的变化也叫SNP。2、SNP是联系基因型和表现型之间关系的桥梁,是基因组领域理论成果和基础研究走向应用的关键步骤。3、SNP相关

生物信息学习题

第一章生物信息学引论(问题与练习) 1、什么是生物信息学? 2、生物信息学的主要研究任务是什么? 3、我国生物信息学的主要发展方向是什么? 4、简述你所了解的人类基因组计划 5、简述你所了解的生物信息学的基本方法和前沿技术 6、生物信息学目前的主要研究内容 第二章生物学基础(问题与练习) 1、细胞学说的基本内容 2、简述细胞分裂周期的全过程 3、细胞分裂有哪些方式? 4、说明细胞的分类 5、简述原核细胞的基本内容 6、真核细胞的基本结构 7、陈述蛋白质的生物学功能 8、试按你的理解对20种氨基酸进行分类 9、画图说明肽键的形成过程 10、何谓蛋白质一级结构? 11、何谓蛋白质二级结构? 12、何谓蛋白质超二级结构? 13、何谓蛋白质四级结构? 14、描述核酸的基本组成 15、叙述DNA结构的基本内容 16、图示目前公认的中心法则 17、何为蛋白质剪切 18、何为GT-AG规则? 19、说明原核、真核生物基因的结构特征 20、阐述DNA复制机制的最新进展 21、阐述基因转录调控模型 22、总结蛋白质转译的基本机制 23、总结遗传密码破译的过程 24、何谓操纵子? 25、叙述基因表达调控的几个层次

第三章生物信息学资源与数据挖掘工具(问题与练习) 一、 单项选择题(从每题的A、B、C、D四个被选答案中选择一个最佳答案。) 1、如果我们试图做蛋白质亚细胞定位分析,应使用 A、NDB数据库 B、SWISS-PROT数据库 C、GenBank数据库 D、PDB数据库 2、如果试图确定一个新蛋白质序列属于哪一个蛋白质家族,或该序列可能包含何种结构域 或功能位点,应使用 A、PROSITE数据库 B、DDBJ数据库 C、PDB数据库 D、PIR数据库 3、在蛋白质一级数据库基础上,构建二级数据库应使用 A、近邻归并法 B、序列比对 C、基因融合法 D、Entrez 4、做DNA结构分析可使用 A、GenBank数据库 B、PIR数据库 C、NDB数据库 D、BLOCKS数据库 5、向核酸数据库GenBank/EMBL/DDBJ提交数据,应使用下列哪个软件 A、BLAST B、Sequin C、SRS D、TreeBASE 6、在蛋白质序列数据库中比较查询蛋白质序列,应使用 A、BLASTn B、BLASTp C、tBLASTn D、BLASTx 7、Profiles数据库是 A、蛋白质序列数据库 B、核酸序列数据库 C、蛋白质二级数据库 D、蛋白质结构数据 库 8、TreeBASE系统主要用于 A、发现新基因 B、系统生物学研究 C、类群间系统发育关系研究 D、序列比对 二、 问答题 1、为什么说SWISS-PROT是最重要的蛋白质一级数据库? 2、构建蛋白质二级数据库的基本原则是什么? 3、构建蛋白质二级数据库的主要方法有哪些? 4、叙述SCOP数据库对蛋白质分类的主要依据 5、试陈述GenBank数据库中一条记录下的主要信息 6、解释正则表达式C-Y-X2-[DG]-G-X-[ST]的含义 三、 填空题 1、目前国际上最常用的核酸序列数据库有 、 和 。 2、列举至少四种权威的蛋白质二级数据库 、 、 和 。 3、列举至少五种NCBI的服务项目 、 、 、 和 等 四、 名词解释 1、基序(motif) 2、SNP 3、基因家族 4、概念性翻译

相关文档
相关文档 最新文档