当前位置：文档库 › 生物信息学实验报告

生物信息学实验报告

姓名：__ 王思____ __ _

学号：___ 031040103_ ___

指导老师：__ 宋晓峰_

南京航空航天大学

2013年4月

实验一生物信息数据库的检索

一．实验目的：

1.了解生物信息学的各大门户网站以及其中的主要资源。

2.了解主要数据库的内容及结构，理解各数据库注释的含义。

3.以PubMed为例，学会文献数据库的基本查询检索方法。

二．实验内容：

（1）国际与国内的生物信息中心

国际NCBI、EBI、ExPASy，EMBL、SIB、TIGR以及国内CBI、BioSino网站的熟悉及内容的了解。

核酸序列数据库：genbank/EMBL-bank/DDBJ

NCBI网址：https://www.wendangku.net/doc/b64796566.html,/

EBI网址：https://www.wendangku.net/doc/b64796566.html,/

EMBL网址：https://www.wendangku.net/doc/b64796566.html,/embl

蛋白质序列数据库：

Swiss Prot 、ExPASy网址：https://www.wendangku.net/doc/b64796566.html,/

Uniprot网址：https://www.wendangku.net/doc/b64796566.html,/

蛋白质结构数据库：

PDB网址：https://www.wendangku.net/doc/b64796566.html,/pdb/

（2）数据库内容、结构与注释的浏览

分别读取The spike protein of SARS-Corona Virus在NCBI中的核酸序列、

SWISS-PROT蛋白质序列以及PDB蛋白质结构序列，熟悉数据库记录的结构，学会

看懂其中的注释。

核酸序列:

SWISS-PROT蛋白质序列:

PDB蛋白质结构序列:

其PDB文件见附件SARS-Corona Virus.PDB文件

分别读取Heamagglutinin Genes of H9N2 Subtype Influenza A Viruses（禽流感H9N2亚型HA基因）在NCBI中的核酸序列、SWISS-PROT蛋白质序列以及PDB蛋白质结构序列，熟悉数据库记录的结构，学会看懂其中的注释。

核酸序列:

SWISS-PROT蛋白质序列

PDB蛋白质结构序列

其PDB文件见附件H9N2.PDB文件

（3）文献信息的查找与管理

有效地使用NCBI PubMed提供的各种主要功能，查询并下载相关课题或研究方向的论文文摘与文献全文。

查询Influenza A Viruses分子进化研究方向的文章。

三．实验要求：

（1）以其中的一个信息中心网站为例，列举其中的主要资源（数据库、网上分析、生物计算、数据下载等）。

以NCBI为例，其主要数据库：BioProject (formerly Genome Project)、Conserved Domain Database (CDD) 、Database of Genotypes and Phenotypes (dbGaP) 、GenBank、Influenza Virus 、Journals in NCBI Databases 、MeSH Database 、Nucleotide Database 、Online Mendelian Inheritance in Animals (OMIA) 、Protein Clusters 、Protein Databas、PubMed 、Reference Sequence (RefSeq) 、Structure (Molecular Modeling Database) 、Third Party Annotation (TPA) Database 、UniGene 、Viral Genomes 等

网上分析：BLAST 、VecScreen 、ORF Finder 、COGnitor等

生物计算：

数据下载功能如下：

（2）能够解释给定序列或基因组数据的含义。

（3）检索文献的技巧和效率。

实验二序列多重比对及进化分析

一．实验目的：

1.学习序列比对工具BLAST以及ClustalW等的使用，能够对序列数据进行初步的分析。

2.掌握基于DNA序列和蛋白质序列构建系统进化树的常用方法和常用工具。

二．实验内容：

1.在GeneBank数据库中，检索10条轮状病毒（Homo sapiens, Rotavirus）VP7基因的

DNA序列，并使用CLUSTALW软件对序列进行多重序列比对；

检索结果详见电子稿附件VP7文件夹：senquence1.fasta -senquence10.fasta

多重序列比对结果：

多重序列比对结果详见电子稿附件：senquence.aln文件

2.在GeneBank数据库中检索10条SARS病毒Spike蛋白的氨基酸序列，使用CLUSTALX软

件对这十条序列进行多重序列比对；

检索结果详见电子稿附件sara文件夹：s0.fasta –s9.fasta

多重序列比对结果

多重序列比对结果详见电子稿附件sara文件夹： s9.aln

3.使用ClustalW软件或其他软件包构建上述DNA分子系统发生树。

系统发生树如下：

三．实验要求：

1.提交使用CLUSTALX及PHYLIP软件进行多重序列比对及构建系统发生树的结果；

2.总结多重序列比对及构建系统发生树的关键事项。

选择合适的比对算法，构建系统发生树时适当选择独立关系的分支序列。

实验三蛋白质结构分析及结构预测

一．实验目的：

1、掌握蛋白质序列检索的操作方法；

2、熟悉蛋白质基本性质分析；

3、熟悉基于序列同源性分析的蛋白质功能预测，了解基于motif、结构位点、结构功能域数据库的蛋白质功能预测；

4、了解蛋白质结构预测。

5. 学会运用结构浏览软件对生物大分子的结构进行观察。

二．实验内容：

1.给出实例了解生物大分子结构数据库PDB及MMDB中的记录方式，看懂记录中的内容

并会运用Rasmol或CN3D软件观察蛋白质的三维结构。

PDB文件1J4N.pdb的记录方式分析见附录。下图为在Rasmal软件中观察的结果：

丝带模型

线框模型

球棒模型

2.使用Entrez或SRS信息查询系统检索水通道(Aquaporin-1, AQP1)蛋白质序列。

AQP1蛋白质序列：

MQSGMGWNVLDFWLADGVNSGQGLGIEIIGTLQLVLCVLATTDRRRRDLGGSAPLAIGLSVALGHLLAIDYT

GCGINPARSFGSAVITHNFSNHWIFWVGPFIGGALAVLIYDFILAPRSSDLTDRVKVWTSGQVEEYDLDADD

INSRVEMKPK

详见附件AQP1.fasta

3.使用BioEdit软件对上述蛋白质序列进行分子质量、氨基酸组成和疏水性等基本性

质分析。

分子量、氨基酸组成

Protein: gi|297307120|ref|NP_001171991.1| aquaporin-1 isoform 4 [Homo sapiens] Length = 154 amino acids

Molecular Weight = 16676.11 Daltons

Amino Acid Number Mol%

Ala A 12 7.79 Cys C 2 1.30 Asp D 12 7.79

Glu E 4 2.60 Phe F 6 3.90 Gly G 18 11.69 His H 3 1.95 Ile I 12 7.79 Lys K 3 1.95

Leu L 18 11.69 Met M 3 1.95 Asn N 6 3.90 Pro P 5 3.25 Gln Q 4 2.60 Arg R 8 5.19

Ser S 11 7.14 Thr T 7 4.55 Val V 12 7.79 Trp W 5 3.25 Tyr Y 3 1.95

疏水性分析：

4.对水通道蛋白质序列进行基于NCBI/Blast软件的蛋白质同源性分析；

5.对水通道蛋白质序列进行motif结构分析；

6.对水通道蛋白质序列进行二级结构和三维结构预测。二级结构预测：

三级结构预测：数据库显示结构:

三．实验要求：

1、提交使用上述软件对人水通道蛋白质序列进行基本性质分析、同源性分析、motif 结构分析以及二级结构和三维结构预测的结果；

2、相互对比结果，说明产生不同结果的原因，总结进行上述分析所需注意的关键事项。

实验四核酸序列分析

一．实验目的

1、掌握已知或未知序列接受号的核酸序列检索的基本步骤；

2、掌握使用BioEdit软件进行核酸序列的基本分析；

3、熟悉基于核酸序列比对分析的真核基因结构分析（内含子/外显子分析）；

二．实验原理

针对核酸序列的分析就是在核酸序列中寻找基因，找出基因的位置和功能位点的位置，以及标记已知的序列模式等过程。在此过程中，确认一段DNA序列是一个基因需要有多个证据的支持。一般而言，在重复片段频繁出现的区域里，基因编码区和调控区不太可能出现；如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话，那么这个DNA片段就非常可能属于外显子片段；在一段DNA序列上出现统计上的规律性，即所谓的“密码子偏好性”，也是说明这段DNA是蛋白质编码区的有力证据；其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。一般而言，确定基因的位置和结构需要多个方法综合运用，而且需要遵循一定的规则：对于真核生物序列，在进行预测之前先要进行重复序列分析，把重复序列标记出来并除去；选用预测程序时要注意程序的物种特异性；要弄清程序适用的是基因组序列还是cDNA序列；很多程序对序列长度也有要求，有的程序只适用于长序列，而对EST这类残缺的序列则不适用。

三．实验内容

1、使用Entrez或SRS信息查询系统检索人瘦素 (leptin) 的mRNA、基因组DNA、外显子等核酸序列，连接提取该序列内容，阅读序列格式的解释，理解其含义；

2、使用BioEdit软件对上述核酸序列进行分子质量、碱基组成、碱基分布、序列变换等基本分析，并从BioEdit软件的“help”栏了解该软件的其它功能；

DNA molecule: gi|169790920|ref|NM_000230.2| Homo sapiens leptin (LEP), mRNA Length = 3444 base pairs

Molecular Weight = 1045471.00 Daltons, single stranded

Molecular Weight = 2093627.00 Daltons, double stranded

G+C content = 49.97%

A+T content = 50.03%

Nucleotide Number Mol%

A 903 26.22

C 801 23.26

G 920 26.71

T 820 23.81

4、使用BioEdit软件对人瘦素 (leptin) 的mRNA序列进行可读框架分析；

起始密码位置和编码区范围:

4、使用NCBI查询系统进行人瘦素 (leptin) 的基因组序列分析。ATGCATTGGGGAACCCTGTGCGGATTCTTGTGGCTTTGGCCCTATCTTTTCTATGTCCAAGCTGTGCCCATCCAAAAAG TCCAAGATGACACCAAAACCCTCATCAAGACAATTGTCACCAGGATCAATGACATTTCACACACGCAGTCAGTCTCCTC CAAACAGAAAGTCACCGGTTTGGACTTCATTCCTGGGCTCCACCCCATCCTGACCTTATCCAAGATGGACCAGACACTG GCAGTCTACCAACAGATCCTCACCAGTATGCCTTCCAGAAACGTGATCCAAATATCCAACGACCTGGAGAACCTCCGGG ATCTTCTTCACGTGCTGGCCTTCTCTAAGAGCTGCCACTTGCCCTGGGCCAGTGGCCTGGAGACCTTGGACAGCCTGGG GGGTGTCCTGGAAGCTTCAGGCTACTCCACAGAGGTGGTGGCCCTGAGCAGGCTGCAGGGGTCTCTGCAGGACATGCTG TGGCAGCTGGACCTCAGCCCTGGGTGCTGA

四．实验方法

1、调用Internet浏览器，并在其地址栏输入Entrez网址：https://www.wendangku.net/doc/b64796566.html,/gquery/gquery.fcgi；

2、在输入栏输入homo sapiens leptin;

3、点击go后显示搜索结果;

4、在搜索结果中选择nucleotide前的数字，显示序列接受号及序列名称等；

5、查找人leptin (obesity homolog, mouse) mRNA序列（提示：NM_000230），点击序列接受号后显示序列详细信息；

6、将序列转为FASTA格式保存

7、根据从NM_000230了解的基因定位信息查找人瘦素的基因组DNA (Contig) 的序列接受号及序列识别号，点击序列接受号显示序列详细信息；

8、根据从NM_000230了解的HGNC:6553，进入GENATLAS查找人瘦素5’ mRNA、基因组DNA、外显子等核酸序列；

9、将上述核酸序列输入BioEdit和DNAClub软件进行序列基本分析；

10、打开BioEdit软件，点击“help”栏，阅读“contents”；

11、将人瘦素 (leptin) 的mRNA序列输入BioEdit软件进行可读框架分析：打开BioEdit软件→将人瘦素 (leptin) mRNA的FASTA格式序列输入分析框→点击左侧序列说明框中的序列说明→点击sequence栏→选择nucleic acid→点击find next ORF→查看起始密码位置和编码区范围（57→557）。

五．实验要求

1、归纳对人瘦素 (leptin) 的核酸序列分析的结果，列出主要的分析结果；

2、总结核酸序列分析的基本步骤，相互对比结果，指出应注意的事项。

生物信息学作业

生物信息学试题 1、构建分子系统树得主要方法有哪些？并简要说明构建分子进化树得一般步骤。（20分）答：（1）构建进化树得方法包括两种：一类就是序列类似性比较，主要就是基于氨基酸相对突变率矩阵（常用PAM250）计算不同序列差异性积分作为它们得差异性量度（序列进化树）；另一类在难以通过序列比较构建序列进化树得情况下，通过蛋白质结构比较包括刚体结构叠合与多结构特征比较等方法建立结构进化树 (2)序列比对——选取所需序列——软件绘制具体如下： a测序获取序列或者在NCBI上搜索所需得目得序列 b在NCBI上做blast：比对相似度较高得基因，并以fast格式下载，整合在*txt文档中。 c比对序列，比对序列转化成*meg格式 d打开保存得*meg格式文件，构建系统进化树 2、氨基酸序列打分矩阵PAM与BLOSUM中序号有什么意义？它们各自得规律就是什么？（10分）（1）PAM矩阵：基于进化得点突变模型，如果两种氨基酸替换频繁，说明自然界接受这种替换，那么这对氨基酸替换得分就高。一个PAM就就是一个进化得变异单位, 即1%得氨基酸改变。 BLOSUM矩阵：首先寻找氨基酸模式，即有意义得一段氨基酸片断，分别比较相同得氨基酸模式之间氨基酸得保守性（某种氨基酸对另一种氨基酸得取代数据），然后，以所有60％保守性得氨基酸模式之间得比较数据为根据，产生BLOSUM60；以所有80％保守性得氨基酸模式之间得比较数据为根据，产生BLOSUM80。

（2）PAM用于家族内成员相比，然后把所有家族中对某种氨基酸得比较结果加与在一起，产生“取代”数据（PAM-1 ）；PAM-1自乘n次，得PAM-n。 PAM-n中，n 越小，表示氨基酸变异得可能性越小；相似得序列之间比较应该选用n值小得矩阵，不太相似得序列之间比较应该选用n值大得矩阵。PAM-250用于约 20%相同序列之间得比较。 BLOSUM-n中，n越小，表示氨基酸相似得可能性越小；相似得序列之间比较应该选用 n 值大得矩阵，不太相似得序列之间比较应该选用n值小得矩阵。BLOSUM-62用来比较62％相似度得序列，BLOSUM-80用来比较80％左右得序列。 3、蛋白质三维结构预测得主要方法有哪些？试选择其中得一种方法，说明蛋白质三维结构预测得一般步骤。（10分）（1） a同源建模（序列相似性低于30%得蛋白质难以得到理想得结构模型 b折叠识别(已知结模板得序列一致率小于25%) c从头预测得方法(无已知结构蛋白质模板)。（2） 4、您所熟悉得生物信息学软件有哪些？请选择其中得至少一种软件，结合自己得研究课题，谈谈您所选择软件得基本原理，使用

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识㈠De Novo测序也叫从头测序，是首次对一个物种的基因组进行测序，用生物信息学的分析方法对测序所得序列进行组装，从而获得该物种的基因组序列图谱。目前国际上通用的基因组De Novo测序方法有三种： 1. 用Illumina Solexa GA IIx 测序仪直接测序； 2. 用Roche GS FLX Titanium直接完成全基因组测序； 3. 用ABI 3730 或Roche GS FLX Titanium测序，搭建骨架，再用Illumina Solexa GA IIx 进行深度测序，完成基因组拼接。采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件，并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究，为后续的相关研究奠定基础。实验流程：公司服务内容 1.基本服务：DNA样品检测；测序文库构建；高通量测序；数据基本分析（Base calling，去接头，去污染）；序列组装达到精细图标准 2.定制服务：基因组注释及功能注释；比较基因组及分子进化分析，数据库搭建；基因组信息展示平台搭建 1.基因组De Novo测序对DNA样品有什么要求？

(1) 对于细菌真菌，样品来源一定要单一菌落无污染，否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上)， OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；每次样品制备需要10 μg样品，如果需要多次制备样品，则需要样品总量=制备样品次数*10 μg。 (2) 对于植物，样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品，最好为纯合或单倍体。基因组完整无降解(23 kb以上)，OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；样品总量不小于500 μg，详细要求参见项目合同附件。 (3) 对于动物，样品来源应选用肌肉，血等脂肪含量少的部位，同一个体取样，最好为纯合。基因组完整无降解(23 kb以上)，OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；样品总量不小于500 μg，详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证，用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式目前3种测序技术 Roche 454，Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中，Roche 454的单端测序读长可以达到400 bp，经常用于基因组骨架的组装，而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例，对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段，引物序列连接到DNA片段的一端，然后末端加上接头，将片段固定在flow cell上生成DNA簇，上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点，在第一轮测序完成后，去除第一轮测序的模板链，用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增，以达到第二轮测序所用的模板量，进行第二轮互补链的合成测序(图2)。图1 Single-read文库构建方法图2 Paired-end文库构建方法

生物信息学复习题及答案

生物信息学复习题名词解释 1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。（直系同源）：指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列，它们具有相似的功能。（旁系（并系）同源）：指同一个物种中具有共同祖先，通过基因复制产生的一组基因，这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。 (异同源)：通过横向转移，来源于共生或病毒侵染而产生的相似的序列，为异同源。 Score：The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。 6.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。 7. E值：得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义，E值越接近零，越不可能找到其他匹配序列。值：得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S，与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP（高分片段对）得分的期望分布联系起来计算的。通常使用低于来定义统计的显著性。P=1-e-E 9.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法,是序列相似性分析的基础，其不同的选择将会出现不同的分析结果。 10．空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。：美国国家生物技术信息学中心，属于美国国立医学图书馆的一部分，具有BLAST, Entrez ,GenBank等工具，还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 序列格式：是将DNA或者蛋白质序列表示为一个带有大于号（>）开始的核苷酸或者氨基酸序列的新文件，其中大于号后可以跟上序列的相关信息，其他无特殊要求。 13genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释，主要包含生物功能或数据库信息；第三部分是feature，对序列的注释；第四部分是序列本身，以“统发生树（Phylogenetic tree ）是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系，是一种亲缘分支分类方法。在树中，每个节点代表其各分支的最近共同祖先，而节点间的线段长度对应演化距离（如估计的演化时间）。是用来研究物种进化与多样性的基础，是相近物种相关生物学数据的来源。17.基因树与物种树：物种树反映一组物种进化历程的系统树，其中每一个内部节点就代表一个物种形成的过程，而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树，而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因

生物信息学作业1实验2

上海师范大学实验报告实验二一、实验原理答：利用Blast全球联网数据库，对输入的序列进行生物信息学分析，给出与输入序列相关性最大的对应的基因信息，比较两者的同源性。二、操作步骤答：（1）先打开网址https://www.wendangku.net/doc/b64796566.html,/ （2）点击右边的Blast链接，打开Blast数据库，进入Blast界面（3）在Basic Blast中选择nucleotide blast （4）在对话框中输入核苷酸序列，在choose search set下的Database选项中选择Others (nr etc.) （5）把网页拉到最下方，点击Blast按钮（6）在Descriptions 栏下找到Max ident 百分率最高的序列名称（7）再往下拉，找到Alignments项下第一个序列，可以找到输入序列相关信息（8）点击Accession，即能找到更多输入序列的相关信息。 1. tttcactcca tagttactcc ccaggtga 1.1它属于哪类生物? 答：属于Hepatitis C virus （丙型肝炎病毒） 1.2它属于哪类基因？答：属于non-structural protein 5B gene 1.3它在该基因的什么位置？答：它在该基因的第749-776这个位置。 1.4它与你搜索到的序列的同源性（Identities）是多少？答：同源性100% 2．（1）ccacccactg aaactgcaca gacaaatttg tacataagag 1.1它属于哪类生物? 答：属于Influenza A virus (A/chicken/Iran261/01(H9N2)) hemagglutinin (HA) gene （A型流感病毒，A型伊朗型261鸡流感病毒，H9N2病毒，血细胞凝集素抗原基因为依据） 1.2它属于哪类基因？答：属于ssRNA negative-strand viruses Orthomyxoviridae （单链RNA，负义链病毒，正粘病毒科） 1.3它在该基因的什么位置？答：它在该基因的第1-40这个位置 1.4它与你搜索到的序列的同源性（Identities）是多少？

生物信息学分析实践

水稻瘤矮病毒(RGDV)外层衣壳蛋白 P8的同源模建高芳銮(Raindy) 同源模建(homology modeling) ，也叫比较模建(Compatative modeling)，其前提是一个或多个同源蛋白质的结构已知，当两个蛋白质的序列同源性高于35%，一般情况下认为它们的三维结构基本相同；序列同源性低于30%的蛋白质难以得到理想的结构模型。同源模建是目前最为成功且实用的蛋白质结构预测方法， SWISS-MODEL 是由SwissProt 提供的目前最著名的蛋白质三级结构预测服务器，创建于1993年，面向全世界的生物化学与分子生物学研究工作者提供免费的自动模建服务。SWISS-MODEL 服务器提供的同源模建有两种工作模式：首选模式(First Approach mode)和项目模式(Project mode)。本实例以RGDV P8蛋白为研究对象采用首选模式进行同源模建。图1 SWISS-MODEL 的主界面操作流程如下： 1.选择模式单击左侧的“MENU ”菜单下方的“First Approach mode ”，右侧窗口自动SWISS-MODEL 工作窗口，在相应文本框中分别输入的E-mail 、项目标题、待模建的蛋白质序列，SWISS-MODEL 支持以FASTA 格式直接输入或提交UniProt 的登录号，如图2所示。《生物信息学分析实践》样稿

图2 SWISS-MODEL 的序列提交页面 2.参数设置当前版本只有一个选项可设置，如果用户需要使用指定的模板，可在“Use a specific template ”后的输入框填入ExPDB 晶体图像数据库中的模板代码，其格式为“PDBCODE+ChainID ”，如“1uf2P ”。本例不使用指定模板，默认留空。完毕，点击“Submit Modeling Request ”提交模建请求，服务器返回提交成功的提示，如图3所示：图3 成功提交 SWISS-MODEL WORKSPACEW 页面会自动刷新，直至模建完成，如图4所示，同时模建结果也会发送到指定的邮箱。 3结果解读点击下图右上方的“Print/Save this page as ”后的图标，可以将整个结果以PDF 文档格式保存到本地计算机中。模建结果给出了五个部分的信息：模建详情(Model Details)、比对信息(Alignment)、模建评价 (Anolea/Gromos/Verify3D)、模建日志(Modelling log)、模板选择日志(Template Selection Log)。《生物信息学分析实践》样稿

生物信息学题库说课材料

生物信息学题库

■一、选择题: 1.以下哪一个是mRNA条目序列号： A. J01536■. NM_15392 C. NP_52280 D. AAB134506 2.确定某个基因在哪些组织中表达的最直接获取相关信息方式是：■. Unigene B. Entrez C. LocusLink D. PCR 3.一个基因可能对应两个Unigene簇吗？■可能 B. 不可能 4.下面哪种数据库源于mRNA信息：■ dbEST B. PDB C. OMIM D. HTGS 5.下面哪个数据库面向人类疾病构建： A. EST B. PDB ■. OMIM D. HTGS 6.Refseq和GenBank有什么区别： A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列 ■. Refseq源于GenBank，提供非冗余序列信息D. GenBank源于Refseq 7.如果你需要查询文献信息，下列哪个数据库是你最佳选择： A. OMIM B. Entrez ■ PubMed D. PROSITE 8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法，下列哪种说法正确：A. 因为GenBank的数据比EMBL更多，Entrez给出的搜索结果将更多B. 搜索结果很可能一样，因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当，但是ExPASy中的SwissProt记录的输出格式不同 9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于：■ N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W 10.直系同源定义为：■不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列 C. 同一物种中由基因复制产生的同源序列 D. 同一物种中具有相似的并且通常是冗余的功能的同源序列 11.下列那个氨基酸最不容易突变： A. 丙氨酸 B. 谷氨酰胺 C. 甲硫氨酸■半胱氨酸 12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变： A. 1% B. 20%■. 80% D. 250% 13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同：A. 全局比对通常用于比对DNA序列，而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙，而局部比对不允许C. 全局比对寻找全局最大化，而局部比对寻找局部最大化■全局比对比对整体序列，而局部比对寻找最佳匹配子序列 14.假设你有两条远源相关蛋白质序列。为了比较它们，最好使用下列哪个BLOSUM和PAM矩阵：■ BLOSUM45和PAM250 B. BLOSUM45和PAM 1 C. BLOSUM80和PAM250 D. BLOSUM10和PAM1 15.与PAM打分矩阵比较，BLOSUM打分矩阵的最大区别是：A. 最好用于比对相关性高的蛋白B. 它是基于近相关蛋白的全局多序列比对 ■它是基于远相关蛋白的局部多序列比对D. 它结合了全局比对和局部比对 16.如果有一段DNA序列，它可能编码多少种蛋白质序列： A. 1 B. 2 C. 3 ■. 6 17.要在数据库查询一段与某DNA序列编码蛋白质最相似的序列，应选择： A. blastn B. blastp C. tblastn D. tblastp■ blastx 18.为什么ClustalW（一个采用了Feng-Doolittle渐进比对算法的程序）不报告E值：A. ClustalW报告E值■使用了全局比对 C. 使用了局部比对 D. 因为是多序列比对 19.Feng-Doolittle方法提出“一旦是空隙，永远是空隙”规则的依据是：A. 保证空隙不会引物序列加入而填充B. 假定进化早期分歧的序列有较高优先级别■假定最近序列空隙应该保留 D. 假定最远序列空隙应该保留 20.根据分子钟假说： A. 所有蛋白质都保持一个相同的恒定进化速率 B. 所有蛋白质的进化速率都与化石记录相符合C. 对于每一个给定的蛋白质，分子进化的速率是逐渐减慢的，就如同不准时的钟■对于每一个给定的蛋白质，其分子进化的速率在所有的进化分支上大致是恒定 21.系统发生树的两个特征是： A. 进化分支和进化节点■树的拓扑结构和分支长度C. 进化分支和树根D. 序列比对和引导检测方法 22.下列哪一个是基于字母特征的系统发生分析的算法： A. 邻位连接法（NJ法）B. Kimura算法■最大似然法（ML）D. 非加权平均法（UPGMA） 23.基于字母特征和基于距离的系统发生分析的算法的基本差异是：■基于字母特征的算法没有定义分支序列的中间数据矩阵 B. 基于字母特征的算法可应用于DNA或者蛋白质序列，而基于距离仅能用于DNA C. 基于字母特征的算法无法运用简约算法 D. 基于字母特征的算法的进化分支与进化时间无关 24.一个操作分类单元（OTU）可指：A. 多序列比对■蛋白质序列C. 进化分支D. 进化节点 25.构建进化树最直接的错误来源是：■多序列比对错误B. 采样的算法差异C. 假设进化分支是单一起源D. 尝试推测基因的进化关系 26.第一个被完整测定的基因组序列是： A. 啤酒酵母的3号染色体B. 流感病毒■ФX174 D. 人类基因组 27.普通的真核生物线粒体基因组编码大约多少个蛋白质：■ 10 B. 100 C. 1000 D. 10000 28.根据基因组序列预测蛋白质编码基因的算法的最大问题是： A. 软件太难使用■. 假阳性率太高，许多不是外显子的序列部分被错误指定C. 假阳性率太高，许多不是外显子功能未知 D. 假阴性率太高，丢失太多外显子位点 29.HIV病毒亚型的系统演化研究可以： A. 证实HIV病毒是由牛病毒演化而来■. 用于指导开发针对保守蛋白的疫苗C. 证实哪些人类组织最容易遭受病毒侵染 30.一个典型的细菌基因组大小约为多少bp： A. 20000■. 200000 C. 2000000 D. 20000000

生物信息学课程作业

生物信息学作业 1. Align the leghemoglobin protein from soy bean and myoglobin from human with global and local alignment software (ex. needle and water) respectively and interpret the results. ANSWER: (1)Use Needle to Align the two sequence： Aligned_sequences: 2 # 1: CAA38024.1 # 2: NP_001157488.1 # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # Length: 203 # Identity: 43/203 (21.2%) # Similarity: 58/203 (28.6%) # Gaps: 90/203 (44.3%) # Score: 30.0 (2)Use Water to Align the two sequence： Aligned_sequences: 2 # 1: CAA38024.1 # 2: NP_001157488.1 # Matrix: EBLOSUM62 # Gap_penalty: 14 # Extend_penalty: 4 # Length: 32 # Identity: 11/32 (34.4%) # Similarity: 15/32 (46.9%) # Gaps: 0/32 ( 0.0%) # Score: 35 两种软件虽然使用同一罚分标准但得分不同。因为Needle程序实现标准pairwise全局比对，而Water则是局部比对。全局比对因为是比对全长序列，所以空位罚分多，得分较局部比对低。

生物信息学课后题及答案-推荐下载

生物信息学课后习题及答案（由10级生技一、二班课代表整理）一、绪论 1.你认为，什么是生物信息学？采用信息科学技术，借助数学、生物学的理论、方法，对各种生物信息（包括核酸、蛋白质等）的收集、加工、储存、分析、解释的一门学科。2.你认为生物信息学有什么用？对你的生活、研究有影响吗？（1）主要用于：在基因组分析方面：生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分子进化、蛋白质结构预测等在医药方面：新药物设计、基因芯片疾病快速诊断、流行病学研究：SARS 、人类基因组计划、基因组计划：基因芯片。（2）指导研究和实验方案，减少操作性实验的量；验证实验结果；为实验结果提供更多的支持数据等材料。 3.人类基因组计划与生物信息学有什么关系？人类基因组计划的实施，促进了测序技术的迅猛发展，从而使实验数据和可利用信息急剧增加，信息的管理和分析成为基因组计划的一项重要的工作。而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。 4简述人类基因组研究计划的历程。通过国际合作，用15年时间（1990-2005）至少投入30亿美元，构建详细的人类基因组遗传图和物理图，确定人类DNA 的全部核苷酸序列，定位约10万基因，并对其他生物进行类似研究。 1990，人类基因组计划正式启动。 1996，完成人类基因组计划的遗传作图，启动模式生物基因组计划。 1998完成人类基因组计划的物理作图，开始人类基因组的大规模测序。Celera 公司加入，与公共领域竞争启动水稻基因组计划。 1999，第五届国际公共领域人类基因组测序会议，加快测序速度。 2000，Celera 公司宣布完成果蝇基因组测序，国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作。 2001，人类基因组“中国卷”的绘制工作宣告完成。 2003，中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功，人类基因组计划的.目标全部实现。2004，人类基因组完成图公布。 2.我国自主知识产权的主要基因组测序计划有哪些？水稻（2002），家鸡（2004），家蚕（2007），家猪（2012），大熊猫（2010） 2．第一章、管路敷设技术通过管线不仅可以解决吊顶层配置不规范高中资料试卷问题，而且可保障各类管路习题到位。在管路敷设过程中，要加强看护关于管路高中资料试卷连接管口处理高中资料试卷弯扁度固定盒位置保护层防腐跨接地线弯曲半径标高等，要求技术交底。管线敷设技术包含线槽、管架等多项方式，为解决高中语文电气课件中管壁薄、接口不严等问题，合理利用管线敷设技术。线缆敷设原则：在分线盒处，当不同电压回路交叉时，应采用金属隔板进行隔开处理；同一线槽内，强电回路须同时切断习题电源，线缆敷设完毕，要进行检查和检测处理。、电气课件中调试对全部高中资料试卷电气设备，在安装过程中以及安装结束后进行高中资料试卷调整试验；通电检查所有设备高中资料试卷相互作用与相互关系，根据生产工艺高中资料试卷要求，对电气设备进行空载与带负荷下高中资料试卷调控试验；对设备进行调整使其在正常工况下与过度工作下都可以正常工作；对于继电保护进行整核对定值，审核与校对图纸，编写复杂设备与装置高中资料试卷调试方案，编写重要设备高中资料试卷试验方案以及系统启动方案；对整套启动过程中高中资料试卷电气设备进行调试工作并且进行过关运行高中资料试卷技术指导。对于调试过程中高中资料试卷技术问题，作为调试人员，需要在事前掌握图纸资料、设备制造厂家出具高中资料试卷试验报告与相关技术资料，并且了解现场设备高中资料试卷布置情况与有关高中资料试卷电气系统接线等情况，然后根据规范与规程规定，制定设备调试高中资料试卷方案。、电气设备调试高中资料试卷技术电力保护装置调试技术，电力保护高中资料试卷配置技术是指机组在进行继电保护高中资料试卷总体配置时，需要在最大限度内来确保机组高中资料试卷安全，并且尽可能地缩小故障高中资料试卷破坏范围，或者对某些异常高中资料试卷工况进行自动处理，尤其要避免错误高中资料试卷保护装置动作，并且拒绝动作，来避免不必要高中资料试卷突然停机。因此，电力高中资料试卷保护装置调试技术，要求电力保护装置做到准确灵活。对于差动保护装置高中资料试卷调试技术是指发电机一变压器组在发生内部故障时，需要进行外部电源高中资料试卷切除从而采用高中资料试卷主要保护装置。

高通量测序基础知识

高通量测序基础知识简介陆桂什么是高通量测序？高通量测序技术（High-throughput sequencing，HTS）是对传统Sanger测序（称为一代测序技术）革命性的改变,一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing，NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。什么是Sanger法测序（一代测序） Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成，每个反应含有所有四种脱氧核苷酸三磷酸(dNTP)，并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团，使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整，使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点，但终止在不同的的核苷酸上，可通过高分辨率变性凝胶电泳分离大小不同的片段，凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。什么是基因组重测序（Genome Re-sequencing）全基因组重测序是对基因组序列已知的个体进行基因组测序，并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低，人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序，实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点，以及结构变异等，具有重大的科研和产业价值。什么是de novo测序 de novo测序也称为从头测序：其不需要任何现有的序列资料就可以对某个物种进行测序，利用生物信息学分析手段对序列进行拼接，组装，从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展，基因组测序所需的成本和时间较传统技术都大大降低，大规模基因组测序渐入佳境，基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力，可以高效、低成本地测定并分析所有生物的基因组序列。什么是外显子测序（whole exon sequencing）外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低，对研究已知基因的SNP、Indel等具有较大的优势，但无法研究基因组结构变异如染色体断裂重组等。

《生物信息学》上机作业

《生物信息学》上机作业题目：对人血红蛋白（HBA1）编码基因序列的生物信息分析

目录引言 .............................................................................................................................................. - 1 -1 正文......................................................................................................................................... - 2 - 1.1 NCBI上对相关核苷酸序列的查找............................................................................ - 2 - 1.2 BLAST运行及其结果.................................................................................................. - 2 - 1.3 BLASTX运行及其结果................................................................................................ - 6 - 2 其他软件的运行及其结果..................................................................................................... - 8 - 2.1 Clustal W运行及其结果 ............................................................................................. - 9 - 2.2 MEGA4.0运行及其结果............................................................................................. - 10 -结论 ............................................................................................................................................ - 10 -

蛋白质组学生物信息学分析介绍

生物信息学分析FAQ CHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION (3) 什么是GO？ (3) GO和KEGG注释之前，为什么要先进行序列比对（BLAST）？ (3) GO注释的意义？ (3) GO和GOslim的区别 (4) 为什么有些蛋白没有GO注释信息？ (4) 为什么GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致？ (4) 什么是差异蛋白的功能富集分析&WHY？ (4) GO注释结果文件解析 (5) Sheet TopBlastHits (5) Sheet protein2GO/protein2GOslim (5) Sheet BP/MF/CC (6) Sheet Level2_BP/Level2_MF/Level2_CC (6) CHAPTER TWO ABOUT KEGG PATHWAY ANNOTATION (7) WHY KEGG pathway annotation? (7) KEGG通路注释的方法&流程？ (7) KEGG通路注释的意义？ (7) 为什么有些蛋白没有KEGG通路注释信息？ (8) 什么是差异蛋白的通路富集分析&WHY？ (8) KEGG注释结果文件解析 (8) Sheet query2map (8) Sheet map2query (9) Sheet TopMapStat (9) CHAPTER THREE ABOUT FEATURE SELECTION & CLUSTERING (10) WHY Feature Selection? (10)

聚类分析（Clustering） (10) 聚类结果文件解析 (10) CHAPTER FOUR ABOUT PROTEIN-PROTEIN INTERACTION NETWORK (12) 蛋白质相互作用网络分析的意义 (12) 蛋白质相互作用 VS生物学通路？ (12) 蛋白质相互作用网络分析结果文件解析 (12)

生物信息学试题整理

UTR的含义是（B ） A.编码区 B. 非编码区 C. motif的含义是（D ）。 A.基序 B. 跨叠克隆群 C. algorithm 的含义是（B ）。 A.登录号 B. 算法 C. RGR^ （D ）。 A.在线人类孟德尔遗传数据 D.水稻基因组计划下列Fasta格式正确的是（B）低复杂度区域 D. 幵放阅读框碱基对 D. 结构域比对 D. 类推 B. 国家核酸数据库 C. 人类基因组计划 A. seql: agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta B. >seq1 agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta C. seq1:agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta D. >seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta 如果我们试图做蛋白质亚细胞定位分析，应使用（D） A. NDB 数据库 B. PDB 数据库 C. GenBank 数据库 D. SWISS-PROT 数

据库 Bioinformatics 的含义是（A ）。 A. 生物信息学 B. 基因组学 C. 蛋白质组学 D. 表观遗传学 Gen Bank中分类码PLN表示是（D ）。 A.哺乳类序列 B. 细菌序列 C.噬菌体序列 D. 植物、真菌和藻类序列 ortholog 的含义是（A）0 A.直系同源 B.旁系同源 C.直接进化 D.间接进化从cDNA文库中获得的短序列是（D ）o A. STS B. UTR C. CDS D. EST con tig的含义是（B ）o A.基序 B. 跨叠克隆群 C. 碱基对 D. 结构域 TAIR （AtDB）数据库是（C）o A.线虫基因组 B. 果蝇基因组 C. 拟南芥数据库 D. 大肠杆菌基因组ORF的含义是（D ）o A.调控区 B. 非编码区 C.低复杂度区域 D. 幵放阅读框

医学信息学基本概念与定义-医学信息学基本概念(精)

医学信息学基本概念 J C Wyatt, J L Y Liu. 文研究生周琴译导师许培扬审摘要：本文是关于医学信息学，这门年轻的学科的术语的定义汇编。希望它对行业内的初学者与职业工作者能有所益处。关键词：医学信息学词汇表医学信息学主要研究与应用方法去改善对病人信息、临床知识、人口信息和其它与病人康复与公共卫生有关的信息的管理。它是一门伴随19世纪40年代数字计算机的出现而产生的年轻学科。用于医学的机械性计算起源于更早的年代，在19世纪，赫尔曼霍列瑞斯的“打卡数字处理系统”即开始用于美国人口普查，随后又被用于公共卫生与流行病学调查1。此例反应了医学信息学的多学科性，它与各个不同的领域都有相关性，包含临床医学、公共卫生学（如流行病学与卫生服务研究）、认知科学、计算和信息学。由于医学信息学工作者的领域多样，新来者很容易混淆行业的专业术语。因此，对想更多了解医学信息学的人做一个医学信息学的基本概念的介绍是有用的。近几年，关于此学科的各种不同分支开始出现，包括公共卫生信息学、用户卫生信息学与临床信息学。对于医学信息学与它的分支学科是否是不同的学科的讨论，Shortliffe 和Ozbolt认为：“信息学的基础是一系列可重复利用与广泛应用的方法，它对所有的卫生学学科都适用，并且‘医学信息学’对于一个综合性核心学科是一个有用的概念，所有的学生都应该学习，不管这些学生的医学专业方向。”2 3以下对医学信息学的分支学科的定义反应了这一理念。挑选医学信息学术语的标准，在挑选某术语时采用了以下一条或者多条原则： ●对流行病学家和公共卫生专家而言是新出现的词语。 ●一个有众所周知含义的术语，被用于医学信息学领域的具体方面。 ●与流行病学或公共卫生相关的概念。 ●对理解医学信息学必不可少的概念。 ●一个存在时间较长，而不是过渡性的专业术语。 ●在对此术语的意义与使用上有普遍的共识。

生物信息学作业

CDK2基因和蛋白质序列的生物信息学分析姓名：学号：专业： 1前言细胞周期蛋白依赖激酶2(cyclin-dependent kinase 2,CDK2)，又名细胞分裂激酶2(cell division kinase 2)或p33蛋白激酶(p33 protein kinase)，其基因定位于人类基因组的12号染色体上的q13染色带上。CDK2基因全长6013bp，这部分中有7个外显子和6个内含子，7个外显子的长度依次为353bp、78bp、121bp、171bp、102bp、204bp、1264bp(可依次记为外显子1-7)。在翻译过程中，该基因转录成的mRNA的外显子1的前137bp和外显子7的后1159bp不进行翻译，属于调控序列。mRNA上只有中间的部分编码蛋白质。 CDK2基因可以转录为两种mRNA。其中，变体1长度为2325bp，编码298个氨基酸；变体2长度为2223bp，编码264个氨基酸。这两种蛋白质为CDK2的同型蛋白，功能相同，具有调控细胞分裂的功能，主要在G1期到S期和S期到G2期这两个阶段起作用。CDK2广泛分布在生物体的各种细胞的胞质溶胶和细胞核质中，但只在进行分裂的细胞中行使功能，这是因为CDK2只有与不同的细胞周期蛋白(cyclin)结合后才具有活性。CDK2可以与细胞周期蛋白A、B1、B3、E等结合后，参与细胞周期调控。由于CDK2在细胞内的数量变化有可能导致细胞周期异常而产生癌症，故CDK2基因可以被看作癌基因，其活性和表达量可以作为衡量癌症的指标。CDK2与周期蛋白E的复合体不仅能直接参与中心体复制的起始调控，还能与类Rb蛋白p107或转录因子E2F结合，促进细胞从G1期向S期转化或调控DNA复制有关的基因转录。而CDK2与周期蛋白A的复合体可以增强DNA复制因子RF-A的活性。在CDK2分子中，被称为T环的氨基酸环阻断了活性部位，妨碍激酶履行它的酶功能，而且活性部位的氨基酸形成一种难于为蛋白质结合的形状。CDK2与周期蛋白结合时，周期蛋白将T环转出2nm以上，又将CDK2中的PSTAIRE螺旋部分转了, 并把活性部位氨基酸变成能与底物蛋白结合的正确构象。CDK2的活性不仅与周期蛋白有关，还与其上的Thr-15、Tyr-15、Thr-160三个位点是否磷酸化有关。一般情况下，与周期蛋白结合的CDK2的上述三个位点被Wee/Mik1和CAK激酶磷酸化，但此时复合体还没有活性，只有当Cdc25c将Thr-15、Tyr-15两个位点去磷酸化后，复合体才有活性。细胞中存在多种因子对CDK2进行修饰调节，此外还存在对其活性起负性调控的蛋白质，即CDK激酶抑制物，例如p21CIP/WAF1、p27KIP2等。前面提到，CDK2基因转录的产物有两种。这两种mRNA的不同之处在于变体1由全部7个外显子组成，而变体2缺失外显子5，由剩余的6个外显子组成。这样翻译成的两种同型蛋白的长度就相差34个氨基酸。 2 材料和方法： 2.1序列数据来源采用蛋白质名称对NCBI非冗余蛋白质数据库进行检索，CDK2蛋白的记录有1013个。而采用基因名称对NCBI非冗余核酸数据库进行检索，CDK2蛋白的记录有680个。采用人(Homo sapiens)的CDK2蛋白序列进行BLAST搜索。 2.2序列分析方法

生物信息学分析

生物信息学分析生物信息学难吗？经常有人向我问这个问题，这有什么疑问吗？如果不难学，根本就不用问我这个问题。也无需投入那么多时间精力就能掌握，更无需花费三四千元参加线下的培训班，也不会月薪过万。所以，答案很肯定，道理很简单：生物信息比较难学。为什么难学？我总结里几点原因。首先，这是一个交叉学科，要求你既要有生物学的基础，又要有很强的计算机操作技能。这个就有点困难了。因为只是一个生物学就包括多个门类，有很多东西需要去学习，还需要学习计算机知识。很多人一门内容还没学明白，现在还得在加一门，这就属于祸不单行，雪上加霜，屋漏偏逢连夜雨。因此，这种既懂生物学，又懂计算机的复合型人才就比较短缺。而且，生物信息本质上属于数据挖掘，除了生物，计算机，到后面还需要极强的统计学知识才能做好数据分析，所以，还得加上统计学，也就是生物信息学=生物学+计算机科学+统计学三门学科的知识，这也就是为什么生物信息学比较难学。第二个原因，生物信息本身就包括很多内容，比如DNA的分析，RNA的分析，甲基化的分析，蛋白质的分析等方面，每一

门类又完全不同，从物种方面来分，动物，植物，微生物，医学等有差别很大，很难有一劳永逸，放之四海而皆准的分析方法。第三个原因就是生物信息是一门快速发展的学习，会出现很多新的测序方法，比如sanger测序，illumina，BGIseq，PacBio，IonTorrent，Nanopore等，每一个平台技术原理完全不同，因此数据特点也完全不同，这就需要针对每一个平台的数据做专门的学习，而且每个平台又在不断的推陈出现，可能今天你刚开发好的方法，产品升级了，都得推倒重来。还有很多新的技术，例如现在比较火的单细胞测序，Hi-C测序，Bionano测序等等内容，以后还出现更多新技术新方法，足够让你活到老，学到老。当然，你先要能活到老，吾生也有涯，而知也无涯。以有涯随无涯，殆已！高风险才有高收益当然啦，虽然你已经看到学习生物信息肯定是不容易了，门槛很高，但是呢，门槛高也有很多好处，就是挡住了一部分人，当你学会了，迈过门槛，你的身价就提高了。如果人人都很容易掌握了，那么也就不值钱了。所以，生物信息，前途是光明的，道路是曲折的。