蛋白质结构预测技术简介
简介
蛋白质结构的解析对其功能的理解至关重要。然而,由于技术手段的限制,利用实验方法(主要为X-ray,NMR)解析蛋白质结构投入大、周期长、风险大。对于某些膜蛋白,只利用现有技术条件,其结构甚至无法解析。另一方面,随着分子生物学技术的成熟及高通量测序技术的发展,越来越多的基因序列可以轻松被找到。这造成了现代蛋白质科学中一个奇怪的现象:蛋白质序列数据的累积量及积累速度远远超过蛋白质结构。这种序列与结构间不平衡的现象极大地限制了我们对蛋白质功能及其相关作用机理的理解。所以我们需要一种能够简单、快速且相对准确的技术来确定蛋白质的空间结构。
蛋白质建模技术可以很好的解决上面的问题。该方法利用信息技术的手段,可以直接从蛋白的一级结构(氨基酸序列)预测蛋白质的高级结构(主要为三级结构)。根据最新一届国际建模大赛(CASP)的分类,目前主要的蛋白质建模方法包括两种:基于模板的建模(Template-based Modeling)和自由建模(Free Modeling)。前者又包括两种方法:同源建模法(Homology Modeling)和“穿线法”(Threading)。后者主要以从头计算法(ab initio)为主。所有的建模方法中,以同源建模法(Homology Modeling)使用最为广泛,预测结果的准确性最大。
同源建模的理论基础为蛋白质三级结构的保守性远远超过一级序列的保守性。因此,人们可以通过使用一个或多个已知结构的蛋白(模板蛋白,template)来构建未知结构蛋白(目标蛋白,target)的空间结构。其主要的步骤包括:
1.搜索用于建模的template(s)
2.将target与templates进行比较
3.将步骤(2)中的比较信息用于建模
Discovery Studio为用户提供了一整套利用Homology Modeling方法自动预测蛋白质空间结构的工具。用户只需要提供蛋白质的氨基酸序列就可以轻松完成模型构建及模型可信度评估的工作。DS的Homology Modeling主要基于MODELER程序。目前MODELER已成为使用最为广泛,预测最为准确的同源建模工具之一。其主要的建模步骤包括:
1.使用序列相似性工具BLAST或PSI-BLAST搜寻目标序列的模板
2.使用结构比对方法将模板进行比对,叠合
3.使用序列比对方法将目标序列与模板结构的序列进行比对
4.使用MODELLER产生目标序列的模型
5.模型的评估
本教程中以一个胞外淀粉酶的模型构建过程为例子,展示如何使用DS为该淀粉酶自动构建空间结构,并对所构建的模型进行评估,帮助大家获得Homology Modeling最直观的结果。
识别模板,,比对模板
1识别模板
本教程使用BLAST来搜索templates。进行BLAST搜索时,数据库可以使用Protein Data Bank(PDB)数据库也可以用PDB_nr95(PDB非冗余结构数据库)。为缩短搜索时间,本文使用PDB_nr95数据库来寻找模板。
1.1载入序列
从Files Explorer, 打开Samples | Tutorials | Protein Modeling | P41131.fasta.
数据库,,寻找模板
1.2BALST PDB_nr95数据库
1.2.1 选择target
,双击BLAST Search (DS Server).
文件夹,
在Protocols Explorer, 展开Sequence Analysis 文件夹
在the Parameters Explorer, 点击the Input Sequence parameter ,选择P41131:P41131 Input Sequence中的文件名为sequence window的名字(P41131)与该窗口中的序列名称(P41131)的名字组合。
1.2.2选择BLAST数据库
Input Database选择PDB_nr95
注意:PDB_nr95序列数据库已经安装在DS server上。如果需要BAST其它数据库,用户注意
需要另外安装相应的数据库。
注意:如果改动默认参数或使用不同的(或升级版)的PDB_nr95数据库,BLAST结果可注意
能与本教程的结果不一致。
1.2.3运行Protocol
,等待计算完成.
在Protocols toolbar, 点击运行
运行,
计算完成后,会显示一个“Job Completed”的对话框。点击OK。
1.2.4 查看计算结果
——“ Blast Search DS Server”
在Jobs Explorer中, 双击job栏中完成的计算
栏中完成的计算——
这将打开一个Html的窗口,里面包含Reprot.htm文件(该文件为比对结果报告)
Html 窗口中, Output Files部分, 点击the View Results .
这将打开BLAST搜索找到的序列
注意:由于没有设置结果的保存路径,BLAST的结果保存于默认文件夹My Documents\Discovery Studio Client\Results\BLASTSearchDSServer_
在P41131 - Blast 窗口, 点击该窗口下的Table View tab。
Table View显示了命中的序列。每行表示一条命中的氨基酸序列。在DS中,灰色的cell不能被编辑。
注意:命中的序列按照E值(序列比对的可行度)进行降序排序。E值最低的序列,结果最可靠,排在第一行。
点击 Map View tab.
Map View 将命中结果都显示在一张图中,每条线表示一条序列。每根横条根据打分不同而配以不同的颜色(分数超过400为红色,最佳的命中结果)。本例中的target P41131放在窗口的最上方,为一条长度为443个氨基酸的直线。
用户可以将鼠标放置在某一个命中序列上,如下信息将会显示(如上图):
序列数据库的描述
序列的编号
目标序列中的起始氨基酸位置
数据库中命中序列的起始氨基酸位置
命中序列的长度 命中序列的分数
滑动鼠标的中间键可以滑动鼠标的中间键可以放放大(缩小缩小))Map View 中的结果
这时用户可以看到窗口顶端target 的相应氨基酸。可能需要放大几次才能看见具体的氨基酸类型。
注意注意:Map view 中命中序列的顺寻并没有改变。
2 将模板进行比对
为了构建target 的3D 结构,我们需要挑选一个或多个合适的同源模板(templates )。一
个理想的template 需要涵盖整个target 的长度,具有较高的序列等同性(Sequence identity ),
并且E 值要够小(< 1×10-5)
。根据上述原则,我们选用前4个命中序列作为template 。 一般而言,若有多条模板(模板之间相似度不能太高)与target 具有相似的同源性,那么我们将使用多模板来构建同源模型。这些模板在核心区域一般都高度保守,而在一些loop 区的构象上则有所不同。Target 可以与其中某个模板在某loop 区匹配,而与另一个模板在另一loop 区匹配。因此,使用多模板可使建模过程中模型的每个部分都能找到最合适的模板。 2.1 载入模板结构及其与target 的比对结果
点击 P41131 - Blast Window.
点击 Map View tab, 按住SHIFT 键同时点击前四个命中序列1G94_A, 3DHP_A, 1HX0_A, and 1JAE_A ,将其选中
点击点击右键右键右键,,选择“Load Selected Structures”
DS 将打开中一个为新的3D 窗口(记为1G94)。该窗口中包含了上述四个模板结构的A 链以及结构中的水分子和配体分子。
2.2 模板结构间的结构比对
序列保守性和结构保守性通常来说有所不同,所以序列比对的结果常常与结构比对的结果不同。对于同源建模来说,在模板与target 进行比对之前,最好能将模板基于其结构的相似性先进行一次比对。
进行基于结构的序列比对之前,需要先调用每个模板的序列。
在菜单栏中在菜单栏中,,点击Sequence | Show Sequence
DS 将打开一个名为1G94的新的序列窗口。该窗口中的序列没有经过任何的序列比对。
在Protocols Explorer 中, 开展Protein Modeling 文件夹,双击 Align Structures (MODELER).
在参数Parameters Explorer, 单击Input Sequence Alignment 并选择 1G94.
展开 Input Sequence Alignment (点击前面的“+”号),可以观察到四个蛋白质结构1G94A, 3DHPA, 1HX0A, and 1JAEA 自动填充到Input Protein Structures 里面.
在 Protocols toolbar 中, 点击
运行运行,,等待计算完成
等待结果计算完成之前等待结果计算完成之前,,可以在菜单栏可以在菜单栏里里选中Windows | Close All 关闭所有的窗口关闭所有的窗口,,若提示是否是否需要保存结果需要保存结果需要保存结果时时,选择否选择否。。
计算完成后计算完成后,,在Jobs Explorer 中, 双击“Align Structure (MODELER)”.
DS 将比对的结果文件显示在一个新的Html 窗口里。
2.4 查看结构查看结构比对结果比对结果
在该Html 窗口中, 滚动页面至Summary 部分部分,,
可以查看每对结构之间两两比对时的主链RMSD 值以及比对的氨基酸数量值以及比对的氨基酸数量。。3DHPA 与1HX0A 非常相似非常相似,,两者之间比对了496个氨基酸基酸,,RMSD 值小于0.5 ?.。1G94A and 1JAEA 与其它蛋白则不那么相似与其它蛋白则不那么相似。。
点击点击该窗口中的该窗口中的View Results 。
这将打开两个新的窗口。一个是名为1G94的序列窗口,里面有各模板间的序列比对结果。另一个窗口是名为1G94的3D 窗口,叠合后的模板分子都在该窗口中。所有叠合的结构都只以C-α stick 显示出来。观察这些结构的叠合找出它们不同的地方。
关闭第一个名为Report的窗口
3将目标序列与模板比对
同源建模中,根据目标序列与模板的相似性可以选用不同的比对方法将目标序列与模板序列进行比对:
当模板与目标序列的同源性很高时(尤其序列等同性超过60%),BLAST可以清晰地识别正确的模板,target与模板序列间使用简单的多序列比对就能获得很好的比
对效果
当序列相似性不高但仍高于“twilight”区(序列等同性为25%~60%)时,虽然BLAST 还是能够够识别出正确的模板。但是,简单的多序列比对已不再能够产生正确的比
对结果。我们可以通过生成序列profile的方法来改进序列比对结果。这可能是最
常见的工作流程。
若序列相似性低于25%,必须使用PSI-BLAST来识别模板,而且必须使用序列
profile来比对target和template。
由于本教程中的target与template的序列等同性为25%~60%之间(最好的template为47%),所以采用第二种比对方法。一个好的序列profile必须包含了大量非冗余的同源序列比对结果。
本教程中,我们分三步将target与模板进行比对。
1利用BLAST搜索UniRef90数据库寻找target的同源序列
2利用多重序列比对将target与命中序列进行比对,产生一个序列profile
3将步骤2中产生的sequence profile与模板比对所产生的profile再进行比对重新载入
3.1重新
载入target
从Files Explorer, 打开Samples | Tutorials | Protein Modeling | P41131.fasta.
序列P41131在sequence窗口中打开。
现在,我们需要用BLAST Search(DS Server)Protocol来搜索UniRef90数据库。
3.2设置Protocol参数并运行Protocol
,双击BLAST Search (DS Server)
文件夹,
在Protocols Explorer中, 展开Sequence Analysis 文件夹
protocol. 若提示关闭已经打开的protocol时,点击Yes。
点击Input Database ,选择UniRef90.
注意:用户需要提前安装UniRef90数据库。
将 E-value Cutoff 更改为 0.0001, 将 Maximum Hits 更改为500.
在 Protocols toolbar 中, 点击 运行运行,,等待计算完成等待计算完成。。
计算完成后计算完成后,,在Jobs Explorer 中,双击完成的工作双击完成的工作。。
DS 将打开一个名为Report.htm 文件显示在一个新的Html 窗口里。
3.3 查看结果
在该Html 窗口中窗口中,,Output 文件部分文件部分,,点击P41131_profile.pir
这将打开一个新的序列窗口,里面是BLAST 搜索UniRef90数据库的结果。
3.4 将target 与BLAST 命中序列重新进行多序列比对
在Protocols Explorer 中, 展开Sequence Analysis 文件夹文件夹,,双击Align Multiple Sequences protocol.
点击 Input Sequence Set parameter, 选择P41131_profile.
点击 运行运行,,等待计算完成等待计算完成。。
计算过程中计算过程中,,在菜单栏中选择Window | Close All 关闭所有的窗口关闭所有的窗口。。若提示是否保存时若提示是否保存时,,选择否择否。。
计算完成后,在Jobs Explorer 中,双击双击刚计算完的工作刚计算完的工作刚计算完的工作。。
这将打开一个Html 的窗口,里面为比对的结果Report.htm 文件
3.5 将本轮序列比对的profile 与之前模板结构比对的profile 进行比对
在Html Window 中, Output Files 部分, 点击P41131_profile.bsml 打开序列比对结果.
在Jobs Explorer, 双击之前已经完成的Align Structure (MODELER) 计算打开Report.htm 文件.
在Html Window, Output Files 部分, 点击 View Results 打开序列比对结果和叠合后的结构。
在Protocols Explorer, 展开 Sequence Analysis 文件文件,,双击 Align Multiple Sequences protocol. 若提示是否重新打开该protocol 时,选择yes 。
点击 Alignment Type 选择 Align Two Profiles.
点击 Input Sequence Alignment 选择 P41131_profile.
点击Input Sequence Set parameter 选择1G94.
点击,进行运算进行运算。。 3.6 查看profile-profile 比对结果
关闭关闭除结构叠合外所有的窗口除结构叠合外所有的窗口除结构叠合外所有的窗口。。
计算完成后, 在 Jobs Explorer 中, 双击双击刚完成的计算刚完成的计算刚完成的计算,,DS 将打开Report.htm 文件.
在Html Window 中, Output Files 部分部分,, 双击P41131_profile-1G94.bsml 打开序列比对结
果.
在Html Window 中, Output Files 部分部分,, 双击P41131_profile-Sequence.bsml 打开序列比对结果.
该序列比对结果为两个profile (一个为基于sequence 比对结果的profile ——P41131_profile ,另一个为基于structure 比对结果的profile ——1G94)的比对结果。
4 使用MODELER 构建目标序列的3D 模型
在本小节,我们将使用上小节产生的比对结果构建目标序列P41131的3D 模型,并从初始模型集中挑选出1个最合理的初始模型。
4.1 构建模型
在Protocols Explorer 中, 展开 Protein Modeling 文件文件,, 双击 Build Homology Models.
在Parameters Explorer 中, 点击Input Sequence Alignment ,选择1G94-P41131_profile.
展开Input Sequence Alignment. 点击Input Model Sequence ,选择 P41131.
点击Input Template Structures ,选择所有4个模板结1G94A, 3DHPA, 1HX0A and 1JAEA.
点击Optimization Level ,选择low.
将“Optimization Level ”由默认值改为Low ,可以加快计算速度,但是产生的模型的精度下降。 在 Protocols toolbar 中, 点击 运行运行,,等待计算完成等待计算完成。。
计算结束后计算结束后,,双击 Jobs Explorer 中刚完成的计算刚完成的计算打开打开Report.htm 文件
4.2 根据PDF 值挑选最优模型
在该结果窗口中在该结果窗口中,,查看summary 部分部分。。
建模过程中,DS MODELER 首先会提取模板(template )的几何特性,然后使用PDF
(probability density function)函数来定义蛋白结构中诸如键长、键角、二面角等几何特性。接着它会对PDF函数施加一定的约束条件,并以此来构建target的3D结构。所以PDF的函数值可以直接反应所构建模型的好坏。一般,PDF Total Energy越小,表明模型能更好的满足所提取的同源约束条件,模型的可信度越大。
本教程中P41131.B99990002的PDF Total Energy分值最低。
部分,,点击P41131.B99990002.dsv
Report.htm文件, Output部分
4.3 根据DOPE值挑选最优模型
DOPE是一个基于原子统计势能的程序,主要用于模型评估。它的分数可以认为是衡量同一分子不同构象可信度的标准,能够帮助选择预测结构的最优模型。分数越低,模型认为越可靠。
文件窗口,,Summary部分
Report.htm 文件窗口
本教程中P41131.B99990003的Dope分值最低。
部分,,点击P41131.B99990003.dsv
Report.htm文件, Output部分
注意:本教程中,DOPE score挑选的最优模型与PDF Total Energy挑选的最优模型不一致。这时,可以使用其他的模型评估软件进行进一步的评估分析以选取较合理的初始模型。当没有其他模型评估软件可以使用时,也可以粗略的选取PDF Total Energy最低的模型作为最合理的初始模型。
本教程中选用PDF Total Energy最低的初始模型P41131.B99990002作为后续模型评估的输入文件。
5模型评估
模型构建完成后,一般需要对其进行评估。DS为用户提供了多种模型评估方式。主要包括:Ramachandran plot 和Profile-3D。
在使用下列模型评估程序时,关闭除P41131.B99990002窗口外所有的窗口。如提示时候保存时,选择否。
5.1 使用Ramanchandran Plot评估模型
Ramachandran plot用于阐述蛋白质或肽立体结构中肽键内α碳原子和羰基碳原子间的键的旋转度(psi)对α碳原子和氮原子间的键的旋转度(phi),主要用来指明蛋白质或肽类中氨基酸的允许和不允许的构象(如下图)。
通过对已知晶体结构的统计分析,人们可确定氨基酸在Ramachandran plot中经常出现的区
域。使用该图,用户可以确定结构中每个氨基酸的构象是否正确。
本小节以P41131.B99990002.dsv为例,显示如何调用Ramachandran plot。
Chart菜单, 选择Ramachandran plot
蓝色区域为“最适区”,该区域含有的氨基酸个数越多,结构越可信;紫色区域为“允许区”;其它区域的点(红色点)为psi-phi构象不合理的氨基酸,很可能是建模的错误区,需要优化。
5.2使用Profile-3D评估模型
Profile-3D是UCLA的David Eisenberg教授开发的一种基于“穿线”(threading)法的模型评估程序。该方法采用3D-1D的打分函数来检测所构建模型与自身氨基酸序列的匹配度关系。分数越高,说明同源模型的可信度越大。
文件夹,,双击Verify Protein (Profiles-3D). Protocols Explorer, Protein Modeling文件夹
In the Parameters Explorer, 点击Input Protein Molecules,选择P41131 B99990002:P41131.B99990002
,等待计算完成
。
等待计算完成。
运行,
在Protocols toolbar中, 点击运行
Jobs Explorer中, 双击Verify Protein (Profiles-3D) job 打开Report.htm 文件.
关闭P41131.99990002 窗口. 提示保存时选择不保存.
在Html 窗口中, Output Files部分,点击P41131.B99990002.dsv.
这将打开一个名称为P4113.B99990002的新的Molecule窗口。里面的结构用不同宽度的solid ribbon显示,并根据Verify score(得分越高,结构也好)着色。颜色的范围由蓝到白再到红
色。蓝色对应高分区,白色为平均分数区域,红色为低分区。Ribbon的宽度则与Verify score 的趋势相反(结构越差,ribbon越宽)。
在Data Table View中, 点击Molecule tab,滚动table至the Verify Expected High Score, Verify Expected Low Score, 以及Verify Score .
如果模型的Verify Score高于Verify Expected High Score,则模型的质量较高。V erify Score越接近V erify Expected High Score,模型的质量越好。
点击AminoAcid tab,滚动至table的尾列Verify Score.
点击Verify Score 的题标选择整列.
从menu 中选择Chart | Line Plot.
这将打开一个新的图表,图表中每个氨基酸的score都显示出来。
点击 P41131.B99990002 - Line Plot 窗口使之激活.
选择选择低分区低分区低分区((低于0分)氨基酸
在该图中选中的氨基酸会在分子结构的窗口中会被标示出来,让你可以便捷的看到低分的区域。Profeile-3D 图中选中的低分点(黄色)对应的氨基酸在分子窗口中直接显示出来(黄色)
徐涛
2009-08-13
膜蛋白模拟简介
膜蛋白在生物体内一直扮演着十分重要的角色。膜蛋白,尤其是G蛋白偶联受体(GPCR)在药物研发中起着极为关键的作用。据统计,目前有近40%的上市药物其作用靶标是膜蛋白。在药物设计中,如果我们能够充分考虑膜蛋白的特殊性,灵活合理的设计药物,将大大提高设计的成功率。
在本教程中,我们将使用DS中现有的Protocol和Tools,以β-2肾上腺素受体为模板,来构建β-1-肾上腺素受体的空间结构并进行加膜处理。
本教程包括如下几个任务:
1.输入β-1-肾上腺素受体的序列
2.预测蛋白质的跨膜区并与β-2-受体进行序列比对
3.构建同源模型
4.给模型加入隐性生物膜
5.调整生物膜的位置
定位,,打开输入文件
1 定位
人β-1-肾上腺受体的序列文件放在sample文件夹中。
从Files Explorer, 打开Samples | Tutorials | Protein Modeling | ADRB1_HUMAN.fasta文件这将在一个名称为ADRB1_HUMAN新的Sequence窗口中打开人β-1-肾上腺素受体的序列。
构建同源建模的第一步是识别合适的模板。如果高序列等同性的模板存在的话,可以用简单的BLAST搜索该模板。在膜蛋白的例子中,X-ray解析的晶体结构非常有限,所以本教程加入该步骤。关于模板识别的更多信息,可以查看“Creating homology models from a protein sequece”教程。
本教程中,我们使用最近解析出来的β-2肾上腺素受体的晶体结构(PDB code:2rh1)作为同源建模的模板。
从Files Explorer, 打开Samples | Tutorials | Protein Modeling | 2rh1.pdb文件
这将新打开一个名为2rh1的Molecule窗口。
注意:使用BLAST搜索PDB_nr95数据库时,可以找到一个更好的用于同源建模的模板,
火鸡β-1-肾上腺素受体。该晶体结构的序列与目标序列的序列一致性为70.5%,这优于本教程所使用的模板2rh1.但是,本教程使用2rh1作为建模模板的目的在于向用户展示一些DS 中与序列高等同性不相关的功能。
建模的下一步为:将目标序列与模板序列进行比对。首先需要将两者的序列放在同一Sequence窗口中。
菜单栏中,选择Sequence | Show Sequence
点击新打开的2rh1的序列窗口,按住Ctrl+A选中该序列,点击鼠标右键,选择copy
点击ADRB1_HUMAN - Sequence Window使其激活
在窗口里右击鼠标,选择paste
2rh1的序列将被插入到ADRB1_HUMAN的Sequence窗口里。
注意:此时两条序列并未进行比对,Sequence Identity和Sequence Similarity 打分(~7.0%,~27.4%)都非常低。
关闭2rh1序列窗口。
预测蛋白质的跨膜区
Align Sequence Protocol允许使用二级结构信息来提高比对的精度。二级结构预测方法,比如DSC法,主要基于球蛋白的溶剂暴露模式来定义。然而,膜蛋白表面很大部分都暴露于生物膜内部的疏水环境里,这使得DSC方法(或其它预测二级结构的方法)变得不可信。在本教程中,我们使用TransMem(一个专门用于预测膜蛋白跨膜螺旋的方法)来预测目标蛋白的跨膜区。
Tools Explorer, 选择Protein Modeling.
这将打开一组Protein Modeling的工具,里面包含格式各样关于Protein Modeling的工具。打开Analyze and Edit Transmembrane Proteins tool 面板.
点击Predict Transmembrane Helices.
ADRB1_HUMAN的Sequence窗口中将加入相应的二级结构图。红色横条表示α螺旋。蓝色箭头表示β折叠。
注意预测2rh1的跨膜螺旋时,有一个无法预测螺旋的区域(ASN1002—TYR1161)。该区域对应的是一个为方便结晶与β-2肾上腺素受体融合的溶菌酶的序列。标准的二级结构预测方法可以预测出该区域的二级结构。如果将二级结构预测结果用于指导序列比对,如此大的序列插入使比对的结果变得混淆不堪。
将目标序列与模板进行比对
Protocols Explorer, Sequence Analysis文件夹, 双击Align Multiple Sequences. Parameters Explorer, 将Alignment Type 设置为Align Sequences.
点击Input Sequence Set parameter选择ADRB1_HUMAN.
选择Use Secondary Structures parameter 并选择TRANSMEM.
,等待计算完成.
运行,
在Protocols toolbar, 点击运行
计算结束后会显示“job completed”的窗口。
关闭ADRB_HUMAN - Sequence 窗口.
Jobs Explorer, 双击刚完成的计算.
这将打开一个新的Html窗口,里面有Report.htm文件。
Html 窗口中, Output Files部分, 点击ADRB1_HUMAN.bsml.
这将打开一个名为ADRB1_HUMAN的新Sequence窗口。该窗口显示两个序列之间的比对结果。
Sequence Identity和Sequence Similarity scores(~41.9%,~52.9%)现在都变高了。同样,我们也发现有更多的氨基酸被涂蓝,表示这些区域具有很强的序列相似性。
构建同源模型
Protocols Explorer, 展开Protein Modeling 文件夹
文件夹,,双击Build Homology Models. Parameters Explorer,点击Input Sequence Alignment选择ADRB1_HUMAN.