文档库 最新最全的文档下载
当前位置:文档库 › LncRNA介绍及相关数据库及预测软件汇总 20150723

LncRNA介绍及相关数据库及预测软件汇总 20150723

LncRNA介绍及相关数据库及预测软件汇总 20150723
LncRNA介绍及相关数据库及预测软件汇总 20150723

目录

一. LncRNA简介 (2)

二、长链非编码RNA(lncRNA)靶标数据库及预测软件汇总 (2)

1. ChIPBase (2)

2. LNCipedia (2)

3. lncRNABase (2)

4. lncRNAdb (3)

5. LncRNADisease (3)

6. NONCODE (3)

7. NRED (3)

8. Arraystar (3)

三. LncRNA调控网络数据库 (3)

1. starBase平台( (3)

2. starScan软件工具 (4)

3. DIANA-LncBase数据库 (4)

4. miRcode数据库 (4)

5. linc2GO数据库 (4)

四.lncRNA研究思路 (4)

五. LncRNA研究策略 (7)

一. LncRNA简介

LncRNA (long non-coding RNA)是一类转录本长度大于200nt的非编码RNA,最初被认为是基因组转录的“噪音”,通常伴随着mRNA协同转录,而转录水平往往低于mRNA,被当成是RNA聚合酶II转录的副产物。(lncRNA的平均长度比mRNA的3‘UTR长,而CLIP-Seq支持的lncRNA上的靶点却比3’UTR上的少了非常之多)。然而,近年来的研究表明,lncRNA能够通过多种方式发挥调控作用,参与了转录调控、组蛋白修饰、入核转运、染色体失活等过程,其转录和功能失调可能导致多种疾病的发生。它代表了基因组存在人类知之甚少的“暗物质”。鉴于其功能的重要性和多样性,越来越多的科研人员参与到对其的研究中来,引用BioTechnicques 2013最新通讯上的话:"Long non-coding RNAs (lncRNAs) are everywhere these days",各种高端杂志上发表了大量的综述性和研究性文章。目前,对lncRNA功能的发掘1%都不到,而且发现新lncRNA的数量还在急剧增长,各种lncRNA的数据库诸如noncode,LncRNA Disease等对lncRNA种类和功能进行收录和更新,而一些新的机制,比如ceRNA也在围绕lncRNA展开,可以看到,在这个领域的研究呈现出一幅如火如荼的场景。

二、长链非编码RNA(lncRNA)靶标数据库及预测软件汇总

1. ChIPBase

提供长链非编码RNA的表达图谱和转录调控的全面鉴定和注释。整合了高通量的RNA-seq鉴定的lncRNA及其表达图谱和ChIP-Seq实验技术鉴定的转录因子结合位点。网站:https://www.wendangku.net/doc/fb2496459.html,/chipbase/更新:2012年11月

2. LNCipedia

对人类的长链非编码RNA的序列和结构全面的注释。网站:

https://www.wendangku.net/doc/fb2496459.html,更新:2012年7月

3. lncRNABase

提供miRNA调控长非编码RNA(lncRNA)、假基因(pseudogene)和环状

RNA(circRNA)的互作信息和ceRNA调控网络。这些调控互作网络信息是基于

高通量的CLIP-Seq实验数据。网站:

https://www.wendangku.net/doc/fb2496459.html,/mirLncRNA.php更新:2013年11月

4. lncRNAdb

提供有生物学功能的长链非编码RNA的全面注释。这是长链非编码RNA研究领域的大牛John mattick实验室构建的网站。网站:https://www.wendangku.net/doc/fb2496459.html,/更新:2011年7月

5. LncRNADisease

提供了文献报道的疾病相关的长链非编码RNA的注释。网站:

https://www.wendangku.net/doc/fb2496459.html,/lncrnadisease更新:2012年7月

6. NONCODE

提供对长链非编码RNA的全面注释,包括表达和该团队开发的ncFANs计算机软件预测的lncRNA功能。这是非编码RNA研究的知名数据库,已经更新到第三版。网站:https://www.wendangku.net/doc/fb2496459.html,更新:2012年1月

7. NRED

提供人和小鼠的长链非编码RNA在芯片数据的表达信息。这也是John mattick 实验室构建的网站。网站:https://www.wendangku.net/doc/fb2496459.html,.au/nred/更新:2009年

8. Arraystar

三. LncRNA调控网络数据库

当前很多通过研究miRNA与lncRNA, protein(RNA结合蛋白)与lncRNA的调控关系来揭示非编码RNA的功能,热门研究之一是通过竞争性内源RNA(ceRNA)调控网络研究lncRNA的功能。相关的miRNA-lncRNA, protein-lncRNA, ceRNA 调控网络资源包括

1. starBase平台(https://www.wendangku.net/doc/fb2496459.html,/mirLncRNA.php):

构建了最全面的CLIP-Seq实验支持的miRNA和lncRNA, Protein(RNA结合蛋白)和lncRNA (包括了lncRNA,pseudogene,circRNA)的调控关系网络,构建了

ceRNA调控网络和提供了长非编码RNA功能预测工具。此外,starBase还构建了最全面的包含了14癌症类型(>6000个样本)Pan-Cancer(泛癌)表达图谱和互作网络。[Nucleic Acids Res. 2014 Jan;42:D92-7.]

2. starScan软件工具(https://www.wendangku.net/doc/fb2496459.html,/starscan/):

基于降解组测序数据预测动植物的各类小RNA(miRNA,piRNA和内源的siRNA)靶向的lncRNA,circRNA,pseudogene和mRNA的软件服务平台。目前已经整合了20个动植物的物种的降解组测序数据[Nucleic Acids Res. 2015;43:W480-6.]。

3. DIANA-LncBase数据库(www.microrna.gr/LncBase):

构建了基于单个CLIP-Seq数据和计算机预测的miRNA和lncRNA调控关系。[Nucleic Acids Res. 2013 Jan;41:D239-45.]

4. miRcode数据库(https://www.wendangku.net/doc/fb2496459.html,/mircode/):

瑞典哥德堡大学的研究人员开发的一种可以搜索的界面软件来预测miRNA的靶点,当前的版本覆盖了完整的GENECODE注释的转录组,包括10419条已经注册的lncRNA。

5. linc2GO数据库(https://www.wendangku.net/doc/fb2496459.html,/~liuke/Linc2GO/index.html):清华大学整合的lncRNA功能注释数据库,以竞争性內源RNA(ceRNA)假说为基础的人的lincRNA功能注释。

四.lncRNA研究思路

1. lncRNA筛选:

(1)通过lncRNA芯片或RNA测序等方法对多对疾病模型和对照样本组织进行lncRNA表达谱分析;

(2)通过生物信息学的方法筛选出具有表达差异的lncRNA,构建共表达网络,预测lncRNA的靶基因;

(3)通过PCR或Northern Blot技术对候选lncRNA验证,确定其表达差异。2. lncRNA确定:

通过5' RACE获取lncRNA 5'全长,3' RACE获取lncRNA3'全长,最终拿到完整的lncRNA序列

3. 细胞分子水平研究

细胞水平表达:在细胞水平进行检测表达差异。

组织分布:检测不同组织、不同阶段表达特性。

表达水平动力学变化:比较不同处理条件下,如药物处理、诱导处理下,表达水平差异。

4. 功能研究:

(1)功能获得性研究:构建lncRNA过表达载体:原则上是将全长lncRNA定向克隆到表达载体上实现lncRNA的过表达。然而有些lncRNA很大或全长尚未分离,这时将视lncRNA在基因组上的定位采取不同的研究策略。

(2)功能缺失性研究:可通过siRNA、shRNA、反义核酸等方法沉默lncRNA,干预lncRNA后检测其对疾病相关基因表达的影响和对细胞表型如增值、凋亡、侵袭、转移等的影响;

(3)采用RNA pull down、RNA-RIP(RNA Binding Protein Immunoprecipitation)、ChIRP-seq(Chromatin Isolation by RNA Purification)等方法检测与lncRNA结合的DNA、RNA、蛋白质。

(4)采用lncRNA芯片分析技术结合mRNA对lncRNA功能进行预测,研究lncRNA trans和cis作用机制。

(5)采用配体指数级富集系统进化技术(systematic evolution of ligands by exponential enrichment,SELEX),设计一种RNA配体,与癌症相关的lincRNA 结合达到抑制肿瘤细胞的生长和转移。

(6)采用快速预测RNA与蛋白质相互作用与结构域(catRAPID)在线算法来预测RNA与蛋白质的相互作用,该算法根据RNA和蛋白质的二级结构、氢键和分子作用力来评估它们之间的相互作用的倾向。

(7)采用非编码RNA沉默和定位分析(c-KLAN)技术对lncRNA进行功能缺失(Loss-of-function)研究和细胞定位,该技术是在基于核糖核酸内切酶制备的小干扰RNA(esiRNA)和荧光原位杂交(FISH)2种现有的研究方法的基础上建立起来的。

5. 表达调控:

(1)将lncRNA表达与其他领域相结合,解释lncRNA调控机理。

(2)DNA甲基化:可通过检测相应基因甲基化差异与lncRNA结合分析。(3)转录因子:研究lncRNA与转录因子的调控机制。

(4)染色质重塑:lncRNA表观调控。

6. 动物实验

(1)构建移植瘤或原位瘤模型,转移模型。

(2)导入siRNA或者lncRNA表达质粒。

(3)检测肿瘤生长曲线。

(4)通过免疫组化、RT-PCR、Western Blot等方法检测相关指标变化。

7. 小知识

RNA-RIP技术(RNA Binding Protein Immunoprecipitation)是一种高通量检测细胞内RNA与蛋白结合情况的技术,运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来,然后经过分离纯化就可以对结合在复合物上的RNA进行分析。RIP技术下游结合microarray技术被称为RIP-Chip,帮助我们更高通量地了解癌症以及其它疾病整体水平的RNA变化。

CHIRP-Seq( Chromatin Isolation by RNA Purification )是一种检测与RNA绑定

的DNA和蛋白的高通量测序方法。方法是通过设计生物素或链霉亲和素探针,把目标RNA拉下来以后,与其共同作用的DNA染色体片段就会附在到磁珠上,最后把染色体片段做高通量测序,这样会得到该RNA能够结合到在基因组的哪

些区域;如果结合物是蛋白质,可以通过将蛋白质打断成短肽再通过质谱进行鉴定,从而或者与RNA结合的蛋白质。RNA Pull down技术与此类似。

竞争性内源RNA(competing endogenous RNAs,ceRNA)假说揭示了一种RNA 间相互作用的新机制。已知microRNA可以通过结合mRNA导致基因沉默,而ceRNA可以通过竞争性地结合microRNA来调节基因表达。ceRNA可以通过应答元件(microRNA response elements,MREs)与microRNA结合从而影响microRNA导致的基因沉默,这揭示了一条RNA->microRNA调节通路的存在,具有重大生物意义。

五. LncRNA研究策略

在lncRNA作用机制普遍不清楚的情况下,通过已知作用机制的microRNA (它的sponge或ceRNA 效应)来研究它,应该是lncRNA功能研究的一个新的研究方向和研究思路。

1. 如果是想查看lncRNA在正常组织的表达图谱,你可以查看ChIPBase上构建的人类22个正常组织/细胞系(基于RNA-Seq数据)的lncRNA的表达图谱(https://www.wendangku.net/doc/fb2496459.html,/chipbase/expression.php)。通过这表达图谱你可以筛选感兴趣的组织特异或高表达的lncRNA。而且通过ChIPBase还可以查看这些组织特异表达的lncRNA是否受到特异的转录因子的调控(如:肝特异的,肌肉或心肌特异的,胚胎干细胞特异的,造血系统相关的转录因子等等)。

2. 如果是特殊生理或病理时期的组织,查看相关文献是否有人报道了,看看能否直接使用报道的结果。如果没有文章报道,可能就要通过芯片或测序方法进行研究。如果想鉴定全新的特殊生理或病理时期的lncRNA,就需要RNA-Seq测序;如果只是想在已发现的lncRNA上,鉴定特殊生理或病理时期相关的lncRNA,用芯片的方法是可以接受的(对比RNA-Seq,目前价格应该便宜一些)。

3. 要研究lncRNA的作用机制,是要把(1)lncRNA跟什么RNA结合蛋白一起行驶功能,或者(2)什么转录因子调控lncRNA等弄清楚。

(1)starBase平台上整合111个RNA结合蛋白的CLIP-Seq(比RIP-Seq更准确的技术)数据构建了protein-lncRNA, protein-sncRNA,protein-mRNA,

protein-pseudogene的互作作用图谱(转录后调控网络)。这些RNA结合蛋白包括你提及的PRC2(EZH2),还有一些非常重要的RNA结合蛋白,如:神经相关的TDP-43、Nova、FMRP等;可变剪切和转录调控相关的PTB和HnRNPC等;miRNA生物发生过程相关的LIN28、TNRC6、DGCR8等;还有HuR、Pum2、QKI、IGF2BP和FUS等等。

(2)另外研究转录因子(transcription factor,TF)如何调控lncRNA或其他非编码RNA的,ChIPBase平台整合543个你提及的ChIP-Seq数据,构建了TF-lncRNA,TF-miRNA、TF-sncRNA、TF-mRNA的转录调控网络。如癌或炎症相关基因的转录因子c-MYC、SMAD3/4、BCL1、E2F1、NFKB等;多潜能干细胞相关的OCT4、KLF4、E2F1等;肝特异的HNF4A、CEBPA、FOXA2等;肌肉或心肌特异的MEF2A、GATA4、TBX5、SRF、NKX2-5等等。

以上的功能和调控网络都是整合高通量CLIP-Seq和ChIP-Seq实验数据鉴定的,有助于大家大规模筛选生物学功能重要的lncRNA, 但还需要传统的实验方法进一步验证。

9个常用的国外英文文献数据库

9个常用的国外英文论文文献数据库 9个论文文献数据库,科研搬砖,阅读涨姿势,论文写作小帮手!先说说什么是数据库:学术科研中说的「数据库」和「文献数据库」,往往是一种的形式,这个的贮存了大量文献数据(比如论文)可以简单的理解为一个网络图书馆。 数据库中的论文往往都是耗费了大量的时间和精力整理出来的,还有很多是需要购买才可以放在互联网上的,再加上维护这个本身就耗费颇多,因此这些数据库通常不是完全免费的,你可以在上面免费查找文献,浏览摘要等简介容,但是如果你要下载文献,就要付钱。 大学因为科研和教学需要,常年要下载大量的论文材料,所以就会和数据库的经营者签订很多协议,例如包年,就是给一定量的钱,然后就可以无限制下载论文。也有按照下载的数量进行计费。那英语作为世界第一学术语言,有哪些数据库是值得大家分享的呢?1、Wiley InterScience(英文文献期刊)Wiley InterScience是John Wiely & Sons公司创建的动态在线容服务,1997年开始在网上开通。通过InterScience,Wiley公司以许可协议形式向用户提供在线访问全文容的服务。Wiley InterScience收录了360多种科学、工程技术、医疗领域及相关专业期刊、30多种大型专业

参考书、13种实验室手册的全文和500多个题目的Wiley 学术图书的全文。网址:onlinelibrary.wiley./其中被SCI 收录的核心期刊近200种。期刊具体学科划分为:Business,Finance & Management (商业、金融和管理)、Chemistry (化学)、Computer Science(计算机科学)、Earth Science (地球科学)、Education (教育学)、Engineering (工程学)、Law(法律)、Life and Medical Sciences (生命科学与医学)、Mathematics and Statistics(数学统计学)、Physics (物理)、Psychology (心理学)。 2. ICPSRICPSR全称为Inter-university Consortium for Political and Social Research,即美国校际社会科学数据共享联盟。成立于1962年,位于美国密西根大学安娜堡分校(University of Michigan- Ann Arbor, 1817-),储存超过17000种调查研究资料,如军队官兵总名册,遗嘱、遗嘱查验与税收纪录,是现在世界上最大的社会科学数据中心,拥有600多个成员机构,包括大学和各种研究中心。网址:https://www.wendangku.net/doc/fb2496459.html,/icpsrweb/landing.jsp其中400多个成员机构在美国,我国的国家人口发展研究战略课题组,大学,大学,科技大学,浸会大学也是成员之一。 3. IEEE 电气电子工程师学会IEEE(Institute of Electrical & Electronics Engineers)是电子信息领域最著名的跨国性学

蛋白质结构预测在线软件

蛋白质预测在线分析常用软件推荐 蛋白质预测分析网址集锦 物理性质预测: Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemasshttp://expaxy.hcuge.ch/sprot/peptide-mass.html TGREASE ftp://https://www.wendangku.net/doc/fb2496459.html,/pub/fasta/ SAPS http://ulrec3.unil.ch/software/SAPS_form.html 基于组成的蛋白质识别预测 AACompIdent http://expaxy.hcuge.ch ... htmlAACompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.e mbl-heidelberg.de/prs.html 二级结构和折叠类预测 nnpredict https://www.wendangku.net/doc/fb2496459.html,/~nomi/nnpredict Predictprotein http://www.embl-heidel ... protein/SOPMA http://www.ibcp.fr/predict.html SSPRED http://www.embl-heidel ... prd_info.html 特殊结构或结构预测 COILS http://ulrec3.unil.ch/ ... ILS_form.html MacStripe https://www.wendangku.net/doc/fb2496459.html,/ ... acstripe.html 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。 由NCBI检索蛋白质序列 可联网到:“http://www.ncbi.nlm.ni ... gi?db=protein”进行检索。 利用SRS系统从EMBL检索蛋白质序列 联网到:https://www.wendangku.net/doc/fb2496459.html,/”,可利用EMBL的SRS系统进行蛋白质序列的检索。 通过EMAIL进行序列检索 当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。 蛋白质基本性质分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的

9个常用的国外英文论文文献数据库

9个常用的国外英文论文文献数据库9个论文文献数据库,科研搬砖,阅读涨姿势,论文写作小帮手!先说说什么是数据库:学术科研中说的「数据库」和「文献数据库」,往往是一种网站的形式,这个网站的贮存了大量文献数据(比如论文)可以简单的理解为一个网络图书馆。 数据库中的论文往往都是耗费了大量的时间和精力整理出 来的,还有很多是需要购买版权才可以放在互联网上的,再加上维护这个网站本身就耗费颇多,因此这些数据库通常不是完全免费的,你可以在上面免费查找文献,浏览摘要等简介内容,但是如果你要下载文献,就要付钱。 大学因为科研和教学需要,常年要下载大量的论文材料,所以就会和数据库的经营者签订很多协议,例如包年,就是给一定量的钱,然后就可以无限制下载论文。也有按照下载的数量进行计费。那英语作为世界第一学术语言,有哪些数据库是值得大家分享的呢?1、Wiley InterScience(英文文献期刊)Wiley InterScience是John Wiely & Sons公司创建的动态在线内容服务,1997年开始在网上开通。通过InterScience,Wiley 学术期刊集成全文数据库(Academic Search Premier,简称ASP):包括有关生物科学、工商经济、资讯科技、通讯传播、工程、教育、艺术、文学、医药学等领域的七千多种期刊,

其中近四千种全文刊。 学术研究图书馆(Academic Research Library,简称ARL)综合参考及人文社会科学期刊论文数据库,涉及社会科学、人文科学、商业与经济、教育、历史、传播学、法律、军事、文化、科学、医学、艺术、心理学、宗教与神学、社会学等学科,收录2,300多种期刊和报纸,其中全文刊占三分之二,有图像。可检索1971年来的文摘和1986年来的全文。商业信息数据库(ABI/INFORM)ABI即为Abstracts of Business Information的缩写,世界着名商业及经济管理期刊论文数据库,收录有关财会、银行、商业、计算机、经济、能源、工程、环境、金融、国际贸易、保险、法律、管理、市场、税收、电信等主题的1,500多种商业期刊,涉及这些行业的市场、企业文化、企业案例分析、公司新闻和分析、国际贸易与投资、经济状况和预测等方面,其中全文刊超过50%,其余为文摘,有图像。 医学电子期刊全文数据库(ProQuest Medical Library)该数据库收录有220种全文期刊,文献全文以PDF格式或文本加图像格式存储;收录范围包括所有保健专业的期刊,有护理学、儿科学、神经学、药理学、心脏病学、物理治疗及其它方面。 6. BlackwellBlackwell出版公司是世界上最大的期刊出版商之一(总部设在英国伦敦的牛津),以出版国际性期刊为主,

常用数据库管理系统介绍

常用数据库管理系 统介绍 1

常见数据库管理系统简介 当前市场上比较流行的数据库管理系统产品主要是Oracle、IBM、Microsoft和Sybase、mysql等公司的产品,下面对常见的几种系统做简要的介绍: 11.4.1 Oracle Oracle数据库被认为是业界当前比较成功的关系型数据库管理系统。Oracle公司是世界第二大软件供应商,是数据库软件领域第一大厂商(大型机市场除外)。Oracle的数据库产品被认为是运行稳定、功能齐全、性能超群的贵族产品。这一方面反映了它在技术方面的领先,另一方面也反映了它在价格定位上更着重于大型的企业数据库领域。对于数据量大、事务处理繁忙、安全性要求高的企业,Oracle无疑是比较理想的选择(当然用户必须在费用方面做出充分的考虑,因为Oracle数据库在同类产品中是比较贵的)。随着Internet的普及,带动了网络经济的发展,Oracle适时的将自己的产品紧密的和网络计算结合起来,成为在Internet应用领域数据库厂商的佼佼者。Oracle数据库能够运行在UNIX、Windows等主流操作系统平台,完全支持所有的工业标准,并获得最高级别的ISO标准安全性认证。Oracle采用完全开放策略,能够使客户选择最适合的解决方案, 2

同时对开发商提供全力支持。Oracle数据库系统的特点有: ?无范式要求,可根据实际系统需求构造数据库。 ?采用标准的SQL结构化查询语言。 ?具有丰富的开发工具,覆盖开发周期的各阶段。 ?数据类型支持数字、字符、大至2GB的二进制数据,为数据库的面向对象存储提供数据支持。 ?具有第四代语言的开发工具(SQL*FORMSSQL*REPORTS、SQL*MENU等)。 ?具有字符界面和图形界面,易于开发。Oracle7以后得版本具有面向对象的开发环境CDE2。 ?经过SQL*DBA控制用户权限,提供数据保护功能,监控数据库的运行状态,调整数据缓冲区的大小。 ?分布优化查询功能。 ?具有数据透明、网络透明,支持异种网络、异构数据库系统。并行处理采用动态数据分片技术。 ?支持客户机/服务器体系结构及混合的体系结构(集中式、分布式、客户机/服务器)。 ?实现了两阶段提交、多线索查询手段。 ?支持多种系统平台(Linux、HPUX、SUNOS、OSF/1、VMS、 Windows、OS/2)。 3

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件 2010-05-08 20:40 转载自布丁布果 最终编辑布丁布果 4月18日 蛋白质数据库及蛋白质序列分析 第一节、蛋白质数据库介绍 一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库,目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释。该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护。SWISS-PROT 的序列数量呈直线增长。2、TrEMBL数据库: SWISS-PROT的数据存在一个滞后问题,即把EMBL的DNA序列准确地翻译成蛋白质序列并进行注释需要时间。一大批含有开放阅读框(ORF) 的DNA序列尚未列入SWISS-PROT。为了解决这一问题,TrEMBL(Translated EMBL) 数据库被建立了起来。TrEMBL也是一个蛋白质数据库,它包括了所有EMBL库中的蛋白质编码区序列,提供了一个非常全面的蛋白质序列数据源,但这势必导致其注释质量的下降。 3、PIR数据库: PIR数据库的数据最初是由美国国家生物医学研究基金会(National Biomedical Research Foundation, NBRF)收集的蛋白质序列,主要翻译自GenBank的DNA序列。 1988年,美国的NBRF、日本的JIPID(the Japanese International Protein Sequence Database 日本国家蛋白质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息中心)合作,共同收集和维护PIR数据库。PIR根据注释程度(质量)分为4个等级。4、 ExPASy数据库: 目前,瑞士生物信息学研究所(Swiss Institute of Bioinformatics, SIB)创建了蛋白质分析专家系统(Expert protein analysis system, ExPASy )。涵盖了上述所有的数据库。网址:https://www.wendangku.net/doc/fb2496459.html, 我国的北京大学生物信息中心(https://www.wendangku.net/doc/fb2496459.html,) 设立了ExPASy的镜像(Mirror)。 主要蛋白质序列数据库的网址 SWISS-PROT https://www.wendangku.net/doc/fb2496459.html,/sprot 或 https://www.wendangku.net/doc/fb2496459.html,/expasy_urls.html TrEMBL https://www.wendangku.net/doc/fb2496459.html,/sprot PIR https://www.wendangku.net/doc/fb2496459.html,/pirwww MIPS——Munich Information Centre for Protein Sequences http://mips.gsf.de/ JIPID——the Japanese International Protein Sequence Database 已经和PIR合并 ExPASy https://www.wendangku.net/doc/fb2496459.html, 二、蛋白质结构数据库 1、PDB数据库:

常用数据库的说明

常用数据库 1. IBM 的DB2 作为关系数据库领域的开拓者和领航人,IBM在1977年完成了System R系统的原型,1980年开始提供集成的数据库服务器—— System/38,随后是SQL/DSforVSE和VM,其初始版本与SystemR研究原型紧密相关。DB2 forMVSV1 在1983年推出。该版本的目标是提供这一新方案所承诺的简单性,数据不相关性和用户生产率。1988年DB2 for MVS 提供了强大的在线事务处理(OLTP)支持,1989 年和1993 年分不以远程工作单元和分布式工作单元实现了分布式数据库支持。最近推出的DB2 Universal Database 6.1则是通用数据库的典范,是第一个具备网上功能的多媒体关系数据库治理系统,支持包括Linux在内的一系列平台。 2. Oracle Oracle 前身叫SDL,由Larry Ellison 和另两个编程人员在1977创办,他们开发了自己的拳头产品,在市场上大量销售,1979 年,Oracle公司引入了第一个商用SQL 关系数据库治理系统。Oracle公司是最早开发关系数据库的厂商之一,其产品支持最广泛的操作系统平台。目前Oracle关系数据库产品的市场占有率名列前茅。 3. Informix

Informix在1980年成立,目的是为Unix等开放操作系统提供专业的关系型数据库产品。公司的名称Informix便是取自Information 和Unix的结合。Informix第一个真正支持SQL语言的关系数据库产品是Informix SE(StandardEng ine)。InformixSE是在当时的微机Unix环境下要紧的数据库产品。它也是第一个被移植到Linux上的商业数据库产品。 4. Sybase Sybase公司成立于1984年,公司名称“Sybase”取自“s ystem”和“database” 相结合的含义。Sybase公司的创始人之一Bob Epstein 是Ingres 大学版(与System/R同时期的关系数据库模型产品)的要紧设计人员。公司的第一个关系数据库产品是1987年5月推出的Sybase SQLServer1.0。S ybase首先提出Client/Server 数据库体系结构的思想,并领先在Sybase SQLServer 中实现。 5. SQL Server 1987 年,微软和IBM合作开发完成OS/2,IBM 在其销售的OS/2 ExtendedEdition 系统中绑定了OS/2Database M anager,而微软产品线中尚缺少数据库产品。为此,微软将目光投向Sybase,同Sybase 签订了合作协议,使用Sybase 的技术开发基于OS/2平台的关系型数据库。1989年,微软公布了SQL Server 1.0 版。 6. PostgreSQL

数据库的体系结构

数据库基础 ( 视频讲解:25分钟) 本章主要介绍数据库的相关概念,包括数据库系统的简介、数据库的体系结构、数据模型、常见关系数据库。通过本章的学习,读者应该掌握数据库系统、数据模型、数据库三级模式结构以及数据库规范化等概念,掌握常见的关系数据库。 通过阅读本章,您可以: 了解数据库技术的发展 掌握数据库系统的组成 掌握数据库的体系结构 熟悉数据模型 掌握常见的关系数据库 1 第 章

1.1 数据库系统简介 视频讲解:光盘\TM\lx\1\数据库系统简介.exe 数据库系统(DataBase System,DBS)是由数据库及其管理软件组成的系统,人们常把与数据库有关的硬件和软件系统称为数据库系统。 1.1.1 数据库技术的发展 数据库技术是应数据管理任务的需求而产生的,随着计算机技术的发展,对数据管理技术也不断地提出更高的要求,其先后经历了人工管理、文件系统、数据库系统等3个阶段,这3个阶段的特点分别如下所述。 (1)人工管理阶段 20世纪50年代中期以前,计算机主要用于科学计算。当时硬件和软件设备都很落后,数据基本依赖于人工管理,人工管理数据具有如下特点: ?数据不保存。 ?使用应用程序管理数据。 ?数据不共享。 ?数据不具有独立性。 (2)文件系统阶段 20世纪50年代后期到60年代中期,硬件和软件技术都有了进一步发展,出现了磁盘等存储设备和专门的数据管理软件即文件系统,文件系统具有如下特点: ?数据可以长期保存。 ?由文件系统管理数据。 ?共享性差,数据冗余大。 ?数据独立性差。 (3)数据库系统阶段 20世纪60年代后期以来,计算机应用于管理系统,而且规模越来越大,应用越来越广泛,数据量急剧增长,对共享功能的要求越来越强烈。这样使用文件系统管理数据已经不能满足要求,于是为了解决一系列问题,出现了数据库系统来统一管理数据。数据库系统满足了多用户、多应用共享数据的需求,它比文件系统具有明显的优点,标志着管理技术的飞跃。 1.1.2 数据库系统的组成 数据库系统是采用数据库技术的计算机系统,是由数据库(数据)、数据库管理系统(软件)、数

蛋白质结构预测在线软件

蛋白质预测分析网址集锦? 物理性质预测:? Compute PI/MW?? ?? SAPS?? 基于组成的蛋白质识别预测? AACompIdent???PROPSEARCH?? 二级结构和折叠类预测? nnpredict?? Predictprotein??? SSPRED?? 特殊结构或结构预测? COILS?? MacStripe?? 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。? 由NCBI检索蛋白质序列? 可联网到:“”进行检索。? 利用SRS系统从EMBL检索蛋白质序列? 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。? 通过EMAIL进行序列检索?

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。? 蛋白质基本性质分析? 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。? 疏水性分析? 位于ExPASy的ProtScale程序(?)可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。? 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如,bioedit,dnamana等。? 跨膜区分析? 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知

常用外文数据库介绍]

常用外文数据库介绍 SpringerLINK数据库 德国施普林格(Springer-Verlag)是世界上著名的科技出版集团, 通过SpringerLink系统提供其学术期刊及电子图书的在线服务。2002年7月开始,Springer公司和EBSCO/Metapress公司在国内开通了SpringerLink服务。 访问方式:镜像服务器(本校读者无需登录)、国外站点(用户需登录出国并自付国际网络通信费)。 访问权限:校园网IP地址范围。 访问全文:(PDF格式)需要使用Acrobat Reader软件,如需安装,可由此下载Acrobat Reader。 EBSCOhost数据库 EBSCO公司通过国际专线提供检索服务,校园网的用户检索、下载无需支付国际网络通信费。采用IP控制访问权限,不需要帐号和口令。 WorldSciNet数据库 WorldSciNet为新加坡世界科学出版社(World Scientific Publishing Co.)电子期刊发行网站,该出版社委托EBSCO / MetaPress 公司在清华大学图书馆建立了世界科学出版社全文电子期刊镜像站. Ptics Express Optics Express由美国光学学会创办,刊登光学技术领域方面的报告和新进展。提供1997年创刊以来的全部文献,以平均49天一期的速度出版,并支持彩色图像和多媒体文件。 网站地址:https://www.wendangku.net/doc/fb2496459.html,/ 创建者:Optical Society 0f America New Journal 0f Physics New Journal 0fPhysics由英国皇家物理学会和德国物理学会出版,提供1998年创刊以来的全部文献。所有用户可免费获取电子版文章。 网站地址:https://www.wendangku.net/doc/fb2496459.html, 创建者:Institute of Physics & German Physical Society

蛋白质功能-结构-相互作用预测网站工具合集

蛋白质组学 蛋白质是生物体的重要组成部分,参与几乎所有生理和细胞代谢过程。此外,与基因组学和转录组学比较,对一个细胞或组织中表达的所有蛋白质,及其修饰和相互作用的大规模研究称为蛋白质组学。 蛋白质组学通常被认为是在基因组学和转录组学之后,生物系统研究的下一步。然而,蛋白质组的研究远比基因组学复杂,这是由于蛋白质内在的复杂特点,如蛋白质各种各样的翻译后修饰所决定的。并且,研究基因组学的技术要比研究蛋白质组学的技术强得多,虽然在蛋白质组学研究中,质谱技术的研究已取得了一些进展。 尽管存在方法上的挑战,蛋白质组学正在迅速发展,并且对癌症的临床诊断和疾病治疗做出了重要贡献。几项研究鉴定出了一些蛋白质在乳腺癌、卵巢癌、前列腺癌和食道癌中表达变化。例如,通过蛋白质组学技术,人们可以在患者血液中明确鉴定出肿瘤标志物。表1列出了更多的蛋白质组学技术用于研究癌症的例子。 另外,高尔基体功能复杂。最新研究表明,它除了参与蛋白加工外,还能参与细胞分化及细胞间信号传导的过程,并在凋亡中扮演重要角色,其功能障碍也许和肿瘤的发生、发展有某种联系。根据人类基因组研究,约1000多种人类高尔基体蛋白质中仅有500~600种得到了鉴定,建立一条关于高尔基体蛋白质组成的技术路线将有助于其功能的深入研究。 蛋白质组学是一种有效的研究方法,特别是随着亚细胞器蛋白质组学技术的迅猛发展,使高尔基体的全面研究变为可能。因此研究人员希望能以胃癌细胞中的高尔基体为研究对象,通过亚细胞器蛋白质组学方法,建立胃癌细胞中高尔基体的蛋白质组方法学。 研究人员采用蔗糖密度梯度的超速离心方法分离纯化高尔基体,双向凝胶电泳(2-DE)分离高尔基体蛋白质,用ImageMaster 2D软件分析所得图谱,基质辅助激光解吸离子化飞行时间质谱(MALDI-TOF MS)鉴定蛋白质点等一系列亚细胞器蛋白质组学方法建立了胃癌细胞内高尔基体的蛋白图谱。 最后,人们根据分离出的纯度较高的高尔基体建立了分辨率和重复性均较好的双向电泳图谱,运用质谱技术鉴定出12个蛋白质,包括蛋白合成相关蛋白、膜融合蛋白、调节蛋白、凋亡相关蛋白、运输蛋白和细胞增殖分化相关蛋白。通过亚细胞器分离纯化、双向电泳的蛋白分离及MALDI-TOF MS蛋白鉴定分析,研究人员首次成功建立了胃癌细胞SGC7901中高尔基体的蛋白质组学技术路线。 蛋白质功能预测工具 也许生物信息学方法在癌症研究中最常用的就是基因功能预测方法,但是这些数据库只存储了基因组的大约一半基因的功能。为了在微阵列资料基础上完成功能性的富集分析,基因簇的功能注解是非常重要的。近几年生物学家研发了一些基因功能预测的方法,这些方法旨在超越传统的BLAST搜索来预测基因的功能。基因功能预测可以以氨基酸序列、三级结构、与之相互作用的配体、相互作用过程或基因的表达方式为基础。其中最重要的是基于氨基酸序列的分析,因为这种方法适合于微阵列分析的全部基因。 在表3中,前三项列举了三种同源搜索方法。FASTA方法虽然应用还不太广泛,但它要优于BLAST,或者至少相当。FASTA程序是第一个使用的数据库相似性搜索程序。为了达到较高的敏感程度,程序引用取代矩阵实行局部比对以获得最佳搜索。美国弗吉尼亚大学可以提供这项程序的地方版本,当然数据库搜索结果依赖于要搜索的数据库序列。如果最近的序列数据库版本在弗吉尼亚大学不能获得,那么就最好试一下京都大学(Kyoto University)的KEGG 站点。PSI-BLAST(位点特异性反复BLAST)是BLAST的转化版本,PSI-BLAST的特色是每次用profile搜索数据库后再利用搜索的结果重新构建profile,然后用新的profile再次搜索数据库,如此反复直至没有新的结果产生为

我国常用数据库

我国常用数据库 1、国研网数据库 https://www.wendangku.net/doc/fb2496459.html,/https://www.wendangku.net/doc/fb2496459.html,.Web/ 特点:统计数据库包含宏观数据、金融、教育、行业数据等,但是宏观数据年度跨度不大。适合对个别指标进行跨省、跨时间的统一检索。 另外有全文数据库等,包含一些专家学者的文章,可以作为参考。 2、中经网 http://162.105.138.185:90/scorpio/aspx/main.aspx?width=1014&height=708 特点:以宏观数据为主,包含国家一级、31个省以及200多个市的数据,与国研网的统计数据库类似,统计项目没有国研网多,但是有些指标年份跨度更大。适合统一检索。 3、资讯行 https://www.wendangku.net/doc/fb2496459.html,/IrisBin/Select.dll?Special?db=TJ 特点:非常全的数据库,几乎囊括了所有最新的年鉴。适合寻找数据的来源。缺点在于:没有1995年之前的年鉴,数据不是表格形式,需要自己修改。(可行的方法包括:粘贴到word 中,把空白(^w)替换为制表符(^t),或者直接粘贴到excel2007,进行数据分列)。 4、统计局数据库 http://219.235.129.58/indicatorYearQuery.do 特点:最近几年刚出的,还在完善中。可以对统计局出版的年鉴数据进行统一检索。(和1、2很相似)有时候能找到1、2所没有的数据。 5、年鉴 https://www.wendangku.net/doc/fb2496459.html,/tjsj/ndsj/ 包括历年统计年鉴以及普查数据、专题数据等,适合浏览年鉴。实际上,目前很多最新年鉴,包括《新中国六十年统计资料汇编》、《2010年统计摘要》等都可以在网上下载到excel版本。 6、知网 https://www.wendangku.net/doc/fb2496459.html,/grid2008/index.htm 6.1文献 https://www.wendangku.net/doc/fb2496459.html,/grid2008/index/ZKCALD.htm 非常全的学术文献数据库,包括了期刊、学位论文、学术会议论文等。这个加上维普的话,基本上可以把中国比较好的期刊论文都包括了。 6.2年鉴 中国统计年鉴数据库(挖掘版) https://www.wendangku.net/doc/fb2496459.html,/Kns55/Navi/Navidefault.aspx?uid=WEEvREdiSUtucElBV1VFRlZkbDBsR2

常用国外数据库及检索介绍

常用国外数据库详细介绍(按国家分类) 一、美国 (1) Wiley InterScience(英文文献期刊) 主页:https://www.wendangku.net/doc/fb2496459.html,/ 简介:Wiley InterScience是John Wiely & Sons 公司创建的动态在线内容服务,1997年开始在网上开通。通过InterScience,Wiley公司以许可协议形式向用户提供在线访问全文内容的服务。Wiley InterScience收录了360多种科学、工程技术、医疗领域及相关专业期刊、30多种大型专业参考书、13种实验室手册的全文和500多个题目的Wiley学术图书的全文。其中被SCI收录的核心期刊近200种。期刊具体学科划分为:Business, Finance & Management (商业、金融和管理)、Chemistry (化学)、Computer Science (计算机科学)、Earth Science (地球科学)、Education (教育学)、Engineering (工程学)、Law (法律)、Life and Medical Sciences (生命科学与医学)、Mathematics and Statistics (数学统计学)、Physics (物理)、Psychology (心理学)。 (2)美国IEEE (英文文献期刊) 主页:https://www.wendangku.net/doc/fb2496459.html,/ 简介:IEEE(Institute of Electrical & Electronics Engineers)是电子信息领域最著名的跨国性学术团体,其会员分布在世界150多个国家和地区。据IEEE统计,IEEE会员总数2001年比2000年增加3.1%,达到377342人,其中学生会员为65669人,增长12.6%。 随着人们的信息越来越多地来自Internet,IEEE需要为会员提供更加完善和全面的电子信息产品和服务。IEEE应成为IEEE会员获得信息的首选之地。IEEE必须识别正确的信息,并提供对它们的访问方法。实现这个目标的重要一步是通过IEEE Xplore与IEEE/IEE Electronic Library (IEL)连接。IEL包括了1988年以来IEEE和IEE的所有期刊杂志和会议录,以及IEEE的标准,可以通过题目、关键词和摘要进行查阅。 (3)美国EBSCO(英文文献期刊) 主页:https://www.wendangku.net/doc/fb2496459.html, 简介:EBSCO公司从1986年开始出版电子出版物,共收集了4000多种索引和文摘型期刊和2000多种全文电子期刊。该公司含有Business Source Premier (商业资源电子文献库)、Academic Search Elite(学术期刊全文数据库)等多个数据库。 Business Source Premier收录了三千多种索引、文摘型期刊和报纸,其中近三千种全文刊。数据库涉及国际商务、经济学、经济管理、金融、会计、劳动人事、银行等的主题范围,适合经济学、工商管理、金融银行、劳动人事管理等专业人员使用。数据库中有较著名"华尔街日报"(The Walls Street Journal)、"哈佛商业评论"(Harvard Business Review)、"每周商务"(Business Week)、"财富"(Fortune)、"经济学家智囊团国家报告" (EIU Country Reports)、American Banker、Forbes、The Economist等报刊。该数据库从1990年开始提供全文,题录和文摘则可回溯检索到1984年,数据库每日更新。 学术期刊集成全文数据库(Academic Search Premier,简称ASP):包括有关生物科学、工商经济、资讯科技、通讯传播、工程、教育、艺术、文学、医药学等领域的七千多种期刊,其中近四千种全文刊。 EBSCO内含有两个免费数据库:

蛋白质结构预测方法综述

蛋白质结构预测方法综述 卜东波陈翔王志勇 《计算机不能做什么?》是一本好书,其中文版序言也堪称佳构。在这篇十余页的短文中,马希文教授总结了使用计算机解决实际问题的三步曲,即首先进行形式化,将领域相关的实际问题抽象转化成一个数学问题;然后分析问题的可计算性;最后进行算法设计,分析算法的时间和空间复杂度,寻找最优算法。 蛋白质空间结构预测是很有生物学意义的问题,迄今亦有很多的工作。有意思的是,其中一些典型工作恰恰是上述三步曲的绝好示例,本文即沿着这一路线作一总结,介绍于后。 1 背景知识 生物细胞种有许多蛋白质(由20余种氨基酸所形成的长链),这些大分子对于完成生物功能是至关重要的。蛋白质的空间结构往往决定了其功能,因此,如何揭示蛋白质的结构是非常重要的工作。 生物学界常常将蛋白质的结构分为4个层次:一级结构,也就是组成蛋白质的氨基酸序列;二级结构,即骨架原子间的相互作用形成的局部结构,比如alpha螺旋,beta片层和loop区等;三级结构,即二级结构在更大范围内的堆积形成的空间结构;四级结构主要描述不同亚基之间的相互作用。 经过多年努力,结构测定的实验方法得到了很好的发展,比较常用的有核磁共振和X光晶体衍射两种。然而由于实验测定比较耗时和昂贵,对于某些不易结晶的蛋白质来说不适用。相比之下,测定蛋白质氨基酸序列则比较容易。因此如果能够从一级序列推断出空间结构则是非常有意义的工作。这也就是下面的蛋白质折叠问题: 1蛋白质折叠问题(Protein Folding Problem) 输入: 蛋白质的氨基酸序列

输出: 蛋白质的空间结构 蛋白质结构预测的可行性是有坚实依据的。因为一般而言,蛋白质的空间结构是由其一级结构确定的。生化实验表明:如果在体外无任何其他物质存在的条件下,使得蛋白质去折叠,然后复性,蛋白质将立刻重新折叠回原来的空间结构,整个过程在不到1秒种内即可完成。因此有理由认为对于大部分蛋白质而言,其空间结构信息已经完全蕴涵于氨基酸序列中。从物理学的角度讲,系统的稳定状态通常是能量最小的状态,这也是蛋白质预测工作的理论基础。 2 蛋白质结构预测方法 蛋白质结构预测的方法可以分为三种: 同源性(Homology )方法:这类方法的理论依据是如果两个蛋白质的序列比较相似,则其结构也有很大可能比较相似。有工作表明,如果序列相似性高于75%,则可以使用这种方法进行粗略的预测。这类方法的优点是准确度高,缺点是只能处理和模板库中蛋白质序列相似性较高的情况。 从头计算(Ab initio ) 方法:这类方法的依据是热力学理论,即求蛋白质能量最小的状态。生物学家和物理学家等认为从原理上讲这是影响蛋白质结构的本质因素。然而由于巨大的计算量,这种方法并不实用,目前只能计算几个氨基酸形成的结构。IBM 开发的Blue Gene 超级计算机,就是要解决这个问题。 穿线法(Threading )方法:由于Ab Initio 方法目前只有理论上的意义,Homology 方法受限于待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似性,对于其他大部分蛋白质来说,有必要寻求新的方法。Threading 就此应运而生。 以上三种方法中,Ab Initio 方法不依赖于已知结构,其余两种则需要已知结构的协助。通常将蛋白质序列和其真实三级结构组织成模板库,待预测三级结构的蛋白质序列,则称之为查询序列(query sequence)。 3 蛋白质结构预测的Threading 方法 Threading 方法有三个代表性的工作:Eisenburg 基于环境串的工作、Xu Ying 的Prospetor 和Xu Jinbo 、Li Ming 的RAPTOR 。 Threading 的方法:首先取出一条模版和查询序列作序列比对(Alignment),并将模版蛋白质与查询序列匹配上的残基的空间坐标赋给查询序列上相应的残基。比对的过程是在我们设计的一个能量函数指导下进行的。根据比对结果和得到的查询序列的空间坐标,通过我们设计的能量函数,得到一个能量值。将这个操作应用到所有的模版上,取能量值最低的那条模版产生的查询序列的空间坐标为我们的预测结果。 需要指出的是,此处的能量函数却不再是热力学意义上的能量函数。它实质上是概率的负对数,即 ,我们用统计意义上的能量来代替真实的分子能量,这两者有大致相同的形式。 p E log ?=如果沿着马希文教授的观点看上述工作 ,则更有意思:Eisenburg 指出如果仅仅停留在简单地使用每个原子的空间坐标(x,y,z)来形式化表示蛋白质空间结构,则难以进一步深入研究。Eisenburg 创造性地使用环境串表示结构,从而将结构预测问题转化成序列串和环境串之间的比对问题;其后,Xu Ying 作了进一步发展,将蛋白质序列表示成一系列核(core )组成的序列,Core 和Core 之间存在相互作用。因此结构就表示成Core 的空间坐标,以及Core 之间的相互作用。在这种表示方法的基础上,Xu Ying 开发了一种求最优匹配的动态规划算法,得到了很好的结果。但是由于其较高的复杂度,在Prospetor2上不得不作了一些简化;Xu Jinbo 和Li Ming 很漂亮地解决了这个问题,将求最优匹配的过程表示成一个整数规划问题,并且证明了一些常用

常见主流数据库的分类与详细比较

常见主流数据库分类 1、IBM 的DB2 DB2是IBM著名的关系型数据库产品,DB2系统在企业级的应用中十分广泛。截止2003年,全球财富500强(Fortune 500)中有415家使用DB2,全球财富100强(Fortune100)中有96家使用DB2,用户遍布各个行业。2004年IBM的DB2就获得相关专利239项,而Oracle 仅为99项。DB2目前支持从PC到UNIX,从中小型机到大型机,从IBM到非IBM(HP及SUN UNIX 系统等)的各种操作平台。 IBM绝对是数据库行业的巨人。1968年IBM在IBM 360计算机上研制成功了IMS这个业界第一个层次型数据库管理系统,也是层次型数据库中最为著名和最为典型的。1970年,IBM E.F.Codd发表了业界第一篇关于关系数据库理论的论文“A Relational Model of Data for Large Shared DataBanks”,首次提出了关系模型的概念。1974年,IBM Don Chamberlin和Ray Boyce通过System R项目的实践,发表了论文“SEQUEL:A Structured English Query Language”,我们现在熟知SQL就是基于它发展起来的。IBM 在1983年发布了DATABASE 2(DB2)for MVS(内部代号为“Eagle”),这就是著名的DB2数据库。2001年IBM以10亿美金收购了Informix的数据库业务,这次收购扩大了IBM分布式数据库业务。2006 DB2 9作为第三代数据库的革命性产品正式在全球发布。 作为关系数据库领域的开拓者和领航人,IBM在1977年完成了System R系统的原型,1980年开始提供集成的数据库服务器——System/38,随后是SQL/DSforVSE 和VM,其初始版本与SystemR研究原型密切相关。 DB2 forMVSV1 在1983年推出。该版本的目标是提供这一新方案所承诺的简单性,数据不相关性和用户生产率。1988年DB2 for MVS 提供了强大的在线事务处理(OLTP)支持,1989 年和1993 年分别以远程工作单元和分布式工作单元实现了分布式数据库支持。最近推出的DB2 Universal Database 6.1则是通用数据库的典范,是第一个具备网上功能的多媒体关系数据库管理系统,支持包括Linux在内的一系列平台。 2、Oracle Oracle 前身叫SDL,由Larry Ellison 和另两个编程人员在1977创办,他们开发了自己的拳头产品,在市场上大量销售,1979 年,Oracle公司引入了第一个商用SQL 关系数据库管理系统。Oracle公司是最早开发关系数据库的厂商之一,其产品支持最广泛的操作系统平台。目前Oracle关系数据库产品的市场占有率名列前茅。 Oracle公司是目前全球最大的数据库软件公司,也是近年业务增长极为迅速的软件提供与服务商。IDC(Internet Data Center)2007统计数据显示数据库市场总量份额如下:Oracle 44.1% IBM 21.3%Microsoft 18.3% Teradata 3.4% Sybase 3.4%。不过从使用情况看,BZ Research的2007年度数据库与数据存取的综合研究报告表明76.4%的公司使用了Microsoft

蛋白质结构预测

实习 5 :蛋白质结构预测 学号20090***** 姓名****** 专业年级生命生技**** 实验时间2012.6.21 提交报告时间2012.6.21 实验目的: 1.学会使用GOR和HNN方法预测蛋白质二级结构 2.学会使用SWISS-MODEL进行蛋白质高级结构预测 实验内容: 1.分别用GOR和HNN方法预测蛋白质序列的二级结构,并对比异同性。 2.利用SWISS-MODEL进行蛋白质的三级结构预测,并对预测结果进行解释。 作业: 1. 搜索一条你感兴趣的蛋白质序列,分别用GOR和HNN进行二级结构预测,解释预测结果,分析两个方法结果有何异同。 答:所选用蛋白质序列为>>gi|390408302|gb|AFL70986.1| gag protein, partial [Human immunodeficiency virus] (1)GOR预测结果: 图1 图1是每个氨基酸在序列中所处的状态,可以看出序列的二级结构预测结果为: 1到9位个氨基酸为无规卷曲,10到33位氨基酸为α螺旋,34到37位为β折叠,38到45位为无规卷曲,46到49位为α螺旋,50到53位为无规卷曲,54到65为α螺旋,66到72位为无规卷曲,73到95位为α螺旋,96到101位为无规卷曲,102到108为β折叠,109到115位为无规卷曲,117位为β折叠。 图2 图2为各种结构在序列中所占的比例,其中Alpha helix占53.85%,Extended strand占11.11%,Random coil占35.04%,无他二级结构。

图3 图3为各个氨基酸在序列中的状态以及二级结构在全序列中二级结构分布情况。 (2)HNN预测: 图4 图4是每个氨基酸在序列中所处的状态,可以看出序列的二级结构预测结果为: 1到6位个氨基酸为无规卷曲,7到34位氨基酸为α螺旋,35到37位为β折叠,38位为α螺旋,39到44位为无规卷曲,45到49位为α螺旋,50到55位为无规卷曲,56到65为α螺旋,66到71位为无规卷曲,72到83位为α螺旋,84到86位为无规卷曲,87到95位为α螺旋,96到102为无规卷曲,103到108位为β折叠,108到117位为无规卷曲。 图5 图5为各种结构在序列中所占的比例,其中Alpha helix占55.56%,Extended strand占7.69%,Random coil占36.75%,无他二级结构。

相关文档
相关文档 最新文档