文档库 最新最全的文档下载
当前位置:文档库 › NCBI中Blast种类及使用简介

NCBI中Blast种类及使用简介

NCBI中Blast种类及使用简介
NCBI中Blast种类及使用简介

NCBI中Blast种类及使用简介

NCBI中Blast种类简介

1. Blast Assembled Genomes

在一个选择的物种基因组序列中去搜索。

2.Basic Blast

2.1 nucleotide blast--- 用核酸序列到核酸数据库中进行搜索,包括3个程序

2.1.1 Blastn----核酸序列(n)到核酸序列数据库中搜索,是一种标准的搜索。

2.1.2 megablast----该程序使用“模糊算法”加快了比较速度,可以用于快速比较两大系列序列。可以用来搜索一匹ESTs序列和大的cDNA或基因组序列, 适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较

2.1.3 discontiguous megablast----与megablast不同的是主要用来比较来自不同物种之间的相似性较低的分歧序列。

2.2 Protein Blast

2.2.1 Blastp ---蛋白质序列到蛋白质序列数据库中搜索,是一种标准的搜索。

2.2.2 psi-blast---位点特异迭代BLAST —用蛋白查询来搜索蛋白资料库的一个程式。所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐,从这个对齐,一个位置特异的分值矩阵建立起来。这个矩阵被用来搜索资料库,以找到额外的显著对齐,这个过程可能被反复迭代一直到没有新的对齐可以被发现。

2.2.3 PHI-BLAST---以常规的表达模型为特别位置进行PSI - BLAST检索,找出和待查询序列具有一样的表达模型且具有同源性的蛋白质序列。

2.3 Translating BLAST

2.3.1 blastx----先将待查询的核酸序列按6 种读框翻译成蛋白质序列,然后将翻译出的蛋白质序列与NCBI 蛋白质序列数据库比较。

2.3.2 tblastn-----先将核酸序列数据库中的核酸序列按6 种读框翻译成

蛋白质序列,然后将待查询的蛋白质序列与翻译结果进行比较。

2.3.3 tblastx----先将待查询的

核酸序列和核酸序列数据库中的核酸序列按6 种读框翻译成蛋白质序列,

然后再将两种翻译结果在蛋白质水平上进行比较

3.Specialized Blast Specialized BLAST pages 可以对特殊生物或特殊研究领域的序列数据库进行检索。

例:CD - Search

CD - Search 是使用RPS - BLAST程序以一个蛋白质序列与保守结构域数据库(Conserved Domain Database) 做比较。

Pairwise BLAST

Pairwise BLAST是用BLAST程序实现两个序列之间的比较。选择“序列1”为待比较序列,则“序列2”就是被比较序列。

IgBLAST —IgBLAST被开发出来以便於分析在GenBank中的免疫球蛋白的序列。它允许用blastp或blastn来搜索nr资料库或一个由免疫球蛋白生殖系变化区基因的特殊的资料库。搜索可以限制在人类或小鼠的基因。IgBLAST执行三个主要的功能∶1)报告与查询序列最相似的可变,D,或J区,2)根据Kabat et al.来注解免疫球蛋白domains(从FWR1到FWR3),3)对於搜索核酸或蛋白nr 资料库,通过匹配IgBLAST的发现和最接近的生殖系变化区基因来简化识别相关序列的过程。

等等。。。。。。。。。

在线BLAST的使用方法

1、登陆blast主页:https://www.wendangku.net/doc/335022713.html,/BLAST/

2、根据数据类型,选择合适的程序

3、填写表单信息

序列的输入、比对搜索区域的选择、数据库的选择:

_/ [&限制调节、打分矩阵及其他参数的设置:

图中各参数的含义:(不同的平台有少许差异,请对比参照)9 L4 N3 I) u+ N0 {$ q

Word siez选项:4 c, r* F* g" t' g) B, j9 u

BLAST 程序是通过比对未知序列与数据库序列中的短序列来发现最佳匹配序列的。最初进行“扫描”(scanning)就是确定匹配片段。序列的匹配程序由短序列(定义为“word”,即字)的联配得分总和来决定。联配时,“字”的每个碱基均被计分:如果碱基对完全相同(如 A 与 A),得某一正值;如果碱基对不很匹配(W与A或 T),则得某一略小的正值;如果两个碱基不匹配,则得一负值。总的合计得分便决定了序列间的相似程度。得分高的匹配序列被称为高比值片段对(high-scoring segment pairs, HSP)。BLAST 程序在两个方向扩展 HSP,直至序列结束或联配已变为不显著。替换矩阵在扫描(scanning)和扩展过程被应用。最后在 BLAST 报告中被列出的序列都是所有得分最高的序列。

以上述及的初始字长便是由Word siez值设定。BLAST只对字长为W的“字”进行扩展联配。BLAST 的字长缺省值为 11,即 BLASTN 将扫描数据库,直到发现那些与未知序列的 11 个连续碱基完全匹配的11个连续碱基长度片段为止。然后这些片段(即字)被扩展。11个碱基的字长已能有效地排除中等分叉的同源

性和几乎所有随机产生的显著联配。

“Filter”(过滤器)选项:

BLAST 2.0版本的新功能,过滤器将锁定诸如组成低复杂(low compositional complexity)序列区(如Alu序列),用一系列N(NNNNNN)替代这

些程序。N 代表任意碱基(IUB-code)。只有未知待检序列被过滤替代,而数据库的序列将不被过滤。过滤对绝大多数序列都是有益的,例如,多A 碱基的尾部

和脯氨酸富积的序列,会得到人为的高联配得分而误导分析。这是因为这类序列数量极大,遍布整个基因组,直至整个数据库。# p$ r4 W! O1 x5 n8 i! j3 m

“Matrix”(矩阵)选项:

联配的显著性是由返回的比对分值决定的,该分值反映的是所得到的联配随机产生的概率有多大。矩阵被用于鉴别数据库中的序列,同时又用来预测匹配的显著性大小。一般应接受运行程序推荐的矩阵。BLAST系列程序主要使用两种类型矩阵(PAM和BLOSUM,前面都有介绍)。要准确地选择矩阵,必须了解矩阵和矩阵的具体计分方式。值得注意的是,直接比较使用不同替换矩阵而获得的联配得分是没有意义的。

“EXPECT”选项:

您可以为搜索设定一个期望值阀值(EXPECT),例如缺省值设为10。这一设置则表示联配结果中将有10个匹配序列是由随机产生,如果联配的统计显著性值(E值)小于该值(10),则该联配将被检出。换句话说,比较低的阀值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。

“Score Value”(分值)选项:(有些平台上没有此选项)6 [- q+ J# k9 ?6 N( M( d0 a

在“wordsize”选项中曾论及碱基对匹配程度的赋分问题,其赋分的标准可由分值选项的M和N 两个参数设置。M 参数为匹配碱基的赋值,必需为一正

整数;N 参数为不匹配碱基的赋值,必需为一负整数。M/N 的比率决定了你所接受的进化分歧程度(degree of divergence),M 和N 的缺省值为5和-4。该比

率(1.25)相当于在100个残基中约有47可以观测到的核酸点突变(PAM)。PAM 是被用来预测分子序列从祖先序列进化而来的程度。如果你调整M和N使比率提高,则 PAM 矩阵也应选择大些(指PAM矩阵后的数字),以适应相应的较大的分歧程

度。

NCBI使用方法

2010-07-19 20:22

NCBI使用方法

NCBI (National Center for Biotechnology Information), 美国国家生物技术信息中心

https://www.wendangku.net/doc/335022713.html,/

NCBI是NIH的国立医学图书馆(NLM)的一个分支。

NCBI提供检索的服务包括:

1.GenBank(NIH遗传序列数据库):一个可以公开获得所有的DNA序列的注释过的收集。GenBank是由NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起数据库的。它同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。这三个组织每天交换数据。其中的数据以指数形式增长,最近的数据为它已经有来自47000个物种的30亿个碱基。

2.Molecular Databases(分子数据库):

Nucleotide Sequence(核酸序列库):从NCBI其他如Genbank数据库中收集整理核酸序列,提供直接的检索。

Protein Sequence (蛋白质序列库):与核酸类似,也是从NCBI多个不同资源中编译整理的,方便研究者的直接查询。

Structure(结构)-——关于NCBI结构小组的一般信息和他们的研究计划,另外也可以访问三维蛋白质结构的分子模型数据库(MMDB)和用来搜索和显示结构的相关工具。MMDB:分子模型数据库—一个关于三维生物分子结构的数据库,结构来自于X-ray晶体衍射和NMR色谱分析。

Taxonomy(分类学)——NCBI的分类数据库,包括大于7万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。

3.Literature Databases(文献数据库)

(1)PubMed是NLM提供的一项服务,能够对MEDLINE上超过1200万条的上世纪六十年代中期至今的杂志引用和其他的生命科学期刊进行访问,并可以连接到参与的出版商网络站点的全文文章和其他相关资源。

(2)PMC/PubMed Center:也是NLM的生命科学期刊文献的数字化存储数据库,用户可以免费获取PMC的文章全文,除了部分期刊要求对近期的文章付费。

(3)OMIM(孟德尔人类遗传):有关人类基因和无序基因的目录数据库由Victor A.McKusick和他的同事共同创造和编辑的,由NCBI网站负责开发,其中也包括对MEDINE众多资源和Entrez系统的序列记录,以及NCBI中其他有关资源的链接。

(4)Books:NCBI的书库不断收集生物医学方面的书籍,提供这些书籍的出版信息、摘要、目录和全文的连接,用户可以直接在检索文本框内输入一个观念就可以查询。

4.NCBI提供的附加的软件工具有:

开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具Sequin和BankIt。所有的NCBI数据库和软件工具可以从WWW或FTP来获得。NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。 NCBI网站上还提供了一些诸如研究热点问题、研究小组情况、教育培训、联系方式等信息,还提供了到NIH、NLM等的链接。

使用方法:

用户可以免费登陆NCBI的网站,NCBI为使用者提供了方便的检索系统和检索方法:

1.Entrez是NCBI为用户提供整合所有数据库的访问序列,定位,分类,和结构数据的搜索和检索工具系统,同时也提供序列和染色体图谱的图形视图。用户进入系统或者进入任意一个数据库,都会看到简单检索的界面,选择数据库输入关键词即可进行查询。Entrez也提供条件限制和高级检索、布尔逻辑查询。使用新的Linkout服务,外部资源可以被链接到Entrez记录。

2.BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。

NCBI在线BLAST使用方法与结果详解

N C B I在线B L A S T使用方法与结果详解 IMB standardization office【IMB 5AB- IMBK 08- IMB 2C】

N C B I在线B L A S T使用方法与结果详解 BLAST(BasicLocalAlignmentSearchTool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。 BLAST采用一种局部的算法获得两个序列中具有相似性的序列。 Blast中常用的程序介绍: 1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。 NCBI的在线BLAST: 下面是具体操作方法 1,进入在线BLAST界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。不同的blast程序上面已经有了介绍。这里以常用的核酸库作为例子。 2,粘贴fasta格式的序列。选择一个要比对的数据库。关于数据库的说明请看NCBI在线blast数据库的简要说明。一般的话参数默认。 3,blast参数的设置。注意显示的最大的结果数跟E值,E值是比较重要的。筛选的标准。最后会说明一下。 4,注意一下你输入的序列长度。注意一下比对的数据库的说明。 5,blast结果的图形显示。没啥好说的。 6,blast结果的描述区域。注意分值与E值。分值越大越靠前了,E值越小也是这样。7,blast结果的详细比对结果。注意比对到的序列长度。评价一个blast结果的标准主要有三项,E值(Expect),一致性(Identities),缺失或插入(Gaps)。加上长度的话,就有四个标准了。如图中显示,比对到的序列长度为1405,看Identities这一值,才匹配到1344bp,而输入的序列长度也是为1344bp(看上面的图),就说明比对到的序列要长一

Blast本地化详细流程

Blast 2.4.0+本地化详细流程(基于Windows系统) 1.程序获得。从NCBI上下载Blast本地化程序,下载地址: ftp://https://www.wendangku.net/doc/335022713.html,/blast/executables/blast+/LATEST/ 64×安装版▲ 64×解压(绿色)版▲ 最好安装或解压到X盘根目录:如X:\blast,尽量简短,方便后边命令输入。 2.原始序列获得。方法1:找到转录组测序数据unigene数据库文件:unigene.fasta 或unigene.fa,若为unigene.fa则直接改后缀为.fasta即可。找到或修改后将数据库文件移动至Blast本地化程序目录“X:\blast\bin”。方法2:从NCBI中的ftp 库下载所需要库,链ftp://https://www.wendangku.net/doc/335022713.html,/blast/db/FASTA/,其中nr.gz为非冗余的数据库,nt.gz为核酸数据库,month.nt.gz为最近一个月的核酸序列数据。下载的month.nt.gz先用WINRAR解压缩,然后用makeblastdb.exe格式化。方法3:利用新版blast自带的update_blastdb.pl进行下载,这需要安装perl程序。 注释:上述三种方法各有优缺点,前两种下载速度较快,但是每次进行检索都需要对数据库进行格式化(转化成二进制数据),第三种方法下载速度较慢,但是NCBI 中已经格式化好的,在进行本地检索时不需再进行格式化,直接用即可。 3.用文本编辑器(txt文件改名字及后缀)创建一个ncbi.ini文件,文件包含下 面内容:[NCBI]Data="C:\blast\data\" 先新建TXT文件,然后改属性,将ncbi.ini文件存放到C:\Windows 4.将Blast本地化程序目录添加路径中(该步骤非必须,但会给以后的操作带来 方便),方法: a)右击我的电脑选择属性,选择高级,点击环境变量,设置环境变量 b)系统变量中,选择Path,点击“编辑”,在变量值的后面添加Blast本地化 程序所在路径,E:\blast 点击确定,将安装路径添加到path。 5.运行MS-DOC。打开DOC窗口(点击开始,选择运行,打开的输入框中输 入“CMD”,确定),访问Blast本地化程序所在文件夹,依次输入:(1)X: 回车;(2)cd blast\bin,回车。

ncbi中文说明书

NCBI (National Center for Biotechnology Information), 美国国家生物技术信息中心 [url]https://www.wendangku.net/doc/335022713.html,/[/url] NCBI是NIH的国立医学图书馆(NLM)的一个分支。 NCBI提供检索的服务包括: 1.GenBank(NIH遗传序列数据库):一个可以公开获得所有的DNA序列的注释过的收集。GenBank是由NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起数据库的。它同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。这三个组织每天交换数据。其中的数据以指数形式增长,最近的数据为它已经有来自47000个物种的30亿个碱基。 2.Molecular Databases(分子数据库): Nucleotide Sequence(核酸序列库):从NCBI其他如Genbank数据库中收集整理核酸序列,提供直接的检索。 Protein Sequence (蛋白质序列库):与核酸类似,也是从NCBI多个不同资源中编译整理的,方便研究者的直接查询。 Structure(结构)-——关于NCBI结构小组的一般信息和他们的研究计划,另外也可以访问三维蛋白质结构的分子模型数据库(MMDB)和用来搜索和显示结构的相关工具。MMDB:分子模型数据库—一个关于三维生物分子结构的数据库,结构来自于X-ray晶体衍射和NMR色谱分析。 Taxonomy(分类学)——NCBI的分类数据库,包括大于7万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。 3.Literature Databases(文献数据库) (1)PubMed是NLM提供的一项服务,能够对MEDLINE上超过1200万条的上世纪六十年代中期至今的杂志引用和其他的生命科学期刊进行访问,并可以连接到参与的出版商网络站点的全文文章和其他相关资源。 (2)PMC/PubMed Center:也是NLM的生命科学期刊文献的数字化存储数据库,用户可以免费获取PMC的文章全文,除了部分期刊要求对近期的文章付费。 (3)OMIM(孟德尔人类遗传):有关人类基因和无序基因的目录数据库由Victor A.McKusick和他的同事共同创造和编辑的,由NCBI网站负责开发,其中也包括对MEDINE众多资源和Entrez系统的序列记录,以及NCBI中其他有关资源的链接。

ncbi中查找基因序列的方法和三个登录号

ncbi中查找基因序列的方法和三个号码 一.例子:查找酿酒酵母(Saccharomyces cerevisiae)里的海藻糖合成酶基因(tps1) 即可出现很多条目,找到Saccharomyces cerevisiae的就是NC_001134了,点击后就进入该基因所在染色体的界面了,再在“编辑”中“查找”tps1就可以看该基因所在的位置,再点击CDS或者GeneID:852423都可以出现相关链接! 当然,如果你在文献查到目的蛋白的序列号如NP_009684.1或者GeneID:852423,那分别在Search后选择Protein或者Gene也可以出现相关链接! 二.基因CDS区界面的3个号码 https://www.wendangku.net/doc/335022713.html,/entrez/viewer.fcgi?val=50593115&from=488899&to=490386& view=gbwithparts 找到后,我发现该界面有3个标记,一个是NC_001134 ,其次是gi:50593115,最后是FEATURES中的gene中的/db_xref= “GeneID:852423”,他们分别是什么号码,用在什么地方呢?尝试中,终于发现, 在Search“Nucleotide”或者“Core Nucleotide”时,for后面是NC_001134,最终go 到该基因所在染色体全长序列的信息,所以NC_001134应该是该染色体的登录号吧? 在Search“Nucleotide”或者“Core Nucleotide”时,for后面是50593115,最终go到该基因所在染色体全长序列的信息,所以50593115应该是该染色体的号吧? 在Search“Gene”时,for后面是852423,最终go到该基因的信息,所以852423应该是该基因的登录号吧?所以我们如果要记住目的基因在ncbi中的位置就记住这个GeneID! 其他像NP_009684当然是基因编码的蛋白质的登录号啦,不说了。 我们在文献中查到的基因往往给的是Gene ID 三.引物设计第一步--找编码序列的方法 在Search“Gene”时,for后面是852423,最终go到目的基因的信息

ncbi的使用方法

NCBI(美国国立生物技术信息中心)资源介绍及使用手册 作者:未知来源:中科院上海生命科学研究院生物信息中心时间:2006-12-27 NCBI 资源介绍 本文目录: NCBI(美国国立生物技术信息中心) 简介 NCBI 站点地图 NCBI癌症基因组研究 NCBI-Coffee Break NCBI-基因和疾病 NCBI-UniGene Cluster of Orthologous Groups of proteins (COG)介绍 Gene Expression Omnibus (GEO)介绍 LocusLink介绍 关于RefSeq:NCBI参考序列 NCBI(美国国立生物技术信息中心)简介 介绍 理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。通过只有四个字母来代表DNA化学亚基的字母表,出现了生命过程的语法,其最复杂形式就是人类。阐明和使用这些字母来组成新的“单词和短语”是分子生物学领域的中心焦点。数目巨大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为绝对的必须。挑战在于发现新的手段去处理这些数据的容量和复杂性,并且为研究人员提供更好的便利来获得分析和计算的工具,以便推动对我们遗传之物和其在健康和疾病中角色的理解。 国立中心的建立 后来的参议员Claude Pepper意识到信息计算机化过程方法对指导生物医学研究的重要性,发起了在1988年11月4日建立国立生物技术信息中心(NCBI)的立

法。NCBI是在NIH的国立医学图书馆(NLM)的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。它的使命包括四项任务: 建立关于分子生物学,生物化学,和遗传学知识的存储和分 析的自动系统 实行关于用于分析生物学重要分子和复合物的结构和功能 的基于计算机的信息处理的,先进方法的研究 加速生物技术研究者和医药治疗人员对数据库和软件的使用。 全世界范围内的生物技术信息收集的合作努力。 NCBI通过下面的计划来实现它的四项目的: 基本研究 NCBI有一个多学科的研究小组包括计算机科学家,分子生物学家,数学家,生物化学家,实验物理学家,和结构生物学家,集中于计算分子生物学的基本的和应用的研究。这些研究者不仅仅在基础科学上做出重要贡献,而且往往成为应用研究活动产生新方法的源泉。他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。这些问题包括基因的组织,序列的分析,和结构的预测。目前研究计划的一些代表是:检测和分析基因组织,重复序列形式,蛋白domain 和结构单元,建立人类基因组的基因图谱,HIV感染的动力学数学模型,数据库搜索中的序列错误影响的分析,开发新的数据库搜索和多重序列对齐算法,建立非冗余序列数据库,序列相似性的统计显著性评估的数学模型,和文本检索的矢量模型。另外,NCBI研究者还坚持推动与NIH内部其他研究所及许多科学院和政府的研究实验室的合作。 数据库和软件

本地blast的详细用法∷柳城

本地blast的详细用法 Posted on 03 四月 2009 by 柳城,阅读 9,626 本地blast的详细使用方法 blast all -p blastn -i myRNA.fasta -d humanRNA.fasta -o myresult.blastout -a 2 -F F -T T -e 1e-10 解释如下: blastall: 这是本地化/命令行执行blast时的程序名字!(Tips:blastall直接回车就会给出你所有的参数帮助,但是英文的) -p: p 是program的简写,program在计算机领域中是程序的意思。此参数是指定要使用何种子程序,所谓子程序,就是针对不同的需要,如核酸序列和核酸序列进行比对、蛋白质序列和蛋白质序列进行比对、假设翻译后核酸序列于蛋白质序列进行比对,选择相应的子程序: blastn 是用于核酸对核酸 blastp 是蛋白质对蛋白质序列等等,一共5个自程序。 -i: i 是input的简写,意思是输入文件,就是你自己的要进行比对的序列文件(fasta格式) -d: d是database的简写,意思是要比对的目标数据库,在例子中就是humanRNA.fasta (别忘了要formatdb) -o: o是output的简写,意思是结果文件名字,这个根据你自己的习惯起名字,可以带路径,(上边两个参数-i -d 也都可以带路径) *注意以上4个参数是必须的,缺一不可,下面的参数是为了得到更好的结果自己可调的参数,如果你不加也没有关系,blastall程序本身会给一个默认值! -a: 是指计算时要用的CPU个数,我的机器有两个CPU,所以用-a 2,这样可以并行化进行计算,提高速度,当然你的计算机就一个CPU,可以不用这个参数,系统默认值为1,就是一个CPU -F: 是filter的简写,blastall程序中有对简单的重复序列和低复杂度的一些repeats过滤调,默认是T (注意以后的有几种参数就两个选项,T/F T就是ture,真,你可以理解为打开该功能; F就是false,假,理解为关闭该功能) -T: 是HTML的简写,是指blast结果文件是否用HTML格式,默认是F!如果你想用IE看,我建议用-T T -e: 是Expectation value,期望值,默认是10,我用的10-10! BLASTALL 用法 a.格式化序列数据库 格式化序列数据库— —formatdb formatdb简单介绍: formatdb处理的都是格式为 ASN.1和FASTA,而且不论是核苷酸序列数据库,还是蛋白质序列数据库;不论是使用Blastall ,还是Blastpgp,Mega Blast应用程序,这一步都是不可少的。 formatdb命令行参数: formatdb - 得到formatdb 所有的参数显示(见附录二)和介绍, 主要参数的说明:

PUBMED使用说明

第一章进入PubMed魔法学校——PubMed 概述 无论何时何地,你只要在浏览器地址栏中输入:https://www.wendangku.net/doc/335022713.html,/pubmed/就可以立刻进入PubMed的界面并开始享受PubMed所给你带来的无穷便利。 进入PubMed的主界面后,首先映入我们眼帘的就是页面上方的检索框和“Advanced search”功能键。这是PubMed的核心部分。在主界面的下方有: ● Journals Database:收录的学术期刊数据库。 ● MeSH Database:检索MeSH数据库。 ● Single Citation Matcher:单引文匹配,输入期刊的信息可以找到某单篇的文献或整个期刊的内容。 ● Batch Citation Matcher:用一种特定的形式输入期刊的信息一次搜索多篇文献。 ● Clinical Queries:这一部分为临床医生设置,通过过滤的方式将搜索的文献固定在4 个范围:治疗、诊断、病原学与预后。 ● Topic-Specific Queries:特定主题的查询。 Related Resources ● Order Documents可以使用户在当地得到文献的全文,但这是要收费的,至于如何免费获得文献全文,我将在后面的有关章节中详述。 ● Grateful Med是对另一个NLM基于网络的查询系统的链接。Grateful Med也提供MEDLI NE的接入,并且还有一些其他的数据库如AIDSLINE、HISTLINE等等。 ● Consumer Health提供与MEDLINE plus的链接,MEDLINE plus是与消费者健康信息相关的国家医学图书馆的网络节点。 ● Clinical Alerts此部分的目的是加快NIH资助的临床研究成果的发布。利用左侧框的这些服务,我们不仅能够进行功能更加强大的检索,而且还能得到不少非常有用的服务。这些都将在后续章节中介绍。 在以后的章节中,我们将逐步深入地了解PubMed,相信通过这些章节的学习,我们可以真正熟练掌握PubMed,从而使自己的工作事半功倍。 第二章 PUBMED简单检索技巧

NCBI资源介绍及使用手册

NCBI资源介绍及使用手册 NCBI资源介绍 本文目录: NCBI(美国国立生物技术信息中心) 简介 NCBI站点地图 NCBI癌症基因组研究 NCBI-Coffee Break NCBI-基因和疾病 NCBI-UniGene Cluster of Orthologous Groups of proteins(COG)介绍 Gene Expression Omnibus (GEO)介绍 LocusLink介绍 关于RefSeq:NCBI参考序列 NCBI(美国国立生物技术信息中心)简介 介绍 理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。通过只有四个字母来代表DNA化学亚基的字母表,出现了生命过程的语法,其最复杂形式就是人类。阐明和使用这些字母来组成新的“单词和短语”是分子生物学领域的中心焦点。数目巨大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为绝对的必须。挑战在于发现新的手段去处理这些数据的容量和复杂性,并且为研究人员提供更好的便利来获得分析和计算的工具,以便推动对我们遗传之物和其在健康和疾病中角色的理解。 国立中心的建立 后来的参议员Claude Pepper意识到信息计算机化过程方法对指导生物医学研究的重要性,发起了

在1988年11月4日建立国立生物技术信息中心(NCBI)的立法。NCBI是在NIH的国立医学图书馆(NLM)的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。它的使命包括四项任务: 建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统 实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究 加速生物技术研究者和医药治疗人员对数据库和软件的使用。 全世界范围内的生物技术信息收集的合作努力。 NCBI通过下面的计划来实现它的四项目的: 基本研究 NCBI有一个多学科的研究小组包括计算机科学家,分子生物学家,数学家,生物化学家,实验物理学家,和结构生物学家,集中于计算分子生物学的基本的和应用的研究。这些研究者不仅仅在基础科学上做出重要贡献,而且往往成为应用研究活动产生新方法的源泉。他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。这些问题包括基因的组织,序列的分析,和结构的预测。目前研究计划的一些代表是:检测和分析基因组织,重复序列形式,蛋白domain和结构单元,建立人类基因组的基因图谱,HIV感染的动力学数学模型,数据库搜索中的序列错误影响的分析,开发新的数据库搜索和多重序列对齐算法,建立非冗余序列数据库,序列相似性的统计显著性评估的数学模型,和文本检索的矢量模型。另外,NCBI研究者还坚持推动与NIH内部其他研究所及许多科学院和政府的研究实验室的合作。 数据库和软件 在1992年10月,NCBI承担起对GenBank DNA序列数据库的责任。NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起数据库。同美国专利和商标局的安排使得专利的序列信息也被整合。 GenBank是NIH遗传序列数据库,一个所有可以公开获得的DNA序列的注释过的收集。GenBank同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。这三个组织每天交换数据。 GenBank以指数形式增长,核酸碱基数目大概每14个月就翻一个倍。最近,GenBank拥有来自47,000个物种的30亿个碱基。 孟德尔人类遗传(OMIM),三维蛋白质结构的分子模型数据库(MMDB),唯一人类基因序列集合

NCBI_功能详细介绍

GenBank Overview 基本信息 ?什么是GenBank?GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。 ?纪录样本- 关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。 ?访问GenBank - 通过Entrez Nucleotides来查询。用accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关于Entrez更多的信息请看下文。用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query 和BLAST服务器。另外一种选择是可以用FTP下载整个的GenBank和更新数据。 ?增长统计- 参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank 增长)小节。 ?公布通知,最新- 最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。 ?公布通知,旧- 同上相同,是过去公布的统计。 ?遗传密码- 15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。(向)GenBank提交(数据) ?关于提交序列数据,收到accession number,和对纪录作更新的一般信息。 ?BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。(请在提交前用VecScreen去除载体) ?Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。可以独立使用,或者用基于TCP/IP的“network aware”模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。(请在提交前用VecScreen去除载体)?ESTs - 表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE 实验的cDNA序列。 ?GSSs - 基因组调查序列,短的、单次(测序)阅读的cDNA序列,exon trap获得的序列,cosmid/BAC/YAC末端,及其他。 ?HTGs - 来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段3)序列。(注意:完成的人类的HTG序列可以同时在GenBank和Human Genome Sequencing页面上访问。) ?STSs - 序列标签位点。短的在基因组上可以被唯一操作的序列,用于产生作图位点。 ?注:SNPs - 人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中(dbSNP)。 国际核苷酸序列数据库合作组织 ?GenBank,DDBJ,EMBL - 合作计划的概述,并链接到相应的主页。GenBank,DDBJ(DNA Data Bank of Japan),and EMBL (European Molecular Biology Laboratory)数据库共享的数据是每天都交换的,因此他们是相等的。数据纪录的格式和搜索方式可能会不一样,但是accession number,序列数据和注解都是一模一样的。即,你可以用accession number U12345在GenBank,DDBJ或EMBL中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等。 ?DDBJ/EMBJ/GenBank特性表—特性表格式和标准被合作数据库用在序列记录的注释上,使得数据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及IUPAC规定的核苷酸和氨基酸的代号。

一步一步教你使用NCBI

一步一步教你使用NCBI 查找DNA、mRNA、cDNA、Protein、promoter、引物设计、BLAST序列比对等 作者:urbest 2007-8-1 苏州大学生命科学学院

最近看到很多战友在论坛上询问如何查询基因序列、如何进行引物设计、如何使用BLAST进行序列比对……,这些问题在NCBI上都可以方便的找到答案。现在我就结合我自己使用NCBI的一些经历(经验)跟大家交流一下BCBI的使用。希望大家都能发表自己的使用心得,让我们共同进步! 我分以下几个部分说一下NCBI的使用: Part one 如何查找基因序列、mRNA、Promoter Part two 如何查找连续的mRNA、cDNA、蛋白序列 Part three 运用STS查找已经公布的引物序列 Part four 如何运用BLAST进行序列比对、检验引物特异性 特别感谢本版版主,将这个帖子置顶! 从发帖到现在,很多战友对该帖给与了积极的关注,在此向给我投票的(以及想给我投票却暂时不能投票的)各位战友表示真诚的感谢,谢谢各位战友! 请大家对以下我发表的内容提出自己的意见。关于NCBI其他方面的使用也请水平较高的战友给予补充 First of all,还是让我们从查找基因序列开始。 第一部分 利用Map viewer查找基因序列、mRNA序列、 启动子(Promoter) 下面以人的IL6(白细胞介素6)为例讲述一下具体的操作步骤 1.打开Map viewer页面,网址为:https://www.wendangku.net/doc/335022713.html,/mapview/index.html 在search的下拉菜单里选择物种,for后面填写你的目的基因。操作完毕如图所示: 2.点击“GO”出现如下页面:

本地Blast

本地Blast使用说明 一、软件的下载安装 1.1安装流程 建议安装在非系统盘,如将下载的 BLAST 程序安装到 E:\blast,生成bin、doc 两个子目录,其中 bin 是程序目录,doc 是文档目录,这样就安装完毕了。 1.2 设置环境变量 右键点击“我的电脑”-“属性”,然后选择“高级系统设置”标签-“环境变量”(图1),在用户变量下方“Path”随安装过程已自动添加其变量值,即“E:\Blast\bin”。此时点击“新建”-变量名“BLASTDB”,变量值为“E:\Blast\db”(即数据库路径,图2)。 二、查看程序版本信息 点击 Windows 的“开始”菜单下的“运行”,输入“cmd”调出 MS-DOS 命令行,转到 Blast 安装目录,输入命令“blastn -version”即可查看版本,若能显示说明本地blast 已经安装成功。 三、使用 3.1本地数据库的构建 下载所需的数据(Fasta格式),将X 放到E:\blast\db 文件夹下,然后调出MS-DOS 命令行,转到E:\blast\db 文件夹下运行以下命令:格式化

数据库,命令为: makeblastdb -in 数据库文件 -dbtype 序列类型(核酸:nul;蛋白:prot)-title database_title-parse_seqids -out database_name-logfile File_Name 格式化数据库后,创建三个主要的文件——库索引(indices),序列(sequences)和头(headers)文件。生成的文件的扩展名分别是:.pin、.psq、.phr(对蛋白质序列)或.nin、.nsq、.nhr(对核酸序列)。而其他的序列识别符和索引则包含在.psi和.psd(或.nsi 和.nsd)中。 3.2核酸序列相似性搜索 blastn -db database_name -query input_file -out output_file -outfmt "7 qacc sacc qstart qend sstart send length bitscore evalue pident ppos" 备注:qacc:查询序列Acession号;sacc:目标序列Acession号; qstart qend:分别表示查询序列比对上的起始、终止位置; sstart send:分别表示目标序列比对上的起始、终止位置; length:长度; bitscore:得分; evalue:E-Value值; pident:一致性; ppos:相似性 3.3 查看并获取目标序列: blastdbcmd -db refseq_rna -entry 224071016 -out test.fa 可以从数据库中提取gi号为224071016的序列,并且以fasta格式存入文 件 3.4蛋白质序列相似性搜索 Blastp -db database_name-query input_file -out output_file -outfmt "7 qacc sacc qstart qend sstart send length bitscore evalue pident ppos" 3.5 查看并获取目标序列:重复3.3

Cn3D 4.1中文使用手册

Cn3D 4.1中文使用手册 这是Cn3D 4.1 的使用手册。希望能够向初次使用或是曾经使用过Cn3D 的用户提供一个关于本软件的基本特点的指导。新用户可能希望通过阅读这篇文档来学习如何使用Cn3D,而有经验的用户则可以通过上面的目录和超连接直接跳转到自己感兴趣的章节。 本手册并不是对程序功能的详尽的介绍。在Cn3D 的安装程序里包含有关于 Cn3D 的用户界面和详细功能介绍的帮助文档。—见Cn3D_Commands.chm。 Cn3D 的基本功能 Cn3D 是一个生物分子的三维结构、序列以及序列比对结果的可视化工具。Cn3D 可以将结构与序列的信息紧密的联系起来,这是它与其它软件的一个重要的区别:例如,一名科学家可以很快的从晶体结构中找出与导致已知疾病的突变相关的残基,或是保留同源序列家族的活性位点的残基。Cn3D 可以通过基于结构的序列比较来显示生物分子结构之间的比较,从而了解相关蛋白的那一个结构域在结构与序列上表现得更为保守。同时,可以自定义标签的特性,高品质的OpenGL 的画质,还有多样的文件输出格式,都使得Cn3D 成为文献注释的强大工具。Cn3D 的特色就是通过网络浏览器来作为NCBI 的Entrez 系统的一个辅助工具,但是它也可以作为一个独立的程序来使用。 在版本 4 当中,Cn3D 已经是一个完整的多序列比较编辑器了,除此之外,还包括一条已知序列和其他序列或是其他结构进行比较的算法。你可以新建一个比对结果或是评价一个已有的结果。Cn3D 可以被用来作为比较CDD project内容的基本的辅助工具。(保守结构域数据库) 下载和安装Cn3D Cn3D 可以应用于Windows,Macintosh,和各种UNIX 平台。这几页将说明如何下载和安装Cn3D,并且如何配置网络浏览器来使用Cn3D。 文档约定 Cn3D 的屏幕界面和序列窗体提供各种形式的示例;他们以极小的图片链接到大图。注意最大的图像是以PNG 格式存储的—这依靠所使用的浏览器,浏览这种格式的文件需要一个支持PNG 的辅助程序。Cn3D 的Windows 版可以用来创建这类图像,但是除了平台的用户界面和窗体变框外,图像基本上在任何平台上都是一样的。

NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解 BLAST(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA 数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。 BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。 Blast中常用的程序介绍: 1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。 NCBI的在线BLAST:下面是具体操作方法 1,进入在线BLAST界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。不同的blast程序上面已经有了介绍。这里以常用的核酸库作为例子。

2,粘贴fasta格式的序列。选择一个要比对的数据库。关于数据库的说明请看NCBI在线blast数据库的简要说明。一般的话参数默认。 3,blast参数的设置。注意显示的最大的结果数跟E值,E值是比较重要的。筛选的标准。最后会说明一下。

DNAStar中文说明书

DNAStar中文使用说明书 编者:宋晨 一、EditSeq......................................................................................................................................2 三、 MapDraw................................................................................................................................23 四、MegAlign................................................................................................................................32 五、 PrimerSelect............................................................................................................................42 六、Protean....................................................................................................................................54 七、 SeqMan II 开始 (64) https://www.wendangku.net/doc/335022713.html, 生物秀-专心做生物!生 物 秀

NCBI中Blast种类及使用简介

NCBI中Blast种类及使用简介 NCBI中Blast种类简介 1. Blast Assembled Genomes 在一个选择的物种基因组序列中去搜索。 2.Basic Blast 2.1 nucleotide blast--- 用核酸序列到核酸数据库中进行搜索,包括3个程序 2.1.1 Blastn----核酸序列(n)到核酸序列数据库中搜索,是一种标准的搜索。 2.1.2 megablast----该程序使用“模糊算法”加快了比较速度,可以用于快速比较两大系列序列。可以用来搜索一匹ESTs序列和大的cDNA或基因组序列, 适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较 2.1.3 discontiguous megablast----与megablast不同的是主要用来比较来自不同物种之间的相似性较低的分歧序列。 2.2 Protein Blast 2.2.1 Blastp ---蛋白质序列到蛋白质序列数据库中搜索,是一种标准的搜索。 2.2.2 psi-blast---位点特异迭代BLAST —用蛋白查询来搜索蛋白资料库的一个程式。所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐,从这个对齐,一个位置特异的分值矩阵建立起来。这个矩阵被用来搜索资料库,以找到额外的显著对齐,这个过程可能被反复迭代一直到没有新的对齐可以被发现。 2.2.3 PHI-BLAST---以常规的表达模型为特别位置进行PSI - BLAST检索,找出和待查询序列具有一样的表达模型且具有同源性的蛋白质序列。 2.3 Translating BLAST 2.3.1 blastx----先将待查询的核酸序列按6 种读框翻译成蛋白质序列,然后将翻译出的蛋白质序列与NCBI 蛋白质序列数据库比较。 2.3.2 tblastn-----先将核酸序列数据库中的核酸序列按6 种读框翻译成

Blast本地化安装图解

Blast本地化:window平台下blast软件的安装boyun发表于 2009-07-09 17:08 | 阅读 1 views 1.对于windows 2000/xp 用户,下载blast- 2.2.18-ia32-win32.exe安装文件 ftp://https://www.wendangku.net/doc/335022713.html,/blast/executables/LATEST/blast- 2.2.18-ia32-win32.exe 2.创建一个新目录,例如C:\blast,将下载的文件blast-2.2.18-ia32-win32.exe复制到该目录,双击这个文件,自解压产生bin、data、doc 三个目录,bin是程序目录,data是程序使用数据的目录,doc是文档目录。 表:bin目录中的程序 程序说明 bl2seq.exe进行两条序列比对 blastall.exe做普通的blast比对 blastclust.exe blastpgp.exe copymat.exe fastacmd.exe通过gi号,接收号等,在数据库中检索序 列 formatdb.exe格式化数据库 formatrpsdb.exe impala.exe makemat.exe megablast.exe megablast程序 rpsblast.exe seedtop.exe 3.用文本编辑器创建一个ncbi.ini文件,文件包含下面内容:[NCBI] Data="C:\blast\data\" 将ncbi.ini文件存放到系统的Windows 或者 WINNT目录。 4.将”C:\blast\bin”目录添加路径中(该步骤非必须,但会给以后的操作带来方便),方法:

PubMed中文使用手册

PubMed中文使用手册 (一)PubMed简介: PubMed是美医学图书馆(NLM)下属的生物技术信息中心(NCBI)开发的、基于WWW的查询系统。 PubMed是NCBI Entrez数个数据库查询系统下中的一个。 PubMed是提供免费的MEDLINE、PREMEDLINE与其他相关数据库接入服务,MEDLINE是一个拥有1亿字条的巨大数据库。 PubMed也包含着与提供期刊全文的出版商网址的,来自第三方的生物学数据,序列中心的数据等等。 PubMed提供与综合分子生物学数据库的与接入服务,这个数据库归NCBI 所有,其容包括:DNA与蛋白质序列,基因图数据、3D蛋白构象,人类孟德尔遗传在线。

(二)页面介绍:(更新很快,但其容变化一般不大) 在你的浏览器中的URL地址框中健 入https://www.wendangku.net/doc/335022713.html,/pubmed/ 并单击回车键后,你将进入Pubmed的主页面。如图: 1. 主页面左侧框的介绍(注:Cubby和tutorial为最新加 入的) MeSh Browser你可以用它来分层浏览MesH表 Single Citation Matcher通过填表的形式输入期刊的信息可以找到某单篇的文献或整个期刊的容。

Batch Citation Matcher用一种特定的形式输入期刊的信息一次搜索多篇文献。 Clinical Queries这一部分为临床医生设置,通过过滤的方式将搜索的文献固定在4个围:治疗、诊断、病原学与预后。 Old PubMed(使用以前的PubMed查询方式) 关于每一项的具体使用方法,后面将会有详细介绍。 Related Resources Order Documents提供一种收费性质服务,可以使用户在当地得到文献的全文拷贝(费用与发送方式各不相同)。 Grateful Med是对另一个NLM基于网络的查询系统的。Grateful Med也提供MEDLINE的接入,并且还有一些其他的数据库如AIDSLINE、HISTLINE等等。 Consumer Health提供与MEDLINE plus的,MEDLINE plus是与消费者健康信息相关的医学图书馆的网络节点。 Clinical Alerts此部分的目的是加快NIH资助的临床研究成果的发布。 2.主页面底部的介绍 Disclaimer 在这里可以得到的相关信息,不承诺责任与担保的声明,与NLM下载的相关政策。 Write to the Help Desk发e-mail给NLM消费者服务部。 NCBI|NLM|NIH这里是对创建和维护PubMed的机构网页。 下面将举例说明查询的主体部分,也就是页面上部的使用方法。

相关文档