文档库 最新最全的文档下载
当前位置:文档库 › 基于序列顺序信息的DNA结合蛋白识别与远程同源性检测

基于序列顺序信息的DNA结合蛋白识别与远程同源性检测

哈尔滨工业大学工学硕士学位论文

目录

摘要 ....................................................................................................................... I ABSTRACT ............................................................................................................ I II 第1章绪论 (1)

1.1课题背景 (1)

1.2研究目的及意义 (2)

1.3国内外相关技术发展现状 (4)

1.3.1 DNA结合蛋白识别研究现状 (4)

1.3.2蛋白质远程同源性检测研究现状 (5)

1.4本文的主要研究内容和内容安排 (7)

1.4.1主要研究内容 (7)

1.4.2本文内容安排 (9)

第2章基于伪氨基酸组成的DNA结合蛋白识别方法 (11)

2.1引言 (11)

2.2伪氨基酸组成 (11)

2.3氨基酸索引数据库 (12)

2.4预测方法 (12)

2.4.1全局氨基酸组成(OAAC) (12)

2.4.2伪氨基酸组成(PseAAC) (13)

2.4.3氨基酸物理化学距离转换(PDT) (14)

2.4.4基于三种序列特征的向量化方法 (15)

2.4.5分类模型建立 (17)

2.4.6留一评价方法 (18)

2.5实验结果与分析 (19)

2.5.1 DNA结合蛋白数据集 (19)

2.5.2性能评价指标 (20)

2.5.3性能评估 (20)

2.6本章小结 (22)

第3章基于距离对和缩减字母表的DNA结合蛋白识别方法 (23)

3.1引言 (23)

3.2距离对 (23)

哈尔滨工业大学工学硕士学位论文

3.3预测方法 (24)

3.3.1蛋白质向量化方法 (24)

3.3.2分类模型和评价 (28)

3.4实验结果与分析 (28)

3.4.1 DNA结合蛋白数据集 (28)

3.4.2性能评价指标 (29)

3.4.3性能评估 (30)

3.5本章小结 (34)

第4章基于距离对的蛋白质远程同源性检测方法 (36)

4.1引言 (36)

4.2Top-n-gram距离对 (36)

4.3预测方法 (37)

4.3.1蛋白质向量化方法 (37)

4.3.2分类模型建立 (39)

4.4实验结果与分析 (39)

4.4.1同源性检测数据集 (39)

4.4.2 ROC分数指标 (40)

4.4.3性能评估 (40)

4.5本章小结 (44)

第5章基于距离对伪氨基酸组成的蛋白质远程同源性检测方法 (45)

5.1引言 (45)

5.2距离对伪氨基酸组成 (45)

5.3预测方法 (46)

5.3.1蛋白质向量化方法 (46)

5.3.2主成分分析 (49)

5.4实验结果与分析 (50)

5.4.1分类模型和数据集 (50)

5.4.2性能评估 (50)

5.5本章小结 (54)

结论 (55)

参考文献 (57)

攻读硕士学位期间发表的论文及其它成果 (66)

哈尔滨工业大学学位论文原创性声明和使用权限 (67)

致谢 (68)

哈尔滨工业大学工学硕士学位论文

第1章绪论

1.1 课题背景

自上个世纪50年代人们发现DNA序列结构开始,生物技术进入快速发展的时期,大量未知的生物大分子数据不断涌现。1990年,美国科学家开展人类基因组计划(Human genome project,HGP),该计划标志着全球研究遗传物质DNA的开端[1]。随着2003年人类全基因组测序工作的完成,各种类型的生物数据快速地增长,分子生物学的研究达到了一个高潮[2]。然而生物信息中各种大数据却为遗传学家、分子生物学家带来新的困扰,如何在海量的数据中挖掘出有用的信息帮助人类研究生物学,大量的学者都对这个问题贡献出自己的力量,生物信息学就在这样的时代蓬勃发展起来。

生物信息学(Bioinformatics)是利用信息学研究生物学的一门学科,它研究日益增长的生物数据中所蕴含的生物学意义[3]。生物信息学的发展主要为:第一阶段是基因组前期的生物信息学,主要任务是生物信息数据的采集、存储、管理和提供,生物数据库的查询与搜索;第二阶段是基因组时代的生物信息学,主要任务是基因组的比较,基因的分析和预测;随着基因组数据和测序技术的不断完善,我们进入第三阶段后基因组时代,主要任务是对基因和基因组的全面分析,发展和应用新的实验手段,使得生物学研究从对单一的基因和蛋白质数据研究转向对多个基因和蛋白质数据系统地进行研究,即转向功能基因组学(Functional Genomics)[4]。

经过二十几年的发展,数据管理技术日趋发展,在数据库方面,出现了NCBI[5](The National Center for Biotechnology Information)等主要的生物信息数据库,在数据搜索算法和软件方面,出现了BLAST[6]403-410(Basic Local Alignment Search Tool)、PSI-BLAST[7]3389-3402(Position-Specific Iterative BLAST)等工具,可以帮助人们方便快捷地搜索到所需的数据。随着测序技术的发展和高通量技术的应用,目前的生物数据结构更加复杂、规模更大,导致以往生物信息学中的数据分析方法已很难适应这些数据的处理和分析。机器学习方法作为计算机人工智能的一个重要领域,能够有效地对大数据进行智能化处理。近年来已有许多机器学习和数据挖掘算法在生物信息处理方面得到广泛的应用,这类方法被广泛地应用在蛋白质组学、生物进化分析的研究当中[8]。

相关文档