当前位置：文档库 › 生物信息学

生物信息学

中国科学技术大学

2007--2008学年第 1 学期考试试卷

考试科目: 生物信息学得分:__________

学生所在系:___________ 姓名:__________ 学号:___________

一、单项选择题(每题3分，共30分)

1. 下面哪个数据库不属于核酸的三大数据库之一( )

A．GenBank B. EBI C. UniProt D. DDBJ

2. 下面哪种算法为双序列比对全局优化算法( )

A. Smith-Waterman算法

B. Gibbs Sampler

C. Hidden Markov Model算法

D. Needleman-Wunsch算法

3. 下面哪种工具为多序列比对工具( )

A. MegaBlast

B. MEGA

C. GPS

D. POA

4. 双序列比对中，全局与局部的优化算法，其核心思想是( )

A.利用已知数据作为训练集，利用迭代的算法进行反复计算，使得结果收敛；

B.根据已知数据，构建PSSM矩阵，再计算Log-odd ratio；

C.采用动态规划算法，计算最优路径,并以此得到比对结果；

D.采用邻接法构建进化树，在进化树的指导下进行双序列比对。

5. 下面何种描述适合Baum-Welch算法( )

A. 双序列比对的局部优化算法；

B. Motif发现的方法之一

C. 对已知的训练数据，采用Viterbi算法计算最佳路径，并重新计算转移概率矩阵，反复计算直至结果收敛，得到优化的HMM模型；

D. 对已知的训练数据，采用Smith-Waterman算法计算最佳路径，并重新计算转移概率矩阵，反复计算直至结果收敛，得到优化的HMM模型；

6. 实验学家在大肠杆菌中发现某种基因A，具有重要的转录调控功能，通过Reciprocal Best Hits的方法，实验学家用BLAST发现在人中基因B为基因A的高度相似基因。那么，人中基因A与基因B的关系为( )

A．旁系同源物 B. 趋同进化 C. 直系同源物 D. 异同源物

7. 下面不属于多序列比对的算法有( )

A. 最大简约法

B. 渐进方法

C. 迭代方法

D. 部分有向图法

8. 下面基于氨基酸的替代模型并进行距离修整的模型有( )

A. Jukes-Cantor法

B. Kimura两参数法

C. 泊松校正

D. Nei-Gojobori法

9. 下面不属于构建进化树的方法有( )

A. 最大似然性法

B. 最大简约法

C．距离法 D. 点阵法

10. 已知密码子CCT, CCC, CCA, CCG都编码Pro(脯氨酸)，并且仅该四个密码子都编码Pro。对于密码子CCC，其潜在的同义位点数目s与非同义位点数目n为

( ) A．s=1/3, n=8/3 B. s=1, n=2

C. s=1/4, n=11/4

D. s=1, n=8/3

二、判断题(每题2分，共20分)

1.PAM250矩阵的构建，其基本假设为当序列变化发生期望上的250%的变化时，

氨基酸之间替代的关系，因此，Dayhoff等人选择序列相似性极低的序列，以此构建了通用的PAM250矩阵( )

2.我们通常使用UniProt数据库来查找基因的DNA序列，并得到序列的FASTA格

式( )

3.BLAST采用了一种称为“k-tup”的算法，搜索两条序列的对角线两边有限的空

间，因此大大节省了计算时间( )

4. MUSCLE是目前被广泛应用的多序列比对工具，其优越性为采用部分有向图的算

法，从而使得运算的时间复杂度大为降低( )

5. Ka/Ks为表征编码区DNA序列是否受到选择压力的主要手段，对于某对基因A

和B，我们通过计算发现Ka/Ks=, 并且通过Fisher’s Exact Text检验后，为统计显著，因此我们可以推测A和B在分化之后受到达尔文的阳性进化选择的压力( )

6. 隐马尔科夫算法中的“隐”，指的是状态之间的转移概率已知，而状态内的发散

概率未知，因此，隐马科夫并不表示所有的概率未知。( )

7. 蛋白质上的模体/motif，一般指长度为几个到几十个氨基酸，并且不具有独立的

三级结构的氨基酸片段。例如SUMO化位点的motif，一般可表示为：ψ-K-X-E.

( )

8. 估算鸟枪法的覆盖率，使用超几何分布的方法能够相当简便的结算出结果。 ( )

9. DNA 突变的模式有四种：替代、插入、缺失和倒位。而DNA 替代又分为转换和

颠换两种。 ( )

10. 中性进化是由Kimura 最早提出，认为绝大多数的突变不好也不坏，并不决定

物种的分化。受达尔文进化所调控的基因约为~1%，这些基因数量虽然很少，却对物种的分化起到了决定性的作用。 ( )

三、综合题(每题10分，共50分)

1. 表观遗传学的研究内容主要包括DNA 的甲基化，组蛋白的乙酰化、甲基化及其

它修饰，染色体重塑以及SiRNA 与MiRNA 调控四个方面。其中DNA 的甲基化发生在基因组的特定位置，通常是-CG-序列中的C 上，C 被化学修饰，引入一个甲基，并很快突变为T 。编码区DNA 上游启动子区域的DNA 甲基化水平的高低，对基因表达量的高低有着重要的影响，一般低甲基化对应基因的高表达，高甲基化则对应基因的低表达。实验学家通过实验鉴定了30条平均长度为1000bp 的DNA 序列，总共鉴定了60个甲基化位点。生物信息学家基于这些实验数据，构建了预测工具，对于新的两条序列M 和N ，长度分别为2000bp 和1500bp ，并预测A 和B 上分别有3个和9个位点。那么，对于预测出来的位点，

若全部是随机产生的概率为多少已知泊松分布的公式为：!

)()(x e x f x μμ-=

2. 对于两条蛋白质序列： AQPPKKE 和LEPKRD ，请分别用(1) Needleman-Wunsch 算法；(2) Smith-Waterman 算法对两条序列作比对；对于Gap 的罚分为8，线性罚分规则；用图示法表明比对过程，并写出比对结果、得分，对于Smith-Waterman 算法，结果表示为单一的比对结果。打分矩阵采用BLOSUM62矩阵，部分矩阵如下：

3. 请用图示法并辅以必要的文字，描述Gibbs 采样抽取序列motif 的过程。这里，假设有n 条序列，长度k ，待抽取的motif 长度为m.

4. 给定一组DNA 序列如下：

CGACCTA CGACGAT CGTCGAA TCTCGAG

(1) 根据上述DNA 序列，请写出一种PSSM 矩阵；

(2) 给定一条新的序列CGTCGAG,计算log-odd ratio ，该例中，四种碱基的背景值都为；

(3) 请计算模体中，第三位和第五位所包含的信息量。

5. 直系同源物(Ortholog)与旁系同源物(Paralog)之间有什么区别请用图示法并辅以必要文字进行描述。

中国科学技术大学

2008--2009学年第1 学期考试试卷

考试科目: 生物信息学得分:__________

学生所在系:___________ 姓名:__________ 学号:___________

一、单项选择题(每题3分，共30分)

1. 下面哪种方法不是基因共表达相关性的分析方法( ) A．Pearson correlation coefficient B. Kendall's tau

C. T-Test

D. Euclidean distance

2. 针对DNA序列的同义与非同义的核苷酸替代，若Ka/Ks=，则可能发生了何种进化过程( )

A. 阳性进化

B. 达尔文进化

C. 阴性进化

D. 中性进化

3. 下面哪种工具不是分子进化树构建工具( )

A. T-Coffee

B. MEGA

C. PAML

D. PHYLIP

4. 隐马尔科夫算法中的Baum-Welch算法，其核心思想是( )

E.采用邻接法构建进化树，在进化树的指导下进行双序列比对；

F.利用已知数据作为训练集，利用迭代的算法进行反复计算，使得结果收敛；

G.根据已知数据，构建PSSM矩阵，再计算Log-odd ratio；

H.采用动态规划算法，计算最优路径,并以此得到比对结果。

5. 不属于DNA突变的模式有( )

A. 倒位；

B. 颠换；

C. 插入；

D. 替代。

6. 利用点阵法不能够做到或发现( )

A．反向回文序列 B. 自身比对 C. 重复序列 D. 序列模体识别

7. 下面哪个数据库是蛋白质数据库( )

A. RefSeq

B. EBI

C. DDBJ

D. GenBank

8. 近年，我校学者与复旦大学研究者合作，在芽殖酵母发现了泛素家族的一个分子化石Urm1,稍后有研究者利用BLAST发现了人类的Urm1，那么人类的泛素蛋白质与人类Urm1的关系是( ) A．直系同源物 B. 趋同进化 C. 旁系同源物 D. 异同源物

9. 下面不属于双序列比对的方法有( )

A. Smith-Waterman算法

B. 距离法

C. Needleman-Wunsch算法

D. 点阵法

10. 已知密码子ATT, ATC, 和ATA编码Ile (异亮氨酸)，而ATG编码Met(甲硫氨酸）。则对于密码子ATC，其潜在的同义位点数目s与非同义位点数目n为

( ) A. s=2/3, n=7/3 B. s=1, n=2

C. s=1/4, n=11/4

D. s=1/3, n=8/3

二、填空题(每空2分，共20分)

1. 使用多序列工具比对两条序列，发现71%的区域相同，若这两条序列为蛋白质

序列，则这两条序列的泊松距离为（）；若两条序列为核

酸序列，则Jukes-Cantor 距离为（）。

2. 给定一组DNA 序列如下（碱基的背景值为）：

CTACTAGC CGACATGG CTACATGG CTTGAAGC

给定一条新的序列CGACAAGC ，其log-odd ratio (以2为底计算数值) 为（）；该组DNA 序列，其第二位的信息量为（），第八位的信息量为（）。

3. 实验学家从1000个4bp 的DNA 序列中鉴定了200个X-box 序列，其中第一位

T 的出现概率为，第二位A 出现的概率为，第三位C 出现的概率为，第四位A 出现的概率为，C 出现的概率为。其他位点出现的概率各自相同。则序列TACA 可能是X-box 的概率为（），序列TACC 可能是X-box 的概率为（）。

4. 蛋白质磷酸化位点的预测是一个重要的生物信息学问题。实验学家以405个磷

酸化蛋白质为训练数据，包含800个实验验证的磷酸化位点和16000个非磷酸化位点，开发了P 工具。利用P 工具做Self-consistency 检验，总共预测出1470个阳性结果，则该工具的灵敏度Sn 为（），特异性Sp 为（），准确性ACC 为（）。

三、综合题(每题10分，共50分)

3. 请用图示法并辅以必要的文字，描述基因表达数据聚类算法K-means clustering

算法的计算流程，假设有N 个基因，拟分成M 类。

4. 基因的5’UTR 区域通常包含调控该基因表达的顺式元件，这些元件主要有启动

子或称转录因子结合位点、增强子、沉默子以及辅助元件等。一般实验学家抽取基因的5’UTR 区域1000~3000bp 的序列，构建到报告基因的5’端，通过分子生物学的方法进行定点突变，从而发现功能性的顺式元件。某实验室构建了80条平均长度为1500bp 的基因5’UTR 的DNA 序列，总共鉴定了360个顺式元件。针对两条新的DNA 序列A 和B ，长度分别为1000bp 和2000bp ，若通过生物信息学的方法预测出A 和B 上分别有7个和2个位点。对预测出的位点，若全部

是随机产生的概率为多少已知泊松分布的公式为: !

)()(x e x f x

μμ-=

5. 对于两条蛋白质序列：SQYYRKD 和LEYKRK ，请分别用(1) Needleman- Wunsch

算法；(2) Smith-Waterman 算法对两条序列作比对；对于Gap 的罚分为8，线性罚分规则；用图示法表明比对过程，并写出比对结果、得分，对于Smith-Waterman 算法，结果表示为单一的比对结果。打分矩阵采用BLOSUM62矩阵，部分矩阵如下：

6. 某实验室拟研究正常细胞与癌症细胞的不同，将正常细胞和癌症细胞的样品分

别点样到包含23，000个人类基因的芯片上，并发现在癌症细胞中表达显著上调的基因有1,132个。进一步做功能分析，发现人类基因中总共有1,521个基因具有某种功能GO ，而在表达量上调的基因中，有49个基因具有该功能。问：该功能GO 在表达量显著升高的基因中是显著出现，显著不出现，还是随机出现要求：写出相关的计算公式，并填入实际数据，不计算最终结果。已知超几何分布的公式：

5. 请列举至少两种多序列比对算法，并简要列出算法的计算过程。

一、参考答案一、单项选择题(每题3分，共30分) CDDCCCACDB

二、判断题(每题2分，共20分)

××√×√×√×√√

三、综合题(每题10分，共50分)

1.P A≈, P B≈

2.(1) Needleman-Wunsch算法

比对结果：

AQPPKKE

LEP-KRD

(2) Smith-Waterman算法

PKKE

PKRD

3.(1) 从每条序列上随即抽取一段序列模体，长度为m；

(2) 构建PSSM矩阵；

(3) 随机挑选一条序列；

(4) 用构建好的PSSM对该序列上所有可能的模体进行打分；

(5) 根据似然性的公式进行计算，得到似然性最大的模体，为新的模体；

(6) 将新的模体替换原有的序列，更新PSSM矩阵；

(7) 反复迭代计算，直至似然性结果与PSSM不再发生变化。

4. (1)

1234567

A0000

T000

C0100

G0000

(2) log-odd ratio=log2(648)=

(3) H3=1 bit

H5= bit

5.直系同源物：两个基因通过物种形成的时间而产生；

旁系同源物：两个基因在同一物种中，通过至少一次基因复制时间而产生。

二、参考答案

三、单项选择题(每题3分，共30分)

CDABBDACBA

四、填空题(每题2分，共20分)

1.,

2., , 1

3.,

4.%, %, %

三、综合题(每题10分，共50分)

1. (1) 随机选取M个点，作为每一个类的中心点

(2) 计算其他点与这M个中心点的距离，将每个点按照离哪个中心点近，归

在哪个类中

(3) 针对每一类中的每一个点，计算其与其他点的距离，加和，除以该类点的

数目，找到新的中心点，即改点到该类中其他点的平均值最小，从而确定新的M个中心点

(4) 重复步骤2, 3，直到结果收敛

(5) 最终结果：N个基因表达数据被聚成M类

2. P(A) = , P(B)=

3.(1) Needleman-Wunsch算法

比对结果：

SQYYRKD

LEYKRK-

得分：13

(2) Smith-Waterman算法

QYYRK EYKRK 得分：22 4.

∑

=???

? ?????? ??-???? ??=≤=-490'113223000'113221479'1521)'(m m m m m P value p 5.

(1) 渐进算法：

a. 将所有序列两两比对，计算距离矩阵

b. 构建邻接进化树(neighbor-joining tree)/指导树(guide tree)

c. 将距离最近的两条序列用动态规划的算法进行比对

d. “渐进”的加上其他的序列

(2) T-coffee 算法：

a. 采用Clustal 程序计算两两序列之间的全局最优比对结果

b. 采用LALIGN 程序计算两两序列之间的局部最优比对的结果

c. 设计加权系统，综合考虑以上两类结果的因素，构建指导库

d. 最后，采用渐进式比对算法，得到最终的结果

生物信息学课堂测验

1.蛋白质的磷酸化是最重要的一种翻译后修饰，实验学家最近鉴定了某个激酶X的底物，总

共20个底物蛋白质，序列平均长度500aa。在这些蛋白质上，总共鉴定了50个位点。基于这些实验数据，生物信息学家构建了相关的计算预测工具。对于给定的两个蛋白质序列A和B，长度分别为500aa和800aa，计算工具预测这两个蛋白质上分别有10和4个潜在的位点。考虑到计算工具本身具有一定的错误率，对于A和B，预测出来的位点，若全部是随机产生的概率为多少(泊松分布)

2.发现细胞有丝分裂过程中参与重要功能的基因，可以通过基因芯片的方法进行研究。某实

验室开展了一项工作，对细胞有丝分裂期不加nocodazole以及加nocodazole两种条件下，对人的21，000基因做表达谱分析。其中发现表达量显著升高的基因为1，532个。进一步做功能分析，发现总共1，236个基因具有某种功能F，而在表达量显著升高的基因中，有32个基因具有该功能F。问：该功能F在表达量显著升高的基因中是显著出现，显著不出现，还是随机出现要求：写出相关的计算公式，并填入实际数据，不计算最终结果。已知超几何分布的公式：（超几何分布）Array 3.实验学家从1500个4bp的DNA序列中鉴定了300个某种X-box序列，其中第一位A的出

现概率为，第二位T出现的概率为，第三位A出现的概率为，第四位C出现的概率为，G 出现的概率为。其他位点出现的概率各自相同。现有两条序列，ATAC和ATAA，两条序列

可能是X-box的概率为多少（贝叶斯公式）

4.对于两条蛋白质序列：IDRRPAE和LDRPAW，请分别用(1) Needleman-Wunsch算法；(2)

Smith-Waterman算法对两条序列作比对；对于Gap的罚分为8，线性罚分规则；用图示法表明比对过程，并写出比对结果、得分。打分矩阵采用BLOSUM62矩阵，部分矩阵如下：

A R D E I L P W

A4-1-2-1-1-1-1-3

R-15-20-3-2-2-3

D-2-262-3-4-1-4

E-1025-3-3-1-3

I-1-3-3-342-3-3

L-1-2-4-324-3-2

P-1-2-1-1-3-37-4

W-3-3-4-3-3-2-411

（全局比对和局部比对）

5.给定一组DNA序列如下：ACTTCCCA

AGTTCCCA

ACTCGGCA

CCTTCGCA

(1) 请根据上述DNA序列，写出两种PSSM; (2) 再给一条新的序列AGTCGCA，计算log-odd ratio，该例中，碱基的背景值都为; (3) 请分别计算第一位和第六位所包含的信息量

6.请用图示法并辅以必要的文字，描述Gibbs 采样抽取序列motif的过程。这里，假设有n

条序列，长度k，待抽取的motif长度为m.

7.请列举至少两种多序列比对算法，并简要列出算法的计算过程。

ClustalX

PRRP

8.请用图示法并辅以必要的文字，描述基因表达数据聚类算法K-means clustering算法的计算

流程，假设有N个基因，拟分成M类。

9.使用多序列工具比对两条序列，发现60%的区域相同，(1) 若这两条序列为蛋白质序列，

请计算泊松距离；(2) 若两条序列为核酸序列，请计算Jukes-Cantor距离。

泊松距离：-ln=

Jukes-Cantor距离：d=-3/4ln(1-4/3p)=

10.给定一组DNA序列如下：

CGACCTC

CACCCTA

CCACCTG

GTACAAC

(1) 请根据上述DNA序列，写出两种PSSM; (2) 再给一条新的序列CCACCTC，计算log-odd ratio，该例中，碱基的背景值都为; (3) 请计算第二位和第三位所包含的信息量。

11.假设基因组上有一种调控信号S，长度和位置不确定。信号S和基因组序列G的碱基分布

频率分别为：

S与G

请用Viterbi算法计算序列AATCCGTA，预测是否存在该调控信号S，并标出相应的位置。

（马尔科夫模型）

12.如果题目三中，假设转移矩阵并不是最终的优化结果，采用Baum-Welch算法，你如何进

行优化这里，假设已经给你若干条实验数据作为训练样本。

13.直系同源物(Ortholog)与旁系同源物(Paralog)之间有什么区别请用图示法并辅以必要文字

进行描述。