文档库 最新最全的文档下载
当前位置:文档库 › 代谢组学数据处理方法_主成分分析

代谢组学数据处理方法_主成分分析

代谢组学数据处理方法_主成分分析
代谢组学数据处理方法_主成分分析

◇专论◇

中国临床药理学与治疗学

中国药理学会主办

CN 3421206/R ,ISSN 100922501

E 2mail :ccpt96@https://www.wendangku.net/doc/8b11259698.html, 2010May ;15(5):481-489

2010203211收稿 2010204224修回E 2mail :ajiye333@hot https://www.wendangku.net/doc/8b11259698.html,

代谢组学数据处理方法———主成分分析

阿基业

中国药科大学药代动力学重点实验室&代谢组学研究室,南京210009,江苏

摘要 代谢组学在生命科学领域得到了越来越

广泛的应用并展现出良好的前景。代谢组学分析产生的含有大量变量的数据难以用常规方法进行分析,如何正确分析和解释代谢组学的数据是研究的关键。本文主要介绍了在代谢组学数据分析中占主导地位的主成分分析基本方法,旨在加强代谢组学数据分析的基础知识并规范数据分析的方法。关键词 代谢组学;主成分分析;偏最小二乘投影关联分析;偏最小二乘投影判别分析;正交偏最小二乘投影分析

中图分类号:R969.1文献标识码:A

文章编号:100922501(2010)0520481209代谢组学(metabolomics 或metabonomics )是“后基因组学”时期新兴的一门学科,“代谢组学”一词虽然常以“metabonomics ”或“metabolo 2mics ”出现,但多数学者通常并不对其加以严格区分,绝大多数情况下这两个词被认为包含了等同的意义。根据研究的内容、目的、偏重点和对代谢

组学的认识不同,代谢组学被赋予了不同的英文

名称,如代谢物分析(metabolite p rofiling )、代谢谱分析(metabolic profiling )、代谢指纹谱分析(metabolic fingerp rinting )等;根据分析的目标化合物不同,还可以分为目标化合物分析(targeting analysis )和(无设定目标的)全谱分析(non -tar 2geting analysis )。无论采用了哪种名称和说法,代谢组学的研究对象都是体内“代谢组”

(metabo 2lome ,即生物样本、系统、组织或细胞中小分子化合物的总称)。不管采用哪种测定方法,应用代谢

组学技术都可以测定到许多内源性化合物的定性/定量信息。这些信息在输出的谱图上表现为许多信号峰,在色谱质谱图上表现为不同保留时间出现色谱峰,在核磁共振谱图上表现为不同化学位移处的色谱信号。每个信号峰都既包含了检测分子的定性/结构信息,也包含了定量信息。以气相色谱-质谱检测为例,样品中的分子经过数十米长的石英毛细管色谱柱色谱分离后在色谱图上的不同时间出现,输出的总离子流图上的每个色谱峰都包含该物质定性信息(质谱图)和定量信息(峰高或峰面积),图1。对于特定化合物来说,其定性信息就是该化合物的特征谱图和色谱保留时间,是化合物鉴定的基础;其定量信息就是该化合物的色谱响应强度,如峰高、峰面积,是定量比较不同样品或组别之间差异的基础

中国药科大学药物代谢动力学重点实验室&代谢组学研究室副研究员,

主要从事药物代谢动力学、代谢组学、代谢性疾病发病机制、与代谢相关的药效或药物毒性的分子机制等方向的研究。

?

184?

由于每分析一个样品都出现大量(通常数百甚至数千个)色谱峰,这些色谱峰包括氨基酸、脂肪酸、脂、小分子有机酸、核苷、嘌呤化合物、氨类化合物、糖醇类化合物、神经递质,还有许多暂时无法鉴定的分子。无论是来源于气相色谱-质谱(GC/MS )、液相色谱质谱(L C/MS )、核磁共振(NMR )波谱,最终所得到的定量数据都将构成一

个如表1所示的数据集,该表第一列为样品名/观测对象(observation );第一行为色谱峰/化合物(即检测变量,variables )或特定保留时间(MS 数

据)或特定化学位移(NMR 数据),对应之处为色谱定量数据。这样每个样品的特征就由同一行中

的众多定量数据所决定,而各个样品之间或者各组样品之间差异的程度取决于上述定量数据。然而,由于数据量非常大,采样常规统计分析方法既难以发现样品之间或各组之间的异同,也难以发现样品中的哪些变量(分子)造成上述差异。因此代谢组学数据需要特殊方法加以分析。通常情况下,可以采用主成分分析(也称模式识别)、聚类分析、神经元网络分析等方法进行分析,其中应用最为广泛的是主成分分析方法[1]。由于主成分分析方法比较抽象,并不为许多代谢组学研究者所熟悉,本文希望用最简洁、易懂的语言介绍主成分分析的原理和常规分析方法

图1 G C/T OFMS 测定血浆和血清的总离子流图

A :plasma ;

B :serum.The compounds were identified as :1,Pyruvate ;2,Alanine ;3,Hydroxy -acetate ;4,Lactate ;5,3-Hydroxy 2butyrate ;6,Valine ;7,Urea ;8,Isoleucine ,Proline ;9,G lycine ;10,Serine ;11,Threonine ;12,Pyroglutamate ;13,Creatinine ;14,Phenylalanine ;15,G lutamine ;16,glutamate ;17,Citrate ;18,G lucose ;19,Uric acid ;20,Linoleic acid ;21,Oleic acid ;22,Trypto 2phan ,stearate ;23,gamma -Tocopherol ;24,Cholesterol.

1 主成分分析的原理

下面就以表1数据为基础介绍主成分分析方法的原理。假如该组数据中样品数为n ,检测到的色谱峰/或变量数为m 。那么,这个原始数据表的几何含义就代表了在一个m 维空间中分布着n 个点,每个样品的位置由其对应的一组变量(矢量)所确定。因代谢组学可以检测许多色谱峰/变

量,m 数目通常很大,由此原始数据产生的数学模型无法直观地发现样品或组别之间差异,这时

就可以考虑用投影的方法对上述(多维空间)模型进行降维处理以化繁为简。主成分分析是一种基于投影技术的数据分析方法[2]。在模型计算时首先利用最小二乘法原理找到一条直线使所有样品距离该直线的残差平方和最小,而投影在此数轴方向的矢量平方和最大,那么该直线方向也就体

?

284?Chin J Clin Pharmacol Ther 2010May ;15(5)

现了样品间最大差异,由此得到第一个主成分(PC1);在此基础上,沿着与前一个主成分直线垂直方向找到其次差异最显著的直线,得到第二个主成分(PC2),如此反复。通过这种方式,抛弃细小的、无序的差异,保留最大的、有序的差异,最终得到只有少数几个主成分的数学模型,并使数据变得简单并容易理解和展示。这里以二维空间为例介绍主成分分析的方法。如图2所示:数据分布在一个二维空间中,但显然,若以原有的横轴或纵轴为主成分方向,所有样品点距离它们的残差平方和不可能最小,在这两个方向上也没有实现各样品在横轴或纵轴投影的方差最大,因此也就

不能很好地表现该组数据最大差异特征。为了最大限度地体现数据的分布特征,所选择的直线必须包含各点的在该数轴上投影的最大方差,如图2所示能体现数据最大方差的应为直线PC1(新X 轴),假设数据的重心(坐标原点)在O 点,数据点Pi 在直线PC1上的投影点为OMi ,所有样品在PC1上的投影数据的总方差最大,由下式计算:

S 2=|OM 1|2+|OM 2|2+…+|OM i |2

而所有样品距离PC1方差和为最小,由下式计算:Sd 2=|P 1M 1|2+|P 2M 2|2+…+|P i M i |

2

表1 

代谢组学数据表

图2 主成分的计算和分析原理示意图

主成分的计算即是逐次寻找直线使所有样品距离该直线的最小二乘方差和最小、样品投影到PC1上的方差和最大。

经过一次计算后,产生的新数据为[|OM 1|、

|OM 2|…|OM i |],这组数据包含了原始数据中的最大部分特征信息,称作第一主成分。除此之外,因为仍有部分重要信息未被包含进来,可再找一条与第一主成分垂直的一维直线,选取方差最大那条进行数据投影即PC2(新Y 轴),得到第二主成分和数据[|ON 1|、|ON 2|…|ON i |]。甚至第三、第四个主成分。根据对模型的不同要求,一般说来选取的前面几个主成分,使其对总体方差的累计贡献率达到80%以上即可。但对于需要进行准确描述/预测的特殊模型该比例要适当提高。

由上可知,主成分是原始变量按一定的权重

?

384?中国临床药理学与治疗学2010May ;15(5)

线性组合之后而产生的新变量,这些变量具有如下特征:(1)每个主成分通常代表了一类具有相似特征的变量并体现了它们的综合特点;(2)第一个主成分包含了原始数据的最大差异,第二个之成分次之,以此类推;(3)这些主成分所在的直线都是相互垂直(正交)。通常情况下用前面少数几个主成分即可最大限度地描述/解释数据特点/结构。这样依据前两个或三个主成分做出平面或三维图,就可以直观地表现原始数据所代表的样本状态。通过主成分分析所得到的图谱中,每一个样本在主成分图上的位置纯粹由不同色谱峰/变量的定量数据所决定。而具有相似病理、生理状态的样本往往含有相近浓度的代谢产物,因而出现在主成分图的相近位置,反之亦然。

2 数据的权重

值得重视的是,代谢组学数据在进行主成分分析之前,常需要对数据进行适当权重/转换。因为代谢组学数据中所含有的变量通常取值范围大、变异也大。如果直接采用主成分分析这种最大化差异投影的方法,往往造成绝对数值大、变异较大的变量在模型拟合中的贡献占主导地位,而绝对数值范围小、变异小的变量对模型的贡献也小。为了消除这种偏重,可以对数据进行合理的权重(weighting)或缩放(scaling)。虽然有多种权重的方法,但主成分分析以等方差法(UV,u2 nit variance)最为常用。其方法是先计算每一个检测变量的标准偏差(standard deviation,Sk),获得权重因子为Sk的倒数(1/Sk),然后对此变量乘以1/Sk进行权重。经过如此权重后使每个变量均具有相同的方差,不造成对变量的歧视,有利于数据的分析和比较。在成功地“均方差”后,再计算每个变量的平均值,用每个变量数据减去该平均值就可以使数据均匀分布在0轴附近,这个过程称作平均值中心化(mean-centering)。数据经过上述两个步骤处理后通常可以提高模型的有效性和预测能力。以Simca-P软件为例,上述的数据预处理过程是其默认方式。该软件还提供了其它权重方法,详见有关参考书籍。

3 PCA模型的得分图和载荷图

PCA分析可以得到两类分布图,一种常称为得分图(scores plot)。由于PCA分析是建立在同一个数据集X基础上,经过投影方法计算PCA 第一个主成分后,可以得到各个样品点在第一个主成分上的得分t1,再得到各个样品点第二个主成分上的得分t2,如图3。各个样品在各个主成分的得分就是其在计算的数学模型中的空间坐标,自然也就决定了其在模型中的具体位置,并直观地反映了各个样品在数学模型空间中的分布情况。从PCA得分图可观察样品的聚集、离散程度。样品分布点越靠近,说明这些样品中所含有的变量/分子的组成和浓度越接近;反之,样品点越远离,其差异越大。因此得分图也可以更形象地称为样品分布散点图。在采用GC/MS分析血浆和血清中小分子差异时,PCA模型显示两组样品分别分布在不同区域,说明即使相同来源的血浆与血清存在明显差别(图3)。从图3还可以看出血清样品相对集中,说明血清样品组内差异较小;而血浆样品分散较多,说明血浆样品之间差异较大。另一方面,PCA模型还可以反映样品随时间连续动态变化过程。由于全血在体外温孵过程中,存活在全血中的细胞在继续消耗营养物质并产生代谢产物,因此经过温孵不同时间制备的血浆或者血清代谢谱出现了连续的动态变化(图4)

图3 PCA分析血浆与血清样品的得分图(样品分布散点图)

P:plasma;S:serum;M:male;F:female

PCA分析的目的不仅仅是发现样品之间的异同,更重要的是在大量数据中发现造成上述差异的具体分子。这些分子可以为深入研究样品的内在差异、寻找生物标志物、研究疾病的发病机理、药物作用的机理、药物毒性发生机理等提供重要信息。与得分图相对应,PCA分析中还可以得到载荷图(Loadings Plot),载荷图表示了所检测

?

4

8

4

?Chin J Clin Pharmacol Ther2010May;15(5)

的变量(如MS 中色谱峰、NMR 中的化学位移)分布情况,载荷图中的变量分布与得分图中样品分布和位置相对应(图5)。利用PCA 模型,可以比较容易地从大量变量中鉴定出在样品间或组间差异化合物,然后只对这些差异进行进一步鉴定。避免了逐个对所有化合物进行统计分析的麻烦,提高了分析效率。当然,采用载荷图寻找差异化合物是一个比较简便、粗略的方法,对差异化合物的显著性检验最终的标准仍然是常规的统计分析方法,如T 检验、方差分析等

图4 PCA 分析血浆与血清样品在温孵不同时间后的得分图(样品分布散点图)

发现全血温孵前后(0、1、2、3、4小时)制备的血浆或者血清分布散点出现连续自上而下的动态变化,提示PCA 方法可以表现样品内分子的连续动态变化过程。P :plasma ;S :serum.P0;□,

P1;○,P2;◇,P3;△,P4;■,S1;●,S2;◆,S3;▲,S4.

4 模型的验证

经过PCA 计算出的数学模型是否可靠需要进行严格的验证。不可靠的数学模型不仅不能很好地描述代谢组学数据特点,还可能严重影响正确结果的获得甚至误导分析结果。交叉验证(Cro ss -Validation )是检验PCA 模型有效性的一种实用可靠的方法[1]。交叉验证的基本思想是先利用一部分数据建立模型,预测另外一部分不参与模型计算的数据,将预测值和真实值之间进行比较。此预测值与观察值之差的平方和即预测残差平方和(p redictive residual sum of squares ,PRESS ),此参数是度量测试模型的预测能力的

指标。以SIMCA -P 软件为例,每计算一个主成分就会得到一个PRESS 值,将其与前面低一维数学模型的残差平方和(RSS )进行比较,当PRESS 明显大于RSS 时,说明新计算的主成分没有意义,模型计算即终止。

以SIMCA 2P 为例,模型的验证主要参考R 2、Q 2等参数,R 2是所解释的模型差异,Q 2

是所预测

的模型差异。R 2、Q 2

计算方法如下:

R 2=1-RSS/SSX ;Q 2

=1-PRESS/SSX (其中SSX 表示平均值中心化后模型数据的总变异)

R 2

比较容易理解,但模型如何能得到一个预

测值?事实上,在计算PCA 模型时,软件(如

SIMCA P )通常把数据随即分成7组,用其中6组数据作为基础计算一个基本模型,用此模型来预测另外一组的准确程度,并反复多次,得到Q 2值。

因此,理论上说R 2、Q 2

数值越接近1说明模型越好,越低说明模型的拟合准确性越差,通常情况

下,R 2、Q 2

高于0.5(50%)较好,且两者差值不应

过大。应当注意,R 2、Q 2

值与主成分的数目密切有

关,通常情况下,选择的主成分越多,R 2、Q 2值也越大,当增加主成分只能增加R 2而Q 2值不再增加时就应该终止计算新的主成分,因为继续增加主成分对模型不再有意义。这里需要特别注意模型是否拟合过度,过度拟合也会导致模型的失真,

此部分内容可以参考相关文献。

5 无监督分析和有监督分析

在不对样品加以分组的情况下进行数据分析

的方法称为无监督分析方法(un -supervised a 2nalysis )。这种方法因没有外加任何人为因素,计算出的PCA 模型反映了数据的原始状态,有利于了解数据的整体情况并对数据从整体上进行把握,特别有利于发现和剔除异常样品,提高模型的准确性。因无监督分析的方法对所有样品不加以区分,即每个样品都对模型有着同样的贡献,因此,当样品的组间差异较大,而组内差异较小时,无监督分析方法可以明显区分组间差异;而当样品的组间差异不明显,而组内差异较大时,无监督分析方法难以发现和区分组间差异。另外,如果组间的差异较小,各组的样本量相差较大,样本量大的那组将会主导模型。这种情况下,无监督分析难以得出正确的结论。究其原因,关键在于无监督分析方法不能忽略组内误差、消除与研究目的无关的随机误差,过分关注于细节、忽略了整体和规律,最终不利于发现组间差异和差异化合物,而这一点恰恰是代谢组学研究的最重要的目的。

?

584?中国临床药理学与治疗学2010May ;15(5)

这个问题可以通过采用有监督分析(supervised analysis )的方法加以解决。有监督分析就是先将检测样品按照类别进行分组,再进行分析,这时在计算数学模型时计算机就把各组加以区分,忽略组内的随机差异,突出组间系统差异。以代谢组学数据处理中最常用的软件SIMCA -P 为例,将上述图4中男性和女性血清样品按照无监督分析方法(PCA )进行分析,发现该模型不能有效区分血清的性别差异(图6A );而该组数据采用有监督分析方法进行分析,如选择偏最小二乘投影判别(Partial least squares projection to latent st ruc 2t ure 2discriminant analysis ,PL SDA )法进行分析,得到的样品分布散点图显示两组样品区分显

著(图6B ),说明血清样品存在明显的性别差异

图5 无监督分析方法(PCA)和有监督分析方法(PLS 2

DA)对相同数据进行分析后的不同效果

A :无监督分析方法(PCA )不能有效区分血清的性别差异;

B :有

监督分析方法(PL SDA )

分析显示两组样品区分显著。

图6 无监督分析方法(PCA)和有监督分析方法(P LSDA)对相同数据进行分析后的不同效果

A :无监督分析方法(PCA )不能有效区分血清的性别差异;

B :有监督分析方法(PL SDA )分析显示两组样品区分显著。

6 异常样品的鉴别

采用主成分方法进行数据分析时,需要注意

是否有特别异常的样品。因为异常的样品可能严重影响模型结构,导致模型严重失真。异常样品常是因为各种因素所引起,可能是样品自身因素(如该样品受到污染、病人伴随其它严重疾病、遗传学异常),也有可能是在处理过程中外界因素(如人为处理不当、仪器偶然测定误差)等引起。一般情况下,在大量样品中出现个别异常样品是正常现象,可以通过剔除加以解决,但当发现异常样品过多(达到或超过样品总数的5%),就应该考虑到实验设计和样品等因素,样品不能随意加以剔除。

特别异常的样品可以通过无监督分析的分布散点图加以鉴别,而一般异常的样品可以通过计算各个样品与模型距离(Distance to model ,

Dmodx )是否超过限定值(P =0.05)来确定。以

样品分布散点图为例,异常样品还可以分为两类,一类是明显不同于所有研究样品,如图4中的PM7,在该项研究中除PM7外,所有志愿者年龄均在24~30岁之间,采集了空腹静脉血,PM7是惟一一个餐后采集血液,且年龄超过40岁的志愿者。另一类是明显不同于同组样品,却近似于其它组样品,如图7中的5893也是异常样品。因为根据实验小鼠的类别,所有■小鼠均为野生型小鼠,而●均为超氧化歧化酶(SOD )基因敲除小鼠。该研究结果公布后引起了有关专家的强烈质疑,但随后的遗传学检查发现5893为基因敲除不完全(即杂合子)小鼠。证明代谢组学能较好地描述体内分子状态,在进行数据分析时,这类异常样品在分组分析时必须剔除。

?

684?Chin J Clin Pharmacol Ther 2010May ;15(5)

7 偏最小二乘投影关联分析(partial least squares project to latent structure,PLS)[1]

与PCA分析的原理相同,PL S利用偏最小二乘法对数据结构进行投影分析。但PL S与PCA 数据有本质的不同,PCA分析方法中只有一个数据集X,所有分析都只是基于这个唯一的数据集,对应于一个多维空间。而PL S分析是建立两个数据集X和Y基础上的,因此也对应地存在两个多维空间,在利用投影方法计算PL S第一个主成分后,分别得到X和Y空间的两条轴线以及各个样品点在X和Y空间轴上的得分t1、u1。对X 和Y数据的关联分析就是将所有样品在X和Y 空间第一个主成分轴上的得分t1、u1分别作相关分析,可以表示为u i1=t i1+r i1,i表示不同样品, r i1表示残差。对应地,经过第二个主成分计算可以得到的t2、u2,有关系式u i2=t i2+r i2,i表示不同样品,r i2表示残差。如果用t1、t2对应作图得到数据集X的PCA得分图,如果用u1、u2对应作图得到数据集Y的PCA得分图。而如果用t1、u1作图就表示第一个主成分下数据集X与数据集Y相关性,如果各点呈现出一条成45度角的直线,说明两组数据完全相关。相反,如果散点不呈线性、分布松散,说明两组数据关联不强。与PCA的载荷图(变量分布散点图)相类似,PL S可以用权重方式对X、Y数据集中的变量进行相关联,找出变量之间的关系。如在SIMCA-P软件中,以w作为X数据集权重,c作为Y数据集的权重,第一个主成分可以得到X、Y数据综合权重w3c[1],第二个主成分可以得到X、Y数据综合权重w3c,以w3c[1]、w3c[2]作图就可以直观地显示两个数据集的变量之间相关性。这一点在研究药物构效关系、构动关系、疾病高危因素、实验设计关键因素、变量的变化规律等方面十分有用。

在代谢组学研究中,X往往是代谢组学检测得到的数据集,Y可以是试验设计的因变量,也可以是目标变量(如临床数据),PL S就是采用关联的方法分析X、Y数据集并发现规律性。例如我们在筛选最佳提取溶剂提取血浆中内源性小分子时,将实验设计方案中的有机溶剂不同组成作为Y数据集[3],而把GC/TOFMS检测结果作为X 数据集,进行PL S分析。w3c[1]、w3c[2]作图发现甲醇有利于血浆中绝大部分分子的提取[3] (图8)。t1、u1作图分析显示右上角的21、14、18、24、29、9、17进样号的样品提取效率最高(图9),且X数据集与Y数据集呈现较好相关性

图7 无监督分析模式(PCA)可以发现明显异常的样品PCA分析显示●5893_1与●5893_2明显不同于同组的其它超氧化歧化酶(SOD)基因敲除小鼠,

判断是第二类异常样品。

图8 X数据集变量与Y数据集变量之间对应关系PLS 分析图(w3c[1]-w3c[2])

大部分化合物(X数据集变量)靠近右侧甲醇(Y数据集变量)位置,说明甲醇有利于血浆中绝大部分分子的提取(Jiye A,et al. Analytical Chemistry,2005,77,8086-8094.

)

图9 X数据集与Y数据集之间整体对应关系P LS分析图(t1-u1)

提示右上角的21、14、18、24、29、9、17样品提取效率高,而左下角效率低(Jiye A,et al.Analytical Chemistry,2005,77,8086-8094)

?

7

8

4

?

中国临床药理学与治疗学2010May;15(5)

8 偏最小二乘投影判别分析(PL SDA)

与PCA原理相似,偏最小二乘判别分析(discriminant analysis,DA)只需要一个数据集X,但在分析时必须对样品进行指定并分组,这样分组后模型自动加上另外一个隐含的数据集Y,该数据集变量数等于组别数,赋值时把指定的那一组规定为1,其它所有值均为0。其它计算方法与PL S相同。这种模型计算的方法强行把各组分门别类,有利于发现组间的异同点。例如上述的图7,PCA方法无法区分的样品在PL SDA模型中比较容易加以区分。

9 噪音滤除与正交偏最小二乘投影分析

不管采用何种测定方法检测样品,监测器总是将所有设定范围内的信号全部记录下来,因此最终得到的色谱图或解析结果中总是含有一些与研究无关的干扰信号。这些可能是样品处理过程中带入的杂质或产生的副产物,也可能是仪器检测的噪音(电流)干扰。滤除这些噪音有助于发现最重要的变量,减少不必要的分析鉴定工作,并在模型拟合时提高模型的有效性。正交偏最小二乘数据内在结构投影法(Ort hogonal-PL S,O PL S)可以用于滤除与研究对象无关的噪音,是PL S方法的一种变化特例。即,O PL S将PL S中Y数据集减少为只有一个变量,而这个变量在比较的两组中的值被设定为一个极大、一个极小。这样, OPL S分析实际上就将原始数据矩阵X中系统差异分成两个部分,一部分变量与回归矩阵Y线性相关,另外一部分变量与回归矩阵线性无关,即正交(ort hogonal)[2]。通过这种方式建立新的OPL S模型可以增强模型的有效性和对新样品的预测能力。

10 正交2偏最小二乘投影判别分析(O2 PL SDA)

常规的PL S使用X创建Y模型,目标是根据X模型来预测Y模型。然而,数据表X与Y不相关的系统变量可影响PL S分析模型,这可能使得表X、Y中的某些正相关被忽略。正交偏最小二乘投影分析方法(ort hogonal-PL S,O PL S)将正交信号校正方法(ort hogonal signal correction, OSC)与PL S进行结合从而对PL S进行修正的分析方法,与OPL S相同,O PL SDA根据数据表Y的差异将数据表X的差异分为两个部分,第一部分代表与Y相关的差异,第二部分代表与Y 不相关(正交垂直)的差异,O PL SDA可将这两部分差异进行区分。设计它是为了控制与Y直交或者无关的X的变化并加以滤除。同过这种方式,O PL SDA可以更好地区分组间差异,提高模型的有效性和解析能力。

下面我们举一个例子来说明OPL SDA与PL SDA的差别。利用NMR分析正常男女血清代谢图谱的差异。在获取样本时,为了保持样本的均一性,对受试者的饮食、生活方式等都作了严格的规定,但因为在实际操作中很难达到完全的一致性。为了尽量减少其它因素对试验结果的影响,分别用OPL SDA与PL SDA对正常男女的血清代谢图谱进行分析并进行比较,结果显示PL S2 DA得分图中两组样品不能很好区分,而O PL S2 DA得分图中的两组区分显著[4],即OPL SDA明显提高了模型的分辨能力(图10)

图10 OPLSDA与PLSDA对两组样品数据分别进行分析后效果图

A:PL SDA;B:OPL SDA(冒海蕾,等.化学学报,2007,65(2):152-158)

?

8

8

4

?Chin J Clin Pharmacol Ther2010May;15(5)

参考文献

[1] Eriksson L ,Johansson E ,Kettaneh -Wold N ,et

al.Multi -and megavariate data analysis principles and applications [D ].Umeatrics Academy ,Umet 2rics AB ,Sweden.2001.

[2] Trygg J ,Holmes E ,L undstedt T.Chemometrics in

metabonomics[J ].J Proteome Res ,2007,6(2):

469-479.

[3] A J ,Trygg J ,Gullberg J ,et al.Extraction and

GC/MS analysis of the human blood plasma

metabolome [J ].Analytical Chemistry ,2005,77

(24):8086-8094.

[4] 冒海蕾,徐旻,王斌,等.正交信号校正在正常成人

血清1H NMR 谱的代谢组分析中的滤噪作用评价

[J ].化学学报,2007,65(2):152-158.

Analysis of metabolomic data :principal component analysis

Jiye Aa

Key L ab of D ru g Metabolism an d Pharm acoki netics &L ab of Metabolomics ,Chi na Pharm aceutical Uni versit y ,N anj i ng 21009,J i angs u ,Chi na

ABSTRACT Metabolomics has been widely ap 2plied to life science and showing a promising per 2spective.Conventional statistic analysis is not applicable to t he large ,multivariate dataset gen 2erated by high -t hroughp ut metabolo mic tool ,while it ’s of crucial importance to analyze and in 2terp ret t he dataset.This article reviews t he basic met hods of principal component s analysis (PCA )t hat is pop ular in metabolomics st udy ,aiming at st rengt hening t he f undamental knowledge of

PCA and standardizing t he met hods and p roce 2dures for data analysis.

KEY WOR DS Metabolomics ;Principal compo 2nent s analysis (PCA );Partial least squares pro 2ject to latent st ruct ure (PL S );Partial least squares p roject to latent st ruct ure -discriminant analysis (PL S -DA );Ort hogonal partial least squares p roject to latent st ruct ure (OPL S )

本文编辑:余文涛

《中国临床药理学与治疗学》2010年征订启事

本刊为中国科学技术协会主管,中国药理学会主办的全国性、学术性刊物,国家科技部中国科技论

文统计源期刊,中国科技核心期刊。月刊,幅面尺寸280mm ×205mm ,120页,CN3421206/R ,ISSN100922501。以从事新药研究、临床药理学与治疗学工作的高中级医疗、科研、教学人员为主要读者对象。设有专论、综述与讲座、基础研究、定量药理学(包括药代动力学、药效动力学及药物临床评价等)、临床药理学(包括药物基因组学及药物蛋白组学等)、药物治疗学、短篇报道、读者?作者?编者等栏目。2008年已被下列数据库收录:世界卫生组织(W HO )全球医学索引、中国知网、万方数据库、维普资讯、中国科协科技期刊论文数据库、中文生物医学期刊文献数据库(CMCC )、中国学术期刊文摘等。本刊国内邮发代号:26-165,国外邮发代号:2501Q 。每期订价12元,全年144元。全国各地邮政局(所)均可办理订阅手续。也可随时汇款至本刊编辑部订阅。

地址:安徽省芜湖市弋矶山医院内 中国临床药理学与治疗学杂志社

邮编:241001

电话:(0553)5738350、5739333E 2mail :ccpt96@https://www.wendangku.net/doc/8b11259698.html,

网址:https://www.wendangku.net/doc/8b11259698.html,

?

984?中国临床药理学与治疗学2010May ;15(5)

代谢组学的数据分析技术

代谢组学的数据分析技术 摘要:代谢组学是效仿基因组学和蛋白质组学的研究思想,对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化的相对关系的研究方式,是系统生物学的组成部分。其研究对象大都是相对分子质量1000以内的小分子物质。先进分析检测技术结合模式识别和专家系统等计算分析方法是代谢组学研究的基本方法。文章主要综述了将代谢组学中的图谱、数据信息转换为相应的参数所采用的分析方法。 关键词:代谢组学;数据分析方法 代谢组学是以代谢物分析的整体方法来研究功能蛋白如何产生能量和处理体内物质,评价细胞和体液内源性和外源性代谢物浓度及功能关系的新兴学科,是系统生物学的重要组成部分,其相应的研究能反映基因组、转录组和蛋白组受内外环境影响后相互协调作用的最终结果,更接近反映细胞或生物的表型,因此被越来越广泛地应用。而代谢组学的数据分析包括预处理和统计分析方法,多元统计分析方法主要分为两大类:非监督和监督方法,非监督方法包括主成分分析PCA;聚类分析CA等;监督方法包括显著性分析、偏最小二乘法等,本文就是主要综述代谢组学图谱信息转化为参数信息所采用的数据分析方法。 1预处理 数据的预处理过程包括以下:谱图的处理;生成原始的数据矩阵;数据的归一化以及标准化处理过程。针对实验性质、条件以及样品等因素采用不同的预处理方法。在实际应用过程中,预处理可以通过实验系统自带的软件如XCMS软件。进行,因此一般较容易获得所需的数据形式。 2数据分析方法 2.1 主成分分析PCA是多元统计中最常用的一种方法,它是在最大程度上提取原始信息的同时对数据进行降维处理的过程,其目的是将分散的信息集中到几个综合指标即主成分上,有助于简化分析和多维数据的可视化,进而通过主成分来描述机体代谢变化的情况。PCA 的具体过程是通过一种空间转换,形成新的样本集,按照贡献率的大小进行排序,贡献率最大的称为第一主成分,依次类推。经验指出,当累计贡献率大于85%时所提取的主成分就能代表原始数据的绝大多数信息,可停止提取主成分。在代谢组数据处理中,PCA是最早且广泛使用的多变量模式识别方法之一。,具有不损失样品基本信息、对原始数据进行降维处理的同时避免原始数据的共线性问题等优点,但在实际应用过程中,PCA存在着自身的缺点[1]:离群样本点的存在严重影响其生物标志物的寻找;非保守性的代谢组分扰乱正确的分类以及尺度的差异影响小浓度组分的表现等,其他的问题之前也有讨论[2]。针对PCA 的缺陷采用了不同的改进措施,与此同时,为了简化计算,侯咏佳等[3]。提出了一种主成分分析算法的FPGA实现方案,通过Givens算法和CORD IC算法的矢量旋转,用简单的移位和加法操作来实现协方差矩阵的特征分析,只需计算上三角元素,因此计算复杂度小、迭代收敛速度快。 2.2 聚类分析CA是用多元统计技术进行分类的一种方法。其主要原理是:利用同类样本应彼此相似,相类似的样本在多维空间里的彼此距离应较小,而不同类的样本在多维空间里的

代谢组学的研究方法和研究流程

代谢组学的研究方法和研究流程分子微生物学112300003林兵 随着人类基因组计划等重大科学项目的实施,基因组学、转录组学及蛋白质组学在研究人类生命科学的过程中发挥了重要的作用,与此同时, 代谢组学(metabolomics)在20世纪90年代中期产生并迅速地发展起来,与基因组学、转录组学、蛋白质组学共同组成系统生物学。基因组学、转录组学、蛋白质组学和代谢组学等各种组学0在生命科学领域中发挥了重要的作用,它们分别从调控生命过程的不同层面进行研究, 使人们能够从分子水平研究生命现象, 探讨生命的本质, 逐步系统地认识生命发展的规律.这些组学手段加上生物信息学, 成为系统生物学的重要组成部分。 代谢组学的出现和发展是必要的, 同时也是必须的。对于基因组学和蛋白质组学在生命科学研究中的缺点和不足, 代谢组学正好可以进行弥补。代谢组学研究的是生命个体对外源性物质(药物或毒物)的刺激、环境变化或遗传修饰所做出的所有代谢应答, 并且检测这种应答的全貌及其动态变化。代谢组学方法为生命科学的发展提供了有力的现代化实验技术手段, 同时也为新药临床前安全性评价与实践提供了新的技术支持与保障. 1 代谢组学的概念及发展 代谢组学最初是由英国帝国理工大学Jeremy N icholson教授提出的,他认为代谢组学是将人体作为一个完整的系统,机体的生理病理过程作为一个动态的系统来研究, 并且将代谢组学定义为生物体对病理生理或基因修饰等刺激产生的代谢物质动态应答的定量测定。2000年,德国马普所的Fiehn等提出了代谢组学的概念,但是与N ichols on提出的代谢组学不同, 他是将代谢组学定位为一个静态的过程,也可以称为/代谢物组学, 即对限定条件下的特定生物样品中所有代谢产物的定性定量分析。同时Fiehn还将代谢组学按照研究目的的不同分为4类: 代谢物靶标分析,代谢轮廓(谱)分析, 代谢组学,代谢指纹分析。现在代谢组学在国内外的研究都在迅速地发展, 科学家们对代谢组学这一概念也进行了完善, 作出了科学的定义: 代谢组学是对一个生物系统的细胞在给定时间和条件下所有小分子代谢物质的定性定量分析,从而定量描述生物内源性代谢物质的整体及其对内因和外因变化应答规律的科学。 与基因组学、转录组学、蛋白质组学相同, 代谢组学的主要研究思想是全局观点。与传统的代谢研究相比, 代谢组学融合了物理学、生物学及分析化学等多学科知识, 利用现代化的先进的仪器联用分析技术对机体在特定的条件下整个代谢产物谱的变化进行检测,并通过特殊的多元统计分析方法研究整体的生物学功能状况。由于代谢组学的研究对象是人体或动物体的所有代谢产物, 而这些代谢产物的产生都是由机体的内源性物质发生反应生成的,因此,代谢产物的变化也就揭示了内源性物质或是基因水平的变化,这使研究对象从微观的基因变为宏观的代谢物,宏观代谢表型的研究使得科学研究的对象范围缩小而且更加直观,易于理解, 这点也是代谢组学研究的优势之一. 代谢组学的优势主要包括:对机体损伤小,所得到的信息量大,相对于基因组学和蛋白质组学检测更加容易。由于代谢组学发展的时间较短, 并且由于代谢组学的分析对象是无偏向性的样品中所有的小分子物质,因此对分析手段的要求比较高, 在数据处理和模式识别上也不成熟,存在一些不足之处。同时生物体代谢物组变化快, 稳定性较难控制,当机体的生理和药理效应超敏时,受试物即使没有相关毒性,也可能引起明显的代谢变化,导致假阳性结果。 代谢组学应用领域大致可以分为以下7个方面:

SPSS进行主成分分析的步骤(图文)精编版

主成分分析的操作过程 原始数据如下(部分) 调用因子分析模块(Analyze―Dimension Reduction―Factor),将需要参与分析的各个原始变量放入变量框,如下图所示:

单击Descriptives按钮,打开Descriptives次对话框,勾选KMO and Bartlett’s test of sphericity选项(Initial solution选项为系统默认勾选的,保持默认即可),如下图所示,然后点击Continue按钮,回到主对话框: 其他的次对话框都保持不变(此时在Extract次对话框中,SPSS已经默认将提取公因子的方法设置为主成分分析法),在主对话框中点OK按钮,执行因子分析,得到的主要结果如下面几张表。 ①KMO和Bartlett球形检验结果:

KMO为0.635>0.6,说明数据适合做因子分析;Bartlett球形检验的显著性P值为 0.000<0.05,亦说明数据适合做因子分析。 ②公因子方差表,其展示了变量的共同度,Extraction下面各个共同度的值都大于0.5,说明提取的主成分对于原始变量的解释程度比较高。本表在主成分分析中用处不大,此处列出来仅供参考。 ③总方差分解表如下表。由下表可以看出,提取了特征值大于1的两个主成分,两个主成分的方差贡献率分别是55.449%和29.771%,累积方差贡献率是85.220%;两个特征值分别是3.327和1.786。 ④因子截荷矩阵如下:

根据数理统计的相关知识,主成分分析的变换矩阵亦即主成分载荷矩阵U 与因子载荷矩阵A 以及特征值λ的数学关系如下面这个公式: λi i i A U = 故可以由这二者通过计算变量来求得主成分载荷矩阵U 。 新建一个SPSS 数据文件,将因子载荷矩阵中的各个载荷值复制进去,如下图所示: 计算变量(Transform-Compute Variables )的公式分别如下二张图所示:

代谢组学在医药领域的应用与进展

代谢组学在医药领域的应用与进展 一、学习指导 1.学习代谢组学的概念及内涵,掌握代谢组学的研究对象与分析方法。 2.熟悉代谢组学数据分析技术手段 3.了解代谢组学优势特点 4.了解代谢组学在医药领域的应用 5.了解代谢组学发展趋势 二、正文 基因组功能解析是后基因组时代生命科学研究的热点之一,由于基因功能的复杂性和生物系统的完整性,必然要从“整体”层面上来理解构成生物体系的各个模块功能。随着新的测量技术、高通量的分析方法、先进的信息科学和系统科学新理论的发展,加上生物学研究的深入和生物信息的大量积累,使得在系统水平上研究由分子生物学发现的组件所构成的生命体系成为可能[1]。系统生物学家们认为,将生命科学上升为“综合”科学的时机已经成熟,生命科学再次回到整合性研究的新高度,逐步由分子生物学时代进入到系统生物学时代[2]。系统生物学不同以往的实验生物学仅关注个别基因和蛋白质,它要研究所有基因、蛋白质,代谢物等组分间的所有相互关系,通过整合各组成成分的信息,以数学方法建立模型描述系统结构[3,4]。 (一)代谢组学的概念及内涵 代谢组学是继基因组学、转录组学和蛋白质组学之后,系统生物学的重要组成部分,也是目前组学领域研究的热点之一。代谢组学术语在国际上有两个英文名,即metabolomics 和metabonomics。Metabolomics是由德国的植物学家Fiehn等通过对植物代谢物研究提出来的,认为代谢组学(metabolomics)是定性和定量分析单个细胞或单一类型细胞的代谢调控和代谢流中所有低分子量代谢产物,从而监测机体或活细胞中化学变化的一门科学[5]。英国Nicholson研究小组从毒理学角度分析大鼠尿液成份时提出了代谢组学(Metabonomics)的概念,认为代谢组学是通过考察生物体系受扰动或刺激后(如某个特定基因变异或环境变化后),其代谢产物的变化或代谢产物随时间的变化来研究生物体系的代谢途径的一种技术[6]。国内的代谢组学研究小组基本用metabonomics一词来表示“代谢组学”。严格地说,代谢组学所研究的对象应该包括生物系统中所有的代谢产物。但由于实际分析手段的局限性,只对各种代谢路径底物和产物的小分子物质(MW<1Kd)进行测定和分析。 (二)代谢组学优势特点 代谢组学作为系统生物学的一个重要组成部分,代谢组可以更好地反映体系表型生物机体是一个动态的、多因素综合调控的复杂体系,在从基因到性状的生物信息传递链中,机体需通过不断调节自身复杂的代谢网络来维持系统内部以及与外界环境的正常动态平衡[7]。

SPSS主成分分析操作步骤,详细的很啊^_^==

SPSS主成分分析操作步骤,详细的很啊^_^ SPSS在调用Factor Analyze过程进行分析时,SPSS会自动对原始数据进行标准化处理,所以在得到计算结果后指的变量都是指经过标准化处理后的变量,但SPSS不会直接给出标准化后的数据,如需要得到标准化数据,则需调用Descriptives过程进行计算。 图表 3 相关系数矩阵

图表 4 方差分解主成分提取分析表 主成分分析在SPSS中的操作应用(3) 图表 5 初始因子载荷矩阵

从图表3可知GDP与工业增加值,第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系,与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强,证明他们存在信息上的重叠。 主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。注:特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1作为纳入标准。通过图表4(方差分解主成分提取分析)可知,提取2个主成分,即m=2,从图表5(初始因子载荷矩阵)可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷,说明第一主成分基本反映了这些指标的信息;人均GDP和农业增加值指标在第二主成分上有较高载荷,说明第二主成分基本反映了人均GDP和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息,所以决定用两个新变量来代替原来的十个变量。但这两个新变量的表达还不能从输出窗口中直接得到,因为“Component Matrix”是指初始因子载荷矩阵,每一个载荷量表示主成分与对应变量的相关系数。用图表5(主成分载荷矩阵)中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数[2]。将初始因子载荷矩阵中的两列数据输入(可用复制粘贴的方法)到数据编辑窗口(为变量B1、B2),然后利用“TransformàCompute Variable”,在Compute Variable对话框中输入“A1=B1/SQR(7.22)” [注:第二主成分SQR后的括号中填1.235],即可得到特征向量A1(见图表6)。同理,可得到特征向量A2。将得到的特征向量与标准化后的数据相乘,然后就可以得出主成分表达式[注:因本例只是为了说明如何在SPSS进行主成分分析,故在此不对提取的主成分进行命名,有兴趣的读者可自行命名]: F 1=0.353ZX 1 +0.042ZX 2 -0.041ZX 3 +0.364ZX 4 +0.367ZX 5 +0.366ZX 6 +0.352ZX 7 +0.364ZX 8+0.298ZX 9 +0.355ZX 10

主成分分析计算方法和步骤

主成分分析计算方法和步骤: 在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。 主成分分析的应用目的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。 主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征根和特征向量; ④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。 结合数据进行分析 本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了0.963,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。 表5-6 相关系数矩阵 本科院校 数招生人数教育经费投入 相关性师生比0.279 0.329 0.252 重点高校数0.345 0.204 0.310 教工人数0.963 0.954 0.896 本科院校数 1.000 0.938 0.881 招生人数0.938 1.000 0.893

代谢组学技术在烟草研究中的应用进展_王小莉

2016-02,37(1)中国烟草科学 Chinese Tobacco Science 89 代谢组学技术在烟草研究中的应用进展 王小莉,付博,赵铭钦*,贺凡,王鹏泽,刘鹏飞 (河南农业大学烟草学院,国家烟草栽培生理生化研究基地,郑州 450002) 摘要:简述了作为研究植物生理生化和基因功能新方法的代谢组学在烟草研究中的主要技术流程及其应用现状,归纳了不同生态环境和不同组织中烟草代谢物差异及产生原因,总结了生物和非生物胁迫及化学诱导处理等条件下的烟草生理生化变化及相关基因功能。最后提出了目前烟草代谢组学研究所面临的问题,并指出与其他组学整合应用是代谢组学在烟草研究领域的发展趋势。 关键词:烟草;代谢组学;胁迫;化学诱导;基因功能 中图分类号:S572.01 文章编号:1007-5119(2016)01-0089-08 DOI:10.13496/j.issn.1007-5119.2016.01.016 Research of Metabolomics in Tobacco WANG Xiaoli, FU Bo, ZHAO Mingqin*, HE Fan, WANG Pengze, LIU Pengfei (College of Tobacco Science, Henan Agricultural University, National Tobacco Physiology and Biochemistry Research Center, Zhengzhou 450002, China) Abstract: Metabolomics has been considered one of the most effective means of investigating physiological and biochemical processes and gene function of plants. Here we review the main process of metabolomics and its application status in tobacco research, the regulation mechanisms of physiological and biochemical reactions when tobacco responds to different environmental, biotic and abiotic stresses, chemically induced processes and genetic modifications. Finally, issues of critical significance to current tobacco metabolomics research are discussed and it is noted that integration with other omics is the trend of metabolomics research in tobacco. Keywords: tobacco; metabolomics; stress; chemical induction; gene function 代谢组学与基因组学、转录组学和蛋白质组学分别从不同层面研究生物体对环境或基因改变的响应,它们都是系统生物学的重要组成部分。植物代谢组学是21世纪初产生的一门新学科,主要通过研究植物的次生代谢物受环境或基因扰动前后差异来研究植物代谢网络和基因功能[1-2]。与微生物和动物相比,植物的独特性在于它拥有复杂的代谢途径,目前发现的次生代谢产物达20万种以上[3]。代谢物差异是植物对基因或环境改变的最终响应[4],因此,对代谢物进行全面解析,探索相关代谢网络和基因调控机制,是从分子层面深入认识植物生命活动规律的一个重要环节[5-7]。 烟草不仅是重要的经济作物,同时还是一种重要的模式植物,作为生物反应器在研究植物遗传、发育、防御反应和转基因等领域中具有重要意义[8-10]。烟草代谢物非常丰富,目前从烟叶中已鉴定出3000多种[11],且代谢物理化性质和含量差异较大,给烟草化学及代谢规律研究带来挑战。传统的烟草化学主要集中于研究某一类化学成分或某几种重要物质,如萜类[12]、生物碱类[13]、多酚类等[14],这很难全面地系统地阐述烟草代谢网络。随着系统生物学的发展,烟草越来越广泛地被用于基因组学、转录组学、蛋白质组学和代谢组学的研究中,例如采用系统生物学的方法找出 基金项目:中国烟草总公司浓香型特色优质烟叶开发(110201101001 TS-01);上海烟草集团责任有限公司“浓香型特色优质烟叶风格定位研究及样品检测”(szbcw201201150) 作者简介:王小莉(1983-),女,博士研究生,主要从事烟草生理生化研究。E-mail:xiaoliwang325@https://www.wendangku.net/doc/8b11259698.html, *通信作者,E-mail:zhaomingqin@https://www.wendangku.net/doc/8b11259698.html, 收稿日期:2015-09-09 修回日期:2015-11-19

主成分分析法及其在SPSS中的操作

一、主成分分析基本原理 概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。 思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。 原理:假定有n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵, 记原变量指标为x 1,x 2,…,x p ,设它们降维处理后的综合指标,即新变量为 z 1,z 2,z 3,… ,z m (m ≤p),则 系数l ij 的确定原则: ①z i 与z j (i ≠j ;i ,j=1,2,…,m )相互无关; ②z 1是x 1,x 2,…,x P 的一切线性组合中方差最大者,z 2是与z 1不相关的x 1,x 2,…,x P 的所有线性组合中方差最大者; z m 是与z 1,z 2,……,z m -1都不相关的x 1,x 2,…x P , 的所有线性组合中方差最大者。 新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x P 的第1,第2,…,第m 主成分。 从以上的分析可以看出,主成分分析的实质就是确定原来变量x j (j=1,2 ,…, p )在诸主成分z i (i=1,2,…,m )上的荷载 l ij ( i=1,2,…,m ; j=1,2 ,…,p )。 ?????? ? ???????=np n n p p x x x x x x x x x X 2 1 2222111211 ?? ??? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111............

代谢组学分析系统技术指标

代谢组学分析系统 1.工作条件: 1.1 电压:220V(±10%)单相,50Hz(±1)。 1.2 环境温度:19-22o C 1.3 相对湿度:<70% * 2.设备用途和基本组成 2.1 仪器用途:所提供仪器为高分辨率,高灵敏度、高通量的分析系统,配以 专业的数据分析处理软件构成代谢组学专用分析系统,从而快速 寻找标记物。 2.2 仪器组成 2.2.1 仪器由超效液相色谱-四极杆/二级碰撞室/飞行时间质谱组成的系统,和 专用代谢组学分析软件以及代谢物分析软件构成,具有先进的中医药代 谢组学研究分析功能。 * 2.2.2 质谱主机要求配置同一厂家生产的液相色谱仪,具有良好的兼容性。 * 2.2.3 具备准确质量测定功能 准确质量测定的内标必须有独立于实测样品的通道进入离子源,内标不得 干扰实际样品的数据结果,并且质量准度<2ppm。 2.2.4 真空系统 要求完全被保护的多级真空系统,具有自动断电保护功能,采用分子涡轮 泵。离子源和质谱间有隔断阀。便于源清洗和日常维护。 * 2.2.5 碰撞室具有两级碰撞功能。分为以下部分: 捕获富集单元:具有离子传输富集、碰撞室两种功能 传输单元:具有离子传输、碰撞室两种功能 * 2.2.6 检测器 检测器由单个微通道板离子计数检测,可检测正负离子和采集MS和 MS/MS的数据, TDC转换速率>4.0 GHz。 * 2.2.7 数据采集和处理系统 工作站用于仪器控制和采集, 1024MB RAM, 200GB硬盘,DVD-ROM,

刻录光盘驱动器,1.44MB 3.5英寸软驱。 软件基于Windows XP 操作系统的应用软件包括集成化的仪器控制、数据处理等软件,代谢组学分析软件以及代谢物分析软件等。 3 仪器的详细技术指标 3.1 液相色谱仪 * 液相色谱仪必须是能够耐超高压(1000bar)的超高效液相色谱仪(UPLC)。3.1.1 可编程二元梯度泵。 溶剂数量:4 流速范围:0.010 - 2mL/min,步进0.001mL/min, 流速精度:< 0.075% RSD,流速准确度:±1%, 泵耐压:0 - 15000psi(1000bar) 梯度设定范围:0 - 100% *系统延迟体积:< 120uL 3.1.2 二极管阵列检测器 波长范围:190-700nm. *测量范围:0.0001~4.0000AUFS *采样速率:40点/秒 流通池:500nl低扩散 3.1.3 自动进样器系统 样品数量:96孔板、384孔板、24x4ml瓶、48x2ml瓶 进样范围:0.1- 50 μL, “针内针”样品探针。 温度范围:4-40摄氏度 3.1.4 在线脱气系统 真空脱气:六通道在线脱气机 3.1.5 柱加热系统 控温范围:室温+5---65摄氏度 3.1.6 专用色谱柱; * 1.7μ, 2.1 mm x 50 mm Column

代谢组学研究中数据处理新方法的应用

代谢组学研究中数据处理新方法的应用 李 晶1 ,吴晓健1 ,刘昌孝 1,23 ,元英进 1 (1.天津大学化工学院制药工程系,天津300072; 2.天津药物研究院药物动力学与药效动力学省部共建国家重点实验室,天津300193) 摘要:目的 探索代谢组学研究中数据处理的新方法。方法 本文提出了在代谢组学数据预处理中,用稳健 PCA 的方法进行离群样品点的诊断,用变量的类内差异和类间差异的比较来判断非保守性代谢组分,用尺度同一化 的方法进行数据预处理来消除数据的尺度差异。并以A rabidopsis thaliana 属的四个基因型的植株代谢组学的数据为例,用以上的方法进行数据预处理后再用PC A 的方法分析。结果与结论 研究表明这三种数据预处理方法的应用会明显的改善代谢组学生物信息学分析中聚类分析的结果和生物标志物识别的准确性及全面性。 关键词:代谢组学;离群样本点诊断;非保守性代谢组分;数据尺度同一化;主成分分析法中图分类号:R969.1 文献标识码:A 文章编号:0513-4870(2006)01-0047-07 收稿日期:2005203220. 基金项目:科技部国家重点基础研究发展计划(973计划)资助 项目(2004CB518902);国家高技术研究发展计划(863计划)资助项目(2003AA2Z347D ). 3 通讯作者 Tel:86-22-23006863,Fax:86-22-23006860, E 2mail:liuchangxiao@https://www.wendangku.net/doc/8b11259698.html, Appli cati on of new method for dat a processi n g i n met abono m i c studi es L I J ing 1 ,WU Xiao 2jian 1 ,L I U Chang 2xiao 1,23 ,Y UAN Ying 2jin 1 (1.D epart m ent of Phar m aceutical Engineering,Institute of Che m ical Engineering,Tianjin U niversity,Tianjin 300072,China;2.S tate Key L aboratory of Phar m acokinetics and Phar m acodynam ics,T ianjin Institute of Phar m aceutical R esearch,Tianjin 300193,China ) Abstract:A i m T o search f or and app licati on of ne w method for data p r ocessing in metabonom ic studies .M ethods The paper p r oposed that in the p r ocessing of metabonom ic data,r obust PCA method can be used t o diagnose outliers;and unstable variables judged by comparis on bet w een difference within class and difference a mong classes should be excluded bef ore data analysis;moreover,the data should be p r operly scaled before further p r ocessing .The p r oposed methods were used t o p rep r ocess metabol om ic data of four genoty pes of the A rabidopsis tha liana p lants .Results and Conclusi on The outcome de monstrated that the app licati on of these methods can obvi ously i m p r ove clustering and bi omarker identifying results . Key words:metabol om ics;outlier diagnosis;unstable metabolite;data p re 2scaling;p rinci p le component analysis 代谢物组学是以代谢物分析的整体方法来研究功能蛋白如何产生能量和处理体内物质,其代谢物则以生化活性直接体现作用的结果,也就是说代谢物组学是评价细胞和体液的内源性和外源代谢物浓度与功能关系的学科[1~4] 。代谢物组学的出现,特别在药物安全性研究中的应用,认为该新兴的学科分支会对药物安全性研究产生革命性的影响。它与 药物的药效和毒性筛选和评价研究、作用机制研究和合理治疗用药密切相关。代谢物组是反应机体状况的分子集合,所有对机体健康影响的因素均可反映在代谢物组中,基因、环境、营养、药物(外源物)和时间(年龄)最终通过代谢物组对表达施加影响。代谢物组是评价健康和治疗的合适的分子集合。因 此研究代谢物组学对药物治疗有直接意义[4~9] 。 代谢组学是定量分析生物系统对机体反应或基因改变所产生的动态的、多参数应答的一项新发展 的技术[10] 。它可有效地应用于生物系统的机制研究及生物系统的生产优化研究中,代谢组学与代谢工程方法的联合在生物工程中的应用已显示出巨大 的潜力[11,12] 。代谢组学通常以核磁共振光谱 ? 74?药学学报Acta Phar maceutica Sinica 2006,41(1):47-53

代谢组学综述

代谢组学综述 摘要:代谢组学是20世纪90年代中期发展起来的对某一生物或细胞所有低相对分子质量代谢产物进行定性和定量分析的一门新学科,由于其广泛的应用前景,目前已成为系统生物学的重要组成部分。现简要介绍了代谢组学的含义、代谢组学研究的历史沿革、当前代谢组学研究中的分析技术、数据解析方法,综述了代谢组学在药物毒理学研究、疾病诊断、植物和中药等领域的应用情况,并对当前代谢组学研究中存在的问题及发展趋势进行探讨。 关键词:代谢组学研究技术 随着人类基因组计划等重大科学项目的实施,基因组学、转录组学及蛋白质组学在研究人类生命科学的过程中发挥了重要的作用, 与此同时, 代谢组学(metabolomics)在20世纪90年代中期产生并迅速地发展起来, 与基因组学、转录组学、蛋白质组学共同组成系统生物学。基因组学、转录组学、蛋白质组学和代谢组学等各种组学0在生命科学领域中发挥了重要的作用, 它们分别从调控生命过程的不同层面进行研究, 使人们能够从分子水平研究生命现象, 探讨生命的本质, 逐步系统地认识生命发展的规律。这些组学手段加上生物信息学, 成为系统生物学的重要组成部分。 代谢组学的出现和发展是必要的, 同时也是必须的。对于基因组学和蛋白质组学在生命科学研究中的缺点和不足, 代谢组学正好可以进行弥补。代谢组学研究的是生命个体对外源性物质(药物或毒物)的刺激、环境变化或遗传修饰所做出的所有代谢应答, 并且检测这种应答的全貌及其动态变化。代谢组学方法为生命科学的发展提供了有力的现代化实验技术手段, 同时也为新药临床前安全性评价与实践提供了新的技术支持与保障。 1 代谢组学的概念及发展 代谢组学最初是由英国帝国理工大学Jeremy N icholson教授提出的, 他认为代谢组学是将人体作为一个完整的系统, 机体的生理病理过程作为一个动态的系统来研究, 并且将代谢组学定义为生物体对病理生理或基因修饰等刺激产生的代谢物质动态应答的定量测定。2000年, 德国马普所的Fiehn等提出了代谢组学的概念, 但是与N icholson提出的代谢组学不同, 他是将代谢组学定位为一个静态的过程, 也可以称为/代谢物组学, 即对限定条件下的特定生物样品中所有代

主成分分析法的步骤和原理 (1)

(一)主成分分析法的基本思想 主成分分析(Principal Component Analysis )是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。[2] 采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。 (二)主成分分析法代数模型 假设用p 个变量来描述研究对象,分别用X 1,X 2…X p 来表示,这p 个变量构成的p 维随机向量为X=(X 1,X 2…X p )t 。设随机向量X 的均值为μ,协方差矩阵为Σ。对X 进行线性变化,考虑原始变量的线性组合: Z 1=μ11X 1+μ12X 2+…μ1p X p Z 2=μ21X 1+μ22X 2+…μ2p X p …… …… …… Z p =μp1X 1+μp2X 2+…μpp X p 主成分是不相关的线性组合Z 1,Z 2……Z p ,并且Z 1是X 1,X 2…X p 的线性组合中方差最大者,Z 2是与Z 1不相关的线性组合中方差最大者,…,Z p 是与Z 1,Z 2 ……Z p-1都不相关的线性组合中方差最大者。 (三)主成分分析法基本步骤 第一步:设估计样本数为n ,选取的财务指标数为p ,则由估计样本的原始数据可得矩阵X=(x ij )m ×p ,其中x ij 表示第i 家上市公司的第j 项财务指标数据。 第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。 第三步:根据标准化数据矩阵建立协方差矩阵R ,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。其中,R ij (i ,j=1,2,…,p )为原始变量X i 与X j 的相关系数。R 为实对称矩阵 (即R ij =R ji ),只需计算其上三角元素或下三角元素即可,其计算公式为: 2211)()() ()(j kj n k i kj j kj n k i kj ij X X X X X X X X R -=--=-=∑∑ 第四步:根据协方差矩阵R 求出特征值、主成分贡献率和累计方差贡献率,确定主成分个数。解特征方程0=-R E λ,求出特征值λi (i=1,2,…,p )。 因为R 是正定矩阵,所以其特征值λi 都为正数,将其按大小顺序排列,即λ1≥λ2≥…≥λi ≥0。特征值是各主成分的方差,它的大小反映了各个主成分的影响力。主成分Z i 的贡献率W i =∑=p j j j 1λλ,累计贡献率为

主成分分析操作步骤

主成分分析操作步骤 1)先在spss中录入原始数据 袁幌0 KMCi 删曲唇亶馳卜DG(W S^njRtJJ 11口辿J KU删 吕叫? r茗命窗?n靂二?1 a 15柞mjj 和啊r fJl I 111 1芋砂1a Q X X目 2險£g 2壬无8 3>SB壬9 4申料皺咱 B Z X a t8 2±@ &一:jfi fulfil9 2£X9 ?寓咽8 ?E9 2)菜单栏上执行【分析】一一【降维】一一【因子分析】,打开因素分析对话框,将要分析的变量都放入【变量】窗口中

3)设计分析的统计量 点击【描述】:选中“ Statistics ”中的“原始分析结果”和“相关性矩阵”中的“系数”。(选中原始分析结果,SPSS自动把原始数据标准差标准化,但不显示出来;选中系数,会显示相关系数矩阵)然后点击“继续”。 点击【抽取】:“方法”里选取“主成分”;“分析”、“输出”、“抽取”均选中各自的第一个选项即可。

点击【得分】:选中“保存为变量”,方法中选“回归”;再选中 V 尿存为穽昼腔} 「方法 -------------- ◎目甘砂 < Bartlett C Ardorson-F?ubin 点击【选项】:选择“按列表排除个案”。 点击【旋转】:选取第一个选项“无”。 (当因子分析的抽取方法选择主成分法时,且不进 “显示因子得分系数矩阵” 行因子旋转,则其结果即为主成分分析)

4)结果解读 5) A.相关系数矩阵:是6个变量两两之间的相关系数大小的方阵。通过相关系数可以看到各个变量之间的相关,进而了解各个变量之间的关系。 B.共同度:给出了这次主成分分析从原始变量中提取的信息,可以看出交通和通讯最多,而娱乐教育文化损失率最大。 C.总方差的解释:系统默认方差大于1的为主成分。如果小于1,说明这个主因素的影响力度还不如一个基本的变量。所以只取前两个,且第一主成分的方差为3.568,第二主成分的方差为1.288,前两个主成分累加占到总方差的80.939%<

浅谈最常用的代谢组学分析方法

代谢组学是一门对某一生物或细胞所有低分子质量代谢产物(以相对分子质量<1000的有机和无机的代谢物为研究核心区)进行分析的新兴学科。生物样本通过NMR、GC-MS、LC-MS等高通量仪器分析检测后,能产生大量的数据,这些数据具有高维,少样本、高噪声等复杂特征,同时代谢物多且代谢物之间联系密切,因此从复杂的代谢组学数据中确定与所研究的现象有关的代谢物,筛选出候选生物标记物成为代谢物组学研究的热点和难点。 代谢组学分析数据用于统计分析时,数据集通常为一个N ×K 的矩阵(X矩阵),N表示N个样本数,每一行代表一个样品,K表示K个变量,每一列代表一个变量,在代谢组学中变量通常是指代谢物含量。常用的分析方法如图1所示: 数据分析方法 单变量分析 多变量分析差异倍数分析 显著性检验 无监督分析 有监督分析 PLS-DA PCA OPLS-DA 图1 代谢组学常用的数据分析方法 单变量分析 单变量分析方法仅分别分析单个变量,不考虑多个变量的相互作用与内在联系。具有简单性、易应用性和可解释性。但是无法基于整

体数据对所测样品的优劣、差异进行综合评价和分析。 (1)差异倍数分析 差异倍数变化大小(Fold Change,FC)表示实验组与对照组的含量比值,可以快速考察各个代谢物在不同组别之间的含量变化大小。(2)显著性检验 p值即概率,反映某一事件发生的可能性大小,用于区分该变量是否具有统计显著性,通常认为p<0.05具有统计显著性。常用的检验方法有t-test、方差分析(Analysis of Variance,ANOVA),但是由于代谢组学的变量较多,必要时需要进行多重假设检验,对p值进行校正,减少Ⅰ类错误,降低假阳性。 多变量分析 多变量分析方法能同时处理数百或数千个变量,并且能处理变量之间的相互关系。利用变量之间的协方差或相关性,使原始数据在较低维空间上的投影能尽可能地捕获数据中的信息。但是如果存在大量无信息变量可能会妨碍多变量分析的能力,无信息变量的数量越多,减少真阳性数量的效果就越显著。 多变量分析分为无监督分析方法和有监督分析方法。在代谢组学分析中无监督学习有主成分分析(Principal Component Analysis,PCA),只需要数据集X,而有监督分析方法主要是偏小二乘判别分析(Partial Least Squares Discrimination Analysis, PLS-DA)和正交偏小二乘判别分析(Orthogonal Partial Least Squares

植物代谢组学的研究方法及其应用

植物代谢组学的研究方法及其应用 近年来,随着生命科学研究的发展,尤其是在完成拟南芥(Arabidopsis thaliana) 和水稻(Oryza sativa) 等植物的基因组测序后,植物生物学发生了翻天覆地的变化。人们已经把目光从基因的测序转移到了基因的功能研究。在研究DNA 的基因组学、mRNA 的转录组学及蛋白质的蛋白组学后,接踵而来的是研究代谢物的代谢组学(Hall et al.,2002)。代谢组学的概念来源于代谢组,代谢组是指某一生物或细胞在一特定生理时期内所有的低分子量代谢产物,代谢组学则是对某一生物或细胞在一特定生理时期内所有低分子量代谢产物同时进行定性和定量分析的一门新学科(Goodacre,2004)。它是以组群指标分析为基础,以高通量检测和数据处理为手段,以信息建模与系统整合为目标的系统生物学的一个分支。 代谢物是细胞调控过程的终产物,它们的种类和数量变化被视为生物系统对基因或环境变化的最终响应(Fiehn,2002)。植物内源代谢物对植物的生长发育有重要作用(Pichersky and Gang,2000)。植物中代谢物超过20万种,有维持植物生命活动和生长发育所必需的初生代谢物;还有利用初生代谢物生成的与植物抗病和抗逆关系密切的次生代谢物,所以对植物代谢物进行分析是十分必要的。 但是,由于植物代谢物在时间和空间都具有高度的动态性(stitt and Fernie,2003)。尤其是次生代谢物种类繁多、结构迥异,且产生和分布通常有种属、器官、组织以及生长发育时期的特异性,难于进行分离分析,所以人们一直在寻找更为强大的检测分析工具。在代谢物分析领域,人们已经提出了目标分析、代谢产物指纹分析、代谢产物轮廓分析和代谢表型分析、代谢组学分析等概念。20世纪90年代初,Sauter 等(1991)首先将代谢组分析引入植物系统诊断,此后关于植物代谢组学的研究逐年增多。随着拟南芥等植物的基因组测序完成以及代谢物分析手段的改进和提高,今后几年进入此研究领域的科学家和研究机构将越来越多。 1研究方法 代谢组学分析流程包括样品制备、代谢物成分分析鉴定和数据分析与解释。由于植物中代谢物的种类繁多,而目前可用的成分检测和数据分析方法又多种多样,所以根据研究对象不同,采用的样品制备、分离鉴定手段及数据分析方法各不相同。 1.1样品制备 植物代谢物样品制备分为组织取样、匀浆、抽提、保存和样品预处理等步骤(Weckwerth and Fiehn,2002)。代谢产物通常用水或有机溶剂(如甲醇和己烷等)分别提取,获得水提取物和有机溶剂提取物,从而把非极性的亲脂相和极性相分开。分析之前,通常先用固相微萃取、固相萃取和亲和色谱等方法进行预处理(邱德有和黄璐琦,2004)。然而植物代谢物千差万别,其中很多物质稍受干扰结构就会发生改变,且对其分析鉴定所采用的设备也不同。目前还没有适合所有代谢物的抽提方法,通常只能根据所要分析的代谢物特性及使用的鉴定手段选择合适的提取方法。而抽提时间、温度、溶剂成分和质量及实验者的技巧等诸多因素也将影响样品制备的水平。 1.2成分分析鉴定

相关文档
相关文档 最新文档