文档库 最新最全的文档下载
当前位置:文档库 › 基于主成分分析法的苹果酒香气质量评价模型的构建

基于主成分分析法的苹果酒香气质量评价模型的构建

基于主成分分析法的苹果酒香气质量评价模型的构建
基于主成分分析法的苹果酒香气质量评价模型的构建

第23卷第6期2007年6月农业工程学报T r ansactions of the CSA E V ol.23 N o.6June 2007

基于主成分分析法的苹果酒香气质量评价模型的构建

岳田利,彭帮柱,袁亚宏,高振鹏,张 菡,赵志华

(西北农林科技大学食品科学与工程学院,杨凌712100)

摘 要:利用顶空法固相微萃取与气相色谱质谱联用(HS-SP M E-G C-M S)测定了12种苹果酒中的部分重要香气成分,利用主成分分析法建立了苹果酒香气质量评价模型,并用该模型对12种苹果酒香气质量进行了评价,结果表明苹果酒S 12的香气质量最好;进一步通过感官评价法对模型评价结果进行了检验,结果表明2种方法具有很好的一致性,表明该文提出的方法是可行的,为果酒香气质量的评价探索了一种新的途径。关键词:苹果酒;感官评价;HS-SP M E-G C-M S;主成分分析法

中图分类号:T S 207.3 文献标识码:A 文章编号:1002-6819(2007)6-0223-05

岳田利,彭帮柱,袁亚宏,等.基于主成分分析法的苹果酒香气质量评价模型的构建[J].农业工程学报,2007,23(6):223-227.

Y ue T ianli ,P eng Bangzhu ,Y uan Ya ho ng ,et al .M o deling of ar oma quality ev aluat ion of cider based on pr incipa l component analysis[J].T ransactio ns o f the CSAE ,2007,23(6):223-227.(in Chinese w ith Eng lish abstr act )

收稿日期:2006-11-30 修订日期:2007-04-29

基金项目:国家农业科技跨越计划(2005-4.1);国家“十一五”科技支撑计划(2006BAK02A24)

作者简介:岳田利(1965-),男,陕西宝鸡人,教授,博士生导师,主要从事食品生物工程与食品安全研究。杨凌 西北农林科技大学食

品科学与工程学院,712100。Em ail :ytl 6503@https://www.wendangku.net/doc/6a1699708.html,

0 引 言

苹果酒是一种发酵产品,它的香气主要由酯类、高级醇类、低级脂肪酸类、醛酮类、萜烯类等构成[1]。香气是评价苹果酒品质的一个重要指标,也是苹果酒典型风味的重要组成部分,还是决定苹果酒类型的主要依据之一。国内外研究者们采用不同的定性或定量的方法已经鉴定出许多种对决定苹果酒风味有贡献的物质。苹果酒香气形成的原因十分复杂,它除了原料本身的香气,发酵过程中产生的香气和陈酿过程中形成的香气外,还受生产过程中外来香气、发酵和陈酿过程中容器香气等影响[2]。国外研究者自从20世纪40年代就开始对苹果酒的香气进行研究,随着分析仪器和分析技术的不断提高,在剖析苹果酒香气物质组成方面取得了很大的进展,但是由于构成苹果酒香气的物质种类极多,且含量微少,对于各种香气物质对苹果酒总体香气质量的影响,还亟待进一步加强研究。目前,对苹果酒香气的评价主要是采用感官评价法来进行的[3],由于感官评价法受到评酒人员的主观、环境等因素的影响,其客观性受到一定程度的限制

[4,5]

。由于香气成分是决定苹果酒质量

的主要因素,所以研究与分析苹果酒香气质量的客观评价方法和体系极为重要,对于丰富和完善苹果酒的质量

评价体系具有重要的意义。主成分分析法是将原来指标重新组成一组新的互相无关的几个综合指标来代替原

来指标,利用几个较少的综合指标反映原来指标的一种统计方法,已广泛应用在许多领域[6-9]。鉴于此,本文提出利用主成分分析法来建立苹果酒香气质量的评价模型,通过对酒样香气组分进行客观的统计分析,以期找到一种比传统感官评价法较为客观的评价方法。

1 材料与方法

1.1 试验材料

试验所用的12种不同苹果酒样,由不同品种(陕西产)的苹果和不同酵母酿造而成,其中,酒精度10.8%~12.5%,总糖< 4.0g /L (以葡萄糖计),酸度3.2~5.6g /L(以苹果酸计)。1.2 试验方法

1.2.1 苹果酒香气测量方法

1)苹果酒香气富集方法。利用顶空法固相微萃取(HS -SPM E )法进行香气富集,取一个装有磁力搅拌器的15mL 顶空瓶,用无菌移液管加入8mL 待分析的苹果酒样和2.0g N aCl,然后再加入0.1mL 2-辛醇做内标,45℃平衡10min,插入PDM S 纤维头45℃吸附15min ,GC 解吸2m in ,用于GC -M S 分析[4,10]。

2)气相色谱(GC)、质谱(M S)工作条件。色谱条件为:色谱柱为DB-Wax (30m ×0.25mm ×0.25L m),程序升温:40℃保持3m in,以5℃/min 的升温速度升至120℃,再以8℃/min 的升温速度升至230℃,保持10min 。载气为He ,体积流量为1mL /m in ,进样口温度为250℃。质谱条件为:EI 电离源,电子能量为70eV,灯丝

223

流量为0.20mA。检测器电压为350V。扫描范围为33~450AMU,离子源温度为200℃[4,10]。

3)定性定量方法。未知化合物根据其质谱利用计算机检索NIST质谱库(107k co mpo unds)和Wiley质谱库(320k compounds,versio n6.0),匹配度大于800(最大值1000)的组分给予定性。采用内标法定量。以2-辛醇为内标,它在苹果酒中的最终浓度为0.5mg/mL,以苹果酒中常见的二十几种代表性酯类、醇类和酸类物质测定它们对2-辛醇的相对峰面积,得出分别的相对响应因子。苹果酒中鉴定出的酯类、醇类和酸类物质的质量浓度以相应的真实物质或结构相近的物质的相对响应因子计算[10,11]。

1.2.2 苹果酒香气质量评价模型的建立

由不同酒样的香气物质含量构成主成分分析的相关矩阵,根据主成分分析后确定的不同主分量的线性组合与贡献率之积的和来排序不同的样本,进行香气质量评价。具体步骤如下。

1)将n个样本的p个变量,通过变换将原变量X i 转换成主成分,主成分是原变量的线性组合,即将X1, X2,…,X p综合成k(k

F1=a11X1+a21X2+…+a p1X p

F2=a12X1+a22X2+…+a p2X p

F k=a1k X1+a2k X2+…+a p k X p

2)以不同特征值的方差贡献率B i(i=1,2,…,k)为加权系数,利用综合评价函数F=B1F1+B2F2+…+B k F k计算各样本得分,然后进行排序评价各个酒样的香气质量。

1.2.3 苹果酒香气质量感官评价方法

参照GB15038-1994中香气评价方法[12],由西北农林科技大学葡萄酒学院的10位品酒员组成评判小组对不同酒样的香气进行评价。

2 结果与分析

2.1 不同苹果酒香气组分测定结果

根据目前国内外相关的苹果酒香气方面的研究报道,发现39种香气组分对苹果酒香气质量有较大的影响,其中酯类18种,高级醇类16种,酸类5种,它们在苹果酒中含量的高低决定苹果酒香气的质量。香气是评价苹果酒的一个重要指标,试验中12种苹果酒主要香气组分测定结果见表1。

表1 不同苹果酒样中主要香气组分的含量

T able1 Concentrat ions of t he pr incipal ar oma co mponent s in cider s mg?L-1序号组分

苹果酒样

S1S2S3S4S5S6S7S8S9S10S11S12

1乙酸乙酯 3.897 3.337 2.942 4.953 3.10561.681 5.898 5.87410.708 6.015 3.236 5.366 2乙酸异丁酯0.0060.0090.0200.0200.0300.0060.0120.0340.0650.0150.0060.006 3丁酸乙酯0.0630.0570.0510.0450.0350.0320.0520.0370.0850.0780.1160.081 4乙酸丁酯0.0460.0150.0330.0330.0260.0170.0160.0540.0260.0300.0110.010 5乙酸异戊酯0.5630.5470.98721.9910.73518.938 2.897 2.6298.785 3.1090.2770.242 6己酸乙酯0.1640.1470.1380.3270.1120.7650.3290.0760.2530.1240.0720.215 7乙酸己酯0.0440.0150.0700.0210.0460.0150.0270.0610.0750.0270.0100.004 8乳酸乙酯0.1730.2190.526 1.507 4.3290.377 1.5140.034 3.4160.9450.9490.450 9辛酸乙酯0.1300.0670.0820.0310.0210.0290.0260.0820.2350.0480.0390.026 10癸酸乙酯0.0840.0500.0350.0270.0120.0170.0250.0890.1660.0400.0370.047 11苯乙酸乙酯0.0010.0010.0010.0020.0040.0010.0030.0030.0030.0020.0010.001 124-羟基丁酸乙酯0.6388.403 4.839 6.25619.378 3.32624.48513.88010.335 5.969 6.3848.015 13乙酸苯乙酯0.2620.1330.2800.4570.4130.446 1.0260.799 1.5160.5650.0860.065 14月桂酸乙酯0.0080.0020.0040.0050.0010.0010.0060.0070.0150.0080.0050.017 15肉豆蔻酸乙酯0.0010.0010.0010.0010.0010.0060.0020.0010.0030.0010.0010.002 16棕榈酸乙酯0.0050.0030.0020.0130.0040.0040.0070.0080.0280.0110.0090.034 17硬脂酸乙酯0.0010.0010.00120.0010.0010.0010.0160.0010.000.0010.0010.003 18亚油酸乙酯0.0020.0010.0010.0070.0020.0010.0030.0010.0120.0060.0010.009 19丙醇0.6800.9550.5410.4570.9180.513 1.1590.757 1.3840.434 1.501 2.936 20异丁醇29.6130.49819.932 6.49226.45223.41253.52258.88486.35064.37017.65537.259

224农业工程学报 2007年 

序号组分

苹果酒样

S1S2S3S4S5S6S7S8S9S10S11S12 22异戊醇8.6107.690 6.54916.7878.04618.88724.12118.86929.75623.319 5.9369.424 23戊醇0.0020.0020.0020.0020.0030.0010.0030.0020.0030.0020.0050.007 24正己醇0.8410.4510.4800.5360.7270.3650.4670.5750.3800.4530.6450.878 253,4,5-三甲基-4庚醇0.1610.0190.0260.0500.0730.0340.0190.0090.0170.0530.0490.097 26庚醇0.0080.0040.0040.0040.0050.0020.0090.0030.0070.0060.0050.013 272,3-丁二醇7.4378.7087.9377.59823.064 3.361 6.5178.4079.2068.73012.242 5.719 28辛醇0.0220.0310.0170.0180.0390.0130.0300.0170.0250.0220.0240.032 29壬醇0.0100.0140.0080.0040.0180.0030.0110.0100.0140.0080.0130.020 30康醇0.0630.2020.0870.0990.1640.0350.1760.0760.1360.1170.3060.531 313-甲硫基1-丙醇 1.074 2.0800.885 1.561 2.6540.626 1.6660.810 2.7100.519 1.358 2.150 32癸醇0.0180.0210.0220.0090.0400.0060.0260.0230.0290.0190.0110.014 33苯乙醇14.4917.07912.54926.06722.65518.31538.67429.40443.58036.7348.43212.969 34法呢醇0.0220.0320.0080.0020.0720.0030.0290.0110.0140.0040.0510.144 35乙酸42.95442.35351.57140.85683.85121.6697.43339.44729.70040.28658.80594.330 36异丁酸 1.473 3.798 1.985 4.2319.520 1.675 2.620 3.356 1.072 1.707 1.945 4.140 37己酸 1.6410.3800.5940.3570.3940.3190.2980.423 1.556 1.0040.4760.618 38辛酸 2.3490.5590.8270.5490.5010.5100.5470.904 3.246 1.8750.5200.756 39癸酸0.6840.1460.2110.0810.1660.0450.1240.2660.7620.2000.1160.210

2.2 主成分分析结果

以12个样本的39种香气物质含量构成12×39的矩阵,利用SAS8.0软件进行主成分分析,按照剔除最小特征值的主成分中对应的最大特征向量的变量的原则[13],一次剔除一个变量,然后利用剩余变量再进行主成分分析,经过有限次剔除后,保留了x1、x3、x5、x7、x8、x20、x21、x23、x25、x35等10个指标,分别代表了乙酸乙酯、丁酸乙酯、乙酸异戊酯、乙酸己酯、乳酸乙酯、异丁醇、丁醇、戊醇、3,4,5-三甲基-4庚醇、乙酸,其中酯类物质5种,醇类物质4种,酸类物质1种。再用上述10个指标进行主成分分析,相关矩阵的特征值如表2所示,特征向量如表3所示。由表2可知前6个主分量所构成的信息量占总信息量的88.64%,基本保留了原来变量的信息。由表3可知第1主分量F1=-0.275395x1+ 0.310815x3-0.311049x5-0.150351x7+0.032795x8 -0.004433x20+0.367102x21+0.469848x23+ 0.231792x25+0.355460x35,单独说明整个原始数据标准变异的33.74%,代表变量x23;第2主分量F2= -0.230617x1+0.139811x3-0.195210x5+ 0.496136x7+0.256875x8+0.504445x20+ 0.011540x21-0.066328x23-0.135198x25-0.132230x35,单独说明整个原始数据标准变异的21.28%,代表变量x7,x20;第3主分量F3=0.357526x1 +0.370571x3+0.203505x5-0.357299x7-0.280153x8+0.352501x20+0.143415x21+ 0.177886x23-0.280894x25-0.424927x35,单独说明整个原始数据标准变异的10.50%,代表变量为x35;第4主分量F4=0.193095x1-0.176375x3+0.340206x5 +0.019081x7+0.658427x8+0.015110x20+ 0.416212x21+0.176001x23-0.368478x25+ 0.149002x35,单独说明整个原始数据标准变异的9.80%,代表变量为x8,x21;第5主分量F5= 0.358690x1+0.035089x3+0.400005x5-0.002741x7 +0.227282x8+0.000161x20-0.115377x21+ 0.009117x23+0.691767x25+0.049137x35,单独说明整个原始数据标准变异的7.75%,代表变量为x1,x5, x25;第6主分量F6=-0.161180x1+0.675923x3+ 0.223457x5-0.044869x7+0.089138x8-0.363418x20-0.085415x21+0.048324x23-0.129750x25+0.130219x35,单独说明整个原始数据标准变异的5.57%,代表变量为x3。

表2 相关矩阵的特征值

T able2 Eig envalues o f the cor relatio n matr ix

特征值方差贡献率累计方差贡献率

1 4.048224540.33740.3374

2 2.553943450.21280.5502

3 1.260514310.10500.6552

4 1.175679760.09800.7532

50.930078210.07750.8307

60.668341420.05570.8864

70.568923010.04740.9338

80.406740900.03390.9677

90.250152840.02080.9885

225

 第6期 岳田利等:基于主成分分析法的苹果酒香气质量评价模型的构建

表3 特征向量

T a ble3 Eigenvecto rs

F1F2F3F4F5F6

x1 -0.275395 -0.230617 0.357526 0.193095 0.358690 -0.161180 x30.3108150.1398110.370571-0.1763750.0350890.675923 x5-0.311049-0.1952100.2035050.3402060.4000050.223457 x7-0.1503510.496136-0.3572990.019081-0.002741-0.044869 x80.0327950.256875-0.2801530.6584270.2272820.089138 x20-0.0044330.5044450.3525010.0151100.000161-0.363418 x210.3671020.0115400.1434150.416212-0.115377-0.085415 x230.469848-0.0663280.1778860.1760010.0091170.048324 x250.231792-0.135198-0.280894-0.3684780.691767-0.129750 x350.355460-0.132230-0.4249270.1490020.0491370.130219

2.3 不同苹果酒香气质量评价结果

由表2可知前6个主分量的累计方差贡献率为0.8864,可知利用前6个主分量进行苹果酒香气质量评价是可行、可靠的。根据方法1.2.2建立的香气质量评价模型,计算不同酒样的评价得分(表4)。由表4可知,苹果酒样S12的F值最高,依次为S9,S5,S10,S8,S11, S7,S3,S2,S1,S6,S4。

表4 不同苹果酒香气质量评价表

T able4 A ro ma evaluatio n of differ ent cider s 排名酒样F排名酒样F

1S1229.767S717.12

2S928.538S315.84

3S525.919S215.83

4S1023.0610S115.68

5S822.23311S614.95

6S1117.8912S410.79

2.4 苹果酒香气质量评价模型的检验

为了检验苹果酒香气质量评价模型的评价效果,通过对比传统的感官评价法对酒样香气的综合评价结果(表5),表明本文所建立的评价模型与感官评价法具有很好的一致性。除了酒样S2,S3排序结果互换外,其余均一致。由于苹果酒的香气与苹果原料,菌种,发酵工艺,陈酿工艺等因素有关,该文所建香气评价模型的普适性受到一定的限制,需要进一步补充试验样品,来扩大模型的适用性。

表5 不同苹果酒香气质量感官评价

T able5 A ro ma quality evaluatio n of differ ent

ciders by sensor y ev aluation 3 结 论

1)利用本文所建的香气质量评价模型,对12种苹果酒香气质量进行评价,评价结果排序为S12的香气质量最好,依次为S9,S5,S10,S8,S11,S7,S3,S2,S1,S6, S4;利用传统的感官评价法的评价结果与本文所建立方法基本一致。

2)建立了基于主成分分析法的苹果酒香气质量评价模型,通过对比传统的感官评价法对模型进一步检验,结果表明2种方法具有较好的一致性,说明本文提出的方法是可行的。在苹果酒香气质量评价中,利用主成分分析法,将复杂的信息简单化,通过分析建立相关的评价模型,开辟了一条客观的果酒香气评价新途径。

[参 考 文 献]

[1] Beech F W.Cider m aking a nd cider resear ch[J].Jo ur nal

of science F oo d A g riculture,1993,6(4):259-270.

[2] 汪立平,徐 岩,王 栋,等.苹果酒香气研究进展[J].食

品与发酵工业,2002,28(7):59-60.

[3] Peng Bangzhu,Y ue T ianli,Yuan Y ahong.Q uality

evalua tio n of kiwi wine[J].Inter natio na l Jo ur nal of F oo d Eng ineering,2006,2(4),A r ticle2:1-6.

[4] 彭帮柱,岳田利,袁亚宏,等.基于模糊综合评判法的苹果

酒酿造酵母优选技术研究[J].农业工程学报,2005,21

(12):163-166.

[5] 李记明,樊 玺,阮士立,等.苹果酒香味成分与感官质量

研究[J].2006,32(7):87-90.

贤,谢赤军,陈 栋,等.七种高香型乌龙茶香气成分

成分分析[J].华南农业大学学报,1999,20(1):113-

,童华荣,贾利蓉.豆腐乳感官和理化品质的主成分

J].农业工程学报,2002,18(2):131-135.

,刘宝勤,高迎春.基于区域发展目标的水资源承载[J].水科学进展,2005,(1):109-113.

 鲍 艳,胡振琪,柏 玉,等.主成分聚类分析在土地利用

226农业工程学报 2007年 

生态安全评价中的应用[J ].农业工程学报,2006,22(8):87-90.

[10]W ang L ,Xu Y ,Z ha o G,et al.Rapid A nalysis of Flavo ur

V o latile in A pple Wine U sing Headspace Solid-Phase M icro ext rat ion [J ].Jour nal of T he Institute of Brew ing ,2004,110(1):57-65.

[11]Jan C R Demy ttenaere ,Cynthia Dag her,P at Sandra,et

al .Flavo ur analysis o f Gr eek white wine by solid -phase micro ex traction-capillar y

gas

chr omat og raphy-mass

spectr ometr y [J].J Chro mato gr A ,2003,985:233-246.[12]G B/T 15038-1994,葡萄酒、果酒通用实验方法[S].[13]胡小平,王长发.SA S 基础及统计实例教程[M ].西安:西

安地图出版社,2001.

Modeling of aroma quality evaluation of cider based

on principal component analysis

Yue Tianli ,Peng Bangzhu ,Yuan Yahong ,Gao Zhenpeng ,Zhang Han ,Zhao Zhihua

(College of Food Science and Engineer ing ,N or thw est A g riculture and For estry U niver sity ,Y angling 712100,China )

Abstract :T he ar oma com pounds in 12different kinds of cider w ere identified and determ ined by the H eadspace-Solid phase m icro ex traction -Gas Chr omatog raphy -M ass Spectr ometry .Then a mo del w as established based on pr incipal component analysis m ethod for assessing and ranking the aroma quality of cider.S12w as selected from 12cider sam ples fo r having best aro ma by the m odel.T his result w as consistent w ith conventional sensor y evalu-ation .The results indicate that the m odel is acceptable and available fo r assessing the ar oma quality of cider .Key words :cider ;sensory ev aluation ;HS -SPM E -GC -M S ;principal component analysis

227

 第6期 岳田利等:基于主成分分析法的苹果酒香气质量评价模型的构建

主成分分析法

一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点: 主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 主成分能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 主成分之间应该互不相关 通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。

主成分具有命名解释性 总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。 二、基本原理 主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP(比如p个指标),重新组合成一组较少个数的互不相关的综合指标Fm来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。 设F1表示原变量的第一个线性组合所形成的主成分指标,即 ,由数学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差 Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,…,XP的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以F2是与F1不相关的X1,X2,…,XP的所有线性组合中方差最大的,故称F2为第二主成分,依此类推构造出的F1、F2、……、Fm为原变量指标X1、X2……XP第一、第二、……、第m个主成分。 根据以上分析得知:

主成分分析法matlab实现,实例演示

利用Matlab 编程实现主成分分析 1.概述 Matlab 语言是当今国际上科学界 (尤其是自动控制领域) 最具影响力、也是 最有活力的软件。它起源于矩阵运算,并已经发展成一种高度集成的计算机语言。它提供了强大的科学运算、灵活的程序设计流程、高质量的图形可视化与界面设计、与其他程序和语言的便捷接口的功能。Matlab 语言在各国高校与研究单位起着重大的作用。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。 1.1主成分分析计算步骤 ① 计算相关系数矩阵 ?? ? ???? ???? ?? ?=pp p p p p r r r r r r r r r R 2 122221 11211 (1) 在(3.5.3)式中,r ij (i ,j=1,2,…,p )为原变量的xi 与xj 之间的相关系数,其计算公式为 ∑∑∑===----= n k n k j kj i ki n k j kj i ki ij x x x x x x x x r 1 1 2 2 1 )() () )(( (2) 因为R 是实对称矩阵(即r ij =r ji ),所以只需计算上三角元素或下三角元素即可。

② 计算特征值与特征向量 首先解特征方程0=-R I λ,通常用雅可比法(Jacobi )求出特征值 ),,2,1(p i i =λ,并使其按大小顺序排列,即0,21≥≥≥≥p λλλ ;然后分别求 出对应于特征值i λ的特征向量),,2,1(p i e i =。这里要求i e =1,即112 =∑=p j ij e ,其 中ij e 表示向量i e 的第j 个分量。 ③ 计算主成分贡献率及累计贡献率 主成分i z 的贡献率为 ),,2,1(1 p i p k k i =∑=λ λ 累计贡献率为 ) ,,2,1(11 p i p k k i k k =∑∑==λ λ 一般取累计贡献率达85—95%的特征值m λλλ,,,21 所对应的第一、第二,…,第m (m ≤p )个主成分。 ④ 计算主成分载荷 其计算公式为 ) ,,2,1,(),(p j i e x z p l ij i j i ij ===λ (3)

主成分分析法运用

统计学简介及在实践中的应用 --以主成分分析法分析影响房价因素为例 姓名:阳飞 学号:2111601015 学院:经济管理学院 指导教师:吴东武 时间:二〇一七年一月六日

1 简介 统计语源最早出现于中世界拉丁语的Status,意思指各种现象的状态和状况。后来由这一语根组成意大利语Stato,有表示“国家”的概念,也含有国家结构和 国情知识的意思。根据这一语根,最早作为学名使用的“统计”的是在十八世纪德国政治学教授亨瓦尔(G.Achenwall)。他在1749年所著《近代欧洲各国国家学纲要》一书的绪言中,就把国家学名定义为“Statistika”(统计)这个词。原意是 指“国家显著事项的比较和记述”或“国势学”,认为统计是关于国家应注意事项的学问。自此以后,各国就相继沿用“统计”这个词,更把这个词译成各国的文字,其中,法国译为Statistique;意大利译为Statistica;英国译为Statistics;日本最初译为“政表”、“政算”、“国势”、“形势”等,直到1880年在太政官中设立了统计院,这个时候才确定以“统计”二字正名。 在我国近代史上首次出现是在1903年(清光绪廿九年)由钮永建、林卓南等翻译了四本由横山雅南所著的《统计讲义录》一书,这个时候才把“统计”这个词从日本传到我国。1907年(清光绪卅三年),由彭祖植编写的《统计学》在日本出版,同时在国内发行。这本书是我国最早的一本“统计学”书籍。自此以后“统计”一词就成了记述国家和社会状况的数量关系的总称。 关于“统计”这个词,后来又引申到了各种各样的组合,包括:统计工作、统计资料、统计科学。 统计工作是指利用科学的方法搜集、整理、分析和提供关于社会经济现象数量资料的工作的总称,它是统计的基础,也称统计实践或统计活动。是在一定统计理论指导下,采用科学的方法,搜集、整理、分析统计资料的一系列活动过程。

主成分分析法及其在SPSS中的操作

一、主成分分析基本原理 概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。 思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。 原理:假定有n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵, 记原变量指标为x 1,x 2,…,x p ,设它们降维处理后的综合指标,即新变量为 z 1,z 2,z 3,… ,z m (m ≤p),则 系数l ij 的确定原则: ①z i 与z j (i ≠j ;i ,j=1,2,…,m )相互无关; ②z 1是x 1,x 2,…,x P 的一切线性组合中方差最大者,z 2是与z 1不相关的x 1,x 2,…,x P 的所有线性组合中方差最大者; z m 是与z 1,z 2,……,z m -1都不相关的x 1,x 2,…x P , 的所有线性组合中方差最大者。 新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x P 的第1,第2,…,第m 主成分。 从以上的分析可以看出,主成分分析的实质就是确定原来变量x j (j=1,2 ,…, p )在诸主成分z i (i=1,2,…,m )上的荷载 l ij ( i=1,2,…,m ; j=1,2 ,…,p )。 ?????? ? ???????=np n n p p x x x x x x x x x X 2 1 2222111211 ?? ??? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111............

主成分分析法精华讲义及实例

主成分分析 类型:一种处理高维数据的方法。 降维思想:在实际问题的研究中,往往会涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。 一、总体主成分 1.1 定义 设 X 1,X 2,…,X p 为某实际问题所涉及的 p 个随机变量。记 X=(X 1,X 2,…,Xp)T ,其协方差矩阵为 ()[(())(())], T ij p p E X E X X E X σ?∑==-- 它是一个 p 阶非负定矩阵。设 1111112212221122221122T p p T p p T p p p p pp p Y l X l X l X l X Y l X l X l X l X Y l X l X l X l X ?==+++? ==+++?? ??==+++? (1) 则有 ()(),1,2,...,, (,)(,),1,2,...,. T T i i i i T T T i j i j i j V ar Y V ar l X l l i p C ov Y Y C ov l X l X l l j p ==∑===∑= (2) 第 i 个主成分: 一般地,在约束条件 1T i i l l =

及 (,)0,1,2,..., 1.T i k i k C ov Y Y l l k i =∑==- 下,求 l i 使 Var(Y i )达到最大,由此 l i 所确定的 T i i Y l X = 称为 X 1,X 2,…,X p 的第 i 个主成分。 1.2 总体主成分的计算 设 ∑是12(,,...,) T p X X X X =的协方差矩阵,∑的特征值及相应的正交单位化特 征向量分别为 120p λλλ≥≥≥≥ 及 12,,...,, p e e e 则 X 的第 i 个主成分为 1122,1,2,...,,T i i i i ip p Y e X e X e X e X i p ==+++= (3) 此时 (),1,2,...,,(,)0,. T i i i i T i k i k V ar Y e e i p C ov Y Y e e i k λ?=∑==??=∑=≠?? 1.3 总体主成分的性质 1.3.1 主成分的协方差矩阵及总方差 记 12(,,...,) T p Y Y Y Y = 为主成分向量,则 Y=P T X ,其中12(,,...,)p P e e e =,且 12()()(,,...,),T T p Cov Y Cov P X P P Diag λλλ==∑=Λ= 由此得主成分的总方差为 1 1 1 ()()()()(),p p p T T i i i i i i V ar Y tr P P tr P P tr V ar X λ ==== =∑=∑=∑= ∑∑∑ 即主成分分析是把 p 个原始变量 X 1,X 2,…,X p 的总方差

主成分分析分析法

第四节 主成分分析方法 地理环境是多要素的复杂系统,在我们进行地理系统分析时,多变量问题 是经常会遇到的。 变量太多, 无疑会增加分析问题的难度与复杂性, 而且在许多 实际问题中, 多个变量之间是具有一定的相关关系的。 因此,我们就会很自然地 想到,能否在各个变量之间相关关系研究的基础上, 用较少的新变量代替原来较 多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信 息?事实上, 这种想法是可以实现的, 本节拟介绍的主成分分析方法就是综合处 理这种问题的一种强有力的方法。 第一节 主成分分析方法的原理 主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法, 从数学角度来看, 这是一种降维处理技术。 假定有 n 个地理样本, 每个样本共有 p 个变量描述,这样就构成了一个 n ×p 阶的地理数据矩阵: 如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问 题,自然要在 p 维空间中加以考察,这是比较麻烦的。为了克服这一困难,就需 要进行降维处理, 即用较少的几个综合指标来代替原来较多的变量指标, 而且使 这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息, 同时它们之 间又是彼此独立的。那么,这些综合指标(即新变量 ) 应如何选取呢?显然,其 最简单的形式就是取原来变量指标的线性组合, 适当调整组合系数, 使新的变量 指标之间相互独立且代表性最好。 如果记原来的变量指标为 x 1, 为 x 1,x 2,?, zm (m ≤p ) 。则 x 2 ,?, x p ,它们的综合指标——新变量指标

在(2)式中,系数l ij 由下列原则来决定: (1)z1 2与z j(i ≠j ;i ,j=1 ,2,?,m)相互无关; (2)z 1是x1,x2,?,x p的一切线性组合中方差最大者;z2是与z1不相关的x1,x2,?,x p的所有线性组合中方差最大者;??;z m是与z1,z2,??z m-1 都不相关的x1,x2,?,x p的所有线性组合中方差最大者。 这样决定的新变量指标z1,z2,?,zm分别称为原变量指标x1,x2,?,x p 的第一,第二,?,第m主成分。其中,z1在总方差中占的比例最大,z2,z3,?,z m的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。 从以上分析可以看出,找主成分就是确定原来变量x j(j=1 ,2,?,p)在诸主成分z i (i=1 ,2,?,m)上的载荷l ij (i=1 ,2,?,m;j=1 ,2,?,p),从数学上容易知道,它们分别是x1,x2,?,x p的相关矩阵的m个较大的特征值所对应的特征向量。 第二节主成分分析的解法 主成分分析的计算步骤 通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如下:在公式(3)中,r ij (i ,j=1 ,2,?,p)为原来变量x i与x j的相关系数,其计 算公式为 因为R是实对称矩阵(即r ij =r ji ),所以只需计算其上三角元素或下三角元素即可。 1 计算相关系数矩阵 2 计算特征值与特征向量

主成分分析法实例

1、主成分法: 用主成分法寻找公共因子的方法如下: 假定从相关阵出发求解主成分,设有p 个变量,则可找出p 个主成分。将所得的p 个主成分按由大到小的顺序排列,记为1Y ,2Y ,…,P Y , 则主成分与原始变量之间存在如下关系: 11111221221122221122....................p p p p p p p pp p Y X X X Y X X X Y X X X γγγγγγγγγ=+++?? =+++??? ?=+++? 式中,ij γ为随机向量X 的相关矩阵的特征值所对应的特征向量的分量,因为特征向量之间彼此正交,从X 到Y 得转换关系是可逆的,很容易得出由Y 到 X 得转换关系为: 11112121212122221122....................p p p p p p p pp p X Y Y Y X Y Y Y X Y Y Y γγγγγγγγγ=+++?? =+++??? ?=+++? 对上面每一等式只保留钱m 个主成分而把后面的部分用i ε代替,则上式变为: 111121211 2121222221122................. ...m m m m p p p mp m p X Y Y Y X Y Y Y X Y Y Y γγγεγγγεγγγε=++++??=++++????=++++? 上式在形式上已经与因子模型相一致,且i Y (i=1,2,…,m )之间相互独立,且i Y 与i ε之间相互独立,为了把i Y 转化成合适的公因子,现在要做的工作只是把主成分i Y 变为方差为1的变量。为完成此变换,必须将i Y 除以其标准差,由主成分分析的知识知其标准差即为特征根的平方根 i λ/i i i F Y λ=, 1122m m λγλγλγ,则式子变为:

主成分分析PCA(含有详细推导过程以及案例分析matlab版)

主成分分析法(PCA) 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。 I. 主成分分析法(PCA)模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。 主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求 0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。 (二)主成分分析的数学模型 对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为: ??????? ??=np n n p p x x x x x x x x x X 21 222 21112 11()p x x x ,,21=

主成分分析案例

姓名:XXX 学号:XXXXXXX 专业:XXXX 用SPSS19软件对下列数据进行主成分分析: ……

一、相关性 通过对数据进行双变量相关分析,得到相关系数矩阵,见表1。 表1 淡化浓海水自然蒸发影响因素的相关性 由表1可知: 辐照、风速、湿度、水温、气温、浓度六个因素都与蒸发速率在0.01水平上显著相关。 分析:各变量之间存在着明显的相关关系,若直接将其纳入分析可能会得到因多元共线性影响的错误结论,因此需要通过主成份分析将数据所携带的信息进行浓缩处理。 二、KMO和球形Bartlett检验 KMO和球形Bartlett检验是对主成分分析的适用性进行检验。 KMO检验可以检查各变量之间的偏相关性,取值范围是0~1。KMO的结果越接近1,表示变量之间的偏相关性越好,那么进行主成分分析的效果就会越好。实际分析时,KMO统计量大于0.7时,效果就比较理想;若当KMO统计量小于0.5时,就不适于选用主成分分析法。 Bartlett球形检验是用来判断相关矩阵是否为单位矩阵,在主成分分析中,若拒绝各变量独立的原假设,则说明可以做主成分分析,若不拒绝原假设,则说明这些变量可能独立提供一些信息,不适合做主成分分析。

由表2可知: 1、KMO=0.631<0.7,表明变量之间没有特别完美的信息的重叠度,主成分分析得到的模型又可能不是非常完善,但仍然值得实验。 2、显著性小于0.05,则应拒绝假设,即变量间具有较强的相关性。 三、公因子方差 公因子方差表示变量共同度。表示各变量中所携带的原始信息能被提取出的主成分所体现的程度。 由表3可知: 几乎所有变量共同度都达到了75%,可认为这几个提取出的主成分对各个变量的阐释能力比较强。 四、解释的总方差 解释的总方差给出了各因素的方差贡献率和累计贡献率。

主成分分析法的步骤和原理

(一)主成分分析法的基本思想 主成分分析(Principal Component Analysis)是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。[2] 采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。 (二)主成分分析法代数模型 假设用p个变量来描述研究对象,分别用X1,X2…X p来表示,这p个变量构成的p维随机向量为X=(X1,X2…X p)t。设随机向量X的均值为μ,协方差矩阵为Σ。对X进行线性变化,考虑原始变量的线性组合: Z=μX+μX+…μX Z=μX+μX+…μX ……………… Z=μX+μX+…μX 主成分是不相关的线性组合Z1,Z2……Z p,并且Z1是X,X…X的线性组合中方差最大者,Z2是与Z1不相关的线性组合中方差最大者,…,Z是与Z1,Z2……Z p-1都不相关的线性组合中方差最大者。 (三)主成分分析法基本步骤 第一步:设估计样本数为n,选取的财务指标数为p,则由估计样本的原始数据可得矩阵X=(x ij)m×p,其中x ij表示第i家上市公司的第j项财务指标数据。 第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。 第三步:根据标准化数据矩阵建立协方差矩阵R,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。其中,R ij(i,j=1,2,…,p)为原始变量X i与X j的相关系数。R为实对称矩阵

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 公司销售净利率(X1)资产净利率(X2)净资产收益率(X3)销售毛利率(X4) 歌华有线五粮液用友软件太太药业浙江阳光烟台万华方正科技红河光明贵州茅台中铁二局红星发展伊利股份青岛海尔湖北宜化雅戈尔福建南纸43.31 17.11 21.11 29.55 11.00 17.63 2.73 29.11 20.29 3.99 22.65 4.43 5.40 7.06 19.82 7.26 7.39 12.13 6.03 8.62 8.41 13.86 4.22 5.44 9.48 4.64 11.13 7.30 8.90 2.79 10.53 2.99 8.73 17.29 7.00 10.13 11.83 15.41 17.16 6.09 12.97 9.35 14.3 14.36 12.53 5.24 18.55 6.99 54.89 44.25 89.37 73 25.22 36.44 9.96 56.26 82.23 13.04 50.51 29.04 65.5 19.79 42.04 22.72 第一,将EXCEL中的原始数据导入到SPSS软件中; 注意: 导入Spss的数据不能出现空缺的现象,如出现可用0补齐。 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。 所做工作: a. 原始数据的标准化处理

主成分分析法概念及例题

主成分分析法 主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法 [编辑] 什么是主成分分析法 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 [编辑] 主成分分析的基本思想

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [编辑] 主成分分析的主要作用

主成分分析法概念及例题

主成分分析法 [ 编辑 ] 什么是主成分分析法 主成分分析也称 主分量分析 ,旨在利用降维的思想,把多 指标 转化为少数几个综合指标。 在 统计学 中,主成分分析( principal components analysis,PCA )是一种简化数据集的技 术。它是一个线性变换。 这个变换把数据变换到一个新的坐标系统中, 使得任何数据投影的第一 大方差 在第一个坐标 (称为第一主成分 )上,第二大方差在第二个坐标 (第二主成分 )上,依次类推。 主成分分析经常用减少数据集的维数, 同时保持数据集的对 方差 贡献最大的特征。 这是通过保留 低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是, 这也不是一定的,要视具体应用而定。 [ 编辑 ] , PCA ) 又称: 主分量分析,主成分回归分析法 主成分分析( principal components analysis

主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [ 编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [ 编辑] 主成分分析的主要作用

R语言主成分分析的案例

R 语言主成分分析的案例
R 语言也介绍到案例篇了,也有不少同学反馈说还是不是特别明白一些基础的东西,希望能 够有一些比较浅显的可以操作的入门。其实这些之前 SPSS 实战案例都不少,老实说一旦用 上了开源工具就好像上瘾了,对于以前的 SAS、clementine 之类的可视化工具没有一点 感觉了。本质上还是觉得要装这个、装那个的比较麻烦,现在用 R 或者 python 直接简单 安装下,导入自己需要用到的包,活学活用一些命令函数就可以了。以后平台上集成 R、 python 的开发是趋势,包括现在 BAT 公司内部已经实现了。 今天就贴个盐泉水化学分析资料的主成分分析和因子分析通过 R 语言数据挖掘的小李 子: 有条件的同学最好自己安装下 R,操作一遍。 今有 20 个盐泉,盐泉的水化学特征系数值见下表.试对盐泉的水化学分析资料作主成分分 析和因子分析.(数据可以自己模拟一份)
其中 x1:矿化度(g/L);

x2:Br?103/Cl; x3:K?103/Σ 盐; x4:K?103/Cl; x5:Na/K; x6:Mg?102/Cl; x7:εNa/εCl.
1.数据准备
导入数据保存在对象 saltwell 中 >saltwell<-read.table("c:/saltwell.txt",header=T) >saltwell
2.数据分析

1 标准误、方差贡献率和累积贡献率
>arrests.pr<- prcomp(saltwell, scale = TRUE) >summary(arrests.pr,loadings=TRUE)
2 每个变量的标准误和变换矩阵
>prcomp(saltwell, scale = TRUE)
3 查看对象 arests.pr 中的内容
>> str(arrests.pr)

主成分分析法概念及例题

主成分分析法 主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法 [编辑] 什么就是主成分分析法 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在统计学中,主成分分析(principal components analysis,PCA)就是一种简化数据集的技术。它就是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这就是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但就是,这也不就是一定的,要视具体应用而定。 [编辑] 主成分分析的基本思想

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量与增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正就是适应这一要求产生的,就是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果就是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取就是个重点与难点。如上所述,主成分分析法正就是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量就是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量就是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发与利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用与开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理 主成分分析法就是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [编辑] 主成分分析的主要作用

主成分法及其应用

【作者简介】 苏键(1985-),男,广西钦州人,助理工程师,研究方向:食品科学。1主成分分析法 何谓主成分分析,就是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析[1]。主成分分析的中心思想是缩减一个包括很多相互联系着的变量的数量集,在数量集中保留尽可能多的有用的变量。 主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。主成分分析是设法将原来众多具有一定相关性(比如P 个指标 ),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P 个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var (F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的, 故称F1为第一主成分。如果第一主成分不足以代表原来P 个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov (F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P 个主成分[2]。 主成分分析首先是由K.皮尔森对非随机变量引入的,而后H.霍特林将此方法推广到随机向量的情形[2]。信息的大小通常用离差平方和或方差来衡量。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。 2主成分分析法在食品领域的应用 2.1主成分分析在食品风味方面的应用 目前,主成分分析应用还是比较广泛的,但是就食品风味方面,关于该分析方法的文献鲜见报道。戴素贤等[3]人对七种高香型乌龙茶中的香气成分进行了主成分分析,他们尝试用主成分分析法来研究茶业香型的变化,并进而找到影响这些香型变化的主要化合物,同时还发现了不同的茶别中香气化合物变化的趋势并进行了模拟量化,直观地表现了各种香气化合物对香气的贡献程度。李华等[4]运用多元统计分析确定葡萄酒感官特性,多元统计分析中的主成分分析等数学工具能够把大量的描述葡萄酒感官特性的描述语精简成较少的综合性更强的描述语,这些精简后的描述语不但能够反映精简前描述语的信息,还可以筛选出科学合理的描述符,描述符是描述分析的语言和工具,根据描述符可以分类不同的葡萄酒。邵威平等[5]应用主成分分析法完成了不同品牌啤酒风味差异性的评价,同一品牌啤酒风味一致性的评价,同一品牌不同生产厂之间一致性的评价以及同一生产厂啤酒一致性的评价这些工作。 啤酒是个多指标的风味食品,主成分分析法可以帮助我们更好地研究啤酒理化指标和啤酒风格之间的相关性,从而达到更好地理解啤酒风味的目的。岳田利等[6]人则通过利用主成分分析的方法建立了苹果酒香气质量的评价模型,并以此来对苹果酒样品香气组分进行客观的统计分析。S.Kallithraka 等[7]采用高效液相色谱法和气相色谱法研究了希腊国内不同产地葡萄酒的化合物成分和感官特性,并运用了PCA 法(主成分分析法)对所得参数进行多元分析,最终达到给葡萄酒评价和分类的目的。2.2主成分分析在食品品质方面的应用 食品品质的评价往往是非常复杂的过程。因为影响食品品质的因素大量存在,非人为因素如食品环境中的微生物,温度及pH 等的变化带来的影响。另一方面,由于人为的因素掺假也会造成食品品质的低劣,进而损害广大销售者和消费者的利益。如黎海红等[8]人运用主成分分析法对掺伪芝麻油的检测方法进行研究分析。根据主成分分析的实验原理,可以选择芝麻油的折光率、酸价、色泽、水分及挥发物、皂化值和碘价等理化指标作为变量,将这些变量的所测数据做矩阵处理最后分析就 轻工科技 LIGHT INDUSTRY SCIENCE AND TECHNOLOGY 2012年9月第9期(总第166期) 食品与生物 主成分分析法及其应用 苏键,陈军,何洁 (广西轻工业科学技术研究院,广西南宁530031) 【摘要】 介绍了主成分分析法的定义、原理,概述了该法在食品及一些仪器分析领域的应用,目的是为其他还未应用该分 析方法的学术领域提供一种参考和借鉴,使得主成分分析法能够在越来越多的学术领域中得以推广和应用。 【关键词】主成分分析;应用;概述【中图分类号】TS262【文献标识码】A 【文章编号】2095-3518 (2012)09-12-02

相关文档
相关文档 最新文档