文档库 最新最全的文档下载
当前位置:文档库 › 组合主成分分析在股票评价中的应用

组合主成分分析在股票评价中的应用

组合主成分分析在股票评价中的应用
组合主成分分析在股票评价中的应用

组合主成分分析在股票评价中的应用

张立华1宋敏娜2陈洁1

1河北理工大学经济管理学院邮编:063009

2邢台职业技术学院邮编:054000

摘要:本文首先指出了传统的主成份分析方法的缺点,在此基础上提出了组合主成份分析方法—即先用因子分析法对变量进行分组后,然后在分别对各组变量进行评价。最后通过对一些上市公司股票的综合评价说明了该方法确实是一种有效的综合评价方法。

关键词:组合主成分分析,因子分析,综合评价

1引言

对上市公司的股票进行评价是证券投资分析的重要内容之一,其目的在于全方位的揭示和披露上市公司的经营状况,并籍以对公司的经营业绩的优劣做出合理的判断。他是投资者进行投资,决策者进行决策的重要参考依据。并有利于公司优化资本结构、改善经营管理,有助于创造一个公平、有序的股票市场。

目前对上市公司的股票进行评价评价的方法有很多,例如主成份分析、因子分析、DEA、灰色关联分析等等。本文主要针对主成份分析方法对股票进行综合评价时存在的缺点,提出了组合主成分评价法。即先利用因子分析法对变量进行分组,然后再分别对各组变量进行主成分评价,既保证了主成份分析法的优点,也克服它在评价中的缺点,提高综合评价结果的合理性。

2基本原理和方法

2.1主成分分析

主成份分析是用几个较少的具有代表性的综合指标代替较多的原始指标的一种统计方法,在各个领域都得到了广泛的应用。而在综合评价中,应用主成分分析法既可以消除各指标不同量纲的影响,也可以消除各指标之间相关联所带来的信息重叠。特别是他克服了综合评价中人为确定各指标权重系数的问题。因此,主成分分析在综合评价中显示了他的优越性。

在主成分分析中主成份()是由个(维)随机变量的特殊线性来表C p p X X X ?,,21示的合成变量,由特殊线性组合表示的个主成分可按下式表示:

p p C C C ,,,21?(1)p

p X X X C 12121111ααα+++=?(2)

..........(3)

p pp p p p X X X C ααα+++=?2211上面的各主成分线性系数的选择必须满足以下三个条件:(1)(4))

()()(21p C V C V C V ≥≥≥?(2)两个主成分之间相互独立

(3)(5)

),,2,1,(112p i j p j ji ?==∑=α

p p X X X C 22221122ααα+++=?

我们希望用来代替原来个变量,这就要求尽可能的反应个变量1C p p X X X ?,,211C p 所包含的全部情报。主成分所包含的情报量,用该主成分的方差来表示,方差越大,则1C 包含的情报越多。由于各主成分系数的平方和必须等于1的限制条件,第一主成分的方差1C 最大,所以把第一个主成分称为第一主成分,但和其他成分必须相互独立(情报不能1C 1C 重叠)。由于各主成分系数的平方和必须等于1的限制条件,第二个主成分的方差最大(不包括)。此时的称作第二主成分。以此类推,得到第三主成分、第四主成分...。

)(1C V 2C 一般在主成分分析中,第一主成分作为原始指标变量的综合指标,其意义恰好与综合评价的意义相同,而其他主成分的意义则并不明显。所以很多的综合评价是以第一主成份的得分进行排序的,方法简洁,意义也直观。但是,这种方法有两个缺陷:一是第一主成分的代表性问题。它主要取决于变量指标间相关性,若相关性较大,则第一特征根则相对较大,第一主成分的贡献率也会较大,效果较好,反之,则效果较差。二是在第一主成分中个指标变量的系数正负,可能与评价的实际意义不符。因此,如何如利用主成分分析在综合评价中的优点,克服其缺点,采取一些改进方法是必要的。本文提出了组合主成分评价法,这样可以避免单纯应用主成分分析出现的一些问题。

2.2因子分析

因子分析是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),换句话说,可以用两个或者三个可观测变量来线性另一个不可观测的变量,因子分析试图找到这些可能的线性组合,确切的说,不可观测的变量是可观测变量的线性组合再加上误差项。因子分析起源于教育心理学,并在行为科学,社会科学,市场营销,产品管理,业务研究以及需要大量数据处理的其他应用科学方面得到了广泛的应用。

某因子分析中的观测变量有,其标准化变量分别为。p x X X X ?,,2p x x x ?,,21为不可观测的公共因子,为公因子的系数,,且,i F ij l i F p i ,,1?∈k j ,,1?∈p k <则有下列模型成立

i

K ik i i F l F l x ε++=?11是对个别变量的特殊因子。通常假定特殊因子是相互独立的,平均值为0、方差为互不i ε相同的常数,即~,i ε),0(2

i ?也可以用矩阵来表示即

i K ik i i F l F l x ε++=?11(6)

对于我们有如下假设:F 和相互独立,,F ε0)(=F E 1

)(=F Cov ε

+=LF x

模型中的F 叫做主因子或公共因子,它们是在各个原观测变量的表达式中都共同出现的因子,是相互独立的不可观测的理论变量。L 称为因子载荷矩阵。L 的元素表示与的依赖程度,的绝对值越大,表明与的相依ij l p i ,,1?∈k j ,,1?∈i x j F ij l i x j F 程度越大,令Cov(x)=Σ,则

(7))

()(ε+=LF Cov x Cov Or (8))

()(εCov L F LCov T +=∑我们可以证明,对于任何的正交矩阵Q,如果令L=LQ,F=QTF,仍然保留现有的因子和因子载荷,则各因子及因子载荷只依赖于正交变换。

3方法的应用

根据上面的模型,本文以河北省的上市公司为样本进行研究。样本资料来源于沪深股市公布的2007年年报。最终确定对33家上市公司进行分析。本文选取10个财务指标构建综合评价指标体系:包括净资产收益率(X1);每股收益(X2);净利润率(X3);总资产增长率(X4);净资产增长率(X5);总资产周转率(X6);净资产周转率(X7);存货周转率(X8);流动比率(X9);资产负债率(X10)。本文选取2006年5月初至12月底共33个周的交易数据,根据分析家股票分析软件所提供经过复权处理之后的每周收盘价格,采用对数差分法计算出股票周收益率。这样得到了30*10的原始数据阵(略),我们以样本的相关矩阵为依据,采用主成分法提取初始公因子,在采用最大方差旋转方法得到的因子载荷矩阵,见表1

表1始因子负荷系数

表2大方差旋转因子负荷系数变量初始因子负荷系数PROC 1PROC 2PROC 3X1

0.927-0.0850.074X2

-0.127-0.0950.068X3

-0.520-0.058-0.143X4

0.6910.3130.227X5

0.775-0.047-0.062X60.550-0.0500.570X7

0.2850.771-0.344X8

-0.1700.8960.281X9

-0.3000.3250.804X10

0.1090.842-0.343方差贡献

率(%)

49.8020.8610.46方差累计

贡献

率(%)49.8070.6681.12变量最大方差旋转因子负荷系数I 1I 2I 3X10.912-0.1300.119X20.8400.0890.101X30.7860.2130.097X40.7620.124-0.079

由表1以看出初始因子载荷矩阵系数很难

解释各个主成分,况且X2、X3的载荷系数为负,

也就意味着每股收益和净利润率增加时,该公

司的综合业绩得分就会下降,这与实际情况是

不符的。所以通过最大方差旋转后在各因子中

负荷系数较大的变量作为一组(表2),则分为

以下三组。(X1,X2,X3,X4,X5)、(X6,X7,X8)、

(X9,X10)。然后分别对这三组变量进行主成分

分析,由于各组变量的第一主成分贡献率都达

到80%以上,故各组都只取第一个主成分列于表3。

表3各组主成分分析结果由表2表3我们建立如下综合评价模型

(9)5

432114193.04731.04725.05376.05159.0z z z z z C ++++=(10)8

7624789.05083.05127.0z z z C ++=(11)10934890.05475.0z z C +=注:这种评价方法不一定要求使各因子必须具有实际意义,而且只在用第一主成分进行评价达不到理想效果时才使用。

将各评价单元的标准化后的数据()代入上式就可求出各个上市公司股票的综合101z z ?得分,见表4。(只列出了公司股票综合得分在前10名和后10名的得分)

表4综合得分排序

分组

特征值累计贡献率(%)特征向量X1,X2,X3,X4,X5

4.43888.763(0.5159,0.5376,0.4725,0.4731,0.4193)X6,X7,X8

2.68189.367(0.5127,0.5083,0.4789)X9,X10 1.77288.585(0.5475,0.4890)

综合得分前十位

综合得分后十位股票名称

综合得分股票名称综合得分金牛能源

0.642588*ST 宝石A -1.730057开滦股份

0.638003*ST 玉源-0.645406晶源电子

0.602366SST 湖科-0.567525三友化工

0.470893华北制药-0.385837S 乐凯

0.412357渤海物流-0.343845S*ST 石炼0.401273S 宣工-0.282879

X50.755-0.1600.215X6-0.5200.9390.049X7-0.8000.910-0.036X80.3420.865-0.128X90.044-0.0190.912X10-0.1920.0510.884方差贡献率36.3928.1120.12方差累计贡献率(%)36.3964.5084.71

唐钢股份0.325094保定天鹅-0.266950

新兴铸管0.288729唐山陶瓷-0.195366

邯郸钢铁0.252168太行水泥-0.148166

承德露露0.250530东方热电-0.144771

综合得分为正代表这些上市公司的业绩处于所研究样本的整体平均水平之上;同理,这里的综合得分小于0并不代表综合业绩小于0,而是代表这些上市公司的综合业绩低于所研究的样本的整体平均水平,表现为综合得分小于0。

由以上分析结果可知,这些公司2006年经营业绩差距很大,但是总体而言样本公司的综合得分呈相关区间内的正态分布,但这些公司都是河北省的上市公司,由于各省经济发展的差异,上述分析结果还不足以代表整个中国股市2006年经营业绩情况。但在对上市公司该股票进行局部比较,这种分析是有意义的。从某种程度上可为投资者进行投资决策提供参考。

4小结

从表4可以看出,面对上市公司财务报表中众多的指标,使用多元统计分析中的组合主成份分析法,可以计算出个股综合业绩的综合得分,结果可靠。这样投资者可以对各个上市公司的经营业绩的状况有比较清楚的了解。另外,上市公司业绩的组合成份评价方法应用广泛,可以结合聚类分析认识水平,将其运用于判定上市公司经营状况分布类别;也可以运用于公司破产预测等。希望我们提出的这种对上市公司股票评价的方法能为今后研究中国股市规律及国有资本金绩效评价的同仁们提供一个有益的思路。

参考文献

[1]周琳,宋宇,刘艳伟.基于因子分析法的公司业绩评价[J].经济经纬,2006,(5):80~83

[2]潘泽江.基于因子分析法的农业上市公司财务状况评价研究[J].科技创业月刊,2006,19(7):41~42

[3]张文彤.SPSS11统计分析教程[M].北京:北京希望电子出版社,2002年6月.190~210

[4]王学民.因子分析在股票评价中的应用[J].数理统计与管理,2004,23(3):6~10

[5]王文珍.因子分析在股票论证中的应用[J].甘肃联合大学学报(自然科学版),2006,20(1):21~24

[6]王永海.财务管理原理[M].武汉:武汉大学出版社,2003年9月.123~148

[7]侯文.对应用主成份进行综合评价的探讨[J].数理统计与管理,200625卷2期211-214.

作者简介:

张立华,讲师,主要从事计量经济学和风险投资的研究,电子邮件:zhanglihua1219@https://www.wendangku.net/doc/d317333899.html,,电话:135********

宋敏娜,讲师,主要从事应用统计学的研究,电子邮件:songminna99@https://www.wendangku.net/doc/d317333899.html,.

主成分分析法运用

统计学简介及在实践中的应用 --以主成分分析法分析影响房价因素为例 姓名:阳飞 学号:2111601015 学院:经济管理学院 指导教师:吴东武 时间:二〇一七年一月六日

1 简介 统计语源最早出现于中世界拉丁语的Status,意思指各种现象的状态和状况。后来由这一语根组成意大利语Stato,有表示“国家”的概念,也含有国家结构和 国情知识的意思。根据这一语根,最早作为学名使用的“统计”的是在十八世纪德国政治学教授亨瓦尔(G.Achenwall)。他在1749年所著《近代欧洲各国国家学纲要》一书的绪言中,就把国家学名定义为“Statistika”(统计)这个词。原意是 指“国家显著事项的比较和记述”或“国势学”,认为统计是关于国家应注意事项的学问。自此以后,各国就相继沿用“统计”这个词,更把这个词译成各国的文字,其中,法国译为Statistique;意大利译为Statistica;英国译为Statistics;日本最初译为“政表”、“政算”、“国势”、“形势”等,直到1880年在太政官中设立了统计院,这个时候才确定以“统计”二字正名。 在我国近代史上首次出现是在1903年(清光绪廿九年)由钮永建、林卓南等翻译了四本由横山雅南所著的《统计讲义录》一书,这个时候才把“统计”这个词从日本传到我国。1907年(清光绪卅三年),由彭祖植编写的《统计学》在日本出版,同时在国内发行。这本书是我国最早的一本“统计学”书籍。自此以后“统计”一词就成了记述国家和社会状况的数量关系的总称。 关于“统计”这个词,后来又引申到了各种各样的组合,包括:统计工作、统计资料、统计科学。 统计工作是指利用科学的方法搜集、整理、分析和提供关于社会经济现象数量资料的工作的总称,它是统计的基础,也称统计实践或统计活动。是在一定统计理论指导下,采用科学的方法,搜集、整理、分析统计资料的一系列活动过程。

基于主成分分析的经济发展水平综合评价

基于主成分分析的经济发展水平综合评价1 吴冲,王栋 哈尔滨工业大学管理学院,哈尔滨 (150001) E-mail:wuchong@https://www.wendangku.net/doc/d317333899.html, 摘要:衡量一个国家的经济发展程度,要从其社会生产的各个方面去考察,要看各项生产能力的综合效果。为了客观、科学地分析我国的经济发展状况,本文首次把居民消费价格指数和商品零售价格指数引入评价指标体系中,提出一种新的社会发展水平综合指标体系,并通过SPSS分析软件进行上机计算,应用主成分分析方法对我国31个省、直辖市、自治区(不包括香港、澳门和台湾)的经济发展水平进行综合分析和评价,突出了各大省市经济发展进程的特点和优势,为我国实现均衡发展提供理论依据。 关键词:主成分分析,经济发展,综合评价 1. 引言 要描述和评价一个社会的经济发展状况,最理想的是找到一个总括性社会指标体系评价方法,其测度结果能够反映社会经济发展的全部或大部分信息。20世纪60年代以来一些国际性组织、国家和地区的职能部门以及研究学者曾经提出各种不尽完全相同的指标体系评价方法[1]。我国系统地研究社会发展指标体系评价方法起步较晚,但发展很快,20世纪80年代以来,国内一些政府部门、研究单位和个人先后设计了一些“社会指标体系评价方法”[2-4],如:唐晓东[5]采用了21个指标变量的函数模型来评价我国社会经济发展状况,然而此模型一个最大缺点,就是没有把所有反映经济情况的因素考虑在内,得不到预期效果。但到目前为止,还没有形成一套完善、客观的社会经济发展综合指标体系评价方法,为了更加全面、客观地反映我国各地区的社会发展水平,本文在借鉴国内外研究成果的基础上,通过对我国已有研究成果的修正和充实,首次把居民消费价格指数和商品零售价格指数引入评价指标体系中,提出一种新的社会发展水平综合指标体系。 在实际经济问题中,不同的经济变量之间具有一定的相关性,如职工平均工资和消费水平必然有一定的关联性,这样势必增加分析问题的复杂性,因此需要有一种进行简化的方法。主成分分析法可以用较少的指标来代替原来较多的指标,并使这些较少的指标尽可能地反映原来指标的信息,从根本上解决了指标间的信息重叠问题,又大大简化了原指标体系的指标结构,用主成分分析法分析经济发展水平的优势主要体现在: (1)全面性(消除评价指标的相互影响),在满足n p f的条件下,不限制指标的个数,可以综合评价一国的经济发展状况,主成分分析的降维处理技术能较好地解决多指标评价的要求,在选择了() p个主成分后, m m p 仍能保留原是数据信息的85%以上,因此这一方法综合评价经济发展水平比较全面,可以克服片面追求个别经济指标而忽略全面经济发展指标的倾向;(2)可加性(数据标准化处理),在综合评价经济发展水平时,所建立的评价指标量纲往往不同,变差不能直接综合,主成分分析法避免了此现象的发生,因为在计算过程中,主成分分析法把各个指标进行了标准化处理,这就使得各个经济指标之间具有可比性即可加性;(3)客观性(科学的确定权重),在层次分析法计算过程中,通过专家打分来确定权重,也就是说在确定权重的问题上具有了人为因素,而主成分分析法在确定综合因子的权重时,克服了某些评价方法中人为确定权重的缺陷,使得综合评价结果唯一;(4)简单性(计算简介),随着电子计算机技术的发展,SPSS、SAS等计 1本课题得到高校博士点基金(20050213037)资助。

PCA主成分分析原理及应用

主元分析(PCA)理论分析及应用 什么是PCA? PCA是Principal component analysis的缩写,中文翻译为主元分析/主成分分析。它是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字:主元分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用与各个场合。因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地。被誉为应用线形代数最价值的结果之一。 在以下的章节中,不仅有对PCA的比较直观的解释,同时也配有较为深入的分析。首先将从一个简单的例子开始说明PCA应用的场合以及想法的由来,进行一个比较直观的解释;然后加入数学的严格推导,引入线形代数,进行问题的求解。随后将揭示PCA与SVD(Singular Value Decomposition)之间的联系以及如何将之应用于真实世界。最后将分析PCA理论模型的假设条件以及针对这些条件可能进行的改进。 一个简单的模型 在实验科学中我常遇到的情况是,使用大量的变量代表可能变化的因素,例如光谱、电压、速度等等。但是由于实验环境和观测手段的限制,实验数据往往变得极其的复杂、混乱和冗余的。如何对数据进行分析,取得隐藏在数据背后的变量关系,是一个很困难的问题。在神经科学、气象学、海洋学等等学科实验中,假设的变量个数可能非常之多,但是真正的影响因素以及它们之间的关系可能又是非常之简单的。 下面的模型取自一个物理学中的实验。它看上去比较简单,但足以说明问题。如图表 1所示。这是一个理想弹簧运动规律的测定实验。假设球是连接在一个无质量无摩擦的弹簧之上,从平衡位置沿轴拉开一定的距离然后释放。

用主成分分析模型构造综合评价指数

用主成分分析模型构造中学考试综合评价指数 [摘要] 在中学考试的综合评价中,使用较多的指标进行描述使分析复杂化,难以对众多指标的影响作出正确的判断,需要少量几个“综合评价指标”。通过简单加权的合成方法,难以得到科学的结果。主成分分析是一种多元统计方法,可以将众多指标简化浓缩为少量几个甚至一个综合评价指标,使简化的指标既能基本包括全部指标具有的信息,又使指标之间相互无关,较好地解决了这一课题。 [关键词] 考试评价;主成分分析;数学模型;计算步骤,指数构造方法 一、问题的提出 在中学考试评价中,通常使用各学科的“平均分”、“优秀率”、“及格率”和“低分率”等指标。考虑到成绩的分布状况(“优秀率”与“及格率”之间的差距偏大,可能失去部分信息量),某些地区还使用了“良好率”指标。这样,k 个学科的考试评价的p 项指标将多达k ╳p 个。在对考试进行综合的评价时,使用较多的指标进行描述不仅会增加评价的工作量,而且会因评价指标间的相关性造成评价信息重叠,相互干扰,其结果使分析复杂化,难以对众多指标的影响作出正确的判断。因此,需要少数几个甚至一个“综合评价指标”来代替众多的且相互之间具有相关关系的指标,同时又需要不失去原有指标具有的信息量,这是考试评价中具有现实意义的课题。 某些地区采用一种“降维”的方法,较成功地把k ╳p 维指标降为p 维指标,即在使用“总分平均分”的同时,用“科平均╳╳率”取代各科的“╳╳率”(计算方法见备注1)。如何把p 维指标再合成为一个“综合评价指标”?采用一些简单加权的合成方法时,由于对各指标的影响不容易作出正确的定量化的判断,及权数产生的科学性等问题,往往难以得到令人信服的科学的结果。 主成分分析是一种多元统计方法,可以将众多指标简化浓缩为少数几个甚至一个综合评价指标,使简化的指标既能基本包括全部指标具有的信息,又使指标之间相互无关。较好地解决了这一课题。 二、主成分分析的数学模型 设有n 个样品,每个样品观测p 个指标(变量):X 1,X 2,…,X p , 得到原始数据矩阵: 用数据矩阵X 的p 个列向量(即p 个指标向量)作线形组合(即综合指标向量)为: 上述方程组要求: 且系数αij 由下列原则决定: ①、F i 与F j (i ≠j ,i ,j =1,…,p )不相关; ②、F 1是X 1,X 2,…,X p 的一切线性组合(系数满足上述方程组)中方差最大的,F 2是与F 1不相关的X 1,X 2,…,X p 的一切线性组合中方差最大的,…,F p 是是与F 1,F 2,…,F p-1都不相关的X 1,X 2,…,X p 的一切线性组合中方差最大的。 ?? ? ??? ? ???? ???=np n n p p x x x x x x x x x X 2122221 11211 ??? ?? ???????=ni i i i x x x X 2 1 ?? ???? ?+++=+++=+++=p pp p p p p p p p p X a X a X a F X a X a X a F X a X a X a F 22122221122122111111 2 2221=+++pi i i a a a

主成分分析PCA(含有详细推导过程以及案例分析matlab版)

主成分分析法(PCA) 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。 I. 主成分分析法(PCA)模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。 主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求 0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。 (二)主成分分析的数学模型 对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为: ??????? ??=np n n p p x x x x x x x x x X 21 222 21112 11()p x x x ,,21=

主成分分析法的原理应用及计算步骤..

一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点: ↓主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关 通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性 总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。 二、基本原理 主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP (比如p 个指标),重新组合成一组较少个数的互不相关的综合指标Fm 来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp 所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。 设F1表示原变量的第一个线性组合所形成的主成分指标,即 11112121...p p F a X a X a X =+++,由数学知识可知,每一个主成分所提取的信息量可 用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,…,XP 的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p 个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以F2是与F1不

如何有效利用主成分分析进行综合评价

如何有效利用主成分分析进行综合评价 摘要:由于主成分分析在多元统计分析中的降维作用,使之在社会、经济、医疗、生化等 各领域运用越来越广泛,但由于传统主成分分析方法的局限性导致了一些问题的产生。这些 问题吸引了许多领域专家的关注,并具有针对性的提出了一些不同的改进方法。本文介绍了 主成分分析的基本和性质,并整理了近年来主成分分析在综合评价应用中遇到的普遍问题并整理验证了认同率较强的一些改进方法,以供大家研究学习。 关键词:主成分分析;综合评价;均值化 1引言 1.1研究的背景和意义 随着生产力的不断进步,生产方式由外延式扩张转化为追求经济效益的内涵式发展,以 致在生产过程中必须考虑经济效益的各个方面,如生产力水平、技术进步、资源占用等情况, 并需要就综合各方面的因素进行综合评价。 评价是根据确定的目的来测定对象系统的属性,并将这种属性变为客观定量的计值或者主观效用行为,整个过程离不开评价者的参与,而综合评价作为评价的一种也需要评价者做出相应反应或指示,而很多综合评价过程易受到评价者的干预,使评价结果产生偏差。 主成分分析能将高维空间的问题转化到低维空间去处理【9】,使问题变得比较简单、直 观,而且这些较少的综合指标之间互不相关,又能提供原有指标的绝大部分信息。而且,伴 随主成分分析的过程,将会自动生成各主成分的权重,这就在很大程度上抵制了在评价过程 中人为因素的干扰,因此以主成分为基础的综合评价理论能够较好地保证评价结果的客观性,如实地反映实际问题。主成分综合评价提供了科学而客观的评价方法,完善了综合评价 理论体系,为管理和决策提供了客观依据,能在很大程度上减少了上述不良现象的产生。 所以在社会经济、管理、自然科学等众多领域的多指标体系中,如节约型社会指标体系、生态环境可持续型指标体系、和谐社会指标体系、投资环境指标体系等,主成分分析法常被应用于综合评价与监控【6】。 综上所述,对综合评价指标体系理论进行研究,既有理论上的必要性,更有实践中的迫 切性。 1.2研究的发展史

主成分分析计算方法和步骤

主成分分析计算方法和步骤: 在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。 主成分分析的应用目的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。 主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征根和特征向量; ④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。 结合数据进行分析 本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了0.963,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。 表5-6 相关系数矩阵 本科院校 数招生人数教育经费投入 相关性师生比0.279 0.329 0.252 重点高校数0.345 0.204 0.310 教工人数0.963 0.954 0.896 本科院校数 1.000 0.938 0.881 招生人数0.938 1.000 0.893 教育经费投 0.881 0.893 1.000 入

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 第一,将EXCEL中的原始数据导入到SPSS软件中; 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。

数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性,可以举个简单的例子,一个百分制的变量与一个5分值的变量在一起怎么比较?只有通过数据标准化,都把它们标准到同一个标准时才具有可比性,一般标准化采用的是Z标准化,即均值为0,方差为1,当然也有其他标准化,比如0--1标准化等等,可根据自己的研究目的进行选择,这里介绍怎么进行数据的Z标准化。 所的结论: 标准化后的所有指标数据。 注意: SPSS 在调用Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但SPSS 并不直接给出标准化后的数据, 如需要得到标准化数据, 则需调用Descriptives 过程进行计算。 factor过程对数据进行因子分析(指标之间的相关性判定略)。 【1】“分析”|“降维”|“因子分析”选项卡,将要进行分析的变量选入“变量”列表;

【2】设置“描述”,勾选“原始分析结果”和“KMO与Bartlett球形度检验”复选框; 【3】设置“抽取”,勾选“碎石图”复选框; 【4】设置“旋转”,勾选“最大方差法”复选框; 【5】设置“得分”,勾选“保存为变量”和“因子得分系数”复选框; 【6】查看分析结果。 所做工作: a.查看KMO和Bartlett 的检验 KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析; Bartlett 球度度检验的Sig值越小于显著水平0.05,越说明变量之间存在相关关系。 所的结论: 符合因子分析的条件,可以进行因子分析,并进一步完成主成分分析。 注意: 1.KMO(Kaiser-Meyer-Olkin) KMO统计量是取值在0和1之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。 Kaiser给出了常用的kmo度量标准: 0.9以上表示非常适合;0.8表示适合;0.7表示一般; 0.6表示不太适合;0.5以下表示极不适合。 2.Bartlett 球度检验: 巴特利特球度检验的统计量是根据相关系数矩阵的行列式得到的,如果该值较大,且其对应的相伴概率值小于用户心中的显著性水平,那么应该拒绝零假设,认为相关系数矩阵不可能是单位阵,即原始变量之间存在相关性,适合于做主成份分析;相反,如果该统计量比较小,且其相对应的相伴概率大于显著性水平,则不能拒绝零假设,认为相关系数矩阵可能是单位阵,不宜于做因子分析。 Bartlett 球度检验的原假设为相关系数矩阵为单位矩阵,Sig值为0.001小于显著水平0.05,因此拒绝原假设,说明变量之间存在相关关系,适合做因子分析。 所做工作: b. 全部解释方差或者解释的总方差(Total Variance Explained)

主成分分析法的步骤和原理

(一)主成分分析法的基本思想 主成分分析(Principal Component Analysis)是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。[2] 采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。 (二)主成分分析法代数模型 假设用p个变量来描述研究对象,分别用X1,X2…X p来表示,这p个变量构成的p维随机向量为X=(X1,X2…X p)t。设随机向量X的均值为μ,协方差矩阵为Σ。对X进行线性变化,考虑原始变量的线性组合: Z=μX+μX+…μX Z=μX+μX+…μX ……………… Z=μX+μX+…μX 主成分是不相关的线性组合Z1,Z2……Z p,并且Z1是X,X…X的线性组合中方差最大者,Z2是与Z1不相关的线性组合中方差最大者,…,Z是与Z1,Z2……Z p-1都不相关的线性组合中方差最大者。 (三)主成分分析法基本步骤 第一步:设估计样本数为n,选取的财务指标数为p,则由估计样本的原始数据可得矩阵X=(x ij)m×p,其中x ij表示第i家上市公司的第j项财务指标数据。 第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。 第三步:根据标准化数据矩阵建立协方差矩阵R,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。其中,R ij(i,j=1,2,…,p)为原始变量X i与X j的相关系数。R为实对称矩阵

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 公司销售净利率(X1)资产净利率(X2)净资产收益率(X3)销售毛利率(X4) 歌华有线五粮液用友软件太太药业浙江阳光烟台万华方正科技红河光明贵州茅台中铁二局红星发展伊利股份青岛海尔湖北宜化雅戈尔福建南纸43.31 17.11 21.11 29.55 11.00 17.63 2.73 29.11 20.29 3.99 22.65 4.43 5.40 7.06 19.82 7.26 7.39 12.13 6.03 8.62 8.41 13.86 4.22 5.44 9.48 4.64 11.13 7.30 8.90 2.79 10.53 2.99 8.73 17.29 7.00 10.13 11.83 15.41 17.16 6.09 12.97 9.35 14.3 14.36 12.53 5.24 18.55 6.99 54.89 44.25 89.37 73 25.22 36.44 9.96 56.26 82.23 13.04 50.51 29.04 65.5 19.79 42.04 22.72 第一,将EXCEL中的原始数据导入到SPSS软件中; 注意: 导入Spss的数据不能出现空缺的现象,如出现可用0补齐。 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。 所做工作: a. 原始数据的标准化处理

主成分分析法概念及例题

主成分分析法 [ 编辑 ] 什么是主成分分析法 主成分分析也称 主分量分析 ,旨在利用降维的思想,把多 指标 转化为少数几个综合指标。 在 统计学 中,主成分分析( principal components analysis,PCA )是一种简化数据集的技 术。它是一个线性变换。 这个变换把数据变换到一个新的坐标系统中, 使得任何数据投影的第一 大方差 在第一个坐标 (称为第一主成分 )上,第二大方差在第二个坐标 (第二主成分 )上,依次类推。 主成分分析经常用减少数据集的维数, 同时保持数据集的对 方差 贡献最大的特征。 这是通过保留 低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是, 这也不是一定的,要视具体应用而定。 [ 编辑 ] , PCA ) 又称: 主分量分析,主成分回归分析法 主成分分析( principal components analysis

主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [ 编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [ 编辑] 主成分分析的主要作用

主成分进行综合评价 综合评价主成分分析方法与因子分析方法的比较

主成分进行综合评价综合评价主成分分析方法 与因子分析方法的比较 统计研究 主成分分析方法和因子分析方法都是寻求从高维空间到低维空间的映射的方法,其目的是起到降维的效果,以便于用几个较少的综合指标来综合所研究总体各方面的信息,且这几个指标所代表的信息不重叠,也就是说从高维空间到低维空间的映射仍保持高维空间的“序”的结构。但这两种综合评价方法往往易混淆,本文从这两种方法的统计依据、数学模型、计算方法、综合指标的选取等方面比较它们的异同,以供初学者参考。 1、统计依据不同。主成分分析方法的统计问题:依P个指标戈l,x2,A,戈P的/7,个观察值矩阵X=G0帅,能否找到能较好地综合反映这个P 、二 指标的线性函数Y=乞atxt,即 i=1 找到这个主成分的方法就是主成分分析方法。 因子分析方法的统计问题仍 口由P个指标戈。,戈:,A,却的几个观钱道察信息阵X=GF)忡,用有限个不翠

可观测的潜在变量来解释原始变量间的相关性或协方差关系,寻求这几个公因子的方法就是因子缉含汗价士气分析劣珐乡图分奸劣珐的火仪 分析法。它的原理源于已知信息的指标向量戈=0。,戈:,A,菇P)’,总存在正交变换戈=Qy使得记x=Az,这里正交阵Q是X=G0。巾的 协方差阵y的特征向量排成的,y的各分量是不相关的,若茹的方差集中在少数几个变量三,,A,缸上,即y的特征值A,,A,A。较大,后几个特征值A㈨,A,A。很小几乎为零,于是就有因子模型算=4厂+s。寻求公因子、厂及因子载荷阵A的方法就是因子分析法。 , 2、数学模型不同。主成分分析的数学模型:Y=Eat、、ri, 1=1 即主成分是原始指标的线性函数。因子分析的数学模型:戈=4厂+£,A为因子载荷阵。厂为公因子向量,£为随机误差项,Vnroq=I。,Var=o,Var I30圈羹堑绻过丝Q丝生皇塑万 方数据=D。从形式上看二者的模型不同,但主成分分析又为因子分析中因子的寻求提供了一个有效的途径。主成分分析与因子分析法最易混淆的地方在于,将主成分分析方法与因子分析

主成分法及其应用

【作者简介】 苏键(1985-),男,广西钦州人,助理工程师,研究方向:食品科学。1主成分分析法 何谓主成分分析,就是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析[1]。主成分分析的中心思想是缩减一个包括很多相互联系着的变量的数量集,在数量集中保留尽可能多的有用的变量。 主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。主成分分析是设法将原来众多具有一定相关性(比如P 个指标 ),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P 个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var (F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的, 故称F1为第一主成分。如果第一主成分不足以代表原来P 个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov (F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P 个主成分[2]。 主成分分析首先是由K.皮尔森对非随机变量引入的,而后H.霍特林将此方法推广到随机向量的情形[2]。信息的大小通常用离差平方和或方差来衡量。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。 2主成分分析法在食品领域的应用 2.1主成分分析在食品风味方面的应用 目前,主成分分析应用还是比较广泛的,但是就食品风味方面,关于该分析方法的文献鲜见报道。戴素贤等[3]人对七种高香型乌龙茶中的香气成分进行了主成分分析,他们尝试用主成分分析法来研究茶业香型的变化,并进而找到影响这些香型变化的主要化合物,同时还发现了不同的茶别中香气化合物变化的趋势并进行了模拟量化,直观地表现了各种香气化合物对香气的贡献程度。李华等[4]运用多元统计分析确定葡萄酒感官特性,多元统计分析中的主成分分析等数学工具能够把大量的描述葡萄酒感官特性的描述语精简成较少的综合性更强的描述语,这些精简后的描述语不但能够反映精简前描述语的信息,还可以筛选出科学合理的描述符,描述符是描述分析的语言和工具,根据描述符可以分类不同的葡萄酒。邵威平等[5]应用主成分分析法完成了不同品牌啤酒风味差异性的评价,同一品牌啤酒风味一致性的评价,同一品牌不同生产厂之间一致性的评价以及同一生产厂啤酒一致性的评价这些工作。 啤酒是个多指标的风味食品,主成分分析法可以帮助我们更好地研究啤酒理化指标和啤酒风格之间的相关性,从而达到更好地理解啤酒风味的目的。岳田利等[6]人则通过利用主成分分析的方法建立了苹果酒香气质量的评价模型,并以此来对苹果酒样品香气组分进行客观的统计分析。S.Kallithraka 等[7]采用高效液相色谱法和气相色谱法研究了希腊国内不同产地葡萄酒的化合物成分和感官特性,并运用了PCA 法(主成分分析法)对所得参数进行多元分析,最终达到给葡萄酒评价和分类的目的。2.2主成分分析在食品品质方面的应用 食品品质的评价往往是非常复杂的过程。因为影响食品品质的因素大量存在,非人为因素如食品环境中的微生物,温度及pH 等的变化带来的影响。另一方面,由于人为的因素掺假也会造成食品品质的低劣,进而损害广大销售者和消费者的利益。如黎海红等[8]人运用主成分分析法对掺伪芝麻油的检测方法进行研究分析。根据主成分分析的实验原理,可以选择芝麻油的折光率、酸价、色泽、水分及挥发物、皂化值和碘价等理化指标作为变量,将这些变量的所测数据做矩阵处理最后分析就 轻工科技 LIGHT INDUSTRY SCIENCE AND TECHNOLOGY 2012年9月第9期(总第166期) 食品与生物 主成分分析法及其应用 苏键,陈军,何洁 (广西轻工业科学技术研究院,广西南宁530031) 【摘要】 介绍了主成分分析法的定义、原理,概述了该法在食品及一些仪器分析领域的应用,目的是为其他还未应用该分 析方法的学术领域提供一种参考和借鉴,使得主成分分析法能够在越来越多的学术领域中得以推广和应用。 【关键词】主成分分析;应用;概述【中图分类号】TS262【文献标识码】A 【文章编号】2095-3518 (2012)09-12-02

主成分分析法的步骤和原理

主成分分析法的步骤和原理 (总2页) -CAL-FENGHAI.-(YICAI)-Company One1 -CAL-本页仅作为文档封面,使用请直接删除

(一)主成分分析法的基本思想 主成分分析(Principal Component Analysis)是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。[2] 采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。 (二)主成分分析法代数模型 假设用p个变量来描述研究对象,分别用X 1,X 2 …X p 来表示,这p个变量构 成的p维随机向量为X=(X 1,X 2 …X p )t。设随机向量X的均值为μ,协方差矩阵 为Σ。假设 X 是以 n 个标量随机变量组成的列向量,并且μk 是其第k个元素的期望值,即,μk= E(xk),协方差矩阵然后被定义为: Σ=E{(X-E[X])(X-E[X])}=(如图 对X进行线性变化,考虑原始变量的线性组合: Z1=μ11X1+μ12X2+…μ1p X p Z2=μ21X1+μ22X2+…μ2p X p ……………… Z p=μp1X1+μp2X2+…μpp X p 主成分是不相关的线性组合Z 1,Z 2 ……Z p ,并且Z 1 是X1,X2…X p的线性组合 中方差最大者,Z 2是与Z 1 不相关的线性组合中方差最大者,…,Z p是与Z 1 , Z 2……Z p-1 都不相关的线性组合中方差最大者。 (三)主成分分析法基本步骤 第一步:设估计样本数为n,选取的财务指标数为p,则由估计样本的原始 数据可得矩阵X=(x ij ) m×p ,其中x ij 表示第i家上市公司的第j项财务指标数 据。 第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。 第三步:根据标准化数据矩阵建立协方差矩阵R,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分 析。其中,R ij (i,j=1,2,…,p)为原始变量X i 与X j 的相关系数。R为实对 称矩阵(即R ij =R ji ),只需计算其上三角元素或下三角元素即可,其计算公式 为:

如何有效利用主成分分析进行综合评价

如何有效利用主成分分析进行综合评价 摘要由于主成分分析在多元统计分析中的降维作用,使之在社会、经济、医疗、生化等各领域运用越来越广泛,但由于传统主成分分析方法的局限性导致了一些问题的产生。这些问题吸引了许多领域专家的关注,并具有针对性的提出了一些不同的改进方法。本文介绍了主成分分析的基本和性质,并整理了近年来主成分分析在综合评价应用中遇到的普遍问题并整理验证了认同率较强的一些改进方法,以供大家研究学习。 关键词主成分分析,综合评价,均值化 1引言 1.1研究的背景和意义 随着生产力的不断进步,生产方式由外延式扩张转化为追求经济效益的内涵式发展,以致在生产过程中必须考虑经济效益的各个方面,如生产力水平、技术进步、资源占用等情况,并需要就综合各方面的因素进行综合评价。 评价是根据确定的目的来测定对象系统的属性,并将这种属性变为客观定量的计值或者主观效用行为,整个过程离不开评价者的参与,而综合评价作为评价的一种也需要评价者做出相应反应或指示,而很多综合评价过程易受到评价者的干预,使评价结果产生偏差。 主成分分析能将高维空间的问题转化到低维空间去处理,使问题变得比较简单、直观,而且这些较少的综合指标之间互不相关,又能提供原有指标的绝大部分信息。而且,伴随主成分分析的过程,将会自动生成各主成分的权重,这就在很大程度上抵制了在评价过程中人为因素的干扰,因此以主成分为基础的综合评价理论能够较好地保证评价结果的客观性,如实地反映实际问题。主成分综合评价提供了科学而客观的评价方法,完善了综合评价理论体系,为管理和决策提供了客观依据,能在很大程度上减少了上述不良现象的产生。 所以在社会经济、管理、自然科学等众多领域的多指标体系中,如节约型社会指标体系、生态环境可持续型指标体系、和谐社会指标体系、投资环境指标体系等,主成分分析法常被应用于综合评价与监控。 综上所述,对综合评价指标体系理论进行研究,既有理论上的必要性,更有实践中的迫切性。 1.2主成分分析的发展史 主成分分析,首先是由英国的皮尔生(Kar卜Pearson)对非随机变量引入的,而后美国的数理统计学家赫特林(Harold.Hotelling)在1933年将此方法推广到随机向量的情形团。主成分分析的降维思想从一开始就很好地为综合评价提供了有力的理论和技术支持。

基于主成分分析和层次分析法的某市投资环境评价模型建立

基于主成分分析和层次分析法的某市投资环境评价模型建立研究 1 关于因子分析 围绕浓缩原有变量提取因子的核心目标,因子分析主要涉及以下内容: 1.1因子分析的前提条件; 1.2因子载荷矩阵的求解和因子提取; 1.3因子命名 1.4计算因子得分。 2层次分析法 运用层次分析法建模,大体上可按下面四个步骤进行: 2.1建立递阶层次结构模型; 2.2构造出各层次中的所有判断矩阵;2.3层次单排序及一致性检验; 2.4层次总排序及一致性检验。 3指标体系的建立与评价模型的构建 3.1指标体系的建立X市投资环境评价分为三个层次:第一层是目标层;第二层准则层包括发展与效率综合指标、基础设施与配套能力综合指标、人力资源与社会责任综合指标、环境保护与节能减排综合指标、技术创新综合指标等五个二级指标;第三层是具体的评估指标。按照指标选取的全面性、科学性、目的性、可操作性以及最少性的原则,本研究引入22个指标变量以反映综合投资环境水平。 3.2评价模型的构建 3.2.1准则层评价模型的构建 为把各具体投资环境评价指标项聚合成为准则层的综合得分,采用主成分分析法进行处理。使用主成分法作综合评价时,主成分量选择的原则是其累计概率≥85%。在主成分分析法确定各综合评价因子权重的基础上,构造评价模型,即: pj=∑U i=1mi?Vj(j=1,2,3,4,5) (1) 其中pj代表各子竞争力得分,Ui为各子竞争力相应的因子的主成分得分,Vi为各子竞争力相应的因子的权重值(即为主成分贡献率),m为综合因子数。 3.2.2目标层评价模型的构建 在已求得的准则层综合得分的基础上,我们选择层次分析法(AHP)来确定准则层的权重。本研究运用层次分析法建模时,具体步骤为:第一步,建立层次分析模型;第二步,构造判断矩阵A;第三步,计算层次权重及一致性检验。 目标层投资环境评价模型为: S=∑Ij?Pj (2) j=1n 其中S为研究对象投资环境评价综合得分,Ij为准则层各综合指标的权重值,Pj为准则层各综合指标得分,n为5。 4 某市投资环境评价的实证分析 4.1利用主成分分析计算各准则层综合得分 利用SPSS软件对准则层其下属指标层各变量系统进行主成分分析,其综合得分及排名如表1所示。 以准则层发展与效率指标为例,利用SPSS软件来实现该系统变量的主成分分析。第一,采用Z-Score方法对原始数据进行标准化处理[6]。本文采用SAS软件中的proc、s

相关文档
相关文档 最新文档