文档库 最新最全的文档下载
当前位置:文档库 › SPSS生物统计分析示例8-主成分分析

SPSS生物统计分析示例8-主成分分析

SPSS生物统计分析示例8-主成分分析
SPSS生物统计分析示例8-主成分分析

SPSS统计分析示例6

(主成分分析)

(Principle Components Analysis, PCA)

对某类植物的5个种群样本进行形态学特征统计,包括9个特征因素,分别为花梗长度(x1),花茎长度(x2),筒长(x3),裂片数(x4),最长雄蕊长度(x5),最短雄蕊长度(x6),花柱长(x7),每花序花数(x8),雄蕊数(x9),测量数据的平均值记录如表1。

表1中可见对于观察的5个种群,裂片数(X4)不具备变异性(均为5),因此不能纳入主成分分析,因此首先剔除掉,而只考虑其余8个因素。

SPSS主成分分析程序先将原始数据进行标准化,再纳入PCA分析。该过程自动在幕后进行,不在PCA结果中显示。如果需要显示,可通过Analyze Descriptiv e Statistics来实现:弹出Descriptives对话框后,把X1~X9选入Variables框,在Save standardized values as variables前的方框打上钩,点击“OK”,经标准化的数据会自动填入数据窗口中,并以Z开头命名。

各因素之间的相关系数如表2所示:

从解释的总方差表(表3)来看,只有3个成分的特征根(Eigenvalue)大于1,依

据“Kaiser 准则”,可筛选出3个主要成分C1、C2、C3

表3:解释的总方差(Total Variance Explained)

Component Initial Eigenvalues Rotation Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative %

1 4.77

2 59.649 59.649 2.875 35.934 35.934

2 1.720 21.496 81.145 2.748 34.354 70.288

3 1.367 17.092 98.237 2.236 27.949 98.237

4 .141 1.763 100.000

5 4.36E-01

6 5.45E-015 100.000

6 2.40E-016 3.01E-015 100.000

7 -3.03E-01

-3.79E-016 100.000

7

8 -3.30E-01

-4.12E-015 100.000

6

Extraction Method: Principal Component Analysis.

斜坡图(scree plot)如下,前3个成分解释了总方差的约98%。

成分矩阵如下表,反映了各个原始因素与不同成分的相关程度,绝对值越大,变量与成分之间关系越密切。如表示,每花序花朵数与成分C1之间负相关程度最高(R=-0.971)。

Component Matrix(a)

Extraction Method: Principal Component Analysis.

a 3 components extracted.

用表值除以各自成分的特征根值的平方根即为每个因素标准化值前面的系数,得到以下主成分表达式:

C1=-0.44 Zx8 + 0.42 Zx2 + 0.42 Zx6 + 0.41 Zx5 + 0.35 Zx9 + 0.20 Zx3 + 0.24 Zx7 + 0.26 Zx1

C2=0.10 Zx8 - 0.30 Zx2 - 0.21 Zx6 + 0.16 Zx5 + 0.49 Zx9 - 0.63 Zx3 + 0.14 Zx7 + 0.41 Zx1

C3=0.16 Zx8 + 0.11 Zx2 - 0.23 Zx6 + 0.29 Zx5 - 0.06 Zx9 + 0.25 Zx3 - 0.71 Zx7 + 0.51 Zx1

通过最大方差法(Varimax method)进行旋转,再计算成分载荷矩阵,结果如下。与未旋转之前的载荷矩阵相比,分值在不同成分之间的分配更加极端化。

Rotated Component Matrix(a)

Extraction Method: Principal Component Analysis.

Rotation Method: Varimax with Kaiser Normalization.

a Rotation converged in 5 iterations.

C1’=0.56 Zx3 + 0.52 Zx2 + 0.43 Zx6 - 0.39 Zx8 + 0.04 Zx1 + 0.27 Zx5 - 0.02 Zx9 + 0.01 Zx7

C2’=-0.06 Zx3 + 0.23 Zx2 + 0.15 Zx6 - 0.25 Zx8 + 0.59 Zx1 + 0.63 Zx5 + 0.14 Zx9 + 0.41 Zx7

C3’=0.16 Zx3 + 0.11 Zx2 - 0.23 Zx6 + 0.29 Zx8 - 0.06 Zx1 + 0.25 Zx5 - 0.71 Zx9 + 0.51 Zx7

旋转空间中的因子载荷散点图

以旋转后为准,成分1主要包含筒长(x3)、花茎长(x2)、最短雄蕊长(x6)、每花序花朵数(x8);成分2主要包括花梗长(x1)、最长雄蕊长(x5)、雄蕊数(x9);成分3主要包括花柱长(x7)。

SPSS进行主成分分析的步骤(图文)精编版

主成分分析的操作过程 原始数据如下(部分) 调用因子分析模块(Analyze―Dimension Reduction―Factor),将需要参与分析的各个原始变量放入变量框,如下图所示:

单击Descriptives按钮,打开Descriptives次对话框,勾选KMO and Bartlett’s test of sphericity选项(Initial solution选项为系统默认勾选的,保持默认即可),如下图所示,然后点击Continue按钮,回到主对话框: 其他的次对话框都保持不变(此时在Extract次对话框中,SPSS已经默认将提取公因子的方法设置为主成分分析法),在主对话框中点OK按钮,执行因子分析,得到的主要结果如下面几张表。 ①KMO和Bartlett球形检验结果:

KMO为0.635>0.6,说明数据适合做因子分析;Bartlett球形检验的显著性P值为 0.000<0.05,亦说明数据适合做因子分析。 ②公因子方差表,其展示了变量的共同度,Extraction下面各个共同度的值都大于0.5,说明提取的主成分对于原始变量的解释程度比较高。本表在主成分分析中用处不大,此处列出来仅供参考。 ③总方差分解表如下表。由下表可以看出,提取了特征值大于1的两个主成分,两个主成分的方差贡献率分别是55.449%和29.771%,累积方差贡献率是85.220%;两个特征值分别是3.327和1.786。 ④因子截荷矩阵如下:

根据数理统计的相关知识,主成分分析的变换矩阵亦即主成分载荷矩阵U 与因子载荷矩阵A 以及特征值λ的数学关系如下面这个公式: λi i i A U = 故可以由这二者通过计算变量来求得主成分载荷矩阵U 。 新建一个SPSS 数据文件,将因子载荷矩阵中的各个载荷值复制进去,如下图所示: 计算变量(Transform-Compute Variables )的公式分别如下二张图所示:

SPSS进行主成分分析报告地步骤(图文)

主成分分析の操作過程 原始數據如下(部分) 調用因子分析模塊(Analyze―Dimension Reduction―Factor),將需要參與分析の各個原始變量放入變量框,如下圖所示:

單擊Descriptives按鈕,打開Descriptives次對話框,勾選KMO and Bartlett’s test of sphericity選項(Initial solution選項為系統默認勾選の,保持默認即可),如下圖所示,然後點擊Continue按鈕,回到主對話框: 其他の次對話框都保持不變(此時在Extract次對話框中,SPSS已經默認將提取公因子の方法設置為主成分分析法),在主對話框中點OK按鈕,執行因子分析,得到の主要結果如下面幾張表。 ①KMO和Bartlett球形檢驗結果:

KMO為0.635>0.6,說明數據適合做因子分析;Bartlett球形檢驗の顯著性P值為0.000<0.05,亦說明數據適合做因子分析。 ②公因子方差表,其展示了變量の共同度,Extraction下面各個共同度の值都大於0.5,說明提取の主成分對於原始變量の解釋程度比較高。本表在主成分分析中用處不大,此處列出來僅供參考。 ③總方差分解表如下表。由下表可以看出,提取了特征值大於1の兩個主成分,兩個主成分の方差貢獻率分別是55.449%和29.771%,累積方差貢獻率是85.220%;兩個特征值分別是3.327和1.786。 ④因子截荷矩陣如下:

根據數理統計の相關知識,主成分分析の變換矩陣亦即主成分載荷矩陣U 與因子載荷矩陣A 以及特征值λの數學關系如下面這個公式: λ i i i A U = 故可以由這二者通過計算變量來求得主成分載荷矩陣U 。 新建一個SPSS 數據文件,將因子載荷矩陣中の各個載荷值複制進去,如下圖所示: 計算變量(Transform-Compute Variables )の公式分別如下二張圖所示:

主成分分析案例

姓名:XXX 学号:XXXXXXX 专业:XXXX 用SPSS19软件对下列数据进行主成分分析: ……

一、相关性 通过对数据进行双变量相关分析,得到相关系数矩阵,见表1。 表1 淡化浓海水自然蒸发影响因素的相关性 由表1可知: 辐照、风速、湿度、水温、气温、浓度六个因素都与蒸发速率在0.01水平上显著相关。 分析:各变量之间存在着明显的相关关系,若直接将其纳入分析可能会得到因多元共线性影响的错误结论,因此需要通过主成份分析将数据所携带的信息进行浓缩处理。 二、KMO和球形Bartlett检验 KMO和球形Bartlett检验是对主成分分析的适用性进行检验。 KMO检验可以检查各变量之间的偏相关性,取值范围是0~1。KMO的结果越接近1,表示变量之间的偏相关性越好,那么进行主成分分析的效果就会越好。实际分析时,KMO统计量大于0.7时,效果就比较理想;若当KMO统计量小于0.5时,就不适于选用主成分分析法。 Bartlett球形检验是用来判断相关矩阵是否为单位矩阵,在主成分分析中,若拒绝各变量独立的原假设,则说明可以做主成分分析,若不拒绝原假设,则说明这些变量可能独立提供一些信息,不适合做主成分分析。

由表2可知: 1、KMO=0.631<0.7,表明变量之间没有特别完美的信息的重叠度,主成分分析得到的模型又可能不是非常完善,但仍然值得实验。 2、显著性小于0.05,则应拒绝假设,即变量间具有较强的相关性。 三、公因子方差 公因子方差表示变量共同度。表示各变量中所携带的原始信息能被提取出的主成分所体现的程度。 由表3可知: 几乎所有变量共同度都达到了75%,可认为这几个提取出的主成分对各个变量的阐释能力比较强。 四、解释的总方差 解释的总方差给出了各因素的方差贡献率和累计贡献率。

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 第一,将EXCEL中的原始数据导入到SPSS软件中; 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。

数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性,可以举个简单的例子,一个百分制的变量与一个5分值的变量在一起怎么比较?只有通过数据标准化,都把它们标准到同一个标准时才具有可比性,一般标准化采用的是Z标准化,即均值为0,方差为1,当然也有其他标准化,比如0--1标准化等等,可根据自己的研究目的进行选择,这里介绍怎么进行数据的Z标准化。 所的结论: 标准化后的所有指标数据。 注意: SPSS 在调用Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但SPSS 并不直接给出标准化后的数据, 如需要得到标准化数据, 则需调用Descriptives 过程进行计算。 factor过程对数据进行因子分析(指标之间的相关性判定略)。 【1】“分析”|“降维”|“因子分析”选项卡,将要进行分析的变量选入“变量”列表;

【2】设置“描述”,勾选“原始分析结果”和“KMO与Bartlett球形度检验”复选框; 【3】设置“抽取”,勾选“碎石图”复选框; 【4】设置“旋转”,勾选“最大方差法”复选框; 【5】设置“得分”,勾选“保存为变量”和“因子得分系数”复选框; 【6】查看分析结果。 所做工作: a.查看KMO和Bartlett 的检验 KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析; Bartlett 球度度检验的Sig值越小于显著水平0.05,越说明变量之间存在相关关系。 所的结论: 符合因子分析的条件,可以进行因子分析,并进一步完成主成分分析。 注意: 1.KMO(Kaiser-Meyer-Olkin) KMO统计量是取值在0和1之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。 Kaiser给出了常用的kmo度量标准: 0.9以上表示非常适合;0.8表示适合;0.7表示一般; 0.6表示不太适合;0.5以下表示极不适合。 2.Bartlett 球度检验: 巴特利特球度检验的统计量是根据相关系数矩阵的行列式得到的,如果该值较大,且其对应的相伴概率值小于用户心中的显著性水平,那么应该拒绝零假设,认为相关系数矩阵不可能是单位阵,即原始变量之间存在相关性,适合于做主成份分析;相反,如果该统计量比较小,且其相对应的相伴概率大于显著性水平,则不能拒绝零假设,认为相关系数矩阵可能是单位阵,不宜于做因子分析。 Bartlett 球度检验的原假设为相关系数矩阵为单位矩阵,Sig值为0.001小于显著水平0.05,因此拒绝原假设,说明变量之间存在相关关系,适合做因子分析。 所做工作: b. 全部解释方差或者解释的总方差(Total Variance Explained)

主成分分析法及其在SPSS中的操作

一、主成分分析基本原理 概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。 思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。 原理:假定有n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵, 记原变量指标为x 1,x 2,…,x p ,设它们降维处理后的综合指标,即新变量为 z 1,z 2,z 3,… ,z m (m ≤p),则 系数l ij 的确定原则: ①z i 与z j (i ≠j ;i ,j=1,2,…,m )相互无关; ②z 1是x 1,x 2,…,x P 的一切线性组合中方差最大者,z 2是与z 1不相关的x 1,x 2,…,x P 的所有线性组合中方差最大者; z m 是与z 1,z 2,……,z m -1都不相关的x 1,x 2,…x P , 的所有线性组合中方差最大者。 新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x P 的第1,第2,…,第m 主成分。 从以上的分析可以看出,主成分分析的实质就是确定原来变量x j (j=1,2 ,…, p )在诸主成分z i (i=1,2,…,m )上的荷载 l ij ( i=1,2,…,m ; j=1,2 ,…,p )。 ?????? ? ???????=np n n p p x x x x x x x x x X 2 1 2222111211 ?? ??? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111............

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 公司销售净利率(X1)资产净利率(X2)净资产收益率(X3)销售毛利率(X4) 歌华有线五粮液用友软件太太药业浙江阳光烟台万华方正科技红河光明贵州茅台中铁二局红星发展伊利股份青岛海尔湖北宜化雅戈尔福建南纸43.31 17.11 21.11 29.55 11.00 17.63 2.73 29.11 20.29 3.99 22.65 4.43 5.40 7.06 19.82 7.26 7.39 12.13 6.03 8.62 8.41 13.86 4.22 5.44 9.48 4.64 11.13 7.30 8.90 2.79 10.53 2.99 8.73 17.29 7.00 10.13 11.83 15.41 17.16 6.09 12.97 9.35 14.3 14.36 12.53 5.24 18.55 6.99 54.89 44.25 89.37 73 25.22 36.44 9.96 56.26 82.23 13.04 50.51 29.04 65.5 19.79 42.04 22.72 第一,将EXCEL中的原始数据导入到SPSS软件中; 注意: 导入Spss的数据不能出现空缺的现象,如出现可用0补齐。 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。 所做工作: a. 原始数据的标准化处理

spss进行主成分分析及得分分析

spss进行主成分分析及得分分析 1 将数据录入spss 1. 2 数据标准化:打开数据后选择分析→描述统计→描述,对数据进行标准化,选中将标准化得分另存为变量: 2.3 进行主成分分析:选择分析→降维→因子分析,

3.4设置描述性,抽取,得分和选项:

4.5 查看主成分分析和分析: 相关矩阵表明,各项指标之间具有强相关性。比如指标GDP总量与财政收入、固定资产投资总额、第二产业增加值、第三产业增加值、工业增加值的相关系数较大。这说明他们之间指标信息之间存在重叠,适合采用主成分分析法。(下表非完整呈现)

5.6 由Total Variance Explained(主成分特征根和贡献率)可知,特征根λ1=9.092,特征根λ2=1.150前两个主成分的累计方差贡献率达93.107%,即涵盖了大部分信息。这表明前两个主成分能够代表最初的11个指标来分析河南各个城市经济综合实力的发展水平,故提取前两个指标即可。主成分,分别记作F1、F2。 6.7

指标X1、X2、X3、X4、X5、X6、X7、X8、X9、X10在第一主成分上有较高载荷,相关性强。第一主成分集中反映了总体的经济总量。X11在第二主成分上有较高载荷,相关性强。第二主成分反映了人均的经济量水平。但是要注意: 这个主成分载荷矩阵并不是主成分的特征向量,也就是说并不是主成分1和主成分2的系数,主成分系数的求法是:各自主成分载荷向量除以各自主成分特征值的算术平方根。

7.8 成分得分系数矩阵(因子得分系数)列出了强两个特征根对应的特征向量,即各主要成分解析表达式中的标准化变量的系数向量。故各主要成分解析表达式分别为:F1=0.32ZX11+0.33ZX12+0.31ZX13+0.31ZX14+0.32ZX15+0.32ZX16+0.32ZX17+0.32ZX18+0. 32ZX19+0.21ZX110+0.15ZX111 F2=8.46ZX21+0.02ZX22-0.02ZX23-0.20ZX24-0.23Z25-0.04ZX26-0.15ZX27-0.02ZX28+0.10Z X29+0.47ZX210+0.78ZX211 8.9 主成分的得分是相应的因子得分乘以相应的方差的算术平方根。即:主成分1得分=因子1得分乘以9.092的算术平方根主成分2得分=因子2得分乘以1.150的算术平方根例如郑州:主成分因子=FAC1_1*9.092的算术平方根=3.59386*9.092的算术平方根=10.83,将各指标的标准化数据带入个主成分解析表达式中,分别计算出2个主成分得分(F1、F2),再以个主成分的贡献率为全书对主成分得分进行加权平均,即:H=(82.672*F1+10.497*F2)/93.124,求得主成分综合得分。

SPSS进行主成分分析

实验七、利用SPSS进行主成分分析 【例子】以全国31个省市的8项经济指标为例,进行主成分分析。 第一步:录入或调入数据(图1)。 图1 原始数据(未经标准化) 第二步:打开“因子分析”对话框。 沿着主菜单的“Analyze→Data Reduction→Factor ”的路径(图2)打开因子分析选项框(图3)。 图2 打开因子分析对话框的路径

图3 因子分析选项框 第三步:选项设置。 首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入变量(Variables)栏中(图3)。在本例中,全部8个变量都要用上,故全部调入(图4)。因无特殊需要,故不必理会“Value ”栏。下面逐项设置。 图4将变量移到变量栏以后 ⒈设置Descriptives描述选项。 单击Descriptives按钮(图4),弹出Descriptives对话框(图5)。

图5 描述选项框 在Stat is tic s 统计 栏中选中U niva riate d escript ives 复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考);选中Initial soluti on 复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。 在C orrel ation M atri x栏中,选中Coe fficien ts 复选项,则会给出原始变量的相关系数矩阵(分析时可参考);选中Deter minant 复选项,则会给出相关系数矩阵的行列式,如果希望在E xc el中对某些计算过程进行了解,可选此项,否则用途不大。其它复选项一般不用,但在特殊情况下可以用到(本例不选)。 设置完成以后,单击Cont inue 按钮完成设置(图5)。 ⒉ 设置Extra ction 选项。 打开Ext raction 对话框(图6)。因子提取方法主要有7种,在Method 栏中可以看到,系统默认的提取方法是主成分(Pr in ci pa l Compon en ts),因此对此栏不作变动,就是认可了主成分分析方法。 在Ana lyze 栏中,选中Correlatio n ma trix 复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中Covar iance matri x复选项,则因子分析基于数据的协方差矩阵进行分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。 在D isplay 栏中,选中U nrotated factor s olu ti on(非旋转因子解)复选项,则在分析结果中给出未经旋转的因子提取结果。对于主成分分析而言,这一项选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,以便对比。 选中Scree P lo t(“山麓”图),则在分析结果中给出特征根按大小分布的折线图(形如山麓截面,故得名),以便我们直观地判定因子的提取数量是否准确。 在Extract 栏中,有两种方法可以决定提取主成分(因子)的数目。一是根据特征根(Eig envalues )的数值,系统默认的是1=c λ。我们知道,在主成分分析中,主成分得分的方差就是对应的特征根数值。如果默认1=c λ,则所有方差大于等于1的主成分将被保留,其余舍弃。如果觉得最后选取的主成分数量不足,可以将c λ值降低,例如取 9.0=c λ;如果认为最后的提取的主成分数量偏多,则可以提高c λ值,例如取1.1=c λ。 主成分数目是否合适,要在进行一轮分析以后才能肯定。因此,特征根数值的设定,要在反复试验以后才能决定。一般而言,在初次分析时,最好降低特征根的临界值(如取

用SPSS进行详细的主成分分析步骤

怎样用SPSS进行主成分分析 怎样用SPSS进行主成分分析 一、基本概念与原理 主成分分析(principal component analysis) 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。 (1)主成分分析的原理及基本思想。 原理:设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。 基本思想:主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来

应用统计学因子分析与主成分分析案例解析_SPSS操作分析

因子分析与主成分分析 一、问题概述 现希望对30个省市自治区经济发展基本情况的八项指标进行分析。具体采用的指标只有:GDP、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值。这是一个综合分析问题,八项指标较多,用主成分分析法进行综合。 二、数据处理与分析 1.因子分析 打开数据后,在SPSS中进行因子分析的步骤如下: 选择“分析---降维---因子分析”,在弹出的对话框里 (1)描述---系数、KMO与Bartlett的球形度检验 (2)抽取---碎石图、未旋转的因子解 (3)旋转---最大方差法、旋转解、载荷图 (4)得分---保存为变量、显示因子得分系数矩阵 (5)选项---按大小排序 点击确定得到如下各图: 图3-1 图3-2 KMO 和 Bartlett 的检验 取样足够度的 Kaiser-Meyer-Olkin 度量。.620 Bartlett 的球形度检验近似卡方231.285 df 28 Sig. .000 图3-3 公因子方差

图3-6 成份矩阵a

图3-9

(2)因子模型中各统计量的意义 A)因子载荷错误!未找到引用源。:因子载荷错误!未找到引用源。为第i个变量在第j个因子上的载荷,实际上就是错误!未找到引用源。与错误!未找到引用源。的相关系数,表示变量错误!未找到引用源。依赖因子错误!未找到引用源。的程度,反应了第i个变量错误!未找到引用源。对于第j个因子错误!未找到引用源。的重要性。 B)变量错误!未找到引用源。的变量共同度:k个公因子对第i个变量方差的贡献,也称为公因子方差比,记为错误!未找到引用源。,公式为:错误!未找到引用源。=错误!未找到引用源。(j=1,2,….,k)

主成分分析在SPSS中的操作应用(详细步骤

主成分分析在SPSS中的操作应用(2) SPSS在调用Factor Analyze过程进行分析时,SPSS会自动对原始数据进行标准化处理,所以在得到计算结果后指的变量都是指经过标准化处理后的变量,但SPSS不会直接给出标准化后的数据,如需要得到标准化数据,则需调用Descriptives过程进行计算。 图表 3 相关系数矩阵

图表 4 方差分解主成分提取分析表 主成分分析在SPSS中的操作应用(3) 图表 5 初始因子载荷矩阵

从图表3可知GDP与工业增加值,第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系,与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强,证明他们存在信息上的重叠。 主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。注:特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1作为纳入标准。通过图表4(方差分解主成分提取分析)可知,提取2个主成分,即m=2,从图表5(初始因子载荷矩阵)可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷,说明第一主成分基本反映了这些指标的信息;人均GDP和农业增加值指标在第二主成分上有较高载荷,说明第二主成分基本反映了人均GDP和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息,所以决定用两个新变量来代替原来的十个变量。但这两个新变量的表达还不能从输出窗口中直接得到,因为“Component Matrix”是指初始因子载荷矩阵,每一个载荷量表示主成分与对应变量的相关系数。 用图表5(主成分载荷矩阵)中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数[2]。将初始因子载荷矩阵中的两列数据输入(可用复制粘贴的方法)到数据编辑窗口(为变量B1、B2),然后利用“TransformàCompute Variable”,在Compute Variable对话框中输入 “A1=B1/SQR(7.22)” [注:第二主成分SQR后的括号中填1.235],即可得到特征向量A1(见图表6)。同理,可得到特征向量A2。将得到的特征向量与标准化后的数据相乘,然后就可以得出主成分表达式[注:因本例只是为了说明如何在SPSS进行主成分分析,故在此不对提取的主成分进行命名,有兴趣的读者可自行命名]: F1=0.353ZX1+0.042ZX2-0.041ZX3+0.364ZX4+0.367ZX5+0.366ZX6+0.352ZX7+0.364ZX

【精品管理学】spss因子分析案例 共(13页)

[例11-1]下表资料为25名健康人的7项生化检验结果,7项生化检验指标依次命名为X1至X7,请对该资料进行因子分析。

图 ???对话框(图框。 图 钮返回 图11.3?描述性指标选择对话框 ???点击Extraction...钮,弹出FactorAnalysis:Extraction对话框(图11.4),系统提供如下因子提取方法: 图11.4?因子提取方法选择对话框 ???Principalcomponents:主成分分析法;

???Unweightedleastsquares:未加权最小平方法; ???Generalizedleastsquares:综合最小平方法; ???Maximumlikelihood:极大似然估计法; ???Principalaxisfactoring:主轴因子法; ???Alphafactoring:α因子法; ???对话框。 ???5种因图 ???旋转的目的是为了获得简单结构,以帮助我们解释因子。本例选正交旋转法,之后点击Continue钮返回FactorAnalysis对话框。 ???点击Scores...钮,弹出弹出FactorAnalysis:Scores对话框(图11.6),系统提供3种估计因子得分系数的方法,本例选Regression(回归因子得分),之后点击Continue钮返回FactorAnalysis对话框,再点击OK钮即完成分析。

图11.6?估计因子分方法对话框? ?11.2.3?结果解释 ??在输出结果窗口中将看到如下统计数据: ??系统首先输出各变量的均数(Mean)与标准差(StdDev),并显示共有25例观察单位进入分析;接着输出相关系数矩阵(CorrelationMatrix),经Bartlett检验表明:Bartlett值=326.28484,P<0.0001,即相关矩阵不是一个单位矩阵,故考虑进行因子分析。 好。今KMO值 NumberofCases?=?????25 CorrelationMatrix: X1???????X2???????X3???????X4???????X5???????X6???????X7 X1????????1.00000 X2?????????.58026??1.00000

SPSS中主成分分析的基本操作1

SPSS 中主成分分析的基本操作 Xiaowenzi22与pinksss 共同制作 阐述主成分分析法的原理 主成分分析是设法将原来众多具有一定相关性(比如P 个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P 个指标作线性组合,作为新的综合指标。最经典的做法就是用F 1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F 1)越大,表示F 1包含的信息越多。因此在所有的线性组合中选取的F 1应该是方差最打的,故称F 1为第一主成分。如果第一主成分不足以代表原来P 个指标的信息,再考虑选取F 2即选第二个线性组合,为了有效地反映原来信息,F 1已有的信息就不需要再出现再F 2中,用数学语言表达就是要求Cov(F 1, F 2)=0,则称F 2为第二主成分,依此类推可以构造出第三、第四,……,第P 个主成分。 主成分模型: F 1=a 11X 11+a 21X 21+……+a p1X p F 2=a 12X 12+a 22X 22+……+a p2X p …… F p =a 1m X 11+a 2m X 22+……+a pm X p 其中a 1i, a 2i, ……,a pi (i=1,……,m)为X 的协差阵Σ的特征值多对应的特征向量,X 1, X 2, ……, X p 是原始变量经过标准化处理的值(因为在实际应用中,往往存在指标的量纲不同,所以在计算之前先消除量纲的影响,而将原始数据标准化)。 A=(ij a )m p ×=(,1α,2α…,m α),i i i R αλα=, R 为相关系数矩阵, i i αλ、是相应的特征值和单位特征向量, 1λ≥2λ≥…≥p λ≥0 上述方程组要求: 1、a 21i +a 22i +……+a 2pi =1 (i=1,……,m) 2、m I A A =′ (A=(ij a )m p ×=(,1α,2α…,m α),A 为正交矩阵) 3、Cov(F i ,F j )=ij i δλ, =01 ij δj i j i ≠= 操作步骤: 一、 数据标准化

SPSS主成分分析

主成分分析方法运用案例 1.《自然因素与社会经济因素对耕地质量贡献率研究》 选取了卧龙区为研究分析对象,以 1: 50000土地利用现状图为基础, 通过图形叠加添加土壤图、地貌类型图, 形成2981个评价单元。 (1)选定选取耕地质量的自然因素和社会经济因素。自然因素:土壤质地( X1 )、pH 值(Ⅹ2 )、有机质含量(Ⅹ 3 )、坡度(Ⅹ 4 )、障碍层次(Ⅹ5 )、砾石含量( X6 )、土层厚度(Ⅹ7 )、海拔(Ⅹ 8 ) 社会经济因素:灌溉保证率(Y1 )、田块分散度( Y2 )、地面平整度( Y3 )、中心城镇影响度( Y4 )、外部交通通达度( Y5 )、区域内路网密度(Y6 )、田间道路状况( Y7 ) (2)利用spss的主成分分析功能剔除在主成分中不呈显著性相关关系的因子。 自然因素:剔除了Ⅹ2 与Ⅹ8。剩下影响耕地质量的自然因子6个, 为土壤质地、有机质含量、坡度、障碍层次、砾石含量、土层厚度; 社会经济因素:剔除了 Y3 与Y7 。剩下影响耕地质量的社会经济因子5个, 为灌溉保证率、田块分散度、中心城镇影响度、外部交通通达度、区域内路网密度。 (3)对评价因素进行量化。

区域内路网密度分值: (4)采用特尔菲法确定各个因子的权重。 (5)计算评价单元的自然因素分值和社会经济因素分值。 (6)确定自然因素与社会经济因素贡献率。 2.《中国循环经济发展的空间分异与优化》 本文采取了主成分分析做循环经济发展水平的综合评价。(1)选取循环经济发展水平的因素

(2)采取spss软件进行主成分分析,得出了9个累积贡献率大于85%的主成分指标。(3)确定各主成分的贡献率,即权重。 (4)进行加权求和法计算出各地区循环经济发展能力综合分值。 聚类分析方法运用案例 1.陕西省县域经济发展水平聚类分析 (1)选取聚类的指标

spss主成分分析案例研究

多元统计分析实验报告

实验三、主成分分析 一、实验名称:主成分分析 二、实验目的:通过本实验掌握使用SPSS进行主成分分析 三、主成分分析步骤,我们归纳如下: 1. 根据研究问题选取初始分析变量; 2. 根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分; 3. 求协差阵或相关阵的特征根与相应标准特征向量; 4. 判断是否存在明显的多重共线性,若存在,则回到第一步; 5. 得到主成分的表达式并确定主成分个数,选取主成分; 6. 结合主成分对研究问题进行分析并深入研究。 四、分析结果: 搜集到有关大学生创业的调查问卷,问卷达到206份,具体数据附表1所示,为了从这些(创业目的、创业类型、创业领域的根据、创业的优势、创业地区、创业方式、)变量中提取主成分,先从做这些变量的相关矩阵: 相关矩阵 创业目的创业类型创业领域的根 据 创业的优势创业方式创业地区 相关创业目的 1.000 .031 .199 .157 .091 -.082 创业类型.031 1.000 -.037 .018 -.071 .077 创业领域的根据.199 -.037 1.000 .102 .128 -.099 创业的劣势.157 .018 .102 1.000 .083 .018 创业方式.091 -.071 .128 .083 1.000 -.127 创业地区-.082 .077 -.099 .018 -.127 1.000 Sig.(单侧)创业目的.272 .000 .001 .037 .054 创业类型.000 .000 .360 .081 .065 创业领域的根据.000 .235 .023 .006 .027 创业的劣势.001 .360 .023 .051 .361 创业方式.037 .081 .006 .051 .006 创业地区.054 .065 .027 .361 .006

主成分分析在SPSS中的操作应用

主成分分析在SPSS中的操作应用 一、引言 主成分分析和因子分析在社会经济统计综合评价中是两个常被使用的统计分析方法。现在SPSS、SAS等统计软件使用越来越普遍,但SPSS并未像SAS一样,将主成分分析与因子分析作为两个独立的方法并列处理[注:主成分分析与因子分析二者是又有着区别与联系,最主要的不同在于它们的数学模型的构建上,具体区别请见参考文献2],而是根据二者之间的关系有机地将主成分分析嵌入到因子分析之中,这样虽然简化了分析程序,却为主成分分析的计算带来不便。且国内许多SPSS教程并没有详细讲解如果应用SPSS进行主成分分析,如何使用SPSS对主成分分析进行计算呢?为使读者能够正确使用SPSS软件进行主成分分析,本文将通过一个实例来详细介绍如何用SPSS做主成分分析。接下来先简单介绍主成分分析原理与模型,以便读者对主成分分析有个大致的了解。 二、主成分分析原理和模型[1] (一)主分成分析原理 主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F 1 (选取的第 一个线性组合,即第一个综合指标)的方差来表达,即Var(F 1)越大,表示F 1 包 含的信息越多。因此在所有的线性组合中选取的F 1应该是方差最大的,故称F 1 为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取 F 2即选第二个线性组合,为了有效地反映原来信息,F 1 已有的信息就不需要再出 现再F 2中,用数学语言表达就是要求Cov(F 1 , F 2 )=0,则称F 2 为第二主成分,依 此类推可以构造出第三、第四,……,第P个主成分。(二)主成分分析数学模型 F 2=a 12 ZX 1 +a 22 ZX 2 ……+a p2 ZX p …… F p =a 1m ZX 1 +a 2m ZX 2 +……+a pm ZX p 其中a 1i , a 2i , ……,a pi (i=1,……,m)为X的协方差阵Σ的特征值多对应的 特征向量,ZX 1, ZX 2 , ……, ZXp是原始变量经过标准化处理的值,因为在实际 应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响[注:本文指的数据标准化是指Z标准化]。

SPSS软件进行主成分分析的应用例子修订版

S P S S软件进行主成分分析的应用例子 集团标准化小组:[VVOPPT-JOPP28-JPPTL98-LOPPNN]

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 1. 第一,将EXCEL中的原始数据导入到SPSS软件中; 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。 进行因子分析(指标之间的相关性判定略)。 【1】“分析”|“降维”|“因子分析”选项卡,将要进行分析的变量选入“变量”列表; 【2】设置“描述”,勾选“原始分析结果”和“KMO与Bartlett球形度检验”复选框;

【3】设置“抽取”,勾选“碎石图”复选框; 【4】设置“旋转”,勾选“最大方差法”复选框; 【5】设置“得分”,勾选“保存为变量”和“因子得分系数”复选框;【6】查看分析结果。

【1】将初始因子载荷矩阵中的两列数据输入( 可用复制粘贴的方法) 到数据编辑窗口( 为 中输入“F 1”,然后在数字表达式中输入“V 1 /SQR(λ 1 )”[注:λ 1 =1.897], 即可得到特征向量F 1 ; 【3】然后利用“转换”|“计算变量”, 打开“计算变量”对话框,在“目标变量”文本框 中输入“F 2”,然后在数字表达式中输入“V 2 /SQR(λ 2 )”[注:λ 1 =1.550], 即可得到特征向量F 2 ; 【4】最后得到特征向量矩阵(主成分表达式的系数)。 【1】将得到的特征向量与标准化后的数据相乘, 然后就可以得出主成分函数的表达式; 中输入“Z 1 ”,然后在数字表达式中输入“0.531* Z (销售净利率)+0.594*Z (资产净利 率)+0.261*Z (净资产收益率)+0.546*Z (销售毛利率)” [注:F 1 =0.531,0.594,0.261,0.546], 即可得到特征向量Z 1 ; 【3】同理[注:F 2=-0.412,0.404,0.720,-0.383], 可得到特征向量Z 2 ; 【4】求出16家上市公司的主成分值。

利用SPSS进行主成分分析

利用SPSS进行主成分分析 【例子】 以全国31个省市的8项经济指标为例,进行主成分分析。 第一步:录入或调入数据(图1)。 图1 原始数据(未经标准化) 第二步:打开“因子分析”对话框。 沿着主菜单的“Analyze→Data Reduction→FactorΚ”的路径(图2)打开因子分析选项框(图3)。 图2 打开因子分析对话框的路径

图3 因子分析选项框 第三步:选项设置。 首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入变量(Variables)栏中(图3)。在本例中,全部8个变量都要用上,故全部调入(图4)。因无特殊需要,故不必理会“ValueΚ”栏。下面逐项设置。 图4 将变量移到变量栏以后 ⒈设置Descriptives选项。 单击Descriptives按钮(图4),弹出Descriptives对话框(图5)。

图5 描述选项框 在Statistics 栏中选中Univariate descriptives 复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考);选中Initial solution 复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。 在Correlation Matrix 栏中,选中Coefficients 复选项,则会给出原始变量的相关系数矩阵(分析时可参考);选中Determinant 复选项,则会给出相关系数矩阵的行列式,如果希望在Excel 中对某些计算过程进行了解,可选此项,否则用途不大。其它复选项一般不用,但在特殊情况下可以用到(本例不选)。 设置完成以后,单击Continue 按钮完成设置(图5)。 ⒉ 设置Extraction 选项。 打开Extraction 对话框(图6)。因子提取方法主要有7种,在Method 栏中可以看到,系统默认的提取方法是主成分(Πρινχιπαλ χομπονεντσ),因此对此栏不作变动,就是认可了主成分分析方法。 在Analyze 栏中,选中Correlation matirx 复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中Covariance matrix 复选项,则因子分析基于数据的协方差矩阵进行分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。 在Display 栏中,选中Unrotated factor solution (非旋转因子解)复选项,则在分析结果中给出未经旋转的因子提取结果。对于主成分分析而言,这一项选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,以便对比。 选中Scree Plot ( “山麓”图),则在分析结果中给出特征根按大小分布的折线图(形如山麓截面,故得名),以便我们直观地判定因子的提取数量是否准确。 在Extract 栏中,有两种方法可以决定提取主成分(因子)的数目。一是根据特征根(Eigenvalues )的数值,系统默认的是1=c λ。我们知道,在主成分分析中,主成分得分的方差就是对应的特征根数值。如果默认1=c λ,则所有方差大于等于1的主成分将被保留,其余舍弃。如果觉得最后选取的主成分数量不足,可以将c λ值降低,例如取9.0=c λ;如果认为最后的提取的主成分数量偏多,则可以提高c λ值,例如取 1.1=c λ。主成分数目是否合适,要在进行一轮分析以后才能肯定。因此,特征根数值 的设定,要在反复试验以后才能决定。一般而言,在初次分析时,最好降低特征根的临

相关文档