文档库 最新最全的文档下载
当前位置:文档库 › SPSS因子分析报告法-内容与案例

SPSS因子分析报告法-内容与案例

SPSS因子分析报告法-内容与案例
SPSS因子分析报告法-内容与案例

实验课:因子分析

实验目的

理解主成分(因子)分析的基本原理,熟悉并掌握SPSS中的主成分(因子)分析方法及其主要应用。

因子分析

一、基础理论知识

1 概念

因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。

主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。

两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。

2 特点

(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。

(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。

(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。

(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。

在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。

3 类型

根据研究对象的不同,把因子分析分为R 型和Q 型两种。 当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。

但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。

4分析原理

假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 :

当p 较大时,在p 维空间中考察问题比较麻烦。这就需要进行降维处理,即用较少几个

综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。

线性组合:记x1,x2,…,xP 为原变量指标,z1,z2,…,zm (m ≤p )为新变量指标(主成分),则其线性组合为:

Lij 是原变量在各主成分上的载荷

无论是哪一种因子分析方法,其相应的因子解都不是唯一的,主因子解仅仅是无数因子解中之一。

zi 与zj 相互无关;

z1是x1,x2,…,xp 的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…的所有线性组合中方差最大者。则,新变量指标z1,z2,…分别称为原变量指标的第一,第二,…主成分。

Z 为因子变量或公共因子,可以理解为在高维空间中互相垂直的m 个坐标轴。

主成分分析实质就是确定原来变量xj (j=1,2 ,…,p )在各主成分zi (i=1,2,…,m )上的荷载 lij 。

从数学上容易知道,从数学上也可以证明,它们分别是相关矩阵的m 个较大的特征值所对应的特征向量。

?

?

?

????

????

???=np n n p p x x x x x x x x x X 2122221

11211??

?

??

?

?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111??

?

??

?

?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111

5分析步骤

5.1 确定待分析的原有若干变量是否适合进行因子分析(第一步)

因子分析是从众多的原始变量中重构少数几个具有代表意义的因子变量的过程。其潜在的要求:原有变量之间要具有比较强的相关性。因此,因子分析需要先进行相关分析,计算原始变量之间的相关系数矩阵。如果相关系数矩阵在进行统计检验时,大部分相关系数均小于0.3且未通过检验,则这些原始变量就不太适合进行因子分析。

进行原始变量的相关分析之前,需要对输入的原始数据进行标准化计算(一般采用标准

差标准化方法,标准化后的数据均值为0,方差为1)。

SPSS 在因子分析中还提供了几种判定是否适合因子分析的检验方法。主要有以下3种: 巴特利特球形检验(Bartlett Test of Sphericity ) 反映象相关矩阵检验(Anti-image correlation matrix ) KMO (Kaiser-Meyer-Olkin )检验 (1)巴特利特球形检验

该检验以变量的相关系数矩阵作为出发点,它的零假设H0为相关系数矩阵是一个单位阵,即相关系数矩阵对角线上的所有元素都为1,而所有非对角线上的元素都为0,也即原始变量两两之间不相关。

巴特利特球形检验的统计量是根据相关系数矩阵的行列式得到。如果该值较大,且其对应的相伴概率值小于用户指定的显著性水平,那么就应拒绝零假设H0,认为相关系数不可能是单位阵,也即原始变量间存在相关性。

(2)反映象相关矩阵检验

该检验以变量的偏相关系数矩阵作为出发点,将偏相关系数矩阵的每个元素取反,得到反映象相关矩阵。

偏相关系数是在控制了其他变量影响的条件下计算出来的相关系数,如果变量之间存在较多的重叠影响,那么偏相关系数就会较小,这些变量越适合进行因子分析。

(3)KMO (Kaiser-Meyer-Olkin )检验

该检验的统计量用于比较变量之间的简单相关和偏相关系数。

KMO 值介于0-1,越接近1,表明所有变量之间简单相关系数平方和远大于偏相关系数平方和,越适合因子分析。

??????

?????

???=pp p p p p r r r r r r r r r R

2

1

22221

11211∑∑

∑===----=

n k n

k j kj i ki n

k j kj i ki

ij x x x x x x x x

r 1

1

2

2

1)()()

)((

其中,Kaiser 给出一个KMO 检验标准:KMO>0.9,非常适合;0.8

5.2 构造因子变量

因子分析中有很多确定因子变量的方法,如基于主成分模型的主成分分析和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。前者应用最为广泛。

主成分分析法(Principal component analysis ):

该方法通过坐标变换,将原有变量作线性变化,转换为另外一组不相关的变量Zi (主成分)。求相关系数矩阵的特征根λi (λ1,λ2,…,λp>0)和相应的标准正交的特征向量li ;根据相关系数矩阵的特征根,即公共因子Zj 的方差贡献(等于因子载荷矩阵L 中第j 列各元素的平方和),计算公共因子Zj 的方差贡献率与累积贡献率。

主成分分析是在一个多维坐标轴中,将原始变量组成的坐标系进行平移变换,使得新的坐标原点和数据群点的重心重合。新坐标第一轴与数据变化最大方向对应。通过计算特征根(方差贡献)和方差贡献率与累积方差贡献率等指标,来判断选取公共因子的数量和公共因子(主成分)所能代表的原始变量信息。

公共因子个数的确定准则:1)根据特征值的大小来确定,一般取大于1的特征值对应的几个公共因子/主成分。2)根据因子的累积方差贡献率来确定,一般取累计贡献率达85-95%的特征值所对应的第一、第二、…、第m (m ≤p )个主成分。也有学者认为累积方差贡献率应在80%以上。

5.3 因子变量的命名解释

因子变量的命名解释是因子分析的另一个核心问题。经过主成分分析得到的公共因子/主成分Z1,Z2,…,Zm 是对原有变量的综合。原有变量是有物理含义的变量,对它们进行线性变换后,得到的新的综合变量的物理含义到底是什么?

在实际的应用分析中,主要通过对载荷矩阵进行分析,得到因子变量和原有变量之间的关系,从而对新的因子变量进行命名。利用因子旋转方法能使因子变量更具有可解释性。

计算主成分载荷,构建载荷矩阵A 。

)

,,2,1(1

p i p

k k

i

=∑=λλ)

,,2,1(11p i p

k k

i

k k

=∑∑==λ

λ),,2,1,(p j i l a ij i ij ==λ??????????????=??????????????m pm p p m m m m pm p p m m l l l l l l l l l a a a a a a a a a A λλλλλλλλλ (211122)

211211212111112212111211=

计算主成分载荷,构建载荷矩阵A 。载荷矩阵A 中某一行表示原有变量 Xi 与公共因子/因子变量的相关关系。载荷矩阵A 中某一列表示某一个公共因子/因子变量能够解释的原有变量 Xi 的信息量。有时因子载荷矩阵的解释性不太好,通常需要进行因子旋转,使原有因子变量更具有可解释性。因子旋转的主要方法:正交旋转、斜交旋转。

正交旋转和斜交旋转是因子旋转的两类方法。前者由于保持了坐标轴的正交性,因此使用最多。正交旋转的方法很多,其中以方差最大化法最为常用。

方差最大正交旋转(varimax orthogonal rotation )——基本思想:使公共因子的相对负荷的方差之和最大,且保持原公共因子的正交性和公共方差总和不变。可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。

斜交旋转(oblique rotation )——因子斜交旋转后,各因子负荷发生了变化,出现了两极分化。各因子间不再相互独立,而是彼此相关。各因子对各变量的贡献的总和也发生了改变。

斜交旋转因为因子间的相关性而不受欢迎。但如果总体中各因子间存在明显的相关关系则应该考虑斜交旋转。适用于大数据集的因子分析。

无论是正交旋转还是斜交旋转,因子旋转的目的:是使因子负荷两极分化,要么接近于0,要么接近于1。从而使原有因子变量更具有可解释性。

5.4 计算因子变量得分

因子变量确定以后,对于每一个样本数据,我们希望得到它们在不同因子上的具体数据值,即因子得分。估计因子得分的方法主要有:回归法、Bartlette 法等。计算因子得分应首先将因子变量表示为原始变量的线性组合。即:

回归法,即Thomson 法:得分是由贝叶斯Bayes 思想导出的,得到的因子得分是有偏的,但计算结果误差较小。贝叶斯(BAYES )判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。

???????+++=+++=+++=p mp m m m p p p p z a z a z a x z a z a z a x z a z a z a x 22112222121212121111??????

?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111???

???

????????=??????????????m pm p p m m m m pm p p m m l l l l l l l l l a a a a a a a a a A λλλλλλλλλ (211122)

211211212111112212111211=??

???

??+++=+++=+++=p

mp m m m p

p p

p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111

Bartlett法:Bartlett因子得分是极大似然估计,也是加权最小二乘回归,得到的因子得分是无偏的,但计算结果误差较大。

因子得分可用于模型诊断,也可用作进一步分析如聚类分析、回归分析等的原始资料。关于因子得分的进一步应用将在案例介绍一节分析。

5.5 结果的分析解释

此部分详细见案例分析

二、案例分析

1 研究问题

石家庄18个县市14个指标因子,具体来说有人均GDP(元/人)、人均全社会固定资产投资额、人均城镇固定资产投资额、人均一般预算性财政收入、第三产业占GDP比重(%)、人均社会消费品零售额、人均实际利用外资额(万美元/人)、人均城乡居民储蓄存款、农民人均纯收入、在岗职工平均工资、人才密度指数、科技支出占财政支出比重(%)、每万人拥有执业医师数量、每千人拥有病床数。

要求根据这14项内容进行因子分析,得到维度较少的几个因子。

2 实现步骤

【1】在“Analyze”菜单“Data Reduction”中选择“Factor”命令,如下图所示。

表中选择这14个变量,使之添加到Variables框中。

话框,如图所示。

Statistics框用于选择哪些相关的统计量,其中:

Univariate descriptives(变量描述):输出变量均值、标准差;

Initial solution (初始结果)

Correlation Matrix框中提供了几种检验变量是否适合做引子分析的检验方法,其中:

Coefficients (相关系数矩阵)

Significance leves (显著性水平)

Determinant (相关系数矩阵的行列式)

Inverse (相关系数矩阵的逆矩阵)

Reproduced (再生相关矩阵,原始相关与再生相关的差值)

Anti-image (反影像相关矩阵检验)

KMO and Bartlett’s test of sphericity (KMO检验和巴特利特球形检验)

本例中,选中该对话框中所有选项,单击Continue按钮返回Factor Analysis对话框。

【4】单击“Extraction”按钮,弹出“Factor Analysis:Extraction”对话框,选择因子提取方法,如下图所示:

因子提取方法在Method下拉框中选取,SPSS共提供了7种方法:Principle Components Analysis (主成分分析)

Unweighted least squares(未加权最小平方法)

Generalized least squares (综合最小平方法)

Maximum likelihood (最大似然估价法)

Principal axis factoring (主轴因子法)

Alpha factoring (α因子)

Image factoring (影像因子)

Analyze框中用于选择提取变量依据,其中:

Correlation matrix (相关系数矩阵)

Covariance matrix (协方差矩阵)

Extract框用于指定因子个数的标准,其中:

Eigenvaluse over (大于特征值)

Number of factors (因子个数)

Display框用于选择输出哪些与因子提取有关的信息,其中:

Unrotated factor solution (未经旋转的因子载荷矩阵)

Screen plot (特征值排列图)

Maximun interations for Convergence框用于指定因子分析收敛的最大迭代次数,系统默认的最大迭代次数为25。

本例选用Principal components方法,选择相关系数矩阵作为提取因子变量的依据,选中Unrotated factor solution和Scree plot项,输出未经过旋转的因子载荷矩阵与其特征值的碎石图;选择Eigenvaluse over项,在该选项后面可以输入1,指定提取特征值大于1的因子。单击Continue按钮返回Factor Analysis对话框。

【5】单击Factor Analysis对话框中的Rotation按钮,弹出Factor Analysis: Rotation对话框,如下图所示:

该对话框用于选择因子载荷矩阵的旋转方法。旋转目的是为了简化结构,以帮助我们解释因子。SPSS默认不进行旋转(None)。

Method框用于选择因子旋转方法,其中:

None(不旋转)

Varimax(正交旋转)

Direct Oblimin(直接斜交旋转)

Quanlimax(四分最大正交旋转)

Equamax(平均正交旋转)

Promax(斜交旋转)

Display框用于选择输出哪些与因子旋转有关的信息,其中:

Rotated solution(输出旋转后的因子载荷矩阵)

Loading plots(输出载荷散点图)

本例选择方差极大法旋转Varimax,并选中Rotated solution和Loading plot项,表示输出旋转后的因子载荷矩阵和载荷散点图,单击Continue按钮返回Factor Analysis对话框。

【6】单击Factor Analysis对话框中的Scores按钮,弹出Factor Analysis: Scores对话框,如下图所示:

该对话框用以选择对因子得分进行设置,其中:

Regression(回归法):因子得分均值为0,采用多元相关平方;

Bartlett (巴特利法):因子得分均值为0,采用超出变量范围各因子平方和被最小化;

Anderson-Rubin (安德森-洛宾法):因子得分均值为0,标准差1,彼此不相关;

Display factor score coefficient matrix:选择此项将在输出窗口中显示因子得分系数矩阵。

【7】单击Factor Analysis对话框中的Options按钮,弹出Factor Analysis: Options对话框,如下图所示:

该对话框可以指定其他因子分析的结果,并选择对缺失数据的处理方法,其中:

Missing Values框用于选择缺失值处理方法:

Exclude cases listwise:去除所有缺失值的个案

Exclude cases pairwise:含有缺失值的变量,去掉该案例

Replace with mean:用平均值代替缺失值

Cofficient Display Format框用于选择载荷系数的显示格式:

Sorted by size:载荷系数按照数值大小排列

Suppress absolute values less than:不显示绝对值小于指定值的载荷量本例选中Exclude cases listwise项,单击Continue按钮返回Factor Analysis对话框,完成设置。单击OK,完成计算。

3 结果与讨论

(1)SPSS输出的第一部分如下:

第一个表格中列出了18个原始变量的统计结果,包括平均值、标准差和分析的个案数。这个是步骤3中选中Univariate descriptives项的输出结果。

Descriptive Statistics

Mean Std. Deviation Analysis N 人均GDP(元/人) 22600.5211 8410.55464 18

人均全社会固定资产投资额15190.9515 5289.14499 18

人均城镇固定资产投资额10270.3642 4874.14616 18

人均一般预算性财政收入585.1712 550.45659 18

第三产业占GDP比重(%) 29.0612 9.46858 18

人均社会消费品零售额6567.2566 3068.75463 18

人均实际利用外资额(万美元/

人)

23.5667 40.31361 18

人均城乡居民储蓄存款12061.2384 7363.08659 18

农民人均纯收入4852.5556 1202.52970 18

在岗职工平均工资18110.3889 2374.05754 18

人才密度指数8.1548 5.37552 18

科技支出占财政支出比重(%) 1.3494 .50193 18

每万人拥有执业医师数量12.6883 8.88691 18

每千人拥有病床数 2.3608 1.16077 18

(2)SPSS输出结果文件中的第二部分如下:

该表格给出的是18个原始变量的相关矩阵

Correlation Matrix

人均GDP(元/人) 人均全社会固定

资产投资额

人均城镇固定资

产投资额

Correlation 人均GDP(元/人) 1.000 .503 .707 人均全社会固定资产投资额.503 1.000 .883

人均城镇固定资产投资额.707 .883 1.000

人均一般预算性财政收入.776 .571 .821

第三产业占GDP比重(%) .567 .507 .759

人均社会消费品零售额.737 .247 .600

人均实际利用外资额(万美元/

人)

.454 .356 .648 人均城乡居民储蓄存款.707 .480 .780

农民人均纯收入.559 -.073 .130

在岗职工平均工资.789 .325 .544

人才密度指数.741 .470 .737

科技支出占财政支出比重(%).582 .378 .486 每万人拥有执业医师数量.434 .520 .733 每千人拥有病床数.573 .565 .761

Correlation Matrix

人均一般预算性财政收入第三产业占GDP

比重(%)

人均社会消费品

零售额

Correlation 人均GDP(元/人) .776 .567 .737 人均全社会固定资产投资额.571 .507 .247

人均城镇固定资产投资额.821 .759 .600

人均一般预算性财政收入 1.000 .830 .693

第三产业占GDP比重(%) .830 1.000 .646

人均社会消费品零售额.693 .646 1.000

人均实际利用外资额(万美元/

人)

.797 .822 .616 人均城乡居民储蓄存款.907 .882 .839

农民人均纯收入.132 .278 .516

在岗职工平均工资.736 .548 .609

人才密度指数.795 .745 .812

科技支出占财政支出比重(%).729 .575 .490

每万人拥有执业医师数量.818 .844 .627

每千人拥有病床数.911 .806 .629

Correlation Matrix

人均实际利用外资额(万美元/人)人均城乡居民储

蓄存款农民人均纯收入

Correlation 人均GDP(元/人) .454 .707 .559 人均全社会固定资产投资额.356 .480 -.073

人均城镇固定资产投资额.648 .780 .130

人均一般预算性财政收入.797 .907 .132

第三产业占GDP比重(%) .822 .882 .278

人均社会消费品零售额.616 .839 .516

人均实际利用外资额(万美元/

人)

1.000 .792 -.007

人均城乡居民储蓄存款.792 1.000 .264 农民人均纯收入-.007 .264 1.000 在岗职工平均工资.388 .647 .411 人才密度指数.752 .868 .315 科技支出占财政支出比重(%).570 .626 .210 每万人拥有执业医师数量.795 .885 -.075 每千人拥有病床数.784 .866 .000

Correlation Matrix

在岗职工平均工

资人才密度指数科技支出占财政支出比重(%)

Correlation 人均GDP(元/人) .789 .741 .582 人均全社会固定资产投资额.325 .470 .378

人均城镇固定资产投资额.544 .737 .486

人均一般预算性财政收入.736 .795 .729

第三产业占GDP比重(%) .548 .745 .575

人均社会消费品零售额.609 .812 .490

人均实际利用外资额(万美元/

人)

.388 .752 .570 人均城乡居民储蓄存款.647 .868 .626

农民人均纯收入.411 .315 .210

在岗职工平均工资 1.000 .539 .421

人才密度指数.539 1.000 .577

科技支出占财政支出比重(%).421 .577 1.000

每万人拥有执业医师数量.477 .739 .519

每千人拥有病床数.575 .719 .769

Correlation Matrix

每万人拥有执业医师数量每千人拥有病床

Correlation 人均GDP(元/人) .434 .573 人均全社会固定资产投资额.520 .565

人均城镇固定资产投资额.733 .761

人均一般预算性财政收入.818 .911

第三产业占GDP 比重(%) .844 .806 人均社会消费品零售额 .627 .629 人均实际利用外资额(万美元/人)

.795

.784

人均城乡居民储蓄存款 .885 .866 农民人均纯收入 -.075 .000 在岗职工平均工资 .477 .575 人才密度指数

.739 .719 科技支出占财政支出比重(%) .519 .769 每万人拥有执业医师数量 1.000 .912 每千人拥有病床数

.912

1.000

(3)SPSS 输出结果的第四部分如下:

KMO and Bartlett's Test

Kaiser-Meyer-Olkin Measure of Sampling Adequacy. .551

Bartlett's Test

of Sphericity

Approx. Chi-Square 324.227

df 91 Sig.

.000

该部分给出了KMO 检验和Bartlett 球度检验结果。其中KMO 值为0.551,根据统计学家Kaiser 给出的标准,KMO 取值小于0.6,不太适合因子分析。 Bartlett 球度检验给出的相伴概率为0.00,小于显著性水平0.05,因此拒绝Bartlett 球度检验的零假设,认为适合于因子分析。

(4)SPSS 输出结果文件中的第六部分如下:

Communalities

Initial

Extraction

人均GDP(元/人)

1.000 1.000 人均全社会固定资产投资额 1.000 1.000 人均城镇固定资产投资额 1.000 1.000 人均一般预算性财政收入 1.000 1.000 第三产业占GDP 比重(%) 1.000 1.000 人均社会消费品零售额

1.000

1.000

人均实际利用外资额(万美元/

人)

1.000 1.000

人均城乡居民储蓄存款 1.000 1.000

农民人均纯收入 1.000 1.000

在岗职工平均工资 1.000 1.000

人才密度指数 1.000 1.000

科技支出占财政支出比重(%) 1.000 1.000

每万人拥有执业医师数量 1.000 1.000

每千人拥有病床数 1.000 1.000

Extraction Method: Principal Component Analysis.

这是因子分析初始结果,该表格的第一列列出了14个原始变量名;第二列是根据因子分析初始解计算出的变量共同度。利用主成分分析方法得到14个特征值,它们是因子分析的初始解,可利用这14个初始解和对应的特征向量计算出因子载荷矩阵。由于每个原始变量的所有方差都能被因子变量解释掉,因此每个变量的共同度为1;第三列是根据因子分析最终解计算出的变量共同度。根据最终提取的m个特征值和对应的特征向量计算出因子载荷矩阵。(此处由于软件的原因有点小问题)

这时由于因子变量个数少于原始变量的个数,因此每个变量的共同度必然小于1。

(5)输出结果第六部分为Total Variance Explained表格

Total Variance Explained

Compone nt

Initial Eigenvalues

Total % of Variance Cumulative %

1 9.139 65.279

2 1.718 12.269

3 1.01

4 7.240

4 .659 4.706

5 .53

6 3.827

6 .361 2.577

7 .258 1.844

8 .133 .952

9 .077 .549

10 .049 .349

11 .031 .224

12 .020 .140

13 .005 .038

14 .001 .005 100.000 Extraction Method: Principal Component Analysis.

Total Variance Explained

Compone nt

Initial

Eigenvalues Extraction Sums of Squared Loadings Cumulative % Total % of Variance Cumulative %

1 65.279 9.139 65.279 65.279

2 77.548 1.718 12.269 77.548

3 84.788 1.01

4 7.240 84.788

4 89.494 .659 4.706 89.494

5 93.321 .53

6 3.82

7 93.321

6 95.898 .361 2.57

7 95.898

7 97.743 .258 1.844 97.743

8 98.695 .133 .952 98.695

9 99.244 .077 .549 99.244

10 99.593 .049 .349 99.593

11 99.817 .031 .224 99.817

12 99.958 .020 .140 99.958

13 99.995 .005 .038 99.995 Extraction Method: Principal Component Analysis.

Total Variance Explained

Compone nt

Rotation Sums of Squared Loadings Total % of Variance Cumulative %

1 4.794 34.24

2 34.242

2 2.262 16.158 50.400

3 1.846 13.188 63.587

4 1.571 11.222 74.809

5 1.548 11.060 85.869

6 .844 6.028 91.898

7 .567 4.048 95.946

8 .273 1.948 97.894

9 .131 .938 98.832

10 .068 .482 99.314

11 .046 .329 99.643

12 .035 .252 99.895

13 .014 .100 99.995 Extraction Method: Principal Component Analysis.

该表格是因子分析后因子提取和因子旋转的结果。其中,Component列和Initial Eigenvalues列(第一列到第四列)描述了因子分析初始解对原有变量总体描述情况。第一列是因子分析13个初始解序号。第二列是因子变量的方差贡献(特征值),它是衡量因子重要程度的指标,例如第一行的特征值为9.139,后面描述因子的方差依次减少。第三列是各因子变量的方差贡献率(% of Variance),表示该因子描述的方差占原有变量总方差的比例。第四列是因子变量的累计方差贡献率,表示前m个因子描述的总方差占原有变量的总方差的比例。第五列和第七列则是从初始解中按照一定标准(在前面的分析中是设定了提取因子的标准是特征值大于1)提取了3个公共因子后对原变量总体的描述情况。各列数据的含义和前面第二列到第四列相同,可见提取了5个因子后,它们反映了原变量的大部分信息。第八列到第十列是旋转以后得到的因子对原变量总体的刻画情况。各列的含义和第五列到第七列是一样的。

(6)SPSS输出的该部分的结果如下:

Component Matrix a

Component

1 2 3 4 5 6

人均一般预算性财政收入.959 -.075 .015 .158 -.140 -.023 人均城乡居民储蓄存款.959 .008 -.154 -.107 -.039 .001 每千人拥有病床数.910 -.272 -.089 .204 -.051 .040 第三产业占GDP比重(%) .890 -.087 -.137 -.141 .067 .373 人才密度指数.886 .098 -.098 -.179 .151 -.259 人均城镇固定资产投资额.868 -.162 .404 -.183 .078 .006 每万人拥有执业医师数量.861 -.362 -.183 -.137 -.115 .069 人均实际利用外资额(万美元/

人)

.815 -.271 -.346 -.079 .064 -.012 人均社会消费品零售额.805 .370 -.218 -.203 .026 -.223 人均GDP(元/人) .797 .458 .282 .099 -.029 -.163 科技支出占财政支出比重(%).712 .000 -.097 .621 .302 -.008 在岗职工平均工资.706 .386 .158 .145 -.531 .080 农民人均纯收入.271 .887 -.002 -.088 .245 .253 人均全社会固定资产投资额.611 -.328 .690 -.074 .163 .028 Extraction Method: Principal Component Analysis.

a. 13 components extracted.

该表格是最终的因子载荷矩阵A,对应前面的因子分析的数学模型部分。根据该表格可以得到如下因子模型:

X=AF+aε

x 1=0.959F

1

-0.075F

2

+0.015F

3

+0.158

F 4-0.140F

5

-0.023F

6

-0.096F

7

+0.017F

8

-0.117F

9 +0.004F

10

-0.062F

11

-0.040 F

12

+0.021 F

13

……

Component Matrix a

Component

7 8 9 10 11

人均一般预算性财政收入-.096 .017 -.117 .004 -.062 人均城乡居民储蓄存款.109 -.022 -.134 -.073 -.016 每千人拥有病床数.158 .034 .061 .106 -.046 第三产业占GDP比重(%) -.079 -.039 -.044 -.049 .036 人才密度指数-.066 -.252 .066 -.017 -.035 人均城镇固定资产投资额-.024 .094 .001 .015 -.087 每万人拥有执业医师数量.200 -.081 .015 .073 .061

-.330 .115 .080 .021 .023 人均实际利用外资额(万美元/

人)

人均社会消费品零售额.177 .191 .035 -.054 .027 人均GDP(元/人) -.116 -.005 -.101 .094 .081 科技支出占财政支出比重(%).046 -.005 .023 -.059 .014 在岗职工平均工资-.042 -.032 .110 -.058 .000 农民人均纯收入.036 -.006 .039 .053 -.030 人均全社会固定资产投资额.044 .006 .055 -.045 .050 Extraction Method: Principal Component Analysis.

a.13 components extracted.

Component Matrix a

Component

12 13

人均一般预算性财政收入-.040 .021

人均城乡居民储蓄存款.089 -.015

每千人拥有病床数-.004 -.042

第三产业占GDP比重(%) -.066 -.019

人才密度指数-.019 -.006

人均城镇固定资产投资额-.004 .018

每万人拥有执业医师数量.008 .040

.046 .003

人均实际利用外资额(万美元/

人)

人均社会消费品零售额-.044 -.001

人均GDP(元/人) -.003 -.011

科技支出占财政支出比重(%).002 .016

在岗职工平均工资.011 .002

农民人均纯收入.028 .011

人均全社会固定资产投资额.017 -.006

Extraction Method: Principal Component Analysis.

a. 13 components extracted.

(7)SPSS输出的该部分的结果如下:

该表格是按照前面设定的方差极大法对因子载荷矩阵旋转后的结果。未经过旋转的载荷矩阵中,因子变量在许多变量上都有较高的载荷。

经过旋转之后,第一个因子含义略加清楚,基本上放映了“每万人拥有执业医师数量”、“第三产业占GDP比重(%)”、“人均实际利用外资额(万美元/人)”;第二个因子基本上反映了“人

均全社会固定资产投资额”、“人均城镇固定资产投资额”;第三个因子反映了“在岗职工平均工资”……

Rotated Component Matrix a

Component

1 2 3 4 5 6

每万人拥有执业医师数量.877 .278 .182 .163 -.125 .181 第三产业占GDP比重(%) .861 .299 .185 .184 .261 -.010

.806 .133 .102 .242 -.047 .142 人均实际利用外资额(万美元/

人)

人均城乡居民储蓄存款.767 .255 .306 .239 .174 .311 每千人拥有病床数.718 .316 .284 .477 -.082 .165 人均一般预算性财政收入.636 .338 .475 .392 .018 .153 人均全社会固定资产投资额.220 .953 .113 .146 -.063 .002 人均城镇固定资产投资额.500 .772 .239 .123 .096 .177 在岗职工平均工资.288 .161 .896 .130 .239 .107 人均GDP(元/人) .198 .386 .559 .290 .429 .246 科技支出占财政支出比重(%).340 .166 .154 .895 .127 .077 农民人均纯收入-.012 -.044 .187 .063 .972 .105 人均社会消费品零售额.498 .101 .285 .156 .396 .663 人才密度指数.583 .283 .207 .218 .229 .291 Extraction Method: Principal Component Analysis.

Rotation Method: Varimax with Kaiser Normalization.

a. Rotation converged in 7 iterations.

Rotated Component Matrix a

Component

7 8 9 10 11

每万人拥有执业医师数量.105 -.121 -.004 .089 -.060

spss多元回归分析报告案例

企业管理 对居民消费率影响因素的探究 ---以湖北省为例 改革开放以来,我国经济始终保持着高速增长的趋势,三十多年间综合国力得到显著增强,但我国居民消费率一直偏低,甚至一直有下降的趋势。居民消费率的偏低必然会导致我国内需的不足,进而会影响我国经济的长期健康发展。 本模型以湖北省1995年-2010年数据为例,探究各因素对居民消费率的影响及多元关系。(注:计算我国居民的消费率,用居民的人均消费除以人均GDP,得到居民的消费率)。通常来说,影响居民消费率的因素是多方面的,如:居民总 收入,人均GDP,人口结构状况1(儿童抚养系数,老年抚养系数),居民消费价格指数增长率等因素。 1.人口年龄结构一种比较精准的描述是:儿童抚养系数(0-14岁人口与 15-64岁人口的比值)、老年抚养系数(65岁及以上人口与15-64岁人口的比值〉或总抚养系数(儿童和老年抚养系数之和)。0-14岁人口比例与65岁及以上人口比例可由《湖北省统计年鉴》查得。

一、计量经济模型分析 (一)、数据搜集 根据以上分析,本模型在影响居民消费率因素中引入6个解释变量。X1:居民总收入(亿元),X2:人口增长率(‰),X3:居民消费价格指数增长率,X4:少儿抚养系数,X5:老年抚养系数,X6:居民消费占收入比重(%)。 Y:消费率(%)X1:总收入 (亿元) X2:人口增 长率(‰) X3:居民消 费价格指 数增长率 X4:少儿抚 养系数 X5:老年抚 养系数 X6:居民消 费比重(%) 1995 1997 200039 2001 2002 2003 2004 2005 2006 2007 2008 2009

SPSS因子分析(因素分析)——实例分析

SPSS因子分析(因素分析)——实例分析 提起因子分析那是老生常谈,分析人士大都喜欢讨论主成分与因子分析。我也凑个热闹,顺便温习温习,时间长了就会很模糊。 一、概念 探讨存在相关关系的变量之间,是否存在不能直接观察到的但对可观测变量的变化其支配作用的潜在因子的分析方法就是因子分析,也叫因素分析。通俗点:原始变量是共性因子的线性组合。 二、简单实例 现在有12个地区的5个经济指标调查数据(总人口、学校校龄、总雇员、专业服务、中等房价),为对这12个地区进行综合评价,请确定出这12 个地区的综合评价指标。点击下载 三、解决方案 1、不同地区的不同指标不同,这导致目前我们拥有的5个指标数据很难对这12个地区给一个明确的评价。所以,有必要确定综合评价指标,便于对比。因子分析是一种选择,当然还有其他的方法。5个指标即为我们分析的对象,直接选入。

2、描述统计选项卡。我们要对比因子提取前后的方差变化,所以选定“初始分析结果”;现在是基于相关矩阵提取因子,所以,选定相关矩阵的“系数”;比较重要的还有KMO和球形检验,它告诉我们数据是不是适合做因子分析。选定。其他选择自定。 3、抽取选项卡。提取因子的方法有很多,最常用的就是主成分法。这里选主成分。关于特征值,不想解释太多,这和显著性水平一样,都是统计学的一个基本概念。因为参与分析的变量测度单位不同,所以选择“相关矩阵”,如果参与分析的变量测度单位相同,则考虑选用协方差矩阵。

4、是否需要旋转?因子分析要求对因子给予命名和解释,对因子旋转与否取决于因子的解释。如果不经旋转因子已经很好解释,那么没有必要旋转,否则,应该旋转。这里直接旋转,便于解释。至于旋转就是坐标变换,使得因子系数向1和0靠近,对公因子的命名和解释更加容易。 5、要计算因子得分,就必须先写出因子的表达式。而因子是不能直接观察到的,是潜在的。但是可以通过可观测到的变量获得。前面说到,因子分析模型是原始变量为因子的线性组合,现在我们可以根据回归的方法将模型倒过来,用

SPSS皮尔逊相关分析实例操作步骤

SPSS皮尔逊相关分析实例操作步骤 选题: 对某地29名13岁男童的身高(cm)、体重(kg),运用相关分析法来分析其身高与体重是否相关。 实验目的: 任何事物的存在都不是孤立的,而是相互联系、相互制约的。相关分析可对变量进行相关关系的分析,计算29名13岁男童的身高(cm)、体重(kg),以判断两个变量之间相互关系的密切程度。 实验变量: 编号Number,身高height(cm),体重weight(kg) 原始数据: 实验方法: 皮 尔 逊 相 关 分 析 法 软件: 操作过程与结果分析:

第一步:导入Excel 数据文件 1.open data document ——open data ——open ; 2. Opening excel data source ——OK. 第二步:分析身高(cm )与体重(kg )是否具有相关性 1. 在最上面菜单里面选中Analyze ——correlate ——bivariate ,首先使用Pearson ,two-tailed ,勾选flag significant correlations 进入如下界面: 2. 点击右侧options ,勾选Statistics ,默认Missing Values ,点击Continue 输出结果: 图为基本的描述性统计量的输 出表格,其中身高的均值(mean ) 为、标准差(standard deviation ) 为、样本容量(number of cases ) 为29;体重的均值为、标准差为、 样本容量为29。两者的平均值和标准差值得差距不显着。 图为相关分析结果表,从表中可以看出体重和身高之间的皮尔逊相关系数为,即 |r|=,表示体重与身高呈正相关关系,且两变量是显着相关的。另外, 两者之间不相关的双侧检验值为,图中的双星号标 记的相关系数是在显着性水平为以下,认为标记的相关系数是显着的,验证了两者显着相关的关系。所以可以得出结论:学生的体重与身高存在显着的 Descriptive Statistics Mean Std. Deviation N 身高(cm ) 29 体重(kg) 29 Correlations 身高(cm ) 体重(kg) 身高(cm ) Pearson Correlation 1 .719** Sig. (2-tailed) .000 Sum of Squares and Cross-products Covariance N 29 29 体重(kg) Pearson Correlation .719** 1 Sig. (2-tailed) .000 Sum of Squares and Cross-products Covariance N 29 29 **. Correlation is significant at the level (2-tailed).

spss因子分析实例

一.研究目的:为了研究农民收入,我们选取了其中7种主要影响因素,包括财政用于农业的支出的比重(%),第二、三产业从业人数占全社会从业人数的比重(%),非农村人口比重,乡村从业人员占农村人口的比重(%),农业总产值占农林牧总产值的比重(%),农作物播种面积(千公顷),农村用电量(亿千瓦时)。(数据见最后一页) 二.研究变量:在经济生活中,根据以上分析,我们在影响农民收入因素中引入7个变量。即设置变量:x1-财政用于农业的支出的比重,x2-第二、三产业从业人数占全社会从业人数的比重,x3-非农村人口比重,x4-乡村从业人员占农村人 农村口的比重,x5-农业总产值占农林牧总产值的比重,x6-农作物播种面积,x7 — 用电量。 一、研究方法:SPSS中的因子分析。 具体操作步骤 (1)定义变量:x1-财政用于农业的支出的比重,x2-第二、三产业从业人数占全社会从业人数的比重,x3-非农村人口比重,x4-乡村从业人员占农村人口的 农村用电比重,x5-农业总产值占农林牧总产值的比重,x6-农作物播种面积,x7 — 量。 (2)导入数据: file-open-data (3)变量标准化Analyze-Descriptive Statistics-Descriptives

" 勾选Save standardized values as variables保存变量,再点击ok,就完成了对变量的标准化。 (3)因子分析 Analyze—Dimension Reduction—Faction

点击右侧的Description选项,选择Statistics选项组中的initial solution,勾选Correlation Matrix 选项组中的Coefficients和KMO and Bartlelts test of sphericity,点击Continue。 点击右侧Extraction选项,其中Method选Principal components,Analyze选择Correlation matrix,Display中选择Unrotated factor solution,Extract如图,点击Continue.

SPSS线性回归分析案例

回归分析 实验内容:基于居民消费性支出与居民可支配收入的简单线性回归分析 【研究目的】 居民消费在社会经济的持续发展中有着重要的作用。影响各地区居民消费支出的因素很多,例如居民的收入水平、商品价格水平、收入分配状况、消费者偏好、家庭财产状况、消费信贷状况、消费者年龄构成、社会保障制度、风俗习惯等等。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的经济模型去研究。 【模型设定】 我们研究的对象是各地区居民消费的差异。由于各地区的城市与农村人口比例及经济结构有较大差异,现选用城镇居民消费进行比较。模型中被解释变量Y选定为“城市居民每人每年的平均消费支出”。从理论和经验分析,影响居民消费水平的最主要因素是居民的可支配收入,故可以选用“城市居民每人每年可支配收入”作为解释变量X,选取2010年截面数据。 1、实验数据 表1: (

2010年中国各地区城市居民人均年消费支出和可支配收入

} 数据来源:《中国统计年鉴》2010年 2、实验过程 作城市居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)的散点图,如图1:

表2 模型汇总b 模型… R R方调整R方标准估计的误差 1.965a.93 2.930 a.预测变量:(常量),可支配收入X(元)。 b.因变量:消费性支出Y(元) ~ 表3 相关性 消费性支出Y (元) 可支配收入X(元) Pearson相关 性消费性支出 Y(元) .965 从散点图可以看出居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)大体呈现为线性关系,所以建立如下线性模型:Y=a+bX

主成分分析案例

姓名:XXX 学号:XXXXXXX 专业:XXXX 用SPSS19软件对下列数据进行主成分分析: ……

一、相关性 通过对数据进行双变量相关分析,得到相关系数矩阵,见表1。 表1 淡化浓海水自然蒸发影响因素的相关性 由表1可知: 辐照、风速、湿度、水温、气温、浓度六个因素都与蒸发速率在0.01水平上显著相关。 分析:各变量之间存在着明显的相关关系,若直接将其纳入分析可能会得到因多元共线性影响的错误结论,因此需要通过主成份分析将数据所携带的信息进行浓缩处理。 二、KMO和球形Bartlett检验 KMO和球形Bartlett检验是对主成分分析的适用性进行检验。 KMO检验可以检查各变量之间的偏相关性,取值范围是0~1。KMO的结果越接近1,表示变量之间的偏相关性越好,那么进行主成分分析的效果就会越好。实际分析时,KMO统计量大于0.7时,效果就比较理想;若当KMO统计量小于0.5时,就不适于选用主成分分析法。 Bartlett球形检验是用来判断相关矩阵是否为单位矩阵,在主成分分析中,若拒绝各变量独立的原假设,则说明可以做主成分分析,若不拒绝原假设,则说明这些变量可能独立提供一些信息,不适合做主成分分析。

由表2可知: 1、KMO=0.631<0.7,表明变量之间没有特别完美的信息的重叠度,主成分分析得到的模型又可能不是非常完善,但仍然值得实验。 2、显著性小于0.05,则应拒绝假设,即变量间具有较强的相关性。 三、公因子方差 公因子方差表示变量共同度。表示各变量中所携带的原始信息能被提取出的主成分所体现的程度。 由表3可知: 几乎所有变量共同度都达到了75%,可认为这几个提取出的主成分对各个变量的阐释能力比较强。 四、解释的总方差 解释的总方差给出了各因素的方差贡献率和累计贡献率。

SPSS因子分析报告实例操作步骤

SPSS因子分析实例操作步骤 实验目的: 引入2003~2013年全国的农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产与供应业,建筑业,批发与零售业,交通运输、仓储与邮政业7个产业的投资值作为变量,来研究其对全国总固定投资的影响。 实验变量: 以年份,合计(单位:千亿元),农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产与供应业,建筑业,批发与零售业,交通运输、仓储与邮政业作为变量。 实验方法:因子分析法 软件:spss19、0 操作过程: 第一步:导入Excel数据文件 1.open data document——open data——open; 2、 Opening excel data source——OK、

第二步: 1、数据标准化:在最上面菜单里面选中Analyze——Descriptive Statistics——OK (变量选择除年份、合计以外的所有变量)、 2.降维:在最上面菜单里面选中Analyze——Dimension Reduction—— Factor ,变量选择标准化后的数据、

3.点击右侧Descriptive,勾选Correlation Matrix选项组中的 Coefficients与KMO and Bartlett’s text of sphericity,点击 Continue、 4、点击右侧Extraction,勾选Scree Plot与fixed number with factors,默认3个,点击Continue、

5、点击右侧Rotation,勾选Method选项组中的Varimax;勾选Display选项组中的Loding Plot(s);点击Continue、 6、点击右侧Scores,勾选Method选项组中的Regression;勾选Display factor score coefficient matrix;点击Continue、

典型相关分析报告SPSS例析

典型相关分析 典型相关分析(Canonical correlation )又称规则相关分析,用以分析两组变量间关系的一种方法;两个变量组均包含多个变量,所以简单相关和多元回归的解惑都是规则相关的特例。典型相关将各组变量作为整体对待,描述的是两个变量组之间整体的相关, 而不是 两个变量组个别变量之间的相关。 典型相关与主成分相关有类似, 不过主成分考虑的是一组变量,而典型相关考虑的是两 组变量间的关系,有学者将规则相关视为双管的主成分分析;因为它主要在寻找一组变量的 成分使之与另一组的成分具有最大的线性关系。 典型相关模型的基本假设: 两组变量间是线性关系, 每对典型变量之间是线性关系,每 个典型变量与本组变量之间也是线性关系;典型相关还要求各组内变量间不能有高度的复共 线性。典型相关两组变量地位相等,如有隐含的因果关系,可令一组为自变量,另一组为因 变量。 典型相关会找出一组变量的线性组合 * *= i i j j X a x Y b y 与,称为典型变量;以 使两个典型变量之间所能获得相关系数达到最大,这一相关系数称为典型相关系数。 i a 和j b 称为典型系数。如果对变量进行标准化后再进行上述操作,得到的是标准化的典型系数。 典型变量的性质 每个典型变量智慧与对应的另一组典型变量相关,而不与其他典型变量相关; 原来所有 变量的总方差通过典型变量而成为几个相互独立的维度。一个典型相关系数只是两个典型变 量之间的相关,不能代表两个变量组的相关;各对典型变量构成的多维典型相关, 共同代表 两组变量间的整体相关。 典型负荷系数和交叉负荷系数典型负荷系数也称结构相关系数, 指的是一个典型变量与本组所有变量的简单相关系数,

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 第一,将EXCEL中的原始数据导入到SPSS软件中; 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。

数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性,可以举个简单的例子,一个百分制的变量与一个5分值的变量在一起怎么比较?只有通过数据标准化,都把它们标准到同一个标准时才具有可比性,一般标准化采用的是Z标准化,即均值为0,方差为1,当然也有其他标准化,比如0--1标准化等等,可根据自己的研究目的进行选择,这里介绍怎么进行数据的Z标准化。 所的结论: 标准化后的所有指标数据。 注意: SPSS 在调用Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但SPSS 并不直接给出标准化后的数据, 如需要得到标准化数据, 则需调用Descriptives 过程进行计算。 factor过程对数据进行因子分析(指标之间的相关性判定略)。 【1】“分析”|“降维”|“因子分析”选项卡,将要进行分析的变量选入“变量”列表;

【2】设置“描述”,勾选“原始分析结果”和“KMO与Bartlett球形度检验”复选框; 【3】设置“抽取”,勾选“碎石图”复选框; 【4】设置“旋转”,勾选“最大方差法”复选框; 【5】设置“得分”,勾选“保存为变量”和“因子得分系数”复选框; 【6】查看分析结果。 所做工作: a.查看KMO和Bartlett 的检验 KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析; Bartlett 球度度检验的Sig值越小于显著水平0.05,越说明变量之间存在相关关系。 所的结论: 符合因子分析的条件,可以进行因子分析,并进一步完成主成分分析。 注意: 1.KMO(Kaiser-Meyer-Olkin) KMO统计量是取值在0和1之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。 Kaiser给出了常用的kmo度量标准: 0.9以上表示非常适合;0.8表示适合;0.7表示一般; 0.6表示不太适合;0.5以下表示极不适合。 2.Bartlett 球度检验: 巴特利特球度检验的统计量是根据相关系数矩阵的行列式得到的,如果该值较大,且其对应的相伴概率值小于用户心中的显著性水平,那么应该拒绝零假设,认为相关系数矩阵不可能是单位阵,即原始变量之间存在相关性,适合于做主成份分析;相反,如果该统计量比较小,且其相对应的相伴概率大于显著性水平,则不能拒绝零假设,认为相关系数矩阵可能是单位阵,不宜于做因子分析。 Bartlett 球度检验的原假设为相关系数矩阵为单位矩阵,Sig值为0.001小于显著水平0.05,因此拒绝原假设,说明变量之间存在相关关系,适合做因子分析。 所做工作: b. 全部解释方差或者解释的总方差(Total Variance Explained)

SPSS因子分析实例操作步骤

SPSS因子分析实例操作步骤 实验目的: 引入2003~2013年全国的农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业7个产业的投资值作为变量,来研究其对全国总固定投资的影响。 实验变量: 以年份,合计(单位:千亿元),农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业作为变量。 实验方法:因子分析法 软件: 操作过程: 第一步:导入Excel数据文件 1.open data document——open data——open; 2. Opening excel data source——OK. 第二步: 1.数据标准化:在最上面菜单里面选中Analyze——Descriptive Statistics——OK (变量选择除年份、合计以外的所有变量). 2.降维:在最上面菜单里面选中Analyze——Dimension Reduction——Factor ,变量选择标准化后的数据. 3.点击右侧Descriptive,勾选Correlation Matrix选项组中的 Coefficients和KMO and Bartlett’s text of sphericity,点击 Continue.

4.点击右侧Extraction,勾选Scree Plot和fixed number with factors,默认3个,点击Continue. 5.点击右侧Rotation,勾选Method选项组中的Varimax;勾选Display选项组中的Loding Plot(s);点击Continue. 6.点击右侧Scores,勾选Method选项组中的Regression;勾选Display factor score coefficient matrix;点击Continue. 7.点击右侧Options,勾选Coefficient Display Format选项组中所有选项,将Absolute value blow改为,点击Continue. 8.返回主对话框,单击OK. 输出结果分析:

SPSS相关分析案例讲解

相关分析 一、两个变量的相关分析:Bivariate 1.相关系数的含义 相关分析是研究变量间密切程度的一种常用统计方法。相关系数是描述相关关系强弱程度和方向的统计量,通常用r 表示。 ①相关系数的取值范围在-1和+1之间,即:–1≤r ≤ 1。 ②计算结果,若r 为正,则表明两变量为正相关;若r 为负,则表明两变量为负相关。 ③相关系数r 的数值越接近于1(–1或+1),表示相关系数越强;越接近于0,表示相关系数越弱。如果r=1或–1,则表示两个现象完全直线性相关。如果=0,则表示两个现象完全不相关(不是直线相关)。 ④3.0

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 公司销售净利率(X1)资产净利率(X2)净资产收益率(X3)销售毛利率(X4) 歌华有线五粮液用友软件太太药业浙江阳光烟台万华方正科技红河光明贵州茅台中铁二局红星发展伊利股份青岛海尔湖北宜化雅戈尔福建南纸43.31 17.11 21.11 29.55 11.00 17.63 2.73 29.11 20.29 3.99 22.65 4.43 5.40 7.06 19.82 7.26 7.39 12.13 6.03 8.62 8.41 13.86 4.22 5.44 9.48 4.64 11.13 7.30 8.90 2.79 10.53 2.99 8.73 17.29 7.00 10.13 11.83 15.41 17.16 6.09 12.97 9.35 14.3 14.36 12.53 5.24 18.55 6.99 54.89 44.25 89.37 73 25.22 36.44 9.96 56.26 82.23 13.04 50.51 29.04 65.5 19.79 42.04 22.72 第一,将EXCEL中的原始数据导入到SPSS软件中; 注意: 导入Spss的数据不能出现空缺的现象,如出现可用0补齐。 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。 所做工作: a. 原始数据的标准化处理

SPSS因子分析经典案例

SPSS因子分析经典案例 因子分析已经被各行业广泛应用,各种案例琳琅满目,以前在百度空间发表过相关文章,是以每到4至6月,这些文章总会被高校毕业生扒拉一遍,也总能收到各种魅惑的留言,因此,有必要再次发布这经典案例以飨读者。 什么是因子分析? 因子分析又称因素分析,传统的因子分析是探索性的因子分析,即因子分析是基于相关关系而进行的数据分析技术,是一种建立在众多的观测数据的基础上的降维处理方法。其主要目的是探索隐藏在大量观测数据背后的某种结构,寻找一组变量变化的共同因子。 因子分析能做什么? 人的心理结构具有层次性,即分为外显和内隐。但是作为具有同一性的个体来说,内隐的方面总是和外显的方面相互作用,内隐方面制约着外显特征。所以我们经常说,一个人的内在自我会在相当程度上决定他的外在行为特征,表现为某些行为倾向具有高度的一致性或相关性。 反过来说,我们可以通过对个体进行系统的观察和测量,从一组高度相关的行为倾向(可观测)中,探索到某种稳定的内在心理结构(潜存在),这就是因子分析所能做的。 具体来说主要应用于: (1)个体的综合评价:按照综合因子得分对case进行排序; (2)调查问卷效度分析:问卷所列问题作为输入变量,通过KMO、因子特征值贡献率、因子命名等判断调查问卷架构质量; (3)降维处理,结果再利用:因子得分作为变量,进行聚类或其他分析。 案例描述: 高中大家都读过吧,那是一个以成绩论英雄的时代,理科王子、文科小生是时代标签。为什么我们会将数学、物理、化学归并为理科,其他的归并为文科,有没有数据支持?今天我们将用科学的方法找到答案。 100个学生数学、物理、化学、语文、历史、英语成绩如下表(部分),请你来评价他们。

SPSS因子分析法

因子分析 ? 因子分析(Factor analysis ):用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 主成分分析(Principal component analysis ):是因子分析一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。 两者关系:主成分分析(PCA )和因子分析(FA )是两种把变量维数降低以便于描述、理解和分析的方法。 ? 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。 ? 类型 根据研究对象的不同,把因子分析分为R 型和Q 型两种。 当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。 但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。 ? 分析原理 假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 : 当p 较大时,在p 维空间中考察问题比较麻烦。这就需要进行降维处理,即用较少几个综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。 线性组合:记x1,x2,…,xP 为原变量指标,z1,z2,…,zm (m ≤p )为??????????????=np n n p p x x x x x x x x x X 212222111211

SPSS统计分析分析案例

SPSS统计分析案例 一、我国城镇居民现状 近年来,我国宏观经济形势发生了重大变化,经济发展速度加快,居民收入稳定增加,在国家连续出台住房、教育、医疗等各项改革措施和实施“刺激消费、扩大内需、拉动经济增长”经济政策的影响下,全国居民的消费支出也强劲增长,消费结构发生了显著变化,消费结构不合理现象得到了一定程度的改善。本文通过相关数据分析总结出了我国城镇居民消费呈现富裕型、娱乐教育文化服务类消费攀升的趋势特点。 二、我国居民消费结构的横向分析 第一,食品消费支出比重随收入增加呈现出明显的下降趋势,这与恩格尔定律的表述一致。但最低收入户与最高收入恩格尔系数相差太过悬殊,城镇最低收入户刚刚解决了温饱问题,而最高收入户的生活水平按照恩格尔系数的评价标准早已达到了富裕型,甚至接近最富裕型。第二,衣着消费支出比重随收入增加缓慢上升,到高收入户又有所下降,但各收入组支出比重相差不大。衣着支出比重没有更多的递增且最高收入户的支出比重有所下降,这些都符合恩格尔定律关于衣着消费的引申。随着收入的增加,衣着支出比重呈现先上升后下降的走势。事实上,在当前的价格水平和服装业的发展水平下,城镇居民的穿着是有一定限度的,而且居民对衣着的需求也不是无限膨胀的,即使收入水平继续提高,也不需要将更大的比例用于购买服饰用品了。第三,家庭设备用品及服务、交通通讯、娱乐教育文化服务和杂项商品与服务的支出比重呈逐组上升趋势,说明居民的生活水平随收入的增加而不断提高和改善。第四,医疗保健支出比重随收入水平提高呈现一种两端高、中间低的走势。这是因为医疗保健支出作为生活必须支出,不论居民生活水平高低,都要将一定比例的收入用于维持自身健康,而且由于医疗制度改革,加重了个人负担的同时,也减小了旧制度可能造成的不同行业、不同体制下居民医疗保健支出的差别,因而不同收入等级的居民在医疗保健支出比重上差别不大。第五,居住支出比重基本上呈先上升后下降的趋势,这与我国居民消费能级不断提升,住宅商品正在越来越成为城镇居民关注的热点是相吻合的,同时与恩格尔定律的引申也是一致的。可以看出,城镇居民的消费状况虽然受价格水平、消费习惯、消费环境、消费心理预期等诸多因素的影响,但归根结底仍取决于居民的收入水平,要提高城镇居民的消费支出,必须增加居民收入。因此,采取切实有效的措施增加城镇居民的可支配收入,不仅可以提高全国城镇居民的总体消费水平,促进消费结构向着更加健康、合理的方向发展,而且在启动内需,促进我国的经济发展方面有着重大的现实意义。 三、我国居民消费结构的纵向分析 进入21世纪以来,随着经济体制改革的深入,国民经济的迅速发展,我国城乡居民的消费水平显著提高,居民的各项支出显著增加。随着消费水平的提高,我国城乡居民消费从注重量的满足到追求质的提高,从以衣食消费为主的生存型到追求生活质量的享受型、发展型,消费

SPSS因子分析实例操作步骤

S P S S因子分析实例操作步骤 实验目的: 引入2003~2013年全国的农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业7个产业的投资值作为变量,来研究其对全国总固定投资的影响。 实验变量: 以年份,合计(单位:千亿元),农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业作为变量。 实验方法:因子分析法 软件:spss19.0 操作过程: 第一步:导入Excel数据文件??? 1.opendatadocument——opendata——open; 2.Openingexceldatasource——OK. 第二步: 1.数据标准化:在最上面菜单里面选中Analyze——DescriptiveStatistics——OK?(变量选择除年份、合计以外的所有变量). 2.降维:在最上面菜单里面选中 Analyze——DimensionReduction——Factor?,变量选择标准化后的数据. 3.点击右侧Descriptive,勾选CorrelationMatrix选项组中的 Coefficients和KMOandBartlett’stextofsphericity,点击Continue. 4.点击右侧Extraction,勾选ScreePlot和fixednumberwithfactors,默认3个,点击Continue. 5.点击右侧Rotation,勾选Method选项组中的Varimax;勾选Display选项组中的LodingPlot(s);点击Continue. 6.点击右侧Scores,勾选Method选项组中的Regression;勾选Displayfactorscorecoefficientmatrix;点击Continue. 7.点击右侧Options,勾选CoefficientDisplayFormat选项组中所有选项,将Absolutevalueblow改为0.60,点击Continue. 8.返回主对话框,单击OK. 输出结果分析: 1.描述性统计量

spss相关分析案例多因素方差分析

本次实验采用2005年东部、中部和西部各地区省份城镇居民月平均消费类型划分的数据(课本139页),将东部、中部和西部看作三个不同总体,31个数据分别来自于这三个总体。本人对这三个不同地区的城镇居民月平均消费水平进行比较,并选取人均粮食支出、副食支出、烟酒及饮料支出、其他副食支出、衣着支出、日用杂品支出、水电燃料支出和其他非商品支出八个指标来衡量城镇居民月平均消费情况。 在进行比较分析之前,首先对个数据是否服从多元正态分布进行检验,输出结果为: 表一 如表一,因为该例中样本数n=31<2000,所以此处选用Shapiro-Wilk统计量。由正态性检验结果的sig.值可以看到,人均粮食支出、烟酒及饮料支出、其他副食支出、水电燃料支出和其他非商品支出均明显不遵从正态分布(Sig.值小于,拒绝服从正态分布的原假设),因此,在下面分析中,只对人均副食支出、衣着支出和日用杂品支出三项指标进行比较,并认为这三个变量组成的向量都遵从正态分布,并对城镇居民月平均消费状况做出近似的度量。另外,正态性的检验还可以通过Q-Q图来实现,此时应判别数据点是否与已知直线拟合得好。如果数据点均落在直线附近,说明拟合得好,服从正态分布,反之,不服从。具体情况这里

不再赘述。 下面进行多因素方差分析: 一、多变量检验 表二 由地区一栏的(即第二栏)所列几个统计量的Sig.值可以看到,无论从那个统计量来看,三个地区的城镇居民月平均消费水平都是有显著差别的(Sig.值小于,拒绝地区取值不同,对Y,即城镇居民月平均消费水平的取值没有显著影响的原假设)。 二、主体间效应检验

如表三,可以看到三个指标地区一栏的(即第三栏)Sig.值分别为、、,说明三个地区在人均衣着支出指标上没有明显的差别(Sig.值大于,不拒绝地区取值不同,对指标的取值没有显著影响的原假设),反之,而在人均副食支出和日用杂品支出指标上有显著差别。 三、多重比较

SPSS进行主成分分析

实验七、利用SPSS进行主成分分析 【例子】以全国31个省市的8项经济指标为例,进行主成分分析。 第一步:录入或调入数据(图1)。 图1 原始数据(未经标准化) 第二步:打开“因子分析”对话框。 沿着主菜单的“Analyze→Data Reduction→Factor ”的路径(图2)打开因子分析选项框(图3)。 图2 打开因子分析对话框的路径

图3 因子分析选项框 第三步:选项设置。 首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入变量(Variables)栏中(图3)。在本例中,全部8个变量都要用上,故全部调入(图4)。因无特殊需要,故不必理会“Value ”栏。下面逐项设置。 图4将变量移到变量栏以后 ⒈设置Descriptives描述选项。 单击Descriptives按钮(图4),弹出Descriptives对话框(图5)。

图5 描述选项框 在Stat is tic s 统计 栏中选中U niva riate d escript ives 复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考);选中Initial soluti on 复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。 在C orrel ation M atri x栏中,选中Coe fficien ts 复选项,则会给出原始变量的相关系数矩阵(分析时可参考);选中Deter minant 复选项,则会给出相关系数矩阵的行列式,如果希望在E xc el中对某些计算过程进行了解,可选此项,否则用途不大。其它复选项一般不用,但在特殊情况下可以用到(本例不选)。 设置完成以后,单击Cont inue 按钮完成设置(图5)。 ⒉ 设置Extra ction 选项。 打开Ext raction 对话框(图6)。因子提取方法主要有7种,在Method 栏中可以看到,系统默认的提取方法是主成分(Pr in ci pa l Compon en ts),因此对此栏不作变动,就是认可了主成分分析方法。 在Ana lyze 栏中,选中Correlatio n ma trix 复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中Covar iance matri x复选项,则因子分析基于数据的协方差矩阵进行分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。 在D isplay 栏中,选中U nrotated factor s olu ti on(非旋转因子解)复选项,则在分析结果中给出未经旋转的因子提取结果。对于主成分分析而言,这一项选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,以便对比。 选中Scree P lo t(“山麓”图),则在分析结果中给出特征根按大小分布的折线图(形如山麓截面,故得名),以便我们直观地判定因子的提取数量是否准确。 在Extract 栏中,有两种方法可以决定提取主成分(因子)的数目。一是根据特征根(Eig envalues )的数值,系统默认的是1=c λ。我们知道,在主成分分析中,主成分得分的方差就是对应的特征根数值。如果默认1=c λ,则所有方差大于等于1的主成分将被保留,其余舍弃。如果觉得最后选取的主成分数量不足,可以将c λ值降低,例如取 9.0=c λ;如果认为最后的提取的主成分数量偏多,则可以提高c λ值,例如取1.1=c λ。 主成分数目是否合适,要在进行一轮分析以后才能肯定。因此,特征根数值的设定,要在反复试验以后才能决定。一般而言,在初次分析时,最好降低特征根的临界值(如取

应用统计学因子分析与主成分分析案例解析_SPSS操作分析

因子分析与主成分分析 一、问题概述 现希望对30个省市自治区经济发展基本情况的八项指标进行分析。具体采用的指标只有:GDP、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值。这是一个综合分析问题,八项指标较多,用主成分分析法进行综合。 二、数据处理与分析 1.因子分析 打开数据后,在SPSS中进行因子分析的步骤如下: 选择“分析---降维---因子分析”,在弹出的对话框里 (1)描述---系数、KMO与Bartlett的球形度检验 (2)抽取---碎石图、未旋转的因子解 (3)旋转---最大方差法、旋转解、载荷图 (4)得分---保存为变量、显示因子得分系数矩阵 (5)选项---按大小排序 点击确定得到如下各图: 图3-1 图3-2 KMO 和 Bartlett 的检验 取样足够度的 Kaiser-Meyer-Olkin 度量。.620 Bartlett 的球形度检验近似卡方231.285 df 28 Sig. .000 图3-3 公因子方差

图3-6 成份矩阵a

图3-9

(2)因子模型中各统计量的意义 A)因子载荷错误!未找到引用源。:因子载荷错误!未找到引用源。为第i个变量在第j个因子上的载荷,实际上就是错误!未找到引用源。与错误!未找到引用源。的相关系数,表示变量错误!未找到引用源。依赖因子错误!未找到引用源。的程度,反应了第i个变量错误!未找到引用源。对于第j个因子错误!未找到引用源。的重要性。 B)变量错误!未找到引用源。的变量共同度:k个公因子对第i个变量方差的贡献,也称为公因子方差比,记为错误!未找到引用源。,公式为:错误!未找到引用源。=错误!未找到引用源。(j=1,2,….,k)

(完整版)SPSS因子分析法-例子解释

因子分析的基本概念和步骤 一、因子分析的意义 在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在: 计算量的问题 由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。 变量间的相关性问题 收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。类似的问题还有很多。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富和完善。 因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。通常,因子有以下几个特点: ↓因子个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓因子能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓因子之间的线性关系并不显著 由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。 ↓因子具有命名解释性 通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解

相关文档
相关文档 最新文档