文档库 最新最全的文档下载
当前位置:文档库 › SPSS相关分析案例讲解要点

SPSS相关分析案例讲解要点

SPSS相关分析案例讲解要点
SPSS相关分析案例讲解要点

相关分析

一、两个变量的相关分析:Bivariate 1.相关系数的含义

相关分析是研究变量间密切程度的一种常用统计方法。相关系数是描述相关关系强弱程度和方向的统计量,通常用r 表示。

①相关系数的取值范围在-1和+1之间,即:–1≤r ≤ 1。

②计算结果,若r 为正,则表明两变量为正相关;若r 为负,则表明两变量为负相关。

③相关系数r 的数值越接近于1(–1或+1),表示相关系数越强;越接近于0,表示相关系数越弱。如果r=1或–1,则表示两个现象完全直线性相关。如果=0,则表示两个现象完全不相关(不是直线相关)。

④3.0

⑤r 值很小,说明X 与Y 之间没有线性相关关系,但并不意味着X 与Y 之间没有其它关系,如很强的非线性关系。

⑥直线相关系数一般只适用与测定变量间的线性相关关系,若要衡量非线性相关时,一般应采用相关指数R 。

2.常用的简单相关系数

(1)皮尔逊(Pearson )相关系数

皮尔逊相关系数亦称积矩相关系数,1890年由英国统计学家卡尔?皮尔逊提出。定距变量之间的相关关系测量常用Pearson 系数法。计算公式如下:

∑∑∑===----=

n

i n

i i i

n

i i i

y y x x

y y x x

r 1

1

2

21

)()()

)(( (1)

(1)式是样本的相关系数。计算皮尔逊相关系数的数据要求:变量都是服从正态分布,相互独立的连续数据;两个变量在散点图上有线性相关趋势;样本容量30≥n 。

(2)斯皮尔曼(Spearman )等级相关系数

Spearman 相关系数又称秩相关系数,是用来测度两个定序数据之间的线性相关程度的指标。

当两组变量值以等级次序表示时,可以用斯皮尔曼等级相关系数反映变量间的关系密切程度。它是根据数据的秩而不是原始数据来计算相关系数的,其计算过程包括:对连续数据的排秩、对离散数据的排序,利用每对数据等级的差额及差额平方,通过公式计算得到相关系数。其计算公式为:

(

)

1

612

2

--

=∑n n d r R (2)

(2)式中,R r 为等级相关系数;d 为每对数据等级之差;n 为样本容量。 斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。

(3)肯德尔(Kendall )等级相关系数

肯德尔(Kendall )等级相关系数是在考虑了结点(秩次相同)的条件下,测度两组定序数据或等级数据线性相关程度的指标。它利用排序数据的秩,通过计算不一致数据对在总数据对中的比例,来反映变量间的线性关系的。其计算公式如下:

()

141--

=∑n n i

r K (3)

(3)式中,K r 是肯德尔等级相关系数;i 是不一致数据对数;n 为样本容量。 计算肯德尔等级相关系数的数据要求与计算斯皮尔曼等级相关系数的数据要求相同。

3.相关系数的显著性检验

通常,我们用样本相关系数r 作为总体相关系数ρ的估计值,而r 仅说明样本数据的X 与Y 的相关程度。有时候,由于样本数据太少或其它偶然因素,使得样本相关系数r 值很大,而总体的X 与Y 并不存在真正的线性关系。因而有必要通过样本资料来对X 与Y 之间是否存在真正的线性相关进行检验,即检验总体相关系数ρ是否为零(即原假设是:总体中两个变量间的相关系数为0)。

SPSS 的相关分析过程给出了该假设成立的概率(输出结果中的Sig.)。

样本简单相关系数的检验方法为:

当原假设0H :0=ρ,50≥n 时,检验统计量为:

2

11

r

n r Z --=

(4) 当原假设0H :0=ρ,50

2

12r

n r t --=

()2-=n df (5)

式中,r 为简单相关系数;n 为观测值个数(或样本容量)。

4.背景材料

设有10个厂家,序号为1,2,…,10,各厂的投入成本记为x ,所得产出记为y 。各厂家的投入和产出如表7-18-1所示,根据这些数据,可以认为投入和产出之间存在相关性吗?

表1 10个厂家的投入产出 单位:万元

5.操作步骤

5-1 绘制散点图的步骤

(1)选择菜单命令“Graphs ”→“Legacy Dialogs ”→“Scatter/Dot ”,打开Scatter/Dot 对话框,如图1所示。

图1 选择散点图窗口

(2)选择散点图类型。SPSS 提供了五种类型的散点图。

(3)根据所选择的散点图类型,单击“Define”按钮设置散点图。不同类型的散点图的设置略有差别。

①简单散点图(Simple Scatter)

简单散点图的设置窗口如图2所示。

图2 简单散点图的设置窗口

从对话框左侧的变量列表中指定某个变量为散点图的纵坐标和横坐标,分别选入Y-Axis和X-Axis框中。这两项是必选项。

可以把作为分组的变量指定到Set Markers by框中,根据该变量取值的不同对同一个散点图中的各点标以不同的颜色(或形状)。该项可以省略。

把标记变量指定到Label Cases by框中,表示将标记变量的各变量值标记在散点图的旁边。该项可以省略。

从左侧变量列表框中选择变量到Panel by框中作为分类变量,可以使该变量作为行(Rows)或列(Columns)将数据分成不同的组,便于比较。该项可以省略。

选择Use Chart Specifications From选项,可以选择散点图的文件模板,单击

“File”可以选择指定的文件。

单击“Title”按钮可以对散点图的标题进行设置,单击“Options”按钮可以对缺失值以及是否显示数据的标注进行设置。

②重叠散点图(Overlay Scatter)

重叠散点图能同时生成多对相关变量间统计关系的散点图,首先根据分类变量的不同取值对原始数据进行分类,然后对各分类数据做简单散点图。重叠散点图的设置窗口如图7-18-3所示。

图3 重叠散点图的设置窗口

从左侧框中选择一对变量进入Pairs框中,其中前一个为图的纵坐标变量

(Y-Variable),后一个作为图的横轴变量(X-Variable),可以通过点击按钮进行横纵轴变量的调换。

其他设置与同简单散点图都相同。

③矩阵散点图(Matrix Scatter)

矩阵散点图以方形矩阵的形式在多个坐标轴上分别显示多对变量间的统计关系。矩阵散点图的关键是弄清各矩阵单元中的横纵变量。矩阵散点图的设置窗口如图4所示。

图4 矩阵散点图的设置窗口

把参与绘图的若干变量指定到Matrix Variables框中。选择变量的先后顺序决定了矩阵对角线上变量的排列顺序。

其他设置也与简单散点图相同。

④三维散点图(3-D Scatter)

三维散点图生成三个相关变量的三维散点图,由三个坐标轴对应变量的数据

决定,它以立体图的形式展现三对变量间的统计关系。设置窗口如图5所示。

图5 三维散点图设置窗口

从左侧的变量列表中指定三个变量分别选入Y-Axis、X-Axis、Z-Axis框中。其他设置均与简单散点图相同。

⑤单点散点图(Sample Dot)

单点散点图生成单个变量的散点图,显示数值型变量的每一个观测值,这些值都堆积在X轴附近,由于没有指定Y轴,所以数据点的Y坐标没有特殊的含

义。设置窗口如图6所示。

图6 单点散点图设置窗口

从左侧变量列表中选择一个变量选入X-Axis Variable框中。其他设置与简单散点图相同。

5-2 计算简单相关系数的操作步骤

通过散点图可以初步判断变量是否具有线性趋势。对具有线性趋势的变量计算相应的简单相关系数的步骤如下:

(1)选择菜单命令“Analyze”→“Correlate”→“Bivariate”,打开两变量

相关分析的对话框,如图7所示。

图7 两变量相关分析窗口

(2)选入需要进行相关分析的变量进入Variables框,至少需要选入两个,如选入“投入”、“产出”变量。

(3)在Correlation Coefficients复选框中选择需要计算的相关系数。主要有:Pearson复选框:选择进行积距相关分析,即最常用的参数相关分析;Kendall's tau-b复选框:计算Kendall's等级相关系数;Spearman复选框:计算Spearman 相关系数,即最常用的非参数相关分析(秩相关)。

(4)Test of Significance单选框用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,系统默认双侧检验。

(5)Flag significant correlations用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时P<0.05的系数值旁会标记一个星号,P<0.01的则标记两个星号。

(6)单击Options按钮,弹出Options对话框,选择需要计算的描述统计量和统计分析,如图8所示。

图8 两变量相关分析的Options子对话框

在Statistics复选框中定义各变量输出的描述统计量。Means and standard deviations选项表示每个变量的样本均值和标准差;Cross-product deviations and covariances选项表示各对变量的离差平方和、样本方差、两变量的叉积离差以及协方差阵。叉积离差为Pearson相关系数公式中的分子部分;协方差为叉积离差/(n-1)。

在Missing Values单选框中定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。

(7)单击“OK”按钮完成设置,提交运行。

6.结果解析

根据背景资料,利用表1中的数据,建立SPSS数据文件,分别将变量投入、产出选入Variables框中,并在Options子对话框选中Means and standard deviations 选项和Cross-product deviations and covariances选项,其他选择默认。结果如表2、表3所示。

6-1 表2为描述统计量,表3为相关分析结果。从表3中可以看出皮尔逊相关系数为0.759,即投入与产出的相关系数为0.759,双侧检验的P值为0.011,明显小于0.05,拒绝二者不相关的原假设。因此,我们可以得出结论:可以认为投入与产出之间存在正相关,当投入增加时,产出也会相应增加。

6-2 调用Bivariate过程命令时允许同时输入两个变量或两个以上变量,但系统输出的是变量间两两相关的相关系数。

二、偏相关分析:Partial

1.偏相关分析的含义

在实际问题中,两变量的相关关系往往还要受到其他因素的影响,这些影响有时候会使相关分析的结果变得不那么可靠。因此,引入了偏相关分析的方法。偏相关分析,也称净相关分析,是指在研究两个变量之间的线性相关关系时,将与这两个变量有联系的其他变量控制不变的统计方法。根据控制变量的个数,偏相关分析分为零阶偏相关分析、一阶偏相关分析、二阶偏相关分析等等。其中,零阶偏相关分析是指没有控制变量的相关分析,即一般的相关分析。一阶偏相关分析是指有一个控制变量的相关分析,二阶偏相关分析是指有两个控制变量的偏相关分析,其他高阶偏相关分析以此类推。

2.偏相关系数

进行偏相关分析时要用到偏相关系数。偏相关系数是在多元相关分析中说明当某个自变量在其他自变量固定不变时,分别同因变量线性相关程度的指标。偏相关系数的取值范围亦在-1~+1之间,其计算公式分别为:

当有一个控制变量为2x 时,变量1x 和y 之间的一阶偏相关系数为:

)

1)(1(22

2

12

212121x x yx x x yx yx x yx r

r r r r r ---=

? (6)

3.对偏相关系数的检验方法

在偏相关分析中,由于两个变量之间的相关系数是在固定(控制)了一个或几个变量后进行的,考虑到这种因素及抽样误差的影响,其检验统计量为:

2

12r

k n r t ---=

(7)

式中,r 是特定的偏相关系数;n 为观测值个数;k 为控制变量个数;2--k n 为自由度。

4.背景材料

某汽车制造商从某月中随机抽出10天的电力消耗量、温度、日产量等有关资料,数据如表4所示。结合多年管理经验,对电力消耗量、温度、日产量的关系做出相关分析。

表4 某汽车制造商的电力消耗量、温度、日产量等数据表

5.操作步骤

5-1 选择菜单命令“Analyze ”→“Correlate ”→“Partial ”,打开偏相关分析的对话框,如图9所示。

图9 偏相关分析窗口

5-2 选入需要进行偏相关分析的变量进入Variables框中,至少需要选入两个。

5-3 选择需要在偏相关分析时进行控制的协变量进入Controlling for框中,如果不选入,则进行的就是普通的相关分析。

5-4 在Test of Significance单选框中确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。

5-5 Display actual significance level复选框用于表示在结果中给出确切的P 值,一般选中。

5-6 单击Options按钮,弹出Options对话框,选择需要计算的描述统计量和统计分析。如图10所示。

图10 偏相关分析的Options子对话框

(1)Statistics复选框用于定义可选的描述统计量。其中,Means and standard deviations表示每个变量的样本均值和标准差;Zero-order correlations表示输出包括控制变量在内所有变量的相关矩阵。

(2)Missing Values单选框用于定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。系统默认为前者,以充分利用数据。

6.结果解析

这里我们选择电力消耗、温度作为待分析变量,把日产量作为控制变量,在Options子对话框中选中Means and standard deviations选项,其他选择系统默认。具体分析结果见表4、表5所示。

6-1 表5偏相关系数表中的结果表明,在控制了日产量变量后,电力消耗与温度之间的偏相关系数为0.815,概率P值为0.007<0.05,从而表明两者之间有高度的相关关系。

6-2 表6的输出结果是在分析时,除了原有的设置外,在Options子对话框中还选中Zero-order correlations选项的分析结果。表6中结果表明,在没有控制变量的情况下,电力消耗与温度之间的简单相关系数为0.838,概率P值为0.002<0.05,也表明两者之间有高度的相关关系。可见,偏相关分析的结论与简单相关分析的结论基本一致,但在有些时候,偏相关分析的结论与简单相关分析的结论可以不一致。

spss多元回归分析报告案例

企业管理 对居民消费率影响因素的探究 ---以湖北省为例 改革开放以来,我国经济始终保持着高速增长的趋势,三十多年间综合国力得到显著增强,但我国居民消费率一直偏低,甚至一直有下降的趋势。居民消费率的偏低必然会导致我国内需的不足,进而会影响我国经济的长期健康发展。 本模型以湖北省1995年-2010年数据为例,探究各因素对居民消费率的影响及多元关系。(注:计算我国居民的消费率,用居民的人均消费除以人均GDP,得到居民的消费率)。通常来说,影响居民消费率的因素是多方面的,如:居民总 收入,人均GDP,人口结构状况1(儿童抚养系数,老年抚养系数),居民消费价格指数增长率等因素。 1.人口年龄结构一种比较精准的描述是:儿童抚养系数(0-14岁人口与 15-64岁人口的比值)、老年抚养系数(65岁及以上人口与15-64岁人口的比值〉或总抚养系数(儿童和老年抚养系数之和)。0-14岁人口比例与65岁及以上人口比例可由《湖北省统计年鉴》查得。

一、计量经济模型分析 (一)、数据搜集 根据以上分析,本模型在影响居民消费率因素中引入6个解释变量。X1:居民总收入(亿元),X2:人口增长率(‰),X3:居民消费价格指数增长率,X4:少儿抚养系数,X5:老年抚养系数,X6:居民消费占收入比重(%)。 Y:消费率(%)X1:总收入 (亿元) X2:人口增 长率(‰) X3:居民消 费价格指 数增长率 X4:少儿抚 养系数 X5:老年抚 养系数 X6:居民消 费比重(%) 1995 1997 200039 2001 2002 2003 2004 2005 2006 2007 2008 2009

SPSS皮尔逊相关分析实例操作步骤

SPSS皮尔逊相关分析实例操作步骤 选题: 对某地29名13岁男童的身高(cm)、体重(kg),运用相关分析法来分析其身高与体重是否相关。 实验目的: 任何事物的存在都不是孤立的,而是相互联系、相互制约的。相关分析可对变量进行相关关系的分析,计算29名13岁男童的身高(cm)、体重(kg),以判断两个变量之间相互关系的密切程度。 实验变量: 编号Number,身高height(cm),体重weight(kg) 原始数据: 实验方法: 皮 尔 逊 相 关 分 析 法 软件: 操作过程与结果分析:

第一步:导入Excel 数据文件 1.open data document ——open data ——open ; 2. Opening excel data source ——OK. 第二步:分析身高(cm )与体重(kg )是否具有相关性 1. 在最上面菜单里面选中Analyze ——correlate ——bivariate ,首先使用Pearson ,two-tailed ,勾选flag significant correlations 进入如下界面: 2. 点击右侧options ,勾选Statistics ,默认Missing Values ,点击Continue 输出结果: 图为基本的描述性统计量的输 出表格,其中身高的均值(mean ) 为、标准差(standard deviation ) 为、样本容量(number of cases ) 为29;体重的均值为、标准差为、 样本容量为29。两者的平均值和标准差值得差距不显着。 图为相关分析结果表,从表中可以看出体重和身高之间的皮尔逊相关系数为,即 |r|=,表示体重与身高呈正相关关系,且两变量是显着相关的。另外, 两者之间不相关的双侧检验值为,图中的双星号标 记的相关系数是在显着性水平为以下,认为标记的相关系数是显着的,验证了两者显着相关的关系。所以可以得出结论:学生的体重与身高存在显着的 Descriptive Statistics Mean Std. Deviation N 身高(cm ) 29 体重(kg) 29 Correlations 身高(cm ) 体重(kg) 身高(cm ) Pearson Correlation 1 .719** Sig. (2-tailed) .000 Sum of Squares and Cross-products Covariance N 29 29 体重(kg) Pearson Correlation .719** 1 Sig. (2-tailed) .000 Sum of Squares and Cross-products Covariance N 29 29 **. Correlation is significant at the level (2-tailed).

SPSS线性回归分析案例

回归分析 实验内容:基于居民消费性支出与居民可支配收入的简单线性回归分析 【研究目的】 居民消费在社会经济的持续发展中有着重要的作用。影响各地区居民消费支出的因素很多,例如居民的收入水平、商品价格水平、收入分配状况、消费者偏好、家庭财产状况、消费信贷状况、消费者年龄构成、社会保障制度、风俗习惯等等。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的经济模型去研究。 【模型设定】 我们研究的对象是各地区居民消费的差异。由于各地区的城市与农村人口比例及经济结构有较大差异,现选用城镇居民消费进行比较。模型中被解释变量Y选定为“城市居民每人每年的平均消费支出”。从理论和经验分析,影响居民消费水平的最主要因素是居民的可支配收入,故可以选用“城市居民每人每年可支配收入”作为解释变量X,选取2010年截面数据。 1、实验数据 表1: (

2010年中国各地区城市居民人均年消费支出和可支配收入

} 数据来源:《中国统计年鉴》2010年 2、实验过程 作城市居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)的散点图,如图1:

表2 模型汇总b 模型… R R方调整R方标准估计的误差 1.965a.93 2.930 a.预测变量:(常量),可支配收入X(元)。 b.因变量:消费性支出Y(元) ~ 表3 相关性 消费性支出Y (元) 可支配收入X(元) Pearson相关 性消费性支出 Y(元) .965 从散点图可以看出居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)大体呈现为线性关系,所以建立如下线性模型:Y=a+bX

主成分分析案例

姓名:XXX 学号:XXXXXXX 专业:XXXX 用SPSS19软件对下列数据进行主成分分析: ……

一、相关性 通过对数据进行双变量相关分析,得到相关系数矩阵,见表1。 表1 淡化浓海水自然蒸发影响因素的相关性 由表1可知: 辐照、风速、湿度、水温、气温、浓度六个因素都与蒸发速率在0.01水平上显著相关。 分析:各变量之间存在着明显的相关关系,若直接将其纳入分析可能会得到因多元共线性影响的错误结论,因此需要通过主成份分析将数据所携带的信息进行浓缩处理。 二、KMO和球形Bartlett检验 KMO和球形Bartlett检验是对主成分分析的适用性进行检验。 KMO检验可以检查各变量之间的偏相关性,取值范围是0~1。KMO的结果越接近1,表示变量之间的偏相关性越好,那么进行主成分分析的效果就会越好。实际分析时,KMO统计量大于0.7时,效果就比较理想;若当KMO统计量小于0.5时,就不适于选用主成分分析法。 Bartlett球形检验是用来判断相关矩阵是否为单位矩阵,在主成分分析中,若拒绝各变量独立的原假设,则说明可以做主成分分析,若不拒绝原假设,则说明这些变量可能独立提供一些信息,不适合做主成分分析。

由表2可知: 1、KMO=0.631<0.7,表明变量之间没有特别完美的信息的重叠度,主成分分析得到的模型又可能不是非常完善,但仍然值得实验。 2、显著性小于0.05,则应拒绝假设,即变量间具有较强的相关性。 三、公因子方差 公因子方差表示变量共同度。表示各变量中所携带的原始信息能被提取出的主成分所体现的程度。 由表3可知: 几乎所有变量共同度都达到了75%,可认为这几个提取出的主成分对各个变量的阐释能力比较强。 四、解释的总方差 解释的总方差给出了各因素的方差贡献率和累计贡献率。

典型相关分析报告SPSS例析

典型相关分析 典型相关分析(Canonical correlation )又称规则相关分析,用以分析两组变量间关系的一种方法;两个变量组均包含多个变量,所以简单相关和多元回归的解惑都是规则相关的特例。典型相关将各组变量作为整体对待,描述的是两个变量组之间整体的相关, 而不是 两个变量组个别变量之间的相关。 典型相关与主成分相关有类似, 不过主成分考虑的是一组变量,而典型相关考虑的是两 组变量间的关系,有学者将规则相关视为双管的主成分分析;因为它主要在寻找一组变量的 成分使之与另一组的成分具有最大的线性关系。 典型相关模型的基本假设: 两组变量间是线性关系, 每对典型变量之间是线性关系,每 个典型变量与本组变量之间也是线性关系;典型相关还要求各组内变量间不能有高度的复共 线性。典型相关两组变量地位相等,如有隐含的因果关系,可令一组为自变量,另一组为因 变量。 典型相关会找出一组变量的线性组合 * *= i i j j X a x Y b y 与,称为典型变量;以 使两个典型变量之间所能获得相关系数达到最大,这一相关系数称为典型相关系数。 i a 和j b 称为典型系数。如果对变量进行标准化后再进行上述操作,得到的是标准化的典型系数。 典型变量的性质 每个典型变量智慧与对应的另一组典型变量相关,而不与其他典型变量相关; 原来所有 变量的总方差通过典型变量而成为几个相互独立的维度。一个典型相关系数只是两个典型变 量之间的相关,不能代表两个变量组的相关;各对典型变量构成的多维典型相关, 共同代表 两组变量间的整体相关。 典型负荷系数和交叉负荷系数典型负荷系数也称结构相关系数, 指的是一个典型变量与本组所有变量的简单相关系数,

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 第一,将EXCEL中的原始数据导入到SPSS软件中; 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。

数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性,可以举个简单的例子,一个百分制的变量与一个5分值的变量在一起怎么比较?只有通过数据标准化,都把它们标准到同一个标准时才具有可比性,一般标准化采用的是Z标准化,即均值为0,方差为1,当然也有其他标准化,比如0--1标准化等等,可根据自己的研究目的进行选择,这里介绍怎么进行数据的Z标准化。 所的结论: 标准化后的所有指标数据。 注意: SPSS 在调用Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但SPSS 并不直接给出标准化后的数据, 如需要得到标准化数据, 则需调用Descriptives 过程进行计算。 factor过程对数据进行因子分析(指标之间的相关性判定略)。 【1】“分析”|“降维”|“因子分析”选项卡,将要进行分析的变量选入“变量”列表;

【2】设置“描述”,勾选“原始分析结果”和“KMO与Bartlett球形度检验”复选框; 【3】设置“抽取”,勾选“碎石图”复选框; 【4】设置“旋转”,勾选“最大方差法”复选框; 【5】设置“得分”,勾选“保存为变量”和“因子得分系数”复选框; 【6】查看分析结果。 所做工作: a.查看KMO和Bartlett 的检验 KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析; Bartlett 球度度检验的Sig值越小于显著水平0.05,越说明变量之间存在相关关系。 所的结论: 符合因子分析的条件,可以进行因子分析,并进一步完成主成分分析。 注意: 1.KMO(Kaiser-Meyer-Olkin) KMO统计量是取值在0和1之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。 Kaiser给出了常用的kmo度量标准: 0.9以上表示非常适合;0.8表示适合;0.7表示一般; 0.6表示不太适合;0.5以下表示极不适合。 2.Bartlett 球度检验: 巴特利特球度检验的统计量是根据相关系数矩阵的行列式得到的,如果该值较大,且其对应的相伴概率值小于用户心中的显著性水平,那么应该拒绝零假设,认为相关系数矩阵不可能是单位阵,即原始变量之间存在相关性,适合于做主成份分析;相反,如果该统计量比较小,且其相对应的相伴概率大于显著性水平,则不能拒绝零假设,认为相关系数矩阵可能是单位阵,不宜于做因子分析。 Bartlett 球度检验的原假设为相关系数矩阵为单位矩阵,Sig值为0.001小于显著水平0.05,因此拒绝原假设,说明变量之间存在相关关系,适合做因子分析。 所做工作: b. 全部解释方差或者解释的总方差(Total Variance Explained)

SPSS相关分析案例讲解

相关分析 一、两个变量的相关分析:Bivariate 1.相关系数的含义 相关分析是研究变量间密切程度的一种常用统计方法。相关系数是描述相关关系强弱程度和方向的统计量,通常用r 表示。 ①相关系数的取值范围在-1和+1之间,即:–1≤r ≤ 1。 ②计算结果,若r 为正,则表明两变量为正相关;若r 为负,则表明两变量为负相关。 ③相关系数r 的数值越接近于1(–1或+1),表示相关系数越强;越接近于0,表示相关系数越弱。如果r=1或–1,则表示两个现象完全直线性相关。如果=0,则表示两个现象完全不相关(不是直线相关)。 ④3.0

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 公司销售净利率(X1)资产净利率(X2)净资产收益率(X3)销售毛利率(X4) 歌华有线五粮液用友软件太太药业浙江阳光烟台万华方正科技红河光明贵州茅台中铁二局红星发展伊利股份青岛海尔湖北宜化雅戈尔福建南纸43.31 17.11 21.11 29.55 11.00 17.63 2.73 29.11 20.29 3.99 22.65 4.43 5.40 7.06 19.82 7.26 7.39 12.13 6.03 8.62 8.41 13.86 4.22 5.44 9.48 4.64 11.13 7.30 8.90 2.79 10.53 2.99 8.73 17.29 7.00 10.13 11.83 15.41 17.16 6.09 12.97 9.35 14.3 14.36 12.53 5.24 18.55 6.99 54.89 44.25 89.37 73 25.22 36.44 9.96 56.26 82.23 13.04 50.51 29.04 65.5 19.79 42.04 22.72 第一,将EXCEL中的原始数据导入到SPSS软件中; 注意: 导入Spss的数据不能出现空缺的现象,如出现可用0补齐。 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。 所做工作: a. 原始数据的标准化处理

SPSS统计分析分析案例

SPSS统计分析案例 一、我国城镇居民现状 近年来,我国宏观经济形势发生了重大变化,经济发展速度加快,居民收入稳定增加,在国家连续出台住房、教育、医疗等各项改革措施和实施“刺激消费、扩大内需、拉动经济增长”经济政策的影响下,全国居民的消费支出也强劲增长,消费结构发生了显著变化,消费结构不合理现象得到了一定程度的改善。本文通过相关数据分析总结出了我国城镇居民消费呈现富裕型、娱乐教育文化服务类消费攀升的趋势特点。 二、我国居民消费结构的横向分析 第一,食品消费支出比重随收入增加呈现出明显的下降趋势,这与恩格尔定律的表述一致。但最低收入户与最高收入恩格尔系数相差太过悬殊,城镇最低收入户刚刚解决了温饱问题,而最高收入户的生活水平按照恩格尔系数的评价标准早已达到了富裕型,甚至接近最富裕型。第二,衣着消费支出比重随收入增加缓慢上升,到高收入户又有所下降,但各收入组支出比重相差不大。衣着支出比重没有更多的递增且最高收入户的支出比重有所下降,这些都符合恩格尔定律关于衣着消费的引申。随着收入的增加,衣着支出比重呈现先上升后下降的走势。事实上,在当前的价格水平和服装业的发展水平下,城镇居民的穿着是有一定限度的,而且居民对衣着的需求也不是无限膨胀的,即使收入水平继续提高,也不需要将更大的比例用于购买服饰用品了。第三,家庭设备用品及服务、交通通讯、娱乐教育文化服务和杂项商品与服务的支出比重呈逐组上升趋势,说明居民的生活水平随收入的增加而不断提高和改善。第四,医疗保健支出比重随收入水平提高呈现一种两端高、中间低的走势。这是因为医疗保健支出作为生活必须支出,不论居民生活水平高低,都要将一定比例的收入用于维持自身健康,而且由于医疗制度改革,加重了个人负担的同时,也减小了旧制度可能造成的不同行业、不同体制下居民医疗保健支出的差别,因而不同收入等级的居民在医疗保健支出比重上差别不大。第五,居住支出比重基本上呈先上升后下降的趋势,这与我国居民消费能级不断提升,住宅商品正在越来越成为城镇居民关注的热点是相吻合的,同时与恩格尔定律的引申也是一致的。可以看出,城镇居民的消费状况虽然受价格水平、消费习惯、消费环境、消费心理预期等诸多因素的影响,但归根结底仍取决于居民的收入水平,要提高城镇居民的消费支出,必须增加居民收入。因此,采取切实有效的措施增加城镇居民的可支配收入,不仅可以提高全国城镇居民的总体消费水平,促进消费结构向着更加健康、合理的方向发展,而且在启动内需,促进我国的经济发展方面有着重大的现实意义。 三、我国居民消费结构的纵向分析 进入21世纪以来,随着经济体制改革的深入,国民经济的迅速发展,我国城乡居民的消费水平显著提高,居民的各项支出显著增加。随着消费水平的提高,我国城乡居民消费从注重量的满足到追求质的提高,从以衣食消费为主的生存型到追求生活质量的享受型、发展型,消费

spss相关分析案例多因素方差分析

本次实验采用2005年东部、中部和西部各地区省份城镇居民月平均消费类型划分的数据(课本139页),将东部、中部和西部看作三个不同总体,31个数据分别来自于这三个总体。本人对这三个不同地区的城镇居民月平均消费水平进行比较,并选取人均粮食支出、副食支出、烟酒及饮料支出、其他副食支出、衣着支出、日用杂品支出、水电燃料支出和其他非商品支出八个指标来衡量城镇居民月平均消费情况。 在进行比较分析之前,首先对个数据是否服从多元正态分布进行检验,输出结果为: 表一 如表一,因为该例中样本数n=31<2000,所以此处选用Shapiro-Wilk统计量。由正态性检验结果的sig.值可以看到,人均粮食支出、烟酒及饮料支出、其他副食支出、水电燃料支出和其他非商品支出均明显不遵从正态分布(Sig.值小于,拒绝服从正态分布的原假设),因此,在下面分析中,只对人均副食支出、衣着支出和日用杂品支出三项指标进行比较,并认为这三个变量组成的向量都遵从正态分布,并对城镇居民月平均消费状况做出近似的度量。另外,正态性的检验还可以通过Q-Q图来实现,此时应判别数据点是否与已知直线拟合得好。如果数据点均落在直线附近,说明拟合得好,服从正态分布,反之,不服从。具体情况这里

不再赘述。 下面进行多因素方差分析: 一、多变量检验 表二 由地区一栏的(即第二栏)所列几个统计量的Sig.值可以看到,无论从那个统计量来看,三个地区的城镇居民月平均消费水平都是有显著差别的(Sig.值小于,拒绝地区取值不同,对Y,即城镇居民月平均消费水平的取值没有显著影响的原假设)。 二、主体间效应检验

如表三,可以看到三个指标地区一栏的(即第三栏)Sig.值分别为、、,说明三个地区在人均衣着支出指标上没有明显的差别(Sig.值大于,不拒绝地区取值不同,对指标的取值没有显著影响的原假设),反之,而在人均副食支出和日用杂品支出指标上有显著差别。 三、多重比较

SPSS进行主成分分析

实验七、利用SPSS进行主成分分析 【例子】以全国31个省市的8项经济指标为例,进行主成分分析。 第一步:录入或调入数据(图1)。 图1 原始数据(未经标准化) 第二步:打开“因子分析”对话框。 沿着主菜单的“Analyze→Data Reduction→Factor ”的路径(图2)打开因子分析选项框(图3)。 图2 打开因子分析对话框的路径

图3 因子分析选项框 第三步:选项设置。 首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入变量(Variables)栏中(图3)。在本例中,全部8个变量都要用上,故全部调入(图4)。因无特殊需要,故不必理会“Value ”栏。下面逐项设置。 图4将变量移到变量栏以后 ⒈设置Descriptives描述选项。 单击Descriptives按钮(图4),弹出Descriptives对话框(图5)。

图5 描述选项框 在Stat is tic s 统计 栏中选中U niva riate d escript ives 复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考);选中Initial soluti on 复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。 在C orrel ation M atri x栏中,选中Coe fficien ts 复选项,则会给出原始变量的相关系数矩阵(分析时可参考);选中Deter minant 复选项,则会给出相关系数矩阵的行列式,如果希望在E xc el中对某些计算过程进行了解,可选此项,否则用途不大。其它复选项一般不用,但在特殊情况下可以用到(本例不选)。 设置完成以后,单击Cont inue 按钮完成设置(图5)。 ⒉ 设置Extra ction 选项。 打开Ext raction 对话框(图6)。因子提取方法主要有7种,在Method 栏中可以看到,系统默认的提取方法是主成分(Pr in ci pa l Compon en ts),因此对此栏不作变动,就是认可了主成分分析方法。 在Ana lyze 栏中,选中Correlatio n ma trix 复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中Covar iance matri x复选项,则因子分析基于数据的协方差矩阵进行分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。 在D isplay 栏中,选中U nrotated factor s olu ti on(非旋转因子解)复选项,则在分析结果中给出未经旋转的因子提取结果。对于主成分分析而言,这一项选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,以便对比。 选中Scree P lo t(“山麓”图),则在分析结果中给出特征根按大小分布的折线图(形如山麓截面,故得名),以便我们直观地判定因子的提取数量是否准确。 在Extract 栏中,有两种方法可以决定提取主成分(因子)的数目。一是根据特征根(Eig envalues )的数值,系统默认的是1=c λ。我们知道,在主成分分析中,主成分得分的方差就是对应的特征根数值。如果默认1=c λ,则所有方差大于等于1的主成分将被保留,其余舍弃。如果觉得最后选取的主成分数量不足,可以将c λ值降低,例如取 9.0=c λ;如果认为最后的提取的主成分数量偏多,则可以提高c λ值,例如取1.1=c λ。 主成分数目是否合适,要在进行一轮分析以后才能肯定。因此,特征根数值的设定,要在反复试验以后才能决定。一般而言,在初次分析时,最好降低特征根的临界值(如取

应用统计学因子分析与主成分分析案例解析_SPSS操作分析

因子分析与主成分分析 一、问题概述 现希望对30个省市自治区经济发展基本情况的八项指标进行分析。具体采用的指标只有:GDP、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值。这是一个综合分析问题,八项指标较多,用主成分分析法进行综合。 二、数据处理与分析 1.因子分析 打开数据后,在SPSS中进行因子分析的步骤如下: 选择“分析---降维---因子分析”,在弹出的对话框里 (1)描述---系数、KMO与Bartlett的球形度检验 (2)抽取---碎石图、未旋转的因子解 (3)旋转---最大方差法、旋转解、载荷图 (4)得分---保存为变量、显示因子得分系数矩阵 (5)选项---按大小排序 点击确定得到如下各图: 图3-1 图3-2 KMO 和 Bartlett 的检验 取样足够度的 Kaiser-Meyer-Olkin 度量。.620 Bartlett 的球形度检验近似卡方231.285 df 28 Sig. .000 图3-3 公因子方差

图3-6 成份矩阵a

图3-9

(2)因子模型中各统计量的意义 A)因子载荷错误!未找到引用源。:因子载荷错误!未找到引用源。为第i个变量在第j个因子上的载荷,实际上就是错误!未找到引用源。与错误!未找到引用源。的相关系数,表示变量错误!未找到引用源。依赖因子错误!未找到引用源。的程度,反应了第i个变量错误!未找到引用源。对于第j个因子错误!未找到引用源。的重要性。 B)变量错误!未找到引用源。的变量共同度:k个公因子对第i个变量方差的贡献,也称为公因子方差比,记为错误!未找到引用源。,公式为:错误!未找到引用源。=错误!未找到引用源。(j=1,2,….,k)

SPSS相关分析实验报告精选

本科教学实验报告 (实验)课程名称:数据分析技术系列实验

实验报告 学生姓名: 一、实验室名称: 二、实验项目名称:相关分析 三、实验原理 相关关系是不完全确定的随机关系。在相关关系的情况下,当一个或几个相互联系的变量取一定值得时候,与之相应的另一变量的值虽然不确定,但它仍然按照某种规律在一定的范围内变化。 按照数据度量的尺度不同,相关分析的方法也不同,连续变量之间的相关性常用Pearson简单相关系数测定;定序变量的相关系数常用Spearman秩相关系数和Kendall 秩相关系数测定;定类变量的相关分析要使用列连表分析法。 四、实验目的 理解相关分析的基本原理,掌握在SPSS软件中相关分析的主要参数设置及其含义,掌握SPSS软件分析结果的含义及其分析。 五、实验内容及步骤 实验内容:以雇员表为例,共有474条数据,运用相关分析方法对变量间的相关关系进行分析。 1)分析性别与工资之间是否存在相关关系。 2)分析教育程度与工资之间是否存在相关关系。 实验要求:掌握相关分析方法的计算思路及其在SPSS环境下的操作方法,掌握输出结果的解释。 1.分析性别与工资之间是否存在相关关系。 分析:性别属于定类变量,是离散值,因使用卡方检验。 Step1.操作为Analyze\DescriptiveStatistics\Crosstabs Step2.将性别(Gender)和收入(CurrentSalary)分别移入Rows列表框和Columns 列表框。

Step3.单击Statistics按钮,在弹出的子对话框中选中默认的Chi-square,进行卡方检验。退回到主对话框,单击ok。 2.分析教育程度与工资之间是否存在相关关系。 分析:教育程度为定序变量,工资为连续变量,可使用Spearman和Kendall秩相关系数检验。 Step1.用散点图初步判断二变量的相关性,操作为Graphs/LegacyDialogs/Scatter,选择SimpleScatter,教育程度为自变量,工资为因变量,做散点图。 散点图结果如图示,二者存在线性相关关系。只有线性相关的关系确定后才能继续进行下一步分析。因此,在进行相关分析之前的预分析过程也是十分重要的。 Step2.两变量相关分析,操作为Analyze/Correlate/Bivariate,选择Kendall和Spearman 相关系数。 六、实验器材(设备、元器件): 计算机、打印机、硒鼓、碳粉、纸张 七、实验数据及结果分析 1.分析性别与工资之间是否存在相关关系。 卡方检验结果为 显着性水平为,即至少有%的把握认为性别和工资之间存在显着的相关系。

【精品管理学】spss因子分析案例 共(13页)

[例11-1]下表资料为25名健康人的7项生化检验结果,7项生化检验指标依次命名为X1至X7,请对该资料进行因子分析。

图 ???对话框(图框。 图 钮返回 图11.3?描述性指标选择对话框 ???点击Extraction...钮,弹出FactorAnalysis:Extraction对话框(图11.4),系统提供如下因子提取方法: 图11.4?因子提取方法选择对话框 ???Principalcomponents:主成分分析法;

???Unweightedleastsquares:未加权最小平方法; ???Generalizedleastsquares:综合最小平方法; ???Maximumlikelihood:极大似然估计法; ???Principalaxisfactoring:主轴因子法; ???Alphafactoring:α因子法; ???对话框。 ???5种因图 ???旋转的目的是为了获得简单结构,以帮助我们解释因子。本例选正交旋转法,之后点击Continue钮返回FactorAnalysis对话框。 ???点击Scores...钮,弹出弹出FactorAnalysis:Scores对话框(图11.6),系统提供3种估计因子得分系数的方法,本例选Regression(回归因子得分),之后点击Continue钮返回FactorAnalysis对话框,再点击OK钮即完成分析。

图11.6?估计因子分方法对话框? ?11.2.3?结果解释 ??在输出结果窗口中将看到如下统计数据: ??系统首先输出各变量的均数(Mean)与标准差(StdDev),并显示共有25例观察单位进入分析;接着输出相关系数矩阵(CorrelationMatrix),经Bartlett检验表明:Bartlett值=326.28484,P<0.0001,即相关矩阵不是一个单位矩阵,故考虑进行因子分析。 好。今KMO值 NumberofCases?=?????25 CorrelationMatrix: X1???????X2???????X3???????X4???????X5???????X6???????X7 X1????????1.00000 X2?????????.58026??1.00000

SPSS主成分分析

主成分分析方法运用案例 1.《自然因素与社会经济因素对耕地质量贡献率研究》 选取了卧龙区为研究分析对象,以 1: 50000土地利用现状图为基础, 通过图形叠加添加土壤图、地貌类型图, 形成2981个评价单元。 (1)选定选取耕地质量的自然因素和社会经济因素。自然因素:土壤质地( X1 )、pH 值(Ⅹ2 )、有机质含量(Ⅹ 3 )、坡度(Ⅹ 4 )、障碍层次(Ⅹ5 )、砾石含量( X6 )、土层厚度(Ⅹ7 )、海拔(Ⅹ 8 ) 社会经济因素:灌溉保证率(Y1 )、田块分散度( Y2 )、地面平整度( Y3 )、中心城镇影响度( Y4 )、外部交通通达度( Y5 )、区域内路网密度(Y6 )、田间道路状况( Y7 ) (2)利用spss的主成分分析功能剔除在主成分中不呈显著性相关关系的因子。 自然因素:剔除了Ⅹ2 与Ⅹ8。剩下影响耕地质量的自然因子6个, 为土壤质地、有机质含量、坡度、障碍层次、砾石含量、土层厚度; 社会经济因素:剔除了 Y3 与Y7 。剩下影响耕地质量的社会经济因子5个, 为灌溉保证率、田块分散度、中心城镇影响度、外部交通通达度、区域内路网密度。 (3)对评价因素进行量化。

区域内路网密度分值: (4)采用特尔菲法确定各个因子的权重。 (5)计算评价单元的自然因素分值和社会经济因素分值。 (6)确定自然因素与社会经济因素贡献率。 2.《中国循环经济发展的空间分异与优化》 本文采取了主成分分析做循环经济发展水平的综合评价。(1)选取循环经济发展水平的因素

(2)采取spss软件进行主成分分析,得出了9个累积贡献率大于85%的主成分指标。(3)确定各主成分的贡献率,即权重。 (4)进行加权求和法计算出各地区循环经济发展能力综合分值。 聚类分析方法运用案例 1.陕西省县域经济发展水平聚类分析 (1)选取聚类的指标

spss主成分分析案例研究

多元统计分析实验报告

实验三、主成分分析 一、实验名称:主成分分析 二、实验目的:通过本实验掌握使用SPSS进行主成分分析 三、主成分分析步骤,我们归纳如下: 1. 根据研究问题选取初始分析变量; 2. 根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分; 3. 求协差阵或相关阵的特征根与相应标准特征向量; 4. 判断是否存在明显的多重共线性,若存在,则回到第一步; 5. 得到主成分的表达式并确定主成分个数,选取主成分; 6. 结合主成分对研究问题进行分析并深入研究。 四、分析结果: 搜集到有关大学生创业的调查问卷,问卷达到206份,具体数据附表1所示,为了从这些(创业目的、创业类型、创业领域的根据、创业的优势、创业地区、创业方式、)变量中提取主成分,先从做这些变量的相关矩阵: 相关矩阵 创业目的创业类型创业领域的根 据 创业的优势创业方式创业地区 相关创业目的 1.000 .031 .199 .157 .091 -.082 创业类型.031 1.000 -.037 .018 -.071 .077 创业领域的根据.199 -.037 1.000 .102 .128 -.099 创业的劣势.157 .018 .102 1.000 .083 .018 创业方式.091 -.071 .128 .083 1.000 -.127 创业地区-.082 .077 -.099 .018 -.127 1.000 Sig.(单侧)创业目的.272 .000 .001 .037 .054 创业类型.000 .000 .360 .081 .065 创业领域的根据.000 .235 .023 .006 .027 创业的劣势.001 .360 .023 .051 .361 创业方式.037 .081 .006 .051 .006 创业地区.054 .065 .027 .361 .006

SPSS软件进行主成分分析的应用例子修订版

S P S S软件进行主成分分析的应用例子 集团标准化小组:[VVOPPT-JOPP28-JPPTL98-LOPPNN]

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 1. 第一,将EXCEL中的原始数据导入到SPSS软件中; 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。 进行因子分析(指标之间的相关性判定略)。 【1】“分析”|“降维”|“因子分析”选项卡,将要进行分析的变量选入“变量”列表; 【2】设置“描述”,勾选“原始分析结果”和“KMO与Bartlett球形度检验”复选框;

【3】设置“抽取”,勾选“碎石图”复选框; 【4】设置“旋转”,勾选“最大方差法”复选框; 【5】设置“得分”,勾选“保存为变量”和“因子得分系数”复选框;【6】查看分析结果。

【1】将初始因子载荷矩阵中的两列数据输入( 可用复制粘贴的方法) 到数据编辑窗口( 为 中输入“F 1”,然后在数字表达式中输入“V 1 /SQR(λ 1 )”[注:λ 1 =1.897], 即可得到特征向量F 1 ; 【3】然后利用“转换”|“计算变量”, 打开“计算变量”对话框,在“目标变量”文本框 中输入“F 2”,然后在数字表达式中输入“V 2 /SQR(λ 2 )”[注:λ 1 =1.550], 即可得到特征向量F 2 ; 【4】最后得到特征向量矩阵(主成分表达式的系数)。 【1】将得到的特征向量与标准化后的数据相乘, 然后就可以得出主成分函数的表达式; 中输入“Z 1 ”,然后在数字表达式中输入“0.531* Z (销售净利率)+0.594*Z (资产净利 率)+0.261*Z (净资产收益率)+0.546*Z (销售毛利率)” [注:F 1 =0.531,0.594,0.261,0.546], 即可得到特征向量Z 1 ; 【3】同理[注:F 2=-0.412,0.404,0.720,-0.383], 可得到特征向量Z 2 ; 【4】求出16家上市公司的主成分值。

SPSS分析报告实例

SPSS与数据统计分析期末论文影响学生对学校服务满意程度的因素分析

一、数据来源 本次数据主要来源自本校同学,调查了同学们年级、性别、助学金申请情况、生源所在地、学院、毕业学校、游历情况、家庭情况、升高、体重、近视程度、学习时间、经济条件、兴趣、对学校各方面的评价、与对学校总评价以及建议等共41条信息,共收集数据样本724条。我们将运用SPSS,对变量进行频数分析、样本T检验、相关分析等手段,旨在了解同学们对学校提供的满意程度与什么因素有关。 二、频数分析 可靠性统计 克隆巴赫 Alpha 项数 .985 62 对全体数值进行可信度分析

本次数据共计724条,首先从可靠性统计来看,alpha值为0.985,即全体数据绝大部分是可靠的,我们可以在原始数据的基础上进行分析与处理。 其中,按年级来看,绝大多数为大二学生填写(占了总人数的67.13%),之后分别依次为大二(23.76%)、大四(4.14%)、大一(4.97%)。而从专业来看,占据了数据绝大多数样本所在的学院为机械、材料、经管、计通。 三、数据预处理 拿到这份诸多同学填写的问卷之后,我们首先应对一些数据进行处理,对于数据的缺失值处理,由于我们对本份调查的分析重点方面是关于学生的经济情况的,因此对于确实的部分数据,升高、体重、近视度数、感兴趣的事等无关项我们均不需要进行缺失值的处理,而我们可能重点关注的每月家里给的钱、每月收入以及每月支出,由于其具有较强主观性,如果强行处理缺失值反而会破坏数据的完整性,因此我们筛去未填写的数据,将剩余数据当作新的样本进行分析。 而对于一些关键的数据,我们需要做一些必要的预处理,例如一些调查项,我们希望得到数值型变量,但是填写时是字符型变量,我们就应该新建一个数字型变量并将数据复制,以便后续分析。同时一些与我们分析相关的缺省值,一些明显可以看出的虚假信息,我们都需要先进行处理。而具体预处理需要怎么做,这将会在其后具体分析时具体给出。

SPSS相关分析案例讲解

精心整理 相关分析 一、两个变量的相关分析:Bivariate 1.相关系数的含义 相关分析是研究变量间密切程度的一种常用统计方法。相关系数是描述相关关系强弱程度和方向的统计量,通常用r 表示。 2∑∑===--= n i n i i i i i i y y x x r 1 1 2 21 )()((1) (1)式是样本的相关系数。计算皮尔逊相关系数的数据要求:变量都是服从正态分布,相互独立的连续数据;两个变量在散点图上有线性相关趋势;样本容量30≥n 。 (2)斯皮尔曼(Spearman )等级相关系数 Spearman 相关系数又称秩相关系数,是用来测度两个定序数据之间的线性相关程度的指标。

当两组变量值以等级次序表示时,可以用斯皮尔曼等级相关系数反映变量间的关系密切程度。它是根据数据的秩而不是原始数据来计算相关系数的,其计算过程包括:对连续数据的排秩、对离散数据的排序,利用每对数据等级的差额及差额平方,通过公式计算得到相关系数。其计算公式为: () 1612 2 -- =∑n n d r R (2) (2)式中,R r 为等级相关系数;d 为每对数据等级之差;n 为样本容量。 斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的 样本简单相关系数的检验方法为: 当原假设0H :0=ρ,50≥n 时,检验统计量为: 2 11 r n r Z --= (4) 当原假设0H :0=ρ,50

2 12r n r t --=()2-=n df (5) 式中,r 为简单相关系数;n 为观测值个数(或样本容量)。 4.背景材料 设有10个厂家,序号为1,2,…,10,各厂的投入成本记为x ,所得产出记为y 。各厂家的投入和产出如表7-18-1所示,根据这些数据,可以认为投入和产出之间存在相关性吗? 表110个厂家的投入产出单位:万元 X-Axis 各点标以不同的颜色(或形状)。该项可以省略。 把标记变量指定到LabelCasesby 框中,表示将标记变量的各变量值标记在散点图的旁边。该项可以省略。 从左侧变量列表框中选择变量到Panelby 框中作为分类变量,可以使该变量作为行(Rows )或列(Columns )将数据分成不同的组,便于比较。该项可以省略。 选择UseChartSpecificationsFrom 选项,可以选择散点图的文件模板,单击“File ”可以选择指定的文件。

相关文档