文档库 最新最全的文档下载
当前位置:文档库 › SPSS操作方法:聚类分析09

SPSS操作方法:聚类分析09

SPSS操作方法:聚类分析09
SPSS操作方法:聚类分析09

实验指导之一

聚类分析的SPSS操作方法

系统聚类法

实验例城镇居民消费水平通常用下表中的八项指标来描述。八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类。

实验数据表 2001年30个省。市,自治区城镇居民月平均消费数据

x1人均粮食支出(元/人) x5人均衣着商品支出(元/人)

x2人均副食支出(元/人) x6人均日用品支出(元/人)

x3人均烟、酒、茶支出(元/人) x7人均燃料支出(元/人)

x4人均其他副食支出(元/人) x8人均非商品支出(元/人)

系统聚类法的SPSS操作:

1. 从数据编辑窗口点击Analyze →Classify →Hierachical Cluster , (见图1)

图1 系统聚类法

打开层次聚类法对话如图2。

图2 系统聚类法对话框

选择需要进行聚类分析的变量进入Variable框内后,在Cluster栏中选择聚类类型,SPSS有两种层次聚类方法:

Cases 对样品聚类(Q型;系统默认),

Variable 对指标变量聚类(R型),本例选择。

在Display栏中选择默认的输出项。

2. 点击Statistics按钮,打开对话框如图

3.

图3 Statistics对话框

?Agglomeration schedule输出凝聚状态表(聚类进度表);本例选择。

?Ploximity matrix 输出个体间的距离矩阵,本例选择。

?Cluster Membership栏中显示每个观测量被分派到的类。

None 不输出。本例选择。

Simple solution 指定分类数,并输出样本所属类,单一解。

Renge of solution 指定输出从m到n类的各样本所属类。多个解。

选好后返回主对话框。

3. 单击Method按钮,打开对话框如图4-1.

?Cluster Method:选择聚类方法:

SPSS中提供7种聚类方法,分别是:类间平均,类内平均,最短距离,最长距离,重心法,中值法,最小平方和法。本例选择类间平均。

?Measure栏:对距离的测度方法选择

SPSS中提供了三种类型:Interval等间距度量的变量(连续型),Counts 计数型变量(离散型)和Binary二值变量。

Interval等间隔测度的变量方法包括:

Euclidean distance欧氏距离;

Squared Euclidean distance欧氏平方距离;

Cosine夹角余弦(R 型聚类);

Pearson Correlation皮尔逊相关系数距离(R 型聚类),本例选择此项。

Chebychev契比雪夫距离;

block距离;

Minkowski明氏距离;

Customized用户自定义距离--即变量绝对值的第p 次幂之和的第r 次根。p 与r 由用户指定。

图4-1 Method对话框

Transform Values栏,选择消除数量级差的方法(见图4-2),依次是:None不作处理(系统默认);本例选择此项。

Z scores标准化处理;

Range -1 to 1 各变量值除全距;

Range 0 to 1各变量值减最小值后除全距;

Maximum magnitude of 1各变量值除最大值;

Mean of 1各变量值除以均值;

Standard deviation of 1各变量值除以标准差。

图4-2 Method对话框

4. 单击Plots按钮,打开对话框如图

5.

图5 Plots对话框

?Dendrogram 表示输出树形图,本例选择此项。

?Icicle表示输出冰柱图。其中,

All clusters表示输出聚类分析每个阶段的冰柱图;本例选择此项。

Specified range of cluster 表示只输出某个阶段的冰柱图,输入从第几步开始到第几步结束,中间间隔几步。

?Orientationk 栏中指定如何显示冰挂图:

Vertical纵向显示,本例选择此项。

Horizontal 横向显示。

图6 Save New Variables对话框

5. 单击Save按钮,打开Save New Variables对话框,如图6所示。

选择是否将聚类的结果以变量形式保存在数据文件中。变量名为:clun_m,其中n表示类数,m表示第m次分析。

?Cluster Membership栏

None 不输出

Simple solution 指定分类数,并输出样本所属类。单一变量。

Renge of solution 指定输出从m到n类的各样本所属类。多个变量。

当选择结束后,在主对话框中点击OK,可得下面的输出表和图。

Proximity Matrix 两两变量间距离矩阵(相关系数矩阵)

Case

Matrix File Input

人均粮食支出(元/

人) 人均副食支出(元/人)

人均烟、酒、茶支出(元/人)

人均其他副食支出(元/人)

人均衣着商品支出(元/人)

人均日

用品支出(元/人) 人均燃料支出(元/人)

人均非商品支出(元/人)

人均粮食支出(元/人) .000 .334 -.055 -.061 -.289 .197 .349 .319 人均副食支出(元/人)

.334 .000 -.023 .399 -.156 .716 .414 .835 人均烟、酒、茶支出(元/人) -.055 -.023 .000 .533 .497 .033 -.139 -.258 人均其他副食支出(元/人)

-.061 .399 .533 .000 .698 .478 -.171 .313 人均衣着商品支出(元/人) -.289 -.156 .497 .698 .000 .284 -.208 -.081 人均日用品支出(元/人) .197 .716 .033 .478 .284 .000 .408 .710 人均燃料支出(元/人) .349 .414 -.139 -.171 -.208 .408 .000 .399 人均非商品支出(元/人)

.319

.835

-.258

.313

-.081

.710

.399

.000

Average Linkage (Between Groups) 类间平均

凝聚状态进度表:第一列(Stage)表示聚类的进度顺序;第二、三列(Cluster

combine)表示每一步将哪两类合并;第四列(Cofficients)表示被合并的两类之间的距离;第五、六列(Stage Cluster First Appares)表示被合并的两类上一次合并分别是在哪一步形成的。0表示被合并的类为单个样品。最后一列(Next Stage)表示每一步形成的新类将在哪一步参与下一次合并。

Vertical Icicle冰柱图

Number of clusters

Case

(元

人)

(元

人)

烟、

酒、

(元

人)

(元

人)

(元

人)

(元

人)

(元

人)

元/

人)

1 X X X X X X X X X X X X X X X

2 X X X X X X X X X X X X X X

3 X X X X X X X X X X X X X

4 X X X X X X X X X X X X

5 X X X X X X X X X X X

6 X X X X X X X X X X

7 X X X X X X X X X

Dendrogram表示输出树形图(谱分析图)

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Average Linkage (Between Groups类间平均)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

X2 2 ????????

X8 8 ?????????????????????

X6 6 ?????????????????

X7 7 ??????????????????????????

?????????????????

X1 1 ??????????????????????????????????

?

X4 4 ?????????????????????

X5 5 ??????????

???????????????????????????????

X3 3 ????????????????????

二:K-聚类法的具体操作

以例10.4为例,说明快速聚类法的操作过程。

1. 在数据窗口单击Analyze→Classify→K-Mean Cluster打开对话框(见图7)

图7 K-Means Cluster Analysis 对话框

将变量选入Variables 栏;

将标识变量选入Label Cases 栏(可省略)

将分类数输入Number of 框(系统默认为2),本例中选择4.

?Method 栏聚类方法栏

Iterate and classify (按K-means 算法)叠代分类(系统默认)。

Classify only 仅按初始类别中心点分类(不叠代)。

?Centers类中心数据的输入与输出(可省略)

Read initial from 使用指定数据文件中的数据作为初始类中心(文件格式参考Write final as 文件格式)

选择Write final as 把聚类结果中的各类中心数据保存到指定的文件。

本例中选择系统默认项。

2. 单击Iterate按钮,打开Iterate对话框如图8所示:

?Maximum Iterations 限定K-Means 算法的迭代次数,系统默认值10 ?Convergence Criterion-指定限定收敛标准,系统默认值为0 。

?Use running means 限定在每个观测量被分配到一类后即刻计算新的类

中心,不选此项表示只有当全部样本的类分配完后再计算类中心,可以节省运算时间,所以一般情况下不选择此项。

本例中选择默认项。

图8 Iterate对话框

3. 单出Save按钮,打开Save对话框见图9.

Cluster Member 在原数据文件中保存分类结果(本例选择)。

Distance from cluster center在原数据文件中保存各观测量距所属类

中心间的欧氏距离。

图9 Save对话框

4. 单击Options 按钮,打开Options对话框见图10。

?Statistics栏

Initial cluster centers 输出初始类中心。

ANOVA table 输出方差分析表

Cluster information for each case每个观测量的分类信息(分类结果和该

观测量距所属类中心的距离等)

图10 Options对话框

Missing Values 栏

Exclude cases listwise 将出现在Variables 变量表中变量带有缺失值得观测量从分析中剔除(系统默认)

Exclude cases pairwise 只有当一个观测量的全部聚类变量值均缺失时才将其从分析中剔除,否则根据所有其他非缺失变量值把它分配到最近的一类中去。

全部选择完成后得到输出结果。

Cluster Membership(聚类结果)

聚类结果中的第四列显示的是各样本与其所属类的中心之间的距离。上述结果可通过“save”按钮设置,保存至原始数据文件中。

由输出结果知,8个变量指标中除了第一个变量外,其它指标对分类的贡献是显著的。

完整word版,SPSS聚类分析实验报告.docx

SPSS 聚类分析实验报告 一.实验目的: 1、理解聚类分析的相关理论与应用 2、熟悉运用聚类分析对经济、社会问题进行分析、 3、熟练 SPSS软件相关操作 4、熟悉实验报告的书写 二.实验要求: 1、生成新变量总消费支出=各变量之和 2、对变量食品支出和居住支出进行配对样本T 检验,并说明检验结果 3、对各省的总消费支出做出条形图(用EXCEL做图也行) 4、利用 K-Mean法把 31 省分成 3 类 5、对聚类分析结果进行解释说明 6、完成实验报告 三.实验方法与步骤 准备工作:把实验所用数据从 Word文档复制到 Excel ,并进一步导入到 SPSS数据文件中。 分析:由于本实验中要对 31 个个案进行分类,数量比较大,用系统聚类法当然也 可以得出结果,但是相比之下在数据量较大时, K 均值聚类法更快速高效,而且准确性更高。 四、实验结果与数据处理: 1.用系统聚类法对所有个案进行聚类:

生成新变量总消费支出 =各变量之和如图所示: 2.对变量食品支出和居住支出进行配对样本 T 检验,如图所示:

得出结论: 3.对各省的总消费支出做出条形图,如图所示: 4.对聚类分析结果进行解释说明: K均值分析将这样的城市分为三类: 第一类北京、上海、广东 第二类除第一类第三类以外的 第三类天津、福建、内蒙古、辽宁、山东 第一类经济发展水平高,各项支出占总支出比重高,人民生活水平高。第二类城市位于中西部地区,经济落后,人民消费水平低。第三类城市位于中东部地区,经济发展较好。

初始聚类中心 聚类 123 食品支出7776.983052.575790.72衣着支出1794.061205.891281.25居住支出2166.221245.001606.27家庭设备及服务支出1800.19612.59972.24医疗保健支出1005.54774.89617.36交通和通信支出4076.461340.902196.88文化与娱乐服务支出3363.251229.681786.00其它商品和服务支出1217.70331.14499.30总消费支出23200.409792.6614750.02 迭代历史记录a 聚类中心内的更改 迭代123 11250.5921698.8651216.114 2416.86470.786173.731 3138.955 2.94924.819 446.318.123 3.546 5849.114319.1791362.411 6805.00415.199606.915 7161.001.72475.864 832.200.0349.483 9 6.440.002 1.185 10 1.2887.815E-5.148

SPSS因子、聚类案例分析报告

喀什大学实验报告 《多元统计分析SPSS》 实验报告 实验课程:基于SPSS的数据分析 实验地点:现代商贸实训中心实验室名称:经济统计实验室 学院:xxx学院年级专业班:xxx班 学生姓名:xxx 学号:20131808015 完成时间:2016年x月x日 开课时间:2016 至2017 学年第 1 学期 页脚内容1

页脚内容2

实验项目:中国上市银行竞争力分析 (一)实验目的 本实验目的围绕上市商业银行竞争力这一主线,遵循一般理论、具体分析到对策建议的研究思路,以我国国内上市的十家商业银行为研究对象,采用其2012年度财务报告的数据,从盈利能力、安全能力和发展能力三方面共选取了8个重要指标,试图通过这些指标量化影响竞争力的因素,构建我国上市商业银行的竞争力评价指标体系,并运用因子分析方法,对我国上市商业银行的竞争力状况进行了分析评价。最后针对分析的结果,通过对我国上市银行竞争力进行优劣势比较,提出了提升我国上市商业银行竞争力的一些建议。 (二)实验资料 通过对资产利润率、不良贷款率、资产负债率、资本充足率、每股收益增长率、贷款增长率、存款增长率、总资产增长率等指标的选择分析不同指标在进行因子分析时所考虑的因素是否存在差异,影响我国上市商业银行的竞争力状况的因素与上述指标是否有关。 具体数据如下所示: 十家同类型上市商业银行2012年指标 页脚内容3

页脚内容4

中 信银行 1.41 % 0.74 % 93.1 4% 13.4 4% -7.0 4% 15.9 6% 14.5 9% 7.0 2% 民 生银行 1.5 8% 0.76 % 94. 58% 10.7 5% 27. 62% 3.5 3% 2.7 6% 8.4 4% (三)实验步骤 1、选择菜单 2、选择参与因子分析的变量到(变量V)框中 3、选择因子分析的样本 4、在所示窗口中点击(描述D)按钮,指定输出结果,输出基本统计量、图形等 页脚内容5

SPSS软件聚类分析过程的图文解释及结果的全面分析

SPSS聚类分析过程 聚类的主要过程一般可分为如下四个步骤: 1.数据预处理(标准化) 2.构造关系矩阵(亲疏关系的描述) 3.聚类(根据不同方法进行分类) 4.确定最佳分类(类别数) SPSS软件聚类步骤 1. 数据预处理(标准化) →Analyze(分析) →Classify (分类,归类)→Hierachical Cluster Analysis(层序聚类分析)→Method(方法,条理,)然后从对话框中进行如下选择 从Transform Values框中点击向下箭头,此为标准化方法,将出现如下可选项,从中选一即可: 标准化方法解释:None:不进行标准化,这是系统默认值;Z Scores(Z-Scores, 英文名又叫Standardized Population Data, 是以标准差单位来表现的一组观察值):标准化变换;Range –1 to 1:极差标准化变换(作用:变换后的数据均值为0,极差为1,且|x ij*|<1,消去了量纲的影响;在以后的分析计算中可以减少误差的产生。);Range 0 to 1(极差正规化变换 / 规格化变换); 2. 构造关系矩阵 在SPSS中如何选择测度(相似性统计量): →Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择 常用测度(选项说明):Euclidean distance:欧氏距离(二阶Minkowski距离),用途:聚类分析中用得最广泛的距离;Squared Eucidean distance:平方欧氏距离;Cosine:夹角余弦(相似性测度;Pearson correlation:皮尔逊相关系数; 3. 选择聚类方法

聚类分析的SPSS实现

§7.5聚类分析的SPSS实现 一、系统聚类法的SPSS实现 例7.5.1利用全国30个省市自治区经济发展基本情况的八项指标数据(见数据集wyzb6_5.),用系统聚类法对这30个省市自治区作一初步的分类,并说明各类地区经济发展的特点。 操作 分析(Analyze)?分类(Classify)?系统聚类(Hierarchical Cluster)打开系统聚类分析(Hierarchical Cluster Analysis)对话框 1.变量(V ariable(s))列表框设置分析变量。 2.标志个案(Label Cases by)框设置分析对象的标志变量。3.分群(Cluster)单选择框设置聚类分析的类型。 4.输出(Display)复选择框设置聚类分析的输出结果,统计量和图都是默认选项。 5.统计量(Statistics)按钮设置输出的统计量。 合并进程表(Agglomeration schedule)默认选项,输出聚类分析的凝聚状态表; 相似性矩阵(Proximitymatrix)为复选项,输出各样品的距离矩阵。 聚类成员(Cluster Menbership)选择框: 无(None)选项:不显示类的样品构成; 单一方案(Single solution)选项:选择此项,并输入一个确定的分类数n,并输出聚成n个类时各个类的样品构成 情况。 方案范围(Range of solutions):选择此项,并输入两个数n1,n2,将显示指定聚成n1类到n2类时各个类的样品构成 情况。

6.Plots按钮设置输出图形:树状图冰状图 7.Method按钮设置聚类分析的具体方法。 聚类方法: 组间连接:类间平均法 组内连接:类内平均法 最近临元素:最短距离法 最远临元素:最长距离法 质心聚类法:重心法 中位数聚类法:中位数法 Ward法:离差平方和法 度量方法选择框:选择计算样品距离的方法转换值选择框:选择原始数据标准化的方法Z得分,最常用的方法

SPSS聚类分析实验报告

SPSS聚类分析实验报告 一.实验目的: 1、理解聚类分析的相关理论与应用 2、熟悉运用聚类分析对经济、社会问题进行分析、 3、熟练SPSS软件相关操作 4、熟悉实验报告的书写 二.实验要求: 1、生成新变量总消费支出=各变量之和 2、对变量食品支出和居住支出进行配对样本T检验,并说明检验结果 3、对各省的总消费支出做出条形图(用EXCEL做图也行) 4、利用K-Mean法把31省分成3类 5、对聚类分析结果进行解释说明 6、完成实验报告 三.实验方法与步骤 准备工作:把实验所用数据从Word文档复制到Excel,并进一步导入到SPSS数据文件中。 分析:由于本实验中要对31个个案进行分类,数量比较大,用系统聚类法当然也可以得出结果,但是相比之下在数据量较大时,K均值聚类法更快速高效,而且准确性更高。 四、实验结果与数据处理: 1.用系统聚类法对所有个案进行聚类:

生成新变量总消费支出=各变量之和如图所示: 2. 对变量食品支出和居住支出进行配对样本T检验,如图所示:

得出结论: 3. 对各省的总消费支出做出条形图,如图所示: 4.对聚类分析结果进行解释说明: K均值分析将这样的城市分为三类: 第一类北京、上海、广东 第二类除第一类第三类以外的 第三类天津、福建、内蒙古、辽宁、山东 第一类经济发展水平高,各项支出占总支出比重高,人民生活水平高。第二类城市位于中西部地区,经济落后,人民消费水平低。第三类城市位于中东部地区,经济发展较好。

迭代历史记录a 迭代 聚类中心内的更改 1 2 3 1 1250.592 1698.865 1216.114 2 416.864 70.786 173.731 3 138.955 2.949 24.819 4 46.318 .123 3.546 5 849.114 319.179 1362.411 6 805.004 15.199 606.915 7 161.001 .724 75.864 8 32.200 .034 9.483 9 6.440 .002 1.185 10 1.288 7.815E-5 .148 初始聚类中心 聚类 1 2 3 食品支出 7776.98 3052.57 5790.72 衣着支出 1794.06 1205.89 1281.25 居住支出 2166.22 1245.00 1606.27 家庭设备及服务支出 1800.19 612.59 972.24 医疗保健支出 1005.54 774.89 617.36 交通和通信支出 4076.46 1340.90 2196.88 文化与娱乐服务支出 3363.25 1229.68 1786.00 其它商品和服务支出 1217.70 331.14 499.30 总消费支出 23200.40 9792.66 14750.02

相关文档
相关文档 最新文档