文档库 最新最全的文档下载
当前位置:文档库 › 基于因子分析和聚类分析的区域创新能力评价研究

基于因子分析和聚类分析的区域创新能力评价研究

基于因子分析和聚类分析的区域创新能力评价研究
基于因子分析和聚类分析的区域创新能力评价研究

基于因子分析和聚类分析的区域创新能力评价研究

摘要:按照区域创新体系的框架, 提出了一个分析区域创新能力的指标体系。通过详细的数据加工,对以区域为单位的创新能力进行评价研究。通过对区域创新能力的研究及各区域间创新能力的比较分析,能够探析提高区域创新能力的主要因素,勾勒出区域创新能力的主要框架结构,有助于各地区发挥更大优势,修正缺陷,增强自主创新能力。研究结论对各个区域评价自己的创新能力和进行政策调整有着重要的意义。也有助于各区域间互相取长补短,相互学习,共同提高。

关键词:区域创新能力;因子分析;聚类分析

中图分类号:F062.4

引言

2006年我国颁布了《国家中长期科学和技术发展规划纲要》已经成为指导我国各地进行科技创新的重要纲领性文件,此后,各地都出台了相应的决定,使自主创新建设创新型国家成为了主题,而对区域创新能力评价研究已成为一个热门话题。如何有效提高区域创新能力,建设创新型国家已成为迫切需要解决的问题。

由于工业化的全球扩散、市场经济的全球发展和资本的国际化,经济全球化已成为新世纪世界经济和社会发展的必然趋势。而区域创新能力成为了经济发展过程中的重要因素,区域创新能力的强弱与否对于一个国家和地区乃至全球经济的盛衰起到了决定的作用。本文通过对区域创新能力的研究及各区域间创新能力的比较分析,能够探析提高区域创新能力的主要因素,勾勒出区域创新能力的主要框架结构,有助于各地区发挥更大优势,修正缺陷,增强自主创新能力。也有助于各区域间互相取长补短,相互学习,共同提高。

1.本文研究涉及的相关概念:

1.1科学技术指标

科学技术指标是观察和测度科学技术活动的一种方法。借助科学技术指标可以准确地把握科学技术活动及其与社会、经济相互影响的状况,为不同层面、不同群体的管理、决策服务。作为指示器,科学技术指标已经成为一个国家、一个地区、一个部门,或者一个企业运筹未来,谋取竞争优势的重要依据。

1.2区域科技能力

区域创新能力是指一个区域将知识转化为新产品、新工艺、新服务的能力。需要指出,区域创新能力不等于科技能力,也不等同于科技竞争力。一个地区的科技能力强不等于创新能力强。本文的研究区域创新能力主要以区域创新体系理论为基础,主要由以下要素构成:知识创造能力,即不断产生新知识的能力;知识流动能力,即不断利用全球一切可用知识的能力及知识在各创新组织之间流动的能力;企业的技术创新能力;创新的环境和创新的经济绩效,即创新的产出能力。2.区域创新能力比较研究思路和指标体系建立

本文拟采用主因子分析的方法,通过建立相应的指标体系对我国31个区域2006年度科学技术数据进行分析。在多元统计分析中,因子分析是一种很有效的降维和信息浓缩技术,通过因子分析方法可以对区域科技能力进行综合比较分析。

2.1运用因子分析数学模型研究方法概述

2.1.1 因子分析数学模型

因子分析的一般模型是: x i = a i1f1 + a i2f2 + a im f m +εi(i = 1 , 2 , ……k),在这个模型中,x1 , x2……x k为原始变量经过标准化处理后的标准化变量。标准化处理可以消除量纲的影响, 而

且标准化变换不影响变量的相关系数。这里的x i都具有均值为0 , 方差为1 的特征。f1f2……f m叫做公因子, 它们是在各个变量表达式中都出现的因子。是理论计算出来, 实际中不可观测的变量。εi称为特殊因子, 是每个观察变量特有的,表示该变量中不能被公共因子解释的部分。它相当于回归分析中的残差项, 各个特殊因子之间以及特殊因子与公因子之间是相互独立的。a ij 称为因子载荷, 它是第 i 个变量在第j 个公因子上的负载, 它的绝对值越大说明x i和f i的相依程度越大, 即公因

子f j 对x i的载荷量大。

2.1.2 因子分析中的几个重要概念的统计意义

(1)因子载荷的统计意义

因子载荷是x i与f j的协方差, 也是x i与f j的相关系数。它是连接观测变量和公因子的纽带, 反映因子和变量之间的相关关系。因此,因子载荷绝对值越大,则其与变量间关系越强。

(2)公共方差的统计意义

公共方差也叫公因子方差, 变量共同度, 指变量的因子载荷平方和, 记为h i2公共方差表示了变

量方差中能被公共因子所解释的部分, 它的值越高, 变量能被因子说明的程度越高。公共方差的意

义在于说明用公因子代替观测变量以后, 原来每个变量的信息被保留的程度。

(3)方差贡献的统计意义

公因子f j对所有普量的因子载荷的平方和称为公因子f j 的方差贡献。公因子的方差贡献为: g j2 = a1j2 + a2j2 + a3j2……a p j2所有公因子的总贡献为: Σg j2

实际中我们常用贡献率这个指标, 即某个因子的方差贡献和公因子的总贡献的比率。确定因子

个数的方法通常是使累积的方差贡献率达85%以上。

2.1.3 因子分析的一般步骤

(1)原始数据的标准化。标准化的公式为X ij’ =(X ij- X j) /σj, 其中X ij为第i 个变量的第j 个观测量,而X j 和σj分别为该变量的均值和标准差。标准化的目的在于消除不同变量的量纲的影响,

而且标准化转换不会改变变量的相关系数。

(2)计算标准化数据的相关系数矩阵, 并求出相关系数矩阵的特征值和特征向量。

(3)进行正交变换, 通过使用方差最大法。其目的是使因子载荷两极分化, 而且旋转后的因子仍然正交。

(4)确定因子个数, 计算因子得分, 进行统计分析。

2.2比较研究指标体系及部分指标详解

评价一个地区的创新能力,需要一套较好的指标。指标选取、指标的数量、权重的选取,指标

中主观与客观指标的比例,都影响到最终创新能力的排名。因此,对指标的选取非常谨慎。并参考

了瑞士洛桑国际管理开发学院的《国际竞争力报告》、世界经济论坛的《全球竞争力报告》。评价指

标的框架主要以区域创新体系的分析框架为主。

区域创新能力的比较要求全面,由于区域创新能力比较的关键是科技的集聚和扩散功能的比较,因此对区域区域创新能力指标体系的设置主要从集聚和扩散功能比较上着手,并把区域区域创新能

力划分为科技资源、R&D资源、高新技术资源、、科技成果四个一级指标,基本涵盖区域科技能

力的丰富内容和各具体分类指标。

科技资源指标主要突出体现一个区域的科技实力,也是区域科技能力发挥集聚和扩散功能的基础。如果缺乏科技资源的支撑,科技能力也就受到阻碍,难以发挥对社会经济发展应有的作用。

研究与试验发展资源(R&D)是科技活动的核心内容,指的是为增进知识总量(包括人类、文化

和社会方面的知识),以及运用这些知识去创造新的应用而进行的系统的、创造性的工作。深刻反映区域科技发展潜力和进步水平,并且是决定区域科技能力强弱和集聚和扩散功能的主要因素。

高新技术资源指标具体反映了当地的高新技术的转化能力。

科技成果指标集中反映了科技成果的转化程度和科技与经济社会发展的拟合度。

在以上四个一级指标下分列26个二级指标。同时在研究过程中还将设计专门的指标体系进行区域科技竞争力的专项比较分析。(表1)

表1 区域科技竞争力评价指标体系

一级指标二级指标

B1-1科技活动人员

A1科技资源B1-2科学家工程师

B1-3万人口科技活动人员

B2-1R&D人员

B2-2R&D科工

B2-3科技经费支出额

A2R&D资源B2-4科技经费支出占GDP的比重

B2-5R&D经费

B2-6R&D经费占GDP的比重

B2-7地方财政科技拨款

B2-8占地方财政支出的比重

B3-1高技术产业规模以上企业产值

B3-2高技术产业规模以上企业产值占全国比例

A3高新技术资源B3-3高技术产业规模以上企业增加值

B3-4高技术产业规模以上企业增加值占全国比例

B3-5高技术产业规模以上企业增加值率

B3-6规模以上工业企业增加值中高技术产业份额

B3-7高技术产品进出口额

B3-8高技术产品进口额

B3-9高技术产品出口额

B4-1专利申请受理量

B4-2发明专利受理量

B4-3专利申请授权量

A4科技成果B4-4发明专利申请授权量

B4-5技术市场成交合同数

B4-6技术市场成交合同金额

2.3部分二级指标详解

科技活动人员指从事科技活动的人员。包括直接从事科技活动的人员和为科技活动提供直接服务的人员。

科工是"科学家、工程师"的简称。

科技活动科工:指科技活动人员中具有高、中级技术职称(职务)的人员和不具有高、中级技术职称(职务)的大学本科及以上学历人员。

R&D人员指参加R&D项目的人员、以及R&D项目的管理人员和直接服务人员按全时人员折算的人年数。

R&D科工:科工是"科学家、工程师"的简称。

科技经费支出额指在报告期内研究机构用于内部开展科技活动所实际开支的费用,不管资金来源如何。包括:劳务费、资产建设支出、科研业务费、管理费以及其他用于科技活动的支出,不包括转拨外单位的经费。

R&D经费研究与发展(R&D)活动是指在科学技术领域,为增进知识总量,以及运用这些知识去创造新的应用进行的系统的创造性的活动,包括基础研究、应用研究、试验发展三类活动。

研究与发展(R&D)经费支出:为内部支出,指调查单位在报告期用于内部开展R&D活动(基础研究、应用研究、试验发展)的实际支出。包括用于R&D项目(课题)活动的直接支出,以及间接用于R&D 活动的管理费、服务费、与R&D有关的基本建设支出以及外协加工费等。不包括生产性活动支出、归还贷款支出以及与外单位合作或委托外单位进行R&D活动而转拨给对方的经费支出。

地方财政科技拨款是各省、自治区、直辖市(包括省、地(市)、县三级)地方财政的科技经费。不包括国务院部门拨给地方各部门的科技经费。

高技术产品进出口额参照美国的先进技术产品(ATP-AdvancedTechnologyProduct)出口目录和进口目录,我国将进出口贸易中的高新技术产品按技术领域分为:生物技术、生命科学技术、电子技术、计算机与通信技术、计算机集成制造技术、光电技术、航空航天技术、材料技术及其他技术。

高技术产品出口额是按照美国商务部制定的高技术产品目录共包括222类产品。

专利申请受理量是向专利管理机关提出申请并被受理的专利申请受理项数。

发明专利受理量是发明:是指对产品、方法或者其改进所提出的新的技术方案。

专利申请授权量是对发明人的发明创造经审查合格后,由专利局依据专利法授于发明人和设计人对该项发明创造享有的专有权。

3 区域创新能力的实证研究

因子选取2006年科技能力的主要数据,根据因子模型对其科技能力状况进行综合分析评价,同时借助计算机工具和SPSS11.5统计软件进行相关数据处理,根据已经选定的指标,对相关原始数据进行标准化处理,得到标准化后的结果,标准化后的数据服从正态分布N(0,1)在此基础上运行SPSS11.5软件,求出特征根(表2)。

表2特征根

Total Variance Explained

Extraction Method: Principal Component Analysis.

由表2可以明显地观察到,前三个主因子的贡献率已达92.644%,这说明前三个主因子所含的信息量已占全部信息量的93.109%,按照特征值大于1的原则,提取的前三个主因子,经过旋转后,三个主因子特征值仍大于1,其累计贡献率并没有发生变化,说明信息量经过旋转后并没有减少。因此,选取这三个主因子作为区域创新能力评价的组合指标进行分析。

指标分类根据表2确定的三个主因子(累积贡献率≥85%),采用主成分方法计算得出因子载荷矩阵a(省略)因为A的结构不够简化,不易于对因子做出具有实际意义的解释为了得到结果更为明确的因子载荷矩阵,对a实施方差最大旋转,旋转后的因子载荷矩阵为(表3)

表3 旋转后的因子载荷矩阵

从表3中可以看出第一主因子F1主要在次级因子上有较大的载荷,这些次级因子分别是:高技术产业产值、高技术产业增加率等,这些子因子分别描述了区域高科技资源水平。第一主因子对全部初始变量的方差贡献达40.928%,是区域科技能力指标体系中重要的指标。

第二主因子F2在万人口科技活动人员、科技经费支出占GDP的比重、R&D经费占GDP的比重、技术市场成交合同数、技术市场成交合同金额等次级因子上有较大的载荷, 可以称为R&D资源消耗与产业创新主因子,该主因子对所有初始变量的方差贡献率为32.230%,在因子重要性排名中虽然位居第二,但与第一主因子一样, 是区域创新能力指标体系中的重要方面。

第三主因子F3在科技活动人员与科工等次级因子上有较大的载荷,因此第三主因子可以称区域科技创新基础能力主因子,该主因子对全部初始因子的方差贡献为19.487%占第三位。

计算因子得分利用上述三个主因子所代表的贡献率,通过SPSS11.5软件计算得出因子得分系数矩阵,即科技能力因子分析模型的主因子系数。

通过以上因子分析可知,影响区域创新能力的主要综合性因素是区域高科技资源水平、R&D资源消耗与产业创新、区域科技创新基础能力。计算因子得分。(表4)

本表是各个区域在各个主因子上的得分,在一定程度上反映了区域创新能力不同侧面的相对水平。

在第一个主因子上,广东、江苏位于第一、第二都表现出较强的竞争力,上海、北京位于第三第四其他区域水平相对较低,该因子说明的是第一,所以可以看出作为对外贸易和国际知名的城市或区域在此因子上有很强的竞争力,毕竟这些地区都拥有全国知名或者世界一流的科技园区对于高新技术企业的孵化有着得天独厚的优势。

在第二个主因子上,北京和上海位于前两名表现出极强的竞争力,其他区域水平相对较差,该因子说明的R&D资源消耗与产业创新,所以可以看出作为中国政治经济中心的前沿,北京的竞争力是不容置疑的,但受文化环境影响,天津、辽宁已经开始成为北京的潜在竞争者。

在第三个主因子上,浙江、山东、福建、北京位于第一集团,表现出强势,辽宁、四川等列第二集团,其他区域相对较弱,该因子说明的是区域科技创新基础能力,所以可以看出作为中国改革开放的重要区域,北京、浙江、江苏的创新基础能力还有进一步开发的可能性,潜力巨大,也说明这些区域调整发展战略,重视以人为本,重视全面发展,不片面追求GDP的增长,强化创新意识的培养。

综合排序:

为了对区域创新能力整体水平进行评价,以主因子贡献率为权重计算创新能力的总体综合得分并进行排序,其中第一主因子0. 40928,第二主因子0.3223,第三主因子0. 19487(表5)

上表综合因子得分大于0意味着该区域创新能力位于总排名的中上游水平,得分小于0意味该区域创新能力相对较差。广东、上海、江苏、北京、山东、浙江等是我国区域创新能力较强的地区。

4 基于聚类分析区域创新能力比较分析

聚类分析法是根据研究对象的特征对研究对象进行分类的多元分析技术的总称。由于原始指标之间存在高度相关,采用原始指标进行聚类分析有可能影响分析的结果,故这里用因子分析产生的三个不相关主因子作为聚类变量。采用SPSS for Windows11.5,进行系统聚类分析,首先用层次聚类法,根据聚合系数(Fusion Coefficient)随分类数变化的碎石检验图,确定聚类分析的分类数

为6,然后再采用迭代聚类法将31个行政区域分为六类。

Cluster Membership

Case 6 Clusters

1:北京 6

2:天津 1

3:河北 5

4:山西 2

5:内蒙古 4

6:辽宁 1

7:吉林 5

8:黑龙江 5

9:上海 6

10:江苏 1

11:浙江 1

12:安徽 4

13:福建 1

14:江西 4

15:山东 1

16:河南 5

17:湖北 3

18:湖南 5

19:广东 6

20:广西 4

21:海南 4

22:重庆 4

23:四川 3

24:贵州 5

25:云南 4

26:西藏 2

27:陕西 3

28:甘肃 5

29:青海 2

30:宁夏 4

31:新疆 2

表6 聚类运行结果

第一类: 天津、辽宁、江苏、浙江、福建、山东。

第二类: 山西、西藏、青海、新疆。

第三类: 湖北、陕西、四川。

第四类:安徽、重庆、云南、甘肃、江西、广西、内蒙古、海南、宁夏。

第五类:河北、黑龙江、河南、吉林、湖南、甘肃、贵州等。

第六类:北京、上海、广东。

天津等区域成为一类表明其科技发展处于全国次级水平,但经济发展水平高于科技能力科技投入的主要领域分布于科技研究和应用的各个领域,总体讲此类区域主要呈现了产业带动科技发展的特点。

新疆等区域区域创新能力比较薄弱,主要依托本地区特色的自然资源优势促进相关产业的发展,如果获得持续的竞争力,必须重视科技的推进作用,利用科技更好的开发自然资源,实现永续的发展。

四川等区域科技能力相对经济更强,尤其是国防科技和政府投入比重比较高,研发的水平处于全国中上等水平,投入领域分布于基础研究、应用研究和开发三个阶段,基础研究领域处于全国领先水平。

河北等区域归为一类表明其科技能力中等水平,经济水平中等水平,对资源的依赖不大,政府对研发的投入比重不突出,科技投入的强度处于全国中等水平,投入领域主要集中于应用研究、开发和产业化三个阶段,这类区域需加强科技对经济社会的衔接度和结合程度。

安徽等地区科技水平比较薄弱基础研究重视不够,政府的投入力度相对较低,科技投入领域无特色且投入强度不足。

北京、上海、广东单独成为一类,该区域是区域创新能力最高的区域,区域创新能力远远超过其他地区是科技与经济发展在全国处于发达水平,科技投入强度在全国处于领先水平;科技投入的领域分布于科技研究与应用的各个领域,同时还承担着大量的国家基础研究和前瞻性研究。

5 结论

5.1 聚类分析和因子分析结果

聚类分析得到的结果和因子分析结果基本一致,聚类分析从宏观层面上证明了因子分析的结果。本文采用了因子分析和聚类分析法,从微观和宏观两个层面上分析评价了区域创新能力水平。结果发现,广东、上海、江苏、北京、浙江是31个区域中最具竞争力的,中西部地区区域创新能力水平明显偏低。

5.2 启示

从发达国家的发展历程上看,获得持续竞争优势的国家不但应该重视应用研究,而且还要重视基础研究,以增加创新的原创性,获得超额利润,获得持续竞争优势。

促进经济发展的同时要加强科技与经济的衔接力度和结合程度,注重区域科技成果的转化,促进科技对经济的推进力度,科技要加大对开发和产业化的投入力度。

参考文献References

[1] 中国科技发展战略研究小组、中国区域创新能力报告[M].北京:知识产权出版社,2004.

[2] 中国科技发展战略研究小组、中国区域创新能力报告[M].北京:经济管理出版社,2003.

[3] 卫海英.SPSS 10.0 for Windows在经济管理中的应用[M].北京:中国统计出版社,2000:234-258.

[4] 吴贵生等,区域科技论[M].北京.清华大学出版社,2007

[5] 王缉慈,知识创新和区域创新环境[J]. 经济地理,1999年,1

[6] 统计数据来源,中华人民共和国科技部.2006.

[7] 徐建国,我国区域科技资源配置能力分析[J].中国软科学.2002(9)98-100

[8] 吴贵生,区域创新体系与区域经济的互动发展[J].重庆商学院学报.2002(4):3

[9] Dorfman,N.,1983.Route128:The Development of a Regional High Technology Economy[J].Research Policy.vol,12:299-316

[10]Nelson,R.(ed.).1993.National-System-of Innovations:A Comparative Study[M].Oxford:Oxford University Press.

[11]Storper,M.,1995.Regional-technology coalitions:an essential dimension of national technology policy[J].Research Policy .vol 25:741-758

因子分析和K均值聚类分析

基于因子分析和K均值聚类法对河南省经济发展水平研 究 一、因子分析的基本概念 1.1、引言 因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen 等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富和完善,它是多元统计分析中典型方法之一。 因子分析也是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系,探究观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。这几个“抽象”的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。 因子分析的内容非常丰富,常用的因子分析类型是R型因子分析和Q型因子分析。R型因子分析是对变量作因子分析,Q型因子分析是对样品作因子分析。而本文侧重讨论R型因子分析。 1.2、因子分析模型 因子分析模型中,假定每个原始变量由两部分组成:公共因子和特殊因子。公共因子是各个原始变量所共有的因子,解释变量之间的相关关系。特殊因子顾名思义是每个原始变量所特有的因子,表示该变量不能被公共因子解释的部分。原始变量与因子分析时抽出的公共因子的相关关系用因子负荷表示。 常用的因子分析类型是R型因子分析和Q型因子分析。 (1). R型:从变量的相关阵出发,找出控制所有变量的几个公共因子,

用以对变量或样本进行分类。 (2). Q 型:从样本的相相似据阵出发,找出控制所有样本的几个主要因素。 (一)R 型因子分析的数学模型 R 型因子分析中的公共因子是不可以直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即 i m im i i i F a F a F a X ε++++= 2211 ,p i ,2,1= 上式中的m F F F ,,21称为公共因子,i ε称为i X 的特殊因子。该模型可用矩阵表示为 ε+=AF X 即 这里 ),(21212222111211m pm p p m m A A A a a a a a a a a a A =??????????????= ??????????????=p X X X X 21, ?????? ??????=m F F F F 21, ??????????????=p εεεε 2 1 且满足: (1)p m ≤; (2)0),cov(=εF ,即公共因子与特殊因子是不相关的; 1111122112211222221122m m m m p p p pm m p X a F a F a F X a F a F a F X a F a F a F εεε=++++??=++++????=++ ++ ?

主成分分析、聚类分析、因子分析的基本思想及优缺点

主成分分析:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),用综合指标来解释多变量的方差- 协方差结构,即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的综合指标即为主成分。 求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计) 注意事项:1. 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法; 2. 对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分; 3.主成分分析不要求数据来源于正态分布; 4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。 优点:首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价。 缺点:当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。 聚类分析:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。 。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。 常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。 注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;2. K-均值法要求分析人员事先知道样品分为多少类;

基于因子分析和聚类分析的客户偏好探究

基于因子分析和聚类分析的客户偏好探究 一文献综述 二十世纪五十年代中期,美国学者温德尔史密斯提出了顾客细分理论。该理论指出,顾客由于其文化观念、收入、消费习俗等方面的不同可以分为不同的消费群体。企业在经营中应该针对不同的顾客提供针对性的服务,这样才能够利用有限资源进行有效的市场竞争。对顾客的细分从方法上讲有根据人口特征和购买历史的细分和根据顾客对企业的价值即基于顾客的消费金额、消费频率的细分。本文的细分是基于购买历史和人口特征的聚类分析。饭店作为一个古老的服务行业,在现阶段的高度竞争市场下的发展趋势最重要的方面便是服务趋于个性化,所以针对饭店的消费群体特征的聚类可以对饭店进行定位,在此基础上通过分析目标客户群体对消费质量评价的最主要影响因素可以达到其服务个性化的目标。波特把顾客的价值定义为买方感知性与购买成本的一种权衡。对顾客的个性化服务增加了买方的感知度从而加大了他们愿意为此付出的成本,于是饭店便可以增加营业额。 聚类分析是把研究对象视作多维空间中的许多点, 并合理地分成若干类,即一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系。1故聚类算法是对顾客进行分析的一个有效方式。在聚类分析的众多算法中因子分析是研究如何以最少的信息丢失, 将众多原始变量浓缩成少数几个因子变量, 以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。2而典型的k-means算法以平方误差准则较好地实现了空间聚类,对于大数据集的处理效率较高。3在对顾客细分相关文献的研究过程中,主要运用的方法有神经网络,分层聚类,因子分析等方法。比如,在关于网络青少年用户的分类中,作者用层次聚类的方法,通过对青少年年龄,性别,民族,网络可得性,父母的观点等变量等变量定义不同的上网动机,在此基础上对其进行了分类。而在研究人寿保险持有者未来购买基金支持寿险可能性的文章中,通过灰度聚类和神经网络利用消费者的基本信息,财产地位信息,风险承受程度将消费者分为了忠实客户和非忠实客户。在对客户忠诚度的聚类中,作者用RFM的商业模型用DBI确定了Kmeans的最优K值,并最终用kmeans对客户忠诚度进行了聚类。 经过综合分析,我们选择了这两种方法处理顾客数据和饭店的基本资料。即,通过 k-means对客户进行聚类后通过因子分析分析不同类别客户的评价影响因素。 为分析每类客户倾向的饭店特征,本文根据客户聚类结果对饭店数据进行筛选。由于饭店部分属性之间具有相关性,本文采用因子分析法挖掘其“根本属性”,之后对饭店数据进 1李蓉, 李宇. 基与主成分分析与聚类分析方法的我国西部区域划分问题的研究. 科技广场, 2李新蕊.主成分分析、因子分析、聚类分析的比较与应用. 山东教育学院学报. 3杨善林.kmeans 算法中的k 值优化问题研究系统工程理论与实践

主成分分析、聚类分析、因子分析的基本思想及优缺点

注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类; 2. K-均值法要求分析人员事先知道样品分为多少类; 3. 对变量的多元正态性,方差齐性等要求较高。应用领域:细分市场,消费行为划分,设计抽样方案等 优点:聚类分析模型的优点就是直观,结论形式简明。 缺点:在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密 的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。 因子分析:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子。(因子

分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系),就是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。 求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。 注意事项:5. 因子分析中各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。 应用领域:解决共线性问题,评价问卷的结构效度,寻找变量间潜在的结构,内在结构证实。 优点:第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高。 缺点:在计算因子得分时,采用的是最小二乘法,此法有时可能会失效。 判别分析:从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最

基于聚类_因子分析的科技评价指标体系构建_顾雪松

第28卷 第4期2010年4月科 学 学 研 究 S t u d i e s i nS c i e n c e o f S c i e n c e V o l .28N o .4 A p r .2010   文章编号:1003-2053(2010)04-0508-07 基于聚类-因子分析的科技评价指标体系构建 顾雪松,迟国泰,程 鹤 (大连理工大学管理学院,辽宁大连116024) 摘 要:根据“坚持以人为本,树立全面、协调、可持续的发展观,促进经济社会和人的全面发展”的科学发展观的内涵,从科技投入、科技产出、科技对经济与社会的影响三个方面海选科学技术评价指标,利用R 聚类与因子分析相结合的方法定量筛选指标,构建了科学技术综合评价指标体系。本文的创新与特色:一是通过R 聚类将同一准则层内的指标分类,使不同的类代表科技评价的不同方面。二是通过因子分析筛选出各个类中因子载荷最大的指标、并剔除其他指标,既保证了筛选出的指标在所在类别中对评价结果影响最显著、又避免了同一类指标的信息重复。三是研究结果表明,最终建立的指标体系用18%的指标反映了98%的原始信息。四是通过科技进步贡献率、万元G D P 综合能耗等指标反映了全面、协调与可持续发展的科学发展内涵。五是在国际权威机构典型观点高频指标基础上进行客观数据筛选的指标体系,兼具专家知识和客观实际的双重信息。 关键词:科技评价体系;科技评价指标;科学发展;指标体系中图分类号:N 945.16;F 204 文献标识码:A 收稿日期:2009-06-11;修回日期:2009-10-19 基金项目:国家社会科学基金重大项目(06&Z D 039);大连理工大学人文社会科学研究基金重大项目(D U T H S 2007101) 作者简介:顾雪松(1984-),男,辽宁抚顺人,硕士研究生,研究方向为复杂系统评价。 迟国泰(1955-),男,黑龙江海伦人,教授、博士生导师,博士,研究方向为复杂系统评价。 程 鹤(1983-),女,吉林松原人,博士研究生,研究方向为复杂系统评价。 科学技术评价指标体系的构建是根据“坚持以人为本,树立全面、协调、可持续的发展观,促进经济社会和人的全面发展”的科学发展观的内涵,筛选出对科学技术评价有重要影响的代表性指标。建立合理的指标体系是科学技术评价的关键。如果指标体系不合理,则无论采用什么评价方法,评价结果都不会有任何意义。 (1)科学技术评价指标体系的研究现状一是国外权威机构的评价指标体系。代表性的有经济合作与发展组织(O E C D )[1] 、瑞士洛桑国际管理研究院(I M D )[2] 、世界银行(W o r l dB a n k )[3] 等建立的科学技术评价指标体系。 二是国内权威机构的科技评价指标体系。代表性的有中国科学技术部建立的科技发展评价指标体系 [4] 。 以上两类指标体系虽然权威性强,但是偏向于 宏观层面各个国家科学技术综合竞争力的评价,不适合不同一国之内不同地区微观层面的评价。 三是学术文献整理得出的评价体系。代表性的 有唐炎钊建立的区域科技创新评价指标体系[5] 。 吴强等用文献聚合分析建立的科技评价指标体 系 [6] 。T i s d e l l C l e m 等针对中国的科技体制改革建 立的科技评价指标体系[7] 。S h i n i c h i K o b a y a s h i 等在 日本建立的科技评价指标体系[8] 。H a r i o l f G r u p p 等 建立的评价国家科技政策的指标体系[9] 。 这类指标体系存在反映同一科技信息的多个重复指标,指标体系庞杂。 (2)科学技术评价指标筛选方法的研究现状一是基于专家经验的主观筛选方法。孙兰学从科学技术评价的内涵出发对科技创新评价指标进行筛选 [10] 。专家主观筛选法存在的问题是单纯依靠 指标的含义和个人经验,主观随意性强。 二是客观的评价指标筛选方法。范柏乃等对城市技术创新能力评价指标进行筛选[11] 。郭冰洋筛 选农业科技现代化评价指标 [12] 。赵金楼等建立了 科技创新型企业评价指标阶段式综合筛选方法[13] 。 客观筛选法存在的问题是过度依赖于指标数据,忽 略了指标的实际含义。 DOI :10.16192/j .cn ki .1003-2053.2010.04.021

使用SPSS软件进行因子分析和聚类分析的方法

使用SPSS软件进行因子分析和聚类分析的方法 一、方法原理 1.因子分析(FactorAnalysis ) 因子分析是从多个变量指标中选择出少数几个综合变量指标的一种降维的多元统计方法。 我们在多元分析中处理的是多指标的问题,观察指标的增加是为了使研究过程趋于完整,但由于指标太多,使得分析的复杂性增加;同时在实际工作中,指标间经常具备一定的相关性,使得观测数据所放映的信息有重叠,故人们希望用较少的指标代替原来较多的指标,但依然能放映原有的全部信息,于是就产生了因子分析方法。 2.聚类分析(ClusterAnlysis ) 聚类分析是根据事物本身特性来研究个体分类的统计方法,是按照物以类聚的原则来研究的事物分类。 3.市场细分方法的流程图

1理■業2凳| 1因子A 因孑A 1園不&A 1…因€ i zld W余五头冒卓巨云奈蓉跻门彳耳字

、实证分析

总人口d生产总值 〔亿J 消费忌霰 〔亿) 人均年工資 (千) 年度总储番 额丿忑亿 年屢阳政 总收入/亿 1启东币U4 33 153 63 50.27io. as ⑵551O.02 2江郡币10S. 69139. ZB 43.3610. &4119.4211用3丹阳币80. 2E 174 T546. 0113.50 95 81 16.62 4如皋市143 S7 他.7& 37.3611.M33 18gm 5Xft市154. 99103. 29 26.00 10.3T 76.61 7.K 6东台市116. 24135 03 36.02 101.60 35.39 3.30 7 如东县109. 36 102. 57 36.8011.&£33.68 3.37 fi沐阳县174. 54 87. 05 21.35 9.15 空⑷ 3 81 Q邳州市158 0492. 6323.798.664J0.24S.70 10海妄县95. 5493 54 26.4411.5S111.7& 8.51 11油县119. 5086. 60IB. 53 8.8453.51 5. W IL姜堰市90. TO36. 33 31.51 10.96 76.40 3.S2 13 射阳县104. TO96. 15 25.509.60 46.43 5 90 14105. 0073. 50 1^.70g.2S40.61 3 85 15丈丰市73. 3T go. so 21芒一9.8€53 33& 31 1&91. gg S7. 8&20.35 9.7S 47.39 4.83 17建湖县79. L2ei. az 23.269.5146.£1 5.82 10 东海县114. 35 5S 2816.24 a.24S8.O4 3.00 10高邯市03 06 TO. SI 20.95 10.2051.53 5 5C 20107.筍SI. 73 19.29 9.5627.4T 3 0E 21丰县LOQ. 0054 2016.80 8.2S28.8& 2 53 22103. DO56. 70 14 60 9 3927 19 3.00 23琵都县35. 0090. 6022.009,7S12.75 5.01 24枚征市50. 35724Q29.0014.56S2 35 11 2S £5m洪103. 00sa go 12.30T.9E22.0& 3 ZE新沂市S5. GO54 £01T.S0 3 31 Z6 15 3 33 2T谨水县103. 0052. 60 14. TO S.D3 1^.41 2.51 2?谨云县107. 23 10. 02 14.51 7.95 1^.65 1 97 29杼中币27 2480. Id i甘.1813.坨51.22 8.31 ?0肝胎县T3. 2256. 6513^810.00 le.^r 3.06 31踝水县40. E3&】,E5 19.71 13. 9T Z2.23 6. H 芳曜南72. T1 瓯470S6 T .95 11.53 2 W 33响水县57. 00瓯47 a. 9T 3.94 15.3& 2.04 34金湖县36. 0431. 4510.409.3517.5& 2.7^

聚类分析、判别分析、主成分分析、因子分析

聚类分析、判别分析、主成分分析、因子分析 主成分分析与因子分析的区别 1. 目的不同:因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成,因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量(主成分)。 2. 线性表示方向不同:因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。 3. 假设条件不同:主成分分析中不需要有假设;因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。 4. 提取主因子的方法不同:因子分析抽取主因子不仅有主成分法,还有极大似然法,主轴因子法,基于这些方法得到的结果也不同;主成分只能用主成分法抽取。 5. 主成分与因子的变化:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。 6. 因子数量与主成分的数量:在因子分析中,因子个数需要分析者指定(SPSS 根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同;在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等)。 7. 功能:和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到,所以这种区分不是绝对的。 1 、聚类分析 基本原理:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。 常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。

聚类分析和因子分析在股票研究中的应用.

上海理工大学学报 第24卷第4期 J. University of Shanghai for Science and Technology Vol.24 No.4 2002 文章编号: 1007-6735(200204-0371-04 聚类分析和因子分析在股票研究中的应用 柯冰, 钱省三 (上海理工大学管理学院, 上海 200093 摘要: 选取9项主要财务指标,对汽车及配件行业19家上市公司进行了聚类分析和因子分析. 研究结果表明,两种分类方法都能把上市公司区分为蓝筹股、绩优股、一般股和劣质股,与公司的实际情况相符;而且因子分析将财务指标综合为规模效益综合因子、投资效率和主营业务因子3个综合变量,为公司的分类和评估提供了很好的依据. 关键词: 聚类分析; 因子分析; 股票研究中图分类号: O 212.4 文献标识码: A Application of cluster and factor analysis to stock research KE Bing , QIAN Xing-san (College of Management , University of Shanghai for Science and Technology , Shanghai 200093, China Abstract : 9 financial ratios from 19 auto manufacturing listed corporations have been studied by means of cluster and factor analysis. It pointed out that good results in classification can be got by any one of the both mothods and they are in good agreement with the practical situations. Moreover, 3 synthetic factors are extracted from the ten variables: the first is related to the scale and benefit of the corporation, the second is

(完整版)主成分分析与因子分析的优缺点

主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差-协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关.因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法. 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程.其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似. 三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益. 二、基本思想的异同 (一) 共同点 主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量.在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度. 聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的

(整理)因子分析与聚类分析案例.

1 因子分析与聚类分析理论简介 1.1 因子分析法 因子分析法是一种通过分析多个变量间协方差矩阵(或相关系数矩阵)的内部依赖关系,找出能代表所有变量的少数几个随机变量的计量分析方法。其中,找出的几个随机变量是不可测量的,将其称为公因子。每个公因子之间是互不相关的,所有变量都可以由这几个公因子的线性表示。因子分析通过减少变量的数目,用少数因子代替所有变量去分析整个经济问题,大大简化了现实分析过程。 假设有N 个样本,P 个指标,()T P X X X X ,,,21???=是随机向量,需要寻找的公 因子是()T m F F F F ,,,21???=,则将模型 112121111ε++???++=m m F a F a F a X 222221212ε++???++=m m F a F a F a X ... p m pm p p p F a F a F a X ε++???++=2211 称为因子模型。将矩阵() ij a A =称为因子载荷矩阵,将ij a 称为因子载荷(Loading ),因子载荷的实质是公因子Fi 与变量Xj 的相关系数。其中,ε为特殊因子,代表公因子以外的影响因素,在实际分析时一般忽略不计。 对于需要求出的的公因子,其实际含义取决于该公因子在哪些变量上有较大的载荷。但一般情况下,初始因子模型的因子载荷矩阵都比较复杂,不利于因子的解释。因此可进一步通过因子旋转,给出对各公因子更加合理明显的解释。 公因子求出后,可以进一步用回归估计等方法求出各个公因子得分的数学模型,将其表示成变量的线性形式,从而计算求出得分。模型如下: n in i i i X b X b X b F +???++=2211 (i = 1,2,...,m ) 1.2 层次聚类法 聚类分析的实质是按照距离的远近将数据分为若干个类别,以使得类别内数据的“差异”尽可能小,类别间的“差异”尽可能大。 “差异”的描述是通过距离或相似性的方法来描述。在统计学中最常用的是距离表达式欧几里得距离,对于两条数据),,(111z y x 和),,(222z y x ,欧几里得距离的计算公式是: 221221221)()()()2,1(z z y y x x Euclid -+-+-= 本文应用的是聚类分析法中的层次分析法,选用的是欧几里得距离的计算方法。 层次分析法通过把距离接近的数据一步一步归为一类,直到数据数据完全归为

因子分析和聚类分析实例解译

地球化学数据 因子分析和聚类分析实例解译 编写人:刘红杰 QQ:498236930 内蒙古第三地质矿产勘查开发院

第*节元素组合(元素的共生组合特征)及分类特征 元素组合是元素亲合性在地质体内的具体表现,而元素亲合性又与地质环境有关[16]。 确定成矿及伴生元素的组合特征是确定成矿最佳地球化学标志元素组合的前提,为了研究 本区元素的共生组合规律和区域成矿的特点,我们对全区的样品进行了相关分析,聚类分析 和因子分析。具体结果如下: 一、相关分析 作为地质作用的微观结果,地球化学信息必然与地质信息相关连。相关分析是一种简单而直接的研究元素亲合性的方法。本次研究对所测13个元素进行了相关分析,用新疆金维 软件计算了各元素之间的相关系数,计算之前首先对原始数据进行标准化,计算结果见表1。 表1 阿尔山市三十公里等三幅1:5万化探相关系数矩阵 Pb Mn Cu Sn Mo Ag Zn Co W As Bi Hg Au Pb 1 0.2786 0.0813 0.1417 0.191 0.358 0.4656 -0.0455 0.1938 0.047 0.1198 0.0616 0.0054 Mn 1 0.1315 0.1385 0.0768 0.195 0.4076 0.2994 0.098 0.0991 0.0339 0.0751 0.0012 Cu 1 -0.0189 0.0198 0.2198 0.2738 0.4897 -0.0296 0.0644 0.0413 0.0192 0.1754 Sn 1 0.2043 0.133 0.1401 -0.0795 0.3298 0.046 0.1488 0.0452 -0.0166 Mo 1 0.1883 0.067 -0.0397 0.2436 0.201 0.2649 0.1648 0.0788 Ag 1 0.2594 -0.0032 0.1693 0.1534 0.2909 0.2333 0.1169 Zn 1 0.2384 0.1364 0.0191 0.0784 0.0269 0.007 Co 1 -0.1361 0.0544 -0.0401 -0.0383 -0.0113 W 1 0.1694 0.1807 0.0779 0.0145 As 1 0.0331 0.0308 0.0638 Bi 1 0.7183 -0.0082 Hg 1 0.0275 Au 1 由表1可知:Pb与Zn、Ag、Mn呈正强相关;W与Mo、Sn呈明显正相关. Bi与Mo、Ag 元素之间呈正相关, Hg、Bi元素呈显著正相关。Co与Cu、Zn、Mn之间相关性也较好. 二、聚类分析 聚类分析以变量之间的相似程度为基础,将变量分成不同级别的类或点群,直观地对变量进行分类。 据元素聚类谱系图(图)可见R=0.2783为界可分六簇。 第一簇Pb、Zn、Mn、Ag:为一组低中温、中高温元素组合,Pb与Zn密切相关,反映Pb、Zn、Mn、Ag元素的富集主要与中低温热液成矿作用有关,组合异常的出现是测区寻找 Pb、Zn多金属矿床的重要地球化学找矿标志。

主成分分析与因子分析的优缺点讲课稿

主成分分析与因子分析的优缺点

主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关. 因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子 变量具有较强的可解释性的一种多元统计分析方法. 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程.其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似. 三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的 联系,以期为更好地利用这些高级统计方法为研究所用有所裨益. 二、基本思想的异同 (一) 共同点 主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息, 变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量.在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量 比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度.

聚类分析,因子分析

主成分分析,聚类分析,因子分析的基本思想以及他们各自的优缺点。 主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。 因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。 三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益。 二、基本思想的异同 (一) 共同点 主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。并且新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。 聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系。也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ]。聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集。对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用。 (二) 不同之处

数学建模 聚类分析因子分析实例

多元统计分析中的降维方法在四川省社会福利中的应用 由于计算机的发展和日益广泛的使用,多元分析方法也很快地应用到社会学、农业、医学、经济学、地质、气象等各个领域。在国外,从自然科学到社会科学的许多方面,都已证实了多元分析方法是一种很有用的数据处理方法;在我国,多元分析对于农业、气象、国家标准和误差分析等许多方面的研究工作都取得了很大的成绩,引起了广泛的注意。在许多领域的研究中,为了全面系统地分析问题,对研究对象进行综合评价,我们常常需要考虑衡量问题的多个指标(即变量),由于变量之间可能存在着相关性,如果采用一元统计方法,把多个变量分开,一次分析一个变量,就会丢失大量的信息,研究结果也会偏差很大。因此需要采用多元统计分析的方法,同时对所有变量的观测数据进行分析。多元统计分析就是一种同时研究多个变量之间的相互关系,经过对变量的综合处理,充分提取变量之间的信息,进行综合分析和评价的统计方法。多元统计分析法主要包括降维、分类、回归及其他统计思想。 一.多元统计分析方法中降维的方法 1.概述 多元统计分析方法是同时对多个变量的观察数据做综合处理和分析。在不损失有价值信息的情况下,简化观测数据或数据结构,尽可能简单地将被研究对象描述出来,使得对复杂现象的解释变得更容易些。同时,采用多元统计分析中的聚类分析或判别分析可以对变量或样品进行分类与分组。根据所测量的特征和分类规则将一些“类似的”对象或变量分组。多元统计分析也可以研究变量间依赖性。即对变量间关系的本质进行研究。是否所有的变量都相互独立?还是一个变量或多个变量依赖于其他变量?它们又是怎样依赖的?通过观测变量数据的散点图,我们可以建立多元回归统计模型,确定出变量之间具体的依赖关系,进而可以根据某些变量的观测值预测另一个或另一些变量的值对事物现象的发展作预测。最后我们需要构造假设,并对所建立的以多元总体参数形式陈述的多种特殊统计假设进行检验。 在多元统计分析方法中数据简化或结构简化,实质上就是数学中的降维方法。多元统计分析中的降维方法主要包括聚类分析、判别分析、主成分分析、因子分析、对应分析和典型相关分析等几种方法。其中主成分分析和因子分析是在作综合评价方面应用最广泛、较为有效的方法。本文主要介绍这两种多元统计分析方法的应用。 2 主成分分析 2.1主成分分析的基本思想 在大部分实际问题中,需要考察的变量多,变量之间是有一定的相关性的,主成分分析就是以损失很少部分信息为代价,保留绝大部分信息的前提下, 将原来众多具有一定线性相关性的p个指标压缩成少数几个互不相关的综合指 标(主成分),并通过原来变量的少数几个的线性组合来给出各个主成分的具有实际背景和意义的解释。由于主成分分析浓缩了众多指标的信息,降低了指标的

手把手教你spss聚类分析和主因子分析

1.主因子分析第一步:矩阵标准化 出现如下对话框: 第二步:对标准化过的矩阵分析

聚类分析

基于SPSS的聚类分析的实用方法(层次聚类法和迭代聚类法) 层次聚类法和迭代聚类法的主要区别在于:层次聚类法的聚类结果受奇异值的影响非常大,且聚类过程是单方向的,一旦某个样本进入某一类,就不可能从该类出来,再归入其他的类;迭代聚类法的聚类结果受奇异值和不合适的聚类变量的影响较小,对于不合适的初始聚类可以进行反复调整,但其缺点是聚类结果对初始聚类非常敏感,而且它也只能得到局部最优解. (一)层次聚类 Analyze--> C1assify-->Hierachical Cluster 在“C1uster”组中选择聚类类型:要进行变量聚类选择指定“V anables”;要进行观测量聚类指定“Cases”。 指定参与分析的变量,将选定的变量通过按钮箭头转移到箭头按钮右侧的“V ariable[s]:”矩形框中;将标识变量通过下面一个箭头按钮转移到按钮右侧的“Label Cases by:”下面的矩形框中。 如果不使用系统默认值,或由于参与分析的变量量纲不一致需要指定选择项,则应该根据需要有选择性地执行下述某些步骤。 1.确定聚类方法 在主对话框中,点击“Methed”按钮,展开分层聚类分析的方法选择对话框,即“Hierachical Cluster Analysis:Method”。在对话框中根据需要指定聚类方法、距离测度的方法、对数值进行转换方法,即标准化数值的方法和对测度的转换方法。 (1)聚类方法选择 “C1uster Method:”表中列出可以选择的聚类方法: Between-groups linkage组内连接 Within-groups linkage组内连接 Nearest neighbor最近邻法

基于因子分析与聚类分析的企业经营绩效评价研究

基于因子分析与聚类分析的企业经营绩效评价研究 作者:王维李嫚武志勇 来源:《财会通讯》2012年第35期 一、引言 近年来,随着经济和医疗卫生事业的不断发展,医药行业的发展速度越来越快,成为全球仅次于银行业和石油业的第三大投资行业,但同时也面临着复杂多变的市场竞争环境。因此,越来越多的研究者开始关注这一行业的经营绩效评价问题。目前评价企业经营绩效的方法主要有平衡计分卡法、EVA评价分析法、沃尔评分法和模糊决策财务分析法等。但由于企业经营绩效评价指标的复杂性和多样性以及评价方法的主观性,其结果并不理想,偏差较大。因子分析和聚类分析根据数据本身结构特征,能克服一些传统评价方法的主观偏差,具有独特的优越性。本文采用因子分析和聚类分析,试对我国医药上市公司的经营绩效进行评价并提出改善建议。 二、指标选取 本文参照财政部在1999年6月颁发的“工商类竞争性企业绩效评价指标体系”,针对我国医药上市公司的特点,选取盈利能力、偿债能力、运营能力、获现能力和成长能力等六方面的共20个指标来评价上市公司的经营绩效。为消除初选指标间信息的重叠,利用SPSS17.0统计分析软件,运行包含20个经营绩效评价指标的基本模型,并计算各指标的适合测度值(MSA),剔除小于0.6的指标重新定义模型。通过多次筛选,剔除营业成本比率,净资产收益率,股东权益比率,应收账款周转率,销售增长率等五个财务指标。经处理的评价指标体系及MSA值见表1。 三、基于因子分析与聚类分析的医药上市公司经营绩效评价 (一)因子分析主要包括以下步骤: (1)样本数据标准化。为了使研究结果更能反映医药上市公司经营绩效的现实状况,本文在选取样本时,剔除了不能取得所需研究数据和数据披露不真实的上市公司。依据2009年度医药上市公司综合竞争力排名,分为强、中、弱三类,然后采用配额抽样,分别从好中差三类中各抽取十家,共得样本30家。收集的30家医药上市公司财务数据来源于中国证券监督管理委员会和证券之星的2010年度财务报表,并对所收集的数据进行了标准化处理。 (2)因子分析适用性检验。由于KMO统计量为0.743>0.7,因子分析的效果比较好,再由Barlett球形检验,可知各变量的独立性假设不成立,故因子分析的适用性检验通过。

多元统计分析( 期末试题) 聚类分析 主成分分析 因子分析

2011-2012学年第一学期《多元统计分析》上机考试试卷 班级:金融工程2009级学号:2009310283 姓名:田睿电脑序号: 考试说明: 1、打开本试卷的WORD文件后,首先将本WORD文档“另存”,将文件名设为你的“学号 +姓名”(注意,学号在前),并在本试卷中再次填好班级、姓名、学号、电脑序号,再根据题目要求将必要的结果复制到本文件中并进行必要的分析。考试结束时,提交该WORD文档,请不要提交SPSS的结果文件。 2、考试时间120分钟,16:00—18:00。考试结束后,将本试卷上传至ftp://https://www.wendangku.net/doc/443786070.html, (用户名和密码:mengjie2010)的“多元统计期末考试提交”子目录。注意,请务必到教师工作台向监考教师确认你的试卷已经上传成功后,再离开教室。 上机操作题: 1、(32分)为了从1张心电图的5项不同指标(X1~X5)中找出区分健康人(group=1)、 硬化症患者(group=2)和冠心病患者(group=3)这3类人的方法,对3类人分别取容量为n1=11、n2=7、n3=5的3个样本,原始数据见表1。 请对此案例进行判别分析,并回答以下问题: (1)简述Fisher判别分析的基本原理。 (2)本题中,请分析三组人群在各项指标的取值上是否有显著差异。(显著性水平取0.1)(3)请写出贝叶斯判别函数的表达式。(先验概率按各组的样本容量比重确定) (4)请写出未标准化的Fisher判别函数的表达式。 (5)分析三组人群被错判的情况。 (6)画出表示三组人群的两个Fisher判别式得分的散点图,用不同颜色的符号区别表示不同的人群。 (7)新测得某人的5项指标值为(9.11,231.99,12.62,5.73,6.49),请给出其贝叶斯判别的后验概率值,以及Fisher判别函数的得分值,则他属于哪类? (8)贝叶斯判别方法的判别准则并不唯一,请说明在SPSS软件中,所输出的Bayes判别函数的结果是在怎样的假设条件以及准则下计算得到的。

相关文档
相关文档 最新文档