文档库 最新最全的文档下载
当前位置:文档库 › 灰关联聚类方法

灰关联聚类方法

灰关联聚类方法
灰关联聚类方法

灰关联聚类方法

以往,人们对多因素的复杂系统进行多维综合评估分析,已作了大量的理论研究和实践探索。如因素关联分析,模糊聚类,系统聚类,灰色聚类等。这里把灰关联分析和聚类思想方法进行融会、扩充,创立了“灰关联聚类方法”,既区别于关联分析,又非是一般的聚类方法,它是把灰关联度演化成刻划待评对象之间的亲和度,进行聚类分析的新方法。该方法与一般的聚类方法相比,具简洁性、有效性、灵活性、普适性等特点。

(一)聚类原理简介

该方法是以灰色相似矩阵为基本信息的聚类分析方法,灰色相似矩阵记为G:

G= g11g12 (1)

g21g22 (2)

┇┇g m1g m2…g mm

其中:

g ij=(γij+γji)/2 (8-7)由于矩阵G中的元素显然满足:

①自反性:g ii=1;

②对称性:g ij=g ji;

则{γij }i,j=1,2,…,m;定义为关联矩阵Г

Г= γ11γ12 (1)

γ21γ22 (2)

┇┇γm1γm2…γmm

其中,γij即是以第i个评估对象的指标序列为参考序列,以第j个评估对象的指标序列为比较序列的关联度。

设对待分析评估系统S i(i=1,2,…,m),其特征参量(指标)序列为X i;

X i=(x i1,x i2,…,x in)

又有参考特征参量(指标)序列X0;

X 0=(x 01,x 02,…,x 0n ) 则实数ζi (k )=

|

)()(|max max |)()(||

)()(|max max |)()(|min min 0000k X k X k X k X k X k X k X k X i k

i

i i k

i

i k

i

-+--+-σσ (8-8)

为X i 对X 0在第k 点的关联系数。σ为分辨系数,一般在0到1之间选取。称实数γi 为X i 对于X 0和关联度。

γi =

∑=n

j i

k n

1

)(1

ξ (8-9)

(二)示例

以《卫生统计》(1993.6)数据为基本信息资料(表8-10),对其10个少数民族人口素质进行聚类分析。

(1) 聚类基础的构成

表8-10 少数民族人口素质基本指标数据

注:“↑”表示指标值越大越好;“↓”表示指标值越小越好。

根据待分析问题的实质,有分析域S S =(S 1,S 2,…,S 10)

且S i,当i=1,2,…,10时顺次代表满族、朝鲜族、蒙古族、回族、维吾尔族、藏族、彝族、白族、哈尼族和苗族。记为S1,S2,S3,S4,S5,S6,S7,S8,S9,S10。对任一少数民族S i,有其特征指标,因为具体的聚类分析问题都是在给定指标体系下来做的,因此选择适当的指标体系对于达到合理、贴切的分类非常重要。而依据的指标体系过于简单,不能真实反映事物内涵,而指标过繁又无从处理,最终还是人为臆断。

我们选取四项指标,即:

X i=(X i1,X i2,X i3,X i4)

根据选定的指标,收集原始数据见表8-10。

最优(参考)序列的确定:

依某指标的属性,对于指标属性是“↑”则:

X oj=max(X?ij)

i∈I

对于指标属性是“↓”则:

X ij=min(X?ij)

i∈I

算例:指标“标准化总死亡率”,其属性是“↓”越大越好。

X01=min(6.06,6.93,7.64,8.16,11.12,

10.29,9.99,8.49,11.08,8.95)=6.06

余类推。

故得:

X0=(6.06,652.5,89.5,33.26)1×4

根据各特征指标的属性,以参予分析的原始数据按下式作统一测度处理,并同时作同一化处理,将各分析数据压缩至[0,1]区间。

对指标属性越大越好的指标:

X ij=X?ij/max X?ij(8-10)对指标属性越小越好的指标:

X ij=min X?ij/X?ij

(8-11)

例如:表8-10中第一个指标属性为越小越好。

min X ?ij =min (6.06,6.93,7.64,8.16,10.29,

9.99,8.49,11.08,8.95)=6.06

X 11=min X ?i1/X ?11 =6.06/6.06=1 X 21=6.06/6.93=0.8745 余类推。

经上述处理后,分析体系的数据见表8-10。 (2)灰色相似矩阵的建立

分别以X 1,X 2,…,X 10,X 0为参考序列,以这m +1个序列为比较序列,按灰色关联度分析方法(即按公式(8-8)、(8-9),分辨系数取0.50)计算出关联矩阵Г。

表8-12 分析体系数据

1 0.7803 0.6118 0.516

2 0.5054 0.3948 0.4475 0.5427 0.4158 0.4608 0.860

3 0.7968 1 0.6162 0.5339 0.4892 0.4186 0.4631 0.5528 0.432

4 0.4820 0.9266 0.5644 0.5492 1

0.7522 0.6571

0.4892 0.6142 0.8553 0.5435 0.6388 0.4898 0.4788 0.4737 0.7481 1 0.7347 0.6229 0.7818 0.5817 0.7206 0.8218 0.4314

0.5079 0.4653 0.6924 0.7588 1 0.7075 0.7075 0.7533 0.7186 0.6872 0.4429 Г=

0.4383 0.4363 0.5958 0.756

0.7521

1

0.8223

0.6478 0.8837 0.7848 0.4104 0.4274 0.4179 0.6457 0.8007 0.6977 0.7726 1 0.7180 0.8673 0.9360 0.3920 0.4715 0.4591 0.8185 0.8369 0.7086 0.5304 0.6691 1

0.5832 0.7101

0.4189 0.4060 0.3972 0.5860 0.7354 0.7101 0.8314 0.3559 0.6393 1

0.8258

0.3742 0.4482 0.4452 0.6742 0.8436 0.6810 0.7337 0.9376 0.7610 0.8339 1 0.4113

0.8702 0.9266

0.5703 0.4958 0.4669

0.3938 0.4365

0.6165 0.4094 0.4503

1

根据矩阵Г按公式(8-7)得灰色相拟矩阵G。

算例:g32=(γ32+γ23)/2=(0.5492+0.6162)/2=0.5827,余类推。

1

0.7886 1

0.5881 0.5827 1

0.4970 0.5038 0.7501 1 对

0.5066 0.4773 0.6747 0.7468 1

G=0.4166 0.4275 0.5425 0.6643 0.7298 1

0.4375 0.4405 0.6300 0.7913 0.7026 0.7975 1 称

0.5071 0.5059 0.8369 0.8443 0.7610 0.5891 0.6936 1

0.4109 0.4148 0.5648 0.7280 0.7144 0.8576 0.8616 0.6133 1

0.4545 0.4636 0.6565 0.8327 0.6841 0.7593 0.9368 0.7351 0.8324 1

0.8653 0.9266 0.5301 0.4636 0.4549 0.4021 0.4134 0.4677 0.3981 0.4308 1

G矩阵中的第11行,即是以基准序列(X0)为参考序列求得的关联序,按其值的大小,对评价对象排序:

1>0.9266>0.8653>0.5310>0.4677>0.4636>0.4549>0.4308>0.4134>0.421>0.3918得到各评估对象优劣序:

S2-S1-S3-S8-S4-S5-S8-S7-S6―S9

优劣

图8-15

(三)聚类分析

按G集的排列结果构造其一棵最大树(图8-16)。结合灰色相似关系矩阵G,给图8-12赋权得图8-13(如S2-S1的0.7886称为权,由G矩阵查得),权表示

各评论对象之间的亲疏关系,权大则亲,权小则疏。

0.7886 0.5881 0.8369 0.8443 0.7468 0.6841 0.9368 0.7975 0.8576

S2―――S1―――S3―――S8―――S4―――S5―――S10―――S7―――S6―――S9优劣

图8-16

根据图8-16任取实数λ∈[0,1],砍断权重小于λ的枝即得到一个不连通的

树,而其连通分枝就构成了在λ水平上的聚类。在全体λ水平上分类的集合则构成了灰色聚类图(略)。

如若将10个少数民族按“人口素质”划分为好、中、差三种类型,则可以取λ=0.74,其聚类最终分类结果见表8-13。

表8-13 聚类最终分类结果

分类X

X i2X i3X i4包含民族

i1

好 6.495 573.50 86.24 33.74 朝鲜族、满族

中8.853 312.63 61.85 858.31 蒙古族、回族、维吾尔族、白族差10.78 182.23 33.95 92.15 苗族、藏族、彝族、哈尼族如根据表8-13结合图8-16,还可以又按10个少数民族人口素质进行在定量分析基础上的定性评价。

聚类、关联规则挖掘、图数据库

聚类 一、聚类的定义 聚类,属于一种非监督学习方法,它试图在无标签的数据集中发现其分布状况或模式。通常,我们认为同一聚类中的数据点比不同聚类的数据点具有更大的相似性。 二、传统的聚类算法的分类 1、基于划分的聚类算法 主要思想:基于划分的聚类算法通过构造一个迭代过程来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类。 典型方法: k-means算法 FCM算法。 2、层次聚类算法 主要思想:层次聚类方法使用一个距离矩阵作为输入,经过聚类后得到一个反映该数据集分布状况的聚类层次结构图。 层次聚类算法通常分为两种: 凝聚的层次聚类算法:它首先把每个数据点看作是一个聚类,然后以一种自底向上的方式通过不断地选择最近邻居聚类对的合并操作,最终可以构造出一棵代表着该数据集聚类结构的层次树。 分类的层次聚类算法:它首先把所有的数据点看作是一个聚类,然后以一种以自顶向下的方式通过不断地选择最松散簇进行分裂操作,最终可以构造出一棵代表着该数据集聚类结构的层次树。 典型方法: AGNES (AGglomerative NESting) BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) CURE (Clustering Using REpresentative) 3、基于密度的聚类算法 主要思想:基于密度的聚类算法试图通过稀疏区域来划分高密度区域以发现明显的聚类和孤立点,主要用于空间型数据的聚类。 典型方法: DBSCAN (Density-based Spatial Clustering of Application with Noise) OPTICS (Ordering Points to Identify the Clustering Structure) 4、基于网格的聚类算法 主要思想:基于网格的聚类算法是一种基于网格的具有多分辨率的聚类方法。它首先将数据集的分布空间划分为若干个规则网格(如超矩形单元)或灵活的网格(如任意形状的多

灰色预测 投入产出模型 灰色关联分析主成分——聚类模型

2010年上海世博会影响力的定量评估 摘要 中国2010年上海世界博览会,作为第41届世界博览会,于2010年5月1日至10月31日期间,在中国上海市举行。举办2010年世界博览会,可以进一步提高我国的国际形象和地位,加强与各国的经济和技术合作,促进国际间经济贸易往来,对于加速上海市现代化程度,促进上海区域经济发展具有十分重要的意义。目前对世博影响力的定量评价还比较缺乏,因此定量研究上海世博会在各个方面的影响力显得尤为重要。 在本题中,我们选取上海世博会对上海市的直接经济收入、世博会对上海旅游业经济效益的影响与世博会对上海市的直接经济和旅游的综合影响这三个侧面,从横、纵向时间轴上对其影响力进行定量评估。 研究世博会对上海市的直接经济收入的影响,考虑到世博会未结束,故先用灰色预测的方法对世博会参观人数进行了预测,考虑到10月份假期影响系数和尾积效应的影响,我们用季节性修正来对10月份的数据进行修正,通过总人数的统计,得出门票总收入,再对世博会的直接投资与直接收益利用投资成数比例和投资数乘模型计算出间接投资与延伸效益,利用投入产出模型分析出了世博对上海市经济发展的直接影响力是对2010年上海市的GDP直接贡献值896.25亿元。并对比前五年的GDP增长值看出,举办了世博会后的上海市2010年GDP增长率是明显大于之前未举办世博的年份的。 对于世博会对上海旅游业经济效益的影响力方面,我们采用灰色关联分析模型来研究世博会对上海市旅游业经济效益的影响进行量化。由关联度的分析可得到2005年到2010年旅游综合评价结果排名的比较,上海2010年的旅游综合评价值为2.6459,06至09年综合评价值分别为0.8975、1.6292、0.9782、0.8743,2010年旅游综合评价明显大于历年的综合评价值位于第一。说明由于世博会的影响,带动了上海市旅游经济效益的快速增加。 为研究上海世博会对上海市的直接经济与旅游的综合影响,我们选取2009年1月至2010年7月的社会消费品零售总额、入境旅游人数、外国人数、上海市进出口总额、居民消费价格指数5项指标的具体数值,利用主成分——聚类模型选出主成分并进行聚类分析,得出的分类结果为2009年1月至2010年4月为一类,2010年5月至7月为一类,表明世博会的举办与否对上海市的直接经济与旅游具有重要影响。 【关键词】:影响力定量评估灰色预测投入产出模型灰色关联分析 主成分——聚类模型

浅议灰色关联度分析方法及其应用

科技信息 SCIENCE&TECHNOLOGY INFORMATION 2010年第17期 1关联度的概念 关联度是事物之间、因素之间关联性大小的量度。它定量地描述 了事物或因素之间相互变化的情况,即变化的大小、方向与速度等的 相对性。如果事物或因素变化的态势基本一致,则可以认为它们之间 的关联度较大,反之,关联度较小。对事物或因素之间的这种关联关 系,虽然用回归、相关等统计分析方法也可以做出一定程度的回答,但 往往要求数据量较大、数据的分布特征也要求比较明显。而且对于多 因素非典型分布特征的现象,回归相关分析的难度常常很大。相对来 说,灰色关联度分析所需数据较少,对数据的要求较低,原理简单,易 于理解和掌握,对上述不足有所克服和弥补。 2关联度的计算 灰色关联度分析的核心是计算关联度。一般说来,关联度的计算 首先要对原始数据进行处理,然后计算关联系数,由此就可计算出关 联度。 2.1原始数据的处理 由于各因素各有不同的计量单位,因而原始数据存在量纲和数量 级上的差异,不同的量纲和数量级不便于比较,或者比较时难以得出 正确结论。因此,在计算关联度之前,通常要对原始数据进行无量纲化 处理。其方法包括初值化、均值化等。 2.1.1初值化。即用同一数列的第一个数据去除后面的所有数据,得 到一个各个数据相对于第一个数据的倍数数列,即初值化数列。一般 地,初值化方法适用于较稳定的社会经济现象的无量纲化,因为这样 的数列多数呈稳定增长趋势,通过初值化处理,可使增长趋势更加明 显。比如,社会经济统计中常见的定基发展指数就属于初值化数列。 2.1.2均值化。先分别求出各个原始数列的平均数,再用数列的所有 数据除以该数列的平均数,就得到一个各个数据相对于其平均数的倍 数数列,即均值化数列。一般说来,均值化方法比较适合于没有明显升 降趋势现象的数据处理。 2.2计算关联系数 设经过数据处理后的参考数列为: {x0(t)}={x01,x02,…,x0n} 与参考数列作关联程度比较的p个数列(常称为比较数列)为: {x1(t),x2(t),…,x p(t)}= x11x12…x1n x21x22…x2n ………… x p1x p2…x pn 上式中,n为数列的数据长度,即数据的个数。 从几何角度看,关联程度实质上是参考数列与比较数列曲线形状的相似程度。凡比较数列与参考数列的曲线形状接近,则两者间的关联度较大;反之,如果曲线形状相差较大,则两者间的关联度较小。因此,可用曲线间的差值大小作为关联度的衡量标准。 将第k个比较数列(k=1,2,…,p)各期的数值与参考数列对应期的差值的绝对值记为: Δok(t)=x0(t)-x k(t)t=1,2,…,n 对于第k个比较数列,分别记n个Δok(t)中的最小数和最大数为Δok(min)和Δok(max)。对p个比较数列,又记p个Δok(min)中的最小者为Δ(min),p个Δok(max)中的最大者为Δ(max)。这样Δ(min)和Δ(max)分别是所有p个比较数列在各期的绝对差值中的最小者和最大者。于是,第k个比较数列与参考数列在t时期的关联程度(常称为关联系数)可通过下式计算: ζok(t)=Δ(min)+ρΔ(max) ok 式中ρ为分辩系数,用来削弱Δ(max)过大而使关联系数失真的影响。人为引入这个系数是为了提高关联系数之间的差异显著性。0<ρ<1。 可见,关联系数反映了两个数列在某一时期的紧密程度。例如,在使Δok(t)=Δ(min)的时期,ζok(t)=1,关联系数最大;而在使Δok(t)=Δ(max)的时期,关联系数最小。由此可知,关联系数变化范围为0<ζok(t)≤1。 显然,当参考数列的长度为n时,由p个比较数列共可计算出n×p个关联系数。 2.3求关联度 由于每个比较数列与参考数列的关联程度是通过n个关联系数来反映的,关联信息分散,不便于从整体上进行比较。因此,有必要对关联信息作集中处理。而求平均值便是一种信息集中的方式。即用比较数列与参考数列各个时期的关联系数之平均值来定量反映这两个数列的关联程度,其计算公式为: r ok=1 n n i=1 Σζok(t) 式中,r ok为第k个比较数列与参考数列的关联度。 不难看出,关联度与比较数列、参考数列及其长度有关。而且,原始数据的无量纲化方法和分辩系数的选取不同,关联度也会有变化。 2.4排关联度 由上述分析可见,关联度只是因素间关联性比较的量度,只能衡量因素间密切程度的相对大小,其数值的绝对大小常常意义不大,关键是反映各个比较数列与同一参考数列的关联度哪个大哪个小。 当比较数列有p个时,相应的关联度就有p个。按其数值的大小顺序排列,便组成关联序。它反映了各比较数列对于同一参考数列的“主次”、“优劣”关系。 灰色关联度分析方法的运用之一,就是因素分析。在实际工作中,影响一个经济变量的因素很多。但由于客观事物很复杂,人们对事物的认识有信息不完全性和不确定性,各个因素对经济总量的影响作用不是一下子就能够看清楚的,需要进行深入的研究,这就是经济变量的因素分析。运用灰色关联度进行因素分析是非常有效的,而且特别适用于各个影响因素和总量之间不存在严格数学关系的情况。 例1:利用关联度分析方法研究某公路施工企业工资序列(表1)。 表1某公路施工企业工资序列表单位:千元 根据表1中数据,以工资总额为参考数列x0(t),以计时工资x1(t)、档案工资x2(t)和承包工资x3(t)为比较数列,计算三种工资对于工资总额的关联度。 第一步,对各数列作均值化处理。 工资总额和三种工资的均值分别为: 浅议灰色关联度分析方法及其应用 孙芳芳 (濮阳市公路管理局河南濮阳457000) 【摘要】灰色关联度是灰色数学中的一种方法,用来研究事物相互关联、相互作用的复杂因素的影响作用,确定影响事物的本质因素,使各种影响因素之间的“灰色”关系清晰化。本文介绍了灰色关联度在实际工作中的分析方法和步骤,为定量描述事物或因素之间相互变化的情况提供了理论依据。 【关键词】灰色关联度;分析方法;综合评价;应用 年份工资总额计时工资档案工资承包工资 200313974.23831.06587.23556.0 200415997.64228.07278.04491.6 200517681.35017.07717.44946.9 200620188.35288.69102.25797.5 200724020.35744.011575.26701.0 x i軃18372.34821.78450.05098.6○公路与管理○ 880

聚类分析、数据挖掘、关联规则这几个概念的关系

聚类分析和关联规则属于数据挖掘这个大概念中的两类挖掘问题, 聚类分析是无监督的发现数据间的聚簇效应。 关联规则是从统计上发现数据间的潜在联系。 细分就是 聚类分析与关联规则是数据挖掘中的核心技术; 从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。 从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。 聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。 从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。 关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(FrequentItemsets),第二阶段再由这些高频项目组中产生关联规则(AssociationRules)。 关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(LargeItemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。 关联规则挖掘的第二阶段是要产生关联规则(AssociationRules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(MinimumConfidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。

重庆市主导产业的灰色聚类分析

重庆市主导产业的灰色聚类分析 发表时间:2012-03-12T10:50:47.687Z 来源:《时代报告(学术版)》2011年12月(上)供稿作者:刘军胜[导读] 数据来源:1999—2008年统计年鉴及2005年重庆市产业投入与产出表。 刘军胜 (重庆师范大学经济与管理学院重庆 404001)中图分类号:F719 文献标识码:A 文章编号:41-1413(2011)12-0000-01 摘要:从中国国情的特殊性出发,确定了重庆市主导产业的指标体系,用灰色聚类法对现有的主要工业进行了聚类,从而得出化学原料及化学制造业、电器机械及器材制造业为重庆市的主导产业;通信设备、计算机制造业、非金属矿物制造业等是重庆市的一般产业的结论。 关键词:灰色聚类;主导产业;生态型;产业结构 一、我国产业结构的特殊性 解放初期,中国经济主要是以农业和轻工业为主。新中国成立以后,党中央选择了优先发展重工业的道路,从而打破了产业演变的自然规律,使得中国的三大产业在不平衡发展。经济发展的历史证明,产业结构随着经济发展阶段的变化经历了一个由低级向高级演变的客观过程。按照国际标准模式(配第—克拉克定理和钱纳里阶段理论)我国的产业结构与之偏离。按人均GDP划分,2008年中国人均3263美元,中国应处于重化工后期阶段。按2008年三次产业比重11.3:48.6:40.1划分,我国应处于重工业发展的初期阶段。而主导产业是经济发展某一阶段,对产业结构和经济增长起到导向性和带动性的产业。并且产业结构是一个动态的过程,该过程通常是有主导产业来牵动并以主导产业的更替为特征,因此,正确选择和培育主导产业就成为优化产业结构、推进产业结构高度化的关键环节。然而,我国产业成长的特殊性决定了我国的主导产业选择必须具体问题具体分析。 二、主导产业的界定 本文在借鉴国内外学者研究的成果,结合中国特殊国情以及新时期可持续发展的要求下认为:“主导产业一般是指在一经济体中在某一阶段,能对产业结构和经济发展起到导向性和带动性作用,具有最大的产业需求收入弹性和价格弹性和向后关联、向前关联效应最大的产业,并且符合社会可持续发展的需要,具有低耗能、高产出的环保产业。” 三、主导产业选择的标准 关于主导产业选择的基准,中外经济学者曾提出过多种见解。但是正如前文阐述的一样,在某一区域选择其主导产业必须结合当地的实际情况,以及跟上社会发展的要求。在当今技术日新月异的社会中,产业的战略性和产业可持续性被提上日程。因此,本文在结合国内外的研究和从国家和地区的全局、长远利益以及经济的可持续发展提出了以下的主导产业的选择基准: 1.优势原则

灰色关联分析(算法步骤)

灰色关联分析 灰色关联分析是指对一个系统发展变化态势的定量描述和比较的方法,其基本思想是通过确定参考数据列和若干个比较数据列的几何形状相似程度来判断其联系是否紧密,它反映了曲线间的关联程度[1]。 灰色系统理论是由著名学者邓聚龙教授首创的一种系统科学理论(Grey Theory),其中的灰色关联分析是根据各因素变化曲线几何形状的相似程度,来判断因素之间关联程度的方法。此方法通过对动态过程发展态势的量化分析,完成对系统内时间序列有关统计数据几何关系的比较,求出参考数列与各比较数列之间的灰色关联度。与参考数列关联度越大的比较数列,其发展方向和速率与参考数列越接近,与参考数列的关系越紧密。灰色关联分析方法要求样本容量可以少到4个,对数据无规律同样适用,不会出现量化结果与定性分析结果不符的情况。其基本思想是将评价指标原始观测数进行无量纲化处理,计算关联系数、关联度以及根据关联度的大小对待评指标进行排序。灰色关联度的应用涉及社会科学和自然科学的各个领域,尤其在社会经济领域,如国民经济各部门投资收益、区域经济优势分析、产业结构调整等方面,都取得较好的应用效果。 [2] 关联度有绝对关联度和相对关联度之分,绝对关联度采用初始点零化法进行初值化处理,当分析的因素差异较大时,由于变量间的量纲不一致,往往影响分析,难以得出合理的结果。而相对关联度用相对量进行分析,计算结果仅与序列相对于初始点的变化速率有关,与各观测数据大小无关,这在一定程度上弥补了绝对关联度的缺陷。[2] 灰色关联分析的步骤[2] 灰色关联分析的具体计算步骤如下: 第一步:确定分析数列。 确定反映系统行为特征的参考数列和影响系统行为的比较数列。反映系统行为特征的数据序列,称为参考数列。影响系统行为的因素组成的数据序列,称比较数列。 设参考数列(又称母序列)为Y={Y(k) | k= 1,2,Λ,n};比较数列(又称子序列)X i={X i(k) | k = 1,2,Λ,n},i= 1,2,Λ,m。 第二步,变量的无量纲化 由于系统中各因素列中的数据可能因量纲不同,不便于比较或在比较时难以得到正确的结论。因此在进行灰色关联度分析时,一般都要进行数据的无量纲化处理。

灰色关联分析法原理及解题步骤教学提纲

灰色关联分析法原理及解题步骤

灰色关联分析法原理及解题步骤 ---------------研究两个因素或两个系统的关联度(即两因素变化大小,方向与速度的相对性) 关联程度——曲线间几何形状的差别程度 灰色关联分析是通过灰色关联度来分析和确定系统因素间的影响程度或因素对系统主行为的贡献测度的一种方法。 灰色关联分析的基本思想是根据序列曲线几何形状的相似程度来判断其联系是否紧密 1>曲线越接近,相应序列之间的关联度就越大,反之就越小 2>灰色关联度越大,两因素变化态势越一致 分析法优点 它对样本量的多少和样本有无规律都同样适用,而且计算量小,十分方便,更不会出现量化结果与定性分析结果不符的情况。 灰色系统关联分析的具体计算步骤如下 1》参考数列和比较数列的确定 参考数列——反映系统行为特征的数据序列 比较数列——影响系统行为的因素组成的数据序列 2》无量纲化处理参考数列和比较数列 (1)初值化——矩阵中的每个数均除以第一个数得到的新矩阵

(2)均值化——矩阵中的每个数均除以用矩阵所有元素的平均值得到的新矩阵 (3)区间相对值化 3》求参考数列与比较数列的灰色关联系数ξ(Xi) 参考数列X0 比较数列X1、X2、X3…………… 比较数列相对于参考数列在曲线各点的关联系数ξ(i) 称为关联系数,其中ρ称为分辨系数,ρ∈(0,1),常取0.5.实数第二级最小差,记为Δmin。两级最大差,记为Δmax。为各比较数列Xi曲线上的每一个点与参考数列X0曲线上的每一个点的绝对差值。记为Δoi(k)。所以关联系数ξ(Xi)也可简化如下列公式: 4》求关联度ri 关联系数——比较数列与参考数列在各个时刻(即曲线中的各点)的关联程度值,所以它的数不止一个,而信息过于分散不便于进行整体性比较。因此有必要将各个时刻

灰色关联分析法原理及解题步骤

灰色关联分析法原理及解题步骤 ---------------研究两个因素或两个系统的关联度(即两因素变化大小,方向与速度的相对性) 关联程度——曲线间几何形状的差别程度 灰色关联分析是通过灰色关联度来分析和确定系统因素间的影响程度或因素对系统主行为的贡献测度的一种方法。 灰色关联分析的基本思想是根据序列曲线几何形状的相似程度来判断其联系是否紧密 1>曲线越接近,相应序列之间的关联度就越大,反之就越小 2>灰色关联度越大,两因素变化态势越一致 分析法优点 它对样本量的多少和样本有无规律都同样适用,而且计算量小,十分方便,更不会出现量化结果与定性分析结果不符的情况。 灰色系统关联分析的具体计算步骤如下 1》参考数列和比较数列的确定 参考数列——反映系统行为特征的数据序列 比较数列——影响系统行为的因素组成的数据序列 2》无量纲化处理参考数列和比较数列 (1)初值化——矩阵中的每个数均除以第一个数得到的新矩阵

(2)均值化——矩阵中的每个数均除以用矩阵所有元素的平均值得到的新矩阵 (3)区间相对值化 3》求参考数列与比较数列的灰色关联系数ξ(Xi) 参考数列X0 比较数列X1、X2、X3…………… 比较数列相对于参考数列在曲线各点的关联系数ξ(i) 称为关联系数,其中ρ称为分辨系数,ρ∈(0,1),常取0.5.实数第二级最小差,记为Δmin。两级最大差,记为Δmax。为各比较数列Xi曲线上的每一个点与参考数列X0曲线上的每一个点的绝对差值。记为Δoi(k)。所以关联系数ξ(Xi)也可简化如下列公式: 4》求关联度ri 关联系数——比较数列与参考数列在各个时刻(即曲线中的各点)的关联程度值,所以它的数不止一个,而信息过于分散不便于进行整体性比较。因此有必要将各个时刻(即曲线

灰色关联度分析解法及详细例题解答

1.地梭梭生长量与气候因子的关联分析 下表为1995年3年梭梭逐月生长量(X0)、月平均气温(X1)、月降水量(X2)、月日照(X3)时数和月平均相对湿度(X4)的原始数据,试排出影响梭梭生长的关联序,并找出主要的影响因子。 灰色系统理论提出了灰色关联度的概念,它是提系统中两个因素关联性大小的量度,关联度的大小直接反映系统中的各因素对目标值的影响程度。运用灰色关联分析法进行因素分析的一般步骤为: 第一步:确定分析数列。 确定反映系统行为特征的参考数列和影响系统行为的比较数列。反映系统行为特征的数据序列,称为参考数列。(Y)设参考数列(又称母序列)为Y = {Y (k)| k = 1,2,Λ,n};影响系统行为的因素组成的数据序列,称比较数列。(X)比较数列(又称子序列)Xi = {Xi(k)| k = 1,2,Λ,n},i = 1,2,Λ,m。 第二步,变量的无量纲化 由于系统中各因素列中的数据可能因量纲不同,不便于比较或在比较时难以得到正确的结论。因此为了保证结果的可靠性,在进行灰色关联度分析时,一般都要进行数据的无量纲化处理。 第三步,计算关联系数。X 0(k)与x i (k)的关联系数 记,则 ,称为分辨系数。ρ越小,分辨力越大,一般ρ的取值区间为(0,1),具体

取值可视情况而定。当时,分辨力最好,通常取ρ = 。 ξi(k)继比较数列xi的第k个元素与参考数列xo的第k个元素之间的关联系数。 第四步,计算关联度 因为关联系数是比较数列与参考数列在各个时刻(即曲线中的各点)的关联程度值,所以它的数不止一个,而信息过于分散不便于进行整体性比较。因此有必要将各个时刻(即曲线中的各点)的关联系数集中为一个值,即求其平均值,作为比较数列与参考数列间关联程度的数量表示,关联度ri公式如下: 第五步,关联度排序 关联度按大小排序,如果r1 < r2,则参考数列y与比较数列x2更相似。 在算出Xi(k)序列与Y(k)序列的关联系数后,计算各类关联系数的平均值,平均值ri就称为Y(k)与Xi(k)的关联度。 本题解答过程: 第一步:数据处理 X 0(k)= {,,,,13,,18,,,,8,1 } X 1(k)= {,,10,,,,,,22,18,, } X 2(k)= {17,,,,,,,,,,, } X 3(k)= {,,,137,,,,,,84,, } X 4(k)= {81,79,75,75,77,79,83,86,83,82,81,82}

气象资料孤立点分析决策树聚类分析关联规则分析

气象资料孤立点分析决策树聚类分析关联规则分析气数挖气研象资料资文,据掘技资在象资料分析中资用究 【中文摘要】象资料的容量和资域资资的推移不增资和拓资气随断,形成 了资料山和资料迷资。如何有效地利用资些资料是象资域工作者面资的一气个很数大资资。资资的资算机资域中的资理方法是资资理资资大资模的据集, 因此必 资借助于据掘技资。本文首先资述了目前外据掘技资在象数挖国内数挖气 资料分析中的究和资用资研状,资述了据掘技资资用于象资料分析中取数挖气得的成果和不足。其次,资包资市资资3年逐小资的象据建立多资据集气数数, 利用据洗、据集成、据资资和据消四资主要的据资理方法资数清数数数减数气数数象资料多资据集资行据资资理,以提高据掘资象的资量数挖,最资并达到提高据掘所资模式、知资、资资等资量的。然后数挖,本文主要究了以下研四资主要的据掘技资在象资料分析中的资用数挖气:利用孤立点分析技资 分析象资料资中出资的常资资集气异,资掘了一些常象资度资和常资资集异气异; 采用策资模型建立了降雨资资模型和资染因子资度资是否超资模型决,掘出挖了资如在何资象件下气条,资染物的资度超资等资资资资会;采用聚资分析资象资气 料资行分资,以便于资资各资象特征气,提出了一资基于资资廓的资次聚资方法,并 利用基于资资廓的资次聚资方法资象据资行了聚资分析气数,资明了算法... 【英文摘要】The capacity and field of meteorological data are growing and expanding rapidly as time goes by, forming Data Mountains

灰色关联聚类剖析

灰色关联聚类 灰色系统基本概念:我们将信息完全明确的系统称为白色系统,信息完全未知的系统称为黑色系统,部分信息明确、部分信息不明确的系统称为灰色系统。 灰色关联聚类是根据灰色关联矩阵将一些观测指标或观测对象聚集成若干个可以定义类别的方法。灰色关联聚类主要用于同类因素的归并,以使复杂系统简化。由此,我们可以检查许多因素中是否有若干个因素关系十分密切,使我们既能够用这些因素的综合平均指标或其中的某一个因素来代表这几个因素,又可以使信息不受到严重损失,从而使得我们在进行大面积调研之前,通过典型抽样数据的灰色关联聚类,可以减少不必要变量(因素)的收集,以节省成本和经费。 一、灰色关联聚类的基本方法 灰色关联聚类实际上是利用灰色关联的基本原理计算各样本之间的关联度,根据关联度的大小来划分各样本的类型。 其计算的原理和方法如下。 现设有m个样本,每个样本有n个指标,并得到如下序列: X1 = ( x1(1), x1(2), …, x1(n)) X2 = ( x2(1), x2(2), …, x2(n))

……………………………. X m = ( x m (1), x m (2), …, x m (n)) 对所有的i ≤j ,i, j=1,2,…,m ,计算出X i 与X j 的绝对关联度ij ε,从而得到上三角矩阵A 。 A=??????????? ?mm 2m 221m 1211 εεεεεε ,其中εii =1;i=1,2,…,m ; 灰色绝对关联度计算方法: 设母序列{X 0}与子序列{X i }长度相同,它们分别为: ))(,),2(),1((0000n x x x X = ))(,),2(),1((n x x x X i i i i = 则其相应的始点零化序列为: ))(,),2(),1((00000000n x x x X = ))(,),2(),1((0000n x x x X i i i i = 式中:)1()()(0000 x k x k X -= )1()()(0i i i x k x k X -= 则X 0与X i 的灰色绝对关联度的计算公式为

最新2灰色关联分析汇总

2灰色关联分析

精品资料 仅供学习与交流,如有侵权请联系网站删除 谢谢2 2 灰色关联分析方法 在实际问题中,许多因素之间的关系是灰色的,人们很难分清哪些因素是主导因素,哪些因素是非主导因素;哪些因素之间关系密切,哪些不密切。灰色关联分析,为我们解决这类问题提供了一种行之有效的方法。 一、灰色关联分析概述 我们知道,统计相关分析是对因素之间的相互关系进行定量分析的一种有效方法。但是,我们也注意到相关系数具这样的性质: xy yx r r =,即因素y 对因 素x 的相关程度与因素x 对因素y 的相关程度相等。暂且不去追究因素之间的相关程度究竟有多大。单就相关系数的这种性质而言,也是与实际情况不太相符的。譬如,在国民经济问题研究中,我们能将农业对工业的关联程度与工业对农业的关联程度等同看待吗?其次,由于地理现象与问题的复杂性,以及人们认识水平的限制,许多因素之间的关系是灰色的,很难用相关系数比较精确地度量其相关程度的客观大小。为了克服统计相关分析的上述种种缺陷,灰色系统理论中的灰色关联分析给我们提供了一种分析因素之间相互关系的又一种方法。 灰色关联分析,从其思想方法上来看,属于几何处理的范畴,其实质是对反映各因素变化特性的数据序列所进行的几何比较。用于度量因素之间关联程度的关联度,就是通过对因素之间的关联曲线的比较而得到的。 设x 1,x 2,…,x N 为N 个因素,反映各因素变化特性的数据列分别为 {x 1(t)},{x 2(t)},…{x N (t)},t=1,2,…,M 。因素j x 对i x 的关联系数定义为 min max max ()1,2,3,,(1)()ij ij k t t M t k ξ?+?==?+? (5)式中,ξij (t)为因素j x 对i x 在t 时刻的关联系数; max min ()|()()|,max max (),min min ();ij i j ij ij j j j j t x t x t t t ?=-?=??=?k 为介于[0,1]区间上的灰数。不难看出,△ij (t)的最小值是min ?,

层次分析法和灰色聚类分析法在绩效评价中的应用

层次分析法和灰色聚类分析法在绩效评估中的应用 施狄峰 摘要 绩效考核的评估是帮助企业维持和提高生产力、实现企业经营目标的手段之一,它一个复杂的大系统,一般企业的绩效评估是建立在关键考核指标得分乘以权系数的线性关系的基础上,但如果有两个下属分公司考核得分分别是97分和94分,究竟它们都属于优,还是一个是优、一个是良,原先的方法显然无法判断。笔者运用运筹学决策分析法的层次分析法和灰色系统理论的灰聚类法两种方法对绩效加以评估,能将被考核企业的经营情况很清楚地区分开来,分类排序出来。 关键词 绩效评估 层次分析法 灰色聚类分析法 设以某公司下属11个分公司绩效考核情况数据为例,记为K C B A i ,, ;并选取经营效绩考核中三个指标记为* * * 3,2,1。 一、用层次分析法: 1、权重设置: 123ij 2所示系数。 得到矩阵A=(a ij )3×3矩阵A 为经营效绩的判断矩阵。 A= 相应的特征向量为: B 3=( 0.45 0.40 0.15 )T 得出3个考核指标权重分别为0.45、0.40、0.15

2、类似地根据表3可用特征向量法求下属11个分公司相对于上述3个指标中每一个的权系数。成对比较的 指标*1: 表4 指标*2:

表5 指标*3: 表6 3、由此可求出3个指标的相应特征向量,按列组成矩阵B3。 B3= 若记B k为第k层次上所有因素相对于上一层上有关因素的权向量按列组成的矩阵,则第k层次的组合权系数向量W k满足: W k=B k·B k-1··········B2·B1 由W3=B3B2=(0.0938 0.1050 0.0815 0.0944 0.1013 0.0721 0.0926 0.0965 0.0979 0.0745 0.0903 )T 可以得出以下11个分公司经营绩效排名:

灰色预测灰色关联分析报告

灰色关联分析法 根据因素之间发展趋势的相似或相异程度,亦即“灰色关联度”,来衡量因素间关联程度。灰色关联分析法的基本思想是根据序列曲线几何形状的相似程度来判断其联系是否紧密。 根据评价目的确定评价指标体系, 为了评价×××我们选取下列评价指标: 收集评价数据(此步骤一般为题目中原数据,便省略) 将m 个指标的n 组数据序列排成m*n 阶矩阵: '' ' 12''' '''1212''' 1 2(1)(1)(1)(2)(2)(2)(,,,)()() ()n n n n x x x x x x X X X x m x m x m ?? ? ? = ? ? ??? 对指标数据进行无量纲化 为了消除量纲的影响,增强不同量纲的因素之间的可比性,在进行关联度计 算之前,我们首先对各要素的原始数据作...变换。无量纲化后的数据序列形成如下矩阵: 01010101(1)(2) (1)(2)(2)(2)(,,,)()()()n n n n x x x x x x X X X x n x n x n ?? ? ?= ? ??? 确定参考数据列 为了比较...【评价目的】,我们选取...作为参考数据列,记作 ''''0000((1),(2),,())T X x x x n = 计算0()()i x k x k -,得到绝对差值矩阵 求两级最小差和两级最大差 01 1min min ()()min(*,*,*,*,*,*)*n m i i k x k x k ==-== 01 1 max max ()()max(*,*,*,*,*,*)*n m i i k x k x k ==-== 求关联系数 由关联系数计算公式0000min min ()()max max ()() ()()()max max ()() i i i k i k i i i i k x k x k x k x k k x k x k x k x k ρζρ-+?-= -+?-,取 0.5ρ=,分别计算每个比较序列与参考序列对应元素的关联系数,得关联系数如 下:

灰色关联分析中分辨系数的选取_申卯兴

第4卷第1期 空 军 工 程 大 学 学 报(自然科学版)V ol .4No .12003年2月JOURNAL OF AIR FOR C E ENGINEERING UNIVERSIT Y (NATURAL SC IENCE EDI TION )F eb .2003 灰色关联分析中分辨系数的选取 申卯兴1, 薛西锋2, 张小水1 (1.空军工程大学导弹学院,陕西三原 713800;2.西北大学数学系,陕西西安 710069) 摘 要:通过论证灰色关联分析中分辨系数对灰色关联系数的影响,指出了选取分辨系数时应明确 的几个结论,将通常见诸于灰色关联分析文献中取分辨系数ρ=0.5改进为ρ=0.05,以提高灰色 关联分析的分辨率。 关键词:灰色关联分析;关联系数;分辨系数;分辨率 中图分类号:O159 文献标识码:A 文章编号:1009-3516(2003)01-0068-03 灰色关联分析已经在综合评判、聚类分析(如:工作业绩、工程效益、学术科研成果的评价,目标识别、系统效能分析等领域)等序列性数据的研究中得到了广泛应用。灰色关联系数、灰色关联度是灰色关联分析中最为基本的概念,对此已经有许多研究和推广。而最基本且经常应用的关联度是以灰色关联系数为基础的。在灰色关联系数中,灰色分辨系数是直接影响关联分析分辨率的一个因子,它的取值直接决定着灰色关联系数的分布状况。 1 问题背景 设参考序列为X 0={X 0(k ) k =1,2,…,n },比较序列为,X i ={X i (k ) k =1,2,…,n },i =1,2,……,m ,则灰色关联系数定义为[1] ξi (k )=min i min k Δi (k )+ρmax i max k Δi (k )Δi (k )+ρmax i max k Δi (k )(1) 其中Δi (k )= X 0(k )-X i (k ) ,i =1,2,…,m ,ρ∈(0,+∞)称为分辨系数。 显然,灰色关联系数ξi ( k )的值直接与分辨系数ρ的值有关,而ρ是独立于X 0,X i 之外的人为取值的一个常数。常见的文献中指出取ρ∈[0,1],在具体应用中都常取ρ=0.5,也有文献指出“当ρ≤0.5463时,比较容易观察关联度分辨率的变化”,“根据经验,一般取ρ≤0.5最恰当”。文献[2]、[3]都指出了ρ=0.5的不合理性。那么,到底ρ通常取值为多大才算合适,ρ的取值怎样影响灰色关联系数ξi (k )的值呢?这是在进行灰色关联分析中必须面对的一个问题。 2 ρ对ξi ( k )的影响的分析简记max i max k Δi (k ) max ,min i min k Δi (k ) min ,式(1)变为ξi (k )=min +ρmax Δi (k )+ρmax 从而, ξi (k )=1Δi (k )=min 时 ρmin max 1+ρ≥ρ1+ρΔi (k )=max 时 (i =1,2,…,m ) 收稿日期:2002-06-24  基金项目:国家“高等学校骨干教师计划”资助项目(GG -1105-90039-1004) 作者简介:申卯兴(1961-),男,陕西合阳人,教授,主要从事防空作战决策分析及其优化理论与方法研究.

数据挖掘--课程报告(关联规则、聚类等)

数据挖掘结课报告 学院:专业:学号:姓名: 摘要:数据挖掘(Data Mining)是利用一种或多种计算机学习技术,从数据中自动分析并提取信息的处理过程。数据挖掘的目的是寻找和发掘数据中潜在的有价值的信息、知识、规律、联系和模式。它是当前热门的、具有广阔商业应用前景的一个研究领域。本文笔者结合专业所学,简单介绍了数据挖掘在本专业应用。并做了数据挖掘试验工作,分析了相应结果。 关键词:数据挖掘;地球物理;分类预测;聚类分析;关联规则 §1 介绍 国内外的数据挖掘技术的应用研究,均只是从数据驱动的角度实施挖掘过程,而忽略了领域专家的所具有的专业背景知识,缺乏人机交互机制。因此,根据各种地球物理勘探数据的特征,从勘探领域模型驱动的角度出发,引入数据挖掘技术,确定其挖掘思路,建立各种挖掘方法之间的联系,利用其数学模型和数学分析方法从海量的数中获得最大增益信息来指导勘探,不仅是数据的需要,更重要的是为地球物理勘探提供了一种高效率、高精度、低成本、高回报的新方法[1]。在国内,部分学者将数据挖掘这门新方法在地球物理应用领域进行了积极探索[1-3]。李雄炎等[1](2009)在石油天然气勘探领域进行了数据挖掘应用探索。朱传华等[3](2010)应用数据挖掘技术,从滑坡灾害历史数据中挖掘出有利于滑坡灾害预测预报的有效信息,为预警指挥系统服务。可以说,数据挖掘在地球物理方面的应用前景较好,但需要国内外学者进一步探索,发挥交叉学科作用,使数据挖掘可以服务于地球物理领域。本文仅利用老师提供的非地球物理资料样本,操作weka进行一些简单实验,熟悉数据挖掘方法。 §2实验 2.1 分类预测 分类是以寻找一个分类函数或者建立一个分类模型为目的[4-6]。其中决策树算法则是数据挖掘领域中研究分类问题最常见的方法,本文将以J48(C4.5)和Naive Bayes为例进行试验,本次实验笔者选择的数据样本均为zoo.arff,结果如下图1所示。

灰关联聚类方法

灰关联聚类方法 以往,人们对多因素的复杂系统进行多维综合评估分析,已作了大量的理论研究和实践探索。如因素关联分析,模糊聚类,系统聚类,灰色聚类等。这里把灰关联分析和聚类思想方法进行融会、扩充,创立了“灰关联聚类方法”,既区别于关联分析,又非是一般的聚类方法,它是把灰关联度演化成刻划待评对象之间的亲和度,进行聚类分析的新方法。该方法与一般的聚类方法相比,具简洁性、有效性、灵活性、普适性等特点。 (一)聚类原理简介 该方法是以灰色相似矩阵为基本信息的聚类分析方法,灰色相似矩阵记为G: G= g11g12 (1) g21g22 (2) ┇┇g m1g m2…g mm 其中: g ij=(γij+γji)/2 (8-7)由于矩阵G中的元素显然满足: ①自反性:g ii=1; ②对称性:g ij=g ji; 则{γij }i,j=1,2,…,m;定义为关联矩阵Г Г= γ11γ12 (1) γ21γ22 (2) ┇┇γm1γm2…γmm 其中,γij即是以第i个评估对象的指标序列为参考序列,以第j个评估对象的指标序列为比较序列的关联度。 设对待分析评估系统S i(i=1,2,…,m),其特征参量(指标)序列为X i; X i=(x i1,x i2,…,x in) 又有参考特征参量(指标)序列X0;

X 0=(x 01,x 02,…,x 0n ) 则实数ζi (k )= | )()(|max max |)()(|| )()(|max max |)()(|min min 0000k X k X k X k X k X k X k X k X i k i i i k i i k i -+--+-σσ (8-8) 为X i 对X 0在第k 点的关联系数。σ为分辨系数,一般在0到1之间选取。称实数γi 为X i 对于X 0和关联度。 γi = ∑=n j i k n 1 )(1 ξ (8-9) (二)示例 以《卫生统计》(1993.6)数据为基本信息资料(表8-10),对其10个少数民族人口素质进行聚类分析。 (1) 聚类基础的构成 表8-10 少数民族人口素质基本指标数据 注:“↑”表示指标值越大越好;“↓”表示指标值越小越好。 根据待分析问题的实质,有分析域S S =(S 1,S 2,…,S 10)

灰色聚类方法

灰色聚类分析过程: 首先将七种配方的浆纱记为聚类对象,如表2-12所示。 表中的四项指标记为聚类指标,将综合性能分为好、中、差三种,记为k 1、k 2、k 3三个灰类,聚类过程如下: (1) 将表2-12中的数据按式(2-1)进行均值化无量纲处理,得到聚类白化数矩阵[]m n X ij ?其中n 为聚类对象数,m 为聚类指标数; (2) 将n 个对象关于聚类指标j (j=1, 2,……,m )的取值相应地分为s 个灰类(s=k 1、k 2、k 3 ),称为j 指标子类; ∑ =λ= n 1 i k j ij ij n 1d X (2-1) (3) 根据灰类的定义规定j 指标k 子类的白化权函数,根据白化权函数,定义λ j k 为j 指标k 子类临界值,并按式(2-2)计算j 指标k 子类的权k j η; ∑=λ λ= ηm 1 j k j k j k j (2-2) (4)对于白化权函数矩阵,根据白化权函数和权值,按式(2-3)i 对象属于k 灰类的灰色聚类函数k i σ ()η ?=σ∑=k j ij m 1 j k ij k i x f (2-3) 计算聚类系数矩阵()ns k i σ,根据聚类系数矩阵评价对象i 所属的灰类。 2.5.2.10 灰色聚类结果与分析 根据公式(2—1)得均一化值为:

? ? ? ? ? ? ? ? ? ?? ? ?? ??? ?? ? ??=9336.00228 .16628 .01895 .19544.01986.16839.01075.11302.11187.12672.18680.00737.11347.12310.11075.11930.11027.13056.19446.00225 .15274.01968.17469.06927.08950.06528.00360.1ij X 根据公式(2-2)得权的值为: ??? ? ? ? ? ??? ?? ? ?=2531.02500 .02475.02452.02500.02540.02460.02500.02533.02557.02500.02453.0k j η 对所测数据进行灰色聚类分析,计算得到聚类系数 ? ? ? ? ? ?? ? ? ?? ? ?? ??? ?? ? ??=2434.03722 .03300 .02247.02337.05262.01792.01239.08017.002137.09252.00819.02494.08112.03203 .02290.03292.04148.03315.00695.0k i σ 对于k i σ择取最大值者为聚类灰数,上面列出七种绷带的聚类系数值,最大值为下划线所示值。根据聚类原则,从我们所列的四种指标来评定,可以得出结论:2~6号绷带压力舒适性好,7号绷带的压力舒适性中等,1号绷带的压力舒适性最差,压力舒适性好的绷带在包扎伤口时不会妨碍病人的肢体运动,不会影响血液的循环流动,不会压迫到神经,骨骼,内脏等,有利于伤口的恢复。

相关文档