文档库 最新最全的文档下载
当前位置:文档库 › 模糊聚类分析应用

模糊聚类分析应用

模糊聚类分析应用
模糊聚类分析应用

本科生毕业论文(设计)

( 2011 届)

论文(设计)题目模糊聚类分析应用

作者舒海波

系、专业理学分院数学与应用数学

班级应数072

指导教师(职称)何颖俞(讲师)

字数 9403 字

成果完成时间2011年4月10日

杭州师范大学钱江学院教学部制

模糊聚类分析应用

数学与应用数学专业0702班指导教师何颖俞

摘要:模糊聚类简单而言就是把数据中的指标分类。本文利用的是最大树法对等价矩阵进行聚类,然后利用fcm法对相似矩阵的求法进行比较。

关键字:模糊聚类,等价矩阵,最大树,相似矩阵

The application of fuzzy clustering

Shuhaibo Instructor: HeYingYu

Abstract: Fuzzy clustering is a method to classify the given data based on some indexes. In this paper I use the method of the maximal tree to classify the equivalent matrix, and then use clustering analysis method of FCM to comparison the solutions of the similar matrices.

Key word: fuzzy clustering, equivalence matrix, the maximal tree, similar matrix

目录

1 绪论 (1)

2模糊聚类分析方法 (1)

2.1距离和相似系数 (1)

2.2 F相似关系 (2)

2.2.1定义 (2)

2.2.2 定理 (2)

2.3 聚类分析 (3)

2.3.1最大树法 (4)

3算法分类 (4)

3.1聚类方法的分类 (5)

3.1.1划分方法(partitioning method) (5)

3.1.2层次方法(hierarchical method) (5)

3.1.3基于密度的方法(density-based method) (5)

3.1.4基于网格的方法(grid-based method) (5)

3.1.5基于模型的方法(model-based method) (5)

3.2.数据挖掘领域中常用的聚类算法 (5)

3.2.1 CLARANS算法(随机搜索聚类算法) (5)

3.2.2 CURE算法(利用代表点聚类) (6)

3.2.3 BIRCH算法(利用层次方法的平衡迭代归约和聚类) (6)

3.2.4 DBSCAN算法(基于高密度连接区域的密度聚类方法) (6)

3.2.5 STING算法(统计信息风格) (7)

3.2.6 COBWEB算法(流行的简单增量概念聚类算法) (7)

3.2.6 模糊聚类算法FCM (8)

3.3 聚类算法的性能比较 (8)

4实际应用 (9)

5总结 (13)

参考文献: (13)

致谢 (15)

附录 (16)

模糊聚类分析应用

数学与应用数学专业072班舒海波指导教师何颖俞

1 绪论

聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。严格的数学定义是较麻烦的,在不同问题中类的定义是不同的。

聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。后来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。

在社会经济领域中存在着大量分类问题,比如对我国30个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市自治区去分析,而较好地做法是选取能反映企业经济效益的代表性指标,如百元固定资产实现利税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对30个省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。又比如若对某些大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有用的数学工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。

值得提出的是将聚类分析和其它方法联合起来使用,如判别分析、主成分分析、回归分析等往往效果更好。

聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。本文主要介绍模糊聚类法。

2模糊聚类分析方法

2.1距离和相似系数

为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。但相似系数和距离有各种各样的定义,而这些定义与变量的类型关系极大,因此先介绍变量的类型。

由于实际问题中,遇到的指标有的是定量的(如长度、重量等),有的是定性的(如性别、职业等),因此将变量(指标)的类型按以下三种尺度划分:

间隔尺度:变量是用连续的量来表示的,如长度、重量、压力、速度等等。在间隔尺度中,如果存在绝对零点,又称比例尺度,本书并不严格区分比例尺度和间隔尺度。

有序尺度:变量度量时没有明确的数量表示,而是划分一些等级,等级之间有次序关系,如某产品分上、中、下三等,此三等有次序关系,但没有数量表示。

名义尺度:变量度量时、既没有数量表示,也没有次序关系,如某物体有红、黄、白三种颜色,

又如医学化验中的阴性与阳性,市场供求中的“产”和“销”等。

不同类型的变量,在定义距离和相似系数时,其方法有很大差异,使用时必须注意。研究比较多的是间隔尺度,因此本章主要给出间隔尺度的距离和相似系数的定义。

设有n 个样品,每个样品测得p 项指标(变量),原始资料阵为

p

x x x np n n p

p n x x x x x x x x x X X X X 2

1

22221

11211

2121

??????

?

???????=

其中(1,,;1,,)ij x i n j p == 为第i 个样品的第j 个指标的观测数据。第i 个样品i X 为矩阵X 的第i 行所描述,所以任何两个样品X K 与X L 之间的相似性,可以通过矩阵X 中的第K 行与第L 行的相似程度来刻划;任何两个变量K x 与L x 之间的相似性,可以通过第K 列与第L 列的相似程度来刻划。

2.2 F 相似关系 2.2.1定义

设)(U U F R ?∈,如果具有自反和对称关系,则称R 为U 上的一个F 相似关系(F 表示模糊) 当论域U 为有限时,F 相似关系可以用F 矩阵表示。具有F 相似关系的矩阵,称为F 相似矩阵。在实际应用时,通常只能得到自反矩阵和对称举证,即相似矩阵。现在的问题是对具有相似关系的元素怎样进行分类,也就是如何将相似矩阵改造为等价矩阵。

2.2.2 定理

若T R R =,则称R 为对称矩阵。(1)

若R I ?(I 是单位矩阵),则称R 为自反矩阵。(2) 若2

R R ?,则称R 为传递的F 关系。(3) 若满足上面三点则称为等价矩阵。

定理1:相似矩阵n n R u ?∈的传递闭包是等价矩阵,且n R R ∧

=。

证 只需要证明R ∧

是自反的、对称的。

因R 是自反的,故R I ?,2R R ?。不难得到n

R 不减,因此1

n

k

n

k R R

R I ∧

===? ,即R ∧

是自

反的。

因为T

R R =,()()n

T

T

n

n

R R R ==,故R ∧

是对称的。

有定理1可见,要想将相似矩阵改变为等价矩阵,只需求相似矩阵的传递闭包。 定理2:设n n R u ?∈是自反矩阵,则任意自然数m n ≥,都有

m

R R ∧

=

证 由R 自反性推得

2

......n

R R R ????

当m n ≥时,有

1

n

m

k k R R R R R ∞

==??=

2.3 聚类分析

所谓聚类分析,就是用数学的方法对事物进行分类,它有广泛的实际应用。在模糊数学产生之

前,聚类分析已是数理统计多元分析的一个分支,然而现实的分类问题往往伴有模糊性。例如,环境污染分类、春天连阴雨预报、临床症状资料分类、岩石分类,等等。对这些伴有模糊性的聚类问题,用模糊数学语言来表达更为自然。 模糊聚类分析的步骤: 第一步 建立模糊相似关系。

设12{,,,}n U u u u =?为待分类的全体。其中每一待分类对象由一组数据表征如下:

12(,,...,)m i i i i u x x x =

现在的问题是如何建立i u 和j u 之间的相似关系。这有许多方法(这里选一些,列在下面),我们可以按照实际情况,选其中一种来求i u 与j u 的相似关系(,)i j ij R u u r =。

数量积法

1

1

1

.k

k

m

ij i j k i j

r x

x i j

M ==??=?≠??

∑当当

其中M 为一适当选择之正数,满足

,1

m ax (.)k k m

i j i j

k M x x =≥∑

相似系数法

12

2

1

1

||||

().

()

k

k k

k

m

i i j j k ij m

m

i i j j k k x

x x x r x

x x

x ===--=

--∑∑∑

其中 1

1

1

1

1

,k

k

m

i i j j k k x x x x m

m

====

∑∑

最大最小法

11

m in(,)

m ax(,)

k

k k

k m

i j k ij m i j k x

x r x

x ===

∑∑

算术平均最小法

1

1

m in(,)

1

()

2

k

k k

k m

i j k ij m

i j k x

x r x x ===

+∑∑ 几何平均最小法

1

1

m in(,)

.k

k k k

m

i j k ij m

i j k x

x r x x ===

∑∑

绝对值指数法

1

||

m

i j k k k x x ij r e

=-

-∑=

绝对值减数法

11

1||

k k m

ij i j k i j r c x x i j

==??=?

--≠??

∑当当

其中,c 适当选取,使01ij r ≤≤。

选择上述哪一个方法好,要按实际情况而定。在实际应用时,最好采用多种方法,选取分类最

符合实际的结果。 第二步 改造相似关系为等价关系。

由第一步得到的矩阵R 一般只满足自反性和对称性,即R 是相似矩阵,需将它改造成模糊等价

矩阵。为此,采用平方法求出R 的传递闭包?R

,?R 便是所求的模糊等价矩阵。通过?R 便可对U 进行分类。

2.3.1最大树法

在F 相似矩阵R 中,按ij r 的大小顺序依次用直线将元素连接起来,并标上权重。若在某一步出

现回路,便不画这一步,直到所有元素连通为止。这样,就得到一颗所谓的最大树(可以不唯一)。取定λ,去掉权重低于λ的连线,即可将元素分类,互相连通的元素归为一类。

3算法分类

聚类算法大体可以划分为以下几类:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。

3.1聚类方法的分类

3.1.1划分方法(partitioning method)

给定一个包含n个数据对象或元组的数据库,一个划分方法构建数据的c个划分,每个划分表示一个簇,且n

c 。通常会采用一个划分准则(经常称为相似度函数),例如距离,以便在同一个簇中的对象是“相似的”,在不同簇中的对象是“相异的”。这些聚类方法对在中小规模的数据库中发现球状簇很适用。为了对大规模的数据集进行聚类,以及处理复杂形状的聚类,基于划分的方法需要进一步的扩展。

3.1.2层次方法(hierarchical method)

层次方法对给定数据对象集合进行层次的分解。根据层次分解是自底向上还是自顶向下形成,层次聚类的方法可以进一步分为凝聚的和分裂的。层次聚类方法的缺陷在于,一旦一个步骤(合并或分裂)完成,它就不能被撤消,因此而不能更正错误的决定。改进层次方法的聚类质量的一个有希望的方向是将层次聚类和其他聚类技术进行集成,形成多阶段聚类。

3.1.3基于密度的方法(density-based method)

提出了基于密度的聚类方法是为了发现任意形状的聚类结果。其主要思想是:只要临近区域的密度超过某个阈值,就继续聚类。这样的方法可以用来过滤“噪声”孤立点数据,发现任意形状的簇。

3.1.4基于网格的方法(grid-based method)

基于网格的聚类方法采用一个多分辨率的网格数据结构。把对象空间量化为有限数目的单元,形成了一个网格结构。所有的聚类操作都在这个网格结构上进行。这种方法的主要优点是它的处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。

3.1.5基于模型的方法(model-based method)

基于模型的方法为每个簇假定了一个模型,寻找数据对给定模型的最佳拟合。基于模型的算法可能性通过构建反映数据点空间分布的密度函数来定位聚类。这种聚类方法试图优化给定的数据和某些数学模型之间的适应性。

3.2.数据挖掘领域中常用的聚类算法

3.2.1 CLARANS算法(随机搜索聚类算法)

划分方法中最早提出的一些算法大多对小数据集合非常有效,但对大的数据集合没有良好的可伸缩性,如PAM。CLARA是基于C-中心点类型的算法,能处理更大的数据集合。CLARA算法不考虑整个数据集合,而是随机的选择实际数据的一小部分作为样本,然后用PAM方法从样本中选择中心点。这样从中选出的中心点很可能和整个数据集合中选出的非常近似。重复此方法,最后返回最好的聚类结果作为输出。

CLARANS是CLARA算法的一个改进算法。不像CLARA那样每个阶段选取一个固定样本,它在搜索的每一步都带一定随机性的选取一个样本,在替换了一个中心点后得到的聚类结果被称为当前聚类结果的邻居,搜索的邻居点数目被用户定义的一个参数加以限制。如果找到一个比它更好的邻居,

则把中心点移到该邻居节点上,否则把该点作为局部最小量。然后,再随机选择一个点来寻找另一个局部最小量。该算法的计算复杂度大约是)(n o ,n 是对象的数目。

3.2.2 CURE 算法(利用代表点聚类)

CURE 算法选择基于质心和基于代表对象方法之间的中间策略。该算法首先把每个数据点看成一簇,然后再以一个特定的收缩因子向中心“收缩”它们,即合并两个距离最近的代表点的簇。它回避了用所有点或单个质心来表示一个簇的传统方法,将一个簇用多个代表点来表示,使CURE 可以适应非球形的几何形状。另外,收缩因子降底了噪音对聚类的影响,从而使CURE 对孤立点的处理更加健壮,而且能识别非球形和大小变化比较大的簇。CURE 的复杂度是)(n o ,n 是对象的数目。

3.2.3 BIRCH 算法(利用层次方法的平衡迭代归约和聚类)

BIRCH 是一个综合的层次聚类方法。它用聚类特征和聚类特征树(CF )来概括聚类描述。描述如下:

对于一具有N 个d 维数据点的簇{i x

}(N ,…1,2,3,=i ),它的聚类特征向量定义为: CF = (N , S L

, SS )

其中N 为簇中点的个数;S L

表示N 个点的线性和(∑

=i N i o

1

),反映了簇的重心,SS 是数据

点的平方和(∑=N i i o 12

),反映了类直径的大小。

此外,对于聚类特征有如下定理:

定理1 假设),,(1111SS S L N CF =与),,(2222SS S L N CF

=分别为两个类的聚类特征,合并后

的新类特征为

),,(21212121SS SS S L S L N N CF CF +++=+

该算法通过聚类特征可以方便地进行中心、半径、直径及类内、类间距离的运算。

CF 树是一个具有两个参数分支因子B 和阈值T 的高度平衡树,它存储了层次聚类的聚类特征。 分支因子定义了每个非叶节点孩子的最大数目,而阈值给出了存储在树的叶子节点中的子聚类的最大直径。CF 树可以动态的构造,因此不要求所有的数据读入内存,而可在外存上逐个读入数据项。一个数据项总是被插入到最近的叶子条目(子聚类)。如果插入后使得该叶子节点中的子聚类的直径大于阈值,则该叶子节点及可能有其他节点被分裂。新数据插入后,关于该数据的信息向树根传递。可以通过改变阈值来修改CF 树的大小来控制其占内存容量。BIRCH 算法通过一次扫描就可以进行较好的聚类,故该算法的计算复杂度是)(n o ,n 是对象的数目。

3.2.4 DBSCAN 算法(基于高密度连接区域的密度聚类方法)

DBSCAN 算法可以将足够高密度的区域划分为簇,并可以在带有“噪声”的空间数据库中发现任意形状的聚类。该算法定义簇为密度相连的点的最大集合。 基于密度的聚类的基本思想有以下一些定义: · 给定对象半径ε内的区域为该对象的ε-邻域

· 如果一个对象的ε-邻域至少包含最小数目MinPts 个对象,则称该对象为核心对象。

· 给定一个对象集合D ,如果p 是在q 的ε-邻域内,而q 是一个核心对象,则称对象p 从对象q

出发是直接密度可达的。

· 如果存在一个对象链,,,,,,121p p q p p p p n n == 对1),1(,+≤≤∈i i p n i D p 是从i p 关于ε和MinPts 直接密度可达的,则对象p 是从对象q 关于ε和MinPts 密度可达的。

· 如果对象集合D 中存在一个对象o ,使得对象p 和q 是从o 关于ε和MinPts 密度可达的,那么

对象p 和q 是关于ε和MinPts 密度相连的。

DBSCAN 通过检查数据库中每个点的ε-邻域来寻找聚类。如果一个点p 的ε-邻域包含多于MinPts 个点,则创建一个以p 作为核心对象的新簇。然后反复地寻找从这些核心对象直接密度可达的对象,当没有新的点可以被添加到任何簇时,该过程结束。不包含在任何簇中的对象被认为是“噪声”。如果采用空间索引,DBSCAN 的计算复杂度是(log )O n n ,这里n 是数据库中对象数目。否则,计算复杂度是)(2n O 。

3.2.5 STING 算法(统计信息风格) STING (Statistaical Information Grid_based method )是一种基于风格的多分辨率聚类技术,它将空间区域划分为矩形单元。针对不同级别的分辨率,通常存在多个级别的矩形单元,这些单元形成了一个层次结构:高层的每个单元被划分为多个低一层的单元。高层单元的统计参数可以很容易地从低层单元的计算得到。这些参数包括:属性无关的参数count ;属性相关的参数m (平均值),s (标准偏差),min (最小值),max (最大值),以及该单元中属性值遵循的分布(distribution )类型。

STING 算法中由于存储在每个单元中的统计信息提供了单元中的数据不依赖于查询的汇总信息,因而计算是独立于查询的。该算法主要优点是效率高,且利于并行处理和增量更新。STING 扫描数据库一次来计算单元的统计信息,因此产生聚类的时间复杂度是)(n O ,基中n 是对象的数目。在层次结构建立后,查询处理时间是)(g O ,g 是最低层风格单元的数目,通常远远小于n 。

3.2.6 COBWEB 算法(流行的简单增量概念聚类算法)

概念聚类是机器学习中的一种聚类方法,大多数概念聚类方法采用了统计学的途径,在决定概念或聚类时使用概率度量。COBWEB 以一个分类树的形式创建层次聚类,它的输入对象用分类属性-值对来描述。

分类树和判定树不同。分类树中的每个节点对应一个概念,包含该概念的一个概率描述,概述被分在该节点下的对象。概率描述包括概念的概率和形如(|)i ij k P A V C =的条件概率,这里i ij A V =是属性-值对,k C 是概念类。在分类树某层次上的兄弟节点形成了一个划分。COBWEB 采用了一个启发式估算度量——分类效用来指导树的构建。分类效用定义如下:

n

V A P C V A P C P n k i

j

i

j

ij i k ij i k ∑

∑∑

==-

=1

2

2

]

)()|()[(

n 是在树的某个层次上形成一个划分{n C C C ,,,21 }的节点、概念或“种类”的数目。分类效

用回报类内相似性和类间相异性:

? 概率(|)i ij k P A V C =表示类内相似性。该值越大,共享该属性-值对的类成员比例就越大,更能

预见该属性-值对是类成员

? 概率(|)k i ij P C A V =表示类间相异性。该值越大,在对照类中的对象的共享该属性-值对就 少,更能预见该属性-值对是类成员

给定一个新的对象,COBWEB 沿一条适当的路径向下,修改计数,寻找可以分类该对象的最好节点。该判定基于将对象临时置于每个节点,并计算结果划分的分类效用。产生最高分类效用的位置应当是对象节点的一个好的选择。

3.2.6 模糊聚类算法FCM

以上介绍的几种聚类算法可以导出确定的聚类,也就是说,一个数据点或者属于一个类,或者不属于一个类,而不存在重叠的情况。我们可以称这些聚类方法为“确定性分类”。在一些没有确定支持的情况中,聚类可以引入模糊逻辑概念。对于模糊集来说,一个数据点都是以一定程度属于某个类,也可以同时以不同的程度属于几个类。常用的模糊聚类算法是模糊C 平均值FCM (Fuzzy C-Means )算法。该算法是在传统C 均值算法中应用了模糊技术。

FCM 算法中,用隶属度函数定义的聚类损失函数可以写为:

2

11

||||)]([j i c

j n

i b i j

f

m x x J

-=

∑∑==μ

, (3-1)

其中, 1>b 是一个可以控制聚类结果的模糊程度的常数。要求一个样本对于各个聚类的隶属度之和为1,即

∑==c

j i j x 1

1)(μ, n i ,,2,1 = (3-2)

在条件式(3-2)下求式(3-1)的极小值,令f J 对i m 和)(i j x μ的偏导数为0,可得必要条件:

∑∑===

n

i b

i j

n

i i

b

i j

j x x x m 1

1)]

([)]([μ

μ

, ,,,2,1c j = (3-3)

∑=----=

c

k b k i

b j i i j m x

m x x 1

)

1/(12

)

1/(12)

||||/1()

||||/1()(μ, n i ,,2,1 = c j ,,2,1 =。 (3-4)

用迭代法求解式(3-3)和式(3-4),就是FCM 算法。

当算法收敛时,就得到了各类的聚类中心和各个样本对于各类的隶属度值勤,从而完成了模糊聚类划分。

3.3 聚类算法的性能比较

基于上述的分析,下面对常用聚类算法的性能从可伸缩性、发现聚类的形状、对“噪声”的敏感性、对数据输入顺序的敏感性、高维性和算法效率六个方面进行比较,如表1所示。

表1 聚类算法比较

可伸缩性发现聚类的

形状

对“噪声”

的敏感性

对数据输入

顺序的敏感

高维

算法

效率

CLARANS 好凸形或球形不敏感非常敏感一般较低

CURE 较差任意形状不敏感敏感好较高

BIRCH 较差凸开或球形一般不太敏感好高

STING 好任意形状不敏感不敏感好高

DBSCAN 较好任意形状不敏感敏感一般一般

COBWEB 较好任意形状一般敏感好较低

FCM 好任意形状敏感不敏感好较高

由于数据挖掘在不同领域的应用对聚类算法提出了各自特殊的要求,表1则可以给聚类算法的研究和应用的选择提供参考。

4实际应用

具体问题如下:城市居民消费水平通常用1x:人均粮食支出(元/人),2x:人均副食支出(元/人),3x:人均烟、酒、饮料支出(元/人),4x:人均其他副食支出(元/人),5x:人均衣着支出(元/人),6x:人均日用杂品支出(元/人),7x:人均水电燃料支出(元/人),8x:人均其他非商品支出(元/人)。八项指标来描述,八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际就是指标聚类。原始数据列于表2

表2

1x2

x3

x4

x5

x6

x7

x8

x

北京21.30 124.89 35.43 73.98 93.01 20.58 43.97 433.73 天津21.50 122.39 29.08 51.64 55.04 11.30 54.88 288.13 河北18.25 90.21 24.45 35.44 62.48 7.45 47.50 178.84 山西21.84 66.38 18.05 31.32 74.48 8.19 34.97 177.45 内蒙古21.32 67.08 20.28 35.27 81.07 10.94 39.46 182.20 辽宁22.74 115.88 28.21 42.44 58.07 9.63 48.65 194.85 吉林20.22 88.94 18.54 35.63 65.72 8.81 50.29 186.52 黑龙江21.33 75.50 14.00 29.56 69.29 8.24 42.08 165.90 上海21.13 168.69 40.81 70.12 74.32 15.46 50.90 422.74 江苏18.61 122.51 27.07 42.50 63.47 15.38 36.14 240.92 浙江19.96 142.24 43.33 50.74 101.77 12.92 53.44 394.55 安徽19.61 107.13 32.85 35.77 61.34 7.53 34.60 142.23 福建25.56 171.65 22.30 40.53 57.13 12.60 54.03 225.08 江西18.75 104.68 15.55 35.61 51.80 11.18 36.27 142.72 山东18.27 88.34 19.07 43.19 72.98 12.59 42.16 200.18 河南19.07 73.18 18.01 29.38 64.51 8.91 38.14 155.45 湖北18.76 102.67 21.87 30.47 64.33 11.90 42.14 168.17 湖南20.25 104.45 20.72 38.15 62.98 12.67 39.16 213.56 广东23.68 173.30 17.43 43.59 53.66 16.86 65.02 385.94 广西18.70 131.35 11.69 32.06 41.54 10.84 42.77 178.51 海南16.16 139.92 12.98 23.58 24.87 10.76 32.35 144.21 重庆18.18 120.39 26.18 37.94 68.16 11.64 38.48 246.37

四川18.53 109.95 21.49 33.04 50.98 10.88 33.96 183.85 贵州18.33 92.43 25.38 32.19 56.32 14.00 38.57 144.82 云南22.30 99.08 33.36 32.01 52.06 7.04 32.85 190.04 西藏29.67 146.90 64.51 54.36 86.10 14.77 32.19 193.10 陕西20.03 70.75 19.75 34.95 53.29 10.55 38.20 189.41 甘肃18.68 72.74 23.72 38.69 62.41 9.65 35.26 170.12 青海20.33 75.64 20.88 33.86 53.81 10.06 32.82 171.32 宁夏19.75 70.24 18.67 36.71 61.75 10.08 40.26 165.22 新疆21.03 78.55 14.35 34.33 64.98 9.83 33.87 161.67 首先建立相似矩阵,在2.3中已经有过详细的描述具体的算法公式,这边不再细述,其中有7总相似矩阵的求法,相同的题目选取不同求相似矩阵的方法会有不同的聚类结果,因此方法的选取非常重要,要找出其中最好的一种,则要算出所有的相似矩阵然后聚类得到聚类结果,再对结果进行比较,找出最好的聚类结果。由于其中的步骤都是一样的,这边只选取两种相似关系的求法进行比较。选取的两种相似算法分别是相似系数法,绝对值减数法。

用相似系数法得到的相似矩阵如下(表3)

表3

1.0000 0.6965 0.7725 0.5341 0.6329 0.5642 0.6963 0.4411

0.6965 1.0000 0.6931 0.6681 0.6616 0.6783 0.8150 0.7303

0.7725 0.6931 1.0000 0.7472 0.7784 0.6385 0.6485 0.6530

0.5341 0.6681 0.7472 1.0000 0.7721 0.7880 0.5894 0.8716

0.6329 0.6616 0.7784 0.7721 1.0000 0.5779 0.6374 0.7360

0.5642 0.6783 0.6385 0.7880 0.5779 1.0000 0.6814 0.7999

0.6963 0.8150 0.6485 0.5894 0.6374 0.6814 1.0000 0.7353

0.4411 0.7303 0.6530 0.8716 0.7360 0.7999 0.7353 1.0000

用绝对值减数法得到相似矩阵如下(表4):

表4

1.0000 0.4819 0.8524 0.7581 0.6353 0.8325 0.7447 0.2251 0.4819 1.0000 0.4942 0.5419 0.6260 0.4555 0.5491 0.4238 0.8524 0.4942 1.0000 0.7804 0.6531 0.7983 0.7569 0.2333 0.7581 0.5419 0.7804 1.0000 0.7271 0.7058 0.8463 0.2639 0.6353 0.6260 0.6531 0.7271 1.0000 0.5987 0.7320 0.3163 0.8325 0.4555 0.7983 0.7058 0.5987 1.0000 0.6947 0.2072 0.7447 0.5491 0.7569 0.8463 0.7320 0.6947 1.0000 0.2684 0.2251 0.4238 0.2333 0.2639 0.3163 0.2072 0.2684 1.0000

其次对所求的相似矩阵进行改造使其成为等价矩阵

把相似系数法得到的相似矩阵改造成等价矩阵(表5)

表5

1.0000 0.6965 0.7725 0.7472 0.7725 0.6814 0.6965 0.6965

0.6965 1.0000 0.6965 0.7303 0.7303 0.7303 0.8150 0.7353

0.7725 0.6965 1.0000 0.7721 0.7784 0.7472 0.6963 0.7472

0.7472 0.7303 0.7721 1.0000 0.7721 0.7999 0.7353 0.8716

0.7725 0.7303 0.7784 0.7721 1.0000 0.7721 0.7353 0.7721

0.6814 0.7303 0.7472 0.7999 0.7721 1.0000 0.7353 0.7999

0.6965 0.8150 0.6963 0.7353 0.7353 0.7353 1.0000 0.7353

0.6965 0.7353 0.7472 0.8716 0.7721 0.7999 0.7353 1.0000

把绝对值减数法得到的相似矩阵改造成等价矩阵(表6)

表6

1.0000 0.6260 0.8524 0.7804 0.7320 0.8325 0.7581 0.4238 0.6260 1.0000 0.6260 0.6260 0.6260 0.5987 0.6260 0.4238 0.8524 0.6260 1.0000 0.7804 0.7320 0.8325 0.7804 0.4238 0.7804 0.6260 0.7804 1.0000 0.7320 0.7804 0.8463 0.4238 0.7320 0.6260 0.7320 0.7320 1.0000 0.7058 0.7320 0.4238 0.8325 0.5987 0.8325 0.7804 0.7058 1.0000 0.7569 0.4238 0.7581 0.6260 0.7804 0.8463 0.7320 0.7569 1.0000 0.4238 0.4238 0.4238 0.4238 0.4238 0.4238 0.4238 0.4238 1.0000

用最大树法对表5中的等价矩阵进行聚类,得到下图:

图1 图2

图3 图4

对表6中的等价矩阵用最大数法进行聚类得到下图:

图5 图6

图7 图8

用fcm法对上面的两个相似关系进行比较,利用matlab求解得到了表2的fcm聚类图

图9

可以看出它与绝对值减数法得到相似矩阵然后得到的聚类是一样的,所以在这一例题中用绝对值减数法是较好的。

现在来考虑一下实际的问题,8x是人均其他商品,因为这是一个不确定的可有可无的,所以它被归为一类,显然是合理的,5x衣着与其他的一些食品也存在着较大的区别,所以归为一类也较为合理,而2x与其他的相关性已经不叫强了,可能是出于数据问题,所以也被归为了一类。

5总结

模糊聚类相似矩阵的求法不同会出现决然不同的结果,所以在选取相似矩阵的算法时要慎重,其中绝对值减数法是一个比较好的相似矩阵算法,但是要注意的是它不是万能算法,同样的最好用别的方法来对其进行对照,我这里应用的是fcm法,主要是fcm比较稳定适用范围大,当然也可以用别的方法,比如我上面提到过的CLARANS算法,也是一个比较好的算法。到底采用上面方法还是要看具体的问题,进行恰当的分析。

参考文献:

[1] Chan K P , Cheung Y S. Clustering of clusters[J] . Pattern Recognition ,1992 ,25(2) :211 - 217

[2] Nikhil R. Pal, Kuhu Pal, James M. Keller, and James C. Bezdek. A Possibilistic Fuzzy c-Means

Clustering Algorithm IEEE TRANSACTIONS ON FUZZY SYSTEMS, VOL. 13, NO. 4, AUGUST 2005 1 - 14

[3] 张斌,刘增良,余达太,黄洪基于粗糙集和模糊聚类的政务本体学习模型计算机工程与应

用 2010,46(25)1-4

[4] 赵建文基于模糊聚类的车内空气质量评价浙江海洋学院学报(自然科学版) 第29 卷第4 期

2010 年7 月 1-4

[5] 张秀梅,王涛模糊聚类分析方法在学生成绩评价中的应用[J]渤海大学学报:自然科学版,

2007,28(2) 169-172.

[6]叶海军.模糊聚类分析技术及其应用研究[D].合肥工业大学,2006.

[7]汤效琴,戴汝源数据挖掘中聚类分析的技术方法宁夏大学学报 2006.7

[8]吴柏林模糊统计导论方法与应用五南图书出版公司 2005

[9]高新波模糊聚类分析及其应用西安电子科技大学也出版社 2004

[10]杨纶标,高英仪模糊数学原理及应用华南理工大学出版社 2005.6 52-77

致谢

此片论文得以完成,首先要感谢张小华老师的细心指导。何老师开阔的视野,为我提供了极大的发挥空间,在这段时间里让我明白了做任何事情要严谨细致、一丝不苟,对人要宽容、宽厚,何老师宽厚待人的学者风范更是令我无比感动。

感谢各位老师在这几年一直在生活中、组织上给予我的教导和无私的帮助,让我在河北化工医药职业技术学院这个大舞台上有锻炼的能力、自我完善的平台。

在此文即将完成之际,我衷心的感谢在此过程中帮助过我的每个人,在这里请接收我最诚挚的谢意!由于时间仓促、自身等原因,文章错误疏漏之处在所难免,恳请各位老师斧正。

附录

Matlab:

相似系数法求相似矩阵:

xp=x/31;

for i=1:8

for j=1:8

s2(i,j)=0;

s=0;

s1=0;

for k=1:31

s2(i,j)=s2(i,j)+abs(A(k,i)-xp(i))*abs(A(k,j)-xp(j));

s=s+(A(k,i)-xp(i))^2;

s1=s1+(A(k,j)-xp(j))^2;

end

b2(i,j)=s2(i,j)/(s^(1/2)*s1^(1/2));

end

end

绝对值减数法求相似矩阵:

A=data;

i=1:8;

x(i)=sum(A(:,i));

for i=1:8

for j=1:8

s(i,j)=0;

for k=1:31

s(i,j)=s(i,j)+abs(A(k,i)-A(k,j));

end

d(i,j)=s(i,j)^(1/2);

b7(i,j)=1-(d(i,j))/100;

end

end

对相似矩阵就等价矩阵:

for i=1:8

for j=1:8

for k=1:8

g(k)=min(b(i,k),b(k,j));

end

T(i,j)=max(g);

end

end

while T~=b

模糊聚类分析

目录 1引言: (3) 2 理论准备: (3) 2.1 模糊集合理论 (3) 2.2模糊C均值聚类(FCM) (4) 2.3 加权模糊C均值聚类(WFCM) (4) 3 聚类分析实例 (5) 3.1数据准备 (5) 3.1.1数据表示 (5) 3.1.2数据预处理 (5) 3.1.3 确定聚类个数 (6) 3.2 借助clementine软件进行K-means聚类 (7) 3.2.1 样本在各类中集中程度 (8) 3.2.2 原始数据的分类结果 (8) 3.2.3结果分析 (9) 3.3模糊C均值聚类 (10) 3.3.1 数据集的模糊C划分 (10) 3.3.2 模糊C均值聚类的目标函数求解方法 (10) 3.3.3 MATLAB软件辅助求解参数设置 (11) 3.3.4符号表示 (11)

3.3.5代码实现过程 (11) 3.3.6 FCM聚类分析 (11) 3.4 WFCM算法 (14) 3.4.1 WFCM聚类结果展示 (14) 3.4.2样本归类 (16) 3.4.3归类代码实现 (16) 4.结论 (17) 5 参考文献 (18) 6 附录 (18)

模糊聚类与非模糊聚类比较分析 摘要: 聚类分析是根据样本间的相似度实现对样本的划分,属于无监督分类。传统的聚类分析是研究“非此即彼”的分类问题,分类结果样本属于哪一类很明确,而很多实际的分类问题常伴有模糊性,即它不仅仅是属于一个特定的类,而是“既此又彼”。因此为了探究模糊聚类与非模糊聚类之间聚类结果的差别,本文首先采用系统聚类方法对上市公司132支股票数据进行聚类,确定比较合理的聚类数目为11类,然后分别采用K-means聚类与模糊聚类方法对股票数据进行聚类分析,最终得出模糊聚类在本案例中比K-means聚类更符合实际。 关键字:模糊集合,K-means聚类,FCM聚类,WFCM聚类 1引言: 聚类分析是多元统计分析的方法之一,属于无监督分类,是根据样本集的内在结构,按照样本之间相似度进行划分,使得同类样本之间相似性尽可能大,不同类样本之间差异性尽可能大。传统的聚类分析属于硬化分,研究对象的性质是非此即彼的,然而,现实生活中大多数事物具有亦此亦彼的性质。因此传统的聚类分析方法往往不能很好的解决具有模糊性的聚类问题。为此,模糊集合理论开始被应用到分类领域,并取得不错成果。 本文的研究目的是通过对比传统聚类和模糊聚类的聚类结果,找出二者之间的不同之处,并说明两种聚类分析方法在实例中应用的优缺点。 2理论准备: 2.1 模糊集合理论 模糊集合定义:设U为论域,则称由如下实值函数μA:U→ [ 0,1 ],u →μ ( u )所确定的集合A 为U上的模糊集合,而称μA为模糊集合A 的隶A 属函数,μ A ( u)称为元素u 对于A 的隶属度。若μA(u) =1,则认为u完全属于A;若μA(u) =0,则认为u完全不属于A,模糊集合是经典集合的推广。

模糊聚类分析报告例子

1. 模糊聚类分析模型 环境区域的污染情况由污染物在4个要素中的含量超标程度来衡量。设这5个环境区域的污染数据为1x =(80, 10, 6, 2), 2x =(50, 1, 6, 4), 3x =(90, 6, 4, 6), 4x =(40, 5, 7, 3), 5x =(10, 1, 2, 4). 试用模糊传递闭包法对X 进行分类。 解 : 由题设知特性指标矩阵为: * 80106250164906464057310124X ????????=???????? 数据规格化:最大规格化' ij ij j x x M = 其中: 12max(,,...,)j j j nj M x x x = 00.8910.860.330.560.1 0.860.671 0.60.5710.440.510.50.11 0.1 0.290.67X ????????=?? ?????? 构造模糊相似矩阵: 采用最大最小法来构造模糊相似矩阵55()ij R r ?=, 1 0.540.620.630.240.5410.550.700.530.62 0.5510.560.370.630.700.5610.380.240.530.370.381R ?? ??? ???=?? ?????? 利用平方自合成方法求传递闭包t (R ) 依次计算248,,R R R , 由于84R R =,所以4()t R R =

2 10.630.620.630.530.6310.560.700.530.62 0.5610.620.530.630.700.6210.530.530.530.530.531R ?? ??????=?? ??????, 4 10.630.620.630.530.6310.620.700.530.62 0.6210.620.530.630.700.6210.530.53 0.530.530.531R ????????=?? ?????? =8R 选取适当的置信水平值[0,1]λ∈, 按λ截矩阵进行动态聚类。把()t R 中的元素从大到小的顺序编排如下: 1>0.70>0.63>062>053. 依次取λ=1, 0.70, 0.63, 062, 053,得 11 000001000()0 010******* 0001t R ????? ? ??=?? ??????,此时X 被分为5类:{1x },{2x },{3x },{4x },{5x } 0.7 1000001010()001000101000001t R ?????? ??=?? ??????,此时X 被分为4类:{1x },{2x ,4x },{3x },{5x } 0.63 1101011010()001001101000001t R ?????? ??=?? ??????,此时X 被分为3类:{1x ,2x ,4x },{3x },{5x } 0.62 1111011110()11110111100 0001t R ?????? ??=?? ?????? ,此时X 被分为2类:{1x ,2x ,4x ,3x },{5x }

模糊聚类分析方法

模糊聚类分析方法 对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。载科学技术、经济管理中常常要按一定的标准(相似程度或亲疏关系)进行分类。例如,根据生物的某些性状可对生物分类,根据土壤的性质可对土壤分类等。由于科学技术、经济管理中的分类界限往往不分明,因此采用模糊聚类方法通常比较符合实际。 一、模糊聚类分析的一般步骤 1、第一步:数据标准化[9] (1) 数据矩阵 设论域12{,,,}n U x x x =为被分类对象, 每个对象又有m 个指标表示其性状,即 12{,, ,}i i i im x x x x = (1,2,,) i n =, 于是,得到原始数据矩阵为 1112 1 21222 12 m m n n nm x x x x x x x x x ?? ? ? ? ??? 。 其中nm x 表示第n 个分类对象的第m 个指标的原始数据。 (2) 数据标准化 在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间[0,1]上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间[0,1]上。通常有以下几种变换: ① 平移·标准差变换

i k k ik k x x x s -'= (1,2,,;1,2,i n k m == 其中 11n k i k i x x n ==∑, k s =。 经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但 是,再用得到的ik x '还不一定在区间[0,1]上。 ② 平移·极差变换 111m i n { }m a x {}m i n {}i k i k i n ik ik ik i n i n x x x x x ≤≤≤≤≤≤''-''=''- ,(1,2, ,)k m = 显然有01ik x ''≤≤,而且也消除了量纲的影响。 ③ 对数变换 lg ik ik x x '= (1,2,,;1,2,i n k m == 取对数以缩小变量间的数量级。 2、第二步:标定(建立模糊相似矩阵) 设论域12{,, ,}n U x x x =,12{,,,}i i i im x x x x =,依照传统聚类方法确定相似 系数,建立模糊相似矩阵,i x 与j x 的相似程度(,)ij i j r R x x =。确定(,)ij i j r R x x =的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具体用什么方法,可根据问题的性质,选取下列公式之一计算。 (1) 相似系数法 ① 夹角余弦法 2 2m ik jk ij m ik jk x x r x = ∑∑ ② 最大最小法 11() () m ik jk k ij m ik jk k x x r x x ==∧= ∨∑∑。 ③ 算术平均最小法

模糊聚类案例分析

模糊数学方法及其应用论文题目:模糊聚类方法案例分析 小组成员: 王季光宋申辉兰洁 陈倩芸肖仑杨洋 吴云峰 2013年10 月27 日

模糊聚类分析方法 1.1距离和相似系数 为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作P 维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。但相似系数和距离有各种各样的定义,而这些定义与变量的类型关系极大,因此先介绍变量的类型。 由于实际问题中,遇到的指标有的是定量的(如长度、重量等),有的是定性的(如性别、职业等),因此将变量(指标)的类型按以下三种尺度划分: 间隔尺度:变量是用连续的量来表示的,如长度、重量、压力、速度等等。在间隔尺度中,如果存在绝对零点,又称比例尺度,本书并不严格区分比例尺度和间隔尺度。 有序尺度:变量度量时没有明确的数量表示,而是划分一些等级,等级之间有次序关系,如某产品分上、中、下三等,此三等有次序关系,但没有数量表示。 名义尺度:变量度量时、既没有数量表示,也没有次序关系,如某物体有红、黄、白三种颜色,又如医学化验中的阴性与阳性,市场供求中的“产”和“销”等。 不同类型的变量,在定义距离和相似系数时,其方法有很大差异,使用时必须注意。研究比较多的是间隔尺度,因此本章主要给出间隔尺度的距离和相似系数的定义。 设有n 个样品,每个样品测得p 项指标(变量),原始资料阵为 p x x x np n n p p n x x x x x x x x x X X X X 2 122221112 112 1 21 ? ? ??????????? ?= 其中(1,,;1,,) ij x i n j p == 为第i 个样品的第j 个指标的观测数据。第i 个样 品 i X 为矩阵X 的第i 行所描述,所以任何两个样品XK 与XL 之间的相似性,可 以通过矩阵X 中的第K 行与第L 行的相似程度来刻划;任何两个变量K x 与 L x 之 间的相似性,可以通过第K 列与第L 列的相似程度来刻划。 1.2 F 相似关系 1. 2.1定义 设)(U U F R ?∈,如果具有自反和对称关系,则称R 为U 上的一个F 相似关

模糊聚类分析方法汇总

模糊聚类分析方法 对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。载科学技术、经济管理中常常要按一定的标准(相似程度或亲疏关系)进行分类。例如,根据生物的某些性状可对生物分类,根据土壤的性质可对土壤分类等。由于科学技术、经济管理中的分类界限往往不分明,因此采用模糊聚类方法通常比较符合实际。 一、模糊聚类分析的一般步骤 1、第一步:数据标准化[9] (1) 数据矩阵 设论域12{,,,}n U x x x =为被分类对象,每个对象又有m 个指标表示其性状, 即 12{,, ,}i i i im x x x x = (1,2, ,)i n =, 于是,得到原始数据矩阵为 11 121212221 2 m m n n nm x x x x x x x x x ?? ? ? ? ??? 。 其中nm x 表示第n 个分类对象的第m 个指标的原始数据。 (2) 数据标准化 在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间[0,1]上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间[0,1]上。通常有以下几种变换: ① 平移·标准差变换

ik k ik k x x x s -'= (1,2,,;1,2,,)i n k m == 其中 11n k ik i x x n ==∑, k s = 经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但 是,再用得到的ik x '还不一定在区间[0,1]上。 ② 平移·极差变换 111min{}max{}min{}ik ik i n ik ik ik i n i n x x x x x ≤≤≤≤≤≤''-''=''-,(1,2,,)k m = 显然有01ik x ''≤≤,而且也消除了量纲的影响。 ③ 对数变换 lg ik ik x x '= (1,2,,;1,2,,)i n k m == 取对数以缩小变量间的数量级。 2、第二步:标定(建立模糊相似矩阵) 设论域12{,, ,}n U x x x =,12{,, ,}i i i im x x x x =,依照传统聚类方法确定相似 系数,建立模糊相似矩阵,i x 与j x 的相似程度(,)ij i j r R x x =。确定(,)ij i j r R x x =的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具体用什么方法,可根据问题的性质,选取下列公式之一计算。 (1) 相似系数法 ① 夹角余弦法 21 m ik jk ij m ik jk k x x r x == ∑∑。 ② 最大最小法 11() () m ik jk k ij m ik jk k x x r x x ==∧= ∨∑∑。 ③ 算术平均最小法

模糊聚类分析应用

本科生毕业论文(设计) ( 2011 届) 论文(设计)题目模糊聚类分析应用 作者舒海波 系、专业理学分院数学与应用数学 班级应数072 指导教师(职称)何颖俞(讲师) 字数 9403 字 成果完成时间2011年4月10日 杭州师范大学钱江学院教学部制

模糊聚类分析应用 数学与应用数学专业0702班指导教师何颖俞 摘要:模糊聚类简单而言就是把数据中的指标分类。本文利用的是最大树法对等价矩阵进行聚类,然后利用fcm法对相似矩阵的求法进行比较。 关键字:模糊聚类,等价矩阵,最大树,相似矩阵 The application of fuzzy clustering Shuhaibo Instructor: HeYingYu Abstract: Fuzzy clustering is a method to classify the given data based on some indexes. In this paper I use the method of the maximal tree to classify the equivalent matrix, and then use clustering analysis method of FCM to comparison the solutions of the similar matrices. Key word: fuzzy clustering, equivalence matrix, the maximal tree, similar matrix

目录 1 绪论 (1) 2模糊聚类分析方法 (1) 2.1距离和相似系数 (1) 2.2 F相似关系 (2) 2.2.1定义 (2) 2.2.2 定理 (2) 2.3 聚类分析 (3) 2.3.1最大树法 (4) 3算法分类 (4) 3.1聚类方法的分类 (5) 3.1.1划分方法(partitioning method) (5) 3.1.2层次方法(hierarchical method) (5) 3.1.3基于密度的方法(density-based method) (5) 3.1.4基于网格的方法(grid-based method) (5) 3.1.5基于模型的方法(model-based method) (5) 3.2.数据挖掘领域中常用的聚类算法 (5) 3.2.1 CLARANS算法(随机搜索聚类算法) (5) 3.2.2 CURE算法(利用代表点聚类) (6) 3.2.3 BIRCH算法(利用层次方法的平衡迭代归约和聚类) (6) 3.2.4 DBSCAN算法(基于高密度连接区域的密度聚类方法) (6) 3.2.5 STING算法(统计信息风格) (7) 3.2.6 COBWEB算法(流行的简单增量概念聚类算法) (7) 3.2.6 模糊聚类算法FCM (8) 3.3 聚类算法的性能比较 (8) 4实际应用 (9) 5总结 (13) 参考文献: (13)

Matlab学习系列23. 模糊聚类分析原理及实现

23. 模糊聚类分析原理及实现 聚类分析,就是用数学方法研究和处理所给定对象,按照事物间的相似性进行区分和分类的过程。 传统的聚类分析是一种硬划分,它把每个待识别的对象严格地划分到某个类中,具有非此即彼的性质,这种分类的类别界限是分明的。 随着模糊理论的建立,人们开始用模糊的方法来处理聚类问题,称为模糊聚类分析。由于模糊聚类得到了样本数与各个类别的不确定性程度,表达了样本类属的中介性,即建立起了样本对于类别的不确定性的描述,能更客观地反映现实世界。 本篇先介绍传统的两种(适合数据量较小情形,及理解模糊聚类原理):基于择近原则、模糊等价关系的模糊聚类方法。 (一)预备知识 一、模糊等价矩阵 定义1 设R=(r ij )n ×n 为模糊矩阵,I 为n 阶单位矩阵,若R 满足 i) 自反性:I ≤R (等价于r ii =1); ii) 对称性:R T =R; 则称R 为模糊相似矩阵,若再满足 iii) 传递性:R 2 ≤R (等价于1 ()n ik kj ij k r r r =∨∧≤) 则称R 为模糊等价矩阵。 定理1 设R 为n 阶模糊相似矩阵,则存在一个最小的自然数k

(k

模糊聚类分析实验报告

专业:信息与计算科学 姓名: 学号: 实验一 模糊聚类分析 实验目的: 掌握数据文件的标准化,模糊相似矩阵的建立方法,会求传递闭包矩阵;会使用数学软件MATLAB 进行模糊矩阵的有关运算 实验学时:4学时 实验内容: ⑴ 根据已知数据进行数据标准化. ⑵ 根据已知数据建立模糊相似矩阵,并求出其传递闭包矩阵. ⑶ (可选做)根据模糊等价矩阵绘制动态聚类图. ⑷ (可选做)根据原始数据或标准化后的数据和⑶的结果确定最佳分类. 实验日期:20017年12月02日 实验步骤: 1 问题描述: 设有8种产品,它们的指标如下: x 1 = (37,38,12,16,13,12) x 2 = (69,73,74,22,64,17) x 3 = (73,86,49,27,68,39) x 4 = (57,58,64,84,63,28) x 5 = (38,56,65,85,62,27) x 6 = (65,55,64,15,26,48) x 7 = (65,56,15,42,65,35) x 8 = (66,45,65,55,34,32) 建立相似矩阵,并用传递闭包法进行模糊聚类。 2 解决步骤: 2.1 建立原始数据矩阵 设论域},,{21n x x x X 为被分类对象,每个对象又有m 个指标表示其性状, im i i i x x x x ,,,21 ,n i ,,2,1 由此可得原始数据矩阵。

于是,得到原始数据矩阵为 323455654566356542155665482615645565276285655638 286384645857396827498673176422747369121316123837X 其中nm x 表示第n 个分类对象的第m 个指标的原始数据,其中m = 6,n = 8。 2.2 样本数据标准化 2.2.1 对上述矩阵进行如下变化,将数据压缩到[0,1],使用方法为平移极差变换和最大值规格化方法。 (1)平移极差变换: 111min{}max{}min{}ik ik i n ik ik ik i n i n x x x x x ,(1,2,,)k m L 显然有01ik x ,而且也消除了量纲的影响。 (2)最大值规格化: j ij ij M x x ',),,max (21nj j j j x x x M 2.2.2 使用Matlab 实现代码:

模糊聚类法

模糊聚类分析法及其应用 (汽车学院钟锐 2011122071) 摘要模糊聚类分析方法是一种多元统计分析方法, 它通过多个指标将样本划分为若干类, 这种分类方法能很好地应用于交通规划、交通流分析、安全评价等多个方面。文章以交通调查的选择为例说明了模糊聚类分析在规划过程中的具体应用, 并分析了模糊聚类分析在交通规划其他方面的应用。在交通调查中, 可利用模糊聚类分析将交通分区按工业、居住、公建、道路绿化广场等各项用途来进行分类。可相应减少同类交通分区的相似调查工作量。 关键词模糊聚类分析; 交通规划; 交通调查 1 问题的提出 交通规划旨在确定公路和城市道路交通建设的发展目标, 设计达到这些目 标的策略、过程与方案。交通规划包括目标确定、组织工作、数据调查、相关基本模型分析、分析预测、方案设计、方案评价、方案实施过程中的信息反馈和修改等工作阶段。在交通规划的很多阶段, 需要进行分类。例如可将众多的交通小区划分成几大类, 将具有相似特性的交通小区归于一类, 可以减少调查的工作量; 对线路网络进行分析评价时, 也需要进行分类。单一的指标往往不能全面反映交通分区之间的关系, 需要用多个指标来进行。在分类方法中,聚类分析是一种应用很广泛的方法, 它在交通规划领域应用较多。 2 聚类分析方法 聚类分析取意于“人以群分, 物以类聚”的俗语, 即将一组事物根据其性质上亲疏远近的程度进行分类, 把性质相近的个体归为一类, 使得同一类中的个体具有高度的同质性, 不同类之间的个体具有高度的异质性。为使分类合理, 必须描述个体之间的亲疏程度。对此, 通常有距离法、相关系数法等方法。距离法是将每个样本看成m( m 为统计指标的个数) 维空间的一个点, 在m 维空间中定义点与点之间的某种距离; 相关系数法是用某种相似系数来描述样本之间的关系, 如相关系数。聚类的方法有很多, 如系统聚类法、模糊聚类法、分裂法、

模糊聚类分析方法

第二节 模糊聚类分析方法 在科学技术、经济管理中常常要按一定的标准(相似程度或亲疏关系)进行分类。例如,根据生物的某些性状可对生物分类,根据土壤的性质可对土壤分类等。对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。由于科学技术、经济管理中的分类界限往往不分明,因此采用模糊聚类方法通常比较符合实际。 一、模糊聚类分析的一般步骤 1、第一步:数据标准化[9] (1) 数据矩阵 设论域12{,,,}n U x x x = 为被分类对象,每个对象又有m 个指标表示其性状,即 12{,,,}i i i im x x x x = (1,2,,i n = , 于是,得到原始数据矩阵为 11 121 2122 2 1 2 m m n n nm x x x x x x x x x ?? ? ? ? ??? 。 其中nm x 表示第n 个分类对象的第m 个指标的原始数据。 (2) 数据标准化 在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间[0,1]上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间[0,1]上。通常有以下几种变换: ① 平移·标准差变换

i k k ik k x x x s -'= (1,2,,; 1,2,i n k m == 其中 1 1n k i k i x x n == ∑ , k s = 经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但 是,再用得到的ik x '还不一定在区间[0,1]上。 ② 平移·极差变换 111m i n { } m a x {}m i n {} i k i k i n ik ik ik i n i n x x x x x ≤≤≤≤≤≤''-''=''-,(1,2,,)k m = 显然有01ik x ''≤≤,而且也消除了量纲的影响。 ③ 对数变换 lg ik ik x x '= (1,2,,; 1,2,i n k m == 取对数以缩小变量间的数量级。 2、第二步:标定(建立模糊相似矩阵) 设论域12{,,,}n U x x x = ,12{,,,}i i i im x x x x = ,依照传统聚类方法确定相似系数,建立模糊相似矩阵,i x 与j x 的相似程度(,)ij i j r R x x =。确定(,)ij i j r R x x =的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具体用什么方法,可根据问题的性质,选取下列公式之一计算。 (1) 相似系数法 ① 夹角余弦法 m ik jk ij x x r = ∑ ② 最大最小法 11 () () m ik jk k ij m ik jk k x x r x x ==∧= ∨∑∑。 ③ 算术平均最小法

模糊聚类分析之欧阳家百创编

模糊数学实验报告 欧阳家百(2021.03.07) 题目:模糊聚类分析在交通事故分析中的应用 姓名 xxxxxxxxx 学号 xxxxxxxxxxxx 年级专业 xxxxxxxxxxxxx 指导教师 xxxxxxxx 20xx年x月xx日 模糊聚类分析在交通事故分析中的应用 姓名:xx 班级:xxxxxxxxx 学号:xxxxxxxxxxxxxxxxxxx 摘要:在模糊集理论及模糊聚类分析方法的四个步骤基础上,深入研究了模糊聚类分析法步骤在交通事故分析中的应用。通过对1999 年我国交通事故相关数据进行统计,运用模糊聚类分析方法中两种不同的方法得出相似关系矩阵,应用平方法计算传递闭包,最终作出模糊聚类分析,并对两种方法进行比较。通过对交通事故进行分类,对掌握交通安全情况有很大的帮助。 关键词:模糊相似矩阵;传递闭包;模糊聚类分析;交通事故 随着经济的迅速发展,人民的生活得到了极大的改善,单位用车和私家车就越来越多,随之而来的是交通事故发生也越来越多,已引起人们和有关部门的关注和重视。

本文在模糊理论基础上,选取1999 年我国交通事故相关数据,进行分析统计,运用模糊聚类分析方法做出模糊聚类分析。希望通过对交通事故进行分类,对掌握交通安全情况有很大的帮助,特别在发现交通存在的问题后,分析结果可提供给相关部门参考,针对问题采取措施改善我国交通事故较多的现状。 1 选择统计指标 数据采自2002 年中国统计年鉴,分析我国交通现状,选取交通事故中具有代表性的几种情况——汽车、摩托车、拖拉机、自行车、行人乘车作为五个类及即五个单元,对 5 种行驶方式安全程度分类。 设 5 种行驶方式组成一个分类集合: 分别代表汽车、摩托车、拖拉机、自行车、行人乘车。每种行驶方式均采用代表性的方面(发生起数、死亡人数、受伤人数、损失折款)作为四项统计指标,即有: 这里表示为第i 种行驶方式的第 j 项指标。这四项成绩指标为:发生起数,死亡人数,受伤人数,损失折款。原始数据如表1 所示。 2 数据标准化 数据标准化常采用公式,对数据进行处理。

模糊C均值聚类算法的C 实现代码讲解

模糊C均值聚类算法的实现 研究背景 模糊聚类分析算法大致可分为三类 1)分类数不定,根据不同要求对事物进行动态聚类,此类方法是基于模糊等价矩阵聚类的,称为模糊等价矩阵动态聚类分析法。 2)分类数给定,寻找出对事物的最佳分析方案,此类方法是基于目标函数聚类的,称为模糊C均值聚类。 3)在摄动有意义的情况下,根据模糊相似矩阵聚类,此类方法称为基于摄动的模糊聚类分析法 聚类分析是多元统计分析的一种,也是无监督模式识别的一个重要分支,在模式分类图像处理和模糊规则处理等众多领域中获得最广泛的应用。它把一个没有类别标记的样本按照某种准则划分为若干子集,使相似的样本尽可能归于一类,而把不相似的样本划分到不同的类中。硬聚类把每个待识别的对象严格的划分某类中,具有非此即彼的性质,而模糊聚类建立了样本对类别的不确定描述,更能客观的反应客观世界,从而成为聚类分析的主流。 模糊聚类算法是一种基于函数最优方法的聚类算法,使用微积分计算技术求最优代价函数,在基于概率算法的聚类方法中将使用概率密度函数,为此要假定合适的模型,模糊聚类算法的向量可以同时属于多个聚类,从而摆脱上述问题。 我所学习的是模糊C均值聚类算法,要学习模糊C均值聚类算法要先了解虑属度的含义,隶属度函数是表示一个对象x隶属于集合A的程度的函数,通常记做μ A (x),其自变量范围是所有可能属于集合A的对象(即集合A所在空间中的 所有点),取值范围是[0,1],即0<=μ A (x)<=1。μ A (x)=1表示x完全隶属于集合 A,相当于传统集合概念上的x∈A。一个定义在空间X={x}上的隶属度函数就定义了一个模糊集合A,或者叫定义在论域X={x}上的模糊子集 ~ A。对于有限个对 象x 1,x 2 ,……,x n 模糊集合 ~ A可以表示为: } |) ), ( {( ~ X x x x A i i i A ∈ =μ (6.1) 有了模糊集合的概念,一个元素隶属于模糊集合就不是硬性的了,在聚类的问题中,可以把聚类生成的簇看成模糊集合,因此,每个样本点隶属于簇的隶属度就是[0,1]区间里面的值。 FCM算法需要两个参数一个是聚类数目C,另一个是参数m。一般来讲C要远远小于聚类样本的总个数,同时要保证C>1。对于m,它是一个控制算法的柔性的参数,如果m过大,则聚类效果会很次,而如果m过小则算法会接近HCM 聚类算法。 算法的输出是C个聚类中心点向量和C*N的一个模糊划分矩阵,这个矩阵表示的是每个样本点属于每个类的隶属度。根据这个划分矩阵按照模糊集合中的最大隶属原则就能够确定每个样本点归为哪个类。聚类中心表示的是每个类的平均

模糊聚类分析

四 模糊聚类分析方法 模糊聚类分析,是从模糊集的观点来探讨事物的数量分类的一类方法。这里将主要介绍基于模糊等价关系与基于最大模糊支撑树的模糊聚类分析方法。 一、基于模糊等价关系的模糊聚类分析方法 基于模糊等价关系的模糊聚类分析方法的基本思想是:由于模糊等价关系~R 是论域集U 与自己的直积U U ?上的一个模糊子集,因此可以对~ R 进行分解,当用λ-水平对~R 作截集时,截得的U U ?的普通子集~ R λ就是U 上的一个普通等价关系,也就得到了关于U 中被分类对象元素的一种分类。当λ由1下降到0时,所得的分类由细变粗,逐渐归并,从而形成一个动态聚类谱系图。由此可见,分类对象集U 上的模糊等价关系~ R 的建立是这种聚类分析方法中的一个关键性的环节。(一)建立模糊等价关系 为了建立分类对象集合U 上的模糊等价关系R *,通常需要首先计算各个 分类对象之间的相似性统计量,建立分类对象集合U 上的模糊相似关系~R 。1.模糊相似关系的建立关于各分类对象之间相似性统计量r ij 的计算,除了 采用夹角余弦公式和相似系数计算公式以外,还可以采用如下几个计算公式。(1)数量积法: 在(1)式中,M 是一个适当选择之正数,一般而言,它应满足: (2)绝对值差数法: 在(2)式中,c 为适当选择之正数,使0≤r ij <1(i≠j)。 (3)最大最小值法: (4)算术平均最小法: (5)绝对值指数法:

(6)指数相似系数法: 在(6)式中,s k 是第k 个指标的方差,即 2 将模糊相似关系~R 改造为迷糊等价关系~R *。由于模糊相似关系~ R 满足自反性和对称性,但一般而言,它并不满足传递性,也就是说它并不是模糊等价关系。因此,为了聚类,我们必须采用传递闭合的性质将这种模糊相似关系~ R 改造为模糊等价关系~R *。改造的办法是将~ R 自乘,即这样下去,就必然会存在一个自然数K ,使得: 这时,~~ k R R *=便是一个模糊等价关系了。 (二)在不同的截集水平下进行聚类 用上述模糊等价关系~ R *,在不同的截集水平下聚类,可以得到不同的聚类结果: 二、基于最大模糊支撑树的模糊聚类分析方法 除了依据模糊等价关系进行聚类分析外,还可以应用最大模糊支撑树进行聚类分析。基于最大模糊支撑树的聚类分析过程,可按如下步骤进行。第一步:建立分类对象集上的模糊相似关系,构造模糊图。这一步骤的工作可按如下作法进行: 计算各个分类对象之间的相似性统计量r ij (i ,j=1,2,…,m),建 立分类对象集U 上的模糊相似关系~ ()ij m n R r ?=。将~ R 表示成一个由m 个结点所构成的模糊图G=(V,E),使G 中的任意两个结点V i 与V j 之间都有一条边相连结,且赋该边的权值为r ij 。假若,对于某五个地理区域所构成的分类对象集合V={v 1,v 2,v 3,v 4,v 5}, 经过选择聚类要素并对其原始数据进行标准化处理后,计算各分类对象之间的相似性统计量,得到如下的模糊相似关系

Matlab笔记-模糊聚类分析原理及实现

23. 模糊聚类分析原理及实现 聚类分析,就是用数学方法研究和处理所给定对象,按照事物间的相似性进行区分和分类的过程。 传统的聚类分析是一种硬划分,它把每个待识别的对象严格地划分到某个类中,具有非此即彼的性质,这种分类的类别界限是分明的。 随着模糊理论的建立,人们开始用模糊的方法来处理聚类问题,称为模糊聚类分析。由于模糊聚类得到了样本数与各个类别的不确定性程度,表达了样本类属的中介性,即建立起了样本对于类别的不确定性的描述,能更客观地反映现实世界。 本篇先介绍传统的两种(适合数据量较小情形,及理解模糊聚类原理):基于择近原则、模糊等价关系的模糊聚类方法。 (一)预备知识 一、模糊等价矩阵 定义1设R=(r ij )n ×n 为模糊矩阵,I 为n 阶单位矩阵,若R 满足 i) 自反性:I ≤R (等价于r ii =1); ii) 对称性:R T =R; 则称R 为模糊相似矩阵,若再满足 iii) 传递性:R 2≤R (等价于1()n ik kj ij k r r r =∨∧≤) 则称R 为模糊等价矩阵。 定理1设R 为n 阶模糊相似矩阵,则存在一个最小的自然数k

(k

模糊聚类分析报告实验报告材料

专业:信息与计算科学 姓名: 学号: 实验一 模糊聚类分析 实验目的: 掌握数据文件的标准化,模糊相似矩阵的建立方法,会求传递闭包矩阵;会使用数学软件MATLAB 进行模糊矩阵的有关运算 实验学时:4学时 实验内容: ⑴ 根据已知数据进行数据标准化. ⑵ 根据已知数据建立模糊相似矩阵,并求出其传递闭包矩阵. ⑶ (可选做)根据模糊等价矩阵绘制动态聚类图. ⑷ (可选做)根据原始数据或标准化后的数据和⑶的结果确定最佳分类. 实验日期:20017年12月02日 实验步骤: 1 问题描述: 设有8种产品,它们的指标如下: x 1 = (37,38,12,16,13,12) x 2 = (69,73,74,22,64,17) x 3 = (73,86,49,27,68,39) x 4 = (57,58,64,84,63,28) x 5 = (38,56,65,85,62,27) x 6 = (65,55,64,15,26,48) x 7 = (65,56,15,42,65,35) x 8 = (66,45,65,55,34,32) 建立相似矩阵,并用传递闭包法进行模糊聚类。 2 解决步骤: 2.1 建立原始数据矩阵 设论域},,{21n x x x X =为被分类对象,每个对象又有m 个指标表示其性状,{}im i i i x x x x ,,,21 =,n i ,,2,1 = 由此可得原始数据矩阵。

于是,得到原始数据矩阵为 ??? ? ? ?? ? ? ?? ? ? ??=323455654566356542155665482615645565276285655638286384645857396827498673176422747369121316123837X 其中nm x 表示第n 个分类对象的第m 个指标的原始数据,其中m = 6,n = 8。 2.2 样本数据标准化 2.2.1 对上述矩阵进行如下变化,将数据压缩到[0,1],使用方法为平移极差变换和最大值规格化方法。 (1)平移极差变换: 111min{}max{}min{}ik ik i n ik ik ik i n i n x x x x x ≤≤≤≤≤≤''-''=''-,(1,2,,)k m = 显然有01ik x ''≤≤,而且也消除了量纲的影响。 (2)最大值规格化: j ij ij M x x = ',),,max (21nj j j j x x x M = 2.2.2 使用Matlab 实现代码:

第二节 模糊聚类分析方法 数学建模

第二节模糊聚类分析方法 模糊聚类分析,是从模糊集的观点来探讨事物的数量分类的一类方法。近年来,模糊聚类分析方法在地理分区与地理事物分类研究中得到了广泛地应用。本节,我们将主要介绍基于模糊等价关系与基于最大模糊支撑树的模糊聚类分析方法在地理分区和地理事物分类中的应用。 一、基于模糊等价关系的模糊聚类分析方法 基于模糊等价关系的模糊聚类分析方法的基本思想是:由于模糊等价关 上的一个普通等价关系,也就得到了关于U中被分类对象元素的一种分类。当λ由1下降到0时,所得的分类由细变粗,逐渐归并,从而形成一个动态 聚类分析方法中的一个关键性的环节。 (一)建立模糊等价关系 各个分类对象之间的相似性统计量,建立分类对象集合U上的模糊相似关系 1.模糊相似关系的建立关于各分类对象之间相似性统计量r ij的计算,除了采用夹角余弦公式和相似系数计算公式(分别见第二章第三节中(10)和(11)式)以外,还可以采用如下几个计算公式。 (1)数量积法:

在(1)式中,M是一个适当选择之正数,一般而言,它应满足: (2)绝对值差数法: 在(2)式中,c为适当选择之正数,使0≤r ij<1(i≠j)。 (3)最大最小值法: (4)算术平均最小法: (5)绝对值指数法: (6)指数相似系数法: 在(6)式中,s k是第k个指标的方差,即

传递性,也就是说它并不是模糊等价关系。因此,为了聚类,我们必须采用 这样下去,就必然会存在一个自然数K,使得: 显然,对于第二章中表2-12所描述的九个农业区域,用夹角余弦公式计算所得的相似系数矩阵

就是这九个农业区域所构成的分类对象集合上的一个模糊相似关系,经过自乘计算后可以验证: ■R=R4R4=R4 (二)在不同的截集水平下进行聚类 结果: (1)取λ=1,得: 各自成为一类。

关于重金属传播采用模糊聚类分析方法

关于重金属传播采用模糊聚类分析方法 聚类分析是将事物根据一定的特征,并按某种特定要求或规律分类的方法。由于聚类分析的对象必定是尚未分类的群体,而且现实的分类问题往往带有模糊性,对带有模糊特征的事物进行聚类分析,分类过程中不是仅仅考虑事物之间有无关系,而是考虑事物之间关系的深浅程度,显然用模糊数学的方法处理更为自然,因此称为模糊聚类分析。 一、模糊聚类分析的一般步骤 1、第一步:数据标准化[9] (1) 数据矩阵 设论域12{,,,}n U x x x = 为被分类对象,每个对象又有m 个指标表示其性状,即 12{,,,}i i i im x x x x = (1,2,,i n = , 于是,得到原始数据矩阵为 11 121 2122 2 1 2 m m n n nm x x x x x x x x x ?? ? ? ? ??? 。 其中nm x 表示第n 个分类对象的第m 个指标的原始数据。 (2) 数据标准化 在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间[0,1]上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间[0,1]上。通常有以下几种变换: ① 平移·标准差变换 i k k ik k x x x s -'= (1,2,,; 1,2,i n k m == 其中 1 1 n k i k i x x n == ∑, 2 1 1 ()n k ik k i s x x n == -∑。

经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但 是,再用得到的ik x '还不一定在区间[0,1]上。 ② 平移·极差变换 111m i n { } m a x {}m i n {} i k i k i n ik ik ik i n i n x x x x x ≤≤≤≤≤≤''-''=''-,(1,2,,)k m = 显然有01ik x ''≤≤,而且也消除了量纲的影响。 ③ 对数变换 lg ik ik x x '= (1,2,,; 1,2,i n k m == 取对数以缩小变量间的数量级。 2、第二步:标定(建立模糊相似矩阵) 设论域12{,,,}n U x x x = ,12{,,,}i i i im x x x x = ,依照传统聚类方法确定相似系数,建立模糊相似矩阵,i x 与j x 的相似程度(,)ij i j r R x x =。确定(,)ij i j r R x x =的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具体用什么方法,可根据问题的性质,选取下列公式之一计算。 (1) 相似系数法 ① 夹角余弦法 122 1 1 m ik jk k ij m m ik jk k k x x r x x ==== ∑∑∑ 。 ② 最大最小法 11 () () m ik jk k ij m ik jk k x x r x x ==∧= ∨∑∑。 ③ 算术平均最小法

相关文档