文档库 最新最全的文档下载
当前位置:文档库 › 刘宇松的毕业设计(论文)

刘宇松的毕业设计(论文)

毕业设计

基于模糊聚类算法的教学质量

评价体系研究

刘宇松

吉林建筑大学计算机科学与技术

2013年6月

毕业论文

基于模糊聚类算法的教学质量

评价体系研究

学生:刘宇松

指导教师:郭秀娟教授

专业:计算机科学与技术

所在单位:计算机科学与工程学院

答辩日期:2013 年6月18日

摘要

数据挖掘技术是从海量的数据中提取人们需要的重要的数据,今天我们来研究其中的方法之一,模糊聚类法。

本文的核心内容是将模糊聚类算法与教学质量评价相结合,构建出评价模型,并用代码实现算法。在介绍了聚类,聚类算法,模糊集合理论,模糊聚类等概念的基础上重点分析系统聚类法,k-均值算法和FCM算法。以此为基础,对现有的教学质量评价模型进行改造,建立了新的评价模型,然后选择适当的机器语言(java 语言),将算法实现出来。同时,还分析了二级模糊综合评判法并对其进行改造,即计算因素得分和二级得分,然后重点研究了如何使用聚类分析方法来改进评价模型,提出了一个新的基于模糊聚类的评价模型,并对评价模型的改进过程进行了总结。使用模糊聚类算法改进教学质量评价模型对我来说是一种创新和尝试。

本文选题源于教学工作中的实际需要,使用复杂模型的教学质量评价系统必将取代传统的手工打分求平均数的做法。研究适应需要的评价模型并开发满足需求的评价系统无疑具有一定的社会和经济意义。

关键词:模糊聚类;FCM算法;模糊综合评判法;教学质量评价

Abstract

Data mining technology is extracted from vast amounts of data which is important and needed for people. Today we are going to study one of the methods, the fuzzy clustering method.

The core content of this article is that combining the fuzzy clustering algorithm with teaching quality evaluation, building up the evaluation model and implementing algorithm with code. On the basis of introducing clustering, clustering algorithm, fuzzy set theory and concepts of fuzzy clustering focus on analyzing system clustering method ,K - means algorithm and FCM algorithm. On this basis, transformating the existing teaching quality evaluation model, establishing a new evaluation model, then choosing the appropriate computer language(java),and implementing the algorithm.At the same time, analyzed the secondary fuzzy comprehensive evaluation method and carries on the transformation, calculation of factor score and scores in level 2,and then focuses on how to use the clustering analysis method to improve evaluation model, proposed a new evaluation model based on fuzzy clustering, and summary the improve the process of evaluation model. Using fuzzy clustering algorithm to improve the teaching quality evaluation model is a kind of innovation and try for me.

This article selected topic from the people actual need of work, Using a complex model of teaching quality evaluation system will replace the traditional manual rate averaging approach. Research to adapt to the need of evaluation model and development to meet the requirements of evaluation system is meaningful for society. Key words: Fuzzy Clustering; Fuzzy C—Means Clustering; Fuzzy Comprehensive Evaluation Method; Evaluation of Teaching Qualities

目录

摘要 ................................................................................................................................ I Abstract............................................................................................................................ II 目录 .............................................................................................................................. I II 第1章绪论 .. (1)

1.1研究背景及意义 (1)

1.2国内外研究现状 (2)

1.3本文的研究思路 (4)

1.4 本章小结: (5)

第2章聚类与模糊聚类 (6)

2.1聚类分析的基本概念 (6)

2.1.1聚类的定义 (7)

2.1.2相异度的度量 (7)

2.1.3聚类特征的描述 (9)

2.2聚类算法 (9)

2.2.1聚类算法概述 (9)

2.2.2系统聚类法 (10)

2.2.3 k-平均算法 (13)

2.3模糊理论与模糊聚类 (14)

2.3.1模糊集合理论 (14)

2.3.2模糊集合的表示 (15)

2.3.3模糊聚类 (15)

2.4 FCM算法 (16)

2.4.1 FCM算法简介 (16)

2.4.2算法过程描述 (17)

2.4.3 FCM算法的优势 (18)

2.5 本章小结: (18)

第3章教学质量评价体系 (19)

3.1模糊综合评判法 (19)

3.1.1二级模糊综合评判法的数学模型 (19)

3.1.2使用模糊综合评判法的评价模型 (20)

3.1.3计算因素和二级得分以改进模型 (21)

3.1.4模型实现示例 (22)

3.2基于聚类的教学质量评价模型 (23)

3.2.1使用聚类算法改进模糊综合评判法 (23)

3.2.2模型构建 (24)

3.2.3模型实现示例 (25)

3.3教学质量评价模型的改进思路 (25)

3.4本章小结: (26)

第4章模糊聚类算法实现 (27)

4.1什么是java语言: (27)

4.1.1起源: (27)

4.1.2组成: (27)

4.1.3体系: (28)

4.1.4优势 (28)

4.2运行环境及配置: (28)

4.3代码编写: (29)

4.4 本章小结 (32)

结论及建议 (34)

致谢 (36)

参考文献 (37)

第1章绪论

1.1研究背景及意义

首先我们来了解什么是教学质量。教学是由教师、学生、教材、教学手段等多个要素及其相关关系构成的一个整体,教学质量评价除了包括对教学设施,教学工具等硬件的评价外,还包括对教师的教学能力、教学方法等的评价以及对学生的学习态度、学习效果的评价等。其中对教师的教学能力、教学方法的评价一般采用对教学效果的检测和实时测评两种方式来进行,具体到高校教师,由于高校学生已经具有了一定的判别能力,所以在实际应用中一般采用测评的方式来进行,测评方法一般采用学生测评、同行测评与专家测评相结合。

作为对教师工作成果进行测评的一个重要组成部分,对教师教学质量的评价是一个极为复杂的系统工程。一些发达国家,特别是一些名牌大学都把教学质量的监控、评价工作放在教学管理工作的重要位置,他们都建立了各自的具有特色的且在不断完善的教学质量评价系统。

要更全面、更系统的分析目前我国在教学质量评价体系领域的研究与应用情况,应该从评价手段和评价方法两方面来着手。从评价手段方面看,目前许多学校仍然采用传统的手工打分和手工计分的方式来进行教师测评;从评价方法方面看,大多数学校目前只使用了一些最基本的统计方法,如加权平均法。随着技术的进步和改革开放的深入,使用计算机技术和数学模型,实现高校教学质量评价的科学化与信息化己经成为一种共识。对于国内一些高等学目前己经建立的教学质量评价系统而言,在评价手段上一般采用手工打分与计算机处理数据相结合的模式;在评价原理上开始使用较复杂的数学模型,比如己经比较成熟的多级模糊综合评判法。但这些教学质量评价系统都还普遍的存在着一些待解难题和局限。

概括而言,现有系统的问题主要体现在互动性、动态性和实用性不足三个方面。

①缺乏互动性。现有的教学质量评估系统大都相对封闭,信息单向流动,缺乏信息互动。具体体现在两个方面,一是信息只能从学生流向教学管理人员,不能从教学管理人员流向学生,学生在打分后就完成了使命;另一方面是在大多数的系统中教师都成了纯粹的被考量的客体,而不是系统的主体之一,被排除在整个评估过程之外,处于完全被动的地位。而实际上,建立教学质量评估系统的最终目的并不是把教师分出三六九等,而是借助这一方法来促进教师来提高教学质量。

②缺乏动态性。现有的教学质量评估系统一般进行的是静态评估,很难反映

动态的评价信息,只能进行事后控制,不便于进行事前和事中的控制。学生只能在课程结束或者学期结束后填写评分表格,然后算出这个学期某教师某门课程的评价结果作为教学管理的参考数据。其不足体现在学生的评价结果不能及时反馈给教师,从而教师就不能根据反馈的情况及时调整教学方法、改变教学手段和提高教学能力,然后学生再给教师新的评价,形成一个良性循环。

③缺乏实用性。模糊综合评判法在计算模型上己经较为成熟,在算法实现上也己经有了一些成功实例。但在实用方面还是存在着一些明显的局限。联系实际分析,主要有信息失真和信息丢失两个方面。一方面由于模糊综合评判法中的权重,评语等级向量等算子是人为确定的,主观性很强,这样就增加了某些信息在计算过程中失真的可能。另一方面模糊综合评判法虽然生成了一个非常有用的综合评分,但在合成运算的过程中丢失了许多有用信息。综合评判的结果是一个数字化的评估分值,虽然具有评判结果客观,可比性强等特点,便于排序和分类,可以作为量化指标;但也使得许多有用的信息在计算过程中被忽略,而这些信息对教师改进教学,管理人员提高管理水平都非常有用。

本文正是基于上述思路从模糊聚类分析的研究入手,提出了一个使用聚类算法改进模糊综合评判法的评价模型,并通过代码来实现这一评定算法。

1.2国内外研究现状

对教师教学质量评价系统的研究,一般是从评价手段和评价方法两个方面来进行的。就评价手段而言,随着技术的发展和进步,使用基于WEB的教师教学质量评价系统来取代传统的手工打分、记分和结果分析己经成为共识。

目前国内对教学质量评价系统的研究仍方兴未艾,张惠萍、陈志泊在“基于UML和Rational Rose的教学质量评价系统的设计”一文中使用UML来进行教学质量评价系统的设计,体现了对教学质量评价系统的设计工具进行改进的方向。孙毅、盛海英在“基于KDD的教学质量评价系统研究”一文中将KDD理论与方法引入教学质量评价系统中,以构造基于知识发现的教学质量评价系统为目的,从数据分析的角度,对影响教学质量的主体、过程等因素及相互关系进行了研究,提出了适合教学质量评测及控制的数据指标及规则发现方法。以上文为代表的一些研究虽然体现了在教学评价系统中引入数据挖掘模型的一般思路,但在理论研究方面还只停留在概念引入阶段,一般侧重于定性论述数据挖掘对改进教学质量评价系统的意义,在应用研究方面还只停留在使用最简单的数据挖掘算法来验证评价效果的阶段。

与数据挖掘在教学评价系统中的应用研究非常缺乏相比,目前国内外对于数

据挖掘的研究正处在一个黄金时期。数据挖掘(Data Mining),又称为数据库中的知识发现(简称KDD),是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。数据挖掘是一门新兴的技术,它以数据库技术作为基础,把逻辑学、统计学、机器学习、模糊学、可视化计算等多门学科的成果综合在一起,进行如何从数据库中得到有用信息的研究。数据挖掘技术得到了人们的普遍关注,广泛应用于银行金融、保险、公共设施、政府、教育、远程通讯、软件开发、运输等各个企事业单位及国防科研上。KDD(Knowledge Discovery in Databases)一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD国际研讨会己经召开了7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人扩大到七八百人,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他相关专题会议也把数据挖掘和知识发现列为议题之一,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了KDD专题或专刊。总之数据挖掘己成为当前计算机科学界的一大研究热点,国外数据挖掘的研究和应用得到迅速发展。在研究方面,对知识发现方法的研究取得新的进展,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和提高。在应用方面,KDD商业软件工具不断产生和完善,注重建立解决问题的整体系统,而不是孤立的过程。与国外相比,国内对数据挖掘的研究稍晚,没有形成整体研究力量,从事数据挖掘研究的人员主要集中在大学,也有部分在研究所或公司。所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,如清华大学、中科院计算技术研究所等。

聚类分析是数据挖掘中的一个重要研究领域。所谓聚类,就是把没有类别标记的样本集按某种准则划分成若干类,使类内样本的相似性尽可能大,而类间样本的相似性尽可能小,是一种无监督的学习方法。聚类分析通常是在没有先验知识支持的前提下进行的,它所要解决的就是在这种前提下,实现满足要求的类的聚合。聚类分析的研究主要集中在聚类算法上,产生性能良好且实用的聚类算法是其终极目的聚类分析作为数据挖掘的主要研究课题之一,人们己提出了许多经典的算法,主要有基于划分的方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法等五大类,在此基础上,又提出了许多改进算法,但这些算法一般仅适用于特定的问题及用户,而且它们在理论和方法上仍不完善,甚至还有严重的不足之处。对聚类算法的进一步优化研究将不仅有助于算法理论的完善,更有助于算法的推广和应用。近年来,在对经典聚类算法的研究上取得了一定的进步。在应用方面,聚类分析己经广泛地应用在许多领域,包括模式识别、数据

分析、图像处理以及市场研究等等。通过聚类,人们能够识别密集的和稀疏的区域,从而发现全局的分布模式,以及数据属性之间的有趣的相互关系。

与总体数据挖掘的研究同步,目前国内对于聚类分析的研究也正处于一个方兴未艾的阶段,但现有研究涉及的领域主要集中在聚类算法的改进方面,而对于聚类算法的实际应用方面,虽然都认为聚类分析前景广阔,可用于各种领域,但针对工业、经济等领域的较多,而应用于教育领域的较少,如陈治国,张春元在“基于聚类分析的学生等级制成绩评定方法”中尝试将聚类分析应用于教育领域。而将聚类分析用于教师教学评价系统的研究方面,目前国内还未有公开发表的成果。

如前所述,对于教学质量评价系统的研究目前正处于一个新的研究热潮的起始期,那就是使用新的面向对象技术和引入基于KDD的评价方法,而对于聚类分析算法改进和应用的研究正处于一个口趋于稳定的成熟期。因此,将聚类分析应用于教学评价系统,是一个大胆创新却不失科学性的尝试。寻找或改进适合教学评价的聚类方法,并将之应用于教学评价系统构建的实践中,形成的新系统将基于KDD的思想,充分利用教学评价系统的数据源,获取更多更好更有用的信息供教师改进教学,帮助教学管理人员提高管理效率。

1.3本文的研究思路

本文将对教学质量评价体系进行重新的整理,打破以往的依靠学生平均成绩来评定教师教学质量的低成效方式,本次将用模糊聚类依靠多个角度来评定教学质量。

本文将首先介绍模糊聚类算法的概念,在工作生活中的意义,以及包含的公式,如质心,明可夫斯基(Minkowski)距离,半径,二级模糊综合评判法,FCM公式等等,接下来就是分析模糊聚类算法评定教学质量与以往的平均成绩评判法的差别及优缺点,然后便是主要的设计与实现过程。

此外,本文还会在必要的地方进行图解,以便读者进行更加清晰的阅读和明确思路。

本文结合高校教学现代化的需要,在广泛参考国内外有关教学质量评价方法和评价系统设计与开发的研究成果基础上,提出了使用聚类算法改进教学评价模型的设想,研究开发了高校教师教学质量评价系统的核心算法。进行的主要工作如下:

①对聚类分析与模糊理论的介绍

②对聚类算法与模糊聚类算法的研究

③使用聚类算法改进教学评价模型

④分析问题背景,准确描述该体系的目标和业务需求。

⑤使用用例分析来准确表达该算法功能需求

⑥使用用例分析来准确表达该体系的功能需求

⑦教学质量模型效果验证

1.4 本章小结:

本章是本文的绪论部分,叙述了数据挖掘技术的重要性并强调了其社会地位和国外研究状况。此外,当今的教学质量评价系统存在着很大的误差,本节也是简单概括了它的优缺点。最后还描述了本文的研究思路。

第2章聚类与模糊聚类

聚类(Clustering)就是按照某个特定标准(一般为距离准则)把一个数据集分割成不同的类或簇(Cluster),使得在同一个簇(类)内的数据对象的相似性尽可能的大,同时不在同一个簇(类)中的数据对象的差异性也尽可能的大,即物以类聚。他主要是从数据库记录集中寻找数据间的相似性,并以此对数据进行分类,从而发现数据库的记录中隐含的有用信息。

需要注意的是,这与人们所熟悉的分类预测方法是明显不同的,分类预测方法学习获取分类模型所使用的数据是己知类别归属(class-labeled data,属于有监督的学习方法,而聚类分析是一种无监督的学习方法,是在没有先验知识支持的前提下进行的,所分析处理的数据是事先没有确定类别归属的,类别归属的标志在聚类分析处理的数据集中是不存在的。举个例子来说,假如现在有20位教师的相关数据,那么就可以根据事先确定好的3 -5岁以下算青年教师的划分来将教师分为青年教师和非青年教师两类,这是属于分类方法。而如果根据这些教师的信息来进行分析,发现这些教师向三个方向聚集,最多的一大类是科研成果、职称与年龄成正相关的,然后还有少部分年轻但是成果多的,也有一小部分年龄大但是成果并不多的,然后去寻找这三类教师的特征和标志。这就属于聚类分析了。

主要聚类算法有划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法等五大类型。在本文中重点介绍了层次方法中的系统聚类法和划分方法中的K一均值(K-means)算法,前者在实践中被广泛使用,后者是理解FCM算法的基础。

聚类问题的研究不仅仅局限于上述硬聚类(Hard Clustering),即每一个数据对象只能被归为一类,模糊聚类也是聚类分析中研究较为广泛的一个分支。模糊聚类通过隶属函数来确定每个数据对象隶属于各个簇的程度,而不是将一个数据对象硬性的归类到某一簇中。那种强行根据学生评分来将教师划为三六九等的做法是非常不可取的,教学质量评价问题其实是一个典型的模糊分类问题。所以本章在介绍了聚类概念与聚类算法之后,还介绍了模糊集合理论、模糊聚类以及常见的模糊聚类算法(如FCM算法)等。

2.1聚类分析的基本概念

前面花很大篇幅介绍了什么是聚类和模糊聚类,本节主要从数学的角度介绍分析聚类的有关概念,首先给出了聚类的定义及其数据类型,然后在此基础上给出了与相异度度量有关的距离和与聚类特征的描述有关的质心、直径等统计量的

数学描述。这为后面的章节打下基础。

2.1.1聚类的定义

在数据空间A 中,数据集X 由许多数据点(或数据对象)组成,数据点 X i =(X i1,…,X ip ),X i 的每个属性(或特征·观测值或维度)X ij 既可以是数值型的,也可以是枚举型的,假设数据集X 中有n 个对象X i (i=1,…,n).,则数据集X 相当于是一个n*p 矩阵(即下文的数据矩阵),聚类的最终目的是把数据集X 划分为k 个分割C m (m=1,…,k),也可能有些对象不属于任何一个分割,这些就是噪声Cn 。所有这些分割与噪声的并集就是数据集X ,并且这些分割之间没有交集,即X=C 1∪…∪C k ∪…∪C n ,那么这些分割C m 就是聚类。

上面的数据集X 可以表示从一个n*p 矩阵(矩阵2.1),这个矩阵常被称为数据矩阵。它是对象一变量结构的数据表达方式,其中第i 个对象的p 个变量的观测值可以记为向量: X i =(X i1,…,X ip )T

??????

????????np n n p p x x x x x x x x x 2122221112

11 (2-1)

聚类中常用的另外一种数据结构是相异度矩阵,他是一种对象一对象结构的数据表达方式,它存储的是n 个对象两两之间的近似性,表现形式为一个n*n 矩阵。

2.1.2相异度的度量

上面的相异度矩阵涉及到聚类分析中的另一个主要议题,即两个数据对象之间的相似度如何来度量的问题,为了度量对象之间的接近与相似程度,或求两个对象之间的相异度,需要定义一些聚类统计量,用作聚类分析的数量指标,从而可以定量地进行聚类分析。

计算对象间的距离是经常采用的求相异度的方法。对于有P 个变量的对象来说,n 个对象可以看作是P 维空间的n 个点,自然可以设想用点间的距离来度量对象间的接近程度。设两个P 维向量:X i =(X i1,X i2,…,X iP )T 和:X=(X j1,X j2,…,X jp )T 分别表示两个对象,可以采用多种形式的距离来度量它们的相异度,常见的有明可夫斯基距离和由明可夫斯基距离特例化形成的曼哈坦距离、欧几里得距离、切比雪夫距离等,以及与欧氏空间对应的属于马氏空间的马氏距离,和引入加权

因素的加权欧几里得距离等。

①明可夫斯基

(Minkowski)距离:

q q p k jk ik q j i j i q x x x x x x d 11)

(),(∑=-=-= (2-2)

其中q ∈[1,∞)。明可夫斯基距离是无限个距离度量的概化,当q=1时为曼哈坦(M anhattan)距离,当q=2时为欧几里得距离,当q →∞时为切比雪夫距离。

②曼哈坦(Manhattan)距离:

∑=-=-=p

k jk ik j i j i x x x x x x d 111),( (2-3) ③欧几里得(Euclid)距离:

212122)(),(∑=-=-=p k jk ik j i j i x x x x x x d (2-4)

④切比雪夫(Chebyshev)

距离:

jk ik p k j

i j i x x x x x x d -=-=∈∞∞),,2,1(max ),( (2-5)

除了距离以外,另一个常用的聚类统计量是相似系数,相似系数也可以有多种定义形式,常见主要有夹角余弦与相关系数。

另外,对于相异度的度量也可以通过与之相对的相似性度量来实现。相似性度量与相异性度量实际上一致的,相异度越大则相似性越小,反之,相异度越小就表示相似性越大。对于枚举型数据,可以用相同属性值的数目作为相似性度量,也可以用相同属性值的数目与不同属性值数目的比值作为相似性度量。本文所研究的教学质量评价实例中,每个学生给教师的评价是对每个指标都有优秀、良好、中等、较差、差五个等级的枚举型数据,所以在处理上就先计算每个指标的频率,然后计算每位教师在每个指标上的得分,以这个得分矩阵来作为聚类分析的数据矩阵。

2.1.3聚类特征的描述

根据前文的描述和数学定义可知,聚类是一种后验的“分类”方法,所以就存在如何来描述一个自然聚集的类的问题。假想在一个二维图上,很多的点聚集成三个区域,那么如何来描述这三个聚集呢?一般就是这个区域的形状,区域的核心以及半径了。推广到N 维空间,道理也是一样的。

设一个聚类G 中有N 个对象元素,记为X i ,i=1,2,…,N,若把它们看作随机向量,则可以用以下几种特征来描述聚类:

质心:

∑==N

i i x N

m 11 (2-6) 离差矩阵和协方差矩阵:

T N i i i G m x m x A ∑=--=1

))(( (2-7)

1

-=N A S G G (2-8)

直径可以有多种定义,例如:

)),((max ,1j i N

j i G x x d D ≤≤= (2-9)

或者:

∑=--=N

i i T i G m x m x D 1

)()( (2-10) 2.2聚类算法

2.2.1聚类算法概述

现有的主要聚类算法可以大致分为以下几种:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法等。各种算法中又有许多具体的方法,非常芜杂,并且各种算法都有一定的适应条件。在常见的聚类方法表中给出

了一些常见的聚类算法及其特点和不足,由于本人水平和能力有限,所做的归纳仅供参考。由于篇幅所限,就不对每种算法做详细的介绍和分析了,只选择介绍广泛使用的属于层次方法中的系统聚类法和属于划分方法中的K—平均算法。

一般而言比较一个聚类算法的好坏主要看如下特性:

1.算法的可伸缩性,许多聚类算法对于小于200个数据对象的较小数据集能够

很好地聚类,但是大型数据集可能包含有几千万乃至更多的对象。虽然通过抽样可以减少数据量,但是抽样会对聚类的结果带来影响甚至会产生错误的结果。

2 .输入参数对领域知识的弱依赖性,许多聚类算法要求用户输入一定的参数,

如聚类数、置信度等。而结果常对这些参数非常敏感。另一方面,这些参数往往又很难确定,这不仅对用户带来了难题,而且还使结果难以控制。

3.发现任意形状的聚类的能力,很多聚类算法采用基于欧几里得距离

(Euclidean distance)。或曼哈坦距离(Manhattan distance)的相似性度量方法来确定聚类,而这类算法只能发现球状的、大小和密度相近的聚类。但聚类可能是各种形状的,如线形、环形、凹形以及其他各种复杂不规则形状。

4. 对输入顺序的敏感程度,有些聚类算法对数据的输入顺序非常敏感,例如,

对于同一个数据集,用不同的顺序输入到算法中,可能会产生完全不同的聚类结果。

5. 处理噪音数据的能力,现实世界的很多数据中都包含一些异常数据或错误

数据,有些聚类算法对这些数据非常敏感,并可能会产生错误的聚类结果。

6. 对高维数据的处理能力,数据库或数据仓库中的数据可以有几十乃至成百

上千个维度或属性。许多聚类算法只擅长处理低维数据,如二维或三维数据。

7. 结果的可解释性和可用性,用户希望聚类结果是可解释的,可理解的和可

用的。也就是说,聚类可能需要和特定的语义解释和应用相联系。

2.2.2系统聚类法

系统聚类法是属于层次方法中的最简单的一种凝聚聚类算法,其算法的核心思想是首先假定每个数据对象单独为一类,然后计算类与类之间的距离,距离一般采用欧几里得距离,也可以采用其他距离。然后将空间距离最小的两类归为一类,并将新类的质心设为两类的算术平均值(注意是将两个向量的每个维上的数据分别求算术平均值,然后得到一个新的向量),这种计算方法在聚类分析中称为类平均法,也可以使用其他算法来计算质心。然后重复进行计算类之间的距离和合并距离最小的类的步骤,直至所有点归为一类为止。这样就得到了一个所有数据

对象的聚类谱系图,然后根据人为确定的分类数或者根据距离阀值来确定最佳的分类数和各对象所属的类别。其算法的过程如下:

步骤1将每个对象分别归为一类。各对象的数据即为类的质心。

步骤2分别计算各个类的质心间的距离,将距离最小的两个类合并,一般采用欧氏距离。但也可以根据数据集的情况选取2.1.2节中所介绍的其它距离。

步骤3计算新类的质心。一般采用计算两个类的质心的的算术平均值的方法。

2

21i i i x x m += (2-11)

步骤4重复步骤2, 3,直至所有对象归为一类为止。常见的聚类算法如下表:

表2-1:常见的聚类算法

2.2.3 k-平均算法

k-平均算法,有些文献中又翻译为k 一均值算法。顾名思义,k-平均算法中k 为参数,把n 个数据对象分成k 个类,使同一个类中具有较高的相似度,而不同类间的相似度较低.相似度的计算是根据数据对象与一个类中对象的平均值(即类的质心)的距离来度量的。k 平均算法的处理过程如下:首先,随机选取k 个对象作为初始的k 个簇的质心,然后,将其余对象根据其与各个簇质心的距离分配到最近的簇,然后再重新计算每个簇的质心.这个过程不断重复,直到目标函数最小化为止。 通常采用的目标函数形式为平方误差准则函数:

21∑∑=∈-=k i c p i

i c p E (2-12)

其中P 为数据对象,c i 表示簇C i 的质心,E 就表示数据集中所有对象的平方误差的和。误差平方和是多元统计分析中的一个经典的统计量,这里不再过多叙述。这个目标函数使生成的簇尽可能地紧凑和独立,它使用的距离度量是欧几里得距离,当然也可以采用其他距离度量。k 平均聚类算法的过程如下:

步骤1随机选取k 个对象作为初始的簇的质心。

步骤2计算各个数据对象与各个族的质心的距离,将对象划分到距离其最近的簇中。一般采用欧氏距离。但也可以根据数据集的情况选取2.1.2节中所介绍的其它距离。

步骤3重新计算每个新簇的均值,即质心。

步骤4若簇的质心不再变化,则返回分类的最终结果,否则转到步骤②。 K-平均算法尝试找出使平方误差函数值最小的k 个划分。当类与类之间的区别比较明显时,它的效果较好。在处理大规模数据集方面,该算法是相对可扩展的,具有较高的效率。算法的复杂度为O ,其中n 为数据集中数据对象的数目,k 为期望得到的簇的数目,t 为迭代的次数。通常情况下,通过k-平均算法可以求得局部的最优解。

但是,任何算法有优点也必然有缺点,k-平均算法有如下不足:

1.只有在簇的平均值被定义的情况下才能使用,这可能不适用于某些应用,例如涉及有分类属性的数据。

2.对于随机选取的初始值可能会导致不同的聚类结果,甚至存在无解的情况。

3.这种算法要求事先给出要生成的簇的数目k ,显然,这在某些应用中是不实际的。

4.k-平均算法不适用于发现非凸面形状的簇,或者大小差别很大的簇。

5由于算法是基于目标函数的算法,通常采用梯度法来求极值,由于梯度法的搜索方向是沿着能量减小的方向进行的,使得算法容易陷入局部极值。

6.它对于噪音和孤立点数据是敏感的。

因为有许多不足,所以k —平均算法有很多变种和改进,用以弥补各方面的不足。例如,k —模算法用模代替簇的平均值,用新的相异性度量方法来处理分类对象,用基于频率的方法来修改聚类的模。而k —平均算法和k —模算法相结合,用来处理有数值类型和分类类型属性的数据,就产生了k —原型算法。还有学者致力于目标函数的选取和求目标函数极值算法的改进,将遗传算法与k —均值算法相结合,提出了遗传k 均值算法。

2.3模糊理论与模糊聚类

上一节介绍的聚类方法都是把每个数据对象严格地划分到某个类中,这种聚类的类别界限是分明的,属于硬划分。然而事物之间的界限往往并不是那么明确,客观世界中存在着大量的模糊划分的现象,模糊集合理论为这种软划分提供了数学工具。接下来我们研究模糊集合理论。

2.3.1模糊集合理论

模糊性同随机性一样,也是一种不确定性,是事物本身所固有的特性,例如,“教学质量高”、“教学质量一般”、“教学质量不太好”就是三个模糊概念,一名在学生在测评中得了75分,那么他的教师属于教学质量哪个级别呢?如果选择“不太好”的级别,可是学生明明及格了;如果选择“一般的级别”,可75分已经略高了,不能仅算一般;如果算“水平高”,那么85和95又该算什么。这种情况应该如何定夺?

在引入模糊集合理论之前,先来看看经典集合论的概念。

论域U 中的每个元素u ,对于子集A 包含于U 来说,要么u 属于A ,要么u 不属于A ,即,子集A 由映射

}1,0{:→U C A (2-13)

唯一确定,即集合A 可由特征函数

A u A u u C A ?∈?

??=01)( (2-14)

相关文档
相关文档 最新文档