文档库 最新最全的文档下载
当前位置:文档库 › 利用粗糙集理论提高SVM预测系统的实时性

利用粗糙集理论提高SVM预测系统的实时性

利用粗糙集理论提高SVM预测系统的实时性
利用粗糙集理论提高SVM预测系统的实时性

收稿日期:2005-12-09

基金项目:天津市教委十五综合投资项目(2004BA11)

作者简介:冯利军(1974-),男,河北涉县人,博士研究生,主要从事项目智能管理等研究;李书全,教授,主要从事项目管理、机器学习等方面的研究。

利用粗糙集理论提高SVM 预测系统的实时性

冯利军1,2,李书全1,宋连友3

(1.天津财经大学,天津300222;2.河北农业大学,河北保定071001;3.沧州师范专科学校,河北沧州061001)

摘 要:支持向量机是一种新的机器学习方法,它具有良好的推广性和分类精确性。但是在利用支持向量机的分类算法处理实际问题时,该算法的计算速度较慢、处理问题效率较低。文中介绍了一种新的学习算法,就是将粗糙集和支持向量机相结合,利用粗糙集对支持向量机的训练样本进行预处理,从而缩短样本的训练时间,提高基于SVM 预测系统实时性。文中最后利用该方法进行了数据试验,试验结果表明了该方法可以大大缩短样本的训练时间,提高基于支持向量机处理预测系统的效率。从而也证明了该方法的有效性。关键词:粗糙集;支持向量机;预测

中图分类号:TP18 文献标识码:A 文章编号:1673-629X (2006)09-0030-02

Improving R eal -Time Character of Prediction System B ased on SVM Using RS Theory

FEN G Li 2jun 1,2,L I Shu 2quan 1,SON G Lian 2you 3

(1.Tianjin University of Finance and Economics ,Tianjin 300222,China ;

2.Agriculture University of Hebei ,Baoding 071001,China ;

3.Cangzhou Teacher ’s College ,Cangzhou 061001,China )

Abstract :Support vector machine is a kind of new machine learning method.This method has good generality capability and better classifi 2cation accuracy.But when solve real problem using support vector machine ,its computation rate is slow and its efficiency is low.Introduce a kind of method that improves the real -time character of prediction system based on SVM in this paper.That can shorten the training time of prediction system based on SVM by preprocessing the training sample of SVM using rough sets theory.At last ,carried on data ex 2periments using this method in this paper.The experiments result indicated that this method can shorten the training time greatly and im 2prove the efficiency of prediction system based on support vector machine.Consequently the experiments result proved the validity of this method.

K ey w ords :rough sets ;support vector machine ;prediction

0 引 言

支持向量机(SVM )是在统计学习理论的基础上发展起来的一种新的机器学习方法,它基于结构风险最小化原则,能有效地解决过学习问题,具有良好的推广性和较好的分类精确性。目前,SVM 在许多领域的分类和回归方面起着越来越重要的作用。比较成熟的应用有人脸识别、语音识别和医疗诊断等[1]。然而,SVM 有一个不足之处就是它在对训练样本进行处理时,不能确定数据中哪些知识是冗余的,哪些是有用的,哪些作用大,哪些作用小。这

样,就可能造成建立在二次规划基础上的SVM 算法在对样本数据进行训练时耗费较长的时间,降低SVM 预测系统的实时性。为了解决这一问题,可以考虑采用一定的方法对需要训练的大量样本数据进行预处理,剔除掉冗余、无用的信息,将留下的数据作为SVM 的训练样本,这样

就可以大大缩短样本的训练时间,提高SVM 预测系统的效率。粗糙集(Rough Sets ,简称RS )理论为这一问题的解决提供了可能。

1 RS 理论概述

RS 是波兰数学家Z.Pawlak 为开发自动规则生成系

统及研究软件计算问题于1982年提出的。它是一种处理不精确、不确定和不完全数据的新的数学方法。由于它在机器学习、知识发现、数据处理、决策支持与分析、专家系统、归纳推理和模式识别等方面的广泛应用,现已成为一

第16卷 第9期2006年9月 计算机技术与发展COMPU TER TECHNOLO GY AND DEV ELOPMEN T

Vol.16 No.9Sep. 2006

个热门的研究领域[2]。

RS理论以不可分辨关系划分所研究论域的知识,形成知识表达系统,利用上、下近似集逼近描述对象,通过知识约简,从而获得最简知识。知识约简是RS理论的核心内容之一。人类在对一个事物做出判断和决策时,并不是依据被判断事物的全部特性,而是根据事物的一个或几个最主要的特征做出判断。知识约简就是根据这一原理,剔除知识库中的冗余知识,简化判断规则。

假定所讨论的对象的论域为U,U中的一种关系定义为R,R可以是一种属性的描述,也可以是一个属性集合的描述;可以是定义一种变量,也可以是定义一种规则。当用R描述U中所有等价类簇时,可以表示为U/R。若R 是U上的划分,R={X1,X2,…,X n},(U,R)称为近似空间。用des A{X i}表示U上基于关系R的一个等价关系

对X

i 的基本集合的描述。例如,属性集A

A

{X i}

={(a,b)∷f(x,a)=b,x∈X i,a∈A},因此这里表示

给定的集合X

i 可用属性A和属性集V

A

表示。

不可分辨关系是指事物有属性集P表示时,在论域U中的等价关系。例如,属性集P

2 利用RS理论对SVM的训练数据进行预处理在基于SVM的预测系统中,要对采集到的样本数据进行训练。如果SVM所处理的样本的维数较大,就可能导致SVM的训练时间过长,影响到预测系统的实时性。对于这个问题,可以利用RS理论对样本数据进行预处理。因为RS在处理数据时有两个显著的优点:一是RS 不需要任何先验知识,仅利用数据本身提供的信息即可;二是RS能表达和处理不完备信息,以不可分辨关系为基础,侧重分类,能在保留关键信息的前提下对数据进行约简并求得知识的最小表达,能识别并评估数据之间的依赖关系,揭示出概念简单的模式,能从经验数据中获取易于证实的规则知识。这样,经过RS处理后,不但可以剔除数据中的冗余信息,还可以降低样本的维数。然后将处理过的数据用于SVM预测系统,则可以大大缩短样本的训练时间[4]。基于以上的理解,可以设计出相应的系统简图,如图1所示。

在图1中,把RS对数据的预处理过程作为前置系统,再根据RS预处理后的信息结构,来构建SVM预测系统。具体的约简过程如下:训练样本集首先从搜集的原始数据中产生,然后将条件属性值进行量化。量化后的属性值构成一张二维表格,每一行描述一个对象,每一列描述对象的一个属性,属性分条件属性和决策属性。决策表约简包括条件属性约简和决策规则约简。条件属性约简就是去某一属性后,考察决策表的相容性,如果去掉该属性后决策表是相容的,就去掉该属性,直到决策表最简为止。决策规则约简就是在条件属性简化后的决策表中,去掉样本集中的重复信息,考察剩下的训练集,每一条规则中哪些属性值是冗余的,去掉冗余信息和重复信息后,就得到了最小决策算法。也可以先约简每一决策规则,再简化条件属性,从而得到最小条件属性集。采用约简得到的最小条件属性集及相应的原始数据重新形成新的训练样本集,该样本集除去了所有不必要的条件属性,仅保留了影响预测精度的重要属性。用约简后形成的训练样本对SVM 训练。最后输入按照最小条件属性集及相应的原始数据形成的新的测试样本集,对系统进行测试,

输出预测结果。

图1 利用RS进行数据预处理的SVM预测系统简图

3 数据实验

文中利用心脏病诊断的例子来进行数据实验。采用的数据是美国Cleveland Heart Disease Database提供的数据。在该数据里,共对299个病人进行了彻底的临床检测,确诊了他们是否有心脏病。同时,记录了他们的年龄、胆固醇等125项指标[5]。采用其中的289个病人的记录作为SVM的训练集,剩余的10个病人的记录作为检测数据。在MATLAB7中运行程序发现,在对训练集进行预处理前,要完成整个训练及检测任务需要耗时302s,且预测结果准确率偏低。当用RS对SVM的训练集进行预处理后,推断病人是否患有心脏病的指标由原来的125个减少为4个,整个训练及检测任务耗时233s,准确率100%。结果如表1所示。

在表1中,+1表示有心脏病,-1表示没有心脏病。从整个实验结果可以看出,利用RS理论对SVM的训练数据进行预处理后,SVM预测系统的实时性及预测精度都大大提高了。可见,利用一些辅助工具对SVM进行适

(下转第34页)

?

1

3

?

第9期 冯利军等:利用粗糙集理论提高SVM预测系统的实时性

virtual C JiuG();

bool MoveLeft(J GState3src,J GState3result);//左移

bool MoveRight(J GState3src,J GState3result);//右移

bool MoveUp(J GState3src,J GState3result);//上移

bool MoveDown(J GState3src,J GState3result);//下移

bool Compare(J GState3src1,J GState3src2);//比较两个状态是否相等

int ComputeFn(J GState3cur,J GState3dest);//估价函数的计算,我们采用了Pn

bool Search();//用A3算法搜索最优解

};

本程序的关键是用A3算法来搜索最优解,所以程序中的核心部分是Search()函数的实现。设计思路如下:首先比较初始状态和目标状态是否相同,如果相同则搜索成功并且退出,不相同则将起始结点加入到Open表中去,然后搜索Open表中估计值最小的结点。在这里采用的启发函数是h(n)=p(n),即每一个将牌与其目标位置之间距离的总和,在程序中是C omputeFn()函数: int C JiuG::ComputeFn(J GState3cur,J GState3dest)

{

int xcur[9],ycur[9],xdest[9],ydest[9];//保存9个坐标

int i,j;

int result=0;

for(i=0;i<3;i++)

{

for(j=0;j<3;j++)

{

xcur[cur->state[i][j]]=i;

ycur[cur->state[i][j]]=j;

xdest[dest->state[i][j]]=i;

ydest[dest->state[i][j]]=j;

}

}

//计算当前状态的每个将牌的与目标状态之间的距离的总和。

for(i=1;i<9;i++)

{

result=result+abs(xcur[i]-xdest[i])+abs(ycur[i]-ydest [i]);

}

return result;

}

再将估价函数最小的结点从Open表中删除,加入到Close表中去。然后对该结点进行扩展,分4种情况(空格左移,右移,上移,下移)讨论,再对4种移动所得到的结点重复上述操作过程直到找到目标结点为止。

4 结 论

本程序主要是用A3算法来搜索八数码问题的最优解。通过输入大量的初始状态和目标状态发现,在一般情况下都可以找到最优的动作序列,但对某些复杂的初始状态虽能得到正确解却不能完全得到最短的搜索路径。这是有待改进的地方。

参考文献:

[1] 林尧瑞,马少平.人工智能导论[M].北京:清华大学出版

社,1989.

[2] 马少平,朱小燕,人工智能[M].北京:清华大学出版社,

2004.

[3] 尼尔逊N J.人工智能原理[M].北京:科学出版社,1983.

[4] Ansari N,Hou E.用于最优化的计算智能[M].李 军,边

肇衤其译.北京:清华大学出版社,1999.

[5] 王万森.人工智能原理及其应用[M].北京:电子工业出版

社,2000.

(上接第31页)

当的优化及处理,可以进一步发挥SVM本身处理问题的优越性。

表1 数据实验结果表

序号

训练集预处理前训练集预处理后实际结果预测结果总耗时(s)实际结果预测结果总耗时(s) 1+1+1

2+1+1

3+1+1

4+1+1

5+1+1 6-1+13 7-1+13 8-1-1 9-1-1 10-1-1302

+1+1

+1+1

+1+1

+1+1

+1+1

-1-1

-1-1

-1-1

-1-1

-1-1

233

4 结束语

将RS和SVM相结合,利用RS对SVM处理的训练样本进行预处理,可以缩短SVM的训练时间,并在不影响SVM预测系统预测精度的前提下提高SVM预测系统的实时性,为实际预测问题的处理提供了一个很好的解决方案。

参考文献:

[1] 张 辉,张 浩,陆剑峰.SVM在数据挖掘中的应用[J].计

算机工程,2004,30(6):7-8.

[2] 张文修,吴伟志,梁吉业,等.粗糙集理论与方法[M].北京:

科学出版社,2001.

[3] Pawlak Z.Rough sets[J].International Journal of Information

and Computer Science,1982,11:241-256.

[4] 李孟歆,吴成东,夏兴华.粗糙集理论及其应用[J].沈阳建

筑工程学院学报,2001,17(4):296-299.

[5] 邓乃扬,田英杰.数据挖掘中的新方法-支持向量机[M].

北京:科学出版社,2004.

?

4

3

? 计算机技术与发展 第16卷

粗糙集理论及其应用综述

控制理论与应用 CONTROL THEORY & APPLICATIONS 1999年 第16卷 第2期 Vol.16 No.2 1999 粗糙集理论及其应用综述* 韩祯祥 张琦 文福拴 摘要:粗糙集理论是一种较新的软计算方法,可以有效地分析和处理不完备信息.该理论近年日益受到国际学术届的重视,已经在模式识别、机器学习、决策支持、过程控制、预测建模等许多科学与工程领域得到成功的应用.本文介绍了粗糙集理论的基本概念,对其在各领域的应用情况进行了综述. 关键词:粗糙集;不确定性;数据分析;软计算;粗糙控制 A Survey on Rough Set Theory and Its Application Han Zhenxiang, Zhang Qi and Wen Fushuan (Department of Electrical Engineering, Zhejiang University.Hangzhou,310 027,P.R.China) Abstract: Rough set theory is a relatively new soft comput ingtool to deal with vagueness and uncertainty.It has received much attention of the researchers around the world.Rough set theory has been applied to many area s successfully including pattern recognition,machine learning,decision support, process control and predictive modeling.This paper introduces the basic concepts of rough set.A survey on its applicatoins is also given. Key words: rough set; uncertainty; data analysis; soft computing; rough control 1 引言(Introduction) 粗糙集(Rougn Set,RS)理论是一种刻划不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律[1].RS理论是由波兰学者Pawlak Z在1982年[2]提出的.1991年Pawlak Z出版了专著[3],系统全面地阐述了RS理论,奠定了严密的数学基础.该书与1992年出版的RS理论应用专集[4]较好地总结了这一时期RS理论与实践的研究成果,促进了它的进一步发展,现已成为学习和应用RS理论的重要文献.从1992年至今,每年都召开以RS 为主题的国际会议,推动了RS理论的拓展和应用.国际上成立了粗糙集学术研究会,参加的成员来自波兰、美国、加拿大、日本、挪威、俄罗斯、乌克兰和印度等国家.目前RS理论已成为人工智能领域中一个较新的学术热点,引起了越来越多的科研人员的关注. 2 粗糙集理论的基本概念(Basic concepts of rough set theory) 2.1 知识与不可分辨关系(Knowledge and indiscern ibility relation) 在RS理论中,“知识”被认为一种将现实或抽象的对象进行分类的能力[3].假定

粗糙集理论

粗糙集理论与应用研究综述 王国胤1Yiyu Yao2 于洪1,2 (1重庆邮电大学计算机科学与技术研究所重庆400065) (2Department of Computer Science, University of Regina, Regina, Canada S4S 0A2) {wanggy, yuhong}@https://www.wendangku.net/doc/bc18832382.html,, yyao@cs.uregina.ca 摘要本文在阐释粗糙集理论基本体系结构的基础上,从多个角度探讨粗糙集模型的研究思路,分析粗糙集理论与模糊集、证据理论、粒计算、形式概念分析、知识空间等其他理论之间的联系,介绍国内外关于粗糙集理论研究的主要方向和发展状况,讨论当前粗糙集理论研究的热点研究领域,以及将来需要重点研究的主要问题。 关键词粗糙集,模糊集,粒计算,形式概念分析,知识空间,智能信息处理 A Survey on Rough Set Theory and Its Application Wang Guo-Yin1Yao Yi-Yu2 Yu Hong1,2 1 Institute of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing, 400065 2 Department of Computer Science, University of Regina, Regina, Saskatchewan, Canada, S4S 0A2 Abstract This paper introduces the basic ideas and framework of rough set theory and the different views of knowledge representation in rough set theory, and then discusses the relations between the rough set theory and the other theories, such as fuzzy set, evidence theory, granular computing, formal concept analyzing, knowledge space, etc. Furthermore, the paper reviews the recent studies for this theory and a survey on its applications is also given. The future development trend of rough set theory is also discussed. Keywords rough set, fuzzy set, granular computing, formal concept analyzing, knowledge space, intelligent information processing 1 引言 智能信息处理是当前信息科学理论和应用研究中的一个热点领域。由于计算机科学与技术的发展,特别是计算机网络的发展,每日每时为人们提供了大量的信息,信息量的不断增长,对信息分析工具的要求也越来越高,人们希望自动地从数据中获取其潜在的知识。特别是近20年间,知识发现(规则提取、数据挖掘、机器学习)受到人工智能学界的广泛重视,知识发现的各种不同方法应运而生。 粗糙集(Rough Set,有时也称Rough集、粗集)理论是Pawlak教授于1982年提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具[1]。粗糙集理论最初的原型来源于比较简单的信息模型,它的基本思想是通过关系数据库分类归纳形成概念和规则,通过等价关系的分类以及分类对于目标的近似实现知识发现。 由于粗糙集理论思想新颖、方法独特,粗糙集理论已成为一种重要的智能信息处理技术[2-4],该理论已经在机器学习与知识发现、数据挖掘、决策支持与分析等方面得到广泛应用。目前,有三个有关粗糙集的系列国际会议,即:RSCTC、RSFDGrC和RSKT。中国学者在这方面也取得了很大的成果,从2001年开始每年召开中国粗糙集与软计算学术会议;RSFDGRC2003、IEEE GrC2005、RSKT2006、IFKT2008、RSKT2008、IEEE GrC2008等一系列国际学术会议在中国召开。 粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子,即上近似算子和下近似算子(又称上、下近似集)。经典Pawlak模型中的不分明关系是一种等价关系,要求很高,限制了粗糙集模型的应用。因此,如何推广定义近似算子成为了粗糙集理论研究的一个重点。 目前,常见的关于推广粗糙集理论的研究方法有两种,即:构造化方法和公理化方法。构造化方法是以论域上的二元关系、划分、覆盖、邻域系统、布尔子代数等作为基本要素,进而定义粗糙近似算子,从而导出粗糙集代数系统。公理化方法的基本要素是一对满足某些公理的一元集合算子,近似算子的某些公理能保证有一些特殊类型的二元关系的存在;反过来, 由二元关系通过构造性方法导出的近似算子一定满足某些公理。 事实上,有两种形式来描述粗糙集,一个是从集

(完整版)第七章机器学习

第七章机器学习 7-1 什么是学习和机器学习?为什么要研究机器学习? 按照人工智能大师西蒙的观点,学习就是系统在不断重复的工作中对本身能力的增强或者改进,使得系统在下一次执行同样任务或类似任务时,会比现在做得更好或效率更高。 机器学习是研究如何使用机器来模拟人类学习活动的一门学科,是机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问。这里所说的“机器”,指的就是计算机。 现有的计算机系统和人工智能系统没有什么学习能力,至多也只有非常有限的学习能力,因而不能满足科技和生产提出的新要求。 7-2 试述机器学习系统的基本结构,并说明各部分的作用。 环境向系统的学习部分提供某些信息,学习部分利用这些信息修改知识库,以增进系统执行部分完成任务的效能,执行部分根据知识库完成任务,同时把获得的信息反馈给学习部分。 影响学习系统设计的最重要的因素是环境向系统提供的信息。更具体地说是信息的质量。 7-3 试解释机械学习的模式。机械学习有哪些重要问题需要加以研究? 机械学习是最简单的机器学习方法。机械学习就是记忆,即把新的知识存储起来,供需要时检索调用,而不需要计算和推理。是最基本的学习过程。任何学习系统都必须记住它们获取的知识。在机械学习系统中,知识的获取是以较为稳定和直接的方式进行的,不需要系统进行过多的加工。 要研究的问题: (1) 存储组织信息 只有当检索一个项目的时间比重新计算一个项目的时间短时,机械学习才有意义,检索的越快,其意义也就越大。因此,采用适当的存储方式,使检索速度尽可能地快,是机械学习中

的重要问题。 (2) 环境的稳定性与存储信息的适用性问题 机械学习基础的一个重要假定是在某一时刻存储的信息必须适用于后来的情况 (3) 存储与计算之间的权衡 如果检索一个数据比重新计算一个数据所花的时间还要多,那么机械学习就失去了意义。 7-4 试说明归纳学习的模式和学习方法。 归纳是一种从个别到一般,从部分到整体的推理行为。 归纳学习的一般模式为: 给定:观察陈述(事实)F,假定的初始归纳断言(可能为空),及背景知识 求:归纳断言(假设)H,能重言蕴涵或弱蕴涵观察陈述,并满足背景知识。 学习方法 (1) 示例学习 它属于有师学习,是通过从环境中取得若干与某概念有关的例子,经归纳得出一般性概念的一种学习方法。示例学习就是要从这些特殊知识中归纳出适用于更大范围的一般性知识,它将覆盖所有的正例并排除所有反例。 (2) 观察发现学习 它属于无师学习,其目标是确定一个定律或理论的一般性描述,刻画观察集,指定某类对象的性质。它分为观察学习与机器发现两种,前者用于对事例进行聚类,形成概念描述,后者用于发现规律,产生定律或规则。 7-5 什么是类比学习?其推理和学习过程为何? 类比是一种很有用和很有效的推理方法,它能清晰,简洁地描述对象间的相似性,是人类认识世界的一种重要方法。 类比推理的目的是从源域S中,选出与目标域T最近似的问题及其求解方法,解决当前问题,或者建立起目标域中已有命题间的联系,形成新知识。 类比学习就是通过类比,即通过对相似事物加以比较所进行的一种学习。 类比推理过程如下: (1) 回忆与联想 通过回忆与联想在源域S中找出与目标域T相似的情况。 (2) 选择

粗糙集理论及其应用与发展研究

Computer Knowledge And Technology电脑知识与技术2008年第4卷第1期(总第28期) 粗糙集理论及其应用与发展研究 韦良 (同济大学电子与信息工程学院,上海201804) 摘要:粗糙集理论是一种研究不精确、不确定性、处理不完备知识的数学工具,目前被广泛应用于人工智能、模式识别、机器学习、决策支持和数据挖掘等领域。该文通过介绍粗糙集理论及特点,叙述了粗糙集理论在各领域的应用发展情况,并且展望了其未来发展趋势。 关键词:粗糙集;属性约简;粗糙集应用;数据挖掘 中图分类号:TP18文献标识码:A文章编号:1009-3044(2008)28-0172-03 Rough Set Theory and Its Application Research WEI Liang (Electronics and Information School,Tongji University,Shanghai201804,China) Abstract:Rough set theory is a math theory which processes non-accurate,uncertain and incomplete knowledge.Currently,it has already been applied successfully in the area of Artificial Intelligence,Pattern Recognition,Machine Learning,Decision Analyzing and Data Mining etc.This paper introduces the rough set theory and its characteristics,reviews the development of this theory in different fields,and suggests evolutional trend in the coming future. Key words:rough set;attribute reduction;rough set application;data mining 1引言 波兰数学家Pawlak于1982年提出的粗糙集理论是一种新的处理模糊和不确定性知识的数学工具[1]。其主要思想就是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。粗糙集理论能有效地分析和处理不精确、不一致和不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。以粗糙集理论为基本框架的知识发现过程的研究,越来越引起人们的关注,特别是将粗糙集理论与机器学习、模式识别、数据库理论等相结合,并融合其它有效的数学工具与方法的研究,显示出基于粗糙集理论的多种软计算方法相结合算法在知识发现和优化过程中的强大的优越性,为知识发现的理论基础提供了一定的依据。目前粗糙集理论已成为人工智能领域中一个较新的学术热点,引起了越来越多科研人员的关注。 2粗糙集理论的基本概念 设U是非空有限论域,R是U上的二元等价关系,R称为不可分辨关系,序对A=(U,R)称为近似空间。坌(x,y)∈U×U,若(x,y)∈R,则称对象x与y在近似空间A中是不可分辨的。U/R是U上由R生成的等价类全体,它构成了U的一个划分。可以证明,U上划分可以与U上的二元等价关系之间建立一一对应。U/R中的集合称为基本集或原子集。若将U中的集合称为概念或表示知识,则A= (U,R)称为知识库,原子集表示基本概念或知识模块。任意有限的基本集的并和空集均称为可定义集,否则称为不可定义的。可定义集也称为精确集,它可以在知识库中被精确地定义或描述,可表示已知的知识。可以验证所有可定义集全体可构成U上的一个拓扑。 令知识库K=(U,R),集合X哿U,R是一个等价关系: 分别称RX为X的R下近似(Lower Approximation)和RX为X的R上近似(Upper Approximation)。称集合BN R(X)=RX-RX为X 的R边界域;POS R(X)RX为X的R正域;NEG R(X)=U-RX为X的R负域。 下近似RX包含了所有使用知识R可确切分类到概念X的元素。上近似 RX则包含了所有那些可能是属于概念X的元素。概念的边界区域BN R(X) 由不能肯定分类到这个概念X或其补集X中的所有元素组成。关系如图1 所示。 刻画粗糙集的方法有以下两种:一种是用表示近似精度的数值表示粗 糙集的数字特征;数字特征表示粗糙集边界域的相对大小,但没有说明边 界域的结构。另一种是用粗糙集的拓扑分类表示粗糙集的拓扑特征。拓扑 特征给出边界域的结构信息,但没有给出边界域大小的信息。 由等价关系R定义的集合X的近似精度如下: 收稿日期:2008-07-03 作者简介:韦良(1982-),男(朝鲜族),黑龙江牡丹江人,在读硕士研究生,研究方向:数据挖掘,人工智能,粗糙集应用。 图1概念的上近似、下近似和区域表示 ISSN1009-3044 Computer Knowledge And Technology电脑知识与技术 Vol.4,No.1,October2008,pp.172-174 E-mail:eduf@https://www.wendangku.net/doc/bc18832382.html, https://www.wendangku.net/doc/bc18832382.html, Tel:+86-551-56909635690964 172 本栏目责任编辑:唐一东人工智能及识别技术

粗糙集理论介绍(对于初学者来说,很经典的滴)

粗糙集理论介绍面对日益增长的数据库,人们将如何从这些浩瀚的数据中找出有用的知识?我们如何将所学到的知识去粗取精?什么是对事物的粗线条描述什么是细线条描述?粗糙集合论回答了上面的这些问题。要想了解粗糙集合论的思想,我们先要了解一下什么叫做知识?假设有8个积木构成了一个集合A,我们记:A={x1,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色属性,按照颜色的不同,我们能够把这堆积木分成R1={红,黄,兰}三个大类,那么所有红颜色的积木构成集合X1={x1,x2,x6},黄颜色的积木构成集合X2={x3,x4},兰颜色的积木是:X3={x5,x7,x8}。 按照颜色这个属性我们就把积木集合A进行了一个划分(所谓A的划分就是指对于A中的任意一个元素必然属于且仅属于一个分类),那么我们就说颜色属性就是一种知识。在这个例子中我们不难看到,一种对集合A的划分就对应着关于A中元素的一个知识,假如还有其他的属性,比如还有形状R2={三角,方块,圆形},大小R3={大,中,小},这样加上R1属性对A构成的划分分别为:A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7,x8}} (颜色分类)A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6,x7}} (形状分类)A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4,x7}} (大小分类) 上面这些所有的分类合在一起就形成了一个基本的知识库。那么这个基本知识库能表示什么概念呢?除了红的{x1,x2,x6}、大的{x1,x2,x5}、三角形的{x1,x2}这样的概念以外还可以表达例如大的且是三角形的{x1,x2,x5}∩{x1,x2}={x1,x2},大三角{x1,x2,x5}∩{x1,x2}={x1,x2},兰色的小的圆形({x5,x7,x8}∩{x3,x4,x7}∩{x3,x4,x6,x7}={x7},兰色的或者中的积木{x5,x7,x8}∪{x6,x8}={x5,x6,x7,x8}。而类似这样的概念可以通过求交运算得到,比如X1与Y1的交就表示红色的三角。所有的这些能够用交、并表示的概念以及加上上面的三个基本知识(A/R1,A/R2.A/R3)一起就构成了一个知识系统记为R=R1∩R2∩R3,它所决定的所有知识是A/R={{x1,x2},{x3},{x4},{x5},{x6},{x7},{x8}}以及A/R中集合的并。 下面考虑近似这个概念。假设给定了一个A上的子集合X={x2,x5,x7},那么用我们的知识库中的知识应该怎样描述它呢?红色的三角?****的大圆?都不是,无论是单属性知识还是由几个知识进行交、并运算合成的知识,都不能得到这个新的集合X,于是我们只好用我们已有的知识去近似它。也就是在所有的现有知识里面找出跟他最像的两个一个作为下近似,一个作为上近似。于是我们选择了“兰色的大方块或者兰色的小圆形”这个概念:{x5,x7}作为X的下近似。选择“三角形或者兰色的”{x1,x2,x5,x7,x8}作为它的上近似,值得注意的是,下近似集是在那些所有的包含于X的知识库中的集合中求并得到的,而上近似则是将那些包含X的知识库中的集合求并得到的。一般的,我们可以用下面的图来表示上、下近似的概念。这其中曲线围的区域是X的区域,蓝色的内部方框是内部参考消息,是下近似,绿的是边界加上蓝色的部分就是上近似集。其中各个小方块可以被看成是论域上的知识系统所构成的所有划分。整个粗集理论的核心就是上面说的有关知识、集合的划分、近似集合等等概念。 下面我们讨论一下关于粗糙集在数据库中数据挖掘的应用问题。考虑一个数据库中的二维表如下:元素颜色形状大小稳定性 x1 红三角大稳定 x2 红三角大稳定 x3 黄圆小不稳定 x4 黄圆小不稳定 x5 兰方块大稳定 x6 红圆中不稳定 x7 兰圆小不稳定 x8 兰方块中不稳定 可以看出,这个表就是上面的那个例子的二维表格体现,而最后一列是我们的决策属性,也就是说评价什么样的积木稳定。这个表中的每一行表示了类似这样的信息:红色的大三角积木稳定,****的小圆形不稳定等等。我们可以把所有的记录看成是论域A={x1,x2,x3,x4,x5,x6,x7,x8},任意一个列表示一个属性构成了对论域的元素上的一个划分,在划分的每一个类中都具有相同的属性。而属性可以分成两大类,一类叫做条件属性:颜色、形状、大小都是,另一类叫做决策属性:最后一列的是否稳定? 下面我们考虑,对于决策属性来说是否所有的条件属性都是有用的呢?考虑所有决策属性是“稳定”的集合

粗糙集理论分析及其应用研究

1、前言 随着信息技术的飞速发展和广泛应用,面对信息系统中不完整、不精确或不确定的数据如何有效分析处理?如何发现隐藏在信息系统中的有用知识和潜在的规律?为了解决这些问题,学术界和研究者们采用了粗糙集理论。粗糙集理论是由波兰数学家 Z.Pawlak 在1982年提出的[1],它是一种分析处理不完整性、不精确性、不确定性知识的数学工具。该理论不需要任何初始或附加信息,直接利用已知的知识库,将知识库中的不确定或不精确的知识进行近似的划分,并对所划分的知识域确定其支持程度。 目前,该理论已成为信息科学和认识科学领域的研究热点之一,随着研究的深入,该理论得到了很大的发展和壮大,并已成功应用于人工智能、模式识别与分类、知识发现与决策分析、专家系统、数据挖掘、故障检测、金融、医学、生物学等领域。 2、粗糙集的基本理论定义 粗糙集理论是一种研究不完整、不确定性知识的数学工具[2]。在信息系统中,对知识的理解和表示是人们首先思考的问题,同时也是比较难解决的问题,从目前研究来看,对这些问题的解决,粗糙集理论和技术是比较理想的方法。 定义1:(信息系统)设一个信息系统[3]S=(U,A,V,f),这里, 粗糙集理论分析及其应用研究 覃宝灵 (佛山科学技术学院信息与教育技术中心 广东佛山 528000) 摘要:本文阐述粗糙集理论的基本概念,探讨粗糙集理论中知识约简和规则提取的重要性,通过分析、比较,把这些理论和技术应用于实际中,取得了显著的效果,对其在信息系统中的应用具有一定的研究价值。 关键词:粗糙集;知识约简;规则提取;遗传算法 ①U是对象的非空有限集合,即称为论域,记为:U={x 1,x 2,…,x n }; ②A是属性的非空有限集合,记为:A={A 1,A 2,…,A m }; ③V是属性的值域集,记为:V={V 1,V 2,…,V m },且V i 是属性A i 的值域; ④f是信息函数,即f:U×A→V,f(x i ,A j )∈V j 。在信息系统中,若属性集合A由条件属性集合C和决策属性集合D组成,且C∪D=A,C∩D=Ф,则称S为决策系统,又称决策表。 定义2:(等价关系)设知识表示系统S=(U,A ,V,f),若属性集合 时,称P的不可分辨关系Ind(P) 是U上的等价关系,其中Ind(P)={(x,y)∈U × U |,f(x,a)= f(y,a)}。由Ind(P)导出的所有等价类 集合记为U/P,它构成了论域的一个划分,含有元素x的等价类,记为[x]p 。 定义3:(下近似、上近似、边界域)设是一个集合,R是一个定义在U上的等价关系。有: ①若R一(X)=U{Y∈U/R:Y∈X},则称R一(X)为X的R下近似集; ②若R一(X)=U{Y∈U/R:Y∩X≠Ф},则称R一(X)为X的R上近似集; ③若R(X)=R一(X)一R一(X),则称R(X)为集合X的边界域。若R(X)是空集,则称集合X关于集合R是清晰的;反之,称集合X为关于集合R的粗糙集。 定义4:设R是一族等价关系,且{R}∈R,若

粗糙集理论及其发展

龙源期刊网 https://www.wendangku.net/doc/bc18832382.html, 粗糙集理论及其发展 作者:张也驰 来源:《管理观察》2010年第16期 摘要:粗糙集理论以其出色的处理模糊和不确定知识的能力,在数据挖掘领域占据了越来越重要的地位。文章首先描述了粗糙集理论的核心思想,接着介绍了粗糙集理论在不完备信息系 统领域的扩充,最后论述了粗糙集理论的应用发展以及未来的研究方向。 关键词:粗糙集机器学习不完备信息系统数据挖掘 1.引言 粗糙集理论[1]是由波兰数学家Z. Pawlak于20世纪80年代提出的一种新的处理不精确性和不确定性信息的数学方法。之后国内外许多学者对粗糙集理论及其应用进行了坚持不懈的研究。1991年,Pawlak出版了第一本关于粗糙集理论的专著,详细介绍了粗糙集的理论基础,它奠定了粗糙集理论的基础,但由于最初关于粗糙集理论的研究大部分是用波兰语发表的,当时并没有引起国际计算机学界和数学界的重视;1992年,在波兰Kiekrz召开了第一届国际粗糙集研讨会, 从此每年一次以粗糙集理论为主题的国际研讨会以及粗糙集学术研究会的成立,推动了国际上 对粗糙集理论与应用的深入研究。1995年,Z. Pawlak概括性地介绍了粗糙集理论[2]的基本概念及其具体研究进展。我国对粗糙集理论的研究起步较晚。 粗糙集理论是建立在分类机制基础上的,它将知识理解为对数据的划分,每一个被划分的集合称为概念或范畴,其主要思想是利用已有的知识库,将不精确知识用已知知识库中的知识来(近似)刻画。与其他处理不精确性和不确定性信息的理论相比,该理论的一个最主要的优点是其无需提供任何除现有知识以外的任何先验知识,从而具有相当的客观性。近年来,由于粗糙集理论在人工智能和认知科学中日益呈现出的重要性和优越性,特别是在机器学习、数据挖掘、决策 分析、数据库知识发现、专家系统、决策支持系统、归纳推理和模式识别等领域,受到越来越 多的研究人员的关注。 2.粗糙集理论的基本概念 粗糙集理论作为一种处理模糊和不确定性知识的数学工具,其主要思想是在保持分类能力 不变的前提下,经过知识约简,导出问题的决策或分类规则。即粗糙集理论是建立在不可分辨关系基础知识的,不可分辨关系构成了粗糙集理论的数学基础。 2.1 知识表达系统和决策表

粗糙集理论与应用发展

粗糙集理论与应用发展 1、引言 粗糙集( roughs ets,RS)理论是20世纪80年代初由波兰科学家Pawlak提出的[1]。其主思想就是在保持分类能力不变的前提下,通过知识约简,导出概念的分类规则。它从一个新的角度将知识定义为对论域的划分能力,并将其引入数学中的等价关系来进行讨论,从而为数据分析,特别是不精确、不完整数据分析提供了一套新的数学方法。同时,粗糙集理论具有无需提供除问题所需处理的数据集合之外的任何先验信息,仅根据观测数据删除冗余信息, 比较不完整知识的程度—粗糙度、属性间的依赖性与重要性,抽取分类规则等的能力。近几年,这个理论已得到空前的发展,无论在理论本身研究方面,还是在理论应用方面都取得了令人瞩目的成果。 2、粗糙集理论简介 粗糙集理论是建立在分类机制的基础之上的,不可区分关系的概念是粗糙集理论的基础。信息系统S由论域U和等价关系集A构成,表示成S=(U,A),不可区分关系ind(A)是信息系统S上的一个等价关系,它是A上全部等价关系的交集。信息系统S所表示的知识可理解为*对论域U划分的结果。不可区分关系的等价类构成了信息系统表示的知识的最小粒度,这个粒度内的对象不可区分。正是由于知识的粒度性,造成使用已有知识不能精确地表示某些概念。为此,在不可区分关系基础上定义了上下近似,使粗糙集理论能够有效地逼近这些概念。令XCU是论域上对象的一个集合,BCA是一族等价关系,CXIs表示元素x在B 下的等价类,则B( X )二 {xEU}Cxls(=X)B( X) 二

粗糙集理论论文

粗糙集理论浅析 粗糙集理论,是继概率论、模糊集、证据理论之后的又一个处理不确定性的数学工具。作为一种较新的软计算方法,粗糙集近年来越来越受到重视,其有效性已在许多科学与工程领域的成功应用中得到证实,是当前国际上人工智能理论及其应用领域中的研究热点之一。在很多实际系统中均不同程度地存在着不确定性因素,采集到的数据常常包含着噪声,不精确甚至不完整。 一、引言 粗糙集作为一种处理不精确、不确定与不完全数据的新的数学理论, 最初是由波兰数学家Z. Paw lak于1982年提出的。由于最初关于粗糙集理论的研究大部分是用波兰语发表的, 因此当时没有引起国际计算机学界和数学界的重视, 研究地域也仅局限在东欧一些国家, 直到20世纪80年代末才逐渐引起各国学者的注意。近几年来, 由于它在机器学习与知识发现、数据挖掘、决策支持与分析等方面的广泛应用, 研究逐渐趋热。1992年, 第一届关于粗糙集理论国际学术会议在波兰召开。1995年,A CM Com 2m unication 将其列为新浮现的计算机科学的研究课题。1998年, 国际信息科学杂志( Infor2m ation Sciences) 还为粗糙集理论的研究出了一期专辑。 粗糙集理论是建立在分类机制的基础上的, 它将分类理解为在特定空间上的等价关系, 而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分, 每一被划分的集合称为概念。粗糙集理论的主要思想是利用已知的知识库, 将不精确或不确定的知识用已知的知识库中的知识来(近似) 刻画。该理论与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息, 所以对问题的不确定性的描述或处理可以说是比较客观的, 由于这个理论未能包含处理不精确或不确定原始数据的机制, 所以这个理论与概率论, 模糊数学和证据理论等其他处理不确 定或不精确问题的理论有很强的互补性。 二、基本概念 粗糙集是一种较有前途的处理不确定性的方法,相信今后将会在更多的领域中得到应用. 但是,粗糙集理论还处在继续发展之中,正如粗糙集理论的创立人Z. Paw lak 所指出的那样,尚有一些理论上的问题需要解决,诸如用于不精确推理的粗糙逻辑(Rough logic) 方法,粗糙集理论与非标准分析(Nonstandard analysis) 和非参数化统计(Nonparametric statistics)等之间的关系等等. 将粗糙集与其它软计算方法(如模糊集,人工神经网络,遗传算法等)相综合,发挥出各自的优点,可望设计出具有较高的机器智商(M IQ) 的混合智能系统(Hybrid Intelligent System),这是一个值得努力的方向。 三、粗糙集理论中的知识表示 “知识”这个概念在不同的范畴内有多种不同的含义。在粗糙集理论中,“知识”被认为是一种分类能力。人们的行为是基于分辨现实的或抽象的对象的

第七章 决策表属性约简

第七章信息表属性约简 基于Rough集理论的知识获取,主要是通过对原始决策表的约简,在保持决策表决策属性和条件属性之间的依赖关系不发生变化的前提下对决策表进行约简(简化),包括属性约简和值约简。本章将对决策表的属性约简从代数集合观点和信息论的信息熵观点进行系统分析,并介绍几种有效的属性约简算法。 7.1决策表属性约简概述 一个决策表就是一个决策信息系统,表中包含了大量领域样本(实例)的信息。在第四章中,我们曾经对决策规则进行了讨论,决策表中的一个样本就代表一条基本决策规则,如果我们把所有这样的决策规则罗列出来,就可以得到一个决策规则集合,但是,这样的决策规则集合是没有什么用处的,因为其中的基本决策规则没有适应性,只是机械地记录了一个样本的情况,不能适应新的、其他的情况。为了从决策表中抽取得到适应度大的规则,我们需要对决策表进行约简,使得经过约简处理的决策表中的一个记录就代表一类具有相同规律特性的样本,这样得到的决策规则就具有较高的适应性。 根据定义2.1-1,我们可以进一步讨论决策表中属性的必要性和相应的约简算法。 定义7.1-1 设U是一个论域,P是定义在U上的一个等价关系簇,R∈P。如果IND(P-{R})=IND(P),则称关系R在P中是绝对不必要的(多余的);否则,称R在P中是绝对必要的。 绝对不必要的关系在知识库中是多余的,如果将它们从知识库中去掉,不会改变该知识库的分类能力。相反,若知识库中去掉一个绝对必要的关系,则一定改变知识库的分类能力。 定义7.1-2 设U为一个论域,P为定义在U上的一个等价关系簇,R∈P。如果每个关系R∈P在P中都是绝对必要的,则称关系簇P 是独立的;否则,称P是相互依赖的。 对于相互依赖的关系簇来说,其中包含有冗余关系,可以对其约简;而对于独立的关系簇,去掉其中任何一个关系都将破坏知识库的分类能力。

习题答案

第1章入侵检测概述 思考题: (1)分布式入侵检测系统(DIDS)是如何把基于主机的入侵检测方法和基于网络的入侵检测方法集成在一起的? 答:分布式入侵检测系统是将主机入侵检测和网络入侵检测的能力集成的第一次尝试,以便于一个集中式的安全管理小组能够跟踪安全侵犯和网络间的入侵。DIDS的最初概念是采用集中式控制技术,向DIDS中心控制器发报告。 DIDS解决了这样几个问题。在大型网络互联中的一个棘手问题是在网络环境下跟踪网络用户和文件。DIDS允许用户在该环境中通过自动跨越被监视的网络跟踪和得到用户身份的相关信息来处理这个问题。DIDS是第一个具有这个能力的入侵检测系统。 DIDS解决的另一个问题是如何从发生在系统不同的抽象层次的事件中发现相关数据或事件。这类信息要求要理解它们对整个网络的影响,DIDS用一个6层入侵检测模型提取数据相关性,每层代表了对数据的一次变换结果。 (2)入侵检测作用体现在哪些方面? 答:一般来说,入侵检测系统的作用体现在以下几个方面: ●监控、分析用户和系统的活动; ●审计系统的配置和弱点; ●评估关键系统和数据文件的完整性; ●识别攻击的活动模式; ●对异常活动进行统计分析; ●对操作系统进行审计跟踪管理,识别违反政策的用户活动。 (3)为什么说研究入侵检测非常必要? 答:计算机网络安全应提供保密性、完整性以及抵抗拒绝服务的能力,但是由于连网用户的增加,网上电子商务开辟的广阔前景,越来越多的系统受到入侵者的攻击。为了对付这些攻击企图,可以要求所有的用户确认并验证自己的身份,并使用严格的访问控制机制,还可以用各种密码学方法对数据提供保护,但是这并不完全可行。另一种对付破坏系统企图的理想方法是建立一个完全安全的系统。但这样的话,就要求所有的用户能识别和认证自己,还要采用各种各样的加密技术和强访问控制策略来保护数据。而从实际上看,这根本是不可能的。 因此,一个实用的方法是建立比较容易实现的安全系统,同时按照一定的安全策略建立相应的安全辅助系统。入侵检测系统就是这样一类系统,现在安全软件的开发方式基本上就是按照这个思路进行的。就目前系统安全状况而言,系统存在被攻击的可能性。如果系统遭到攻击,只要尽可能地检测到,甚至是实时地检测到,然后采取适当的处理 –– 1

智能信息处理教学大纲

《智能信息处理》教学大纲 一、课程基本信息 课程编号: 课程中文名称:智能信息处理 课程英文名称: 课程类型:信息处理专业方向选修课 总学时:理论学时:实验学时: 学分: 适用专业:信息工程 先修课程:高等数学、(信号与系统、)概率统计、线性代数、离散开课院系:信息科学与工程学院 二、课程性质和任务 智能信息处理是就是将不完全、不可靠、不精确、不一致和不确定的知识和信息逐步改变为完全、可靠、精确、一致和确定的知识和信息的方法。智能信息处理是当前科学技术发展中的前沿学科,同时也是新思想、新观念、新理论、新技术不断出现并迅速发展的新兴学科,它涉及到信息科学的多个领域,是现代信号处理、人工神经网络、模糊理论、人工智能等理论和方法的综合应用。 该课程的主要任务是通过各个教学环节,运用各种教学手段和方法,使学生掌握智能信息处理的基本概念、基本原理、基本计算方法;能够阅读相关中外文献,了解其最新动态;培养学生分析、解决问题的能力,为日后从事工程技术工作、科学研究以及开拓新技术领域,打下坚实的基础。 三、课程教学目标 在学完本课程之后,学生能够: .了解人工智能的概念和应用、智能信息的处理方法综述; .熟悉模型理论的基础,掌握模糊规则与推理;理解模糊推理系统,了解其在生活中的应用; .掌握神经网络信息处理的基本原理及模型,了解其在生活中的应用;

.掌握粗糙集的基本理论及其应用,了解其应用; .掌握遗传算法的基本算法及改进算法,了解其应用; .掌握信息融合的模型与算法,了解其应用; .理解反向选择算法和人工免疫系统模型;了解人工免疫系统在计算机安全中的应用。 四、理论教学环节和基本要求 (一)人工智能导论 .理解并掌握人工智能的基本概念和范畴、基本原理和研究方法; .理解知识和知识表示的概念,掌握四种表示法; .了解常见的智能信息的处理方法及各个处理方法的应用 教学重点: 人工智能的基本原理,四种知识表示方法 教学难点: 四种知识表示方法 (二)模糊理论及其应用 .掌握模糊集合的基本概念、基本运算及隶属函数的确定方法; .理解模糊逻辑系统的组成; .掌握模糊信息处理方法:模糊熵方法、模糊聚类分析、模糊关联分析、模糊信息优化方法。 .了解模糊信息处理方法的应用。 教学重点: 隶属函数的确定方法;模糊信息的处理方法。 教学难点: 模糊信息的处理方法。 (三)神经网络信息处理 .理解人工神经网络所借鉴的生物学上的人脑神经元的信息处理模式;掌握人工神经网络的结构、特点、学习方式和工作方式; .掌握神经网络学习算法,及神经网络建模; .掌握贝叶斯神经网络算法; .了解网络模型及其算法,熟悉用神经网络优化方法求解;

粗糙集理论RS

RS理论 一、定义: 粗糙集理论,是继概率论、模糊集、证据理论之后的又一个处理不确定性的数学工具。它是当前国际上人工智能理论及其应用领域中的研究热点之一。 在自然科学、社会科学和工程技术的很多领域中,都不同程度地涉及到对不确定因素和对不完备(imperfect) 信息的处理。从实际系统中采集到的数据常常包含着噪声,不够精确甚至不完整,对这些信息进行合适地处理,常常有助于相关实际系统问题的解决。 二、对比的理论: 模糊集和基于概率方法的证据理论是处理不确定信息的两种方法,已应用于一些实际领域。但这些方法有时需要一些数据的附加信息或先验知识,如模糊隶属函数、基本概率指派函数和有关统计概率分布等,而这些信息有时并不容易得到。 概率与统计、证据理论:理论上还难以令人信服,不能处理模糊和不完整的数据。 模糊集合理论:能处理模糊类数据,但要提供隶属函数(先验知识)。 RS理论与其他处理不确定和不精确问题理论的最显著的区别是:它无需提供问题所需处理的数据集合之外的任何先验信息,所以对问题的不确定性的描述或处理可以说是比较客观的。 由于这个理论未能包含处理不精确或不确定原始数据的机制,所以这个理论与概率论、模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性。 三、不足: 粗糙集理论还处在继续发展之中,尚有一些理论上的问题需要解决,诸如用于不精确推理的粗糙逻辑(Rough logic) 方法,粗糙集理论与非标准分析(Nonstandard analysis) 和非参数化统计(Nonparametric statistics)等之间的关系等。 四、由来: 1982年波兰学者Z. Paw lak 提出了粗糙集理论——它是一种刻画不完整性和不确定性的数学工具,能有效地分析不精确,不一致(inconsistent)、不完整(incomplete) 等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。 五、特点: (1) 它能处理各种数据,包括不完整(incomplete) 的数据以及拥有众多变量的数据; (2) 它能处理数据的不精确性和模棱两可(ambiguity),包括确定性和非确定性的情况; (3) 它能求得知识的最小表达(reduct) 和知识的各种不同颗粒(granularity) 层次; (4) 它能从数据中揭示出概念简单,易于操作的模式(pattern) ; (5) 它能产生精确而又易于检查和证实的规则,特别适于智能控制中规则的自动生成. 在粗糙集理论中,“知识”被认为是一种分类能力。粗糙集理论的主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来(近似)刻画。它的一个重要特点是具有很强的数据定性分析能力,可直接对不完整性和不确定性的数据进行分析处理,提取有用属性,简化知识表达式。 六、前景 将粗糙集与其它软计算方法(如模糊集,人工神经网络,遗传算法等)相综合,发挥出各自的优点,可望设计出具有较高的机器智商(MIQ) 的混合智能系统(Hybrid Intelligent System),这是一个值得努力的方向。 软计算(sof t compu t ing) 的概念是由模糊集创始人Zadeh[ 9 ]提出的. 软计算中的主要工具包括粗糙集,模糊逻辑(FL),神经网络(NN),概率推理(PR),信度网络(Belief Networks),遗传算法(GA) 与其它进化优化算法,混沌(Chaos) 理论等. 传统的计算方法即所谓的硬

相关文档
相关文档 最新文档