文档库 最新最全的文档下载
当前位置:文档库 › 数据挖掘分类算法的研究与应用

数据挖掘分类算法的研究与应用

数据挖掘分类算法的研究与应用
数据挖掘分类算法的研究与应用

首都师范大学

硕士学位论文

数据挖掘分类算法的研究与应用

姓名:刘振岩

申请学位级别:硕士

专业:计算机应用技术

指导教师:王万森

2003.4.1

首都师范入学硕.卜学位论Z数据挖掘分类算法的研究与应用

摘要

f随着数据库技术的成熟应用和Internet的迅速发展,人类积累的数据量正在以指数速度增长。科于这些数据,人{}j已经不满足于传统的查询、统计分析手段,而需要发现更深层次的规律,对决策或科研工作提供更有效的决策支持。正是为了满足这种要求,从大量数据中提取出隐藏在其中的有用信息,将机器学习应用于大型数据库的数据挖掘(DataMining)技术得到了长足的发展。

所谓数据挖掘(DataMining,DM),也可以称为数据库中的知识发现(KnowledgeDiscoverDat曲鹅e,KDD),就是从大量的、不完全的、有噪声的、模糊的、随机的数据r},,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是数据库研究中的一个很有应用价值的新领域,它又是一门广义的交叉学科,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。

分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个。{乍多分类的方法已被机器学习、专家系统、统计学和神经生物学方面的研究者提}H。本论文主要侧重数据挖掘中分类算法的研究,并将分类算法划分为急切分类和懒散分类,全部研究内容基本围绕着这种划分方法展开。.1本文的主要研究内容:,

l,讨论了数掂挖掘中分类的基本技术,包括数据分类的过程,分类数据所需的数据预处理技术,以及分类方法的比较和评估标准;比较了几种典

型的分类算法,包括决策树、k.最近邻分类、神经网络算法:接着,引

出本文的研究重点,即将分类算法划分为急切分类和懒散分类,并基于

这种划分展歼对数据挖掘分类算法的研究。

2.结合对决簸树方法的研究,重点研究并实现了一个“懒散的基于模型的分类”思想的“懒散的决策树算法”。在决策树方法的研究中,阐述了决

策树的基本概念以及决策树的优缺点,决策树方法的应用状况,分析了

决策树算法的迸一步的研究重点。伪了更好地满足网络环境下的应用需

求,结合传统的决策树方法,基于Ⅶ懒散的基于模型的分类”的思想,

实现了一个网络环境下基于B/S模式的“懒散的决策树算法”。实践表明:

在WEB应fH程序叶i采用此算法取得了很好的效果。、

3.选取神经H络分类算法作为急切分类算法的代表进行深入的研究。在神经网络中,重点分析研究了感知器基本模型,包括感知器基本模型的构

造及其学习算法,模型的几何意义及其局限性。并针对该模型只有在线

性可分的情况一F彳‘能用感知器的学习算法进行分类的这一固有局限性,

研究并推广了感知器模型。

茸都帅范人学帧l。学位论Z数据挖掘分类算往的研究与应用

4.重点研究了一类感知器推广模型——代数超曲面神经网络模型。f在这一部分,酋先介绍了代数超曲面神经网络模型的构造及其几何意义>然后,

洋细阐述了代数超曲面神经网络学习算法的具体实现,以及此算法的实

验结果和创新之处;最后提出了进一步的研究目标。代数超曲面神经网

络模型在解决非线性问题上有很大的潜力,尤其对高维非线性数据分类

有独特优势。本研究的创新之处是算法的自适应升次计算,研究表明:

采用自适应建模方式后,大大提高了建模成功率。但是,对高维数据的

分类,存在内存受限的问题,还需要进一步的深入研究。~)

关键词:数据挖掘:分类v急切分类:懒散分类:决策树;感知器:代数超曲面神经网络r

lI

堕型!!!!!篓查堂堡!:兰竖堡:::墼塑丝堡坌茎竺鲨塑型塑兰宣旦

ABSTRACT

WiththeapplicationofDatabaseandthedevelopmentofInteract,accumulateddataareexponentialincreasing.Forthesedatapeoplearenotsatisfiedwiththetraditionalmethodsofqueriesandstatistics,butwanttofinddeeperregulationstoprovideeffectivedecisiontoscienceandresearchworks.Sodataminingtechnologythatapplymachinelearningtolargedatabasetoacquireusefulinformationfromalotofdataisdeveloped.

Datamining(DM)Orknowledgediscoverdatabase(KDD)istodiscoverllsefillinformationandpotentialknowledgefromplentifulanduncompletedandnoiseand

fuzzyandrandomdatawhicharchidedandnotknownbypeople.Thesediseoveredknowledgemi曲tbeUSedtomanageinforillationandoptimizequeriesandmakedecisionandcO眦rolprocedureandmaintaindatabaseandSOon.SodataminingiSa

veryvaluednewareaofdatabaseresearcharea.anditisacrossedsubjectthatadoptstheoryandtechnologyofdatabaseandartificialintelligentandmachinelearningandstatisticsandSOon.

ClassificationiSavcryimportanttaskindataminingandextensivelyappliedtocommerceatpresentThedestinationofclassificationiStolearnaclassificationfunctionorclassificationmodelthatcanmapadataitemtoapreassignedclass.Theresearcherofmachinelearningandexpertsystemandneuralbiologyprovidesalotofclassificationmethods.ThisPaDcrdoessomeresearchWOrksaboutclassification

algorithmindatamining.ClassificationalgorithmisdividedtoeagerandlazyandIotalresearchWOrkSarebasedonthisdivide.

ThemainWOrkofthethesis

1.Thebasetechnologiesofclassificationindataminingareintroduced.Thesetechnologiesincludetheprocedureofclassificationandthepreprocessingofclassjficationdataandcomparedandevaluatedcriterionofclassificationmethods.Severaloftypicalclassificationalgorithmsarecomparedwhicharedecision-treeandk—nearestneighborandneuralnetworkalgorithm.Thentheemphasisofthe

paperiSinducedthatdividetheclassificationtoeagerandlazyandtheresearchofclassificationalgorithmindatamiIlingisbasedonthisdivide.

2.Alazydecision.treealgorithmthatcomesfromtheideaoflazyclassificationbasedonmodeliSresearchedonthebaseoftheresearchofthetraditionaldecision.tree.Illtraditionaldecision—tree.theconeeprtsandadvantagesanddisadvantagesofdecision—treearepresented,andtheapplicationandresearchsituationofdecision.treeareanalyzed.ApplingtoWebcfnvironmentawebapplicationusedlazydecision—treealgorithmthatcomesfromtheideaoflazy

Ill

苎型堑垫叁堂塑!兰些丝兰墼塑堡堡坌鲞蔓i塑墅竺!!壁旦

basedonmodelclassificatonisdeveloped.AndthepracticalrunshowsthismethodacquiredbeRergrade.

3.Neuralnetworkisdeeplyresearchedasrepresentationofeagerclassification.

anditsPeNeptronisselected.Atfirstthecreationoftypicalperceptronmodel

learnalgorithmareintroduced.TheIlonthebaseoftheprincipalandgeometricalpresentationoftypicalperceptionmodel,thelimitationsoftypicalperceptronmodelarestudiedThislimitationiSthatpereeDtronlcamalgorithmcanbeUSedonlywhendataarelinearseparability.Toresolyethisproblem,expandedperceptronmodelsareresearch.

4AlgebrahypersurfaceneutralnetworkisakindofexpandedperceDtronmodel.ThismodeliSanemphasisofthisPap既Atfirsttheereationoftllismodelanditsgeometricalpresentationareintroduced.Thenit’Slearningalgorithmisaccomplishedandtest’Sresultsandinnovationofprogramarepresented.Atlastthefurtheraimsareprovidebaseontest’sconclusion.Thismodelispotentialtoresolvenonlinearseparabilityproblems;especiallyitadaptstoclassif-yhigh.dimmensiondata.Adaptiveraisedegreecomputermethodistheinnovationofresearch,RescarchesshowthatSuccessrateofcreatingmodelraiseafterusingtheadaptiremcthod.Butitexiststhelimitationofmemoryforhi曲一dimcnsiondata.Soadeeplyresearchwillbecontinued.

Keywords:DataMining:Classification;EagerClassification;LazyClassification;DecisionTree;PerceptmmAlgebraHyperSurfaceNeutralNetwork

菏都师范大学硕}。学位论上数据挖掘分类算法的研究与应用

第1章绪论

1.1研究背景和意义

随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。例如:商品条形码的广泛使用,企业的信息化程度的提高,科学研究和政府部门中电予化事务处理技术的运用,以及数据收集工具和技术的多元化(从文本扫描到卫星遥感)等等。除此之外,互联网的发展更是为我们带来了海量的数据和信息。但存储在各种数据媒介中的海量的数据,在缺乏强有力的工具的情况下,已经远远的超出了人的理解和概括的能力。为此,这种大量的原始数据和对功能强大的数据分析工具的需求共存的局面,被有的人描述为“数据丰富,但信息贫乏”(datarichbutinformationpoor)。许多的数据库也就成了“数据坟墓”(datatomb)——换句话说,这些数据很少被再访问。

激增的数据背后隐藏着许多重要的信息,拥有这些数据库的决策者们,在做决策时不是基于数抛库中蕴含的大量信息,而是基于决策者的直觉。因为决策者缺乏从海量数据中提取有价值知识的工具。传统的数据库管理系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏发现数据背后隐藏的知识的手段。数据与信息之间的鸿沟要求有更强用力的数据分析工具,将数据坟墓转换成知识“金块”。

在数据库技术飞速发展的同时,人工智能领域的一个分支——机器学习的研究自50年代丌始以来也取得了很大进展。用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据库中的知i}{发现(KnowledgeDiscoveryinDat曲ases,简记KDD)的产生,KDD亦称为数据挖掘(DataMining,简记DM)。

数据挖掘是信息技术自然演化结果。信息技术的发展大致可以描述为如下的过程;初期的是简单的数据收集和数据库的构造;后来发展到对数据的管理,这包括:数据存储、检索以及数据库事务处理;再后来发展到对数据的分析和理解,这时候出现了数据仓库技术和数据挖掘技术。早期的数据收集和数据库的建造为数据存储、检索、和事务处理的技术的发展创造了必要条件,随着查询、事务处理等成熟技术被频繁的应用在大量的数据库系统上,数据的分析和理解也就当然的成为了信息技术要发展的下一个目标。

数据挖掘是涉及数据库和人工智能等学科的一门当前相当活跃的研究领域,同时又由于有广泛可用的存在于各种数据库中的海量数据。因此,从大量的数据中智能地、自动地提取出有价值的知识和信息的研究,即数据挖掘,具有十分重要的理论及现实意义和广泛的应用前景。目前,数据挖掘已成为一个具有迫切实现需要的很有前途的热点研究课题,国内外许多研究工作者对此领域投入了极大的热情。

本文的研究工作源于上述背景。我们的目的是对数据挖掘的核心算法进行深入的研究,在分析研究数据挖掘可发现的多种类型的数据模式的基础上,选择分类作为重点研究对象,将分类算法划分为急切分类和懒散分类,结合决策树方法

首都帅范火学硕士学位论上数据挖掘分类算法的研究与应用研究懒散分类,选取神经网络分类算法作为急切分类的代表进行深入探讨。1.2数据挖掘综述

本节主要介绍数据挖掘的相关知识,包括数据挖掘的定义,数据挖掘研究的三个主要的技术支柱,即数据库、数理统计和人工智能,数据挖掘的研究现状和发展趋势,并对数据挖掘过程进行了简单的介绍,最后,介绍了数据挖掘功能一一可以挖掘什么类型的模式,即概念/类描述:特征化和区分、关联分析、分类和预测、聚类分析、孤立点分析和演变分析。

1.2.1什么是数据挖掘

所谓数据挖掘(DataMining,简记DM),就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好凡层含义:数据源必须是真实的、大量的、含噪声的:发现的是用户感兴趣的知识:发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

厂1赢i≯、(,最始羹譬摩一、)、、一./

数据规范{七:包括去掉异常数据和不相干数据一

数据集成:将不同数据源中的蔽据集成劐革个

系统中p

l数据转化:如将数据转变成统一的衰现形式以

l方{更挖掘茸法的实现p

1-

l霸高学皇D%一些智能的被用来发现目标蔽

l据库中的一些模式√

tl模式评价:识别上一步得到的模式中真正有价

l值的橇式.J图11数据挖掘DM视为KDD的一个步骤

与数据挖掘相近的同义词有知识挖掘、知识获取、模式分析、数据考古等。

蕾D胁

还有一个经常与之相混的术语:数据库中的知识发现(KnowledgeDiscoveryfromDatabase,简记KDD),~般的看法是DM只是KDD的一个步骤(如图1.1)o但是由于DM这个词的广泛使用,我们也可不对他门进行严格的区分,而把他们看成同义词。

何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以足半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的:可以是演绎的,电可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。

因此,数掘挖掘足一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵弓I下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。

1.2.2数据挖掘的三大技术支柱

OM的研究主要有三个主要的技术支柱,即数据库、数理统计和人工智能。数据库技术在经过了80年代的辉煌之后,数据库界已经在开始认识到,数据库实质的应用决不仅仪足数据查询,因此,从数据库中发掘或发现有用的知识就自然成了下一个研究目标,很多数据库学者转向对数据仓库和数据挖掘的研究。

数理统计是应用数学中最重要、最活跃的学科之一,如今相当强大有效的数理统计方法和工具,己成为信息咨询业的基础。然而,数理统计和数据库技术结合得并不算快,比如:数据库查询语言SQL中的聚合函数功能极其简单。咨询业用数据库查询数据还远远不够。在有了从数据查询到知识发现的要求后,在DM这个结合点上,概率论和数理统计就获得了新的生命力。一向以数理统计工具和可视化计算闻名的美国SAS公司,领先宣布进入DM行列。

专家系统一直是人工智能领域研究的重点。在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质上是归纳过程,是非常复杂的个人到个人之l’日J的交互过程,有很强的个性和随机性。因此,知识获取成为专家系统研究中公认的瓶颈问题。其次,知识工程师在整理表达从领域专家那里获得的知识时,用if—then等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,也太困难,勉强抽象出来的规则有很强的工艺色彩,差异性极大,知识表示又成为一大难题。此外,即使某个领域的知识通过一定手段获取并表达了,但这样做成的专家系统对常识和百科知识出奇地贫乏,而人类专家的知识是以拥有大量常识为基础的。以上这3大难题大大限制了专家系统的应用。人工智能学者尤其是从事机器学习的科学家们,开始关注现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,进行数据挖掘的研究。

1.2.3数据挖掘的研究现状和发展趋势

KDD一词首次出现在1989年8月举行的第1l届国际联合人工智能学术会议上。随着KDD在学术界和工业界的影响越来越大,国际KDD组委会于1995年把专题讨论会更名为国际会议,在加拿大蒙特利尔市召开了第一届KDD国际学术会议,以后每年召开一次。1997年亚太地区在新加坡组织了第一次规模较大的PAKDD学术研讨会,以后每年召开一次。

此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了KDD专题或专刊。IEEE的KnowledgeandDataEngineering会刊领先在1993年出版了KDD技术专刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态。随后,各类KDD会议、研讨会纷纷涌现,许多领域的国际会议也将KDD列为专题讨论。1999年.IEEE和ACM再次推出KDD专刊,介绍数据挖掘在各个领域的应用成果。

不仅如此,在Intemet上还有不少KDD电子出版物,其中以半月于0KnowledgeDiscoveryNuggets最为权威,在http://www.kdnuggets.com还可以下载各种各样的数据挖掘工具软件和典型的样本数据仓库,供人们测试和评价。另一份在线周刊为DS*(DS代表决镶支持).1997年lO月7日开始出版。可向astrial@tge.COIll提出免费订阅申请。在蒯上,还有一个自由论坛DMEmailClub,人们通过电子邮件相互讨论DM的热点问题。

目前,国外数据挖掘的发展趋势其研究方面主要有;对知识发现方法的研究进一步发展,如近年来注重对Bayes(1贝叶斯)方法以及Boosting方法的研究和提高;传统的统计学回归法在KDD中的应用;KDD与数据库的紧密结合。在应用方面包括:KDD商业软件工具不断产生和完善,注重建立解决问题的整体系统,而不是孤立的过程。用户主要集中在大型银行、保险公司、电信公司和销售业。国外很多计算机公司非常重视数据挖掘的开发应用,mM和微软都成立了相应的研究中心进行这方面的工作。许多著名的计算机公司开始开发尝试着KDD软件的开发,比较典型的如SAS公司的EnterpriseMinegmM公司的IntelligentMineLSGI公司的SetMiner,SPSS公司的Clementine,还有KnowledgeDiscoveryWorkbench、DBMiner、Quest等。Web数据挖掘产品有Netpercerptions,AccrueInsight和AccrueHitList,CommerceTrends等。

与国外相比,国内对KDD的研究稍晚,目前进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、863计划、”九五”计划等。1993年国家自然科学基金开始对数据挖掘研究进行支持。1999年4月在北京召开的第三届亚太地区KDD国际会议(PAKDD99)响应热烈,收到论文158篇。国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。如北京系统工程研究所对模糊方法在数据挖掘中的应用研究、北京大学对数据立方体的研究、华中理工大学、复旦大学、浙江大学等对关联规则的研究等。西安交通大学已知的有机械学院、电信学院、工程学院和管理学院在从不同角度对数据挖掘进行研究。但是到目前为止,国内还没有比较成熟的数据挖掘产品。

当前,DM研究正方兴未艾,预计今后还会形成更大的高潮,研究焦点可能会集中到以下几个方面:

1)研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化:

首都师范大学硕_}:学位论文数据挖掘分类算法的研究与应用

2)寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互:

3)研究在网络环境下的数据挖掘技术,特别是在Iatemet上建立DM服务器,与数据库服务器配合,实现数据挖掘;

4)加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。

但是,DM将首先满足信息时代用户的急需,因此,研制开发大量基于DM的决策支持软件工具产品将是首要的任务。

目前有很多通用的数据挖掘系统趋向于提供适用于各种商业应用的横向解决方案(horizontalsolution),而不是针对某个特定的应用的解决方案。对某个特定领域的一些数据或应用可能需要特定的算法来查找模式,而通用的数据挖掘系统对这些特定领域的数据有其固有的局限性,有可能不能满足要求。因此,研制基于某个特定领域的数据挖掘工具将显得尤为重要。专用的数据挖掘系统能够提供纵向解决方案(verticalsolution),把特殊领域的业务逻辑和数据挖掘系统集成起来,将数据分析技术与特定领域知识结合以完成特定的任务。目前的应用领域多集中于生物医学,DNA分析,金融,零售业和电信部门等。

1.2.4数据挖掘过程简介

1.确定业务对象

清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。

挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。

2,数据准备

1)数据的选择

搜索所有勘也务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。

21数据的预处理

研究数据的质量,为进一步的分析作准备。并确定将要进行的挖掘操作的类型。

3】数据的转换

将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

3.数据挖掘

对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。

4.结果分析

解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。

5.知识的同化

萏部师范又学硕j‘学证论殳数据挖掘分类算法的硪究与应用将分析所得到的知识集成到业务信息系统的组织结构中去。

1.2.5数据挖掘功能——可以挖掘什么类型的模式

数据挖掘通过预测末来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下六类功能。

概念/类描述:特征化和区分

关联分析

分类和预测

聚类分析

孤立点分析

演变分析

◆概念,类描述:特征化和区分

数据可以与类或概念相关联。例如,电子市场里销售的商品类包括计算机和打印机。用汇总的、简洁的、精确的方式描述每个类和概念很重要,这种概念或类的描述成为概念/类描述(concept/classdescription).这种描述可以通过下述方法得到:

1)数据特征化(datacharacterization),一般地汇总所研究类(通常称为目标类(targetclass))的数据。

通常,用户指定类的数据通过数据库查询收集。例如:为研究上一年增加10%的软件产品的特征,可以通过执行一个SQL查询收集关于这些产品的数据。有许多有效的方法,将数据特征化和汇总,例如,基于数据立方体的OLAP上卷操作;面向属性的归纳技术等。

2)数据区分(datadiscrimination),是将目标类对象地一般特性与一个或多个对比类对象的一般特性比较。

目标类和对比类由用户指定,而对应的数据通过数据库查询检索。例如:你可能希望将上一年销售增加10%的软件产品与同一时期销售至少下降30%的那些产品进行比较。用于数据区分的方法和用于数据特征化的类似。

◆关联分析

关联分析发现关联规则,这些规则展示属性,值频繁地在给定数据集中一起出现的条件。关联分析广泛用于购物篮或事务数据分析。

设I={il,i2….,im}是二进制文字的集合,其中的元素称为项(item)。记D为交易(transaction)T的集合,这里交易T是项的集合,并且1tI。对应每一个交易有唯一的标识,如交易号,记作TID。设x是一个I中项的集合,如果xCT,那么称交易T包含x。

一个关联规则是形如xjY的蕴涵式,这里XcI,YcI,并且XnY=曲。规则xjY在交易数据库D中的支持度(support)是交易集中包含x和Y的交易数

堕型竺垫叁兰堡!:兰垡堡兰塑堡丝塑坌耋簦垄塑竺塞皇些垦

与所有交易数之比,记为support(X等Y),即

support(XjY)=IfT:XuY∈T,TED}VIDl

规则xjY在交易集中的可信度(confidence)是指包含x和Y的交易数与包含x的交易数之比,记为confidence(XjⅥ,即

confidence(XjY)=I{T:XuYcT,T∈D}VI(T:X£T,T∈D}I如果不考虑关联规则的支持度和可信度,那么在事务数据库中存在无穷多的关联规则。事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。在文献中,一般称满足一定要求的(如较大的支持度和可信度)的规则为强规则。因此,为了发现出有意义的关联规则,需要给定两个阈值:最小支持度和最小可信度。前者即用户规定的关联规则必须满足的最小支持度,它表示了一组物品集在统计意义上的需满足的最低程度:后者即用户规定的关联规则必须满足的最小可信度.它反应了关联规则的最低可靠度。

由于条形码技术的发展,零售部门可以利用前端收款机收集存储大量的售货数据,这些数据是一条条的购买事务记录,每条记录存储了事务处理时间,顾客购买的物品、物品的数量及余额等。因此,如果对这些历史事务数据进行分析,则可对顾客的购买行为提供极有价值的信息。例如,可以帮助如何摆放商品(如把顾客经常同时买的商品放在一起),帮助如何规划市场(怎样相互搭配进货)。这些数据中常常隐含形式如下的关联规则:在购买计算机的顾客当中,有70%的人同时购买了打印机。这些关联规则很有价值,商场管理人员可以根据这些关联规则更好地规划商场,如把计算机和打印机这样的商品摆放在一起,或干脆把打EIJ秽I,和计算机捆绑销售,这样可以大大促进销售。由此可见,从事务数据中发现关联规则,对于改进零售业等商业活动的决策非常重要。

◆分类和预测

分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类和回归都可用于预测。预测的目的是从利用历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。和回归方法不同的是,分类的输出是离散的类别值,而回归的输出则是连续数值。这里我们将不讨论回归方法。

要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可为:(vl,v2….,vll;c):其中vi表示字段值,c表示类别。

分类器的构造方法有机器学习方法、神经网络方法、统计方法等等。机器学习方法包括决策树法和规则归纳法,前者对应的表示为决策树或判别树,后者则一般为产生式规则。神经网络方法主要是BP算法,它的模型表示是前向反馈神经网络模型(由代表抻经元的节点和代表联接权值的边组成的一种体系结构),BP算法本质上是一种非线性判别函数。统计方法包括贝叶斯法和非参数法(近邻学习或基于事例的学习),对应的知识表示则为判别函数和原型事例。另外,最近又兴起了~种新的方法:粗糙集(roughset),其知识表示是产生式规则本文主要针对决策树和神经网络的方法展开研究。分别在第3章和第4章进行洋细的讨论。

◆聚类

聚类与分类和预测不同,在分类和预测中,对于目标数据库中存在哪些类这一信息我们是知道的,在那里我们要做的就是将每一条记录分别属于哪一类标记出来:但是,聚类是在预先不知道目标数据库到底有多少类的情况下,希望将所有的纪录组成不同的类或者说“聚类”(cluster),并且使得在这种分类情况下,以某种度量为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最大化。

聚类算法中一大类算法中的相似性是基于距离的,而且由于现实数据库中数据类型的多样性,关于如何度量两个含有非数值型字段的记录之间的距离的讨论有很多,并提出了相应的算法。在很多应用中,由聚类分析得到的每一个聚类中的成员都可以被统一看待。聚类分析的算法可以分为以下几大类:分裂法、层次法、基于密度的方法、基于网格的方法、和基于模型的方法等。

◆孤立点分析

数据库可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象是孤立点(outlier)。大部分数据挖掘的方法将孤立点视为噪声或异常而丢弃。然而,在一些应用中(如欺骗检测),罕见的事件可能比正常出现的那些更有价值。

孤立点可以使片J统计试验检测。它假定一个数据分布或概率模型,并使用距离度量,到其他聚类的距离很大的对象被视为孤立点。另有一种基于偏差的方法通过考察一群对象主要特征上的差别识别孤立点。

◆演变分析

数据演变分析(evolutionanalysis)描述行为随时问变化的对象的规律或趋势,并对其建模。这类分析除包括时间相关数据的特征化、区分、关联、分类或聚类,还包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。

1.3项目背景和主要研究内容

1.3.1项目背景

本文的研究工作是北京市自然科学基金资助项目一“面向特定领域的知识发现理论技术研究”(4012006)的一部分。该项目是在充分分析国内外信息技术发展趋势的基础上提出的,符合当前我国信息化科技工作的需要,从而保证了项目的正确研究开发方向以及技术上的可行性。项目的申请单位一北京市农业信息技术研究中心一长期从事信息技术方面的研究开发工作,具有较好的农学和计算机信息技术工作基础和积累。项目的合作单位首都师范大学,在面向对象知识库及其推理研究、人工智能技术研究、机器学习和知识发现研究、远程教育等方面有较好的积累,为该项目提供了雄厚豹技术支持。

该项目综合研究数据库知识发现的步骤,重点研究数据挖掘的各种优化算法,建立数据库知识发现应用系统,并使之应用于农业数据库,解决专家系统知

识获取的瓶颈问题;建立基于Internet的网络信息集成与个性化服务系统。通过该项目的研究,提供农业知彭{发现工具,从农业领域长期以来积累的大量数据中发现规律,发掘丰富的、非常有价值的知识,可以极大地推动农业科学研究的发展,可以为农业专家系统知识获取瓶颈问题提供有效的解决途径,提高农业生产决策的科学性和有效性。

该项目的研究成果将直接应用于由北京市农业信息技术研究中心和国防科技大学计算机系共同研制开发的“农业专家系统平台(PAID)”中。这个平台的研究与应用是国家“863计划”的资助项目(863.306-ZD.05-01-1)。此项目的研究成果一PAD3.0(网络版)一已在全国若干个示范区推广应用。

1.3.2主要研究内容

本文主要是对数据挖掘中的分类算法展开深入的研究,并将分类算法划分为急切分类和懒散分类,整个的研究内容围绕着这种划分展开。

首先讨论了分类的基本技术,包括数据分类的两大过程,分类数据所需要的几种数据预处理,以及分类方法的比较和评估标准:比较了几种典型的分类算法,包括决策树、k.最近邻分类、神经网络算法,并对这三种分类算法进行对比研究;接着,引出本文的研究重点,即将分类算法划分为急切分类和懒散分类,基于这种划分展开对数据挖掘分类算法的研究,在这里介绍了什么是急切分类和懒散分类,阐述了他们各自的优缺点,并提出将急切分类和懒散分类相结合的研究思路。

然后,结合对决策树方法的研究,重点研究并实现了一个基于“懒散的基于模型的分类”的思想的“懒散的决策树算法”。在决策树方法的研究一节中,介绍了决策树方法的应用和研究状况,包括决策树的基本概念以及决策树的优缺点,决策树方法的应用状况,阐述了决策树算法的进一步的研究重点:在懒教的决策树算法一节中.基于“懒散的基于模型的分类”的思想,并借鉴加拿大大学G曲orMelli的一个数据挖掘算法,在网络环境下基于B/S模式实现了一个“懒散的决策树算法”,并结合一个具体的实例对此算法做了具体的说明,对程序实现的主要改进之处和所开发系统的应用情况也进行了必要的阐述。

然而,急切分类算法仍是分类算法的主流,对种种急切分类算法的研究仍是数据挖掘分类算法的研究重点。神经网络的典型应用是建立分类模型,而神经网络分类算法也是一种典型急切分类算法。因此,本文另一个研究重点就是:选取神经网络分类算法作为急切分类算法的代表进行深入的研究。

在神经网络分类算法研究中,分以下三大部分:第一部分,首先介绍人工神经网络的相关技术,包括人]:神经网络在理论研究与应用方面的发展与现状,人工神经网络基本处理单元的形式化描述及其典型作用方式,人工神经网络的若干学习规则。第二部分,重点分析研究了感知器基本模型,包括感知器基本模型的构造及其学习算法,模型的几何意义及其局限性,并针对模型固有的局限性:只有在线性可分的情况下才能用感知器的学习算法进行分类,研究推广感知器模型。第三部分,重点研究了一类感知器推广模蛩——代数超曲面神经网络模型。在这一部分,首先介绍了代数超曲面神经网络模型的构造及其几何意义:然后,详细阐述了代数超曲面神经网络学习算法的具体实现,以及此算法的实验结果;最后,针对这种代数超曲面神经网络模型存在的缺点,提出进一步的研究目标。

菏都师范大学硕士学位论正数据挖掘分类算法的研究与应用

第2章数据挖掘中的分类

分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。例如:可以建立一个分类模型,对银行贷款的安全或风险进行分类。许多分类的方法已被机器学习、专家系统、统计学和神经生物学方面的研究者提出。

本章将讨论分类的基本技术,比较几种典型的分类算法,并从急切分类和懒散分类的角度对分类算法展开研究。

2.1分类的基本技术

本节主要介绍数据分类的两大过程,分类数据需要的数据预处理,以及分类方法的比较和评估标准。

2.1.1数据分类的过程

数据分类(dataclassification)可分为两步进行(如图2.1).第一步,建立一个模型,描述预定的数据类集或概念集。通过分析由属性描述的数据库元组来构造模型。假定每个元组属于一个预定义的类,有一个类标号属性(classlabelattribute)的属性确定。对于分类,数据元组也称为样本、实例或对象。为建立模型而被分析的数掘元组形成训练数据集。训练数据集中的单个元组称为训练样本.并随机的由样本集中选取。由于预先知道每个训练样本的类标号,这个建立模型的学习过程属于有指导的学习(即模型的学习在知道每个训练样本属于哪个类的指导下进行)。这不同于无指导的学习(例如聚类),无指导的学习中的每个训练样本的类标号事先是未知的,要学习的类集合或数量也可能事先不知道,整个学习的过程是在无指导的情况下进行的。

通常,通过第一步的学习建立的模型用分类规则、决策树或数据公式的形式表示。例如:给定一个顾客信用信息的数据库,通过分类算法学习得出分类规则,根据这些规则,决定顾客的信誉的好坏(如图2.1a)。即这些规则就是分类模型,可以利用这个模型为其他数据样本进行分类,同时也能对数据库的内容提供更好的理解。

第二步(如图2.1b),使用这些规则进行分类。首先要评估模型的预测准确率。最常用的一种方法是保持(holdout)方法,该方法使用类标号样本测试集,这些样本随机选取,并独立于训练样本集,即测试样本集完全不同于训练样本集。模型在测试样本集上的准确率是指正确被模型分类的测试样本的百分比。对于每个测试样本,按照分类模型学习得出的预测类与已知的类标号比较,如果相同,则表示分类成功,不相同,则表示分类不成功。之所以使用完全不同于训练样本集的测试样本集,是因为学习模型倾向于过分适合数据,即是学习模型可能并入训练数据中某些特别的异常,而这些异常不出现在总体样本集中。如果仍使用训练数据评估分类模型,则可能评估总是乐观的。

如果认为模型的准确率豇】_以接受,就可以利用这个模型对类标号未知的数据

t0

苎型塑苎茎兰堡!:兰些笙兰塾塑丝塑坌壅苎婆竺翌苎:!!!塑元组或对象进行分类(这种数据在机器学习的文献中也称为“未知的”或“先前未见到的’,数据)。例如:在通过分析现有颓客数据学习得到的分类规则可以预测新的顾客的信誉的好坏(如图2.1)。

分类具有广泛的应用,包括信誉证实、医疗诊断、性能预测和选择购物?

./一分类算法-

训练数据/1l

/厂\。‘分类删]一

顾客ID年龄收入水平信誉度/\

NO.1<=30低一般IF年龄=“31…40”

NO.23l…40高优良and收入水平一‘高”

NO.3>40由一般then

NO.4>40中一般信誉度=“优良”

NO.53l…40蜀优良

a)学习:在训练数据上fH分类算法学习,学习模型用分类规则的形式表示F:=====习

//恻\测试数据

/\顾客ID年龄收入水平信誉度NO.101>40高一般NO.10231.40高优良NO.103<=30低一般(NO.201,31…40,高)

信誉度?

优良

b)分类:在测试数据上评估分类规则的准确率,如果准确率可以接受,

则分类规则可用于新的数据元组的分类

2.1.2分类数据的预处理

圈2.1数据分类的过程

为了提高分类的准确性、有效性和可伸缩性,需要对分类所用的数据进行以下的预处理。

◆数据清理数据清理的目的是消除或减少噪声数据以及处理空缺值。可采用平滑技术消

除或减少噪声数据;对于空缺僵,可用该属性最常出现的值,或根据统计,用最可能的值代替。尽管大部分的分类算法都有处理噪声和空缺值的机制,但经过清理的数据将更有助于减少学习时的混乱。

◆相关性分析

数据中的许多属性可能与分类任务不相关。例如:记录银行贷款申请是星期几提出的数据可能与申请成功不相关。此外,还可能用一些属性是冗余的,如果包含这些属性将减慢或可能误导学习步骤。因此,可以进行相关分析,删除学习过程中不相关的或冗余的属性。在机器学习中,这一过程称为特征选择。

理想情况下.用在相关分析上的时间,加上从压缩了的数据集上学习的时间,应当少于在原柬的数据集上学习所用的时问。这种分析就可以帮助提高分类的有效性和可伸缩性。

◆数据变换

数据可以概化到较高层的概念。例如。对于连续值的属性,“收入”的数字值可以概化到离散的区间,如“低,中,高”;类似地,对于离散值的属性,如“街道”,可以概化到高层概念,如“城市”。由于概化压缩了原来的训练数据集,则学习的时间将会减少。数据也可以按某种规则进行规范化处理等。这些必要的数据变换都将对分类是有用的。

2.1.3分类方法的比较和评估标准

分类方法可以根据下列标准进行比较和评估:

1.预测准确度

预测准确度是用得最多的一种比较尺度,特别是对于预测型分类任务,目前公认的方法是lO番分层交叉验证法。

2.计算复杂度

计算复杂度依赖于具体的实现细节和硬件环境,在数据挖掘中,由于操作对象是巨量的数据库,因此空间和时间的复杂度问题将是非常重要的一个环节。

3.强壮性

这涉及对于数据集中噪声数据或空缺值的处理,在有噪声数据或空缺值的情况下模型是否具有正确预测的能力。

4.可伸缩性

大部分的分类算法是内存驻留算法,通常假定数据量很小。对于海量的数据,是否具有有效的构造模型的能力,即算法的可伸缩性是很重要的。

5.模型简洁度和可理解性

对于描述型的分类任务,模型描述越简洁并且越容易理解则越受欢迎。

例如,采用规则表示的分类器构造法比较有用,而神经网络方法产生的结果就比较难以理解。

12

酋吉|f帅范大学硕{’学位论Z数据挖掘分类算法的研究与应用2.2几种典型的分类算法

分类器的构造方法有机器学习方法、神经网络方法、统计方法等等。机器学>-j方法包括决策树法和规则归纳法,前者对应的表示为决策树或判别树,后者则一般为产生式规则。神经网络方法主要是BP算法,它的模型表示是前向反馈神经网络模型(由代表神经元的节点和代表联接权值的边组成的一种体系结构),BP算法本质上是一种非线性判别函数。统计方法包括贝叶斯法和非参数法(近邻学习或基于事例的学习),对应的知识表示则为判别豳数和原型事例。

另外,还有一些其它的分类方法,包括k.最近邻分类,遗传算法和粗糙集方法等。与决策树、神经网络和贝叶斯分类相比,这些方法在商品化的数据挖掘系统中较少应用于分类。像遗传算法和粗糙集方法分类还处于原型阶段,然而这些方法正日趋流行。

本节将对决策树、k.最近邻分类、神经网络三种分类算法进行对比研究。2,2.1决策树

ID3和C4.5是最初的典型决策树算法,它们以自顶向下递归的各个击破的方式构造决策树。决策树是一种类似于流程图的树结构,其顶层节点是树的根节点,每个分枝代表一个测试输出.每个非叶节点表示一个属性的测试,每个叶节点代表一个类或一个类的分布。决策树可以很容易地转换成分类规则,即从根节点到叶节点的每条路径均可以转换成一条型为“IF.THEN”的分类规则。其中Ⅲ部分是沿着某条路径上的每个内部节点的属性.值对形成的一个合取项,THEN部分是包含类预测的叶节点。

一个典型的决策树模型如图2.2所示,它用来预测某地区“小麦产量”的高低。

图2.2预测某地区“小麦产量”的高低

用决策树进行分类分两步走。第一步是利用训练数据集建立一棵决策树模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程。第二步是利用生成完毕的决策树模型对未知的数据样本进行分类。对未知的数据样本,从根节点依次测试样本的属性值,直到到达某个叶子节点,从而找到该数据样本所在的类。

问题的关键是建立一棵决策树。这个过程通常分为两个阶段:建树和剪技。为了构造这样的决策树模型,算法首先需要分析训练数据集中的哪些属性是与分

茸吉fi师范人学硕士学也沦支数据挖掘分类算法的研究与应用

类任务相关的。用于构造模型的数据可能包含数以百计的属性,其中大部分属性很可能与数据挖掘任务无关,是冗余的。因此,找到一个适合数据挖掘任务的属性子集是必需的。它不仅可以使得数据类的概率分布尽可能接近使用所有属性的原分布,而且可以减少在所发现模型上的属性数目,使得模型更易于理解。为了找到这样一个“好的”属性子集,ID3使用了称为信息增益的基于熵的度量作为启发信息。它首先选择能够最好地将样本分类的属性作为“测试”属性,即计算每个属性的信息增益,并选取具有最高信息增益的属性作为给定数据集的测试属性,创建一个节点,并以该属性标记;然后对属性的每个值分别创建分枝,并据此划分样本。递归地使用上述过程,并依据预设的终止条件,从而可构造出一个树状结构的模型。出现在树中的属性形成归约后的属性子集,不出现在树中的所有属性假定是不相关的,这个属性子集使得所构造的决策树模型尽可能接近使用所有属性的原分伟,并且相对简单的树结构更易于理解.

当决策树创建时,由于数据中的噪声和孤立点,许多分枝反映的是训练数据中的异常。决策树算法采用剪枝方法处理这种过分适应数据问题,通常,这种方法使用统计度量,剪掉最不可靠的分枝,这将带来较快的分类,提高树独立于测试数据iF确分类的能力。

对于有r1个记录,m个属性的数据集,当属性的类型为符号类型时,ID3算法的时间复杂度是O(nmz)_当属性的类型为数值类型时,时间复杂度是O(n2m2)。可以看出,当属性为数值类型时,该算法的时间复杂度会大大提高。之所以出现这种情况,主要是由于在确定合适的属性值的分枝之前,需要对属性值进行排序所导致。有一些新的研究试图降低此算法的时间复杂度,但往往是在时间复杂度降低的同时,算法的精确度也会随之降低。此算法的空间复杂度是O(nm)。

2.2.2k.最近邻分类

最近邻分类算法基于类比学习。训练样本用n维数值属性描述,每个样本代表n维空间的一个点。这样,所有的训练样本都存放在n维模式空间中,当给定一个未知样本时,k一最近邻分类算法搜索模式空间,找出最接近该未知样本的k个训练样本。这k个训练样本就是未知样本的k个“近邻”。其“近邻性”用欧几里德距离定义,即两个点x=(xt,X2…x。)和Y《y1.y2…yo)之间的欧几里德距离是:

郴m=再焉

未知样本被分配到k个最近邻者中最公共的类,当lc=l时,未知样本被指定到模式空间中与之最近邻的训练样本的类。对于有n个记录,m个属性的数据集,此算法的时间复杂度是O(nm),空间复杂度是O(km)。

一个具体的k一最近邻分类的例子是:如何预测苹果的品种。假定用于描述苹果的数据元组有三个属性,分别是:大小,颜色,品种,待预测的苹果的大小和颜色已知。算法首先确定预测的样本数据与数据库中的记录的相似性,对于数值型属性的数据元组,通常采用两个样本向量的欧几里德距离来计算,从而得到6个最类似的样本数掘,如图2.3所示。

14

剧、f国≥光.砒?

眦’

L一

图2.3最类似的6个样本数据

由图2.3观察:6个相似的样本数据中有4个样本属于“国光”这一类的,因此可得出待预测的这种苹果的品种是“国光”。

最近邻分类的学习过程是推迟到有一个明确的分类要求时才进行的。这时,该算法会根据某种基于距离标准的相似函数,扫描数据库,找出与未知样本最相似的若干个训练样本,并将这些相似训练样本以报告的形式显示给用户,至于其中间结果和最终结果均不被保留。当再有新的分类要求时,算法仍需从头开始经过整个处理过程。该算法本身运行时间比较快,在数值类型数据集中的精确度比较高,但当数据集中的不相关属性、符号属性或噪声数据较多时,其精确度会明显降低。此外,虽然该算法木身易于理解,但由他返回的基于示例的分类结果却较难解释。

由于此分类算法在训练阶段不需要首先建立模型,只是将训练数据存储进数据库中,几乎没有计算丌销,因此时间开销相对来说比较小。它尤其适合于那种样本数据不能在挖捌任务的7f:始静就可以全部获得,而可以通过以后补充更新的情况。并且,由于使用了分类阶段添加的新样本,该算法导出的分类结果的时效性会更强。但在分类阶段,当与给定的新样本进行比较的近邻者数量很大时,该算法可能会因此招致很高的计算开销。

与决策树分类算法不同,最近邻分类并不抽取与数据挖掘任务有关的属性子集,因此当数据中存在许多不相关的属性时,由于分类结果只是若干个相似于未知样本的训练样本,然而这些训练样本可能正是在几个不相关的属性上与未知样本有某种相似,用户对这个结果可能会不知道该如何取舍;还有就是当相似于未知样本的训练样本数量很大时,用户很难从中提取出一个很明确的分类预测。另外,还存在如何确定用于计算样本距离的相似函数的问题,以及如何确定相似样本数目和它们的各自权重的问题等。

2.2.3神经网络

神经网络建立在有自学习能力的数学模型基础上,可以对大量复杂的数据进行分析,并完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。神经网络的典型应用是建立分类模型。

神经网络将每一个连接看作一个处理单元(PE),试图模拟人脑神经元的功能。神经网络从经验中学习,常用于发现一组输入数据和一个结果之间的未知联系。同其它方法一样,神经网络首先检测数据中存在的模式,再对从数据中发现的关系进行概括,然后给出预测结果。神经网络由于能对复杂过程进行预测而受到了特别的关注。

数据挖掘算法的分析与研究

科技广场2010.9 0引言 随着数据库技术的飞速发展,人们在各种应用领域所拥有的数据量急剧增加,这些数据对人们的工作和研究有着重要的作用,但是由于对这些数据进行高级处理的工具比较少,使它们的重要性没有能够充分的发挥。当前多数的数据库系统只是可以对数据库中已有的数据进行存取、查询和统计等简单操作,通过这些操作人们可以获得数据的一些简单信息。但这些信息是从数据表面直观表现出来,对于隐藏于数据背后的如数据之间的关系、数据整体特征的描述以及寻找未来数据发展趋势的预测等信息并不能通过这些手段得到,而这些往往是人们更加需要的并且在决策支持的过程中更有价值。 数据挖掘是信息技术自然演化的结果,正是从存放在数据库、数据仓库或其他信息库中挖掘有用知识的过程。 1数据挖掘的主要步骤 数据挖掘工作作为一个完整的挖掘过程,可分为以下几个主要步骤: (1)陈述问题和阐明假设:多数基于数据的模型研究都是在一个特定的应用领域里完成的。因此在设计数据挖掘算法之前,需要事先确定一个有意义的问题陈述。模型建立者通常会为未知的相关性指定一些变量,如果可能还会指定相关性的一个大体形式作为初始假设。对当前问题可能会有几个阐明的假设,这要求将应用领域的专门技术和数据挖掘模型相结合。实际上,这往往意味数据挖掘人员与应用专家之间密切地协作,在开始数据处理过程之前明确实际工作对数据挖掘结果的要求,根据此要求,确定数据收集过程的具体方法和数据挖掘采用的具体算法。 (2)数据准备和预处理:数据准备和预处理又可分为三个步骤:数据选取、数据预处理、数据变换。 数据选取的目的是确定数据挖掘的处理对象,即目标数据,它是根据由问题陈述中得到的用户需求,从原始数据库中抽取一定的数据用于数据挖掘, 数据挖掘算法的分析与研究 Analysis and Research of Data Mining Algorithms 喻云峰 Yu Yunfeng (江西省商务学校,江西南昌330100) (Jiangxi Commercial School,Jiangxi Nanchang330100) 摘要:本文对数据挖掘的基本理论进行了分析研究,总结了数据挖掘的基本步骤,归纳了数据挖掘的基本方法,并在此基础上,提出了用数据挖掘进行数据分析的通用策略。 关键词:数据挖掘;通用策略 中图分类号:TP311文献标识码:A文章编号:1671-4792-(2010)9-0054-03 Abstract:In this thesis,the basic theory of data mining is researched.Based on this,the basic steps of data min-ing is summarized and the basic method of data mining is generalized.At last,a general tactic of data mining is given. Keywords:Data Mining;General Tactic 54

数据挖掘试卷一

数据挖掘整理(熊熊整理-----献给梦中的天涯) 单选题 1.下面哪种分类方法是属于神经网络学习算法?() A. 判定树归纳 B. 贝叶斯分类 C. 后向传播分类 D. 基于案例的推理 2.置信度(confidence)是衡量兴趣度度量( A )的指标。 A、简洁性 B、确定性 C.、实用性 D、新颖性 3.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 4.数据归约的目的是() A、填补数据种的空缺值 B、集成多个数据源的数据 C、得到数据集的压缩表示 D、规范化数据 5.下面哪种数据预处理技术可以用来平滑数据,消除数据噪声? A.数据清理 B.数据集成 C.数据变换 D.数据归约 6.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?(B) A 第一个 B 第二个 C 第三个 D 第四个 7.下面的数据操作中,()操作不是多维数据模型上的OLAP操作。 A、上卷(roll-up) B、选择(select) C、切片(slice) D、转轴(pivot) 8.关于OLAP和OLTP的区别描述,不正确的是: (C) A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同. B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务. C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高. D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的 9.下列哪个描述是正确的?() A、分类和聚类都是有指导的学习 B、分类和聚类都是无指导的学习

数据挖掘分类算法比较

数据挖掘分类算法比较 分类是数据挖掘、机器学习和模式识别中一个重要的研究领域。通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较,总结出了各种算法的特性,为使用者选择算法或研究者改进算法提供了依据。 一、决策树(Decision Trees) 决策树的优点: 1、决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。 2、对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。 3、能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。 4、决策树是一个白盒模型。如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。 5、易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。 6、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。 7、可以对有许多属性的数据集构造决策树。 8、决策树可很好地扩展到大型数据库中,同时它的大小独立于数据库的大小。 决策树的缺点: 1、对于那些各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。 2、决策树处理缺失数据时的困难。 3、过度拟合问题的出现。 4、忽略数据集中属性之间的相关性。 二、人工神经网络 人工神经网络的优点:分类的准确度高,并行分布处理能力强,分布存储及学习能力强,对噪声神经有较强的鲁棒性和容错能力,能充分逼近复杂的非线性关系,具备联想记忆的功能等。 人工神经网络的缺点:神经网络需要大量的参数,如网络拓扑结构、权值和阈值的初始值;不能观察之间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度;学习时间过长,甚至可能达不到学习的目的。

数据挖掘中分类技术应用

分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分。客户类别分析的功能也在于此,采用数据挖掘中的分类技术,可以将客户分成不同的类别,比如呼叫中心设计时可以分为:呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他,帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类别客户的分布特征;其他分类应用如文献检索和搜索引擎中的自动文本分类技术;安全领域有基于分类技术的入侵检测等等。机器学习、专家系统、统计学和神经网络等领域的研究人员已经提出了许多具体的分类预测方法。下面对分类流程作个简要描述: 训练:训练集——>特征选取——>训练——>分类器 分类:新样本——>特征选取——>分类——>判决 最初的数据挖掘分类应用大多都是在这些方法及基于内存基础上所构造的算法。目前数据挖掘方法都要求具有基于外存以处理大规模数据集合能力且具有可扩展能力。 神经网络 神经网络是解决分类问题的一种行之有效的方法。神经网络是一组连接输入/输出单元的系统,每个连接都与一个权值相对应,在将简单的单元连接成较复杂的系统后,通过并行运算实现其功能,其中系统的知识存储于网络结构和各单元之间的连接权中。在学习阶段,通过调整神经网络的权值,达到对输入样本的正确分类。神经网络有对噪声数据的高承受能力和对未经训练数据的模式分类能力。神经网

络概括性强、分类精度高,可以实现有监督和无监督的分类任务,所以神经网络在分类中应用非常广泛。 在结构上,可以把一个神经网络划分为输入层、输出层和隐含层(见图4)。网络的每一个输入节点对应样本一个特征,而输出层节点数可以等于类别数,也可以只有一个,(输入层的每个节点对应一个个的预测变量。输出层的节点对应目标变量,可有多个)。在输入层和输出层之间是隐含层(对神经网络使用者来说不可见),隐含层的层数和每层节点的个数决定了神经网络的复杂度。 除了输入层的节点,神经网络的每个节点都与很多它前面的节点(称为此节点的输入节点)连接在一起,每个连接对应一个权重Wxy,此节点的值就是通过它所有输入节点的值与对应连接权重乘积的和作为一个函数的输入而得到,我们把这个函数称为活动函数或挤压函数。如图5中节点4输出到节点6的值可通过如下计算得到:

全面解析数据挖掘的分类及各种分析方法

全面解析数据挖掘的分类及各种分析方法 1.数据挖掘能做以下六种不同事情(分析方法): ?分类(Classification) ?估值(Estimation) ?预言(Prediction) ?相关性分组或关联规则(Affinitygroupingorassociationrules) ?聚集(Clustering) ?描述和可视化(DescriptionandVisualization) ?复杂数据类型挖掘(Text,Web,图形图像,视频,音频等) 2.数据挖掘分类 以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘?直接数据挖掘 目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。 ?间接数据挖掘 目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。 ?分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘 3.各种分析方法的简介 ?分类(Classification) 首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。 例子: a.信用卡申请者,分类为低、中、高风险 b.分配客户到预先定义的客户分片 注意:类的个数是确定的,预先定义好的 ?估值(Estimation) 估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。 例子: a.根据购买模式,估计一个家庭的孩子个数 b.根据购买模式,估计一个家庭的收入 c.估计realestate的价值

数据挖掘常用的方法

数据挖掘常用的方法 在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪 声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知 识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统 计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正 确的决策。目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可 以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖 掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。 (1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。 可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情 况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。 (2)回归分析。回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的 研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的 回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。 (3)聚类。聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的 相似性很小,跨类的数据关联性很低。 (4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶 段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求,各 银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。 (5)神经网络方法。神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知 识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。典型的神 经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络 模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组

数据挖掘关于Kmeans算法的研究(含数据集)

浙江大学算法研究实验报告 数据挖掘 题目:K-means

目录 一、实验内容 (5) 二、实验目的 (7) 三、实验方法 (7) 3.1软、硬件环境说明 (7) 3.2实验数据说明 (7) 图3-1 (7) 3.3实验参数说明/软件正确性测试 (7) 四、算法描述 (9) 图4-1 (10) 五、算法实现 (11) 5.1主要数据结构描述 (11) 图5-1 (11) 5.2核心代码与关键技术说明 (11) 5.3算法流程图 (14) 六、实验结果 (15) 6.1实验结果说明 (15) 6.2实验结果比较 (21) 七、总结 (23)

一、 实验内容 实现K-means 算法,其中该算法介绍如下: k-means 算法是根据聚类中的均值进行聚类划分的聚类算法。 输入:聚类个数k ,以及包含n 个数据对象的数据。 输出:满足方差最小标准的k 个聚类。 处理流程: Step 1. 从n 个数据对象任意选择k 个对象作为初始聚类中心; Step 2. 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分; Step 3. 重新计算每个(有变化)聚类的均值(中心对象) Step 4. 循环Step 2到Step 3直到每个聚类不再发生变化为止; k-means 算法的工作过程说明如下:首先从n 个数据对象任意选择k 个对象作为初始聚类中心,而对于所剩下的其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类。然后,再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值),不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数,具体定义如下: 21∑∑=∈-=k i i i E C p m p (1) 其中E 为数据库中所有对象的均方差之和,p 为代表对象的空间中的一个点,m i 为聚类C i 的均值(p 和m i 均是多维的)。公式(1)所示的聚类标准,旨在使所获得的k 个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 重点要求:用于聚类的测试级不能仅为单独的一类属性,至少有两种属性值参与聚类。

数据挖掘分类实验详细报告概论

《数据挖掘分类实验报告》 信息安全科学与工程学院 1120362066 尹雪蓉数据挖掘分类过程 (1)数据分析介绍 本次实验为典型的分类实验,为了便于说明问题,弄清数据挖掘具体流程,我们小组选择了最经典的决策树算法进行具体挖掘实验。 (2)数据准备与预处理 在进行数据挖掘之前,我们首先要对需要挖掘的样本数据进行预处理,预处理包括以下步骤: 1、数据准备,格式统一。将样本转化为等维的数据特征(特征提取),让所有的样 本具有相同数量的特征,同时兼顾特征的全面性和独立性 2、选择与类别相关的特征(特征选择) 3、建立数据训练集和测试集 4、对数据集进行数据清理 在本次实验中,我们选择了ILPD (Indian Liver Patient Dataset) 这个数据集,该数据集已经具有等维的数据特征,主要包括Age、Gender、TB、DB、Alkphos、Sgpt、Sgot、TP、ALB、A/G、classical,一共11个维度的数据特征,其中与分类类别相关的特征为classical,它的类别有1,2两个值。 详见下表: 本实验的主要思路是将该数据集分成训练集和测试集,对训练集进行训练生成模型,然后再根据模型对测试集进行预测。 数据集处理实验详细过程:

●CSV数据源处理 由于下载的原始数据集文件Indian Liver Patient Dataset (ILPD).csv(见下图)中间并不包含属性项,这不利于之后分类的实验操作,所以要对该文件进行处理,使用Notepad文件,手动将属性行添加到文件首行即可。 ●平台数据集格式转换 在后面数据挖掘的实验过程中,我们需要借助开源数据挖掘平台工具软件weka,该平台使用的数据集格式为arff,因此为了便于实验,在这里我们要对csv文件进行格式转换,转换工具为weka自带工具。转换过程为: 1、打开weka平台,点击”Simple CLI“,进入weka命令行界面,如下图所示: 2、输入命令将csv文件导成arff文件,如下图所示: 3、得到arff文件如下图所示: 内容如下:

数据挖掘主要算法

朴素贝叶斯: 有以下几个地方需要注意: 1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。 2. 计算公式如下: 其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是的计算方法,而由朴素贝叶斯的前提假设可知, = ,因此一般有两种,一种是在类别为ci的那些样本集中,找到wj出现次数的总和,然后除以该样本的总和;第二种方法是类别为ci的那些样本集中,找到wj出现次数的总和,然后除以该样本中所有特征出现次数的总和。 3. 如果中的某一项为0,则其联合概率的乘积也可能为0,即2中公式的分子为0,为了避免这种现象出现,一般情况下会将这一项初始化为1,当然为了保证概率相等,分母应对应初始化为2(这里因为是2类,所以加2,如果是k类就需要加k,术语上叫做laplace 光滑, 分母加k的原因是使之满足全概率公式)。 朴素贝叶斯的优点: 对小规模的数据表现很好,适合多分类任务,适合增量式训练。 缺点: 对输入数据的表达形式很敏感。 决策树: 决策树中很重要的一点就是选择一个属性进行分枝,因此要注意一下信息增益的计算公式,并深入理解它。 信息熵的计算公式如下:

其中的n代表有n个分类类别(比如假设是2类问题,那么n=2)。分别计算这2类样本在总样本中出现的概率p1和p2,这样就可以计算出未选中属性分枝前的信息熵。 现在选中一个属性xi用来进行分枝,此时分枝规则是:如果xi=vx的话,将样本分到树的一个分支;如果不相等则进入另一个分支。很显然,分支中的样本很有可能包括2个类别,分别计算这2个分支的熵H1和H2,计算出分枝后的总信息熵H’=p1*H1+p2*H2.,则此时的信息增益ΔH=H-H’。以信息增益为原则,把所有的属性都测试一边,选择一个使增益最大的属性作为本次分枝属性。 决策树的优点: 计算量简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关的特征; 缺点: 容易过拟合(后续出现了随机森林,减小了过拟合现象); Logistic回归: Logistic是用来分类的,是一种线性分类器,需要注意的地方有: 1. logistic函数表达式为: 其导数形式为: 2. logsitc回归方法主要是用最大似然估计来学习的,所以单个样本的后验概率为: 到整个样本的后验概率:

数据挖掘分类算法研究综述终板

数据挖掘分类算法研究综述 程建华 (九江学院信息科学学院软件教研室九江332005 ) 摘要:随着数据库应用的不断深化,数据库的规模急剧膨胀,数据挖掘已成为当今研究的热点。特别是其中的分类问题,由于其使用的广泛性,现已引起了越来越多的关注。对数据挖掘中的核心技术分类算法的内容及其研究现状进行综述。认为分类算法大体可分为传统分类算法和基于软计算的分类法两类。通过论述以上算法优缺点和应用范围,研究者对已有算法的改进有所了解,以便在应用中选择相应的分类算法。 关键词:数据挖掘;分类;软计算;算法 1引言 1989年8月,在第11届国际人工智能联合会议的专题研讨会上,首次提出基于数据库的知识发现(KDD,Knowledge DiscoveryDatabase)技术[1]。该技术涉及机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据可视化和高性能计算等领域,技术难度较大,一时难以应付信息爆炸的实际需求。到了1995年,在美国计算机年会(ACM)上,提出了数据挖掘[2](DM,Data Mining)的概念,由于数据挖掘是KDD过程中最为关键的步骤,在实践应用中对数据挖掘和KDD这2个术语往往不加以区分。 基于人工智能和信息系统,抽象层次上的分类是推理、学习、决策的关键,是一种基础知识。因而数据分类技术可视为数据挖掘中的基础和核心技术。其实,该技术在很多数据挖掘中被广泛使用,比如关联规则挖掘和时间序列挖掘等。因此,在数据挖掘技术的研究中,分类技术的研究应当处在首要和优先的地位。目前,数据分类技术主要分为基于传统技术和基于软计算技术两种。 2传统的数据挖掘分类方法 分类技术针对数据集构造分类器,从而对未知类别样本赋予类别标签。在其学习过程中和无监督的聚类相比,一般而言,分类技术假定存在具备环境知识和输入输出样本集知识的老师,但环境及其特性、模型参数等却是未知的。 2.1判定树的归纳分类 判定树是一个类似流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。由判定树可以很容易得到“IFTHEN”形式的分类规则。方法是沿着由根节点到树叶节点的路径,路径上的每个属性-值对形成“IF”部分的一个合取项,树叶节点包含类预测,形成“THEN”部分。一条路径创建一个规则。 判定树归纳的基本算法是贪心算法,它是自顶向下递归的各个击破方式构造判定树。其中一种著名的判定树归纳算法是建立在推理系统和概念学习系统基础上的ID3算法。 2.2贝叶斯分类 贝叶斯分类是统计学的分类方法,基于贝叶斯公式即后验概率公式。朴素贝叶斯分类的分类过程是首先令每个数据样本用一个N维特征向量X={X1,X2,?X n}表示,其中X k是属性A k的值。所有的样本分为m类:C1,C2,?,C n。对于一个类别的标记未知的数据记录而言,若P(C i/X)>P(C j/X),1≤ j≤m,j≠i,也就是说,如果条件X下,数据记录属于C i类的概率大于属于其他类的概率的话,贝叶斯分类将把这条记录归类为C i类。 建立贝叶斯信念网络可以被分为两个阶段。第一阶段网络拓扑学习,即有向非循环图的——————————————————— 作者简介:程建华(1982-),女,汉族,江西九江,研究生,主要研究方向为数据挖掘、信息安全。

数据挖掘算法摘要

国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。 1. C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整数据进行处理。 C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。 2. The k-means algorithm 即K-Means算法 k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。 3. Support vector machines 支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种監督式學習的方法,它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向量机和其他分类器进行了

数据挖掘分类算法的研究与应用

首都师范大学 硕士学位论文 数据挖掘分类算法的研究与应用 姓名:刘振岩 申请学位级别:硕士 专业:计算机应用技术 指导教师:王万森 2003.4.1

首都师范入学硕.卜学位论Z数据挖掘分类算法的研究与应用 摘要 , f随着数据库技术的成熟应用和Internet的迅速发展,人类积累的数据量正在以指数速度增长。科于这些数据,人{}j已经不满足于传统的查询、统计分析手段,而需要发现更深层次的规律,对决策或科研工作提供更有效的决策支持。正是为了满足这种要求,从大量数据中提取出隐藏在其中的有用信息,将机器学习应用于大型数据库的数据挖掘(DataMining)技术得到了长足的发展。 所谓数据挖掘(DataMining,DM),也可以称为数据库中的知识发现(KnowledgeDiscoverDat曲鹅e,KDD),就是从大量的、不完全的、有噪声的、模糊的、随机的数据r},,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是数据库研究中的一个很有应用价值的新领域,它又是一门广义的交叉学科,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。 分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个。{乍多分类的方法已被机器学习、专家系统、统计学和神经生物学方面的研究者提}H。本论文主要侧重数据挖掘中分类算法的研究,并将分类算法划分为急切分类和懒散分类,全部研究内容基本围绕着这种划分方法展开。.1本文的主要研究内容:, l,讨论了数掂挖掘中分类的基本技术,包括数据分类的过程,分类数据所需的数据预处理技术,以及分类方法的比较和评估标准;比较了几种典 型的分类算法,包括决策树、k.最近邻分类、神经网络算法:接着,引 出本文的研究重点,即将分类算法划分为急切分类和懒散分类,并基于 这种划分展歼对数据挖掘分类算法的研究。 2.结合对决簸树方法的研究,重点研究并实现了一个“懒散的基于模型的分类”思想的“懒散的决策树算法”。在决策树方法的研究中,阐述了决 策树的基本概念以及决策树的优缺点,决策树方法的应用状况,分析了 决策树算法的迸一步的研究重点。伪了更好地满足网络环境下的应用需 求,结合传统的决策树方法,基于Ⅶ懒散的基于模型的分类”的思想, 实现了一个网络环境下基于B/S模式的“懒散的决策树算法”。实践表明: 在WEB应fH程序叶i采用此算法取得了很好的效果。、 ≯ 3.选取神经H络分类算法作为急切分类算法的代表进行深入的研究。在神经网络中,重点分析研究了感知器基本模型,包括感知器基本模型的构 造及其学习算法,模型的几何意义及其局限性。并针对该模型只有在线 性可分的情况一F彳‘能用感知器的学习算法进行分类的这一固有局限性, 研究并推广了感知器模型。

数据挖掘中的文本挖掘的分类算法综述

数据挖掘中的文本挖掘的分类算法综述 摘要 随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。本文首先对数据挖掘进行了概述包括数据挖掘的常用方法、功能以及存在的主要问题;其次对数据挖掘领域较为活跃的文本挖掘的历史演化、研究现状、主要内容、相关技术以及热点难点问题进行了探讨;在第三章先分析了文本分类的现状和相关问题,随后详细介绍了常用的文本分类算法,包括KNN 文本分类算法、特征选择方法、支持向量机文本分类算法和朴素贝叶斯文本分类算法;;第四章对KNN文本分类算法进行深入的研究,包括基于统计和LSA降维的KNN文本分类算法;第五章对数据挖掘、文本挖掘和文本分类的在信息领域以及商业领域的应用做了详细的预测分析;最后对全文工作进行了总结和展望。 关键词:数据挖掘,文本挖掘,文本分类算法 ABSTRACT With the development of Web 2.0, the number of documents on the Internet increases exponentially. One important research focus on how to deal with these great capacity of online documents. Text classification is one crucial part of information management. In this paper we first introduce the basic information of data mining, including the methods, contents and the main existing problems in data mining fields; then we discussed the text mining, one active field of data mining, to provide a basic foundation for text classification. And several common algorithms are analyzed in Chapter 3. In chapter 4 thorough research of KNN text classification algorithms are illustrated including the statistical and dimension reduction based on LSA and in chapter 5 we make some predictions for data mining, text mining and text classification and finally we conclude our work. KEYWORDS: data mining, text mining, text classification algorithms,KNN 目录 摘要 (1) ABSTRACT (1) 目录 (1)

数据挖掘论文

数据挖掘之分类算法的研究 摘要:对分类算法中需要解决的关键问题进行了分析;综述了不同分类算法的思想和特性,决策树分类算法能够很好地处理噪声数据,但只能对规模较小的训练样本集有效;贝叶斯分类算法精度高、速度快、错误率低、但分类不够准确;传统的基于关联规则算法分类算法准确率高,但容易受硬件内存的制约;支持向量机算法分类准确率高、复杂性低,但速度慢。并且针对决策树分类算法的缺点进行了改进。 关键字:数据挖掘,分类算法,决策树 0 引言 数据挖掘是从海量数据中获取有用知识和价值的过程,是数据库技术自然演化的结果。数据挖掘已广泛应用于零售、金融、保险、医疗、通讯等行业,并展现出了其强大的知识发现的能力。在数据挖掘的研究与应用中,分类( Classification) 算法一直受学术界的关注,它是一种有监督的学习,通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。数据分类算法中,为建立模型而被分析的数据元组组成的数据集合称为训练数据集,训练数据集中的单个样本( 或元组) 称为训练样本。分类算法是将一个未知样本分到几个已存在类的过程,主要包含两个步骤: 第1 步,根据类标号已知的训练数据集,训练并构建一个模型,用于描述预定的数据类集或概念集; 第2 步,使用所获得的模型,对将来或未知的对象进行分类。 1 分类算法中的关键问题 不同的分类算法有不同的特性,完成不同的任务。目前很多分类算法被机器学习、专家系统、统计学和神经生物学等的研究者从不同角度提出,判断不同分类算法的好坏可以由准确率、速度、健壮性、可伸缩性、可解释性等几个标准来衡量。另外,分类算法的效果通常和数据的特点有关,有的数据有空缺值,有的噪声大,有的分部稀疏,有的属性是连续的,有的则是离散或混合的。经典的分类算法都有在不同的领域取得成功,比如决策树分类算法用于医疗诊断、金融分析、评估贷款申请的信用风险等广阔领域; 支持向量机分类算法应用于模式识别、基因分析、文本分类、语音识别、回归分析等领域; 由于对噪声数据具有很好的承受能力,神经网络广泛应用在字符识别、分子生物学、语音识别和人脸识别等

数据挖掘weka数据分类实验报告

一、实验目的 使用数据挖掘中的分类算法,对数据集进行分类训练并测试。应用不同的分类算法,比较他们之间的不同。与此同时了解Weka平台的基本功能与使用方法。 二、实验环境 实验采用Weka 平台,数据使用Weka安装目录下data文件夹下的默认数据集。 Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java 写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。 三、数据预处理 Weka平台支持ARFF格式和CSV格式的数据。由于本次使用平台自带的ARFF格式数据,所以不存在格式转换的过程。实验所用的ARFF格式数据集如图1所示 图1 ARFF格式数据集 对于iris数据集,它包含了150个实例(每个分类包含50个实例),共有sepal length、

sepal width、petal length、petal width和class五种属性。期中前四种属性为数值类型,class属性为分类属性,表示实例所对应的的类别。该数据集中的全部实例共可分为三类:Iris Setosa、Iris Versicolour和Iris Virginica。 实验数据集中所有的数据都是实验所需的,因此不存在属性筛选的问题。若所采用的数据集中存在大量的与实验无关的属性,则需要使用weka平台的Filter(过滤器)实现属性的筛选。 实验所需的训练集和测试集均为。 四、实验过程及结果 应用iris数据集,分别采用LibSVM、决策树分类器和朴素贝叶斯分类器进行测试和评价,分别在训练数据上训练出分类模型,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。 1、LibSVM分类 Weka 平台内部没有集成libSVM分类器,要使用该分类器,需要下载并导入到Weka中。 用“Explorer”打开数据集“”,并在Explorer中将功能面板切换到“Classify”。点“Choose”按钮选择“functions,选择LibSVM分类算法。 在Test Options 面板中选择Cross-Validatioin folds=10,即十折交叉验证。然后点击“start”按钮:

【精品】(最新)案例四数据挖掘之七种常用的方法

数据挖掘之七种常用的方法 利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据 进行挖掘。 1.分类 分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为 不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。 它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。 2.回归分析 回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。 它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。 3.聚类 聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。 它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。 4.关联规则 关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。 在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。 5.特征 特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。

基于粒计算的数据挖掘算法研究

代 分 号 学号 密1020121208 题(中、英文) 作者姓指导教师姓名、学科门

创新性声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名:日期 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 (保密的论文在解密后遵循此规定) 本人签名:导师签名: 日期:日期:

摘要 数据挖掘是当今计算机科学中快速发展的一个研究方向,它涉及到多个领域的知识。数据挖掘能从大量的数据中发现一些人们事先未知的、潜在的、有趣的知识,因此广泛被应用于商业分析、机器学习、网络个性化服务等领域。数据挖掘有很多研究方向,关联规则和序列模式是其中重要的两类,其中关联规则的研究重点在于频繁项集的发现,而序列模式则强调数据的序列特性。 本文基于粒计算的相关原理和模型,对关联规则和序列模式的挖掘算法进行了研究。本文的主要工作概括如下: 1. 概述了数据挖掘和粒计算的基本原理,说明了数据挖掘的主要研究方向和粒计算的几个重要的计算模型,对关联规则、序列模式和粗糙集的基础理论知识进行了介绍,对常见的关联规则挖掘算法和序列模式挖掘算法进行了简单的汇总和分析。 2. 详细分析了关联规则挖掘算法Apriori算法的原理。针对Apriori算法存在的产生较多候选频繁项的问题,给出基于粒化原理的改进算法Apriori-GRC算法,并通过仿真实验表明其有效性。 3. 给出一种基于重要度的粗糙集信息系统属性约简算法Sig-Reducts算法。讨论了序列的粗糙集模型,在Sig-Reducts算法的基础上,给出了一种基于决策表的序列规则挖掘算法Sequence-Mining算法,分析了算法的时间复杂度并通过仿真实验进行了验证。 关键词:数据挖掘粒计算关联规则序列模式

数据挖掘试题

《数据挖掘》总复习题 1.数据挖掘系统可以根据什么标准进行分类? 答:根据挖掘的数据库类型分类、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类 2.知识发现过程包括哪些步骤? 答:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示 3.什么是概念分层? 答:一个映射序列,将低层概念映射到更一般的较高层概念。 4.多维数据模型上的 OLAP 操作包括哪些? 答:上卷、下钻、切片和切块、转轴 / 旋转、其他OLAP操作5.OLAP 服务器类型有哪几种? 答:关系OLAP 服务器(ROLAP)、多维OLAP 服务器(MOLAP)、混合 OLAP 服务器 (HOLAP)、特殊的 SQL 服务器 6.数据预处理技术包括哪些? 答:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。 7.什么是数据清理? 答:填写缺失的值,平滑噪声数据,识别、删除离群点,解决不一致性 8.什么是数据集成? 答:集成多个数据库、数据立方体或文件 9.什么是数据归约? 答:得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果 10.数据清理的内容包括哪些? 答:缺失值、噪声数据、数据平滑、聚类、回归 11.将下列缩略语复原 OLAP——on-line analytical processing DM——data mining KDD——knowledge discovery in databases OLTP——on-line transaction processing DBMS——database management system DWT——discrete wavelet transform (DMQL)--Data Mining Query Language 12.什么是数据挖掘? 答:简单地说,数据挖掘是从大量数据中提取或挖掘知识。具体地

相关文档