文档库

最新最全的文档下载
当前位置:文档库 > 数据挖掘技术及其应用现状探析

数据挖掘技术及其应用现状探析

数据挖掘技术及其应用现状探析?

王锐 马德涛 陈晨

解放军信息工程大学测绘学院,河南郑州 450052

摘要:数据挖掘是一门新兴的数据处理技术,是当前热门的一个研究领域。本文简要

介绍了数据挖掘的概念、过程及数据挖掘系统的体系结构,论述了数据挖掘的主要方法,最后对数据挖掘在国民经济和军事领域的应用作了介绍。

关键词:数据挖掘方法应用

Institute of Surveying and Mapping,Information Engineering

University,Zhengzhou,Henan,450052

Abstract: Data mining is a newly arisen technique of data processing, and is also a popular research fields currently. This paper introduces the data mining definition, process and its system construction. Then discusses the main methods of data mining, finally proposes the application of data mining to the national economy and military fields.

Keywords: data mining; method; application

随着数据库、网络等技术的迅速发展,人们积累的数据越来越多,我们已经被淹没在数据和信息的汪洋大海中。人们需要有新的、更有效的方法对各种大量的数据进行分析、提取以挖掘其潜能,数据挖掘正是在这样的应用需求环境下产生并迅速发展起来的,它的出现为智能地把海量的数据转化为有用的信息和知识提供了新的思路和手段。

1 数据挖掘技术

数据挖掘(Data Mining—DM),就是从大量的、不完全的、有噪声的、模糊的、随机的数据库中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

1.1 数据挖掘过程

数据挖掘过程包括很多处理阶段,其一般流程主要包括三个阶段:数据准备、数据挖掘、结果解释和评价。如图1所示的数据挖掘过程。

①数据准备数据准备又可以分为2个子步骤:数据选取、数据预处理。数据选取的目的是确定发现任务的操作对象,即目标数据,是根据用户的需要从原始数据库中抽取的一组数据。数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续型数据转换为离散型数据,以便于符号归纳;或是把离散性数据转换为连续型数据,以便于神经网络计算)以及对数据降维(即从初始特征中找出真正有用的特征以减少数据挖掘要考虑的变量个数)。

?作者简介:王锐(1982—),女,硕士,从事GIS研究,主要研究方向为数据挖掘。E—mail:wangruibetty@http://www.wendangku.net/doc/da562d0f6c85ec3a87c2c56f.html

②数据挖掘数据挖掘阶段首先要确定数据挖掘的目标和挖掘的知识类型;确定挖掘任务后,根据挖掘的知识类型选择合适的挖掘算法;最后实施数据挖掘操作,运用选定的挖掘算法从数据库中抽取所需的知识。

③结果的解释和评价数据挖掘阶段发现的知识,经过评估,可能存在冗余或无关的知识,这时需要将其剔除;也有可能知识不满足用户的要求,需要重复上述挖掘过程重新进行挖掘。另外,由于数据挖掘是最终要面临用户的,因此,还需要对所挖掘的知识进行解释,以一种用户易于理解的方式(如可视化方式)供用户所用。

可以看出,以上整个数据挖掘过程是不断地循环和反复的,因而可以对所挖掘出来的知识不断求精和深化,最终达到用户所满意的结果。

数据挖掘技术及其应用现状探析

图1 数据挖掘过程

1.2数据挖掘系统的体系结构

在常用的数据挖掘系统中,一般将其分为三层结构,如图2所示。其中,第一层是数据源,包括数据库、数据仓库等。第二层是挖掘器,利用数据挖掘系统提供的各种数据挖掘方法分析和提取数据库中的数据,以达到用户的需求。第三层是用户层,使用多种方式将获取的信息和发现的知识反映给用户。

数据挖掘技术及其应用现状探析

图2 数据挖掘系统

1.3数据挖掘的主要方法

在数据挖掘的处理过程中,数据挖掘方法是最为关键的,而目前数据挖掘的方法主要有

以下几类:

①关联规则方法:挖掘关联规则就是发现存在于大量数据集中的关联性或相关性,例如关联规则“90%客户在购买面包的同时也会购买牛奶”,其直观意义为顾客在购买某些商品的时候有多大倾向会购买另外一些商品。

②分类和聚类方法:分类就是假定数据库中的每个对象(在关系数据库中对象是元组)属于一个预先给定的类,从而将数据库中的数据分配到给定的类中。而聚类是将地实体对象集合依照某种相似性度量原则划分为若干个类似实体对象组成的多个类或簇的过程。分类和聚类都是对目标进行划分,划分的标准是类内差别最小而类间差别最大。分类和聚类的区别在于分类事先知道类别数和各类的典型特征,而聚类则事先不知道。

③数据统计方法:使用这些方法一般首先建立一个数据模型或统计模型,然后根据这种模型提取有关的知识。例如,可由训练数据建立一个 Bayesian 网,然后,根据该网的一些参数及联系权重提取出相关的知识。

④机器学习方法:大多数机器学习方法使用人类的认识模型模仿人类的学习方法从数据中提取知识,由于机器学习经过多年的研究,已取得了一些较满意的成果,因此,在数据挖掘中可以利用目前比较成熟的机器学习方法。

⑤多层次数据汇总归纳:数据库中的数据和对象经常包含原始概念层上的详细信息,将一个数据集和归纳成更高概念层次信息的数据挖掘技术被称为数据汇总。概念汇总将数据库中的相关数据由低概念层抽象到高概念层,主要有数据立方体和面向对象的归纳两种方法。

⑥神经网络方法:神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、BP反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以Hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以ART模型、Koholon模型为代表的,用于聚类的自组织映射方法。

⑦决策树方法:利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据字段的不同取值建立树的分支;在每个分枝子集中,重复建立树的下层结点和分支的过程,即可建立决策树。国际上最有影响和最早的决策树方法是J.R.Quinlan提出的ID3方法,它对越大的数据库效果越好,在 ID3基础上后人又发展成各种决策树方法。

⑧序列模式分析方法:主要用于发现一定时间间隔内接连发生的事件。这些事件构成一个序列,发现的序列应该具有普遍意义,其依据除了统计上的概率之外,还要加上时间的约束。

⑨可视化技术:数据与结果被转化和表达成可视化形式,如图形、图像等,使用户对数据的剖析更清楚。

2 数据挖掘技术的应用

2.1 在国民经济发展中的应用

数据挖掘技术几乎被应用于当前所有热门的领域,得到了蓬勃地发展,进一步促进了我国国民经济的发展。下面介绍一下国民经济中比较活跃的应用方向。

⑴在电信业中的应用

现在的电信业已经迅速地从单纯地提供市话和长话服务演变成提供如语音、传真、寻呼、移动电话、图像、电子邮件、计算机和Web数据传输等综合电信服务。在激烈的电信市场竞争和迅速的业务扩张中,可以利用数据挖掘技术的帮助来理解商业行为、确定

电信模式、捕捉盗用行为、更好地利用资源和提高服务质量。如对电信数据进行多维分析;多维关联和序列模式分析等。

⑵在金融领域中的应用

多数银行和金融机构都提供丰富多样的储蓄、信用、投资、保险等服务。他们产生的金融数据通常比较完整、可靠,这对系统化的数据分析和数据挖掘相当有利。在具体的应用中,采用多维数据分析来分析这些数据的一般特性,观察金融市场的变化趋势;使用数据可视化、分类、聚类分析、序列模式分析等工具侦破洗黑钱和其他金融犯罪行为。

⑶在零售业中的应用

零售业是数据挖掘的主要应用领域,这是因为零售业积累了大量的销售数据,如顾客购买史记录、货物进出、消费与服务记录以及流行的电子商务等等都为数据挖掘提供了丰富的数据资源。零售数据挖掘有助于划分顾客群体,使用分类技术和聚类技术,可以更精确地挑选出潜在的顾客;识别顾客购买行为,发现顾客购买模式和趋势,进行关联分析,以便更好地进行货架摆设等等。

2.2 在军事领域中的应用

⑴在情报信息获取中的应用

在信息现代化的今天,信息渗透到军事领域的各个方面,如何在情报信息的海洋中去粗取精,去伪存真,这就需要运用数据挖掘的相关方法提取精确的信息,为己方所用。如可以根据获取的情报信息,运用关联规则和神经网络方法等分析出敌人的政治、社会、基础设施和信息系统以及它们的相互关系,对己方可以采取的各种潜在行动做出判断。

⑵在战场态势评估中的应用

在军事领域,正确的战场态势判断是定下正确的作战决心的首要前提。战场态势由一些态势要素组成,如敌我双方的兵力部署,作战企图,主要作战方向,目标火力分配等等。如可以利用数据挖掘提供的相关方法进行地形分析,这样我们根据分析所获得的结果,进行兵力的部署和作战武器的配备等;利用决策树方法、人工神经网络方法及可视化技术进行目标火力分配等。

⑶在战场环境中的应用

战场环境中的数据挖掘,我们可以考虑从地形、地貌、植被、居民地分布、水系网络、等多个方面入手。下面主要对战场环境中的地形进行分析,地形分析包括目标性质分析(点目标、线目标、面目标等)、路径可达性分析、隐蔽性分析、透视性分析等,可以利用关联规则方法、决策树理论方法等技术确定敌人的主攻方向。

3 小结

数据挖掘技术涉及到多种学科技术,如:数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索及空间数据分析等。因此,数据挖掘是非常有前景的研究领域,随着数据挖掘技术的不断发展,它将会广泛而深入地应用到人类社会的各个领域。

参考文献

[1] 罗可,蔡碧野.数据挖掘及其发展研究[J].计算机工程与应用,2002

[2] 赵丹群.数据挖掘:原理、方法及其应用[J].现代图书情报技术,2000

[3] 刘毅勇.情报分析智能辅助决策方法及其军事应用[M].北京:国防大学出版社,2001

[4] 唐晓萍.数据挖掘技术及其在指挥控制系统中的应用[J].火力与指挥控制,2002

[5] Alex Berson,Stephen J.Smith,Data Warehousing,Data Mining,&OLAP[M], McCraw-Hill Book

Co,1997