文档库 最新最全的文档下载
当前位置:文档库 › 基于数据挖掘的飞行参数处理方法研究

基于数据挖掘的飞行参数处理方法研究

基于数据挖掘的飞行参数处理方法研究
基于数据挖掘的飞行参数处理方法研究

Ξ基于数据挖掘的飞行参数处理方法研究3

梁建海,孙秀霞,杜 军

(空军工程大学工程学院,陕西西安710038)

[摘要]文中在分析飞行参数数据特征的基础上,建立基于多维数据模型的飞行参数数据仓库,实现了模式可复用的飞参挖掘系统软件的设计与应用,有效解决飞参数据知识发现和模式发现问题。最后,实现了飞参关联规则的有效挖掘。

[关键词]飞行参数;时间序列;数据挖掘;知识发现

[中图分类号]V247 [文献标识码]A

The Research of Fl ight Da ta D isposi ng Techn ique Ba sed on Da ta M i n i ng

L I AN G J ian2hai,SUN X iu2x ia,DU Jun

(D epartm en t of A u tom atic Con tro l,T he Engineering In stitu te of A irfo rce Engineering Schoo l,X i’an710038,Ch ina) Abstract:O n the basis of analyzing the essence of fligh t data,th is paper set up data w arehou se of fligh t data w h ich have m u lti2di m en si onal model.T he design and app licati on of softw are of fligh t data m in ing w ith the reu sed pattern is realized in th is paper.T he KDD and pattern discovery of fligh t data is realized effectively.A t last,the associati on ru le of fligh t data is m ined efficien tly.

Key words:fligh t data;ti m e series;data m in ing;know ledge discovery

1 引 言

飞行参数是飞机飞行过程中记录的各种参数信息,对飞行动作识别、设备性能趋势分析和飞行事故鉴定具有重要的作用。飞行参数历史数据库蕴含有丰富的信息和模式,建立数据仓库进行信息和知识的有效挖掘为解决问题提供了有效的手段。

数据挖掘理论是数据处理领域强有力的方法和工具[1],该理论将数学分析的结果和工程应用背景有机结合,在知识经验指导下寻找数据的内在规律,发现隐含、未知的有效信息并为决策提供依据。

2 数据挖掘技术与时序数据库数据挖掘是研究从大型数据库中模式发现技术的可行性、有用性、有效性和可伸缩性的问题,是数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取和信息检索等多学科共同研究的对象。2.1 数据挖掘特点

数据挖掘致力于从数据集中发现出有用的规律和知识。特点有:1、强调待发现规律的未知性,不预先作硬性、严格的规定。2、目标更为具体,认为系统行为不都是规律性的,不必要求拟合全体数据。3、数据分析时不单纯运用数学知识进行处理,有人工智能领域的模式识别和机器学习的思想和技术。4、挖掘的目标可以根据具体情况灵活选择,数据分析的形式比较灵活。上述特点决定了数据挖掘技术成为数据库研究中最活跃和最有发展前景的领域。

2.2 数据挖掘目标与方法

数据挖掘通过关联性、分类、聚类、异常性、趋势分析等知识发现活动,寻找频繁模式、关联规则、分类规则、聚类模式、异常模式、周期性规律。目标可分四个方面:趋势分析、相似性搜索、与时间有关的序列模式挖掘和周期模式挖掘。

关联规则发现大量数据中项集之间有趣的关联或相关联系[2]。分类规则用于提取描述重要数据类的模型或预测未来的数据趋势。聚类模式

Ξ收稿日期:2004208220 修订日期:2004211222

基金项目:空军装备预研项目,数据挖掘技术在飞参处理中应用研究

作者简介:梁建海(1974—),男,江苏徐州人,博士研究生,主要研究方向:故障诊断与预测,数据仓库挖掘技术。

在划分未知类的情况下,将数据对象分成多个类或簇。异常性分析发现不符合一般行为或模型的数据对象。周期性趋势分析发现对象随时间变化的趋势和规律。

2.3 时间序列数据库

时间序列中的值是在按时间顺序在等时间间隔条件下测得的。时序数据库是指随时间变化的序列值或事件组成的数据库,能够实现对时间序列数据的存储和操作,包括对序列的选择、投影、连接以及对序列的各种查询操作。时间序列数据的最大特点在于可以利用时序建模和回归方法进行预测。

3

 飞行参数数据特点与挖掘目标

飞行参数具有状态点的不可重复性,即代表的系统状态不可能完全复现。除飞行时间和接通次数外,绝大多数飞参数据具有不可叠加性,即数据简单相加不产生任何实质意义。这些特点决定了飞参的处理方法具有其特殊性。对飞行参数在单帧、时序曲线和数据仓库下的特点和挖掘方法进行如下分析,如图1所示。

图1 飞行参数特征与方法分析

3.1 单帧参数

飞行参数按帧记录,包含位置参数、运动参数、操纵参数、主系统状态参数和报警参数。单帧参数挖掘的重点是参数相互关系,如飞机操纵时参数间的同步速率、滞后时间和门限差值,用于操纵灵敏度、稳定性判断。研究参数分布规律可对系统设备良好、预警和故障状态进行判断。3.2 时序曲线

飞机工作时的综合性和复杂性使飞机的全系统模型无法用于预测。时间序列分析可进行基于归纳的有效预测,产生结合可性度的预测区域。进行飞行参数时序分析不能简单地从纯数学的观点去拟合数据,需要从非线性系统和动力学系统抽取时序特征。确定目标数据曲线,抽取相应A RM A 时序的模型阶数或建立回归模型再进

行预测。

3.3 数据仓库

飞行参数操作数据库是个历史的、海量的、复合数据源的数据库[3],由于参数本身的意义十分明确,预处理的工作也相对简单,易建成数据仓库。数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,可在进行有效数据挖掘的基础上支持管理人员的决策[4]。

4 飞行参数预处理和数据仓库

飞行参数的操作数据库与数据仓库的区别:?数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。操作型系统的时间期限一般是60~90天,而数据仓库中数据的时间期限目标是5~10年。

?操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是有效的,同样当前值的数据能被更新。而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。

?操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日等。而数据仓库的键码结构总是包含某时间元素。因此,需要对飞参数据库进行预处理后建立相应的数据仓库。4.1 飞参预处理方法

飞参数据采集设备的故障,库文件的输入错误,数据传输的错误都会造成数据不完整性,含噪声和不一致。数据预处理能够提高数据质量和挖掘结果的质量,排除数据中的干扰。预处理的步骤是数据清理、数据集成、数据变换和数据归约。

(1)飞参数据清理方法。根据数据帧标志对数据的有效性进行标识,根据飞行手册的性能参数范围删除孤立点,对于噪声数据根据飞行日报表按数据段进行保留或平滑处理。

(2)飞参数据集成方法。对多数据源数据进行多传感器的数据融合,同性质参数如:气压高度和无线电高度,指示空速和真空速,磁航向和真航向;计算参数如:M 数、真空速和升降速度等。

(3)数据变换方法。采用最小-最大规范化方法对原始数据进行线性变换,按比例映射到特定区间,一般为[0.0,1.0]。

(4)数据归约方法。采用基于序列变化模式的直线子段表示方法(方法):从序列中选

择极值点,用这些极值点之间的子段来表示原始序列,对抽取的特征向量进行索引,实现对序列的快速存取,提高查询效率。在保留足够的信息的同时,对原始数据进行高效压缩,减少数据处理时间和存储空间。

4.2 飞参数据仓库模型与实现

飞参数据仓库的实现步骤如下:

(1)多维数据模型的建立。维是记录的透视或实体,通常是围绕中心主题组织。飞行参数仓库一般以星型模式建立,创建和使用星型连接为决策支持系统处理优化数据。通过数据预连接和建立有选择的数据冗余,设计者为访问和分析过程大大简化了数据,如图2所示

图2 飞参星型多维数据模型

(2)概念分层。概念分层注入了背景知识,

目的是按兴趣度调整粒度大小,实际运行过程中一般采用双粒度(图3),相应的结构由系统用户、领域专家或知识工作师提供。分成模式分层、集合分组分层、操作导出分层和基于规则分层。

(3)度量方法的选择与应用。度量方法的度量中心趋势m ean ,m edian ,m ode 和m idrage ,数据离散度quartiles ,ou tliers ,variance 和其它统计度量在飞参数据仓库联机分析中都得到应用

图3 飞行参数处理的双重粒度

5 系统软件设计与结构

关联规则、隐含模式的挖掘和对现有知识库的补充是本系统设计目标[5],为更有效地实现数据挖掘,挖掘模式的复用是系统设计需要作为系统的重要功能。

5.1 挖掘模式复用的问题。

挖掘模式的复用是在软件模式复用中实现的,已挖掘出的软件模式将已证实的技术表述成设计模式,同时促使数据挖掘系统的设计者调整数据模型和概念分层,以利于同类型模式的有效挖掘。通过提供一个显式类、对象作用关系和相互间潜在联系的说明规范实现对数据的有效挖掘。5.2 系统总体设计与结构

采用面向数据结构的软件开发方法,从目标系统的输入、输出数据结构入手,导出程序框架结构。采用软件工程中模块化原则对该系统进行分析与设计。整个系统可以分为如下功能模块:分布式飞参读取、数据仓库建库与调整、飞参模式挖掘、报表结果分析和挖掘模式复用模块

图4 飞参数据挖掘系统结构

(1)分布式飞参读取模块:飞行参数的日

常存储位置有当日飞行飞参磁带、飞参处理设备硬盘和历史飞参数据光盘,形式有原始数据、快速处理后的数据和详细处理后带报表的数据。本模块对上述不同位置和形式的数据进行处理、约简、变换和集成,为数据仓库输入有效数据。

(2)数据仓库建库与调整模块:根据多维飞参数模型和不同的概念粒度建立飞参数据仓库,含有上、下文信息的调整、索引建立、刷新模块存储外部与非结构化数据。

(3)飞参模式挖掘:包含信息处理、联机分析和模式挖掘模块。飞参信息处理模块支持查询

和基本的统计分析,采用O ffice W ebCom ponen 2

ts 组件处理;OLA P 模块提供飞参数据仓库中

数据的基本支持模块,支持多维数据分析,集成了Sp ss 10.0Fo r W indow s 中时间序列图功能;通过M atlab 6.1数据接口完成V C ++6.0编程实现飞参数据挖掘。

(4)报表结果分析和挖掘模式复用模块:报表中所挖掘出的关联规则要经过元规则的二次过滤后在附加约束的条件下提交模型,对基于神经网络的动作分类和设备状态分析的模式进行有效挖掘。挖掘模式复用模块进行同类型模式的有效挖掘,通过面向对象(O b ject O rien ted )技术中类的继承技术实现。

6 飞参挖掘的处理结果分析

6.1 规则原型

某型飞机飞参处理专家系统知识库的推理规则表述如下(多维关联规则形式):(V y >160)&&(Hw <200)&&(A f >5)]进入爬高阶段(标志)[6]。

6.2 标志模式类计算

起飞标志类(CF ligh t ),其中包含无线电高度H w 、气压高度H q 、仪表速度V y 、俯仰角A f 、飞机重心法向过载af 1、某发压缩机转子转速n 。采用A p ri o ri 算法,用某月飞行数据进行关联规则挖掘,所得三项阀值的实际趋向如图5所示,经过50个架次数据的叠代,计算值与实际值吻合。

图5 阀值计算结果曲线图

以飞参数据的局部增量?d 的上升或下降

趋势为标志,确定比较符的频繁项集,图5是频

繁项集简化的生成过程,已将比较符简明表示为三项。

项集>支持度计数<支持度计数

=支

持度

V y 4550Hw 2480A E

49

1

项集

支持度计数

V y >;Hw <;A f >45V y >;Hw <;A f >5V y >;Hw <;A f >2V y >;Hw <;A f >1V y >;Hw <;A f >1V y >;Hw <;A f >1V y >;Hw <;A f >2V y >;Hw <;A f >

1

图五 关联规则的挖掘过程示意图

经置信度验证后,输出相应的强规则为(V y >160)&&(H w <200)&&(A f >5)]进入爬高阶段(标志)。上述方法能够有效对专家系统的规则进行挖掘,结果符合挖掘目标的需要。挖掘方法的可行性与有效性得到了充分的验证。

7 结论

基于数据挖掘技术飞行数据处理方法,有效解决了飞行参数知识挖掘问题,所得的挖掘结果与专家所提供的推理结果相同,具有很大的实用价值。

[参 考 文 献]

[1] J iaw ei H an 等.数据挖掘的概念与技术[M ].北京:

机械工业出版社,2001.

[2] R .L Kennedy So lving D ata M in ing P rob lem s

T h rough Pattern R ecogn iti on [M ].1998.[3] T heodo rato s D ,

Sellis

T .

D esign ing

D ata

W arehou ses [J ].D ata Know ledge Engineering ,1999,31:279-301.[4] Cbaudbu ri S ,

D ayal S ,

Gan ti V .

D atabase

T echno logy fo r D ecisi on Suppo rt System s [J ].Compu ter ,2001,12:48-55.[5] Pedersen T B ,

Jen sen C S .

M u ltidi m en si onal

D atabase T echno logy [J ].Compu ter ,2001,12:40-45.

[6] 梁建海.非精确推理在某型飞机飞参数据处理中

的应用研究[D ].空军工程大学硕士生学位论文.

2003.

数据挖掘算法的分析与研究

科技广场2010.9 0引言 随着数据库技术的飞速发展,人们在各种应用领域所拥有的数据量急剧增加,这些数据对人们的工作和研究有着重要的作用,但是由于对这些数据进行高级处理的工具比较少,使它们的重要性没有能够充分的发挥。当前多数的数据库系统只是可以对数据库中已有的数据进行存取、查询和统计等简单操作,通过这些操作人们可以获得数据的一些简单信息。但这些信息是从数据表面直观表现出来,对于隐藏于数据背后的如数据之间的关系、数据整体特征的描述以及寻找未来数据发展趋势的预测等信息并不能通过这些手段得到,而这些往往是人们更加需要的并且在决策支持的过程中更有价值。 数据挖掘是信息技术自然演化的结果,正是从存放在数据库、数据仓库或其他信息库中挖掘有用知识的过程。 1数据挖掘的主要步骤 数据挖掘工作作为一个完整的挖掘过程,可分为以下几个主要步骤: (1)陈述问题和阐明假设:多数基于数据的模型研究都是在一个特定的应用领域里完成的。因此在设计数据挖掘算法之前,需要事先确定一个有意义的问题陈述。模型建立者通常会为未知的相关性指定一些变量,如果可能还会指定相关性的一个大体形式作为初始假设。对当前问题可能会有几个阐明的假设,这要求将应用领域的专门技术和数据挖掘模型相结合。实际上,这往往意味数据挖掘人员与应用专家之间密切地协作,在开始数据处理过程之前明确实际工作对数据挖掘结果的要求,根据此要求,确定数据收集过程的具体方法和数据挖掘采用的具体算法。 (2)数据准备和预处理:数据准备和预处理又可分为三个步骤:数据选取、数据预处理、数据变换。 数据选取的目的是确定数据挖掘的处理对象,即目标数据,它是根据由问题陈述中得到的用户需求,从原始数据库中抽取一定的数据用于数据挖掘, 数据挖掘算法的分析与研究 Analysis and Research of Data Mining Algorithms 喻云峰 Yu Yunfeng (江西省商务学校,江西南昌330100) (Jiangxi Commercial School,Jiangxi Nanchang330100) 摘要:本文对数据挖掘的基本理论进行了分析研究,总结了数据挖掘的基本步骤,归纳了数据挖掘的基本方法,并在此基础上,提出了用数据挖掘进行数据分析的通用策略。 关键词:数据挖掘;通用策略 中图分类号:TP311文献标识码:A文章编号:1671-4792-(2010)9-0054-03 Abstract:In this thesis,the basic theory of data mining is researched.Based on this,the basic steps of data min-ing is summarized and the basic method of data mining is generalized.At last,a general tactic of data mining is given. Keywords:Data Mining;General Tactic 54

数据挖掘研究现状综述

数据挖掘 引言 数据挖掘是一门交叉学科,涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。 所谓的数据挖掘(Data Mining)指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息,提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说,数据挖掘是在对数据全面了解认识的基础之上进行的一次升华,是对数据的抽象和概括。如果把数据比作矿产资源,那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比,原始的数据信息可以是结构化的,数据库中的数据,也可以是半结构化的,如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录 引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法:使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要:从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展趋势。 关键词:数据挖掘;挖掘算法;神经网络;决策树;粗糙集;模糊集;研究现状;发展趋势 Abstract:From the definition of data mining,the paper introduced concepts and advantages and disadvantages of neural network algorithm,decision tree algorithm,genetic algorithm,rough set method,fuzzy set method and association rule method of data mining,summarized domestic and international research situation and focus of data mining in details,and pointed out the development trend of data mining. Key words:data mining,algorithm of data mining,neural network,decision tree,rough set,fuzzy set,research situation,development tendency 1引言 随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。在这种情况下,一个新的技术———数据挖掘(Data Mining,DM)技术应运而生[2]。 数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。 江西理工大学

数据挖掘及其应用

《数据挖掘论文》 数据挖掘分类方法及其应用 课程名称:数据挖掘概念与技术姓名 学号: 指导教师:

数据挖掘分类方法及其应用 作者:来煜 摘要:社会的发展进入了网络信息时代,各种形式的数据海量产生,在这些数据的背后隐藏这许多重要的信息,如何从这些数据中找出某种规律,发现有用信息,越来越受到关注。为了适应信息处理新需求和社会发展各方面的迫切需要而发展起来一种新的信息分析技术,这种局势称为数据挖掘。分类技术是数据挖掘中应用领域极其广泛的重要技术之一。各种分类算法有其自身的优劣,适合于不同的领域。目前随着新技术和新领域的不断出现,对分类方法提出了新的要求。 。 关键字:数据挖掘;分类方法;数据分析 引言 数据是知识的源泉。但是,拥有大量的数据与拥有许多有用的知识完全是两回事。过去几年中,从数据库中发现知识这一领域发展的很快。广阔的市场和研究利益促使这一领域的飞速发展。计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和几年前不可想象的速度收集和存储信息。收集数据是为了得到信息,然而大量的数据本身并不意味信息。尽管现代的数据库技术使我们很容易存储大量的数据流,但现在还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。在过去,我们常用的知识获取方法是由知识工程师把专家经验知识经过分析、筛选、比较、综合、再提取出知识和规则。然而,由于知识工程师所拥

有知识的有局限性,所以对于获得知识的可信度就应该打个折扣。目前,传统的知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应运而生。 数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象。目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。 分类技术是数据挖掘中应用领域极其广泛的重要技术之一。至今已提出了多种分类算法,主要有决策树、关联规则、神经网络、支持向量机和贝叶斯、k-临近法、遗传算法、粗糙集以及模糊逻辑技术等。大部分技术都是使用学习算法确定分类模型,拟合输入数据中样本类别和属性集之间的联系,预测未知样本的类别。训练算法的主要目标是建立具有好的泛化能力的模型,该模型能够准确地预测未知样本的类别。 1.数据挖掘概述 数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。 数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据

时序数据上的数据挖掘

V ol.15, No.1 ?2004 Journal of Software 软 件 学 报 1000-9825/2004/15(01)0000 时序数据上的数据挖掘 ? 黄书剑1+ 1(南京大学 计算机科学与技术系 江苏 南京 210093) Data Mining on Time-series Data HUANG Shu-Jian 1+ 1(Department of Computer Science and technology, Nanjing University, Nanjing 210093, China) + Corresponding author: Phn +86-**-****-****, Fax +86-**-****-****, E-mail: ****, http://**** Abstract : Data mining has been developing rapidly in the recent years. Since time related data occurs frequently in various areas, there has been “an explosion” of interest in mining time-series data, which is a popular branch of data mining. In this paper we present an overview of the major research areas and tasks in mining time-series data, such as preprocessing, representation, segmentation, similarity, classification, clustering, anomaly detection, rule discovery, etc. Some solutions of several tasks are also included in this paper. Key words : data mining; time-series 摘 要: 近年来数据挖掘得到了蓬勃的发展。由于越来越多的数据都与时间有着密切的关系,时序数据的挖掘作为数据挖掘的一个分支,正在受到越来越高的重视。本文概述了时序数据上的数据挖掘这个领域内的主要研究方向和课题,包括数据预处理、数据表示、分割、相似度度量、分类、聚类、异常检测、规则识别等。并对部分课题的主要解决方案进行了一些介绍。 关键词: 数据挖掘;时序数据挖掘 中图法分类号: **** 文献标识码: A 1 引言 近几十年来,计算机运算存储能力不断提高,数据产生和采集的速度也越来越快,因而数据量越来越大;而与此同时,人们面对巨量数据,能够直接获得的信息量却越来越有限。单纯的人力已经很难胜任对这样巨量的数据进行分析并提取出相关信息的任务。为了解决这种数据与信息之间的矛盾,数据挖掘应运而生。所谓数据挖掘,即从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程[1]。数据挖掘的目的就在于找出巨量数据中的潜在规律,以对未来的分析和决策提供支持,其在分析处理中的优势以 ? Supported by the **** Foundation of China under Grant No.****, **** (基金中文完整名称); the **** Foundation of China under Grant No.****, **** (基金中文完整名称) 作者简介: 黄书剑(1984),男,江苏盐城人,硕士生,主要研究领域为自然语言处理.

数据挖掘研究的现状与发展趋势_郑继刚

数据挖掘研究的现状与发展趋势 郑继刚,王边疆 (保山学院数学系,云南保山678000) 影响其空间分布的因素之间的关系;预测型的模 型用来根据给定的一些属性预测某些属性,如分类模 型和回归模型等. 目前,主要在空间数据挖掘的体系结构和挖掘过 程做了大量研究,包括面向对象的空间数据库的数据 挖掘、模糊空间关联规则的挖掘、不确定性挖掘、聚类 挖掘、挖掘空间数据的偏离和演变规则、基于多专题 地图的挖掘、交叉概化、基于时空数据的概化、并行数 据挖掘、统计分析与数据挖掘的协同和遥感影像的挖 掘等,主要采用了基于统计学和概率论、集合论、机器 学习、仿生物学、地球信息学的研究方法. 4.2多媒体数据挖掘 多媒体数据,包括图形、图像、文本、文档、超文 本、声音、视频和音频数据等,数据类型复杂.随着信 息技术的进步,人们所接触的数据形式越来越丰富, 多媒体数据的大量涌现,形成了很多海量的多媒体数 据库[8].这些数据大多是非结构化数据、异构数据, 特征向量通常是数十维甚至数百维,转化为结构数据 和降维成了多媒体数据挖掘的关键技术. 有研究者提出了多媒体数据挖掘的系统原型 MDMP,将多媒体数据的建模表示、存储和检索等多 媒体数据库技术与数据挖掘技术有机地结合在一起, 采用多媒体图像数据的相似性搜索、多维分析、关联 规则挖掘、分类与聚类分析等挖掘方法,广泛地应用 于医学影像诊断分析、卫星图片分析、地下矿藏预测 等各种领域. 4.3时序数据挖掘 时序数据挖掘通过研究信息的时间特性,深入洞 悉事物进化的机制,揭示其内在规律(如波动的周期、 振幅、趋势的种类等),成为获得知识的有效途径.关 键问题是要是寻找一种合适的序列表示方式,基于点 距离和关键点是常用的算法,但都不能完整表示出序 列的动态属性.时序数据挖掘的主要技术有趋势分析 和相似搜索,在宏观的经济预测、市场营销、客流量分 析、太阳黑子数、月降水量、河流流量、股票价格波动 等众多领域得到了应用.

数据挖掘分类算法比较

数据挖掘分类算法比较 分类是数据挖掘、机器学习和模式识别中一个重要的研究领域。通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较,总结出了各种算法的特性,为使用者选择算法或研究者改进算法提供了依据。 一、决策树(Decision Trees) 决策树的优点: 1、决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。 2、对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。 3、能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。 4、决策树是一个白盒模型。如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。 5、易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。 6、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。 7、可以对有许多属性的数据集构造决策树。 8、决策树可很好地扩展到大型数据库中,同时它的大小独立于数据库的大小。 决策树的缺点: 1、对于那些各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。 2、决策树处理缺失数据时的困难。 3、过度拟合问题的出现。 4、忽略数据集中属性之间的相关性。 二、人工神经网络 人工神经网络的优点:分类的准确度高,并行分布处理能力强,分布存储及学习能力强,对噪声神经有较强的鲁棒性和容错能力,能充分逼近复杂的非线性关系,具备联想记忆的功能等。 人工神经网络的缺点:神经网络需要大量的参数,如网络拓扑结构、权值和阈值的初始值;不能观察之间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度;学习时间过长,甚至可能达不到学习的目的。

数据挖掘现状与前景

数据挖掘,这是个听起来既神秘,又具有诱惑性的词。就好像要去一片热带沙漠搜寻宝藏,宝藏的诱惑性很强,但是黄沙远处却看不透彻,不知此行是对是错,看到的光亮又是否只是虚幻的海市蜃楼。 所以很多学习数据挖掘的,或是想选择数据挖掘方向的人会在是否踏出第一脚时犹豫不决。 以下,我们就来分析看看数据挖掘的现状及前景。 首先看看百科中数据挖掘的定义:数据挖掘(Data Mining,DM)是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。 基于数据挖掘可能产生的巨大价值,我国的各大重点院校都针对数据挖掘开了专业课程以及研究课题,不仅如此,政府以及大型企业也开始重视这一领域,投资人力物力支持数据挖掘项目。 或许这样说还不够直观,那就就数字佐证。 据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现,这些企业的3年平均投资回报率为401%,其中25%的企业的投资回报率超过600%。调查结果还显示,一个企业要想在复杂的环境中获得成功,高层管理者必须能够控制极其复杂的商业结构,若没有详实的事实和数据支持,是很难办到的。因此,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使更多的管理者得到更多的商务智能。 国外如此,那中国呢? 随着我国信息化的发展,数据的积累及计算机的广泛应用,加上来自外资企业商业智能数据挖掘应用带来的竞争压力,商业智能及数据挖掘也逐渐在中国也形成了一个产业。随着成功案例的增多,不仅仅是金融保险电信等行业或是政府机构,中小企业也逐渐将商业智能应用于业务之中。 信息化时代数据的潜力不容小觑,IT部门一直是企业的核心,而数据挖掘技术更是得到了前所未有的重视和期待。目前我国数据挖掘、商业智能技术的人才培养体系还未健全,而企业对这方面的需求却一直在增长。数据知识发展为核心竞争力是现在及未来必然的形势。因此数据挖掘、商业智能行业的前景还是非常可观的。 所以,请坚定勇敢地踏出迈向数据挖掘的那一步吧,然后扎实地学好所需的知识理论及实践技巧,最后所收获到的,或许比你所期待的还多。

数据挖掘关于Kmeans算法的研究(含数据集)

浙江大学算法研究实验报告 数据挖掘 题目:K-means

目录 一、实验内容 (5) 二、实验目的 (7) 三、实验方法 (7) 3.1软、硬件环境说明 (7) 3.2实验数据说明 (7) 图3-1 (7) 3.3实验参数说明/软件正确性测试 (7) 四、算法描述 (9) 图4-1 (10) 五、算法实现 (11) 5.1主要数据结构描述 (11) 图5-1 (11) 5.2核心代码与关键技术说明 (11) 5.3算法流程图 (14) 六、实验结果 (15) 6.1实验结果说明 (15) 6.2实验结果比较 (21) 七、总结 (23)

一、 实验内容 实现K-means 算法,其中该算法介绍如下: k-means 算法是根据聚类中的均值进行聚类划分的聚类算法。 输入:聚类个数k ,以及包含n 个数据对象的数据。 输出:满足方差最小标准的k 个聚类。 处理流程: Step 1. 从n 个数据对象任意选择k 个对象作为初始聚类中心; Step 2. 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分; Step 3. 重新计算每个(有变化)聚类的均值(中心对象) Step 4. 循环Step 2到Step 3直到每个聚类不再发生变化为止; k-means 算法的工作过程说明如下:首先从n 个数据对象任意选择k 个对象作为初始聚类中心,而对于所剩下的其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类。然后,再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值),不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数,具体定义如下: 21∑∑=∈-=k i i i E C p m p (1) 其中E 为数据库中所有对象的均方差之和,p 为代表对象的空间中的一个点,m i 为聚类C i 的均值(p 和m i 均是多维的)。公式(1)所示的聚类标准,旨在使所获得的k 个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 重点要求:用于聚类的测试级不能仅为单独的一类属性,至少有两种属性值参与聚类。

数据挖掘及其应用

数据挖掘及其应用 Revised by Jack on December 14,2020

《数据挖掘论文》 数据挖掘分类方法及其应用 课程名称:数据挖掘概念与技术 姓名 学号: 指导教师: 数据挖掘分类方法及其应用 作者:来煜 摘要:社会的发展进入了网络信息时代,各种形式的数据海量产生,在这些数据的背后隐藏这许多重要的信息,如何从这些数据中找出某种规律,发现有用信息,越来越受到关注。为了适应信息处理新需求和社会发展各方面的迫切需要而发展起来一种新的信息分析技术,这种局势称为数据挖掘。分类技术是数据挖掘中应用领域极其广泛的重要技术之一。各种分类算法有其自身的优劣,适合于不同的领域。目前随着新技术和新领域的不断出现,对分类方法提出了新的要求。 。 关键字:数据挖掘;分类方法;数据分析 引言 数据是知识的源泉。但是,拥有大量的数据与拥有许多有用的知识完全是两回事。过去几年中,从数据库中发现知识这一领域发展的很快。广阔的市场和研究利益促使这一领域的飞速发展。计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和几年前不可想象的速度收集和存储信息。收集数据是为了得到信息,然而大量的数据本身并不意味信息。尽管现代的数据库技术使我们很容易存储大量的数据流,但现在还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。在过去,我

们常用的知识获取方法是由知识工程师把专家经验知识经过分析、筛选、比较、综合、再提取出知识和规则。然而,由于知识工程师所拥有知识的有局限性,所以对于获得知识的可信度就应该打个折扣。目前,传统的知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应运而生。 数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象。目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。 分类技术是数据挖掘中应用领域极其广泛的重要技术之一。至今已提出了多种分类算法,主要有决策树、关联规则、神经网络、支持向量机和贝叶斯、k-临近法、遗传算法、粗糙集以及模糊逻辑技术等。大部分技术都是使用学习算法确定分类模型,拟合输入数据中样本类别和属性集之间的联系,预测未知样本的类别。训练算法的主要目标是建立具有好的泛化能力的模型,该模型能够准确地预测未知样本的类别。 1.数据挖掘概述 数据挖掘又称库中的知识发现,是目前人工智能和领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平

数据挖掘技术及其应用

数据挖掘毕业论文 ---------数据挖掘技术及其应用 摘要:随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。数据挖掘(Data Mining)就是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。本文介绍了数据库技术的现状、效据挖掘的方法以及它在Bayesian网建网技术中的应用:通过散据挖掘解决Bayesian网络建模过程中所遇到的具体问题,即如何从太规模效据库中寻找各变量之间的关系以及如何确定条件概率问题。 关键字:数据挖掘、知识获取、数据库、函数依赖、条件概率 一、引言: 数据是知识的源泉。但是,拥有大量的数据与拥有许多有用的知识完全是两回事。过去几年中,从数据库中发现知识这一领域发展的很快。广阔的市场和研究利益促使这一领域的飞速发展。计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和几年前不可想象的速度收集和存储信息。收集数据是为了得到信息,然而大量的数据本身并不意味信息。尽管现代的数据库技术使我们很容易存储大量的数据流,但现在还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。在过去,我们常用的知识获取方法是由知识工程师把专家经验知识经过分析、筛选、比较、综合、再提取出知识和规则。然而,由于知识工程师所拥有知识的有局限性,所以对于获得知识的可信度就应该打个 折扣。目前,传统的知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应运而生。 数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象[1]。目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多

数据挖掘分类算法研究综述终板

数据挖掘分类算法研究综述 程建华 (九江学院信息科学学院软件教研室九江332005 ) 摘要:随着数据库应用的不断深化,数据库的规模急剧膨胀,数据挖掘已成为当今研究的热点。特别是其中的分类问题,由于其使用的广泛性,现已引起了越来越多的关注。对数据挖掘中的核心技术分类算法的内容及其研究现状进行综述。认为分类算法大体可分为传统分类算法和基于软计算的分类法两类。通过论述以上算法优缺点和应用范围,研究者对已有算法的改进有所了解,以便在应用中选择相应的分类算法。 关键词:数据挖掘;分类;软计算;算法 1引言 1989年8月,在第11届国际人工智能联合会议的专题研讨会上,首次提出基于数据库的知识发现(KDD,Knowledge DiscoveryDatabase)技术[1]。该技术涉及机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据可视化和高性能计算等领域,技术难度较大,一时难以应付信息爆炸的实际需求。到了1995年,在美国计算机年会(ACM)上,提出了数据挖掘[2](DM,Data Mining)的概念,由于数据挖掘是KDD过程中最为关键的步骤,在实践应用中对数据挖掘和KDD这2个术语往往不加以区分。 基于人工智能和信息系统,抽象层次上的分类是推理、学习、决策的关键,是一种基础知识。因而数据分类技术可视为数据挖掘中的基础和核心技术。其实,该技术在很多数据挖掘中被广泛使用,比如关联规则挖掘和时间序列挖掘等。因此,在数据挖掘技术的研究中,分类技术的研究应当处在首要和优先的地位。目前,数据分类技术主要分为基于传统技术和基于软计算技术两种。 2传统的数据挖掘分类方法 分类技术针对数据集构造分类器,从而对未知类别样本赋予类别标签。在其学习过程中和无监督的聚类相比,一般而言,分类技术假定存在具备环境知识和输入输出样本集知识的老师,但环境及其特性、模型参数等却是未知的。 2.1判定树的归纳分类 判定树是一个类似流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。由判定树可以很容易得到“IFTHEN”形式的分类规则。方法是沿着由根节点到树叶节点的路径,路径上的每个属性-值对形成“IF”部分的一个合取项,树叶节点包含类预测,形成“THEN”部分。一条路径创建一个规则。 判定树归纳的基本算法是贪心算法,它是自顶向下递归的各个击破方式构造判定树。其中一种著名的判定树归纳算法是建立在推理系统和概念学习系统基础上的ID3算法。 2.2贝叶斯分类 贝叶斯分类是统计学的分类方法,基于贝叶斯公式即后验概率公式。朴素贝叶斯分类的分类过程是首先令每个数据样本用一个N维特征向量X={X1,X2,?X n}表示,其中X k是属性A k的值。所有的样本分为m类:C1,C2,?,C n。对于一个类别的标记未知的数据记录而言,若P(C i/X)>P(C j/X),1≤ j≤m,j≠i,也就是说,如果条件X下,数据记录属于C i类的概率大于属于其他类的概率的话,贝叶斯分类将把这条记录归类为C i类。 建立贝叶斯信念网络可以被分为两个阶段。第一阶段网络拓扑学习,即有向非循环图的——————————————————— 作者简介:程建华(1982-),女,汉族,江西九江,研究生,主要研究方向为数据挖掘、信息安全。

数据挖掘在中国的现状和发展研究

数据挖掘在中国的现状和发展研究 导读:本文以科学引文索引数据库(SCI)、工程索引数据库(EI)以及清华全文数据库(CNKI)中有关“数据挖掘”研究文章的统计数据为研究基础,对数据挖掘在我国研究的总体趋势、研究热点、研究分支三个方面进行分析和研究。本文分析了数据挖掘在我国的发展,并对进一步发展我国数据挖掘的理论研究和实际应用提出了建议。 关键字:数据挖掘 0 引言 近年来,随着计算机对数据的生成、收集、存贮和处理能力的大大提高,数据量与日俱增,传统的数据分析工具对海量数据的处理力不从心,数据挖掘技术应运而生。 中国科研工作者近几年来积极开展了对数据挖掘的研究,并在理论研究和实际应用上取得了一定的成绩,但是有关数据挖掘的成功应用还比较少。本文通过对中国有关数据挖掘研究文章数量的统计,对数据挖掘在中国发展的现状及发展趋势进行分析和研究,通过分析有关论文的发表,对数据挖掘在中国的理论研究和实际应用提出建议。 1 数据挖掘的应用与研究发展 数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程。数据挖掘是一门新兴的边缘学科,近年来引起了中国学术界和产业界的广泛关注。 数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。2001年,Gartner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关健技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》(Technology Review)提出将在未来5年对人类产生重大影响的10大新兴技术,其中第3项就是数据挖掘。 数据挖掘技术已被广泛的应用于各个领域,其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,能够帮助天文学家发现遥远的类星体,是人工智能技术在天文学和空间科学上的第一批成功应用之一;生物学研究中用数据挖掘技术对DNA进行分析利用数据挖掘技术识别顾客的购买行为模式,对客户进行了分析;对银行或商业上经常发生的诈骗行为进行预测IBM公司

数据挖掘分类算法的研究与应用

首都师范大学 硕士学位论文 数据挖掘分类算法的研究与应用 姓名:刘振岩 申请学位级别:硕士 专业:计算机应用技术 指导教师:王万森 2003.4.1

首都师范入学硕.卜学位论Z数据挖掘分类算法的研究与应用 摘要 , f随着数据库技术的成熟应用和Internet的迅速发展,人类积累的数据量正在以指数速度增长。科于这些数据,人{}j已经不满足于传统的查询、统计分析手段,而需要发现更深层次的规律,对决策或科研工作提供更有效的决策支持。正是为了满足这种要求,从大量数据中提取出隐藏在其中的有用信息,将机器学习应用于大型数据库的数据挖掘(DataMining)技术得到了长足的发展。 所谓数据挖掘(DataMining,DM),也可以称为数据库中的知识发现(KnowledgeDiscoverDat曲鹅e,KDD),就是从大量的、不完全的、有噪声的、模糊的、随机的数据r},,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是数据库研究中的一个很有应用价值的新领域,它又是一门广义的交叉学科,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。 分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个。{乍多分类的方法已被机器学习、专家系统、统计学和神经生物学方面的研究者提}H。本论文主要侧重数据挖掘中分类算法的研究,并将分类算法划分为急切分类和懒散分类,全部研究内容基本围绕着这种划分方法展开。.1本文的主要研究内容:, l,讨论了数掂挖掘中分类的基本技术,包括数据分类的过程,分类数据所需的数据预处理技术,以及分类方法的比较和评估标准;比较了几种典 型的分类算法,包括决策树、k.最近邻分类、神经网络算法:接着,引 出本文的研究重点,即将分类算法划分为急切分类和懒散分类,并基于 这种划分展歼对数据挖掘分类算法的研究。 2.结合对决簸树方法的研究,重点研究并实现了一个“懒散的基于模型的分类”思想的“懒散的决策树算法”。在决策树方法的研究中,阐述了决 策树的基本概念以及决策树的优缺点,决策树方法的应用状况,分析了 决策树算法的迸一步的研究重点。伪了更好地满足网络环境下的应用需 求,结合传统的决策树方法,基于Ⅶ懒散的基于模型的分类”的思想, 实现了一个网络环境下基于B/S模式的“懒散的决策树算法”。实践表明: 在WEB应fH程序叶i采用此算法取得了很好的效果。、 ≯ 3.选取神经H络分类算法作为急切分类算法的代表进行深入的研究。在神经网络中,重点分析研究了感知器基本模型,包括感知器基本模型的构 造及其学习算法,模型的几何意义及其局限性。并针对该模型只有在线 性可分的情况一F彳‘能用感知器的学习算法进行分类的这一固有局限性, 研究并推广了感知器模型。

数据挖掘研究及发展现状

数据挖掘技术的研究现状及发展方向 摘要:数据挖掘技术是当前数据库和人工智能领域研究的热点。从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展方向。 关键词:数据挖掘;神经网络;决策树;粗糙集;模糊集;研究现状;发展方向 The present situation and future direction of the data mining technology research Abstract: Data mining technology is hot spot in the field of current database and artificial intelligence. From the definition of data mining, the paper introduced concepts and advantages and disadvantages of neural network algorithm, decision tree algorithm, genetic algorithm, rough set method, fuzzy set method and association rule method of data mining, summarized domestic and international research situation and focus of data mining in details, and pointed out the development trend of data mining. Key words: data mining, neural network, decision tree, rough set, fuzzy set, research situation, development direction 0 引言 随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识金砖,从而达到为决策服务的目的。在这种情况下,一个新的技术——数据挖掘(Data Mining,DM)技术应运而生[2]。数据挖掘正是为了迎合这种需要而产生并迅速发展起来的、用于开发信息资源的、一种新的数据处理技术。 数据挖掘通常又称数据库中的知识发现(Knowledge Discovery in Databases),是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。 1 数据挖掘算法 数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。所得到的信息应具有先前未知、有效和实用三个特征。数据挖掘过程如图1所示。这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。发现知识的方法可以是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。 数据选择:确定发现任务的操作对象,即目标对象; 预处理:包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等; 转换:消减数据维数或降维; 数据开采:确定开采的任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等,并确定使用什么样的开采算法; 解释和评价:数据挖掘阶段发现的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要剔除,使用户更容易理解和应用。十大经典算法如图2: 目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。

数据挖掘在中国的现状和发展研究.

万方数据 万方数据 万方数据 万方数据 万方数据 Vo.l18.N.o3管理工程学报2004年第3期圈回[l4j网[l6j皿[lsj[l9j厂.Ll周生炳,张钱,成栋.于规则面向属性的数据库归纳的无回基溯算法[7软件学报,9,()63681.1917:7一7.90蒋嵘,李德毅,范建华.数值型

数据的泛概念树的自动生成方法【1计算机学报,0,()4046i.2025:一7.037一」一一尸十勺,1,刁[7软件学报,0,()7574J.2016:一4.013周水庚,周傲类,曹晶.基于数据分区的DSABCN算法【l计J.算机研究与发展,0,0)13192030:一1.07155「一-,,‘ ,郭建生,,赵奕施鹏飞一种有效的用于数据挖掘的动态概念毛国君,椿年.于项目序列集操作的关联规则挖掘算法刘基]i计算机学报,0,()4742I.2224:1一2.05IL尸聚类算法[l软件学报,0,()一9.J.2114:2510258内、内j「一一J魏李,宫学庆,钱卫宁,高维空间中的离群点发现〔l软件等.J.学报,0,32:8一9.221()20200门仁」程岩,黄梯云.粗糙集中定量关联规则的发现及其规则约简的方法研究【〕管理工程学报,0,()7-7J2113:7.053esLF飞)4俞蓓,王军,叶施仁.基于近邻方法的高维数据可视化聚类方苑森森,程晓青,数量关联规则发现中的聚类方法研究【l计i.法〔7计算机研究与发展,0,()747.J.2036:-07120r..L算机学报,0,()87812028:一7.036倪志伟,蔡庆生,方瑾.用神经网络来挖掘数据库中的关联规内、〕‘ 一一J「陈宁,陈安,周龙骥.大规模交易数据库的一种有效聚类算法[7软件学报,0,()4544J.2114:7一8.02L则【l系统仿真学报,0,()65671.2016:-.0288J内几6lesEtM,rSneJAgimadlaosstlsrPtKadrlrhsapcifpieeH,e.tonpitnoaar陆建江.数据库中布尔型及广义模糊型加权关联规则的挖掘dai仁lIicprGoaiDtMngamnZ.vehtferhainatignntaeogpcaindrdKolgDsvr,eroorhiGSTyrdnweeceRscMngpsI,ladioyeahanaonFacs20.一3.rni,112

相关文档