文档库 最新最全的文档下载
当前位置:文档库 › 文献综述_梁军胜

文献综述_梁军胜

北京理工大学软件工程专业

本科生毕业论文开题报告文献综述

学号1120122206

工程领域软件工程

姓名梁军胜

指导教师李志强

企业指导教师

二O一6年 1 月 12日

1.课题国内外现状

随着信息技术的不断发展,合理、恰当、有效地运用信息技术,建设数字化的校园成为了学校建设的新的方向。如今数字化校园已经成为信息化教育的代名词。随着无纸化办公的深入,学校积累了大量的信息,包括各个学生的成绩,这些数据越来越多地积累在数据库中,如何从这些海量的数据中提取并发现有用的信息,为学校的教学提供参考依据,成为当前急需解决的问题。

早在1995年就有人提出了数据挖掘这一新型的数据分析技术,经过近20年的研究,数据挖掘技术得到了迅速的发展,并已经在各个行业得到了广泛的应用,为社会带来了很大的经济效益。

1.1 国外研究和发展现状

与数据挖掘(Data Mining)极为相似的术语——从数据库中发现知识(KDD)一词,首次出现在1989年8月在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上。1993年以后,美国计算机协会(ACM)每年都举办了专门的会议研究讨论数据挖掘技术,会议名称为ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,简称KDD会议,研究重点逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。

1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议上有30多家软件公司展示了数据挖掘软件产品,不少软件已经在北美和欧洲国家得到了广泛的应用,并且得到了明显的效益。其中一些典型的应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,能够帮助天文学家发现遥远的类星体,是人工智能技术在天文学上的第一批成功应用之一;生物学研究中用数据挖掘技术对DNA进行分析;利用数据挖掘技术识别顾客的购买行为模式,对客户进行分析;对银行或者保险公司经常发生的诈骗行为进行预测。

1.2 国内研究和发展现状

与国外相比,国内对数据挖掘的研究起步稍晚,没有形成整体力量。1993年,国家自然科学基金首次支持数据挖掘领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展数据挖掘和知识发现的基础理论及其应用研究,这些单位包括清华大学,中科院计算技术研究所,空军第三研究所,海军装备论证中心等。例如,复旦大学教授领导开发了数据挖掘工具集AMNER;北京大学智能科学系的唐世渭和杨冬青教授领导开发了基于空间数据挖掘的客户分析系统模型CASDM。此外周立柱教授领导的数据挖掘研究小组,四川大学唐常杰教授领导的针对时间序列方面的数据挖掘研究小组,中国科学技术大学蔡庆生教授领导的针对关联规则的研究小组等,都取得了许多重要的研究成果。2.研究主要成果

2.1 基于人工神经网络的预测方法

目前关于人工神经网络,还没有一个明确、统一的定义,大家普遍公认的有,美国神经网络学家Hecht Nielsen提出的神经网络定义,“它是由其状态动态响应对外部的输入信息,从而处理信息的一种计算系统,这种系统由很多个简单的可以处理信息的神经元相互关系连接形成。”还有一种对神经网络的理解是它是由很多个简单的可以处理信息的神经元相互关系连接形成的系统,通过网络的结构,连接强度,各个神经元的工作方式的改变而得到不同的功能。不管怎么定义,有一点是肯定的,那就是人工神经网络是对人脑神经网络的结构和功能的抽象、简化和模拟而构成的一种信息处理系统。

神经元是构成神经网络的最基本单元。每一个神经元接收来自系统中其他一组神经元的输入信号,来自每个神经元的输入信号Xn对应一个权值Wn,所有输入神经元的信号和权值的加权(XW)决定了该神经元的激活状态。神经元的网络输入net通过激活函数获得输出信号,常见的典型的激活函数包括阶跃函数、S型函数、线性函数、非线性函数等。

单独的神经元功能单一,没有智能,而如果将大量的神经元按一定的结构组合到一起,形成庞大的神经网络系统,就能够实现信息的处理与存储等复杂的功能。根据神经元之间的不同的网络拓扑结构和连接方式,可以将神经网络分为层次型和互连型神经网

络。按照学习方式的不同可以将神经网络分为有导师学习、无导师学习以及等级学习三种类型。有导师学习所需要的信息量大,对于每一个输入,网络都要产生一个实际输出,在学习期间需要给网络同时提供输入和期望输出。BP网络就是有导师学习的例子;无导师学习仅需要输入信息便能进行学习,并且给出相应的输出,其方式取决于特定的网络。典型的如自组织映射网络和自适应共振理论网络等;等级学习需要较少的信息,不需要给出期望的输出,而是给出实际输出的逼近精度的等级,这取决于特定的学习率。给出的逼近等级,可以是对每一个训练模式对提出的要求,也可以是对若干训练模式对提出的要求。Reinforcement-learning是这种学习的例子。

目前人工网络的重要模型有BP神经网络模型。一般来说,BP算法通过一些学习规则来调整神经元之间的连接权值,而在此过程中,学习规则和网络拓扑结构不发生改变。

在目前所有的神经网络算法中,BP算法因为误差反向传播网络良好的逼近能力以及较为成熟的训练方法得到了广泛的应用。1985年有Rumelhart等人建立了BP网络,由一个输入层、若干隐含层以及一个输出层所组成,同一层的神经元之间没有连接,而且限制每层的神经元只能向高一层的神经元传输信号。BP网络算法是一种多层前反馈神经网络的学习算法。算法的核心是一边向后传播误差,一边修正误差,不断调节网络权值,从而逼近或实现所希望的输入、输出映射关系,它采用的是有导师的学习规则。BP网络算法的一次完整学习过程包括两次的传播计算:

(1)首先是工作信号的正向传播。从输入层接收到的输入信号经过隐含层,然后传递到输出层,由输出层给出运算结果。在这种情况下,网络中的权值

保持不变,并且每一层神经元只将信号传递给下一层的神经元,不会影

响其它层的神经元。最后如果输出层输出的值不符合要求,则会进入误

差信号反向传播过程。

(2)误差信号反向传播。所谓误差信号就是网络的实际输出与期望输出之间的差值。误差信号通过输入层逐层向前反向传播,没传播一层,该层网络的

权值就会根据误差反馈进行一次自我调整,直到反传到输入层。这样经

过多次误差反传多次权值修正,从而使得BP网络的实际输出逐渐逼近期

望输出,最终获得较好的效果。

虽然BP网络算法有着广泛的应用,但是也存在一些固有的缺点。

1.收敛速度慢

BP网络算法的收敛速度和很多因素有关,主要有:(1)算法参数的选择;(2)BP 算法自身存在的局限性,比如BP算法的误差曲面存在平坦区域,而在这些区域中,误差梯度的变化比较小,即使将权值调整得很大,误差仍然下降缓慢。

2.隐含层数和隐节点数等难以确定

没有具体的理论来指导决定隐含层的数目和每层神经元的数目,目前只能根据经验或者具体实验来获得近似理论。

3.目标函数存在局部极小点

由于BP网络采用的激活函数是非线性的函数,它考虑的是全局误差,有可能会存在多个极小值的情况,如果网络收敛时陷入到其中一个局部最小值就不能自拔。这时表现在网络学习上就是学习到一定次数后,网络的全局误差就不再下降,而此时网络的精度还不能达到期望。

其他应用较广的典型的神经网络模型还有Hopfield网络、ART网络、Kohonen网络等。

2.2 回归分析预测法

连续型数值的预测可以使用统计技术中的回归分析进行建模。回归分析的目的是通过具有已知值的变量来预测其他变量的值,找到一个联系输入变量和输出变量的最优模型。更确切的说,回归分析就是试图从实际数据中寻找某种规律的方法,确立和分析某种响应Y(因变量)和重要因素X(对相应有影响的自变量(x1,x3,…,xn))之间的函数关系。即如果X是非随机变量或者随机变量,Y是随机变量,那么对X的每一确定值Xi都有Y的一个确定分布与之对应。回归值代表一个条件期望值,将预测属性视为自变量,预测目标视为因变量,则可使用回归技术进行预测。

从两个变量间的相关程度来看,可以将回归分为:完全相关、不相关、统计相关(不完全相关)。其中统计相关是科研中最常遇到的情况。此处讨论的回归分析也是针对这种统计相关情况来进行的。

统计回归又可以分为线性回归和非线性回归。在最简单的情况下,回归采用的是线性回归技术。但是大多数现实世界中的问题是不能用简单的线性回归技术预测的,比如

股票价格,商品的销售量,学生的学习成绩等,很难找到简单有效的方法来预测,只能采用非线性回归。因为要描述这些事件的变化所需要的变量过于庞大,并且这些变量本身往往是非线性的。

非线性回归可以分为两种情况,即已知曲线(方程)类型和未知曲线(方程)类型。这两种情况需要用不同的方法来解决。一般来说,如果已知曲线类型,回归效果会比较有保证;同时在多数情况下我们对所研究的对象都有一定的了解,可以根据理论或者经验给出可能的曲线类型,因此常用的还是已知曲线类型的回归。确定曲线类型的方法主要有:

1.从专业知识判断。这些公式或者来源于某种理论推导,或者是一种经验公式。

2.如果没有足够的专业知识可以判断变量间的关系是哪种类型,则可以用散点图

的方法来判断。

确定曲线类型之后,回归的任务就变成确定曲线公式中的参数,此时常用的回归分析方法有:线性化方法、曲线拟合方法。

建立回归模型是一个相当复杂的过程,概况起来主要有如下四个方面:

1.数据的收集和预分析;

2.回归方程的选取;

3.模型的精细分析;

4.模型的确认。

回归方程的优化是整个建模过程最重要的一个环节。目前主流的回归分析优化算法有:最小二乘法、基于BP网络算法的回归分析法、基于遗传算法的回归分析法和基于前馈神经网络模型模糊感知器回归分析法。

其中基于BP神经网络的回归分析可以在不得出回归函数的具体数学表达式的情况下给出具有确定算法与结构参数的神经网络。从某种意义上来说,它能够更有效地表述实际问题。特别是当有些实际问题并不需要明确的数学表达式或者根本无法找到明确的数学表达式时,基于BP神经网络的回归分析显得更加优越。在股票价格,商品的销售量,学生的学习成绩等的预测上,使用人工神经网络进行非线性回归效果更好。

基于神经网络的回归分析与传统的最小二乘法回归分析相比,区别在于:

1.最小二乘法的回归分析的目标在于寻找函数表达的具体形式,而基于神经网络

的回归分析目的在于寻找一种神经网络模型,用实验样本来训练这个网络,

训练完成后,这个网络就成为该问题的“专家”,这个“专家”可以完成映

射。

2.与最小二乘法回归分析的目标函数相比,神经网络的结构表达更加复杂,网络

参数由网络的层数、各层单元数、连接权值、阀值等进行描述,其间关系取

决于网络模型,这个网络是通过对样本的“学习”而形成的,它能够解决映

射的表达问题,因此用取代是一种合理的选择。

3.在回归方式上,最小二乘法回归分析根据多组样本数据,寻求与某种函数表达

式的逼近,根据剩余标准差、相关系数的判定来确定函数中的参数值。基于

神经网络的回归分析,是将这些样本数据,交给网络学习,根据全局误差极

小来判断学习完成,从而确定网络结构参数。其原理是一样的,但是基于神

经网络的回归用更复杂的表达方式,但同时,它也能够解决更复杂的问题。3.发展趋势

数据挖掘的应用非常广泛,只要该产业有分析价值与需求的数据库,皆可利用数据挖掘工具进行有目的的发掘分析。

就目前来看,数据挖掘的几个研究热点主要包括网站的数据挖掘、生物信息或基因的数据挖掘及文本的数据挖掘。

网站的数据挖掘就是从网站的各类数据中得到有价值的信息,与一般的数据挖掘差别不大,但是其数据格式很大一部分来自于点击率,与传统的数据库格式有区别。

生物信息或基因的数据挖掘对人类生存发展有着非常重要的意义,基因的组合千变万化,能否找出病人的基因和正常人的基因的不同之处,进而对其加以改变,这就需要数据挖掘技术的支持。但其数据形式、挖掘算法模型比较复杂。

文本的数据挖掘和一般的数据挖掘相差很大,是指从文本数据中抽取有价值的信息和知识的技术,在分析方法方面比较困难,目前还没有真正的具备分析功能的文本挖掘软件。

而随着数据挖掘技术逐步走向深入,对数据挖掘技术的三大支柱,即数据库、人工智能和数理统计的研究需要更加深入。

当前,大数据是最热门的研究方向,预计在未来的十几年内还会形成更大的高潮,研究焦点可能会集中在以下几个方面:

1.形式化描述的语言,即研究专门用于知识发现的数据挖掘语言DMQL,类似SQL

语言一样走向形式化和标准化;

2.可视化的数据挖掘过程,寻求数据挖掘过程中的可视化方法,使知识发现的过

程易于被用户理解和操纵,可使数据挖掘过程成为用户业务流程的一部分,

也便于在知识发现的过程中进行人机交互;包括数据用户化呈现与交互操

纵两部分;

3.Web网络中数据挖掘的应用,特别是在Internet上建立数据挖掘服务器,与数

据库服务器配合,实现数据挖掘,从而建立强大的数据挖掘引擎与数据挖

掘服务市场;

4.融合各种异构数据的挖掘技术,加强对各种非结构化数据的开采(Data Mining

for Audio&Video),如对文本数据、图形数据、视频图像数据、声音数据

乃至综合多媒体数据的开采;

5.处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是

结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析

和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费

时和复杂数据准备的一些工具和软件;

6.交互式发现;

7.知识的维护更新。

但是,不管怎样,需求牵引与市场推动是永恒的,数据挖掘技术将首先满足信息时代用户的急需,大量的基于数据挖掘技术的决策支持软件产品将会问世。

只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展服务。也只有到那时,数据才能够真正成为与物质、能源相媲美的资源,信息时代才会真正到来。

4.总结

通过阅读现有的文献,我发现回归分析和人工神经网络算法在成绩预测等方面的研究已经相当成熟,获得的成果也很多。目前在预测方面普遍使用基于BP神经网络的非线性回归分析方法。因此,我觉得使用该方法对学生成绩进行预测是可行的。此外还有基于神经网络交叉覆盖算法,可以避免传统的神经网络分类方法的一些弊端。但是具体的怎样实现还需要进一步研究。

目前面临的问题还有很多,怎样确定回归方程,怎样对回归方程的优化和怎样建立回归模型等问题还需要进一步的学习和研究才能得到解决。

5.参考文献

[1]张云涛,龚玲,数据挖掘原理与技术[M].北京:电子工业出版社,2004

[2]赵庶旭,党建武,张振海,张华卫,神经网络——理论、技术、方法及应用[M].北京:中国铁道出版社,2013

[3]冯勤.基于回归数据挖掘预测系统的分析与研究[D].天津:天津大学电子信息工程学院,2005.

[4]宣国庆.基于神经网络交叉覆盖算法的学生成绩预测[D].安徽:安徽大学,2011.

[5]易帆.神经网络预测研究[D].成都:西南交通大学,2005.

[6]周琦.改进的C4.5决策树算法研究及在高考成绩预测分析中的应用[D].广西:广西大学,2012.

[7]黄振功.基于决策树的高校计算机等级考试成绩预测分析研究[D].广西:广西大学,2013.

[8]崔昌宏.普通中学教学评价与学业成绩预测问题研究[D].成都:西南交通大学,2008.

[9]董兆芬,吴杰.线性回归分析法在成绩预测中的应用[D].新疆:石河子大学,2000.

[10]景滨杰.试论回归分析预测法在经济预测中的应用[D].太原:山西经济管理干部学院,2006.

[11]王晓佳.基于数据分析的预测理论与方法研究[D].合肥:合肥工业大学,2012.

[12]王国凡,赵武,刘徐军等.基于GA和回归分析的奥运会成绩预测研究[J].中国体育科技,2008-9-25.

[13]谢开贵,周家启.组合预测模型的回归分析方法[D].重庆:重庆大学,2003.

相关文档