文档库 最新最全的文档下载
当前位置:文档库 › 知识发现论文

知识发现论文

知识发现论文
知识发现论文

一、背景概述

随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度迅速增长。进入九十年代,伴随着因特网(Internet)的出现和发展,以及随之而来的企业内部网(Intranet)和企业外部网(Extranet)以及虚拟私有网(VPNVirtualPrivatenetwork)的产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空地在网上交换数据信息和协同工作。这样,展现在人们面前的已不是局限于本部门,本单位和本行业的庞大数据库,而是浩瀚无垠的信息海洋,数据洪水正向人们滚滚涌来。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,人们也会感到面对信息海洋像大海捞针一样束手无策。据估计,一个大型企业数据库中数据,只有百分之七得到很好应用。这样,相对于“数据过剩”和“信息爆炸”,人们又感到“信息贫乏”(Informationpoor)和"数据关在牢笼中”(datainjail),奈斯伯特(JohnNaisbett)惊呼“Wearedrowningininformation,butstarvingforknowledge”(人类正被数据淹没,却饥渴于知识)。

由于计算机数据采集工具以及关系数据库技术的发展,目前各行业存储了大量的数据,航空航天、气象、医疗、农业等行业尤为突出。传统的数据分析手段难以应付,导致越来越严重的数据灾难,迫使决策者出现或是穷于应付,或是置之不理的事实。关系数据库提供的简单查询及报表生成功能,只能获得数据的表层信息,而不能获得数据属性的内在关系和隐含的信息,即淹没了包含的知识,造成了资源的浪费。为了使消耗大量财力与物力所收集与整理的宝贵数据资源得以利用,有效解决数据丰富性及知识贫乏性的矛盾,需要新技术智能、自动地分析处理原始数据,促使了数据库中的知识发现(KDD, Knowledge Discovery in Database),也有人称为数据挖掘(Data Mining)技术的出现。

二、知识发现的概念

KDD(知识发现)是一个综合的过程,它包括数据录入、迭代求解、用户交互以及许多定制要求和决策设计等,而Data Mining只是KDD中的一个具体却是关键的步骤。数据库中的知识发现术语是在1989年的第一届KDD专题讨论会上被首次采用,它强调了知识是数据发现的最终产品。

这一研究领域兴起于八十年代初,它是一个众多学科诸如人工智能、机器学习、模式识别、统计学、数据库和知识库、数据可视化等相互交叉、融合所形成的一个新兴的且具有广阔前景的领域。从数据库中发现出来的知识可以用在信息管理、过程控制、科学研究、决策支持等许多方面。

1998年第四届知识发现与数据挖掘国际会议上不仅进行了学术讨论,并且有30多家软件公司展示了数据挖掘软件产品,在北美、欧洲等国得到较大应用。在我国,许多单位也已开始此项技术研究,但目前取得成功应用的例子还未见报道

2.1 KDD(知识发现)概念及一般步骤

在KDD96国际会议上,Fayyad, Piatetsky-Shapiro和Smyth对KDD作了如下描述:指从数据库中获取正确、新颖、有潜在应用价值和最终可理解的模式的非平凡过程。在这个描述中,数据是一系列事实的集合,模式是指用语言L来表示的一个表达式E,它可用来描述数据集的特性,E所描述的数据是集合F的一个子集F

。过程是在KDD中包含的步骤,如数

E

据的预处理、模式搜索、知识表示及知识评价等,非平凡是指它已经超越了一般封闭形式的数量计算,而将包括对结构、模式和参数的搜索。

图1 知识发现过程

2.2 知识发现过程一般包括如下步骤:

?数据准备包括3个子步骤:数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据采掘的质量。预处理是为了克服目前数据采掘工具的局限性。

?数据挖掘

?要先决定如何产生假设,是让数据挖掘系统为用户产生假设,还是用户自己对于数据库中可能包含的知识提出假设。前一种称为发现型的数据挖掘,后一种称为验证

型的数据挖掘。

?选择合适的工具。

?挖掘知识的操作。

?证实发现的知识。

?结果表达和解释根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出来,并且通过决策支持工具提交给决策者,因此这一步骤任务不仅是把结

果表达出来,还要对信息进行过滤处理,如果不能令决策者满意,需要重复以上数

据挖掘过程。

三、数据发掘的概念

3.1 数据发掘与知识发现的关系

从知识发现的概念及步骤中,我们可以看出,其实知识发现的核心就是数据发掘,而

数据发掘的目的就是有效地从海量数据中提取出需要的答案,实现―数据-〉信息-〉知识-〉价值‖的转变过程。

3.2 数据挖掘的一般概念

数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理

解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。

并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。

Data Mining(数据挖掘)是数据库研究、开发和应用最活跃的一个分支,是多学科的交叉领域,它涉及数据库技术、人工智能、机器学习、神经网络、数学、统计学、模式识别、知识库系统、知识获取、信息提取、高性能计算、并行计算、数据可视化等多方面知识。

数据挖掘技术从一开始就是面向应用的,它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。例如加拿大BC省电话公司要求加拿大SimonFraser大学KDD研究组,根据其拥有十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠

政策。这样一来,就把人们对数据的应用,从低层次的末端查询操作,提高到为各级经营决策者提供决策支持。这种需求驱动力,比数据库查询更为强大。同时,这里所说的数据挖掘,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解,最好能用自然语言表达发现结果。因此数据挖掘的研究成果是很讲求实际的。

四、相关技术

Data Mining(数据挖掘)主要任务有数据汇总、概念描述、分类、聚类、相关性分析、偏差分析、建模等。具体技术包括:

4.1 统计分析(statistical analysis)

常见的统计方法有回归分析(多元回归、自回归等)、判别分析(贝叶斯分析、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)和探索性分析(主元分析法、相关分析法等)。其处理过程可以分为三个阶段:搜集数据、分析数据和进行推理。

4.2 决策树(decision tree)

决策树是一棵树,树的根节点是整个数据集合空间,每个分节点是对一个单一变量的测试,该测试将数据集合空间分割成两个或更多块。每个叶节点是属于单一类别的记录。首先,通过训练集生成决策树,再通过测试集对决策树进行修剪。决策树的功能是预言一个新的记录属于哪一类。

决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。

通过递归分割的过程来构建决策树:1 寻找初始分裂,整个训练集作为产生决策树的集合,训练集每个记录必须是已经分好类的。决定哪个属性(Field)域作为目前最好的分类指标。一般的做法是穷尽所有的属性域,对每个属性域分裂的好坏做出量化,计算出最好的一个分裂。量化的标准是计算每个分裂的多样性(diversity)指标GINI指标。2 树增长到一棵完整的树,重复第一步,直至每个叶节点内的记录都属于同一类。3 数据的修剪,去掉一些可能是噪音或者异常的数据。

其基本算法(贪心算法)为:自上而下分而治之的方法,开始时,所有的数据都在根节点;属性都是种类字段(如果是连续的,将其离散化);所有记录用所选属性递归的进行分割;属性的选择是基于一个启发式规则或者一个统计的度量(如, information gain)。停止分割的条件:一个节点上的数据都是属于同一个类别;没有属性可以再用于对数据进行分割。

伪代码(Building Tree)为:

Procedure BuildTree(S){

用数据集S初始化根节点R

用根结点R初始化队列Q

While Q is not Empty do {

取出队列Q中的第一个节点N

if N 不纯(Pure) {

for 每一个属性 A

估计该节点在A上的信息增益

选出最佳的属性,将N分裂为N1、N2

}

}

}

属性选择的统计度量为:ν信息增益——Information gain (ID3/C4.5),所有属性假设都是种类字段,经过修改之后可以适用于数值字段;ν基尼指数——Gini index (IBM IntelligentMiner),能够适用于种类和数值字段。

4.3 关联规则(correlation rules)

规则反映了数据项中某些属性或数据集中某些数据项之间的统计相关性,其一般形式为:X1∧…∧Xn Y[C,S],表示由X1∧…∧Xn可以预测Y,其中可信度为C,支持度为S。

设I={i1, i2,…, i m}是二进制文字的集合,其中的元素称为项(item)。记D为交易(transaction)T的集合,这里交易T是项的集合,并且TíI 。对应每一个交易有唯一的标识,如交易号,记作TID。设X是一个I中项的集合,如果XíT,那么称交易T包含X。

一个关联规则是形如XTY的蕴涵式,这里XìI, YìI,并且X?Y=F。规则XTY在交易数据库D中的支持度(support)是交易集中包含X和Y的交易数与所有交易数之比,记为support(XTY),即

support(XTY)=|{T:XèYíT,T?D}|/|D|

规则XTY在交易集中的可信度(confidence)是指包含X和Y的交易数与包含X的交易数之比,记为confidence(XTY),即

confidence(XTY)=|{T: XèYíT,T?D}|/|{T:XíT,T?D}|

给定一个交易集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度(minsupp)和最小可信度(minconf)的关联规则。

基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。

Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,其核心方法是基于频集理论的递推方法。以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;提出各种变体,如泛化的关联规则、周期关联规则等,对关联规则的应用进行推广。

Agrawal等在1993年设计了一个基本算法,提出了挖掘关联规则的一个重要方法—这是一个基于两阶段频集思想的方法,将关联规则挖掘算法的设计可以分解为两个子问题:

1) 找到所有支持度大于最小支持度的项集(Itemset),这些项集称为频集(Frequent Itemset)。

2) 使用第1步找到的频集产生期望的规则。

这里的第2步相对简单一点。如给定了一个频集Y=I1I2...I k,k32,I j∈I,产生只包含集合{I1,I2,...,I k}中的项的所有规则(最多k条),其中每一条规则的右部只有一项,(即形如[Y-I i]TI i,"1£i£k)。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。对于规则右部含两个以上项的规则,在其以后的工作中进行了研究。为了生成所有频集,使用了递推的方法。其核心思想如下:

L1= {large 1-itemsets};

for (k=2; L k-11F; k++)

{

C k=apriori-gen(L k-1); //新的候选集

for all transactions t?D

{

C t=subset(C k,t); //事务t中包含的候选集

for( all candidates c? C t )

c.count++;

}

L k={c? C k |c.count3minsup}

}

Answer=èk L k;

首先产生频繁1-项集L1,然后是频繁2-项集L2,直到有某个r值使得L r为空,这时算法停止。这里在第k次循环中,过程先产生候选k-项集的集合C k,C k中的每一个项集是对两个只有一个项不同的属于L k-1的频集做一个(k-2)-连接来产生的。C k中的项集是用来产生频集的候选集,最后的频集L k必须是C k的一个子集。C k中的每个元素需在交易数据库中进行验证来决定其是否加入L k,这里的验证过程是算法性能的一个瓶颈。这个方法要求多次扫描可能很大的交易数据库,即如果频集最多包含10个项,那么就需要扫描交易数据库10遍,这需要很大的I/O负载。

Agrawal等引入了修剪技术(Pruning)来减小候选集C k的大小,由此可以显著地改进生成所有频集算法的性能。算法中引入的修剪策略基于这样一个性质:一个项集是频集当且仅当它的所有子集都是频集。那么,如果C k中某个候选项集有一个(k-1)-子集不属于L k-1,则这个项集可以被修剪掉不再被考虑,这个修剪过程可以降低计算所有的候选集的支持度的代价。

基于Apriori的频集方法即使进行了优化,但是Apriori方法一些固有的缺陷还是无法克服:1) 可能产生大量的候选集。当长度为1的频集有10000个的时候,长度为2的候选集个数将会超过10M。还有就是如果要生成一个很长的规则的时候,要产生的中间元素也是巨大量的。2) 无法对稀有信息进行分析。由于频集使用了参数minsup,所以就无法对小于minsup的事件进行分析;而如果将minsup设成一个很低的值,那么算法的效率就成了一个很难处理的问题。以下两种方法,分别用于解决以上两个问题。

解决问题1的一种方法采用了一种FP-growth的方法。他们采用了分而治之的策略:在经过了第一次的扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息。随后我们再将FP-tree分化成一些条件库,每个库和一个长度

为1的频集相关。然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。

第二个问题是基于这个的一个想法:apriori算法得出的关系都是频繁出现的,但是在

实际的应用中,我们可能需要寻找一些高度相关的元素,即使这些元素不是频繁出现的。在apriori算法中,起决定作用的是支持度,而我们现在将把可信度放在第一位,挖掘一些具

有非常高可信度的规则。对于这个问题的一个解决方法的整个算法基本上分成三个步骤:计算特征、生成候选集、过滤候选集。在三个步骤中,关键的地方就是在计算特征时Hash 方法的使用。在考虑方法的时候,有几个衡量好坏的指数:时空效率、错误率和遗漏率。基本的方法有两类:Min_Hashing(MH)和Locality_Sensitive_Hashing(LSH)。Min_Hashing的基本想法是:将一条记录中的头k个为1的字段的位置作为一个Hash函数。Locality_Sentitive_Hashing的基本想法是:将整个数据库用一种基于概率的方法进行分类,使得相似的列在一起的可能性更大,不相似的列在一起的可能性较小。对这两个方法比较一下发现,MH的遗漏率为零,错误率可以由k严格控制,但是时空效率相对的较差。LSH的遗漏率和错误率是无法同时降低的,但是它的时空效率却相对的好很多。所以应该视具体的情况而定。最后的实验数据也说明这种方法的确能产生一些有用的规则。

4.4 基于范例的推理(case-based reasoning)

范例推理是直接使用过去的经验或解法来求解给定的问题。范例通常是一种已经遇到过并且有解法的具体问题。当给定一个特定问题时,范例推理就检索范例库,寻找相似的范例。如果存在相似的范例,其解法就可以用来求解新问题。而且该新问题被加入进范例库,已备将来搜索使用。

4.5 模糊集(fuzzy set)

模糊集是表示和处理不确定性数据的重要方法,它不仅可以处理不完全数据、噪声或不精确数据,还可以用于开发数据的不确定性模型,能够提供比传统方法更灵巧、更平滑的性能

4.6 粗糙集(rough set)

粗糙集是相对较新的一种数学工具,用于处理含糊性和不确定性,在数据挖掘中可以发挥重要作用。粗糙集是由集合的下近似、上近似来定义的。下近似中的每一个成员都是该集合的确定成员,而不是上近似中的成员则肯定不是该集合的成员。粗糙集的上近似是下近似和边界区的并。边界区的成员可能是该集合的成员,但不是确定的成员。可以认为粗糙集是具有三值隶属函数的模糊集,它常与关联规则、分类和聚类方法结合使用,一般不单用。

4.7 支持向量机(support vector machine)

支持向量机(SVM)建立在计算学习理论的结构风险最小化原则之上。其主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。它的一个重要优点是可以处理线性不可分的情形。

4.8 隐马尔科夫模型(Hidden Markov model)

马尔科夫过程是描述系统的一种方法,由俄国有机化学家马尔科夫于1870年提出,其组成有:系统状态、系统初始状态概率和状态之间转移的概率。隐马尔科夫模型包括:模型中状态数、模型中的输出符号数、模型中的状态集、状态转移的概率分布和初始状态分布等。隐马尔科夫模型有三个基本问题:识别问题(给定一个输出序列和模型,模型可能创建的序列的概率是什么?)、序列问题(给定一个输出序列和模型,什么最可能的状态序列可以创建输出序列?)和训练问题(给定一个输出序列和拓扑结构,怎样调整模型参数,包括状态转移和输出的概率分布,使得模型创建的输出序列具有最大概率?)。

4.9 神经网络(neural network)

图2 神经网络的结构

神经网络(Nerual Net)指由大量神经元互连而成的网络,有点象服务器互连而成的国际互连网(Internet).人脑有1000亿个神经元,每个神经元平均与10000个其他神经元互连,这就构成了人类智慧的直接物质基础。

神经元的工作机制:神经元由细胞体,树突(输入端),轴突(输出端)组成。神经元有两种工作状态:兴奋和抑制。每个神经元到另一个神经元的连接权(后者对前者输出的反应程度)是可以接受外界刺激而改变的,这构成了学习机能的基础。

人工神经网络的工作原理:人工神经网络首先要以一定的学习准则进行学习,然后才能工作。现以人工神经网络对手写―A‖、―B‖两个字母的识别为例进行说明,规定当―A‖输入网络时,应该输出―1‖,而当输入为―B‖时,输出为―0‖。所以网络学习的准则应该是:如果网络作出错误的的判决,则通过网络的学习,应使得网络减少下次犯同样错误的可能性。首先,

给网络的各连接权值赋予(0,1)区间内的随机值,将―A‖所对应的图象模式输入给网络,网络将输入模式加权求和、与门限比较、再进行非线性运算,得到网络的输出。在此情况下,网络输出为―1‖和―0‖的概率各为50%,也就是说是完全随机的。这时如果输出为―1‖(结果正确),则使连接权值增大,以便使网络再次遇到―A‖模式输入时,仍然能作出正确的判断。如果输出为―0‖(即结果错误),则把网络连接权值朝着减小综合输入加权值的方向调整,其目的在于使网络下次再遇到―A‖模式输入时,减小犯同样错误的可能性。如此操作调整,当给网络轮番输入若干个手写字母―A‖、―B‖后,经过网络按以上学习方法进行若干次学习后,网络判断的正确率将大大提高。这说明网络对这两个模式的学习已经获得了成功,它已将这两个模式分布地记忆在网络的各个连接权值上。当网络再次遇到其中任何一个模式时,能够作出迅速、准确的判断和识别。一般说来,网络中所含的神经元个数越多,则它能记忆、识别的模式也就越多。

神经网络模型的特点是:利用大量的简单计算单元(神经元)连成网络,从而实现大规模并行计算;分布式存储,信息存在整个网中,用权值体现出来,有联想能力,可以从一个不完整的信息恢复出完整信息;自组织、自学习。其工作机理是通过学习来改变神经元之间的连接强度。人工神经网络的基本结构可以分为:递归网络和前馈网络。

常用神经网络模型有:Hopfield Net、Harmming Net、Carpenter/Grossberg 分类器、单层感知网、多层感知网、Kohonen的自组织特性图和反向传播(BP)网络。

多层感知网络(误差逆传播神经网络):在1986年以Rumelhart和McCelland为首的科学家出版的《Parallel Distributed Processing》一书中,完整地提出了误差逆传播学习算法,并被广泛接受。多层感知网络是一种具有三层或三层以上的阶层型神经网络。典型的多层感知网络是三层、前馈的阶层网络,即:输入层I、隐含层(也称中间层)J、输出层K。相邻层之间的各神经元实现全连接,即下一层的每一个神经元与上一层的每个神经元都实现全连接,而且每层各神经元之间无连接。

竞争型(KOHONEN)神经网络:它是基于人的视网膜及大脑皮层对剌激的反应而引出的。神经生物学的研究结果表明:生物视网膜中,有许多特定的细胞,对特定的图形(输入模式)比较敏感,并使得大脑皮层中的特定细胞产生大的兴奋,而其相邻的神经细胞的兴奋程度被抑制。对于某一个输入模式,通过竞争在输出层中只激活一个相应的输出神经元。许多输入模式,在输出层中将激活许多个神经元,从而形成一个反映输入数据的―特征图形‖。竞争型神经网络是一种以无教师方式进行网络训练的网络。它通过自身训练,自动对输入模式进行分类。竞争型神经网络及其学习规则与其它类型的神经网络和学习规则相比,有其自己的鲜明特点。在网络结构上,它既不象阶层型神经网络那样各层神经元之间只有单向连接,也不象全连接型网络那样在网络结构上没有明显的层次界限。它一般是由输入层(模拟视网膜神经元)和竞争层(模拟大脑皮层神经元,也叫输出层)构成的两层网络。两层之间的各神经元实现双向全连接,而且网络中没有隐含层,如图5。有时竞争层各神经元之间还存在横向连接。竞争型神经网络的基本思想是网络竞争层各神经元竞争对输入模式的响应机会,最后仅有一个神经元成为竞争的胜者,并且只将与获胜神经元有关的各连接权值进行修正,使之朝着更有利于它竞争的方向调整。神经网络工作时,对于某一输入模式,网络中与该模式最相近的学习输入模式相对应的竞争层神经元将有最大的输出值,即以竞争层获胜神经元来表示分类结果。这是通过竞争得以实现的,实际上也就是网络回忆联想的过程。

1986年美国物理学家J.J.Hopfield陆续发表几篇论文,提出了Hopfield神经网络。他利用非线性动力学系统理论中的能量函数方法研究反馈人工神经网络的稳定性,并利用此方法建立求解优化计算问题的系统方程式。基本的Hopfield神经网络是一个由非线性元件构成的全连接型单层反馈系统,网络中的每一个神经元都将自己的输出通过连接权传送给所有其它神经元,同时又都接收所有其它神经元传递过来的信息。即:网络中的神经元t时刻的输出状态实际上间接地与自己的t-1时刻的输出状态有关。所以Hopfield神经网络是一个反馈型的网络。其状态变化可以用差分方程来表征。反馈型网络的一个重要特点就是它具有稳定状态。当网络达到稳定状态的时候,也就是它的能量函数达到最小的时候。这里的能量函数不是物理意义上的能量函数,而是在表达形式上与物理意义上的能量概念一致,表征网络状态的变化趋势,并可以依据Hopfield工作运行规则不断进行状态变化,最终能够达到的某个极小值的目标函数。网络收敛就是指能量函数达到极小值。如果把一个最优化问题的目标函数转换成网络的能量函数,把问题的变量对应于网络的状态,那么Hopfield神经网络就能够用于解决优化组合问题。Hopfield工作时其各个神经元的连接权值是固定的,更新的只是神经元的输出状态。Hopfield神经网络的运行规则为:首先从网络中随机选取一个神经元u i,按照公式(1)进行加权求和,再按公式(2)计算u i的第t+1时刻的输出值。除u i以外的所有神经元的输出值保持不变,返回至第一步,直至网络进入稳定状态。对于同样结构的网络,当网络参数(指连接权值和阀值)有所变化时,网络能量函数的极小点(称为网络的稳定平衡点)的个数和极小值的大小也将变化。因此,可以把所需记忆的模式设计成某个确定网络状态的一个稳定平衡点。若网络有M个平衡点,则可以记忆M个记忆模式。当网络从与记忆模式较靠近的某个初始状态(相当于发生了某些变形或含有某些噪声的记忆模式,也即:只提供了某个模式的部分信息)出发后,网络按Hopfield工作运行规则进行状态更新,最后网络的状态将稳定在能量函数的极小点。这样就完成了由部分信息的联想过程。

最初由Werbos开发的反向传播训练算法是一种迭代梯度算法,用于求解前馈网络的实际输出与期望输出间的最小均方差值。BP网是一种反向传递并能修正误差的多层映射网络。当参数适当时,此网络能够收敛到较小的均方差,是目前应用最广的网络之一。BP网的短处是训练时间较长,且易陷于局部极小。

人工神经元网络也许永远无法代替人脑,但它能帮助人类扩展对外部世界的认识和智能控制。比如:GMDH网络本来是Ivakhnenko(1971)为预报海洋河流中的鱼群提出的模型,又成功的应用于超音速飞机的控制系统(Shrier,1987)和电力系统的负荷预测(Sagara和Murata,1988)。人的大脑十分复杂,但对于记忆大量数据和复杂运算却并不在行,以大脑为精神的人工神经元网络模型,配以高速电子计算机,将大大提高人对客观世界的认识

4.10 遗传算法(genetic algorithms)

遗传算法是由J.H.Holland根据生物进化的模型按照自然进化原理提出的一种优化策略。虽然GA刚提出时没有受到重视,但近年来,人们把它应用于学习,优化,自适应等问题中。

GA的算法过程简述如下。首先在解空间中取一群点,作为遗传开始的第一代。每个点(基因)用一二进制的数字串表示,其优劣程度用一目标函数(Fitness function)来衡量。

在向下一代的遗传演变中,首先把前一代中的每个数字串根据由其目标函数值决定的概率分配到配对池中。好的数字串以高的概率被复制下来,劣的数字串被淘汰掉。然后将配对池中的数字任意配对,并对每一数字串进行交叉操作,产生新的子孙(数字串)。最后对新的数字串的某一位进行变异。这样就产生了新的一代。按照同样的方法,经过数代的遗传演变后,在最后一代中得到全局最优解或近似最优解。

GA的最大特点在于演算简单,它有三种演算:复制(Reproduction),交叉(Crossover),变异(Mutation)。在求解过程中,通过最好的选择、彼此交叉组合和变异,就可以期望解的集合将会越来越好。数据挖掘中的遗传算法主要用来形成变量间的依赖关系假设。

4.11 时间序列(time series)

时间序列是指随时间变化的序列值,处理时序数据包括趋势分析(长期或趋势变化、循环变动或循环变化、季节性变动或季节性变化、非规则或随机变化)、相似性搜索、序列模式挖掘和周期分析等内容。

趋势分析:一个变量Y,表示某一支股票每天的收盘价,可以看作是时间t的函数。例如:Y=F(t);这样的函数可以用一个时间序列的图来表示。

我们怎么样来分析这些时间序列的数据呢?这儿有四个方面值得我们注意的:1 长时间的走向:表明在很长一段时间内总的走向趋势,这个可以用一个―趋势曲线‖或者―趋势直线‖来显示,具体方法将在下面讲到。2 周期的走向与周期的变化:直线和曲线的振荡并不是周期的,这个循环并不遵循基于相等时间的规律。3 季节性的走向与变化:例如在情人节来之前,巧克力和花的销量突然的增大。换一个话说,就是在连续的很多年中,有一段时期总是与这年中的其他时期大不同。4 不规则的随机走向;由于一些突发的偶然事件而产生的。上面这些走向我们分别可以用变量T,C,S,I来表示,时间序列分析也就可以是将一个时间序列的数据分割成这四个基本的趋势。这时间序列变量Y就可以模化为这四个变量的乘积或者是总和。

―给定Y的的集合,我们怎么样来分析出数据的走向呢?‖一个很普遍的方法就是计算平均值,这个方法就叫做―moving average of order n‖。如果采用一个有权重的方法的话,就是―weighted moving average of order n‖。例如:给定9 个数的序列,我们计算出它的moving average of order 3和weighted moving average of order 3(用权重1,4,1)。这个可以用下表来表示:

3,7,2,0,4,5,9,7,2

4,3,2,3,6,7,6

5.5, 2.5, 1,3.5,5.5,8,

6.5

给中间一个权重大是为减少平滑的影响。

我们还有没有其他的方法来估计这个趋势呢?其中的一个方法是―freehand method‖:用一个相似的曲线来代替数据,这儿最相似的曲线我们定义为di的总和最小,di是指曲线yi与实际数据yi的差。

有没有一些方法来调整季节性波动的数据呢?在实际的商业运用中,人们总想一般化季节性的波动。我们可以采用seasonal index numbers的方法。

挖掘序列模式:序列模式挖掘是基于时间或者其他序列的经常发生的模式。序列模式的一个例子就是―一个9个月前买了一台PC的顾客有可能在一个月内买一个新的CPU‖。很

多数据都是这种时间序列形式的,我们就可以用它来市场趋势分析,客户保留和天气预测等等。其应用领域包括:客户购买行为模式预测,Web访问模式预测,疾病诊断,自然灾害预测和DNA序列分析。

序列模式挖掘的例子和参数:有很多参数对于挖掘的结果影响很大:首先是时间序列T 的持续时间,也就是这个时间序列的有效时间或者是用户选择的一个时间段,例如1999年。这样序列模式挖掘就被限定为对某段特定时间内的数据的挖掘。其次是时间折叠窗口w,在一段时间内发生的几件事件可以被看作是同时发生的,如果w被设置为持续时间T的长度,我们就可以发现一些关联模式——―在1999年,一个买了PC机用户又买了数字照相机‖(并不考虑先后顺序)。如果w被设置为0,那么序列模式就是两个事件发生在不同的时间里——―已经买了Pc机和内存的顾客有可能在以后买一个光驱‖。如果w被设置为一段时间间隔(例如一个月或者是一天),那么在这段时间的交易在分析中可以被看作是同时发生的。第三个参数是时间间隔,int,这个参数表示发现的模式的时间间隔。Int=0:在这儿,我们要考虑参数w,例如如果这个参数设置为一个星期,那么发生了事件A,事件B会在一星期内发生。Min_interval

4.12 可视化(visualization)

可视化就是把数据、信息和知识转化为可视的表现形式的过程,其特点为:信息可视化的焦点在于信息;信息的数据量很大;信息的来源多种多样等。

五、相关方法

5.1 数据挖掘的大体内容如下:

1. 确定业务对象。清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。

2. 数据准备。1)数据的选择,搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。2)数据的预处理,研究数据的质量,为进一步的分析做准备.并确定将要进行的挖掘操作的类型。3)数据的转换,将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

3. 数据挖掘。对所得到的经过转换的数据进行挖掘.除了完善合适的挖掘算法外,其余一切工作都能自动地完成.

4. 结果分析。解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.

5. 知识的同化。将分析所得到的知识集成到业务信息系统的组织结构中去.

数据挖掘过程的分步实现需要是有不同专长的人员,他们大体可以分为三类。业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求;数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术;数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。由此可见,数据挖掘是一个多种专家合作的过程,也是一个在资金上和技术上高投入的过程.

CRISP-DM是Cross-Industry Standard Process-Data Mining的缩写,由SPSS、NCR、Daimler-Benz在1996年制定。CRISP是当今数据挖掘业界通用流行的标准之一,它强调数据挖掘在商业中的应用,解决商业中存在的问题。过程如下:

业务理解(发现问题-确定商业目标;对现有资源的评估,确定问题是否能够通过数据挖掘来解决;确定数据挖掘的目标;制定数据挖掘计划)

数据理解(确定数据挖掘所需要的数据;对数据进行描述;数据的初步探索;检查数据质量)数据准备(选择数据;清理数据;对数据进行重建;调整数据格式使之适合建模)

建立模型(对各个模型进行评价;选择数据挖掘模型;建立模型)

模型评估(评估数据挖掘的结果;对整个数据挖掘过程的前面步骤进行评估;确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型)

模型发布(把数据挖掘模型的结果送到相应的管理人员手中;对模型进行日常的监测和维护;定期更新数据挖掘模型)

5.2数据汇总

数据汇总的目的是对数据进行浓缩,给出其紧凑表示。数据汇总的一般方法是对数据进行各种统计量计算,以及用图形和表格等方式来表示。数据挖掘则是从数据泛化的角度对数

据进行处理,简单说来,就是把较低层次的数据以更高层次的方式表现出来,从而满足用户的有特定目的的各种要求。其方式主要有两种:多维数据分析方法和面向属性的方法。

多维数据分析方法是一种数据仓库技术,也称作联机分析处理(OLAP)。联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此Codd提出了多维数据库和多维分析的概念,即OLAP。Codd提出OLAP的12条准则来描述OLAP系统:

准则1 OLAP模型必须提供多维概念视图

准则2 透明性准则

准则3 存取能力推测

准则4 稳定的报表能力

准则5 客户/服务器体系结构

准则6 维的等同性准则

准则7 动态的稀疏矩阵处理准则

准则8 多用户支持能力准则

准则9 非受限的跨维操作

准则10 直观的数据操纵

准则11 灵活的报表生成

准则12 不受限的维与聚集层次

数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大。因此一种很自然的想法是,把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。

采用多维数据分析方法进行数据抽取,它针对的是数据仓库,数据仓库存储的是脱机的历史数据。为了处理联机数据,研究人员提出了一种面向属性的归纳方法。它的思路是,直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化,而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后,就可以对它进行各种深入的操作而生成满足用户需要的知识,如在泛化关系基础上生成特性规则、判别规则、分类规则,以及关联规则等。

5.3概念描述

概念描述是指:特征化,对所选择的数据给出一个简单明了的描述;比较,提供对于两个或以上数据进行比较的结果。

基本方法有,数据聚焦:选择和当前分析相关的数据,包括维。属性移除: 如果某个属性包含大量不同值,但是在该属性上没有概化操作或者它的较高层概念用其它属性表示。属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符,则运用该操作符进行概化。属性阈值控制: typical 2-8, specified/default.概化关系阈值控制: 控制最终关系的大小。

基本算法为:InitialRel: 得到相关数据,形成初始关系表;PreGen: 通过统计不同属性的含有的不同值的个数决定是丢弃该属性还是对其进行汇总;PrimeGen:根据上一步的计算结果,对属性概化到相应的层次,计算汇总值,得到主概化关系;结果的表示:用概化关系、交叉表、3D立方体。

5.4 相关性分析

关联规则是形式如下的一种规则,"在购买面包和黄油的顾客中,有90%的人同时也买了牛奶"(面包+黄油(牛奶)。用于关联规则发现的主要对象是事务型数据库,其中针对的应用则是售货数据,也称货篮数据。一个事务一般由如下几个部分组成:事务处理时间,一组顾客购买的物品,有时也有顾客标识号(如信用卡号)。

由于条形码技术的发展,零售部门可以利用前端收款机收集存储大量的售货数据。因此,如果对这些历史事务数据进行分析,则可对顾客的购买行为提供极有价值的信息。例如,可以帮助如何摆放货架上的商品(如把顾客经常同时买的商品放在一起),帮助如何规划市场(怎样相互搭配进货)。由此可见,从事务数据中发现关联规则,对于改进零售业等商业活动的决策非常重要。

设I={i1,i2,...,im}是一组物品集(一个商场的物品可能有上万种),D是一组事务集(称之为事务数据库)。D中的每个事务T是一组物品,显然满足T I。称事务T支持物品集X,如果X T。关联规则是如下形式的一种蕴含:X Y,其中X I,Y I,且X∩Y=I。

(1)称物品集X具有大小为s的支持度,如果D中有s%的事务支持物品集X;

(2)称关联规则X Y在事务数据库D中具有大小为s的支持度,如果物品集X∪Y的支持度为s;

(3)称规则X Y在事务数据库D中具有大小为c的可信度,如果D中支持物品集X的事务中有c%的事务同时也支持物品集Y。

如果不考虑关联规则的支持度和可信度,那么在事务数据库中存在无穷多的关联规则。事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。在文献中,一般称满

足一定要求的(如较大的支持度和可信度)的规则为强规则。因此,为了发现出有意义的关联规则,需要给定两个阈值:最小支持度和最小可信度。前者即用户规定的关联规则必须满足的最小支持度,它表示了一组物品集在统计意义上的需满足的最低程度;后者即用户规定的关联规则必须满足的最小可信度,它反应了关联规则的最低可靠度。

在实际情况下,一种更有用的关联规则是泛化关联规则。因为物品概念间存在一种层次关系,如夹克衫、滑雪衫属于外套类,外套、衬衣又属于衣服类。有了层次关系后,可以帮助发现一些更多的有意义的规则。例如买外套、买鞋子"(此处,外套和鞋子是较高层次上的物品或概念,因而该规则是一种泛化的关联规则)。由于商店或超市中有成千上万种物品,平均来讲,每种物品(如滑雪衫)的支持度很低,因此有时难以发现有用规则;但如果考虑到较高层次的物品(如外套),则其支持度就较高,从而可能发现有用的规则。

另外,关联规则发现的思路还可以用于序列模式发现。用户在购买物品时,除了具有上述关联规律,还有时间上或序列上的规律,因为,很多时候顾客会这次买这些东西,下次买同上次有关的一些东西,接着又买有关的某些东西。

5.5 分类和预测

分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类和回归都可用于预测。预测的目的是从利用历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。和回归方法不同的是,分类的输出是离散的类别值,而回归的输出则是连续数值。

要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可为:(v1,v2,...,vn;c);其中vi表示字段值,c 表示类别。

分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方法包括贝叶斯法和非参数法(近邻学习或基于事例的学习),对应的知识表示则为判别函数和原型事例。机器学习方法包括决策树法和规则归纳法,前者对应的表示为决策树或判别树,后者则一般为产生式规则。神经网络方法主要是BP算法,它的模型表示是前向反馈神经网络模型(由代表神经元的节点和代表联接权值的边组成的一种体系结构),BP算法本质上是一种非线性判别函数。另外,最近又兴起了一种新的方法:粗糙集(rough set),其知识表示是产生式规则。

不同的分类器有不同的特点。有三种分类器评价或比较尺度:1预测准确度;2计算复杂度;3模型描述的简洁度。预测准确度是用得最多的一种比较尺度,特别是对于预测型分类任务,目前公认的方法是10番分层交叉验证法。计算复杂度依赖于具体的实现细节和硬件环境,在数据挖掘中,由于操作对象是巨量的数据库,因此空间和时间的复杂度问题将是非常重要的一个环节。对于描述型的分类任务,模型描述越简洁越受欢迎;例如,采用规则表示的分类器构造法就更有用,而神经网络方法产生的结果就难以理解。

另外,分类的效果一般和数据的特点有关,有的数据噪声大,有的有缺值,有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式的。一般认为不存在某种分类方法能适合于各种特点的数据。

分类有两个步骤:1 模型创建,对一个类别已经确定的模型创建模型。每一条记录都属于一个确定的类别,我们使用类标签属性记录类别。用于创建模型的数据集叫:训练集,模型可以用分类规则,决策树,或者数学方程的形式来表达。2 模型使用: 用创建的模型预测未来或者类别未知的记录,使用创建的模型在一个测试集上进行预测,并将结果和实际值进行比较。注意,测试集和训练集是独立的。

5.6 聚类分析

聚类是把一组个体按照相似性归成若干类别,即"物以类聚"。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。

在统计方法中,聚类称聚类分析,它是多元数据分析的三大方法之一(其它两种是回归分析和判别分析)。它主要研究基于几何距离的聚类,如欧式距离、明考斯基距离等。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。这种聚类方法是一种基于全局比较的聚类,它需要考察所有的个体才能决定类的划分;因此它要求所有的数据必须预先给定,而不能动态增加新的数据对象。聚类分析方法不具有线性的计算复杂度,难以适用于数据库非常大的情况。

在机器学习中,聚类称作无监督或无教师归纳。因为和分类学习相比,分类学习的例子或数据对象有类别标记,而要聚类的例子则没有标记,需要由聚类学习算法来自动确定。很多人工智能文献中,聚类也称概念聚类;因为这里的距离不再是统计方法中的几何距离,而是根据概念的描述来确定的。当聚类对象可以动态增加时,概念聚类则称为概念形成。

在神经网络中,有一类无监督学习方法:自组织神经网络方法;如Kohonen自组织特征映射网络、竞争学习网络等等。在数据挖掘领域里,见报道的神经网络聚类方法主要是自组织特征映射方法。

一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点:

高的簇内相似性,低的簇间相似性,聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现,聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式。特别的,数据挖掘的要求还有:可伸缩性,能够处理不同类型的属性,能发现任意形状的簇,在决定输入参数的时尽量不需要特定的领域知识,能够处理噪声和异常,对输入数据对象的顺序不敏感,能处理高维数据,能产生一个好的、能满足用户指定约束的聚类结果,结果是可解释的、可理解的和可用的。

聚类的常规应用:模式识别;空间数据分析,在GIS中,通过聚类发现特征空间来建立主题索引,在空间数据挖掘中,检测并解释空间中的簇;图象处理;经济学(尤其是市场研究方面);WWW方面有文档分类和分析WEB日志数据来发现相似的访问模式

5.7 偏差分析

即孤立点分析,孤立点分析是数据挖掘中一个重要方面,用来发现―小的模式‖(相对于聚类而言),即数据集中显著不同于其它数据的对象。

Hawkins(1980)给出的孤立点(outlier)的定义:孤立点是在数据集中与众不同的数据,使人怀疑这些数据并非随机孤立点,而是产生于完全不同的机制。

Outliers可能在聚集运行或者检测的时候被发现,比如一个人的年龄是999,这在对数据库进行检测的时候就会被发现。还有,就是outlier可能是本身就固有的,而不是一个错误,比如CEO的工资就比一般员工的工资高出很多。

很多数据挖掘技术都力图将outliers的影响降到最小,直至完全没有。但是,这有可能失去一些重要的隐藏的信息,因为对于一方来讲是―坏‖的东西而对于另外的一方来讲很可能是重要的东西。换句话说,这个―特例‖可能有特别的作用,例如发现诈骗(Fraud)行为。因此,发现和分析―诈骗行为‖是一项很有意义的数据挖掘任务,我称为―outlier mining‖。

Outlier mining的应用是很广泛的,除了上面说的―欺骗发现‖以外,它还能够发现收入特别低或者特别高的顾客的购买行为。outlier mining可以这么来描述:给定n个记录和k(我们期望得到的outlier的个数);发现k个与其他的记录最不相象的记录。这个过程可以看成两个子过程:1,首先定义什么样的记录被称为―特例‖;2,根据上面的定义,找到一个很有效的方法来发现这些特例。

其应用领域如下:

–电信和信用卡欺骗(检查购买金额或购买次数异常等)

–贷款审批

–药物研究

–气象预报

–金融领域(检查洗钱等异常行为)

–客户分类

–网络入侵检测等

孤立点分析算法可以分为如下几类:

–基于统计(statistical-based)的方法

–基于距离(distance-based)的方法

–基于偏离(deviation-based)的方法

–基于密度(density-based)的方法

–高维数据的孤立点分析

基于统计的孤立点检测应用主要局限于科研计算,这主要是因为必须事先知道数据的分布特征这就限制了它的应用范围。

基于距离的算法跟基于统计的算法相比,不需要用户拥有任何领域知识。与―序列孤立点‖相比,在概念上更加直观。更重要的是,距离孤立点更接近Hawkins的孤立点本质定义。

基于偏离的孤立点检测算法提出的序列孤立点的概念并没有得到普遍的认同。这是因为序列孤立点在概念上仍然有一定缺陷,遗漏了不少的孤立点数据。

基于密度的孤立点观点比基于距离的孤立点观点更贴近Hawkins的孤立点定义,因此能够检测出基于距离孤立点算法所不能识别的一类孤立点数据——局部孤立点。局部孤立点观点摈弃了以前所有的孤立点定义中非此即彼的绝对孤立点观念,更加符合现实生活中的应用。

实际数据往往具有较大的噪声,因此孤立点模式经常只存在于低维子空间中,而在全维空间中难以确定;且以前算法在维数较高时,性能急剧下降。因此Aggarwal和Yu(SIGMOD’2001)提出一个高维数据孤立点检测的方法。采用遗传优化算法,获得了良好的计算性能。

六、相关领域的应用

数据挖掘技术可以为决策、过程控制、信息管理和查询处理等任务提供服务,一个有趣的应用范例是―尿布与啤酒‖的故事。为了分析哪些商品顾客最有可能一起购买,一家名叫WalMart的公司利用自动数据挖掘工具,对数据库中的大量数据进行分析后,意外发现,跟尿布一起购买最多的商品竟是啤酒。为什么两件风马牛不相及的商品会被人一起购买?原来,太太们常叮嘱她们的丈夫,下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了两瓶啤酒。既然尿布与啤酒一起购买的机会最多,商店就将它们摆放在一起,结果,尿布与啤酒的销售量双双增长。这里,数字挖掘技术功不可没。一般来说,数据挖掘的应用有,电信:流失;银行:聚类(细分),交叉销售;百货公司/超市:购物篮分析(关联规则);保险:细分,交叉销售,流失(原因分析);信用卡:欺诈探测,细分;电子商务:网站日志分析;税务部门:偷漏税行为探测;警察机关:犯罪行为分析;医学:医疗保健。具体如下

6.1 电子政务的数据挖掘

建立电子化政府,推动电子政务的发展,是电子信息技术应用到政府管理的必然趋势。实践经验表明,政府部门的决策越来越依赖于对数据的科学分析。发展电子政务,建立决策

如何读文献与写论文(精华版)

如何看国外文献的方法总结 (从Ph.D到现在工作半年,发了12 篇paper, 7 篇first author.)我现在每天还保持读至少2-3 篇的文献的习惯.读文献有不同的读法.但最重要的自己总结概括这篇文献到底说了什么,否则就是白读,读的时候好像什么都明白,一合上就什么都不知道,这是读文献的大忌,既浪费时间,最重要的是,没有养成良好的习惯,导致以后不愿意读文献. 1. 每次读完文献(不管是细读还是粗读), 合上文献后,想想看,文章最重要的take home message 是什么, 如果不知道,就从abstract,conclusion 里找, 并且从discuss 里最好确认一下. 这样一来, 一篇文章就过关了. take home message 其实都不会很多, 基本上是一些concepts, 如果你发现你需要记得很多,那往往是没有读到重点. 2. 扩充知识面的读法, 重点读introduction, 看人家提出的问题,以及目前的进展类似的文章, 每天读一两篇,一个月内就基本上对这个领域的某个方向有个大概的了解.读好的review 也行, 但这样人容易懒惰. 3. 为了写文章的读法, 读文章的时候, 尤其是看discussion 的时候,看到好的英文句型, 最好有意识的记一下,看一下作者是谁,哪篇文章,哪个期刊, 这样以后照猫画虎写的时候,效率高些.比自己在那里半天琢磨出一个句子强的多. 当然,读的多,写的多,你需要记得句型就越少.其实很简单,有意识的去总结和记亿, 就不容易忘记. 科研牛人二告诉研究生怎么看文献,怎么写论文

一、先看综述 先读综述,可以更好地认识课题,知道已经做出什么,自己要做什么,,还有什么问题没有解决。对于国内文献一般批评的声音很多.但它是你迅速了解你的研究领域的入口,在此之后,你再看外文文献会比一开始直接看外文文献理解的快得多。而国外的综述多为本学科的资深人士撰写,涉及范围广,可以让人事半功倍。 二、有针对地选择文献 针对你自己的方向,找相近的论文来读,从中理解文章中回答什么问题,通过哪些技术手段来证明,有哪些结论?从这些文章中,了解研究思路,逻辑推论,学习技术方法. 1.关键词、主题词检索: 关键词、主题词一定要选好,这样,才能保证你所要的内容的全面。因为,换个主题词,可以有新的内容出现。 2. 检索某个学者: 查SCI,知道了某个在这个领域有建树的学者,找他近期发表的文章。 3. 参考综述检索: 如果有与自己课题相关或有切入点的综述,可以根据相应的参考文献找到那些原始的研究论文。 4. 注意文章的参考价值: 刊物的影响因子、文章的被引次数能反映文章的参考价值。但要注意引用这篇文章的其它文章是如何评价这篇文章的

完整的乐理知识大全

完整的乐理知识大全 完整的乐理知识1 (一)音 1.音的产生: 2.音的主要性质: 音的高低音的强弱音的长短音色 (3)什么是音色?音色指音的感觉特性。是音乐中极为吸引人、能直接触动感官的重要表现手段。发音体的振动是由多种谐音组成, 其中有基音和泛音,泛音的多寡及泛音之间的相对强度决定了特定 的音色。人们区分音色的能力是天生的,音色分为人声音色和器乐 音色。人声音色高、中、低音,并有男女之分;器乐音色中主要分弦乐器和管乐器,各种打击乐器的音色也是各不相同的。 3.音的分类 乐音噪音 (二)音阶 五声音阶七声音阶 1.音阶的定义 音阶(Scale)指调式中的各音,从以某个音高为起点即从主音开始,按照音高次序将音符由低至高來排列,这样的音列称为音阶, 世界各地有许多不同的音阶,随着音乐水平的进步,音乐非常完整 的理论与系统,目前世界上几乎都是用西洋的十二平均律來作为学 習音乐的基礎,因此我们今天所说的音阶,就是以最普遍的大音阶(大调)与小音阶(小调)为主。 2.音阶的分类

根据调式所包含的音的数量可分为:"五声音阶"、"七声音阶"等。音阶由低到高叫做上行,由高到低叫做下行。 五声音阶(Pentatonicscale)由五个音构成的音阶,多用于民族 音乐的调式如:do、re、mi、sol、la、(do)。 (三)乐音体系 1.乐音体系的定义 在音乐中使用的、有固定音高的音的总和,叫做乐音体系。 2.乐音体系的分类 (1)音列 乐音体系中的音,按照上行或下行次序排列起来,叫做音列。 (2)音级 乐音体系中的各音叫做音级。音级有基本音级和变化音级两种。 乐音体系中,七个具有独立名称的音级叫做基本音级。基本音级的 名称是用字母和唱名两种方式来标记的。两个相邻的具有同样名称 的音叫做八度。升高或降低基本音级而得来的音,叫做变化音级。 将基本音级升高半音用"升"或""来标明;降低半音用"降"或""来表明;升高全音用"重升"或"x"来标明;降低全音用"重降"或""来标明;还原用""表示。 3.音域与音区 音域可分为总的音域和个别音域、人声和乐器音域。音域中的一 部分是音区,音区可分为高音区、中音区和低音区三种。人声的音 区划分,往往是不相符合的,例如男低音的高音区却是女低音的低 音区。但各音区具有自己的特性音色,这体现在音乐的表现中,一 般来说:高音区清脆、尖锐;而低音区则低沉、浑厚。 (四)调式 稳定音不稳定音

第一性原理计算方法论文

第一性原理计算的理论方法 随着科技的发展,计算机性能也得到了飞速的提高,人们对物理理论的认识也更加的深入,利用计算机模拟对材料进行设计已经成为现代科学研究不可缺少的研究手段。这主要是因为在许多情况下计算机模拟比实验更快、更省,还得意于计算机模拟可以预测一些当前实验水平难以达到的情况。然而在众多的模拟方法中,第一性原理计算凭借其独特的精度和无需经验参数而得到众多研究人员的青睐,成为计算材料学的重要基础和核心计算。本章将介绍第一性原理计算的理论基础,研究方法和ABINIT 软件包。 1.1第一性原理 第一性原理计算(简称从头计算,the abinitio calculation),指从所要研究的材料的原子组分出发,运用量子力学及其它物理规律,通过自洽计算来确定指定材料的几何结构、电子结构、热力学性质和光学性质等材料物性的方法。基本思想是将多原子构成的实际体系理解成为只有电子和原子核组成的多粒子系统,运用量子力学等最基本的物理原理最大限度的对问题进行”非经验”处理。第一性原理计算就只需要用到五个最基本的物理常量即(b o k c h e m ....)和元素周期表中各组分元素的电子结构,就可以合理地预测材料的许多物理性质。用第一性原理计算的晶胞大小和实验值相比误差只有几个百分点,其他性质也和实验结果比较吻合,体现了该理论的正确性。 第一性原理计算按照如下三个基本假设把问题简化: 1.利用Born-Oppenheimer 绝热近似把包含原子核和电子的多粒子问题转化为多电子问题。 2.利用密度泛函理论的单电子近似把多电子薛定谔方程简化为比较容易求解的单电子方程。 3.利用自洽迭代法求解单电子方程得到系统基态和其他性质。 以下我将简单介绍这些第一性原理计算的理论基础和实现方法:绝热近似、密度泛函理论、局域密度近似(LDA)和广义梯度近似(GGA)、平面波及赝势方法、密度泛函的微扰理论、热力学计算方法和第一性原理计算程序包ABINIT 。 1.2量子力学与Born-Oppenheimer 近似 固体是由原子核和核外的电子组成的,在原子核与电子之间,电子与电子之间,原子核与原子核之间都存在着相互作用。从物理学的角度来看,固体是一个多体的量子力学体系,相应的体系哈密顿量可以写成如下形式: ),(),(R r E R r H H ψψ= (1-1) 其中r,R 分别代表所有电子坐标的集合、所有原子核坐标的集合。在不计外场作用下,体系的哈密顿量日包括体系所有粒子(原子核和电子)的动能和粒子之间的相互作用能,即 N e N e H H H H -++= (1-2) 其中,以是电子部分的哈密顿量,形式为:

论文写作基础知识

论文写作基础知识 导读:一、选题 1、选题的意义——选题是论文写作的基础,是确定自己研究的课题将要解决什么问题的基础,需要明确研究目标和研究范围。选题确定的早,就等于早给自己明确研究的任务和方向赢得了研究时间。 2、选题的原则 (1)适宜性原则——选题要根据的主观条件,选择自己专业范围内的、难易适中、大小适宜的.课题。 (2)创新性原则——选题应判断课题是否具有学术价值,是否是本学科研究领域的“前沿课题”,是否填补了本学科或研究领域的一项空白。 (3)价值性原则——是指选题是否有学术价值、科学价值。 (4)把握性原则——选题应该建立在自己最擅长的学科上,这样对所需要研究的问题才会有更深刻的认识。如果脱离所学专业,对自己研究的论题没有把握,就不能充分发挥自己的才能写好论文。 3、选题的途径 (1)自主选题——通过自己的努力,发现有价值的课题,或根据自己的需要选择研究课题。 (2)借鉴选题——即被动选题,就是借鉴外界因素获得适合自己的选题。 4、选题的方法选题的方法多种多样,因人而异,因专业方向而已,很难概括,但常用的有以下四种: (1)综合寻找法——就是对自己所占有的材料广泛阅读,对已有课题进行综合选择,寻找出有研究价值的一种方法。 (2)主观设定法——就是先有主观设定,然后沿着一定的方向,查阅文献资料,并进行必要的调查验证,证明自己的选题价值。 2 (3)借鉴深入法——广泛地研究、分析各种成功的课题,对他

人已经研究的有关论题进行反复咀嚼,看看还有哪些问题值得继续深入研究,从而确立研究课题的一种方法。 (4)实践总结法——从自己的实践中发现有研究价值的论题,把自己掌握的理论知识应用在解决现实问题的研究中。二、资料的搜集与梳理 1、搜集资料的意义——选题一旦确定下来,很重要的一个工作就是搜集和积累资料。它们是写好论文的基础。有人初步统计过,一个研究者在科研项目中的时间分配是:搜集材料时间占50.9%,思考计划占30%,撰写论文只占19.1%。因为资料是创造的源泉,是形成论文观点和表达主题的基础。撰写论文需要摆事实、讲道理,事实即材料。 2、搜集资料的方法 (1)确定方向——确定好搜集的方向,才不会将自己置身于资料的“汪洋大海”里,以至于淹没在一大堆与论题无关的资料中。 (2)文献检索——是指从储放文献资料的库房里找出自己所需要的文献资料的操 作过程和方法。 3、资料的梳理 (1)阅读资料 (2)分类组合 (3)选择资料三、撰写提纲 1、撰写提纲的意义 (1)明晰构思 (2)贯通文脉 2、提纲的基本内容 (1)标题(题目) (2)中心论点 (3)分论点 (4)层次 段落与所用的资料 33、提纲的常见形式 (1)简略提纲 (2)详细提纲四、论文的写 作 1、写作格式 (1)标题 (2)署名 (3)摘要——摘要是对论文研究方法和研究成果的客观表述,是论文的缩影,文字要简练、明确、不加注释,不做评论,一般在300字左右。摘要既要写得短而精,又能包含与论文等量的主要信息。 (4)关键词——是从论文中选出来的,最

简单乐理知识

简单乐理知识 1.音的产生及性质分类 音是由于物体的振动而产生的,从音响现象上可以归纳为音有高低、强弱、长短、音色四种特性。 a.音的高低是由物体在一定时间内的振动频率而决定的。振动次数多音就高,振动次数少,音则低。 b.音的强弱是由于振幅的大小而决定的,振幅大音则强,振幅小音则弱。 c.音的长短是由于音持续时间的不同而决定的。音延续的时间越长音则长,音持续的时间短,音则短。 d.音色是由于发生体的性质,形状以及泛音的多少而不同。 由于音的振动状态的规则与不规则,音被乐音和噪音两种。音乐中使用的主要是乐音,但噪音也是音乐表现中不可缺少的组成部分。在我国的民族音乐里,如锣等噪音乐器的使用就具有相当丰富的表现力。 2.乐音体系、音的分组及音域音区 a.乐音体系—在音乐中使用的、有固定音高的音的总和叫做乐音体系。按照音上下行排列次序进行组合起来的音叫做音列。音列中的各音叫做音级。在乐音体系中七个具有独立名称的音级叫基本音级,如:

do re mi fa sol la si (唱名) C D E F G A B(音名) 在基本音级上对音进行升降变化的音叫做变化音级,如: 升C 、重升C、降C 、重C b.音的分组—将钢琴52个白键上循环重复使用的七个基本音级的音高进行分组,就是对音的分组。按照由低到高的次序分为:大字二组、大字一组、大字组、小字组、小字一组、小字二组、小字三组、小字四组、小字五组等。参看例3(略) 音域音区—音域分音乐总的音域和人声、乐器音域两种。在整个音域中把音组按音区分为高、中、低三个音区。 3.音律 a.音律—乐音体系中各音的绝对准确音高及相互关系叫音律,是确定调式音高的基础。目前世界广泛采用的是纯律、五度相声律、十二平均律三种律制。 b.乐音体系中音与音之间的关系构成了自然半音、自然全音和变化半音、变化全音。以基本音级为例,如: do re mi fa sol la si do {两像邻音级关系为排列为:自然全音自然全音自然半音自然全音自然全音自然全音自然半音}

乐理基础知识讲义

乐理基础知识讲义 标准化文件发布号:(9312-EUATWW-MWUB-WUNN-INNUL-DQQTY-

音的产生: 音的分类 音 音的性质 的 乐音体系:在音乐中使用的,有固定音高的音的总和。 高音列:乐音体系中的音按照音高次序(上行或下行)排列起来。 音级:乐音体系中的各音。 音的相关概念 基本音级:在乐音体系中,七个具有独立名称的音级。 度 音名:乐音体系中各音级的名称。 半音:在钢琴上,相邻的两个琴键构成半音。 与全音:由相邻的两个半音所构成的音高关系叫全音。 八度:由某音级到它上方或下方第八个(同名)音间的距离叫八度。 首调唱名法: 记唱名法 固定调唱名法: 记谱法 谱 谱号谱表 法

大谱表: 音的分组: 音 音域:指人声或某一乐器所能发出的最低音到最高音之间的范围。 的音区(音域中的一部分) 变音:将七个基本音级升高或降低,使音高产生变化形成变音。 变音及变音记号 高 变音记号 自然音级 度 变化音级 与 等音: 记 国际标准音: 乐音体系中各音的绝对标准高度及其相互关系叫音律。 谱 音律 法

音符:在谱表上表示乐音高低和长短的符号,叫音符。音符在谱表上的位 音 的 长 短 休止符:乐谱中,用来标记音的时值停断的符号叫休止符。 与 记 附点及附点音符 谱 增长音值 的 记 号 连线:标记在两个或两个以上音高相同的音符上的弧线(又叫延音线) 法 延长号:

节拍: 节奏: 节奏型: 节 重音: 拍号: 奏拍子的种类 我国民族音乐中的节拍: 与 音值的特殊划分 节弱起小节: 切分音: 拍音值组合法:

文章的阅读方法有哪些

文章的阅读方法有哪些? 1.快速阅读,筛选重要信息。读开头和结尾. 2.先看问题,再看文章. 3.了解作家背景(要靠积累呀). 4.抓住主旨.围绕中心会回答问题!多年心得! 大量阅读 以前我们数十年来英语教学不很成功的主要原因就是拘泥于教科书,没有相当阅读量配合。据统计,把以前的中学六年的英语教科书的课文内容全部相加总量不过是一张日报一面的量,这些语言量不管怎么读,也是不可能掌握一门语言的,所以现在新的英语教学大纲要求初中毕业生的英语阅读量为30万单词,高中毕业的量为60万单词,从教学措施上保证学生必须达到这个阅读量的标准,因为我们在学校读的英语课本实质上仅仅是精读,因此我们要补充的应是泛渎,读什么呢? 我建议读下列四方面的内容:一、选一本你感兴趣,且翻最初几页你不查词典也能看懂的英语书,开始可选一些简易或缩写的读物,然后可选一些原著。 二、订一份英语报纸,开始可订属中学生看的, 快速阅读 读文章如同看树林一样,人站在树林前不能把眼睛光看着一棵树,甚至只盯着树上的叶子,一张一张地看,看到最后,还是一张一张叶子,叶子固然要看,但整棵树也要看,整片森林更要看,我们必须迅速把视野扩大,这样才能对森林全貌有所了解。读文章也是如此,如何才能加强对阅读文章的理解呢?那就是在阅读文章材料时要学会快速阅读。快速阅读是综合运用阅读技巧,在快速阅读时通过逻辑思维,获取尽可能多的信息。在整个快速阅读过程中,要高度集中思想,让大脑处于高度兴奋状态中。如果念得很慢,一词一词地读,往往念完全文,很茫然,词都认识,就是不知道文章讲什么。所以现在的英语测试都有一个阅读速度的要求。 整体理解 我们常有这样的情况:句子都能看懂,但读完文章印象却不深,这就牵涉到对文章框架结构的整体理解。如何学会对文章的整体理解呢?首先,要重视文章的题目和文章的首句。因为文章的题目就是文章的主题,文章的内容就是环绕主题展开。首句很关键是因为首句是文章的导入,点明作者写文章的意图,背景等。接着的每一段的第一句也很重要,因为每段的第一句实际上多半是每段的主题句,然后进行陈述或论述,逐步展开,给予例证,最后把该段内容用一句话来小结,所以每段的最后一个句子常常是该段的结论句,而整篇 文章的最后一句就往往是这篇文章的结论或作者写这篇文章的用意所在。所以我们在阅读文章时要养成这样一个习惯:见了文章的题目,要停顿一下,想一想,如果让你写这篇文章将如何写,或猜一猜,这篇文章大概写什么,然后你会饶有兴趣地读下去。接着在往下阅读时特别注意每段的第一句与最后一句,并用心记往,在读完全文时清晰地将全文的主要内容像看电影似的一幅一幅地印在脑中,记忆很深既把握住了全文的主要内容、论点、论据,又学会了作者的逻辑推理的方法技巧及整篇文章的框架结构,而这是写文章最重要的,也就是文章的构思。积累词语 要提高阅读水平,词汇量与短语量非常重要,打个譬方:造房子要砖瓦材料,词汇就是阅读英语的砖瓦材料,没有相当量的英语词汇,阅读英语是无法进行的。所以要提高阅读水平,我们就得学会积累词语。我们不妨这么做:在通读全文后

计算方法-论文

浅论拉格朗日与牛顿插值法 一、课程简介 计算方法是一种以计算机为工具,研究和解决有精确解而计算公式无法用手工完成和理论上有解而没有计算公式的数学问题的数值近似解的方法。在实际中,数学与科学技术一向有着密切关系并相互影响,科学技术各领域的问题通过建立数学模型和数学产生密切的联系,并以各种形式应用于科学与工程领域。而所建立的这些数学模型,在许多情况下,要获得精确解是十分困难的,甚至是不可能的,这就使得研究各种数学问题的近似解变的非常重要了,计算方法就是这样一门课程,一门专门用来研究各种数学问题的近似解的一门课程。计算方法的一般步骤四:实际问题抽象出实际问题的物理模型,再有物理模型具体出数学模型,根据相关的数值方法利用计算机计算出结果。从一般的过程可以看出,计算方法应该具有数学类课程的抽象性和严谨性的理论特性和实验课程的实用性和实验性的技术特征等。 随着计算机的飞速发展,数值计算方法已深入到计算物理、计算力学、计算化学、计算生物学、计算机经济学等各个领域,并且在航天航空、地质勘探、桥梁设计、天气预报和字形字样设计等实际问题领域得到广泛的应用。 二、主要内容 《计算方法》这门课程可以分为三大块:数值逼近,数值代数,常微分方程。 1.数值逼近模块 这模块的知识点主要分布在第一章到第三章。 第一章:数值计算中的误差。主要的知识点是绝对误差和绝对误差限、相对误差和相对误差限、有效数字等概念的引入和计算绝对误差和绝对误差限、相对误差 和相对误差限及有效数字的方法。 第二章:插值法。在这一章中,主要的就是拉格朗日插值法与牛顿插值法的讲述。拉格朗日插值法中核心就是去求插值结点的插值基函数,牛顿插值法中核心就 是计算插值结点的差商,还有就是截断误差的说明。 第三章:曲线拟合的最小二乘法。重点是最小二乘法的法则和法方程组列写,如何利用法方程组去求一个多项式各项的系数。最小二乘法是与插值方法是有区别 的,它不要求过所有的结点,只要靠近这些点,尽可能的表现出这些点的趋势就行 了。 2.数值代数模块 这一部分内容主要在第四章至第七章。 第四章:数值积分。主要说的是插值型的数值积分的公式和积分系数。刚开始讲了牛顿-柯特斯插值求积公式,包括梯形公式、Simpson公式、Cotes公式-系数、 代数精度和截断误差。然后就是复合的牛顿-柯特斯求积公式,包括复合的梯形公式、复合的Simpson公式、各个复合公式的收敛阶和它们各自的截断误差。最后讲的是 龙贝格算法的计算思想和公式的讲述。

乐理基础知识

第一章音乐的概念-基本乐理 教授:孙荣绮 中国音乐家协会会员、国家二级演奏员 课前寄语 在中国有一个美丽的远古传说:“开天辟地之后,神女-女娲看见人们日出而作,日落而息,生活得很苦、很累。于是她采天籁之音(大自然的音响),使人们愉悦,快乐。从此华夏大地有了音乐”。 美好和谐的音乐会陶冶人的情操,净化人的灵魂。而情性强,激奋奔放的音乐又会给人以启迪,鼓舞人们不断进取,向上┅┅随着社会的发展和物质文明越来越丰富,精神文明也越来越受到人们的重视。音乐已开始走进千家万户。学习音乐成了热门。在学习音乐的人群中有青年学生,有在职干部,甚至连鹤发童颜的老人也饶有兴致的拿起了乐器。最令人感动的还是那些“望子成龙,望女成凤”的年轻的爸爸妈妈们,自己节衣缩食,为了给自己的宝贝作智力投资倾其多年的积蓄购买昂贵的乐器,汗流夹背的往来奔波,随其左右,寻师求学,真可谓是“可怜天下父母心”,随着时间的推移,这支队伍还在不断的扩大着┅┅但是现在社会上的普及音乐教育相当繁杂,鱼龙混珠。有些人自已还没拉几天琴,看到这是个赚钱的大好时机,竟也拉起大旗,挂上名家招牌,开起大课来。使得有人学了几年还不得要领,我也曾接过这样一个学生,学琴有四年了,竟然连谱也不识,颇感奇怪,问其如何拉琴?原来只靠老师画的指法,1指、2指、3指、4指,居然也算学了四年琴,甚感震惊和愤怒,四年啊!可爱又可怜的孩子,真是误人子弟!还有一些人总算是找到了正规的老师。可是进了老师的家门才发现众多的家长们带着自己的孩子都在等候。好不容易轮到自己了,珍惜这宝贵的每一分,每一秒,学生专心致致,家长更是抖擞精神,不敢错过老师的任何一句话,因为他们还要肩负着回家后陪孩子练琴的使命。却不曾想仅过了廿几分钟,老师就吩咐回去练吧。一节课就这样草草的结束了。是啊,外面还有一大堆人在候着呢。有的家长感叹的说:“简直跟上医院看病差不多。”可是就是这样,也还是有更多的人连这种门坎也找不到,学门深似海,投师无门,只有望琴兴叹了┅┅

阅读论文方法

四大牛人看外国文献的方法(转载,整理) 来源:王欢的日志 最近在要看N多文献,要写报告,还得准备小论文,必须得把效率提高,找到适合自己的看文献的最好方法。 牛人一 (从Ph.D到现在工作半年,发了12 篇paper, 7 篇first author.)我现在每天还保持读至少2-3 篇的文献的习惯.读文献有不同的读法.但最重要的自己总结概括这篇文献到底说了什么,否则就是白读,读的时候好像什么都明白,一合上就什么都不知道,这是读文献的大忌,既浪费时间,最重要的是,没有养成良好的习惯,导致以后不愿意读文献. 1. 每次读完文献(不管是细读还是粗读), 合上文献后,想想看,文章最重要的take home message 是什么, 如果不知道,就从abstract,conclusion里找, 并且从discuss 里最好确认一下. 这样一来, 一篇文章就过关了. take home message 其实都不会很多, 基本上是一些concepts, 如果你发现你需要记得很多,那往往是没有读到重点. 2. 扩充知识面的读法, 重点读introduction, 看人家提出的问题,以及目前的进展类似的文章, 每天读一两篇,一个月内就基本上对这个领域的某个方向有个大概的了解.读好的review 也行, 但这样人容易懒惰. 3. 为了写文章的读法, 读文章的时候, 尤其是看discussion 的时候,看到好的英文句型, 最好有意识的记一下,看一下作者是谁,哪篇文章,哪个期刊, 这样以后照猫画虎写的时候,效率高些.比自己在那里半天琢磨出一个句子强的多. 当然,读的多,写的多,你需要记得句型就越少.其实很简单,有意识的去总结和记亿,就不容易忘记. 科研牛人二告诉研究生怎么看文献,怎么写论文 一、先看综述 先读综述,可以更好地认识课题,知道已经做出什么,自己要做什么,,还有什么问题没有解决。对于国内文献一般批评的声音很多.但它是你迅速了解你的研究领域的入口,在此之后,你再看外文文献会比一开始直接看外文文献理解的快得多。而国外的综述多为本学科的资深人士撰写,涉及范围广,可以让人事半功倍。 二、有针对地选择文献 针对你自己的方向,找相近的论文来读,从中理解文章中回答什么问题,通过哪些技术手段来证明,有哪些结论?从这些文章中,了解研究思路,逻辑推论,学习技术方法. 1.关键词、主题词检索: 关键词、主题词一定要选好,这样,才能保证你所要的内容的全面。因为,换个主题词,可以有新的内容出现。 2. 检索某个学者: 查SCI,知道了某个在这个领域有建树的学者,找他近期发表的文章。 3. 参考综述检索: 如果有与自己课题相关或有切入点的综述,可以根据相应的参考文献找到那些原始的研究论文。 4. 注意文章的参考价值: 刊物的影响因子、文章的被引次数能反映文章的参考价值。但要注意引用这篇文章的其它文章是如何评价这篇文章的

计算方法论文

****学校课程考查论文 课程名称:《计算方法》 学院: 专业: 班级: 姓名: 学号: 论文题目:《我对拉格朗日公式的认识》成绩:

我对拉格朗日公式的认识 一、问题背景 (一)背景 在生产和科研中出现的函数是多种多样的,常常会遇到这样的情况:在某个实际问题中,虽然可以断定所考虑的函数在区间[a,b]上存在且连续,但却难以找出它的解析表达式,只能通过实验和观测得到在有限个点的函数值(即一张函数表)。显然,要利用这张函数表来分析函数的性态,甚至直接求出其他一些点的函数值可能是非常困难的。在有些情况 下,虽然可以写出函数的解析表达式,但由于结构相当复杂,使用起来很不方便。插值法是解决此类问题的一种比较古老的、然而却是目前常用的方法。 许多实际问题中都用函数来表示某种内在联系或规律,而不少函数都只能通过实验和观测来了解。如对实践中的某个物理量进行观测,在若干个不同的地方得到相应的观测值,拉格朗日插值法可以找到一个多项式,其恰好在各个观测的点取到观测到的值。这样的多项式称为拉格朗日插值多项式。 (二)相关数学知识 插值法利用函数f (x)在某区间中若干点的函数值,作出适当的特定函数,在这些点上取已知值,在区间的其他点上用这特定函数的值作为函数f (x)的近似值。如果这特定函数是多项式,就称它为插值多项式。 在多项式插值中,最常见、最基本的问题是:一次数不超过n次的代

数多项式P n(x)=a0+a1x+…+a n x (1) 使P n(x i)=y i (2) 其中,a0,a1,…a n为实数;x i,y i意义同前。 插值多项式的存在唯一性:若节点x0,x1,x2…x n互不相同,则(2)式满足插值条件式的n次多项式(1)存在且唯一。 可以写出n+1个n次多项式。容易看出,这组多项式仅与节点的取法有关,我们称之为n次插值基函数。 二、方法综述 某多项式函数,已知给定的k+1个取值点:(x0,y1)…(x k,y k),其中x i对应着自变量的位置,而y i对应着函数在这个位置的取值。 假设任意两个不同的x j都互不相同,那么应用拉格朗日插值公式所得到的拉格朗日插值多项式为: 其中每个为拉格朗日基本多项式(或称插值基函数),其表达式为: (x)+(x)+…+(x) 拉格朗日基本多项式l j(x)的特点是在x j上取值为1,在其它的点x i,i≠j上取值为0。 当n=1时,即得线性插值公式L1(x)=y0+y1又叫线性插值;

论文写作心得体会

论文写作心得体会 篇一 论文写作是一个一边思考和一边探索的过程,难免也走了一些弯路,我蓦然回首,论文写作的各个环节还记忆犹新,深有体会,下面谈谈对论文撰写的几点体会: 一、选题要准确。俗话说,良好的开头是成功的一半。论文写作也是一样,选题要结合自身情况,量体裁衣,在导师的指导下,选一个符合自己实际的题目。如我所处的浙江地区,是中小企业比较集中的地区,在身边发生了不少融资难问题,特别是在经济危机影响还没消去的今天,这个问题更加突出,所以我选择了将“浅谈中小企业融资难”作为题目。题目一旦论证确定,就要树立目标和信心,坚定的写下去,在写作过程中遇到困难在所难免,我们不断地去寻求解决困难的办法,切忌犹豫不定,一定要相信自己,选定的题目是有科学依据的,自己有能力有信心写下去,这一点,信心最重要,这是我们论文写作的动力和支撑。 二、研究思路要清晰。题目选定了,我们就围绕论文进行深入的论述,思路最重要,思路决定出路。论文写作,总有一个思路,是按时间顺序,历史发展顺序,战斗行动顺序,还是逻辑顺序。例如在本文中从分析事物的一般顺序出发,先描述了现状;分析了出现这种现状的原因;再到应对这种情况我们应该做什么。由表及里的确定论文的思路。 三、论据要充分。论文论文,重在论证。论文的重点在于解决“为什么”,可以不完整,但一定要亮出自己的观点,把道理讲明白,为什么是这样的观点,论据一定要充分,在论文中我们深刻探究了为什么会出现这种现象先后从中小企业自身和外部环境中进行探讨,这样论据充分了,我们的论文才显得丰满,论点才能站得住脚。 四、文中脚注和参考文献要全面。在论文写作中,不可能不引用别人的观点,不过论文写作中要标注出来,这是研究的需要,不能算抄。 论文撰写没有捷径可走,只有一步一个脚印,认认真真的去完成,在论文的字里行间凝结着导师和作者的心血,一份耕耘一份收获,预祝在一起并肩战斗的兄弟姐妹顺利通过!

论文二重极限计算方法

包头师范学院 本科毕业论文 题目:二重极限的计算方法 学生姓名:王伟 学院:数学科学学院 专业:数学与应用数学 班级:应数一班 指导教师:李国明老师 二〇一四年四月

摘要 函数极限是高等数学中非常重要的内容。关于一元函数的极限及求法,各种高等数学教材中都有详细的例题和说明。二元函数极限是在一元函数极限的基础上发展起来的,二者之间既有联系又有区别。本文在二元函数定义基础上通过求对数,变量代换等方式总结了解决二重极限问题的几种方法,并给出相关例题及解题步骤,及二重极限不存在的几种证明方法。 关键词:二重极限变量代换等不存在的证明二元函数连续性

Abstract The limit function is a very important contents of advanced mathematics. The limit of a function and method, all kinds of advanced mathematics textbooks are detailed examples and explanation. The limit function of two variables is the basis for the development in the limit of one variable function on it, there are both connections and differences in the two yuan on the basis of the definition of the logarithm function between the two, variable substitution, summarizes several methods to solve the problem of double limit, and gives some examples and solving steps. Several proof method and double limit does not exist. keywords: Double limit variable substitution, etc. There is no proof Dual function of continuity

音乐生艺考基本乐理知识(完整版)

首先,把肺里的气全部呼出去,要呼的干净; 然后,并住呼吸,把手按在小腹,也就是常说的单田,用力使单田鼓起,手要反作用在单田上,要用力,在鼓起的时候要渐渐用力,不要一下鼓起来 从开始用力到用力到极限,大约用五秒钟时间然后到最强的时候,持续五秒钟 最后,渐渐放松,也不要一下放松,大约五秒时间整个过程,注意不要呼吸。 这是一个循环,每天这样练功,两个小时,半年的时间你的唱功一定会很实力,但中间不要停止,特别是第一个星期的七天,一定要坚持下来练自己的肺活量,多游泳,多跑步!多看一些音乐录影带,看一下其他歌手唱歌时的口型,多模仿!多唱,多练 最好找一个专业的老师,指导一下,才不会误入歧途,不会把声带损害,要注意唱歌时不要多用自己的声带,要让自己的声音传的远而稳,注意运用气息,否则会使声带生茧。 声音忌讳大声喊叫。其实我们都要避免:1、大声喊叫;2、在具备充足睡眠后,每天用声不准超过两小时[总用声量],长期超量用声,必然导致声带病变[坏嗓子]! 养成用丹田气说话的习惯。意念上,不要用嗓子说话,用小腹[脐下两寸的点]说话。多练仰卧起坐,加强丹田力量[一般女性小腹力量较弱]。口腔要打开[后上下牙距离],整个口腔形成:前紧[开、齐、合、撮]后松[打开后槽牙]之势。 长期坚持科学训练。情、气、声的训练:情---七情:喜、怒、忧、思、悲、恐、惊的语言表达训练;气----掌握胸腹联合呼吸法;声----声音的弹性训练。 想把声音练的生动并且带有颤音. 你要先从开口音"a. ia ua "这几个音开始练. 如果你有钢琴可以按照琴键顺序由低音部.唱到高音部. 练好开口音.再练闭口音.比如: "u. o " 闭口音是练颤音的关键.唱闭口音时要有打哈欠的感觉. 提起胸腔.这样才会获得更好的效果. 闭口音也是按照顺序由低音部唱到高音部.然后再唱回去. 并且建议你一开始不要用颤音去模仿张学友或者刘德华的歌.他们虽说颤音很有感情.但刻意的模仿不但练不好音.而且还有可能练坏了嗓子. 我练音的歌一般都是很老的歌 比如<莫斯科郊外的晚上><大海啊故乡>.诸如此类. 基本乐理 第一章记谱法的基础知识 用音符、休止符及其它符号来记录乐曲进行的方法称为记谱法。随着音乐历史的发展,各个不同的时期由于音乐内容的不同而产生了各种的记谱方法。如工尺谱、简谱、五线谱等。 一、五线谱 由五条距离相等的平行线来记录音符与休止符,称为五线谱。五线谱自下而上来计算五条线,及由五条线所产生的间。分别称为第一线、第一间、第二线、第二间、第三线、第三间、第四线、第四间、第五线。 为了记录超出五线谱范围的更高或更低的音,在五线谱的上方和下方分别加上与之平行的短线,称为加线,由加线形成的间称为加间,上加线自下而上计算,分别是上加一间,上加一线,上加二间,上加二线,上加三间,上加三线,上加四间。下加线自上而下计算,分别为下加一间,下加一线,下加二间,下加二线,下加三间,下加三线,下加四间。

如何阅读学术论文

如何阅读学术论文 1. 要看研究领域综述性文章,对整个研究方向的发展和技术有大体的了解。找出自己想要做的方向。 2. 要看研究领域最初最原始的论文,也就是最经典的,被引用最多的论文。 看法:要仔细研究经典的原始算法和系统模型,把算法的推导都推一遍,仿真也仿一遍。记下算法的不足之处。 3. 要看引用了经典论文的论文。 看法:1. 读摘要、前言和结论,看对经典论文做了哪方面的改进,将改进方法及改进后的优缺点总结。 2. 将论文分类,分别是用在什么具体应用模型的,算法是盲的,非盲的还是半盲的。 4. 要看最新研究的论文 看法:同3 5. 要看相同算法用在不同模型下的论文,如beamforming LMS算法用在OFDM 和CDMA系统下 要看相同系统用不同算法的论文,如OFDM系统用LMS算法和用RLS算法的beamforming 看法:看摘要、前言、总结,都用了什么算法,用什么系统,什么技术,达到什么效果,优缺点。 6. 可以参考看3中的论文中参考文献涉及的论文,特别是其改进了的论文。 1.牛人一 (从phd到现在工作半年,发了12篇paper, 7篇first author.) 我现在每天还保持读至少2-3篇的文献的习惯.读文献有不同的读法.但最重要的自己总结概括这篇文献到底说了什么,否则就是白读,读的时候好像什么都明白,

一合上就什么都不知道,这是读文献的大忌,既浪费时间,最重要的是,没有养成良好的习惯,导致以后不愿意读文献. 1. 每次读完文献(不管是细读还是粗读), 合上文献后,想想看,文章最重要的take home message是什么, 如果不知道,就从abstract, conclusion里找, 并且从discuss里最好确认一下. 这样一来, 一篇文章就过关了. take home message其实都不会很多, 基本上是一些concepts, 如果你发现你需要记得很多,那往往是没有读到重点. 2. 扩充知识面的读法, 重点读introduction, 看人家提出的问题, 以及目前的进展类似的文章, 每天读一两篇,一个月内就基本上对这个领域的某个方向有个大概的了解.读好的review也行, 但这样人容易懒惰. 3. 为了写文章的读法, 读文章的时候, 尤其是看discussion的时候, 看到好的英文句型, 最好有意识的记一下,看一下作者是谁,哪篇文章,哪个期刊, 这样以后照猫画虎写的时候,效率高些.比自己在那里半天琢磨出一个句子强的多. 当然,读 的多,写的多,你需要记得句型就越少.其实很简单,有意识的去总结和记亿,就不容易忘记. 2.科研牛人二告诉研究生怎么看文献,怎么写论文 一、先看综述 先读综述,可以更好地认识课题,知道已经做出什么,自己要做什么,,还有什么问题没有解决。 对于国内文献一般批评的声音很多.但它是你迅速了解你的研究领域的入口,在此之后,你再看外文文献会比一开始直接看外文文献理解的快得多。而国外的综述多为本学科的资深人士撰写,涉及范围广,可以让人事半功倍。 二、有针对地选择文献 针对你自己的方向,找相近的论文来读,从中理解文章中回答什么问题,通过哪些技术手段来证明,有哪些结论?从这些文章中,了解研究思路,逻辑推论,学习技术方法. 1.关键词、主题词检索: 关键词、主题词一定要选好,这样,才能保证你所要的内容的全面。因为,换个主题词,可以有新的内容出现。 2. 检索某个学者: 查SCI,知道了某个在这个领域有建树的学者,找他近期发表的文章。 3. 参考综述检索: 如果有与自己课题相关或有切入点的综述,可以根据相应的参考文献找到那些原

和弦的简单乐理知识有哪些

和弦的简单乐理知识有哪些 和弦的结构类型很多,如果按照组成音的多寡来区分,和弦可以分为三和弦、七和弦及九和弦等等。三和弦是由三个音组成,七和 弦是由四个音组成,九和弦则由五个音组成。如果按照和弦组成音 之间的音程结构来分类,又可分为大和弦、小和弦、增和弦、减和 弦四种形态。 这里的和弦音也叫复音、多音(polyphony),是指MIDI中各个通道的发音数之和,与乐理中的和弦是不同的概念。和弦铃声比以往 的单音铃声音色更丰富,有强烈的立体感。目前国内的手机有4、16、24、40等多种和弦。 目前,国内市面上销售的手机,铃声大致可分为单音节铃声、3 和弦、4和弦、16和弦、32和弦、40和弦、64和弦等铃声。单音 和和弦音声音相差较大;4和弦铃声和16和弦的声音都太单簿,差 别也比较大,40和弦和32和弦的铃声差别就不大了,而64和弦和 40和弦就差别很大了。总之,3和弦、4和弦是一个档次,16和弦 是一个档次,32和弦、40和弦是一个档次,64和弦是一个档次。 和弦是按照一定的音程关系结合起来的三个或三个以上同时或先后发音,叫做“和弦”。传统和声以三度叠作为和弦构成的原则。 通常是同时发音。当你在钢琴上同时按1,3,5时所发的音,是一 个以1为根音的大三和弦。和弦的好处是声音丰满动听,富有表现力。大三和弦听起来十分响亮,而小三和弦则委婉动。 1、大三和弦:根音与三音是大三度,三音与五音是小三度,用 根音的大写英文字母音名来表示,如DO,MI,SOL和弦用C表示,FA,LA,DO和弦用F表示,降MI,SOL,降SI就用Eb表示,升FA,升LA,升DOL用F#表示。 2、小三和弦:根音与三音是小三度,三音与五音是大三度,用 根音的大写英文字母音名加上小写m表示,如RE,FA,LA和弦用

数值计算方法设计论文

课程设计(论文) 题目: 三次样条插值问题 学院: ___ 理学院 _ 专业: __ _ 数学与应用数学 班级:数学08-2班 学生姓名: 魏建波 学生学号: 080524010219 指导教师:李文宇 2010年12月17日

课程设计任务书

目录 摘要……………………………………………………………………… 一、前言………………………………………………………………… (一)Lagrange插值的起源和发展过程……………………………………… (二)本文所要达到的目的……………………………………………………… 二、插值函数…………………………………………………………… (一)函数插值的基本思想…………………………………………………… (二)Lagrange插值的构造方法……………………………………………… 三、MATLAB程序………………………………………………………… (一)Lagrange程序…………………………………………………………… (二)龙格程序………………………………………………………………… 四、理论证明…………………………………………………………… 五、综述……………………………………………………………………谢辞………………………………………………………………………参考文献…………………………………………………………………

摘要

前言 要求:500字以上,宋体小四,行距20磅,主要内容写该算法的产生及发展、应用领域等。 题目 整体要求:报告页数,正文在8页以上 字体:宋体小四(行距20磅) 内容:1、理论依据 2、问题描述 3、问题分析 4、求解计算(程序) 5、结论 注:(1)页码编号从正文页开始 (2)标题可根据情况自己适当改动 示例见下: 2判别…………………… 2.1 判……………… 2.1.1 判别……………… 所谓的判别分析,………………………………………………方法[3]。 2.1.2 判………………………… 常用的有四种判别方法:…………………………………………………步判别法[6]。 1. 马氏………………

阅读方法及阅读文章含答案

阅读方法:姓名_____________(一)读懂文章后再动笔。什么叫“读懂文章”,即读完文章后,(1)要知道这篇文章写的是什么?写人还是写事,写景还是写物?(2)作者写这篇文章是要表达某种情感还是说明某个道理?(3)我能概括出文章的内容。(4)我能用几个词语说说主人公的品质或心情。(5)文章的题目是想表达什么?是主人公,还是主要内容,还是中心。题眼很重要,不能放过。 阅读短文,文章至少读三遍,读第一遍,标小节号,题目边上写清楚;读第二遍时,想文章的内容,是抒情还是说理;题目的作用是;读第三遍时,写中心词或者在文中勾画中心句。 (二)阅读做题目的方法。1、联系上下文理解词语——瞻前顾后 所谓“瞻前顾后”具体是指联系文章前后文的句子明确词义,在具体语境中揣摩词义的变化,用自己最通俗的语言表达出来。其实解释词语的方法有很多,找近、反义词;抓住关键词解释等。 2、理解句子的含义,谈谈自己读句子的体会——字面+中心+生活。所谓“字面+中心+生活实际”指的是,先理解句子的字面意思,解释句中的关键词语,连词成句;联系文章前后的内容来解释句子,联系文章中心来理解句意,最后要结合自己的生活实际来谈感受,作者写文章的目的是表达自己的情感,或者说明一个道理,希望与我们达到共鸣,我们要联系自己的生活,来谈体会。 (三)概括段意(内容)的方法:1、摘抄法:找到这一段的中心句,一般是总起句或者总结句来概括段意。 2、组合法:将每一段(层)的意思叠加起来,就是这一段的意思。用谁干什么的语句来表达。 3、拓展法:文章中心句可以帮助你进行概括段意,找到每一段的中心词和文章的中心词挂钩,用拓展法来概括即可。(四)理解文章中心的方法:1、写人是为了表达人物的思想、品质、精神,自己读文章的时候用几个词语通俗的表达一下,提醒自己这几点在回答问题的时候不能忘记写。 2、写事情的文章,主要表达的目的是情理,自己读时要多想几点,尽量考虑周全,从文章中不同的人物身上找情理,站在不同的人物角度思考问题。 3、写景的文章多半是表达自己的情感,对祖国,对家乡……的爱或者怀念。 4、寓言、童话多半是说明一个道理,一定藏在文中,自己要好好领悟。 5、诗歌阅读多半抒情,看看作者是向谁抒情,根据不同的对象抒发什么样的情感,表达要清楚。 6、说明的阅读多半是提醒我们该怎么做,日后要注意什么,要考虑多一些。 (五)回答问答题的方法:1、回答“从哪里看出来……”的题型:首先找到问答中的关键词语,要就是“抓手”,然后在文中勾画出来,再在这个关键词语的前后找语句回答,跟着记住一定要先把语句抄下来,最后写自己的理解。 2、回答“为什么”的题型:教会学生写清楚因为……所以……,这是答题的习惯。因为的原因有两方面,一是文章内容,二是文章中心,每一方面至少都要考虑两点以上,或者记住文中有几个人物就从每个人物身上找要点。 3、回答“怎么理解……”的题型:首先从文中理解,把文章中的这句话用最通俗的方法再说一遍,可以给这个句子换说法,也可以给这个句子作解释。然后根据文章的中心再理解句子, (六)阅读说明文的方法:说明文的考核一般都是考核说明的顺序,说明的方法,使用说明方法的好处。这样的阅读题答案其实就那么几个,只要细心就能很快又准确的完成阅读任务。 阅读分析(写事类)故乡的变化 放暑假了,我跟妈妈乘船回到阔别多年的故乡探望奶奶。一上埠头,放眼四望,广阔的稻田被____江风掀起____金黄色的波浪。来到村头,原是____瓦片盖顶的泥屋已变成____华丽的楼房。紧挨村旁的一所平房校舍的小学“失踪”了,一座新建的教学大楼却拔地而起。 到了奶奶家,我简直看呆了:十分熟悉的两间小平房不见了,只见一幢三层高的西班牙式的洋房被一堵一人多高粉红色围墙环抱着,围墙大门的两边用着色的磁片粘贴成一幅醒目的对联。上联是:“改革开放除旧貌”,下联是“勤劳致富变新颜”,横批是“换了人间”。入了大门,穿过摆满各式各样的盆景的庭院进入大厅,厅中陈设的彩电、放像机、高级音响、电冰箱一一映入我的眼帘。咳,奶奶的家已经“电气化”了! 刚吃完午饭,外面传来噼噼啪啪的鞭炮声。奶奶告诉我们:“这几年,‘光棍汉’也‘转注’啦!承包了一片果园,勤勤恳恳,精心护理,现在也‘发’了,造了新房,今天娶亲呢!” 我一听到“光棍汉”娶亲就拔腿赶往看热闹。“光棍汉”已四十出头了。想当初,他游手好闲,贪精学懒,姑娘嫌他“没出息”,都不肯嫁给他。那时,我和一群年幼不懂事的小孩老是跟在他后面嘟囔:“喜柱叔,真孤独,贪精学懒无人爱,变成光棍叔。”想不到,现在……我加快脚步赶到他家,只见屋里张灯挂彩,挤满乡亲,好不热闹!我钻进人群,瞧见新郎新娘正向村小学的黄校长递烟奉茶。黄校长深深吸了一口喜烟,打趣地对新郎说:“喜柱,今天终于看到你立业成家了,可喜可贺!趁着吉日良辰,我赠你一副对联,好不好?”喜柱叔微笑点头。这时,乡亲们都静下来,很想听听黄校长吟诗作对。黄校长胸有成竹地吟诵:“昔日游手好闲形嗟影叹苦苦苦!今朝勤劳致富夫唱

相关文档
相关文档 最新文档