文档库 最新最全的文档下载
当前位置:文档库 › 分类规则在金融行业的应用分析

分类规则在金融行业的应用分析

分类规则在金融行业的应用分析
分类规则在金融行业的应用分析

分类规则在金融行业的应用分析

*

;

摘要:数据库内容丰富,蕴藏大量信息。数据挖掘的主要任务是对大型数据库中的海量业务数据进行抽取、转换、分析和模型化处理,从中提取辅助决策的关键性数据和隐藏的预测性信息。其功能是在指定的数据集中发掘出数据间潜在的模式,找出人们可能忽视的信息,以便于理解和观察的形式反映给用户,并给出基于知识的决策分析意见和结论。随着数据挖掘的蓬勃发展,它的功能会越来越多。分类规则就是其中一种,它可以用于提取描述重要数据类的模型。许多分类方法已被机器学习、专家系统、统计学以及神经生物学方面的研究者提出。基于以上内容,可以建立一个分类模型,进行详细的分析,对保险客户的信用、安全或风险进行分类评价。

关键词:数据挖掘;分类;金融;保险

前言:数据挖掘的主要任务是对大型数据库中的海量业务数据进行抽取、转换、分析和模型化处理,从中提取辅助决策的关键性数据和隐藏的预测性信息。其功能是在指定的数据集中发掘出数据间潜在的模式,找出人们可能忽视的信息,以便于理解和观察的形式反映给用户,并给出基于知识的决策分析意见和结论。分类规则一种数据分析形式,可以用于提取描述重要数据类的模型。许多分类方法已被机器学习、专家系统、统计学以及神经生物学方面的研究者提出,同时基于分类规则方法的数据挖掘被广泛应用于金融行业。

正文:分类规则在金融行业的应用分析

众所周知,数据库内容丰富,蕴藏大量信息,可以用来作出智能的商务决策。数据分类是数据挖掘的功能之一,也是数据挖掘领域一种非常重要的任务,在神经网络、专家系统、统计学习中得到较早的研究,并且目前在商业中得到了广泛的应用。数据分类实际上就是从数据库对象中发现共性,将数据对象分成不同几类的一个过程,具体来说是在己有数据的基础上建立一个分类函数或构造出一个分类模型,该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。分类是一种有监督的学习。本文就数据挖掘中的分类规则的相关知识进行详尽分析与应用说明。

一、数据分类的概念

数据分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其

划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。

二、分类规则的分析

分类定义为:给定数据库S={s1,s2,…,sn} ,元组si ∈S ,类的集合

C={c1,c2,…,cm },分类问题定义为从数据库到类集合的映射f: S →C ,即数据库中的元si 分配到某个类Cj 中,有Cj={si|f(si)= cj ,1≤i ≤n,si ∈D}。

数据分类是一个两步过程。第一步,建立一个模型,描述预定的数据类集或概念集;第二步,使用模型进行分类。

通常在分类任务中数据集被划分为训练集和测试集两个部分。数据集中用来建立模型数据称为训练集,训练集是构造分类器的基础。训练集由多条数据库记录组成,每条记录是一个由多个个相关字段值组成的特征向量,称之为属性,训练集的每条记录还有一个特定的值与之对应,用于表示该记录的类别,称之为类标签。测试集是数据集中的另外一组数据库记录,用来评估分类模型的准确率。

数据分类的基本技术有:判定树归约、贝叶斯分类和贝叶斯网络、神经网络。

三、判定树归约

/

判定树是一个类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。在判定树构造时,许多分枝可能反映的是训练数据中的噪声或孤立点。树剪枝试图检测和剪去这种分枝,以提高在未知数据上分类的准确性。判定树作为一种常用的机器学习方法,主要用于建立预测模型,它通过将大量数据有目的分类,从中找到一些有价值的、潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。

判定树归约的基本算法是贪心算法,它自顶向下递归的各个击破方式构造判定树。设S 是s 个数据样本的集合。假定类标号属性具有m 个不同值,定义m 个不同类Ci (i=1,...,m )。设si 是类Ci 中的样本数.一个给定的样本分类所需的期望信息由下式给出:

∑=-=m

i i i m p p s s s I 1

21)(log ),...,,(

设属性A 具有V 个不同值{a 1a 2,...,a v }。可以用属性A 将S 划分为v 个子集{S 1,S 2,...,S v };其中。S i 包含s 中这样一些样本,它们在A 上具有值a j 。如果A 宣

威测试属性(即最好的分裂属性),则这些子集对应于由包含集合S 的节点生长

)(),..,,()(ain 21A E s s s I A G M -=

根据以上数据可以进行判定树归约:(1)计算给定样本分类所需的期望信息

I (T) = ?3/9log

23/9-6/9log

2

6/9 =

(2)计算每个属性的熵

性别:

~

I

x1

(T)=4/9(-1/2log21/2-1/2lg21/2)+5/9(-1/5log21/5-4/5log24/5)= Gain(x1)=客户年龄:

此属性是个连续变量,先离散化处理。这里的离散化是把连续的样本排成顺序,然后找出它的中间某个值(称作阀值),使得根据阀值计算出来的信息增益达到最大。例子中客户年龄的阀值是{23,24,30,35,43,45,46,48,51},从这几个值中选取最优阀值(最高信息增益),对于这的例子来讲阀值选定为

48。

I x2(T)=2/9(-1/2log

2

1/2-1/2lg

2

1/2)+7/9(-2/7log

2

2/7-5/7log

2

5/7)=

Gain(x2)=优惠情况:

I x3(T)=3/9(-1/3log

2

1/3-2/3log

2

2/3)+6/9(-1/3log

2

1/3-2/3log

2

2/3)=

Gain(x3)=比较三个属性的信息增益,可以看出客户年龄具有最高信息增益率,所以选择客户年龄对决策树进行首次分区,如图2。由于第二个集合子节点的样本仍然不同属于一个类,所以还要继续对第二个数据集采取同样的方法进行分区,直到树的每个分支都属于同一个类为止,最后得出结果如图3。

图2 首次分区后的判定树

图3判定树分区后的结果图

从这最后的结果图中可以很明显的得到一些信息:当年龄大于48岁的时候流失;当年龄小于或等48岁并且入网时享受优惠时客户不流失,并且全部是女客户。

基于上述分类规则在保险业的应用,可以看出,经过一系列的数据计算,将原本大数据分类合并,根据算出的期望得到各自的信息增益,通过信息增益发现事件的本质与关键因素。在这些关键指标确立后,为决策者提供更好的决策方案。

结论:

以保险业利用分类规则中的判定树归约进行客户流失分析的案例,用来说明分类规则的金融行业的应用、解决的问题、如何解决以及可以得到什么结论。经过数据分类后得到各个因素的影响力,可以用来分析含有多种因素的事件,得到想要的结论。正是如此,它被广泛运用于金融领域。在社会发展的同时,数据挖掘技术正不断推动着金融行业的发展。在这个领域中,数据挖掘中的分类规则可

以应用于客户关系管理、业绩评价、财务预算、市场分析、风险评估和风险预测等多个相关领域之中,大大提高了金融市场的效率,降低金融机构存在的风险。

参考文献:

Jiawei Han、Michelinekamber著范明、孟小峰等译.数据挖掘概念和技术.:机械工业出版社,2001年

赵卫东 .商务智能(第二版): 清华大学出版社,2011年

保险案例参考:

马江 .数据挖掘技术在保险公司客户流失预测中的应用研究 : 西安理工大学硕士学位论文2010年

数据挖掘在电信行业客户流失分析中的应用研究

相关文档