当前位置：文档库 › 保险业务风险分析

保险业务风险分析

基于数据挖掘的保险业务风险分析

随着我国经济体制改革的深入发展和对外经济开放，全社会的风险意识和保险意识不断增强，保险作为风险管理的重要方法日益受到重视。我国自从1980年年恢复国内保险业务以来，保险业务得到持续高速发展，业务范围不断扩大，业务种类也不断增加。保险公司成功的一个关键因素是要在设置具有竞争力的保险费率和覆盖风险之间选择一种平衡。随着我国加入WTO，保险市场竞争将日趋激烈，设置过高的保险费率意味着会失去市场，而保险费率过低，又会影响公司的赢利甚至导致亏本。对于保险公司来说，保险是一项风险业务。保险公司的一项重要工作就是进行风险评估，它对保险公司的正常运作至关重要。如果保险公司对其保险业务风险有一个准确的科学分析和预测，制定合理的保险费率，就会在市场中立于不败之地。目前保险公司对风险的分析通常是粗略的或根据经验来判断的。本文提出利用数据挖掘技术进行风险分析，在保险公司建立的保单及索赔信息数据库的基础上寻找风险较大的领域，从而得到一些实用的控制风险的规则，指导保险公司的工作。

所谓数据挖掘，是指从已构建的大型数据库中高效地提取并发现隐含的、未知的、有潜在应用价值的模式或规则，为企业进行决策提供可靠的理论依据。数据挖掘技术包括关联规则挖掘、分类模型挖掘、特征规则挖掘以及趋势分析预测等，它综合利用统计学、机器学习和人工智能的计算、分析和推理方

法，将数据转化为知识（规律）。

数据挖掘在一些专门行业已有成功的应用。例如，国外的大型商业企业，使用条码技术可收集存储大量的交易数据，对已发生的交易数据库获得有关客户购买模式的有用信息，并采取与之对应的促销措施，从而显著提高商业决策质量，取得了可观的利润回报。但数据挖掘技术在企业风险管理中的应用，尚不多见。本文以某市医疗保险数据为例，试图在这一方面作些探讨。

1、保险业数据挖掘的过程

数据挖掘是指从数据集中识别出规则或模式，它是一个多步骤的处理过程。在保险业务中数据挖掘通常包括以下几个步骤：

①、数据准备

数据挖掘的处理对象是大量的数据，这些数据一般存储在数据库系统中，是长期积累的结果。但往往不适合直接在这些数据上面进行挖掘，需要做数据准备工作，一般包括数据的选择（选择相关数据）、净化（消除冗余数据）、转换（连续型数据与离散型数据之间的转换）、数据缩减（减少数据量）。

如果挖掘的对象是数据仓库，那么这些工作往往在生成数据仓库时已经准备妥当。数据准备是数据挖掘的第一个步骤，也是比较重要的一个步骤。数据准备是否做好将影响数据挖掘的效率和准确度以及最终模式的有效性。

本文选用的医疗保险数据库由个人信息表、单位信息表、索赔单据表等数据表组成。各表信息如表1至表3所示。

表1：个人信息

个人保险号姓名性别出生日期单位编号全年工资投保日期320105********* Wang 男 19430825 000278 25500 19980630 320106********* Zhang 女 19641218 000278 18800 19980630 320103********* Chen 男 19541012 000279 15400 19980701

……………

表2:单位信息

单位编号单位名称地区编号单位类别投保日期000158 某市教育局 05 01（事业单位） 19980701 000159 某市华宁派出所 04 01（事业单位） 19980901 000213 某市外贸公司 03 02（企业单位） 19980910

…………

表3: 索赔单据

单据编号营业员编号个人保险号索赔金额索赔日期1046101 02 320460********* 278.50 19990228 1046102 05 320105********* 152.80 19990228 1046201 08 320106********* 83.30 19990228

…………

在数据准备阶段，根据直观经验去除数据中的冗余信息，例如个人姓名、性别、单位名称、投保日期、营业员编号等，统计一定时间内个人进行医疗保险索赔的次数。在个人信息表的基础上，根据单位编号获取投保人的单位信息；根据个人保险号获取投保人的索赔次数。经过数据整理工作，得到一张描述个人索赔信息的数据表格，如表4所示。

表4: 个人索赔信息数据

个人保险号年龄全年工资单位类别地区编号索赔次数是否索赔320105********* 53 15000 02(企业) 02 0 0(否) 320106********* 74 8200 01(事业) 03 2 1(是) 320107********* 62 7500 04 01 8 1(是)

…………

②执行算法，生成知识

这是数据挖掘最关键的步骤，也是技术难关所在。根据保险业务的特点，挖掘其关联规则、分类模型，找出索赔过的投保人有什么特征，没有索赔过的投保人有什么特征，进行索赔概率分析及趋势预测，从而提供风险控制规则。

③规则模式的评估与解释

第②步得到的规则模式，可能没有实际意义或没有实用价值，也可能不能准确反映数据的真实意义，甚至在某些情况下与事实相反，因此需要评估确定哪些是有效、有用的模式。评估可以根据管理人员多年的经验，有些模式也可以直接用数据来检验其准确性。对于挖掘的正确结果要作出解释，分析其合理性，为保险公司提供风险管理决策的依据。

2、关联规则挖掘

关联规则挖掘的任务是：给定一个事务数据库，求出所有满足最小支持度和最小可信度的关联规则。对于医疗保险数据库，在数据准备阶段，已经得到了一张描述个人索赔信息的数据表，如表4所示。表中年龄、年工资是数值型数据，而关联

规则涉及的是离散型数据，因此需要转换，例如将年龄分为( ，40)，(40 50)，(50, 60) (60 ,70) (70, ∞)五个组，年工资分为(, 6000), (6000, 10000) (10000，20000] (20000, ∞)四4个组。至于索赔次数，这里主要关心投保人是否索赔，因此索赔次数可以不考虑。

接下来使用关联规则挖掘工具对个人索赔信息表进行挖掘，就可以得到一系列AB的关联规则，如表5所示。从表5中可以看出，单位类别是1、并且年龄小于40岁的投保人当中，93.75%没有索赔过，而单位地区是3的投保人中索赔比例为85.64%。通过关联规则的挖掘，可以发现投保人中索赔的具有什么特征，不索赔的具有什么特征，这样保险公司就可以有针对性地对潜在客户开展工作，从而减少风险，提高公司盈利。

表5: 关联规则

A B support Confidence

单位类别=1 and年龄=(, 40) 是否索赔=0 3.80 93.75

单位类别=2 and年龄=(, 40) 是否索赔=0 2.23 89.58

单位地区=3 是否索赔=1 1.88 85.64

单位类别=3 and年工资=(, 6000) 是否索赔=1 2.47 67.39

单位类别=4 and年工资=(20000,∞) 是否索赔=0 1.69 92.25

…………

3:分类模型挖掘

分类模型挖掘的任务是：在已有数据的基础上构造一个分类模型，该模型能把数据库中的数据记录映射到给定类别中的某一个，从而可以应用于数据预测。分类模型的构造常用决策树方法。要构造决策树，需要有一个训练样本数据集作为输入，

它是一组带有类别标记的数据，构造的结果是一棵多叉树。其中内部结点是属性，边是该属性的所有取值，有几个属性值就有几条边。树的叶子结点都是类别标记。

为进行风险分析，在医疗保险数据集中，选取是否索赔作为目标属性，其它属性作为条件属性。利用决策树生成工具对表所示的数据集生成一个决策树，其分类预测规则如下所示：图1中的决策树给出的第一个选择条件是年龄。这是人们根据经验常识也可能得出的结论，即年龄大的人可能身体要差一些。但是具体到多大岁数算是“年龄大”，很难给出准确的结论。本例中，利用统计学方法，求出58岁是一个分界线。年龄小于58岁的索赔人数占9.6%，而岁以上的索赔人数占28.45%。

再看下一个分支条件为“全年工资”，可以想象，年收入高的投保人可能在健身、保健等方面有条件投资，而年收入低的投保人可能对保健考虑得少一些，所以年收入的高低对医疗保险的索赔情况产生较大的影响是可信的。还有“单位类别”也是决策树中的一个分支条件，在其它条件相同的情况下，投保人单位类别的不同，会导致索赔的可能性也不同。这可能是由于医疗费用的支付方法与单位类别有关，例如，企业单位的投保人需要负担医疗费用中的较大部分，而事业单位的投保人所要负担的费用占总医疗费用的比例要低得多。这样，企业单位的投保人考虑到需要自己支付较多的费用，很多可看可不看的病很可能就不上医院了。

根据决策树和投保人的详细信息，可以预测一段时间内索

赔概率的大小，并相应制订某类投保人的保险费率。