文档库 最新最全的文档下载
当前位置:文档库 › 决策树基本概念

决策树基本概念

决策树基本概念
决策树基本概念

2. 1决策树算法简介

随着数据挖掘技术的越来越广泛的应用,决策树作为数据挖掘技术中一种分类问题的解决方法也受到重视,正在被广泛的研究。约20年前,决策树这种数据挖掘技术的形式就己经和现在非常相似了,算法的早期版本可以追溯到20世纪60年代[1]。以后决策树归纳算法被广泛应用到许多进行分类识别的应用领域。这类算法无需相关领域知识,归纳的学习与分类识别的操作处理速度都相当快。而对于具有细长条分布性质的数据集合来讲,决策树归纳算法相应的分类准确率是相当高的。决策树也是分析消耗、发现交叉销售机会、进行促销、信用风险或破产分析和发觉欺诈行为的得力工具。采用决策树,可以将数据规则可视化,也不需要长时间的构造过程,输出结果容易理解,精度较高,因此决策树在知识发现系统中应用较广。决策树的广泛应用使得对决策树生成算法也得到更多的研究,生成决策树算法应当注意的问题主要是数据过分近似和测试属性选择问题的处理。

决策树算法是一种很好的归纳分类算法。在过去的一段时间里,决策树算法在人工智能和数据挖掘领域一直受到很好的重视和应用[8]。决策树算法可设计成具有良好可伸缩性的算法,能很好地与特大型数据库结合,例如大型的银行系统,能处理多种数据类型。决策树算法的另外一个优点是其结果比较形象,容易被使用者和客户理解,其分类形成的模型容易转化成分类规则。

决策树算法的特点是从一组无规则、无次序的实例案例中推导出可以用决策树表示的模型,从而形成一组分类规则。它采用自上向下的递归形式,在决策树模型的内部节点进行属性值的比较,然后根据属性值的大小决定从该节点向下的分枝,最终在决策树的叶结点得到结论。因此,决策树模型从根到叶结点的一条路径就对应这一条合取规则,整棵决策树模型就对应着一组规则。建立决策树模型是一种逼近离散值函数的方法,对测试案例中的噪声数据有很好的健壮性,这种方法将从一组训练案例中学习到的函数表示为一棵决策树。

2. 2决策树算法的基本概念

决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。

决策树[16]由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,每个分支是一个新的决策结点,或者是树的叶子。每个决策结点代表一个问题或决策,通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。决策树模型从上到下遍历的过程中,在每个分支都会遇到一个比较,根据不同的结果会走不同的分支,最终会到达一个叶子结点,这个过程就是利用决策树模型进行分类的过程。

决策树模型包含决策节点、分支和叶子。决策节点引出分支,每根分支代表一个决策方案,每根分支连接到一个新的节点,新的节点可能是新的决策节点,也可能是叶子,表示一个具

体的最终状态。在解决实际问题时,决策节点表示待分类实例的属性,每个分支表示一个可能的取值。决策树算法的技术难点在于如何选择一个好的分支方法。决策树算法在实践中主要应用于分类和预测,它主要提供了一种解决方法,类似于在什么样的条件下会得到什么的结果这类规则的方法。一个决策树是一系列问题的集合,每个问题决定了下一个问题是什么.

决策树算法的优点是适合于处理非数值型数据,如果生成的决策树模型过于庞大,会对实验结果的分析带来困难,因此需要在决策树模型生成后,再对决策树模型进行剪枝处理,最终将决策树模型转化为规则。决策树模型的建立过程,就是不断地把实例数据进行切分。每次切分对应着一个节点,每次切分都尽量要求分成的节点之间的差异性最大。决策树算法的种类很多,它们之间的主要区别就是差异性衡量方式的区别。

决策树的建立[9]是本质是贪心算法,是一种自上而下、分而治之的归纳过程。决策树算法的建立由根节点开始,对于非叶自节点,寻找其对应样本集中的一个属性,对样本集进行测试,然后根据不同的测试结果将训练样本集重新划分成若干个子样本集,每一个子样本集构成一个新叶节点,对新叶节点再重复上述划分过程,不断循环,直至达到设置的特定终止条件。每种决策树算法使用的技术也不尽相同,分裂属性的选择和如何划分样本集是建立决策树模型的关键环节。决策树算法进行分类分为如下两个步骤。第一,首先利用训练集建立一棵决策树,就是所谓的决策树模型。建立决策树模型的过程本质上是一个从数据库记录中获取知识,进行机器学习的过程。第二,利用第一步建立的决策树模型对输入的数据进行分类。决策树模型的算法本质是贪心算法,它自上而下递归的各个击破方式建立决策树,对输入的数据纪录,从根节点开始依次测试记录的属性值,一直到达叶子节点,从而找到该记录所在的分类。

由于实际应用的训练样本集的规模一般较大,因此生成的决策树模型的分枝和层数也较多,其次,训练样本集中存在的噪声和异常也可能导致产生异常分枝,因此需要对建立的决策树模型进行剪枝处理。剪枝按照实施的时间不同,可以分为预剪枝和后剪枝两种。预剪枝,是在建立决策树的过程中对其每个预生成分枝的节点进行判断,若生成的分支可能导致异常分枝,则停止此分枝的生成,将此预生成的分枝剪去,然后重新生成;后剪枝与预剪枝则不同,它是等待决策树模型完全生成以后,然后运用特定的剪枝算法对整棵决策树进行修剪,以满足实际的需要。树剪枝的过程,其实也是对决策树模型分类准确率的检验过程,目的是生成一棵规模相对较小而分类准确率较高,即层数和分枝较少的决策树,满足实际系统的需要。

所有决策树算法在处理数据的方式上一般都很相似,但在决定如何根据属性重要性,对不同属性进行分组和排序时,它们采用不同的数学算法。下面简单介绍决策树的建立过程:

1. 首先从数据源中选取变量,也就是属性。用户从数据源的所有变量中选择其中一个变量作为因变量,还有许多个其它类似的输入变量。

2. 然后分析每个变量对输出结果产生的影响,对每一个变量的值进行分组。这是一个迭代的循环过程。

3.从第二步计算得到基于每一变量的分组之后,就可以根据结果,找到对于因变量来说最具有预测性的变量,且可以用这个变量来建立决策树模型的叶子节点。建立决策树的过程就是树的生长过程,不断的把数据进行分组,每次分组对应一个实际问题,也就是对应着决策树

模型的一个节点。该过程对每次分组都要求分成的组之间“差异”最大。

R语言-决策树算法知识讲解

R语言-决策树算法

决策树算法 决策树定义 首先,我们来谈谈什么是决策树。我们还是以鸢尾花为例子来说明这个问题。 观察上图,我们判决鸢尾花的思考过程可以这么来描述:花瓣的长度小于 2.4cm的是setosa(图中绿色的分类),长度大于1cm的呢?我们通过宽度来判别,宽度小于1.8cm的是versicolor(图中红色的分类),其余的就是 virginica(图中黑色的分类) 我们用图形来形象的展示我们的思考过程便得到了这么一棵决策树: 这种从数据产生决策树的机器学习技术叫做决策树学习, 通俗点说就是决策树,说白了,这是一种依托于分类、训练上的预测树,根据已知预测、归类未来。 前面我们介绍的k-近邻算法也可以完成很多分类任务,但是他的缺点就是含义不清,说不清数据的内在逻辑,而决策树则很好地解决了这个问题,他十分好理解。从存储的角度来说,决策树解放了存储训练集的空间,毕竟与一棵树的存储空间相比,训练集的存储需求空间太大了。 决策树的构建 一、KD3的想法与实现 下面我们就要来解决一个很重要的问题:如何构造一棵决策树?这涉及十分有趣的细节。 先说说构造的基本步骤,一般来说,决策树的构造主要由两个阶段组成:第一阶段,生成树阶段。选取部分受训数据建立决策树,决策树是按广度优先建立直到每个叶节点包括相同的类标记为止。第二阶段,决策树修剪阶段。用剩余数据检验决策树,如果所建立的决策树不能正确回答所研究的问题,我们要对决策树进行修剪直到建立一棵正确的决策树。这样在决策树每个内部节点处进行属性值的比较,在叶节点得到结论。从根节点到叶节点的一条路径就对应着一条规则,整棵决策树就对应着一组表达式规则。 问题:我们如何确定起决定作用的划分变量。 我还是用鸢尾花的例子来说这个问题思考的必要性。使用不同的思考方式,我们不难发现下面的决策树也是可以把鸢尾花分成3类的。 为了找到决定性特征,划分出最佳结果,我们必须认真评估每个特征。通常划分的办法为信息增益和基尼不纯指数,对应的算法为C4.5和CART。 关于信息增益和熵的定义烦请参阅百度百科,这里不再赘述。 直接给出计算熵与信息增益的R代码:

决策树算法介绍(DOC)

3.1 分类与决策树概述 3.1.1 分类与预测 分类是一种应用非常广泛的数据挖掘技术,应用的例子也很多。例如,根据信用卡支付历史记录,来判断具备哪些特征的用户往往具有良好的信用;根据某种病症的诊断记录,来分析哪些药物组合可以带来良好的治疗效果。这些过程的一个共同特点是:根据数据的某些属性,来估计一个特定属性的值。例如在信用分析案例中,根据用户的“年龄”、“性别”、“收入水平”、“职业”等属性的值,来估计该用户“信用度”属性的值应该取“好”还是“差”,在这个例子中,所研究的属性“信用度”是一个离散属性,它的取值是一个类别值,这种问题在数据挖掘中被称为分类。 还有一种问题,例如根据股市交易的历史数据估计下一个交易日的大盘指数,这里所研究的属性“大盘指数”是一个连续属性,它的取值是一个实数。那么这种问题在数据挖掘中被称为预测。 总之,当估计的属性值是离散值时,这就是分类;当估计的属性值是连续值时,这就是预测。 3.1.2 决策树的基本原理 1.构建决策树 通过一个实际的例子,来了解一些与决策树有关的基本概念。 表3-1是一个数据库表,记载着某银行的客户信用记录,属性包括“姓名”、“年龄”、“职业”、“月薪”、......、“信用等级”,每一行是一个客户样本,每一列是一个属性(字段)。这里把这个表记做数据集D。 银行需要解决的问题是,根据数据集D,建立一个信用等级分析模型,并根据这个模型,产生一系列规则。当银行在未来的某个时刻收到某个客户的贷款申请时,依据这些规则,可以根据该客户的年龄、职业、月薪等属性,来预测其信用等级,以确定是否提供贷款给该用户。这里的信用等级分析模型,就可以是一棵决策树。在这个案例中,研究的重点是“信用等级”这个属性。给定一个信用等级未知的客户,要根据他/她的其他属性来估计“信用等级”的值是“优”、“良”还是“差”,也就是说,要把这客户划分到信用等级为“优”、“良”、“差”这3个类别的某一类别中去。这里把“信用等级”这个属性称为“类标号属性”。数据集D中“信用等级”属性的全部取值就构成了类别集合:Class={“优”,

如何运用决策树进行分类分析

如何运用决策树进行分类分析 前面我们讲到了聚类分析的基本方法,这次我们来讲讲分类分析的方法。 所谓分类分析,就是基于响应,找出更好区分响应的识别模式。分类分析的方法很多,一般而言,当你的响应为分类变量时,我们就可以使用各种机器学习的方法来进行分类的模式识别工作,而决策树就是一类最为常见的机器学习的分类算法。 决策树,顾名思义,是基于树结构来进行决策的,它采用自顶向下的贪婪算法,在每个结点选择分类的效果最好的属性对样本进行分类,然后继续这一过程,直到这棵树能准确地分类训练样本或所有的属性都已被使用过。 建造好决策树以后,我们就可以使用决策树对新的事例进行分类。我们以一个生活小案例来说什么是决策树。例如,当一位女士来决定是否同男士进行约会的时候,她面临的问题是“什么样的男士是适合我的,是我值得花时间去见面再进行深入了解的?” 这个时候,我们找到了一些女生约会对象的相关属性信息,例如,年龄、长相、收入等等,然后通过构建决策树,层层分析,最终得到女士愿意去近一步约会的男士的标准。 图:利用决策树确定约会对象的条件

接下来,我们来看看这个决策的过程什么样的。 那么,问题来了,怎样才能产生一棵关于确定约会对象的决策树呢?在构造决策树的过程中,我们希望决策树的每一个分支结点所包含的样本尽可能属于同一类别,即结点的”纯度”(Purity )越来越高。 信息熵(Information Entropy )是我们度量样本集合纯度的最常见指标,假定当前样本集合中第K 类样本所占的比例为P k ,则该样本集合的信息熵为: Ent (D )=?∑p k |y| k=1 log 2p k 有了这个结点的信息熵,我们接下来就要在这个结点上对决策树进行裁剪。当我们选择了某一个属性对该结点,使用该属性将这个结点分成了2类,此时裁剪出来的样本集为D 1和D 2, 然后我们根据样本数量的大小,对这两个裁剪点赋予权重|D 1||D|?,|D 2||D|?,最后我们就 可以得出在这个结点裁剪这个属性所获得的信息增益(Information Gain ) Gain(D ,a)=Ent (D )?∑|D V ||D |2 v=1Ent(D V ) 在一个结点的裁剪过程中,出现信息增益最大的属性就是最佳的裁剪点,因为在这个属性上,我们获得了最大的信息增益,即信息纯度提升的最大。 其实,决策树不仅可以帮助我们提高生活的质量,更可以提高产品的质量。 例如,我们下表是一组产品最终是否被质检接受的数据,这组数据共有90个样本量,数据的响应量为接受或拒绝,则|y|=2。在我们还没有对数据进行裁剪时,结点包含全部的样本量,其中接受占比为p 1= 7690,拒绝占比为p 2=1490,此时,该结点的信息熵为: Ent (D )=?∑p k |y|k=1log 2p k =-(7690log 27690+1490log 21490)=0.6235

决策树分类-8页文档资料

基于专家知识的决策树分类 概述 基于知识的决策树分类是基于遥感影像数据及其他空间数据,通过专家经验总结、简单的数学统计和归纳方法等,获得分类规则并进行遥感分类。分类规则易于理解,分类过程也符合人的认知过程,最大的特点是利用的多源数据。 如图1所示,影像+DEM就能区分缓坡和陡坡的植被信息,如果添加其他数据,如区域图、道路图土地利用图等,就能进一步划分出那些是自然生长的植被,那些是公园植被。 图1.JPG 图1 专家知识决策树分类器说明图 专家知识决策树分类的步骤大体上可分为四步:知识(规则)定义、规则输入、决策树运行和分类后处理。 1.知识(规则)定义 规则的定义是讲知识用数学语言表达的过程,可以通过一些算法获取,也可以通过经验总结获得。 2.规则输入

将分类规则录入分类器中,不同的平台有着不同规则录入界面。 3.决策树运行 运行分类器或者是算法程序。 4.分类后处理 这步骤与监督/非监督分类的分类后处理类似。 知识(规则)定义 分类规则获取的途径比较灵活,如从经验中获得,坡度小于20度,就认为是缓坡,等等。也可以从样本中利用算法来获取,这里要讲述的就是C4.5算法。 利用C4.5算法获取规则可分为以下几个步骤: (1)多元文件的的构建:遥感数据经过几何校正、辐射校正处理后,进行波段运算,得到一些植被指数,连同影像一起输入空间数据库;其他空间数据经过矢量化、格式转换、地理配准,组成一个或多个多波段文件。 (2)提取样本,构建样本库:在遥感图像处理软件或者GIS软件支持下,选取合适的图层,采用计算机自动选点、人工解译影像选点等方法采集样本。 (3)分类规则挖掘与评价:在样本库的基础上采用适当的数据挖掘方法挖掘分类规则,后基于评价样本集对分类规则进行评价,并对分类规则做出适当的调整和筛选。这里就是C4.5算法。 4.5算法的基本思路基于信息熵来“修枝剪叶”,基本思路如下: 从树的根节点处的所有训练样本D0开始,离散化连续条件属性。计算增益比率,取GainRatio(C0)的最大值作为划分点V0,将样本分为两个部分D11和D12。对属性C0的每一个值产生一个分支,分支属性值的相应样本子集被移到新生成的子节点上,如果得到的样本都属于同一个类,那么直接得到叶子结点。相应地将此方法应用于每个子节点上,直到节点的所有样本都分区到某个类中。到达决策树的叶节点的每条路径表示一条分类规则,利用叶列表及指向父结点的指针就可以生成规则表。

决策树计算题

1、为生产甲产品,小行星公司设计了两个基本方案:一就是建大工厂,二就是建小工厂。如果销路好,3年以后考虑扩建。建大工厂需投资300万元,建小工厂需投资160万元,3年后扩建另需投资140万元。扩建后可使用7年,其年度损益值与大工厂相同。每种自然状态的预测概率及年度损益值如下表: 2山姆公司的生产设备已经落后,需要马上更新。公司有人认为,目前产品销路增长,应在更新设备的同时扩大再生产的规模。但也有人认为,市场形势尚难判断,不如先更新设备,3年后再根据形势变化考虑扩大再生产的规模问题。这样,该公司就面临着两个决策方案。决策分析的有关资料如下: A、现在更新设备,需投资35万元, 3年后扩大生产规模,另需投资40万元。 B、现在更新设备的同时扩大再生产的规模,需投资60万元。 C、现在只更新设备,在销售情况良好时,每年可获利6万元;在销售情况不好时,每年可获利4、5万元。 D、如果现在更新与扩产同时进行,若销售情况好,前3年每年可获利12万元;后7年每年可获利15万元;若销售情况不好,每年只获利3万元。 E、每种自然状态的预测概率如下表 3某公司为满足某地区对某一产品的需求设计了三个方案:第一个方案就是新建一个大工厂,需投资320万元;第二个方案就是新建一个小工厂,需投资140

万元;第三方案就是先投资140万元建造一个小工厂,三年以后,如果销路好再考虑扩建,扩建需追加投资200万元,收益与新建大工厂方案相同。根据预测该产品在前三年销路好的概率为0、7,销路差的概率为0、3。如果前三年销路好,后七年销路好的概率为0、9,销路差的概率为0、1;如果前三年的铺路差,则后七年的 企业现在有两个方案可以选 择:(1)新建一个新产品生产车间, 投资需140万元;(2)扩建原有 车间,投资需60万元。两个方案 在不同自然状态下的年收益如下 表(5大华工厂的生产设备已经落后,需要马上更新。公司有人认为,目前产品销路增长,应在更新设备的同时扩大再生产的规模。但也有人认为,市场形势尚难判断,不如先更新设备,3年后再根据形势变化考虑扩大再生产的规模问题。这样,该公司就面临着两个决策方案。决策分析的有关资料如下: A 、现在更新设备,需投资35万元, 3年后扩大生产规模,另需投资40万元。 B 、现在更新设备的同时扩大再生产的规模,需投资60万元。 C 、现在只更新设备,在销售情况良好时,每年可获利6万元;在销售情况不好时,每年可获利4、5万元。 D 、如果现在更新与扩产同时进行,若销售情况好,前3年每年可获利12万元;后7年每年可获利15万元;若销售情况不好,每年只获利3万元。 E 、每种自然状态的预测概率如下表

决策树分类算法

决策树分类算法 决策树是一种用来表示人们为了做出某个决策而进行的一系列判断过程的树形图。决策树方法的基本思想是:利用训练集数据自动地构造决策树,然后根据这个决策树对任意实例进行判定。 1.决策树的组成 决策树的基本组成部分有:决策节点、分支和叶,树中每个内部节点表示一个属性上的测试,每个叶节点代表一个类。图1就是一棵典型的决策树。 图1 决策树 决策树的每个节点的子节点的个数与决策树所使用的算法有关。例如,CART算法得到的决策树每个节点有两个分支,这种树称为二叉树。允许节点含有多于两个子节点的树称为多叉树。 下面介绍一个具体的构造决策树的过程,该方法

是以信息论原理为基础,利用信息论中信息增益寻找数据库中具有最大信息量的字段,建立决策树的一个节点,然后再根据字段的不同取值建立树的分支,在每个分支中重复建立树的下层节点和分支。 ID3算法的特点就是在对当前例子集中对象进行分类时,利用求最大熵的方法,找出例子集中信息量(熵)最大的对象属性,用该属性实现对节点的划分,从而构成一棵判定树。 首先,假设训练集C 中含有P 类对象的数量为p ,N 类对象的数量为n ,则利用判定树分类训练集中的对象后,任何对象属于类P 的概率为p/(p+n),属于类N 的概率为n/(p+n)。 当用判定树进行分类时,作为消息源“P ”或“N ”有关的判定树,产生这些消息所需的期望信息为: n p n log n p n n p p log n p p )n ,p (I 22++-++- = 如果判定树根的属性A 具有m 个值{A 1, A 2, …, A m },它将训练集C 划分成{C 1, C 2, …, C m },其中A i 包括C 中属性A 的值为A i 的那些对象。设C i 包括p i 个类P 对象和n i 个类N 对象,子树C i 所需的期望信息是I(p i , n i )。以属性A 作为树根所要求的期望信息可以通过加权平均得到

决策树实例计算

计算题 一 1.为生产甲产品,小行星公司设计了两个基本方案:一是建大工厂,二是建小工厂。如果销路好,3年以后考虑扩建。建大工厂需投资300万元,建小工厂需投资160万元,3年后扩建另需投资140万元。扩建后可使用7年,其年度损益值与大工厂相同。每种自然状态的预测概率及年度损益值如下表: 前 3 年 后 7 年 根据上述资料试用决策树法做出决策。 四、计算题(15分)

答:建大厂收益=581-300=281 建小厂收益=447-160=287 所以应选择建小厂方案。 二 山姆公司的生产设备已经落后,需要马上更新。公司有人认为,目前产品销路增长,应在更新设备的同时扩大再生产的规模。但也有人认为,市场形势尚难判断,不如先更新设备,3年后再根据形势变化考虑扩大再生产的规模问题。这样,该公司就面临着两个决策方案。决策分析的有关资料如下: A、现在更新设备,需投资35万元, 3年后扩大生产规模,另需投资40万元。 B、现在更新设备的同时扩大再生产的规模,需投资60万元。 C、现在只更新设备,在销售情况良好时,每年可获利6万元;在销售情况不好时,每年可获利4、5万元。 D、如果现在更新与扩产同时进行,若销售情况好,前3年每年可获利12万元;后7年每年可获利15万元;若销售情况不好,每年只获利3万元。 E、每种自然状态的预测概率如下表

前 3 年 后 7 年 根据上述资料试用决策树法做出决策。 答案:

结点7收益值=0、85×7 × 15+0、15 ×7 ×3=92、4(万元)

结点8收益值=0、85×7 ×6+0、15 ×7 ×4、5=40、4(万元) 结点9收益值=0、1×7 × 15+0、9 ×7 ×3=29、4(万元) 结点10收益值=0、1×7 × 6+0、9 ×7 ×4、5=32、6(万元) 结点1收益值=0、7×[52、4+(3 × 6)]+0、3 ×[32、6+(3 × 4、5)]=63、1(万元) 结点2收益值=0、7×[92、4+(3 × 12)]+0、3 ×[29、4+(3 × 3)]=101、4(万元) 答:用决策树法进行决策应选择更新扩产方案,可获得收益41、4万元。 三 某厂准备生产Y种新产品,对未来的销售前景预测不准,可能出现高需求、中需求、低需求三种自然状态。组织有三个方案可供选择:新建一个车间;扩建原有车间;对原有车间的生产线进行局部改造。三个方案在5年内的经济效益见下表(单位:万元): 0 1 请分别用悲观决策法、乐观决策法、最大最小后悔决策法做出决策。 悲观决策法指当存在几种自然状态的情况下,宁可把情况估计得坏一 些,从中选择一个收益最大的方案,决策稳妥可靠。按此准则,在低需求的自然状态下,5年内新建方案亏损160万,扩建方案保本,改造方案获利80万。改造方案最佳。 乐观决策法: 新建E=(0、7X600)+(1-0、7)X(-160)=372(万元) 扩建E=(0、7X400)+ (1-0、7)X0=280 (万元) 改造E=(0、7X300)+ (1-0、7)X80=234 (万元) 比较结果,新建方案最佳。 最大最小后悔决策,是用后悔值计算表进行计算的: 后悔值计算表

决策树分类的定义以及优缺点 (1)

决策树分类 决策树(Decision Tree)又称为判定树,是运用于分类的一种树结构。其中的每个内部结点(internal node)代表对某个属性的一次测试,每条边代表一个测试结果,叶结点(leaf)代表某个类(class)或者类的分布(class distribution),最上面的结点是根结点。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。 构造决策树是采用自上而下的递归构造方法。决策树构造的结果是一棵二叉或多叉树,它的输入是一组带有类别标记的训练数据。二叉树的内部结点(非叶结点)一般表示为一个逻辑判断,如形式为(a = b)的逻辑判断,其中a 是属性,b是该属性的某个属性值;树的边是逻辑判断的分支结果。多叉树(ID3)的内部结点是属性,边是该属性的所有取值,有几个属性值,就有几条边。树的叶结点都是类别标记。 使用决策树进行分类分为两步: 第1步:利用训练集建立并精化一棵决策树,建立决策树模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程。 第2步:利用生成完毕的决策树对输入数据进行分类。对输入的记录,从根结点依次测试记录的属性值,直到到达某个叶结点,从而找到该记录所在的类。 问题的关键是建立一棵决策树。这个过程通常分为两个阶段: (1) 建树(Tree Building):决策树建树算法见下,可以看得出,这是一个递归的过程,最终将得到一棵树。 (2) 剪枝(Tree Pruning):剪枝是目的是降低由于训练集存在噪声而产生的起伏。 决策树方法的评价。 优点 与其他分类算法相比决策树有如下优点: (1) 速度快:计算量相对较小,且容易转化成分类规则。只要沿着树根向下一直走到叶,沿途的分裂条件就能够唯一确定一条分类的谓词。 (2) 准确性高:挖掘出的分类规则准确性高,便于理解,决策树可以清晰的显示哪些字段比较重要。 缺点 一般决策树的劣势: (1) 缺乏伸缩性:由于进行深度优先搜索,所以算法受内存大小限制,难于处理大训练集。一个例子:在Irvine机器学习知识库中,最大可以允许的数据集仅仅为700KB,2000条记录。而现代的数据仓库动辄存储几个G-Bytes的海量数据。用以前的方法是显然不行的。

决策树练习题计算题

计算题 1.为生产甲产品,小行星公司设计了两个基本方案:一是建大工厂,二是建小工厂。如果销路好,3年以后考虑扩建。建大工厂需投资300万元,建小工厂需投资160万元,3年后扩建另需投资140万元。扩建后可使用7年,其年度损益值与大工厂相同。每种自然状态的预测概率及年度损益值如下表: 前 3 年 后 7 年

根据上述资料试用决策树法做出决策。 2、计算题(15分)

答:建大厂收益=581-300=281 建小厂收益=447-160=287 所以应选择建小厂方案。 3.山姆公司的生产设备已经落后,需要马上更新。公司有人认为,目前产品销路增长,应在更新设备的同时扩大再生产的规模。但也有人认为,市场形势尚难判断,不如先更新设备,3年后再根据形势变化考虑扩大再生产的规模问题。这样,该公司就面临着两个决策方案。决策分析的有关资料如下: A、现在更新设备,需投资35万元, 3年后扩大生产规模,另需投资40万元。 B、现在更新设备的同时扩大再生产的规模,需投资60万元。 C、现在只更新设备,在销售情况良好时,每年可获利6万元;在销售情况不好时,每年可获利4、5万元。

D、如果现在更新与扩产同时进行,若销售情况好,前3年每年可获利12万元;后7年每年可获利15万元;若销售情况不好,每年只获利3万元。 E、每种自然状态的预测概率如下表 前 3 年 后 7 年

根据上述资料试用决策树法做出决策。 答案:

结点7收益值=0、85×7 × 15+0、15 ×7 ×3=92、4(万元) 结点8收益值=0、85×7 ×6+0、15 ×7 ×4、5=40、4(万元) 结点9收益值=0、1×7 × 15+0、9 ×7 ×3=29、4(万元) 结点10收益值=0、1×7 × 6+0、9 ×7 ×4、5=32、6(万元) 结点1收益值=0、7×[52、4+(3 × 6)]+0、3 ×[32、6+(3 × 4、5)]=63、1(万元) 结点2收益值=0、7×[92、4+(3 × 12)]+0、3 ×[29、4+(3 × 3)]=101、4(万元) 答:用决策树法进行决策应选择更新扩产方案,可获得收益41、4万元。 4. 某厂准备生产Y种新产品,对未来的销售前景预测不准,可能出现高需求、中需求、低需求三种自然状态。组织有三个方案可供选择:新建一个车间;扩建原有车间; 对原有车间的生产线进行局部改造。三个方案在5年内的经济效益见下表(单位:万元):

分类决策树

分类决策树 原理 决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,对未知的数据进行分类。如何预测, 先看看下面的数据表格: 上表根据历史数据,记录已有的用户是否可以偿还债务,以及相关的信息。通过该数据,构建的决策树如下: 如新来一个用户:无房产,单身,年收入55K,那么根据上面的决策树,可以预测他无法偿还债务(蓝色虚线路径)。从上面的决策树,还可以知道是否拥有房产可以很大的决定用户是否可以偿还债务,对借贷业务具有指导意义。 决策树构建的基本步骤如下: 1. 开始所有记录看作一个节点 2. 遍历每个变量的每一种分割方式,找到最好的分割点 3. 分割成两个节点N1和N2

4. 对N1和N2分别继续执行2-3步,直到每个节点足够“纯”为止 构建决策树的变量可以有两种: 1)连续型:如前例中的“年收入”。用“>=”,“>”,“<”或“<=”作为分割条件(排序后,利用已有的分割情况,可以优化分割算法的时间复杂度)。 2)分类型:如前例中的“婚姻情况”,使用“=”来分割。 如何评估分割点的好坏?如果一个分割点可以将当前的所有节点分为两类,使得每一类都很“纯”,也就是同一类的记录较多,那么就是一个好分割点。比如上面的例子,“拥有房产”,可以将记录分成了两类,“是”的节点全部都可以偿还债务,非常“纯”;“否”的节点,可以偿还贷款和无法偿还贷款的人都有,不是很“纯”,但是两个节点加起来的纯度之和与原始节点的纯度之差最大,所以按照这种方法分割。构建决策树采用贪心算法,只考虑当前纯度差最大的情况作为分割点。 纯度计算 前面讲到,决策树是根据“纯度”来构建的,如何量化纯度呢?这里介绍三种纯度计算方法。如果记录被分为n类,每一类的比例P(i)=第i类的数目/总数目。还是拿上面的例子,10个数据中可以偿还债务的记录比例为P(1) = 7/10 = 0.7,无法偿还的为 P(2) = 3/10 = 0.3,N = 2。 Gini不纯度: 熵(Entropy): 错误率: 上面的三个公式均是值越大,表示越“不纯”,越小表示越“纯”。三种公式只需要取一种即可,对最终分类准确率的影响并不大,一般使用熵公式。 纯度差,也称为信息增益(Information Gain),公式如下: 其中,I代表不纯度(也就是上面三个公式的任意一种),K代表分割的节点数,一般K = 2。vj表示子节点中的记录数目。上面公式实际上就是当前节点的不纯度减去子节点不纯度的加权平均数,权重由子节点记录数与当前节点记录数的比例决定。 停止条件 决策树的构建过程是一个递归的过程,所以需要确定停止条件,否则过程将不会结束。一种最直观的方式是当每个子节点只有一种类型的记录时停止,但是这样往往会使得树的节点过多,导致过度拟合(Overfitting)。另一种可行的方法是当前节点中的记录数低于一个最小的阀值,那么就停止分割,将max(P(i))对应的分类作为当前叶节点的分类。

用决策树法进行方案优选

用决策树法进行方案优选 期望值决策方法,除用决策益损表分析外,也可采用决策树法进行分析,这种决策方法的思路如树枝形状,所以,称为决策树。 (1)决策树的结构。决策树是以方块和圆点作为结点,并由直线连接而形成一种树枝状结构,图中符号说明如下: □——表示决策结点,由它引出的若干条树枝,每枝代表一个方案。 ○——表示状态结点,由它引出的若干条树枝,每枝代表一个自然状态,并在其上写明自然状态及其概率。 △——表示每种自然状态相应的益损值 一般决策问题具有多个方案,每个方案可能有多种状态。因此,图形从左向右,由简到繁组成为一个树枝网状图。 应用树枝图进行决策的过程是:由右向左,逐步后退。根据右端的益损值和状态枝上的概率,计算出同一方案的不同状态下的期望益损值,然后根据不同方案的期望益损值的大小进行选择。方案的舍弃称为修枝,舍弃的方案只需在枝上画出“//”的符号,即表示修枝的意思。最后决策结点只留下一条树枝,就是决策的最优方案。 例题1:某土建承包公司确定今后6年内机械设备的投资计划。公司有两种方案: (1)投资1050万元购买大型车队 (2)投资350万元购买小型车队 经理估计能签到大宗合同的概率是0.6,而只能签到少量合同的概率是0.4。假如购置大型车队又签到大宗合同,在今后6年中,每年收入为400万元;假如购置大型车队而只能签到少量合同,每年收入为100万元。假如购置小型车队而又可签到大宗合同,由于车队的限制,每年收入为200万元;假如购置小型车队而只签到少量合同,则每年收入为120万元。 当购置大型车队只签到少量合同,那么在两年后公司要决定如何处理已有设备。他有四种选择: (1)公司将不用的设备出租,估计能出租全部闲置设备的概率是0.7,在出租的4年内每年平均收入350万元;只能出租部分闲置设备的概率是0.3,4年内平均每年净收入150万元。 (2)现将设备暂时存放在库房里不用,等到以后工程合同多时使用。估计这段时间内有1/2的机会签到更多合同,这时前两年的收入150万元,后两年每年获利为250万元; 如果在这段时间只能签到少数的工程合同,那4年每年内收入100万元。 (3)及时出售多余的设备,估计可得500万元,另外保留的机械每年能获100万元。(4)马上全部卖掉所有车队,估计可得800万元。 如果当初决定购置小型车队又签到大宗合同,那么在作出最初决策后的12个月内,经理不得不对未来行动作出决策。有三种选择: (1)再购置更多的设备,花费700万元,获得满意合同收入的概率是0.6,余下的5年内每年平均收入400万元;另一方面是合同签订不太理想,其概率是0.4,5年内每年平均收入为150万元。 (2)租借更多的设备,有三种可能结局:一是能以优惠的合同条件从其他单位租借到完全符合要求的设备,发生的概率是0.2,估计5年内每年可得净收入300万元。二是租到租金较高又不完全符合要求的设备,发生的概率是0.5,估计5年内收入每年

(完整版)ENVI决策树分类

遥感专题讲座——影像信息提取(三、基于专家知识的决策树分类) 基于专家知识的决策树分类 可以将多源数据用于影像分类当中,这就是专家知识的决策树分类器,本专题以ENVI中Decision Tree为例来叙述这一分类器。 本专题包括以下内容: ? ?●专家知识分类器概述 ? ?●知识(规则)定义 ? ?●ENVI中Decision Tree的使用 概述 基于知识的决策树分类是基于遥感影像数据及其他空间数据,通过专家经验总结、简单的数学统计和归纳方法等,获得分类规则并进行遥感分类。分类规则易于理解,分类过程也符合人的认知过程,最大的特点是利用的多源数据。 如图1所示,影像+DEM就能区分缓坡和陡坡的植被信息,如果添加其他数据,如区域图、道路图土地利用图等,就能进一步划分出那些是自然生长的植 被,那些是公园植被。

图1 专家知识决策树分类器说明图 专家知识决策树分类的步骤大体上可分为四步:知识(规则)定义、规则 输入、决策树运行和分类后处理。 1.知识(规则)定义 规则的定义是讲知识用数学语言表达的过程,可以通过一些算法获取,也 可以通过经验总结获得。 2.规则输入 将分类规则录入分类器中,不同的平台有着不同规则录入界面。 3.决策树运行 运行分类器或者是算法程序。 4.分类后处理 这步骤与监督/非监督分类的分类后处理类似。 知识(规则)定义 分类规则获取的途径比较灵活,如从经验中获得,坡度小于20度,就认为是缓坡,等等。也可以从样本中利用算法来获取,这里要讲述的就是C4.5 算法。 利用C4.5算法获取规则可分为以下几个步骤:(1)多元文件的的构建:遥感数据经过几何校正、辐射校正处理后,进行波段运算,得到一些植被指数,连同影像一起输入空间数据库;其他空间数据经过矢量化、格式转换、地理配准,组成一个或多个多波段文件。 (2)提取样本,构建样本库:在遥感图像处理软件或者GIS软件支持下,选取合适的图层,采用计算机自动选点、人工解译影像选点等方法采集样本。 (3)分类规则挖掘与评价:在样本库的基础上采用适当的数据挖掘方法挖掘分类规则,后基于评价样本集对分类规则进行评价,并对分类规则做出适当 的调整和筛选。这里就是C4.5算法。 4.5算法的基本思路基于信息熵来“修枝剪叶”,基本思路如下: 从树的根节点处的所有训练样本D0开始,离散化连续条件属性。计算增益比率,取GainRatio(C0)的最大值作为划分点V0,将样本分为两个部分D11和D12。对属性C0的每一个值产生一个分支,分支属性值的相应样本子集被移

【项目管理知识】决策树(DMT)分析:制定项目决策

决策树(DMT)分析:制定项目决策1.为什么使用决策树分析? 当项目需要做出某种决策、选择某种解决方案或者确定是否存在某种风险时,决策树(decisionmakingtree)提供了一种形象化的、基于数据分析和论证的科学方法,这种方法通过严密地逻辑推导和逐级逼近地数据计算,从决策点开始,按照所分析问题的各种发展的可能性不断产生分枝,并确定每个分支发生的可能性大小以及发生后导致的货币价值多少,计算出各分枝的损益期望值,然后根据期望值中者(如求极小,则为小者)作为选择的依据,从而为确定项目、选择方案或分析风险做出理性而科学的决策。 2.决策树分析有哪些作用? 决策树分析清楚显示出项目所有可供选择的行动方案,行动方案之间的关系,行动方案的后果,后果发生的概率,以及每种方案的损益期望值; 使纷繁复杂的决策问题变得简单、明了,并且有理有据; 用数据说话,形成科学的决策,避免单纯凭经验、凭想象而导致的决策上的失误。 3.怎么用? (1)决策树包含了决策点,通常用方格或方块表示,在该点表示决策者必须做出某种选择;机会点,用圆圈表示,通常表示有机会存在。先画一个方框作为出发点,叫做决策点; (2)从决策点向右引出若干条支线(树枝线),每条支线代表一个方案,叫做方案枝;

(3)在每个方案枝的末端画一个圆圈,叫做状态点; (4)估计每个方案发生的概率,并把它注明在在该种方案的分支上,称为概率枝; (5)估计每个方案发生后产生的损益值,收益用正值表示,损失用负值表示; (6)计算每个方案的期望价值,期望价值=损益值x该方案的概率; (7)如果问题只需要一级决策,在概率枝末端画△表示终点,并写上各个自然状态的损益值; (8)如果是多级决策,则用决策点□代替终点△重复上述步骤继续画出决策树。 (9)计算决策期望值,决策期望值=由此决策而发生的所有方案期望价值之和;

决策树算法总结

决策树决策树研发二部

目录 1. 算法介绍 (1) 1.1. 分支节点选取 (1) 1.2. 构建树 (3) 1.3. 剪枝 (10) 2. sk-learn 中的使用 (12) 3. sk-learn中源码分析 (13)

1. 算法介绍 决策树算法是机器学习中的经典算法之一,既可以作为分类算法,也可以作 为回归算法。决策树算法又被发展出很多不同的版本,按照时间上分,目前主要包括,ID3、C4.5和CART版本算法。其中ID3版本的决策树算法是最早出现的,可以用来做分类算法。C4.5是针对ID3的不足出现的优化版本,也用来做分类。CART也是针对 ID3优化出现的,既可以做分类,可以做回归。 决策树算法的本质其实很类似我们的if-elseif-else语句,通过条件作为分支依据,最终的数学模型就是一颗树。不过在决策树算法中我们需要重点考虑选取分支条件的理由,以及谁先判断谁后判断,包括最后对过拟合的处理,也就是剪枝。这是我们之前写if语句时不会考虑的问题。 决策树算法主要分为以下3个步骤: 1. 分支节点选取 2. 构建树 3. 剪枝 1.1. 分支节点选取 分支节点选取,也就是寻找分支节点的最优解。既然要寻找最优,那么必须要有一个衡量标准,也就是需要量化这个优劣性。常用的衡量指标有熵和基尼系数。 熵:熵用来表示信息的混乱程度,值越大表示越混乱,包含的信息量也就越多。比如,A班有10个男生1个女生,B班有5个男生5个女生,那么B班的熵值就比A班大,也就是B班信息越混乱。 Entropy = -V p ” 基尼系数:同上,也可以作为信息混乱程度的衡量指标。 Gini = 1 - p: l-L

决策树分析法

决策树分析法 决策树分析法,是将构成决策方案的有关因素,以树状图形的方式表现出来,并据以分析和选择决策方案的一种系统分析法。它以损益值为依据。该方法特别 适于分析比较复杂的问题。 (1)决策树的构成 由决策结点“口”、方案枝、状态结点“O”和概率支构成。 (2)决策步骤 决策树分析法的程序主要包括以下步骤: ①绘制决策树图形,按上述要求由左向右顺序展开。 ②计算每个结点的期望值,计算公式为: 状态结点的期望值=Σ(损益值×概率值)×经营年限 ③剪枝,即进行方案的选优。 方案净效果=该方案状态结点的期望值-该方案投资额例如,某企业为了扩大某产品的生产,拟建设新厂。据市场预测,产品销路好的概率为0.7,销路差的概率为0.3。有三种方案可供企业选择: 方案1:新建大厂,需投资300万元。据初步估计,销路好时,每年可获利100万元;销路差时,每年亏损20万元。服务期为10年。 方案2:新建小厂,需投资140万元。销路好时,每年可获利40万元,销路差时,每年仍可获利30万元。服务期为10年。 方案3:先建小厂,3年后销路好时再扩建,需追加投资200万元,服务期 为7年,估计每年获利95万元。 问:哪种方案最好? 方案1(结点①)的期望收益为:[0.7×100+0.3×(-20)]×10-300=340 (万元) 方案2(结点②)的期望收益为:(0.7×40+0.3×30)×10-140=230(万 元) 至于方案3,由于结点④的期望收益465(95×7-200)万元大于结点⑤的期望收益280(40×7)万元,所以销路好时,扩建比不扩建好。方案3(结点③)

的期望收益为:(0.7×40×3+0.7×465+0.3×30×10)-140=359.5(万元)计算结果表明,在三种方案中,方案3最好。 【例题·单选题】以下不属于决策树构成的是()。 A.决策结点 B.方案枝 C.状态结点 D.判断枝 答案:D

(决策树算法)

人工智能技术报告 数据挖掘决策树经典算法 决策树算法简介 决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。 决策树方法最早产生于上世纪60年代,到70年代末。由J Ross Quinlan 提出了ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进,既适合于分类问题,又适合于回归问题。 决策树算法构造决策树来发现数据中蕴涵的分类规则.如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步,决策树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。第二步,决策树的剪技:决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数扼集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的分枝剪除 决策树的工作原理 决策树一般都是自上而下的来生成的。 选择分割的方法有多种,但是目的都是一致的,即对目标类尝试进行最佳的分割。 从根节点到叶子节点都有一条路径,这条路径就是一条“规则”。 决策树可以是二叉的,也可以是多叉的。 对每个节点的衡量: 1) 通过该节点的记录数; 2) 如果是叶子节点的话,分类的路径; 3) 对叶子节点正确分类的比例。 有些规则的效果可以比其他的一些规则要好。

运用决策树方法进行方案选优的解题思路

从盈亏平衡分析角度分析: 1.本项目产量盈亏平衡点35.37万件,而项目的设计生产能力为100万件,远大于盈亏平衡产量,可见,项目盈亏平衡产量仅为设计生产能力35.37%,所以,该项目盈利能力和抗风险能力较强; 2.本项目单价盈亏平衡点48.72元/件,而项目的预测单价为60元/件,高于盈亏平衡的单价。在市场销售不良情况下,为了促销,产品价格降低在18.8% 以内,仍可保本。 综上所述,可以判断该项目盈利能力和抗风险能力均较强。 【案例十】 背景: 某特大城市为改善目前已严重拥堵的某城市主干道的交通状况,拟投资建设一交通项目,有地铁、轻轨和高架道路三个方案。该三个方案的使用寿命均按50年计算,分别需每15年、10年、20年大修一次。单位时间价值为10元/h,基准折现率为8%,其他有关数据,见表2-21。 不考虑建设工期的差异,即建设投资均按期初一次性投资考虑,不考虑动拆迁工作和建设期间对交通的影响,三个方案均不计残值,每年按360天计算。 寿命周期成本和系统效率计算结果取整数,系统费用效率计算结果保留两位小数。 表2-21 各方案基础数据表 表2—22 现值系数表 问题:

1.三个方案的年度寿命周期成本各为多少? 2.若采用寿命周期成本的费用效率(CE)法,应选择哪个方案? 3.若轻轨每天造成的噪声影响损失为7000万元,将此作为环境成本,则在地铁和轻轨两个方案中,哪个方案较好? 分析要点: 本案例考核寿命周期成本分析的有关问题。 工程寿命周期成本包括资金成本、环境成本和社会成本。由于环境成本和社会成本较难定量分析,一般只考虑资金成本,但本案例问题3以简化的方式考虑了环境成本,旨在强化环境保护的理念。 工程寿命周期资金成本包括建设成本(设置费)和使用成本(维持费),其中,建设成本内容明确,估算的结果也较为可靠;而使用成本内容繁杂,且不确定因素很多,估算的结果不堪可靠,本案例主要考虑了大修费与年维修和运行费。为简化计算,本题未考虑各方案的残值,且假设三方案的使用寿命相同。 在寿命周期成本评价方法中,费用效率法是较为常用的一种。运用这种方法的关键在于将系统效率定量化,尤其是应将系统的非直接收益定量化,在本案例中主要考虑了土地升值和节约时间的价值。 需要注意的是,环境成本应作为寿命周期费用增加的内容,而不能作为收益的减少,否则,可能导致截然相反的结论。 答案: 问题1: 解: 1.计算地铁的年度寿命周期成本LCC D (1)年度建设成本(设置费) IC D=1000000(A/P,8% ,50)=1000000/12.233= 81746(万元) (2)年度使用成本(维持费) SC D=10000+40000[(P/F,8%,15)+(P/F,8%,30)+ (P/F,8% ,45)](A/P,8%,50) = 10000 +40000(0.315 +0.099 +0.031 )/12.233= 11455(万元) (3)年度寿命周期成本 LCC D=IC D+SC D = 81746+11455 = 93201(万元) 2.计算轻轨的年度寿命周期成本LCC Q (1)年度建设成本(设置费) IC Q =500000 (A/P,8% ,50)=500000/12.233= 40873(万元)

决策树分类

实验二决策树学习 引言 决策树学习是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表达为一棵决策树。学习得到的决策树也能再被表达为多个if-then的规则,以提高可读性。这种学习算法是最流行的归纳推理算法之一,已经被成功地应用到从学习医疗诊断到学习评估贷款申请的信用风险的广阔领域。本文用决策树学习算法解决饭店排队问题,学习判断什么情况下在饭店就餐需要等待的规则或函数。 问题描述 饭店排队问题的目标属性为:WillWait 判定属性有10个,依次为: Alternate:附近是否有一个合适的候选饭店。 Bar:饭店中是否有舒适的酒吧区域值得排队等待。 Fri / Sat:在星期五和星期六为真。 Hungry:是否饿了。 Patrons:饭店中有多少人(其值可取None、Some和Full)。 Price:饭店价格区间(¥,¥ ¥ ,¥ ¥ ¥ )。 Raining:天是否下雨。 Reservation:是否预定。 Type:饭店类型(French,Italian,Thai,burger)。 WaitEstimate:主人对等待的估计(0-10分钟,10-30,30-60,或>60)

生成学习所需要的训练样例,分析训练样例数目与学习精度的关系以及训练样例的分布与学习精度的关系;对判定属性为连续值或者判定属性缺少部分值进行处理,解决过度拟合问题。 模型建立与求解 首先将判断属性值离散化,数值化,对于只有两个取值的属性,赋值为0和1,对取值为三个值的属性,赋值为0,1,2,对取值为四个值的属性,赋值为0,1,2,3。利用随机数生成器随机生成各个判定属性的属性值,并人为设定条件,给出每组特征的目标属性值,取样例的一部分作为训练样例,剩余部分作为测试样例,利用决策树算法对测试样例的目标属性值进行预测并将其与人为判定的目标属性值进行比较,得出决策树算法目标属性判定的准确率,这里用的是C4.5决策树算法来进行实验,模型求解是通过matlab实现的。 仿真实验与结果分析 1.构造训练样例和测试样例 对于10个判定属性,用rand()函数随机生成m个属性值,然后根据生成的属性值,人为判定目标属性值,这里人为判定的条件为: for j=1:m if Alter(j)==1 && Bar(j)==1 && Hun(j)==1 && Pat(j)~=2 Will(j)=1; elseif Res(j)==1&&WaitEs(j)~=3 Will(j)=1; elseif FS(j)==1&&Hun(j)==1&&WaitEs(j)~=3 Will(j)=1; else Will(j)=0; end end 这样就构造了m个经过人为判定的一组训练样例,为了更好地

相关文档