文档库 最新最全的文档下载
当前位置:文档库 › 分类与回归树——一种适用于临床研究的统计分析方法

分类与回归树——一种适用于临床研究的统计分析方法

分类与回归树——一种适用于临床研究的统计分析方法
分类与回归树——一种适用于临床研究的统计分析方法

分类与回归树

———一种适用于临床研究的统计分析方法

赵一鸣

(北京大学第三医院临床流行病学研究中心,北京100083)

[关键词]临床研究;分类法;回归分析,统计学[摘

要]介绍分类与回归树(class ification and re g ress ion trees ,CART )

的发展历史、结构、组成和特点。CART 包括分类树和回归树两部分,分类树的结果变量是分类变量,回归树的结果变量是连续变量。CART 是一种树型结构,

由树结和连线组成,在末端的树结又称为终止结。CART 可分析同质性较差的数据,采用替代变量的方法解决缺失数据问题,不要求数据的分布,可同时利用各种类型的数据。CART 的树型结构与临床思维十分接近,有利于CART 在临床研究中的应用。CART 可用于临床研究数据分析,其应用范围有待于不断扩展。[中图分类号]R4[文献标识码]B [文章编号]1671-167X (2001)06-0562-04

C lassification and re g ression trees

(a statistical m et hod suitable f or cli nical researches )

ZHAO y i-M i n g

(C enter f or C li n ical E p i de m io lo g ical R esearch ,P eki n g U n ivers it y T h ird H os p ital ,B e i j i n g 100083,Ch i na )

KEY W ORD S C

lassification ;R e g ression anal y sis ;C li nical research ;S tatistics ;A nal y sis SUMM ARY

T o i ntroduce classification and re g ression trees (CART ).T he develo p m ent ,struct ure ,m ai n ele m ents and f eat ures o f CART w ere i ntroduced.CART w as struct ured b y t w o p arts ,classifica-tion tree and re g ression tree.C lassification tree used nom i nal variable as outcom e ,and re g ression tree

used conti nuous variable as outcom e.T ree struct ure w as t he f eat ure o f CART ,and it w as m ade u p o f tree notes and li nes.T he ter m i nal tree notes w ere na m ed end notes.CART w as suitable f or non-hom o-g eneous data anal y sis ,

usi n g surro g ate to re p lace m issi n g data ,suitable f or an y distri buted data ,and all ki nd o f variables.T he tree struct ure o f CART w as ver y li ke cli nical t hou g ht w a y and suitable to ex p lai n results f or cli nical p ur p ose.CARTis a ne w statistical m et hod suitable f or cli nical data anal y sis.T he a pp lied ran g e o f CARTi n cli nical researches needs to be ex p anded.

[J pekin g UniO (~ealt h S ci ),2001,33:562-565]

1970年,

美国4位统计学家分析了当时各种统计分析方法存在的缺陷,提出一种既可以包容这些统计分析方法优点,又能克服其缺陷的新的统计分析方法

分类与回归树

(class ification and re g ress ion trees ,CART )

。至1984年CART 的理论模型研究基本完善[1],但其计算量非常大,在当时的微机上难以运行。直至1995年,出现了在486微机上运行的CART 统计分析软件,使其能够用于临床研究数据的统计分析。CART 的免费限时试用版软件可以从以下网站下载:htt p ://www.salf ord-s y ste m https://www.wendangku.net/doc/943841532.html, /de m o.ht m l 。现将作者对CART 的认识和应用体会简介如下。1

分类与回归树的结构与组成

CART 由分类树(class ification tree )和回归树(re g ress ion tree )

两部分组成。分类树用于结果变量是分类变量的数据分析,回归树则用于结果变量是连续变量的数据分析。CART 是一种树型分析方法(图1、2),其结构类似一棵倒置的树,由主干和许多分支组成。在树中有许多节点,用椭圆形框和长方形框表示,称为树结(tree node ),其中长方形框又称为终止结(end node )。每一个树结中有一些数字,为分析结果,在椭圆形框下方标有判别条件,树结间用实线连接。2

分类与回归树的特点及其在临床研究数据分析中的价值目前诊断疾病主要依据疾病的临床表型,以此为依据诊断患某种疾病的一组患者,其内部同质性(hom o g eneous )有时较差,例如不同肺癌患者肿瘤的病理类型各异,组织学来源不同,生物学特征及其表型存在多样性,对治疗的反应和临床转归不同。这类数据采用单因素分析或多元线性回归、L o g istic 回归等归一化模型处理往往效果不理想,

因为这些?265?北京大学学报(医学版)

J OURNAL OF PEK I NG UN I VERS I Ty

(HEALTH SC I ENCES )V o l .33N o.6

D ec .2001

统计方法应用的前提条件之一是统计对象来自于一个总体,具有同质性特征。CART将具有不同特征的病例分配到树的各个局部去处理,使每个局部病例的内部同质性得到改善,为临床研究提供了新的数据分析方法。

(1)h isto lo g ical t yp e:t yp e!-cancerous transf or m ation of adenom a,w e ll d iff erentiated adenocarci nom a,m oderate-d iff erentiated adenocarci nom a,s C ua m ous carci nom a,un-d iff erentiated adenocarci nom a and carci no i d;t yp e"-low-d iff erentiated adenocarci nom a,adenocarci nom a p roduci n g m uci n and s i g ne l-ri n g ce ll carci nom a.(2)location o f cancer:p lace!-cecu mand co lon;p lace"-ot her p lace.(3)p ercenta g e under end nodes w ere p oste-rior p robab ilit y f or liver m etastas is after co lorectal carci nom a o p eration calculated b y cross-vali dation.

图1结、直肠癌手术后肝转移的分类树

F i g u r e1C lass ification tree f or liver m etastas is after co lorectal carci nom a o p eration

!!",i n nodes w as b leed i n g da y s;#,w as case nu m ber.

图2米非司酮配伍前列腺素终止早孕时阴道出血时间危险因素的回归树分析结果

F i g u r e2R e g ress ion tree f or va g i nal b leed i n g p eriod de la y on ter m i nation o f earl y hu m an p re g nanc y w it h m if e p rostone and g e m e p rost

缺失数据是临床研究中常见的问题。CART采用替代变量(surro g ate variab le)来解决分析中出现缺失数据的难题。例如,某些病例采用B超检查、另一些用CT检查或核磁检查,用CART的替代变量可以在一定程度上弥补部分病例缺少B超数据对分析结果的影响。许多统计分析方法对数据的分布有一定的要求,限制了它们的使用范围。CART的理论模型不要求预报变量和结果变量具有某种特定的分布,因而CART可以使用任何分布类型的数据做统计分析。

CART允许不同数据类型的预报变量一起进入模型,可以使用不同数据类型的结果变量,这些特点使临床研究数据在分析阶段可以得到充分的利用。

变量的重要性及变量间的相互关系是多因素分析关心

?

365

?

赵一鸣分类与回归树——

—一种适用于临床研究的统计分析方法

的问题。在CART 中,预报变量的重要性表现为该预报变量出现在树干的起始部位,或离起始部位很接近;另一方面,重要性还表现为同一预报变量多次在模型中出现。CART 无

法直接考察预报变量间的相互关系,但我们可以利用预报变量之间上下的关系分析预报变量间是否有可能存在协同作用。如果某些预报变量在单因素分析时与结果变量之间无明显关联,而在CART 的某些局部有明显的效应,此时提示这些预报变量之间可能存在协同作用。

诊断疾病时,医生往往根据患者的病史和临床表现先做一些重要而关键的检查,多数患者即可诊断。如不能确诊,则须进一步检查,直至作出明确的诊断。CART 的树型分析过程与医生的临床思维过程十分相似,即先抓主要影响因素、后抓次要影响因素,因而将CART 的分析结果与临床医生的经验结合在一起,有利于总结和提出新的临床观点。CART 的中间计算过程非常复杂,

其大致的过程包括先建立一棵完整的树,然后用交叉印证(crOss vali datiOn )[2]的方法从末梢开始“剪枝”,直到“剪枝”后的模型明显变差为止。在CART 的计算过程中,每一种可能的组合在建立模型之初就被详细地考察过。因此,CART 提供优化后的模型。3应用简介

3.1

结、直肠癌肝转移的分类树研究

该研究共观察182名结、直肠癌患者,其中40名患者术后发生了肝转移,142名患者未发生肝转移。图1为结、

直肠癌肝转移的分类树,选用5个预报变量,有7个终止结,树结中的数字为未发生肝转移:肝转移的实际例数,终止结下标明了结、直肠癌肝转移的检验概率(后验概率),可供临床决

策参考。图1显示结、直肠癌的病理类型是影响术后肝转移最重要的危险因素(首先用于判别),肿瘤恶性程度较低且镜下无大量癌栓可以确定绝大多数未转移的患者(115/116),而年龄、癌的部位、癌的肉眼检查类型也是重要的影响因素。值得注意的是,年龄在模型中被使用了2次,左侧年龄的判别界值为68.5岁,右侧为35.5岁,表明CART 可以多次利用预报变量中的信息。

3.2米非司酮配伍前列腺素终止早孕时阴道出血时间延迟

危险因素的树型分析

图2以药物终止妊娠后阴道出血时间为回归树的结果变量,共观察350名妇女,平均出血时间为12.8d 。其中胎囊大小是影响出血时间最重要的因素,当胎囊小于12.5mm 时出血时间较短;而胎囊直径大于12.5mm 时出血时间较长。在后一种情况下,如果经期小于5d 则出血时间仍较短,而经期5d 及以上出血时间较长。对于经期5d 及以上患者,前列腺素种类和给药途径对出血时间有较大的影响,阴道栓剂的效果较好而口服的效果较差。对这两种前列腺素给药途径可以进一步用胎囊大小判定出血时间的长短,胎囊直径超过判定界值时出血时间较长,反之较短。4

讨论

CART 是一种具有纵向分析特征的树型结构,其分析结果的过程与临床思维十分相似,因而容易被临床医生理解和接受。在疾病相关基因研究受到广泛关注时,人们发现现有的疾病分类可能存在较大的异质性,给研究工作带来许多困难,而CART 的树型分析特点有可能为解决研究对象的异质性提供合理的分析手段。

表1

LO g istic 回归手术后判别和CART 判别结、

直肠癌手术后肝转移效果的比较T able 1

D iscri m i nant results f Or liver m etastas is Of cancer after cO lOn and rectu m cancer O p eratiOn b y LO g istic m Ode l and class ificatiOn tree m Ode l

D iscri m i nant m Ode l

P red ict Of m etastas is

C ancer m etastas is

Y es

N O

D iscri m i nant results LO g istic m Ode l (learn i n g sa m p le )

Y es N O

319

12130

SE =

31

40

=77.5%SP =

130

142

=91.5%VA=

31+130182=161

182=88.5%LO g istic m Ode l (trai n i n g sa m p le )

Y es N O

1822

30112

SE =1840=45.0%

SP =

112

142

=78.9%VA=

18+112182=

130

182=71.4%CART m Ode l (learn i n g sa m p le )

Y es N O

382

5137

SE =3840=95.0%

SP =

137

142

=96.5%VA=

38+137182=175

182=96.2%CART m Ode l (trai n i n g sa m p le )

Y es N O

364

13129

SE =3640=90.0%

SP =

129

142

=90.8%VA=

36+129182=165

182

=90.7%SE ,sens itivit y ;SP ,s p ecificit y ;VA ,vali d it y .

?465?北京大学学报(医学版)

J OURNAL OF PEK I NG UN I VERS I TY

(HEALTH SC I ENCES )V O l .33N O.6

D ec .2001

提高诊断试验的灵敏度和特异度是临床研究的目标之一。作者利用结、直肠癌肝转移的数据对应用CART实现这一目标的可能性进行了探讨。由表1可见,L O g istic回归和分类树在判别结、直肠癌肝转移的先验概率(用训练样本计算的结果)时能达到较高的水平(77.5%!96.5%)。但用交叉应证[2]计算检验样本的后验概率时两种方法之间的差异明显,L O g istic回归判别的灵敏度(45.0%)和特异度(78.9%)较低,无法满足临床应用的需要;而CART的灵敏度(90.0%)和特异度(90.8%)很高,已能够满足临床应用的需要。提示CART有可能大幅度改进诊断试验的效果。

与其它统计分析方法一样,CART自身也存在缺点。如

CART模型的稳定性较差,用类似研究资料建立的树型模型往往存在差异。CART本身是一种大样本的统计分析方法,样本量较小时模型不稳定。对于内部同质性较好的数据,CART分析的结果与其它分析方法得到的结果基本一致。因此,在选用统计分析方法时不能认为只有CART才是最合适的,应具体情况具体分析,通过试验和比较找到最佳的统计分析方法。

近年来,采用CART作为分析手段的临床研究论文在国外医学杂志上越来越多,国外部分高校已将CART作为研究生的选修课程,人们正在探索如何用CART改进临床研究的统计分析和设计。我国临床研究工作者应该如何应对?引进、消化吸收、推广是当务之急。同时,将这一新的分析手段与我们以往的工作相结合、与我国临床工作中需要解决的重大问题相结合、与我国临床研究的资源相结合,这是我们面临的新课题。

参考文献

1B re i m an L,F ried m an,O lshen R,e t a l.C lass ificatiOn and R e g res-s iOn T rees[M].B e l m Ont,CA:W adsw Ort h,1984.1-357

2赵一鸣.用同一数据计算临床试验后验概率的方法———交叉应证[].药物流行病学杂志,1997,6(增刊):69-71

(1999-12-01收稿)

(本文编辑:王蕾)

肾病综合征大鼠肾小球血管紧张素"受体结合的变化及机制

樊志荣1!,卢义侠1,李长龄2

(1.北京大学第一医院儿科,北京100034;2.北京大学药学院)

血管紧张素"(A")在肾病综合征(NS)蛋白尿产生、水肿形成和肾小球硬化中发挥作用。为探讨肾局部肾素-血管紧张素系统(RA S)在NS中的作用,对阿霉素肾病大鼠(ADR)肾小球A"受体进行测定。

材料与方法:

(1)雄性SD大鼠,随机分为对照组和肾病组,经尾静脉一次性注射盐酸阿霉素(6.5m g?k g-1)。部分动物结合实验前给予依那普利(10m g?k g-1?d-1)。(2)肾小球的分离纯化参照F On g氏的方法。(3)放射配基结合实验:反应体系———反应介质、肾小球、标记A"和系列浓度的非标记A"。反应体积300#l。依次加入反应介质、肾小球、标记A"和非标记A",在22C振荡水浴中反应60m i n,冰水终止反应。过滤分离结合的配基。自动$计数仪测量放射性强度,所得数据作S catchard分析,求出解离常数(K d)和最大结合容量(Bm ax)。(4)放免法测定血浆A"。(5)数据以"x s表示,受体参数用配对比较t检验。

结果:大鼠肾小球具有特异性、饱和性、可逆性和高亲合力的A"结合位点。

肾病组与对照组比较,A"受体Bm ax较对照组下降33%,差异有极显著性[肾病组(1971573)f m O l?m g-1,对

照组(2563854)f m O l?m g-1,n=10,P#0.01],而两组间

K d的差异无显著性[肾病组(5.811.74)n m O l?L-1,对照组(6.711.92)n m O l?L-1,n=10,P$0.05];相应血浆A"水平的差异无显著性。应用依那普利后,两组的Bm ax均上升,差异无显著性[肾病组(2656493)f m O l?m g-1,对照组(2764528)f m O l?m g-1,n=6,P$0.05]。

对糖尿病肾病、I g A肾病和某些肾炎的研究表明,肾小

球A"受体异常与发病的机制有关。另一些实验则表明,肾

小球A"受体的Bm ax与血浆A"水平呈负相关。本实验显

示Bm ax的变化与血浆A"水平无关。

Ich i ka w a等对单侧嘌呤霉素肾病大鼠模型进行的研究表明,肾局部因素在钠潴留和GFR下降中发挥作用,且与

RA S有关。近些年来,应用生物化学、组织化学、特别是分子生物学方法证实,肾存在一个器官或组织的RA S;A"以自分泌或旁分泌的方式发挥作用。本实验应用依那普利阻断A"形成后,下降了的Bm ax上升。因此认为,ADR的肾RA S 处于活化状态,Bm ax的下降为一种局部降调节。

(2001-03-21收稿)

(本文编辑:景霞)

基金项目:国家自然科学基金(39170766)资助S u pp Orted b y t he N atiOnal N atural S ciences F OundatiOn Of Ch i na(39170766)!现在上海市松江区中心医院

?

565

?

赵一鸣分类与回归树———一种适用于临床研究的统计分析方法

分类与回归树——一种适用于临床研究的统计分析方法

作者:赵一鸣

作者单位:北京大学第三医院临床流行病学研究中心,北京,100083

刊名:

北京大学学报(医学版)

英文刊名:JOURNAL OF PEKING UNIVERSITY(HEALTH SCIENCES)

年,卷(期):2001,33(6)

被引用次数:14次

参考文献(2条)

1.Breiman L;Friedman J;Ols hen R Classification and Re gression Trees 1984

2.赵一鸣用同一数据计算诊断试验后验概率的方法:交叉应证 1997(z1)

本文读者也读过(10条)

1.温小霓.蔡汝骏分类与回归树及其应用研究[期刊论文]-统计与决策2007(23)

2.赵一鸣.吕旌乔.曾琳对临床群体研究设计实施的几点认识和体会[期刊论文]-中华医学杂志2005,85(5)

3.赵一鸣用"还原法"读论文、写论文、审稿[期刊论文]-中华医学杂志2009,89(14)

4.赵一鸣死亡人数、死亡率和病死率在评价传染性非典型肺炎诊治效果中的正确应用[期刊论文]-中华结核和呼吸杂志2003,26(6)

5.武艳华.史宝林.葛丽平分类与回归树分析方法及其在医学研究中的应用[期刊论文]-河北北方学院学报(医学版)2008,25(6)

6.赵一鸣注意患病率与构成比的差异及适用范围[期刊论文]-中华精神科杂志2001,34(1)

7.赵一鸣.吕旌乔疾病相关基因研究中个体易感性表型的测量与评价[期刊论文]-中华医学杂志2003,83(4)

8.赵一鸣如何做好临床研究中信息的收集和处理[期刊论文]-中华医学杂志2001,81(22)

9.赵一鸣临床研究中的难点和对策[期刊论文]-中华老年医学杂志2003,22(5)

10.赵一鸣.ZHAO Yi-ming一篇论文讲清楚一个问题[期刊论文]-中华医学杂志2005,85(43)

引证文献(14条)

1.王婧.曹淳力.郭家钢.赵根明我国血吸虫病主要流行区《血吸虫病防治条例》执行情况调查[期刊论文]-中国血吸虫病防治杂志 2009(6)

2.马芙蓉.谢立峰.赵一鸣突发性耳聋预后因素回归树分析[期刊论文]-中国耳鼻咽喉头颈外科 2005(9)

3.傅传喜.聂军.梁建华.王大虎.袁俊.王鸣预防接种从业人员培训评价及成绩影响因素分类树分析[期刊论文]-现代预防医学 2007(2)

4.李渊.林三仁.周丽雅.郭慧兰.叶嗣懋.金珠.耿秋明.赵一鸣胃液固有荧光光谱对胃癌诊断价值的初步研究[期刊论文]-中华内科杂志 2003(1)

5.卓朗.韩令才.陈娟单纯收缩期和舒张期高血压的影响因素与防治[期刊论文]-高血压杂志 2006(4)

6.傅传喜.马文军.梁建华.王大虎.王声湧高血压危险因素logistic回归与分类树分析[期刊论文]-疾病控制杂志2006(3)

7.王真.郭静萱.王天成.赵一鸣血清同型半胱氨酸及血脂水平、糖尿病、年龄与冠状动脉病变程度关系的回归树分析[期刊论文]-北京大学学报(医学版) 2002(1)

8.武艳华.史宝林.葛丽平分类与回归树分析方法及其在医学研究中的应用[期刊论文]-河北北方学院学报(医学版) 2008(6)

9.贾崇奇.赵仲堂.王立华.郝风荣.冯月秋.王束玫.徐晓菲.贾存显高血压危险因素分类树分析[期刊论文]-中国公共卫生 2003(6)

10.胡君.朱丽荣.廖秦平.高雨农.郑虹卵巢浆液性腺癌预后评分模型[期刊论文]-肿瘤 2010(2)

11.王娟.王玉凤.任园春注意缺陷多动障碍儿童平衡功能测定的病例对照研究[期刊论文]-北京大学学报(医学版) 2003(3)

12.刘甲野.马吉祥.徐爱强.付振涛.贺桂顺.贾崇奇.于洋山东省中西部农村居民高血压危险因素分类树分析[期刊论文]-中华流行病学杂志 2008(8)

13.隗瑛琦.陈京.胡永华.陈大方慢性病健康管理风险评估建模方法的应用进展[期刊论文]-中国慢性病预防与控制2010(6)

14.曹阳世界健康调查项目中国预调查的测量方法及质量评估[学位论文]博士 2004

引用本文格式:赵一鸣分类与回归树——一种适用于临床研究的统计分析方法[期刊论文]-北京大学学报(医学版) 2001(6)

基于分类回归树的个人信用评价模型

基于分类回归树的个人信用评价模型 孟昭睿 (中国建设银行股份有限公司河南总审计室,河南郑州450003) 摘要:分类回归树作为一种基于统计理论、计算机实现的非参数识别技术,在个人信用评估领域有着良好的应用前景。文章主要探讨如何利用分类回归树建立个人信用评价模型。实证结果表明:该模型对个人信用评价可取得较好的效果。 关键词:分类回归树;信用评价;决策树 中图分类号:TP311文献标识码:A 文章编号:1006-8937(2009)02-0076-02 On the individual credit evaluation mode based on the assoeted recursive tree MENG Zhao-rui (Henan General Accounting Office,China Construction Bank Corporation,Zhengzhou,Henan 450003,China ) Abstract :The classified return tree takes one kind the non-parameter recognition technology which based on the statistical theory,the computer realizes,has the good application prospect in individual credit appraisal domain.How does the article mainly discuss establishes individual credit status model using the classified return tree.The real diagnosis result indicated:This model may make the good progress to individual credit status.Keywords :assoeted recursive tree;credit evaluation;decision tree 1引言随着金融的全球化趋势和银行业竞争的加剧,如何有 效地控制和防范商业银行的信贷风险正在受到越来越广泛的重视。如何在扩大信贷规模的同时准确分析客户的信用风险状况,确立合理的个人信贷标准是银行进行市场竞争的有力武器。目前,国内商业银行过去制定的个人消费信贷评价体系大多是基于专家或信贷员的经验,主观地设定各指标评分和权重。根据内部调查,许多银行反映其个人信用评估部分指标的设置和权重分配不合理,不能很好地判别申请客户的信用状态。建立科学有效的信用评价模型,对促进个人消费信贷业的发展,降低银行个人信贷风险无疑有着十分重要的作用。 2分类回归树原理 作为一种自动预测方法的分类回归树CART 不仅可以同时利用连续特征和离散特征来进行训练,并且也可以模拟非线性的关系。利用分类回归树可以自动探测出高度复杂数据的潜在结构,重要模式和关系。探测出的知识又可用来构造精确和可靠的预测模型,应用于分类客户、保险诈骗和信用风险管理。从技术上来讲,CART 技术可称为二元回归分解技术。CART 是一种有监督学习算法,即用户在使用他进行预测之前,首先需要提供一个训练样本集对CART 进行构建和评估,然后才能使用。 2.1构建分类树 构建分类树T max ,的过程,即为树的每个节点选择拆分规 则的过程。具体过程如下:所有的数据样本都属于树根节点t ,寻找第一个拆分规则即选择整棵树根节点的分支条件时,首先从第一个预测变量开始扫描,计算并记录样本数据中该变量的每一个取值或每两个相邻数据的中值作为拆分阀值时节点的不纯度函数下降值,然后扫描第二个预测变量,同样计算并记录该变量的各个不纯度函数下降值,直至扫描完最后一个预测变量,计算并记录完所有的拆分阀值对应的不纯度下降值。最后找出不纯度函数下降值最大时所对应的拆分变量和拆分阀值,将其定义为树根节点的拆分变量和拆分阀值。此时,已经将整个样本数据集分成两个子集,对于每一个子集,重复上述寻找树根节点拆分规则的扫描过程,寻找每个子集所属子树的根节点的拆分规则。 假设为寻找左子树的根节点t L 的拆分规则,也是从第一个预测变量开始扫描,计算并记录属于左子树的样本数据集中该变量的每一个取值或每两个相邻数据的中值作为拆分阀值时节点的不纯度函数下降值,直至扫描完最后一个预测变量,并找出使节点t L 不纯度函数下降值最大时所对应的拆分变量和拆分阀值,将其定义为左子树根节点的拆分变量和拆分阀值。同理寻找右子树的根节点拆分规则,则每棵子树又被拆分成两棵更小的子树。 整棵树的建立过程就是一个寻找更小子树根节点的拆分规则的过程。当节点满足以下条件之一时停止拆分操作。其一,节点很小:分支后的叶节点的样本数小于给定的值N min (一般Nmin=5, 有时为1)。其二,纯节点:分支后的叶节点中的样本属于同一个类。其三,空属性向量集:无属性向量 收稿日期:2008-12-28 作者简介:孟昭睿(1970),女,中国建设银行股份有限公司河南总审计 室,中级会计师中级经济师. 第28卷第2期V ol.28No.2 企业技术开发 TECHNOLOGICAL DEVELOPMENT OF ENTERPRISE 2009年2月Feb.2009

C A R T 分 类 与 回 归 树

决策树(ID3 C4.5 CART)原理+推导+代码 文章目录简介初识决策树特征选择信息增益信息增益比ID3C4.5决策树剪枝CART 分类与回归树简述:回归树的生成分类树的生成CART剪枝优缺点决策树ID3、C4.5算法CART分类与回归树适用场景代码决策树模型,自己总结了很久,也认为比较全面了。现在分享一下自己总结的东西。 这里面我只捡精炼的说,基本上都是干货,然后能用人话说的,我也不会疯狂排列数学公式。 初识决策树 决策树其实是用于分类的方法,尤其是二分类就是是非题,不过当然不限于二分,然后CART可以应用于分类和回归。其中对于回归的处理让我很是佩服。 树形结构模型,可以理解为if-else集合。 三个步骤 特征选择 生成决策树 节点和有向边组成。 结点包括内节点(一个特征和属性)叶子节点(一个类) 先看一下模型图 每个有向边都是一条规则,节点出度规则是完备的。 算法基本流程

根据训练集生成决策树。 根据测试集剪枝。 特征选择 特征选择我们有一个潜意识里的认识,就是希望选取对于分类有帮助的特征。 那么这里采用信息增益的指标来判断。 什么是信息增益? 信息增益 什么是熵 用来度量随机变量的不确定性的,熵越大,不确定性越高。 所以我们得到了信息增益的算法: 根据上述方法我们可以得到一个属性的排序。 信息增益比 根据上面的公式其实是更有益于选择那些属性值多的属性,这是需要改进的,所以我们增加一个分母。 得到信息增益比的定义: 知道了我们如何选择特征了,接下来就是生成决策树的算法了,一共有两种,先介绍一下ID3。 简单来说就是根据信息增益从大到小进行排序来选择结点。 算法简述: 从根节点开始,选择信息增益最大的属性来划分children结点。 然后选择每个孩子结点来作为根节点,再根据信息增益选择下一个属

分类回归树

1.1.1. 分类回归树 分类回归树(Classification and regression trees,CART)是决策树的一种,它是基于吉尼(Gini)指标(并且是最简化的吉尼指标)的方法。 在OpenCV 下函数icvCreateCARTStageClassifier 实现层强分类器的构建,而它又调用了icvCreateCARTHaarClassifier 、icvInitCARTHaarClassifier 、icvEvalCARTHaarClassifier 实现了弱检测器的分类回归树的初始化、构建、赋值。 以下是简化了的算法描述:其中C 代表当前样本集,当前候选属性集用T 表示。 (1)新建一个根节点root (2)为root 分配类别(有人脸还是没有) (3)如果T 都属于同一类别(都是正样本或者反样本)或者C 中只剩下一个样本则返回root 为叶节点,为其分配属性。 (4)对任何一个T 中属性执行该属性上的划分,计算此划分的分类不纯度 (吉尼不纯度) (5)root 的测试属性是T 中最小GINI 系数的属性 (6)划分C 得到C1 C2子集 (7)对于节点C1重复(1)-(6) (8)对于节点C2重复(1)-(6) 至于CART 的修剪、评估等算法就不给出了。CART 的修剪的算法是分类错误算法。如果想深入了解CART 树,则阅读上节给出的参考书目。 1.1. 2. 弱分类器方法 弱分类器的种类很多,但OpenCV 使用的是效果最好的决策树分类器。关于分类器的介绍在第一章已经讨论过了,如果要有更深入理解可以看一些数据挖掘的图书后,再看看OpenCV 下的cvhaartraining.cpp 文件。这里特别提下弱分类器的阈值的寻找方法。 阈值寻找算法定义在icvFindStumpThreshold_##suffix 函数里面,它是通过一个宏被定义的。至于为什么通过这种方式定义,可以参考文献。[i] 函数icvFindStumpThreshold_##suffix 输入参数介绍:wk 是第k 个样本的权重,yk 是第k 个样本是正样本还是反样本,如果是正样本则为+1,反样本则为-1,lerror 、rerror 是要求的最低误差,lerror=rerror=3.402823466e+38F(超大的数值),left 、right 是输出的误差。threshold 是阈值,found 为是否找到阈值,初始是0。 For i=1:num(对每个排序后的样本) (1)∑==i k k w wl 1 ,∑+==num i k k w wr 1 (2)k i k k y w wyl *1∑== , k num i k k y w wyr *1∑+== (3)curleft=wyl/wl , curright=wyr/wr (4)如果curlerror+currerror

分类与回归树——一种适用于临床研究的统计分析方法

分类与回归树 ———一种适用于临床研究的统计分析方法 赵一鸣 (北京大学第三医院临床流行病学研究中心,北京100083) [关键词]临床研究;分类法;回归分析,统计学[摘 要]介绍分类与回归树(class ification and re g ress ion trees ,CART ) 的发展历史、结构、组成和特点。CART 包括分类树和回归树两部分,分类树的结果变量是分类变量,回归树的结果变量是连续变量。CART 是一种树型结构, 由树结和连线组成,在末端的树结又称为终止结。CART 可分析同质性较差的数据,采用替代变量的方法解决缺失数据问题,不要求数据的分布,可同时利用各种类型的数据。CART 的树型结构与临床思维十分接近,有利于CART 在临床研究中的应用。CART 可用于临床研究数据分析,其应用范围有待于不断扩展。[中图分类号]R4[文献标识码]B [文章编号]1671-167X (2001)06-0562-04 C lassification and re g ression trees (a statistical m et hod suitable f or cli nical researches ) ZHAO y i-M i n g (C enter f or C li n ical E p i de m io lo g ical R esearch ,P eki n g U n ivers it y T h ird H os p ital ,B e i j i n g 100083,Ch i na ) KEY W ORD S C lassification ;R e g ression anal y sis ;C li nical research ;S tatistics ;A nal y sis SUMM ARY T o i ntroduce classification and re g ression trees (CART ).T he develo p m ent ,struct ure ,m ai n ele m ents and f eat ures o f CART w ere i ntroduced.CART w as struct ured b y t w o p arts ,classifica-tion tree and re g ression tree.C lassification tree used nom i nal variable as outcom e ,and re g ression tree used conti nuous variable as outcom e.T ree struct ure w as t he f eat ure o f CART ,and it w as m ade u p o f tree notes and li nes.T he ter m i nal tree notes w ere na m ed end notes.CART w as suitable f or non-hom o-g eneous data anal y sis , usi n g surro g ate to re p lace m issi n g data ,suitable f or an y distri buted data ,and all ki nd o f variables.T he tree struct ure o f CART w as ver y li ke cli nical t hou g ht w a y and suitable to ex p lai n results f or cli nical p ur p ose.CARTis a ne w statistical m et hod suitable f or cli nical data anal y sis.T he a pp lied ran g e o f CARTi n cli nical researches needs to be ex p anded. [J pekin g UniO (~ealt h S ci ),2001,33:562-565] 1970年, 美国4位统计学家分析了当时各种统计分析方法存在的缺陷,提出一种既可以包容这些统计分析方法优点,又能克服其缺陷的新的统计分析方法 分类与回归树 (class ification and re g ress ion trees ,CART ) 。至1984年CART 的理论模型研究基本完善[1],但其计算量非常大,在当时的微机上难以运行。直至1995年,出现了在486微机上运行的CART 统计分析软件,使其能够用于临床研究数据的统计分析。CART 的免费限时试用版软件可以从以下网站下载:htt p ://www.salf ord-s y ste m https://www.wendangku.net/doc/943841532.html, /de m o.ht m l 。现将作者对CART 的认识和应用体会简介如下。1 分类与回归树的结构与组成 CART 由分类树(class ification tree )和回归树(re g ress ion tree ) 两部分组成。分类树用于结果变量是分类变量的数据分析,回归树则用于结果变量是连续变量的数据分析。CART 是一种树型分析方法(图1、2),其结构类似一棵倒置的树,由主干和许多分支组成。在树中有许多节点,用椭圆形框和长方形框表示,称为树结(tree node ),其中长方形框又称为终止结(end node )。每一个树结中有一些数字,为分析结果,在椭圆形框下方标有判别条件,树结间用实线连接。2 分类与回归树的特点及其在临床研究数据分析中的价值目前诊断疾病主要依据疾病的临床表型,以此为依据诊断患某种疾病的一组患者,其内部同质性(hom o g eneous )有时较差,例如不同肺癌患者肿瘤的病理类型各异,组织学来源不同,生物学特征及其表型存在多样性,对治疗的反应和临床转归不同。这类数据采用单因素分析或多元线性回归、L o g istic 回归等归一化模型处理往往效果不理想, 因为这些?265?北京大学学报(医学版) J OURNAL OF PEK I NG UN I VERS I Ty (HEALTH SC I ENCES )V o l .33N o.6 D ec .2001

分类和回归树CART

分类和回归树CART 分类和回归树 (CART ) 李保坤老师 西南财经大学 统计学院本节内容提要CART 算法关于混杂度 -- 基尼指数 -- 二分指数剪枝CART 对缺失值的处理 CART 算法分类和回归树(Classification and Regression Trees ,CART )有时被写作 C&RTBreiman, L., J. H. Friedman, R. A. Oshen,and C. J. Stone, 1984. Classification andregression trees. Belmont, CA: Wadsworth.CART 算法 ? 概览二叉树算法把数据递进划分为两个子集 , 每一个子集 的记录会更纯这一算法把误分类代价、先验概率、成本 - 复杂性剪枝CART 算法 1. 基本思想是在每一个节点选择一个划分 , 使得其每一个子集 ( 子节点 ) 的数据比父 节点的数据更“ 纯” 一些。CART 用一个混杂 度测度it 来测量一个划分的节点数据的混 杂度。CART 算法 2. 如果在节点t 的一个划分 s 把pL 比率的数据 送到左子节点tL , 把pR 比率的数据送到右子 节点tR , 在节点t 的划分 s 降低的混杂度被定

义为 :CART 算法3. CART 树的生长始于节点即, 全部训练数据 t1, 在所有可能的划分中选择一个划分 s* , 该划分导致混杂度的最大降低。 s* 把节点t1 划分为t2 和 t3 两个子节点。CART 算法 4. 以上的划分搜索过程为每一个子节点重复 使用。 5. 当所有的终止标准被满足后生长过程停止。混杂度的几个测度目标变量是类别变量 ( 名义 ) ? 基尼指数 ( Gini Index ) ? 二分指数 (Twoing Index )目标变量是类别变量 ( 有 序 ) ? 有序二分指数 (Ordered Twoing )目标变量是连续变量 ? 最小平方偏差 (Least-Squared Deviation )混杂度 : 基尼指数如果一个数据集合T 的观测记录里包括n 个类别 , 基尼指数的定义如下 : 其中是节点t 的类别j 的相对比例混杂度 : 基尼指数如果一个数据集合T 被划分 为两个子集合T 1 和T , 对应的记录数量分别是N 和N , 划分 2 1 2 split 的基尼指数被定义为 :实际上 , 这是两个子集的基尼指数的加权 平均值混杂度 : 基尼指数基尼指数的最大值是1-1/k , 在 此k 是类别的 数量。当观测记录在k 个类别上平均分布时

C A R T 分 类 与 回 归 树

【机器学习】十、分类和回归树CART原理 一文详解,分类和回归树算法背后原理。码字不易,喜欢请点赞,谢谢!!! 一、前言 分类和回归树(Classification And Regression Trees),简称CART,是1984年提出来的既可用于分类,又可用于回归的树。CART被称为数据挖掘领域内里程碑式的算法。 上一节介绍了决策树的ID3和C4.5算法,后面说到了C4.5算法存在几点不足,主要为,生成多叉树;容易过拟合;只能用于分类;特征选择采用熵模型计算量大。而CART针对C4.5算法的这几点不足都提出了改进。本文将会一一介绍。 二、CART特征选择方法 CART算法包括分类树和回归树,其中分类树和回归树的特征选择采用的是不同的方法,这里依次介绍。 CART分类树特征选择 在ID3中,采用信息增益来选择特征;在C4.5中,采用信息增益率来选择特征;而在CART的分类树中,则是采用基尼系数来选择特征。这是因为,信息论中的熵模型,存在大量的对数运算,而基尼系数在简化熵模型的计算的同时保留了熵模型的优点。 基尼系数 基尼系数代表模型的纯度,基尼系数越大,模型越不纯;基尼系数越

小,模型越纯。因此在特征选择时,选择基尼系数小的来构建决策树,这和信息增益(率)是相反的。 基尼系数表达式: 式中KKK表示分类问题有KKK个类别,第kkk个类别的概率为pkp_kpk?。 如果是二分类,公式将更简单,假设第一类的概率为ppp,则基尼系数表达式为: 对于个给定的样本DDD,假设有KKK个类别, 第kkk个类别的数量为CkC_kCk?,则样本DDD的基尼系数表达式为: 特别的,对于样本DDD,如果根据特征AAA的某个值aaa,把DDD分成 D1D1D1和D2D2D2两部分,则在特征AAA的条件下,DDD的基尼系数表达式为: 从熵模型到基尼系数 到这里你可能还不明白为什么可以使用基尼系数来替代熵,推导如下:从上面推导可以得知,通过泰勒展开,可以将基尼系数近似的等价于熵模型。下图展示了基尼系数和熵模型之间的差距,可以看出,基尼系数和熵之半的曲线非常接近,仅仅在45度角附近误差稍大。因此,基尼系数可以做为熵模型的一个近似替代。 CART回归树特征选择 上面说了CART的分类树采用基尼系数来选取特征,而CART的回归树对于离散型特征也是采用基尼系数,而对于连续性特征,则采用均方差。对于任意划分特征AAA,对应的任意划分点sss两边划分成的数据集D1D1D1和D2D2D2,求出使D1D1D1和D2D2D2各自集合的均方差最小,同

相关文档