文档库

最新最全的文档下载
当前位置:文档库 > 中医证候研究的现代方法学述评_一_中医证候数据挖掘技术_龚燕冰

中医证候研究的现代方法学述评_一_中医证候数据挖掘技术_龚燕冰

中医证候研究的现代方法学述评(一)

———中医证候数据挖掘技术

龚燕冰1倪青2王永炎1

(1中国中医科学院临床基础医学研究所北京100700)

龚燕冰,女,29岁,在读医学博士生

(2中国中医科学院广安门医院内分泌科北京100053)

摘要:目的探索中医证候的现代研究方法。方法对近年来的中国中医期样本维数不敏感,相信支

持向量机在中医的数据挖掘中也会得到更广泛的应

用。

支持向量机是基于统计学习理论、针对小样本

学习问题的一个理论框架[16],用于数据挖掘的最大

优势在于:其计算复杂性与数据的维数不成正比,只

和样本的数量有关,SVM对数据库中模式分类的准

确率一般要高于神经网络。它的缺点在于对于维数

非常大的数据,看上去计算量可能变得让人望而生

畏,也许使用充足的基函数数据是可分的,但可能出

现过分拟合。

8贝叶斯网络

贝叶斯网络(bayes network)包括网络结构和参

数集合两部分。网络结构是个有向无环图,由一个

节点集合和一个节点间的有向边集合组成,任意两

个节点间最多存在一条有向边,贝叶斯网络能够利

用简明的图形方式定性的表示事件之间复杂的因果

关系或概率关系,在给定某些先验信息后,还可以根

据条件概率表定量地表示这些关系的强度。

王氏[17]等应用贝叶斯网络的相关技术从474

例病例的临床数据中发现血瘀证的关键症状,定量

计算这些症状对诊断的贡献度,并建立血瘀证的诊

断模型,用贝叶斯网络的方法发现了血瘀证的7个

关键症状,并定量计算其诊断贡献度。基于这些关

键症状建立的简单贝叶斯分类器模型对血瘀证诊断

的准确率达到96. 6%。结果表明贝叶斯网络技术

适合于解决中医定量诊断问题。它可以揭示众多症

状间以及症状与证候间的复杂关系,从中发现证候

的主要症状和次要症状,并定量确定其诊断价值,有

助于确定证候诊断的标准和规范。

贝叶斯网络学习技术能够通过数据分析自动创

建贝叶斯网络,具有以下优点:可以在更少的数据中

学习到更准确的模型,学习P(A)和P(B)比联合概

率分布P(AB)需要的数据少;揭示了研究对象或领

域的结构性质,有助于深入理解领域问题,丰富对领

域对象的认识;网络结构蕴含的条件独立关系有助

于认识事件间的先后关系,进行灵敏度分析和推理;

网络结构的因果语义使得人们可以学习到事件间的

因果关系,从而预测某些行为的可能结果。它的缺

点是,由于任意两个节点间最多存在一条有向边,这

就决定了两个结点的关系是有方向性的,是有先有

后的,是一因一果的,不存在交互的、逆向的相关关

系。对于繁杂的中医证候研究,单一的贝叶斯也无

能为力了。

800 北京中医药大学学报第29卷而达到降维的目的,消除共

线性对回归分析结果的影响,研究者可根据变量的

情况选择具有代表性的指标进行下一步研究。由于

聚类分析是对整个样本资料按指标和样品的相似程

度进行归类,并不得出结论,故属于探索性分析[8]。

袁氏等[9]对67个肾虚症状变量的轻、中、重不

同程度总积分进行排序,对前20个症状进行聚类分

析,发现这20个症状的类群基本反映了肾虚证候的

几个主要方面。这20个肾虚症状经过不同角度的

聚类分析,其症状群落的结构和关系与中医理论的

描述基本一致,为中医诊断学中有关肾虚的症状结

构提供了科学的解释。

聚类的方法可以很容易地得出研究者所需的症

状群或者数据群,并进行简单的一维解释,聚类技术

的根本问题是对两个对象间距离和相异度度量的选

择,针对两两对象之间的“相似度”或“相异度”划分

不同类别。并不能从多维和多层次角度来全面分析

数据并解释数据中真正复杂结构,而中医症状以及

症状与证候之间的关联性是非常复杂的,具有多维

和多层次的复杂联系,这可能是目前的聚类分析方

法所无法解决的。所以聚类的方法在中医证候的研

究中,始终是一种辅助的手段。在统计学中,聚类分

析和关联规则一样是属于无指导学习(unsupervised

learning)的范畴[10]1,306,316,意即只能观察特征,而没

有结果度量。

5人工神经网络

人工神经网络(artificial neural network)的原理

是通过模拟生物的神经网络结构和功能,实现对各

种信息的有效处理。它通常包含输入层、输出层以

及一个或几个隐含层,它的基本组成单位为神经元。

输入层接受外界信号,不对其进行加工和处理,直接

将其引入神经网络;隐含层位于网络的输入层和输

出层之间,可包括多层,对输入的信息进行处理并将

处理后的信息传给输出层(或下一个隐含层);输出

层则输出经隐含层处理后的结果。可见,人工神经

网络不需要精确的数学模型,而是通过模拟人的联

想推理和抽象思维能力,来解决传统自动化技术无

法解决的许多复杂的、不确定性的、非线性的自动化

问题。

将此方法用于中医证候量化诊断模型已经有了

初步的探索[11]:将数据让改进的BP网络学习和训

练,同时用录入的原始数据让改进的BP网络学习

和训练,用抽样检验的方法,采用相同的数据进行证

候诊断检验,检验的结果是前者的证候诊断准确率

799 第12期龚燕冰等中医证候研究的现代方法学述评(一)———中医证候数据挖掘技术人类社会中普遍存在的一

种客观现象,也是中医药学的主要特点之一,目前不

确定性的研究已经逐渐被提高到很重要的位置。集

对分析[4](setpair analysis,SPA)是一种用联系数a

+bi+cj统一处理由于模糊、随机、中介和信息不

完全所致不确定性的系统理论和方法,很可能会成

为处理中医药不确定性的捷径,将很大程度地推动

证候规范化和中医药客观化的实现。

集对分析的特点是对客观存在的种种不确定性

给予客观承认,并把确定性与不确定性作为一个既

确定又不确定的同异反系统进行辨证分析和数学处

理。集对分析处理不确定性理论的特色在于:①对

不确定性给予“客观承认”;②把确定性与不确定性

作为一个系统进行处理和分析;③从系统层次的观

点认识不确定性的本质,微观层次上的不确定性不

能随便确定;④不确定性以及不确定性系统不能孤

立地存在;⑤集对分析中的不确定性理论也适用于

对确定性问题的研究。归纳起来,集对分析对不确

定性的处理思路可以简要地概括为“客观承认、系

统描述、定量刻画、具体分析”。

集对分析理论用于中医数据挖掘的优势是对不

确定性采取了与某些不确定性理论不同的处理方

法,就是不像以往那样一味地去把不确定性转化为

确定性来加以研究,而是把不确定性与确定性作为

一个系统来加以研究。借助对这个系统中确定性与

不确定性相互依存、相互联系、相互渗透,以及在一

定条件下相互转化过程的描述、分析、处理,来研究

不确定性在具体条件下的取值规律。

集对分析的不足之处在于对于不确定性的描述

只能在系统层次上,而微观层面的认识还不能随便

确定,所以适用于对中医宏观问题的研究,而对于相

对精细的问题则束手无策了。如果能够和其他可以

解决精确问题的方法结合,比如与粗糙集理论协同

应用,则有扬长避短之效。

3粗糙集理论

粗糙集理论[5](rough set),是继模糊数学理论

之后的又一种处理不精确和不确定问题的数学方

法,是波兰学者Z. Pawlak在80年代初提出来的。

它是一种研究不完整数据、不确定知识的表达、学习

及归纳的数学方法,为研究不精确数据的分析和推

理、挖掘数据间的关系、发现潜在的知识提供了行之

有效的工具。粗糙集理论认为知识是对对象的分类

798 北京中医药大学学报第29卷

刊有关中医证候的数

据挖掘技术进行汇总,分析其优势与不足。结果目前用于中医证候研究的数据挖掘方法主要有:

关联规则、集对分析、粗糙集理论、聚类分析、人工神经网络、决策树、支持向量机、贝叶斯网络等。

结论中医数据具有非线性、模糊性、复杂性、非定量等特征,针对具体的医学数据和不同的挖掘目

标往往要将几种方法综合起来应用,以发挥各自的技术优势。

关键词:中医证候;数据挖掘技术;方法学

中图分类号:R2-03

Modernmethodology ofTCM syndrome study(I):Datam ining technology

ofTCM syndrome

GONG Yan-bing1,NIQ ing2,WANG Yong-yan1

(1 Institute of Fundamental C linicalM edicine,China Academy of Chinese M edical Sciences, Beijing 100700)

(2 Guang’anmen Hospital,China Academy ofChineseM edical Sciences,Beijing 100053) Abstract:Objective To explore themodern researchmethods forTCM symptomatology.M ethod The

datamining techniques ofTCM symptomatologywere summarized from differentTCMmagazines in recent

years,and their advantages and disadvantages were analyzed.Result The result showed that the methods fordatamining in TCM symptomatology included association rules,setpair analysis,rough set

theory,cluster analysis,artificial neural network,decision tree,support vector machine and Bayes network,etc.Conclusion The TCM data have the characteristics of nonlinearity,indistinction,

complicacy and unquantification and so on. Thesemethods should be applied integratedly in accordance

with the specific TCM data and differentmining aims,and their advantageswillbe given a full play to.

Key words:TCM syndrome;datamining technique;methodology

中医证候信息的多模式特性是它区分于其他领

域数据的最显著特征,这种多属性模式并存加大了

中医数据挖掘的难度。许多证候信息的表达本身就

具有不确定性和模糊性的特点,证候信息所体现出

的客观不完整和描述疾病的主观不确切,形成了中

医证候信息的复杂性。数据挖掘技术善于从海量数

据中发现隐含的有意义的知识,预测未来趋势及行

为,做出前瞻性的决策,正是这种优势使得数据挖掘

技术在分析中医证候的研究中被广泛地采用并取得

了许多有价值的成果。在数据挖掘之前必须对中医

证候信息进行清理和过滤,将其变成适合挖掘的形

式,以确保数据一致性。数据挖掘的基本步骤[1]包

总之,在汇总了诸多的数据挖掘方法之后,我们

力图寻找其在中医证候研究中的最有优势的一面,

然而任何方法都不可能面面俱到。当每一种方法面

对多维多阶的中医数据信息都力不从心时,我们深

深地体会出中医数据挖掘的难度,最重要的是从另

一个侧面体现了由王永炎院士首次提出的中医证候

的“内实外虚、动态时空、多维界面”的特征,并遵循

“以象为素,以素为候,以候为证,病证结合”的原

则,所以中医证候是一个高维性、高阶性和非线性的

复杂系统[18]。

面对这样错综复杂的定量与定性结合、主观与

客观结合、确定与模糊结合、线性与非线性结合的海

量的中医数据,针对具体挖掘目标,往往要将几种方

法综合起来应用,以发挥各自的技术优势。如用聚

类分析和关联规则等无指导的学习方法做探索性分

析,并求助于有指导的学习方法如贝叶斯网络法、支

持向量基方法等求得结果;粗糙集理论、人工神经网

络、支持向量机等适用于复杂的、不确定性的、非线

性的数据,结合起来应用可能会弥补单一方法的不

足。

参考文献:

[1]LANK E.TheHuman FactorLongRange Planning[J].Le-

veraging Invisible Assets,1997,30(3):406 -412.

[2]王华,胡学钢.基于关联规则的数据挖掘在临床上的

应用[J].安徽大学学报(自然科学版),2006,30(2):

21 -25.

[3]张承江,闫朝升,宋立群.中医肾病治疗信息中关联规则

的挖掘算法[J].黑龙江大学自然科学学报,2005,22

(6):842 -845.

[4]孟庆刚,王连心.浅谈集对分析在证候规范化研究中的

应用[J].北京中医药大学学报,2005,28(4):9 -14.

[5]张文修,吴伟志.粗糙集理论与方法[M].北京:科学出

版社,2003:22 -23.

[6]王相东,殷鑫.粗糙集理论与证候规范化研究[J].陕

西中医学院学报,2005,28(2):70 -71.

[7]秦中广,毛宗源,邓兆志.粗糙集在中医类风湿证候诊断

中的应用[J].中国生物医学工程学报,2001,20(4):

357 -363.

[8]查青林,林色奇,吕爱平,等.多元统计分析在中医证候

研究中的应用探析[J].江西中医学院学报,2004,16

(6):79 -80.

[9]袁世宏,王米渠,王天芳.聚类分析对肾虚症状的探索性

研究[J].北京中医药大学学报,2006,29(4):254 -257.

[10]TREVOR H,ROBERTT,JEROME F.统计学习基础-

数据挖掘、推测与预测[M].范明,柴玉梅,咎红英,

等译.北京:电子工业出版社. 2004.

[11]李建生,胡金亮,余学庆.基于神经网络的中医证候量

化诊断模型探索.河南中医学院学报[J],2005,20

(3):6 -8.

[12]阎平凡,张民水.人工神经网络与模拟进化计算[M].

北京:清华大学出版社,1999:421 -430.

[13]刘延华.糖尿病中医证候量化标准研究[D].中国博硕

论文库.

[14]崔雷.数据采掘及其在医学研究中的应用[J].情报

理论与实践,2001,24(5):330 -333.

[15]CAIYD,LIU XJ,XU XB,et al,Support vectormachines

forperdiction of protein subcellular location[J].MolCell

BiolResCommun,2000,4(4):2305.

[16]张学工.关于统计学习理论与支持向量机[J].自动化

学报,2000,26(1):32.

[17]王学伟,瞿海斌,王阶.一种基于数据挖掘的中医定

量诊断方法[J].北京中医药大学学报,2006,28(1):4

-7.

[18]王永炎.完善中医辨证方法体系的建议.中医杂志[J],

2004,45(10):729 -731.

(收稿日期:2006-05-28)

《北京中医药大学学报》医学名词著录格式

医学名词以全国自然科学名词审定委员会公布的《医学名词》(科学出版社出版)为准。无通用译名的

名词术语于文内第1次出现时应注原词或注释。药名以《中华人民共和国药典》(2005年版)或《中国药品

通用名称》(卫生部药典委员会,1997年版)为准。药物名称不用商品名。统计学符号按GB3358 -82《统计

学名词及符号》的有关规定书写,如:样本的算术平均数用英文小写–x;标准差用英文小写s;t 检验用英文小

写t;F检验用英文大写F;卡方检验用希腊文小写χ2;相关系数用英文小写r;概率用英文大写P(P值前应

给出具体检验值,如t值、q值等)。以上符号均用斜体。

801 第12期龚燕冰等中医证候研究的现代方法学述评(一)———中医证候数据挖掘技术