当前位置：文档库 › 基于信息增益的特征选择在烟丝致香成分中的应用

基于信息增益的特征选择在烟丝致香成分中的应用

《现代电子技术》2012年第0期总第0期计算机应用技术基于信息增益的特征选择在烟丝致香成分中的应用

刘孝良1，丁香乾2，门月1

（1.中国海洋大学信息科学与工程学院，山东青岛 266071; 2.中国海洋大学信息工程中心,山东青岛266071）

摘要：烟丝化学成分可以由实验方法提取出来，但其关键致香成分很难确定。针对这一问题，一般采用化学分析方法，但分析耗时比较长。根据烟丝化学成分与香气风格关系，使用基于信息增益的特征选择方法进行提取致香成分。通过计算烟丝化学成分中的每个属性的信息增益，从中挑选出信息增益大于0的值作为特征选择的结果进行分类预测。实验结果表明，使用该方法能够得到较准确的关键致香成分，与传统特征选择方法相比，其特征数据集的分类结果也更加准确，可以作为烟叶香型分类的有效工具。

关键字:信息增益、特征选择、致香成分、烟叶香型

中图分类号：TP391 文献标识码：A 文章编号：

Information Gain Based Feature Selection For Key Fragrant Of

Shredded Tobacco

Liu Xiaoliang1, Ding Xiangqian2, Men Yue1

(1. Dept. of Information Science and Engineering ,Ocean University of China, Shandong Qingdao 266100, china; 2.Center of

Information Engineering, Ocean University , Qingdao Shandong,266071,China)

Abstract: Chemical composition of shredded tobacco is extracted by experimental method, but its key fragrant is difficult to determine. In view of this problem, it often is analyzed by chemical method which is time-consuming. The fragrant is extracted by using information gain based feature selection according to the relationship between chemical composition and aroma. This paper pick out information gain greater than zero as the result of feature selection to classify by calculating information gain of each attribute in chemical composition. The experimental results showed that it could get more accurate key fragrant, and training result of its feature set was more accurate than that by traditional feature selection methods, and can be used as an effective tool of tobacco aroma classification.

Keywords: Information Gain, Feature Selection, Fragrant, Tobacco Aroma

1.引言

香味、香气是评价卷烟产品品质的重要指标，主要依靠专家进行评吸来完成，由于受到个人主观方面的制约以及香味无法定量描述其数量和品质等原因，始终无法确定烟丝中的致香成分对卷烟产品的香气风格的影响作用[1,2]。目前，大多研究都集中在结合数理统计方法等对卷烟产品的研究。

针对这一现状，提出了一种基于信息增益的特征选择算法对烟丝关键致香成分进行分析。通过信息增益方法提取关键特征，能够实现数据集有效降维，深入认识关键特征属性对输出变量的影响关系，并且给出了M5P决策树、逐步线性回归、偏最小二乘回归算法在原始数据集以及两个特征选择的数据集的比较分析结果，实验表明基于信息增益的特征选择方法提取的关键特征的分类结果具有较高的准确率。

2.信息增益与特征选择

2.1信息增益

1948年,Shannon提出了“信息熵”的概念，解决了对信息的量化度量问题。信息熵是用来衡量一个随机变量取值的不确定性程度[3]。如果随机变量的变化越多，通过它获取的信息量就越大。令X为随机变

基于信息增益的特征选择在烟丝致香成分中的应用 2012年

量，X 中的取值包括12{,,...}n x x x ，i x 出现的概率为()i p x 。则X 的信息熵定义为：

()()log ()n

i i i H X p x p x ==-∑ （公式1）

条件熵是指已知一个变量的条件下，另外一个变量的不确定性程度，即一个变量依赖于另一个变量的强弱程度。具体地，假设随机变量Y 已知，随机变量X 关于Y 的条件熵的定义(|)H X Y 为：

2(|)()(|)log (|)

i i j i i j

H X Y p y p x y p x y =-∑∑ （公式2）

信息增益是信息熵的差，表示在消除不确定性后获得的信息量，定义为：

()(|)H X H X Y ?=- （公式3）

2.2特征选择特征选择是统计学、机器学习和数据挖掘等领域的经典研究问题，也称为特征子集选择，或属性选择。它是为了解决大规模数据计算而衍生的。它指从原始特征集中选择使某种评估标准最优的特征子集[3]。通过特征选择，一些和任务无关或者冗余的特征被删除，简化的数据集常常会得到更精确地模型，也更容易理解。

经过特征选择得到的特征子集要始终坚持的两个原则：第一，特征子集中任一特征与类别之间存在很强的相关性；第二，特征子集中任一特征与其他该子集任一特征之间存在很弱的相关性。其中第一个原则的实现通过剔除特征中那些与类别不相关或弱相关的特征，保证得到的特征子集能够很好的表征整个数据集的类别；第二个原则的实现通过剔除特征子集中的冗余特征，保证得到特征数量较少的特征子集。

经过国内外许多学者的不懈努力，目前已经提出了许多性能优越的特征选择算法。Kira 和Rendell [4]

于1992年提出了Relief 算法，它是基于统计相关性来选择特征。1999年Hall [5]给出一种既考虑了特征的类区分能力，同时也考虑特征间冗余性的相关性度量标准。Guyon [6]等在2002年将支持向量机（SVM ）的分类性能作为特征选择的评价标准，提出一种后向消除特征选择算法SVM-RFE 。2006年Abe 和Kudo [7]借助贝叶斯误差边界以选择与类别相关的特征。 2.3.基于信息增益的特征选择在信息增益中，重要性的衡量标准是看特征能够为分类系统带来多少信息，带来的信息量越多，该特

征越重要[8]

。信息增益是针对一个一个的特征而言的，就是看一个特征t ，系统在有它和没有它的时候信

息量各是多少，两者的差值就是这个特征给系统带来的信息量，即增益[10]

。定义为：

21()()(|)()log ()n

i IG t H C H C t p Ci p Ci ==-=-+∑

221

()(|)log (|)(|)log (|)n n

i i i i p t p C t p Ci t p p C t p Ci t ==+∑∑（t ）（公式4）

()i p C 表示类i C 在数据集中出现的概率，即类i C 出现的次数除以数据集的大小；()p t 表示数据集中包含

特征t 的概率，即包含特征t 的类的数量除以数据集的大小。(|)i p C t 表示特征t 属于类i C 的条件概率，即包含特征t 且属于类i C 的数据的数量除以包含特征t 的数据的数量；()p t 表示数据集中不包含特征t 的类的概率，即不包含特征t 的类的概率，即不包含特征t 的类的数目除以数据集的大小；(|)p Ci t 表示不包含

刘孝良等：基于信息增益的特征选择在烟丝致香成分中的应用

特征t且属于类i C的条件概率，即不包含特征t且属于类i C的数据的数量除以不包含特征t的数据的数量。

信息增益中，重要性的衡量标准就是看特征能够为分类系统带来多少信息。特征值的信息增益越大，带来的信息越多，对分类越重要[9,10]。因此，在特征选择中，通常选取信息增益值比较大的特征。

3.实验结果与分析

3.1实验数据

本文所使用的烟丝质量数据来源于某烟草企业的产品研发中心，实验数据集包含了产品研发过程中采集和积累的成品烟丝致香成分数据。其中有65个样本，62个样本属性(清香、紫苏醛、茄酮)，如表1所示。

样品编号异长叶烯紫苏醛茄酮糠醛苯甲醛吡啶…清香

1 6.364 3.818 438.727 77.273 9.636 4 3

2 2.679 0 357.961 37.426 5.58 0.744 3.92

3 7.826 0 368.841 59.855 0 2.319 2.05

4 4.291 0 454.876 72.172 7.282 3.511 1.38

5 6.364 3.181 438.727 77.273 9.63

6 4 2.96

表1 烟丝化学指标样本数据

其中，清香属性的值为评吸委员会评吸结果的算术平均值。

3.2实验及结果分析

该实验中以烟丝中检测出的致香成分为输入变量，以卷烟产品清香得分为输出变量，运用基于信息增益的特征选择方法，根据公式4分别计算各指标项的信息增益，从诸多致香成分中挑选关键指标项。指标项的信息增益比较大，说明其包含的信息量较大，对分类的信息量影响大，即对产品香型的确定作用较大。因此，我们从致香成分中挑选信息增益较大的指标项，这些指标项可以凸显烟丝香型。

成品烟丝致香成分共检测出62个指标项，首先运用基于信息增益的特征选择方法分析数据，从分析结果中仅挑选信息增益大于0的指标项，如表2所示。

1 棕榈酸甲酯 3.1739

2 5-甲基糠醛 2.99941

3 芳樟醇 2.93188

4 BHT 2.77553

5 三甲基二氢萘 2.73579

6 巨豆三烯酮(1) 2.71731

7 异戊酸异戊酯 2.41696 8 2-乙酰基呋喃 2.3006

9 糠醛 2.28751 10 氯仿 2.08838

11 十四酸甲酯 2.03037 12 尼古丁 2.02054

13 环戊烯二酮 2.01592 14 香叶基丙酮 1.94635

15 2-甲基丁酸异戊酯 1.92988 16 长叶烯 1.83599

17 苯乙醛 1.82774 18 吡啶 1.66673

19 苯甲醛 1.56195 20 十四酸乙酯 1.41516

21 大茴香醛0.96816 22 异长叶烯0.9531

23 薄荷酮0.9531 24 反-2-己醛0.90659

25 苯甲醇0.8972

表2烟丝致香成分特征选择结果

然后，运用Relief方法对成品烟丝数据进行分析，得到该算法的特征选择的结果，如表3所示。

3 反-2-己醛

4 2-乙酰基呋喃

5 环辛四烯

6 2-甲基丁酸异戊酯

基于信息增益的特征选择在烟丝致香成分中的应用2012年

7 异戊酸异戊酯8 薄荷酮

9 糠醛10 2,4-庚二烯醛

11 异长叶烯12 苯甲醛

13 芳樟醇14 长叶烯

15 5-甲基糠醛16 环戊烯二酮

17 薄荷脑

表3烟丝致香成分特征选择结果

将原始数据以及2种特征选择算法得到的数据集分别使用M5P决策树、逐步线性回归、偏最小二乘回归算法进行实验，得到的结果如表4所示。

数据集信息M5P决策树逐步线性回归MLR 偏最小二乘回归PLS

绝对误差平均误差绝对误差平均误差绝对误差平均误差原始数据集 4.29 0.1 23.25 0.541 8.14 0．189

本文算法得到的数据集 1.92 0.045 10.3 0.24 5.17 0.12

Relief得到的数据集 4.44 0.103 12.93 0.301 6.24 0.15

表4实验结果

M5P、MLR、PLS算法在2个特征选择后的数据集上的绝对误差和平均误差均低于使用全部特征子集的绝对误差与平均误差，说明特征选择算法是提高分类器的分类性能的有效方法。由表4可知，本文算发的到的特征数据集在3种算法上都取得到最好的绝对误差和平均误差，说明该算法选择出的特征子集对烟丝香型的确定具有较准确的预测精度。

4.结论

本文采用基于信息增益的特征选择算法对烟丝化验数据进行了分析，提取出了对卷烟产品的清香型影响较为重要的关键致香成分，实验结果表明，该算法提取的特征子集对于烟丝香型的预测精度较好。因此，可以作为烟草行业香型分类的有效工具。

[参考文献]

[1]肖协忠,王放,贺英,刘红伟,马强,徐海涛. 烤烟致香成分与香气质量的相关性分析[J]. 中国烟草科

学,2008,(6).

[2]国家技术监督局.中华人民共和国国家标准卷烟感官技术要求 GB5606.4－2005[M].北京:中国标准

出版社,2005.

[3]边肇祺，张学工.模式识别[M].2版.北京：清华大学出版社,2002.

[4]KIRA K, RENDELL L. A practical approach to feature selection. Proceedings of the Ninth International

Conference on Machine Learning, 1992,38(2):249-256

[5]Mark A. Hall. Correlation-based Feature Subset Selection for Machine Learning [D]. Hamilton, NewZealand:

University of Waikato, 1999.

[6]Guyon I, Weston J, Barnhill S, et al. Gene selection for cancer classification using support vector machines

[J]. Machine Learning, 2002, 46(1-3): 389-422.

[7]Abe N, Kudo M. Non-parametric classifier-independent feature selection [J]. Pattern Recognition, 2006, 39:

737-746.

[8]郑伟，吕建新，马艳丽. 一种基于扩展互信息算法的特征选择方法[J].微计算机信息，2010，8-3.

[9]朱颢东, 钟勇. 基于改进的ID3信息增益的特征选择方法[J]，计算机工程，2010,36（8）：37-39.

[10]I. Guyon and A. Elisseeff. An Introduction to Variable and Feature Selection [J]. Machine Learning Research,

2003,3:1157–1182.

刘孝良等：基于信息增益的特征选择在烟丝致香成分中的应用

作者简介：刘孝良（1986-），男，山东省济宁市，硕士研究生，研究方向：模式识别与人工智能；

丁香乾（1962-），男，山东省威海人，博士生导师，教授，研究方向：制造业信息化技术、

计算智能；

门月（1988-），女，辽宁省锦州市，硕士研究生，研究方向：模式识别与人工智能；