当前位置：文档库 › 机器学习随机森林算法的应用现状

机器学习随机森林算法的应用现状

文/杭琦杨敬辉

【摘要】摘要

【期刊名称】电子技术与软件工程

【年(卷),期】2018(000)024

【总页数】3

【关键词】【关键词】机器学习集成学习随机森林

●本项目受上海第二工业大学机械工程学科建设资助（XXKZD1603）。

机器学习算法主要解决的是分类和聚类的问题。分类问题是根据用户的分类数据得到预测的分类结果。根据分类器的个数，分类器又分为单分类器和多分类器。例如决策树、贝叶斯都是传统单分类算法。这些传统的机器学习算法在一定程度上都促进了分类学习的发展，但由于单分类器有其自身的限制，容易产生过拟合等现象。故学者们提出集成多个分类器形成组合分类器，把一个学习问题分解到各个子学习器内，让其一起学习。多分类器的分类思想起源于集成学习，Boosting 和Bagging是最早将集成学习思想应用到机器学习分类算法里中两种算法。随着集成学习的发展，Tin Kam Ho 在 1995年提出了随机决策森林的思想，1998年，他又提出了新的随机子空间的集成方法，Breiman 根据随机子空间的思想在2001 提出了随机森林算法，从理论和实践两方面做了系统的阐述，自此随机森林算法成为机器学习领域中的一个具有代表性的集成学习的方法。

本篇文章第一节针对随机森林算法构建过程进行简单介绍；第二节介绍随机森林在性能改进方面的研究；第三节针对随机森林的性能指标进行研究总结；最后总结全文。

1 随机森林算法的构建过程

随机森林算法是一种集成分类模型，它的构建过程主要由三个方面构成，训练集的生成、决策树的构建和算法的产生。要构建随机森林首先要生成一个规模大小为N 的随机森林，就需要有N 颗树

，因此需要N 组训练集。故首先我们需要从原始数据中通过抽样产生训练集。通过Bagging 算法从原始数据集中抽取N 个样本。每个样本都会生产一个决策树，且生成的决策树不需要做剪枝处理

，从而建立起N 棵决策树形成森林。随机森林生成过程中涉及到如下三个评估过程：

（1）指定m 值，由于在每棵决策树分裂的过程中，不是样本中全部K 个特征属性都参与分裂，而是从中随机抽取m 个变量，同时分裂过程中特征属性的选择需满足节点不纯度最小原则。

（2）应用Bagging 随机取样法在原数据集中有放回地随机抽取k 个样本集，组成k 棵决策树；

（3）根据k 个决策树组成的随机森林对待分类样本进行分类或预测，分类的结果由单颗决策树的分