如何使用R软件建立C5.0决策树

决策树是解决分类问题的一种常用方法，它是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。

决策树的建立可以简单的分为2个过程：

1、决策树的生长

（1）如何从众多的输入变量中找到当前最佳分组变量

（2）如何从分组变量中的众多值中找到一个最佳分割点

2、决策树的剪枝

先剪枝：在建立树模型的时候就开始限制树的长大

后剪枝：先建立一个完整的树，之后在对该树进行修剪

不同的决策树算法对于上述问题的处理方式不同，下面简单的列举了其中3种算法之间的区别：

由于结果太长，上图只截取了部分图片。由上图可知，该数据集有1000条记录，42个变量。

2、数据探索

查看数据集是否有缺失值和异常值，这里使用的是summary函数，代码如下，

summary（telco）

对于分类型变量，summary输出的结果是各个变量类别和取值个数；

对于数值型变量，summary输出的结果是最小值、最小值、均值和三个四分位数；

如果有缺失值的话，summary还会显示缺失值的个数。

我们截取了含有缺失值的变量的结果

可知19个变量已经被剔除掉了，还剩19个变量用于模型的构建

5、模型评估

训练集测试集

正确率 86.4% 74.5% 正确率：被分对的样本数除以所有的样本数；

TPR（召回率）56.2% 40% 召回率：所有正例中被分对的比例，衡量了分类器对正例的识别能力

准确率 82% 55% 准确率：分子是预测该类别正确的数量，分母是预测为该类别的全部数据的数量。

FPR 4.6% 12.4% FPR：实际为负例，被分类器错误判断为正例的比例。

提升度 3 2 提升度：准确率/正例比例

对于具体的某个分类器而言，我们不可能同时提高上面的所有指标，例如，很多时候，尤其是数据分类难度较大的情况下，准确率和召回率往往是矛盾的，我们应该根据实际应用场景，在建模的时候，在保证其他指标一定的条件之下，尽量提高我们看重的指标。

在本案例中，我们预测流失用户的目的是为了防止用户流失减少我们的收益，所以我们应该尽量找出流失用户，即尽量增大召回率（TPR），同时减少误判的比例（FPR），那么TPR和FPR是多少才行呢p>

假设我们对预测出来的流失用户进行挽留的成本是a元，成功挽留住给我们带来的收益是b元，则

训练集的收益=123*b-(123+27)*a

测试集的收益=22*b-(18+22)*a

对不同的决策树模型进行评估是，我们可以用收益的值来评估模型。

文章知识点与官方知识档案匹配，可进一步学习相关知识算法技能树首页概览34746 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！