如何使用R软件建立C5.0决策树

决策树是解决分类问题的一种常用方法,它是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。

决策树的建立可以简单的分为2个过程:

1、决策树的生长

(1)如何从众多的输入变量中找到当前最佳分组变量

(2)如何从分组变量中的众多值中找到一个最佳分割点

2、决策树的剪枝

先剪枝:在建立树模型的时候就开始限制树的长大

后剪枝:先建立一个完整的树,之后在对该树进行修剪

不同的决策树算法对于上述问题的处理方式不同,下面简单的列举了其中3种算法之间的区别:

由于结果太长,上图只截取了部分图片。由上图可知,该数据集有1000条记录,42个变量。

2、数据探索

查看数据集是否有缺失值和异常值,这里使用的是summary函数,代码如下,

summary(telco)

对于分类型变量,summary输出的结果是各个变量类别和取值个数;

对于数值型变量,summary输出的结果是最小值、最小值、均值和三个四分位数;

如果有缺失值的话,summary还会显示缺失值的个数。

我们截取了含有缺失值的变量的结果

可知19个变量已经被剔除掉了,还剩19个变量用于模型的构建

5、模型评估

                             训练集               测试集

正确率                86.4%                74.5%               正确率:被分对的样本数除以所有的样本数;

TPR(召回率)56.2%                40%                  召回率:所有正例中被分对的比例,衡量了分类器对正例的识别能力

准确率                82%                    55%                 准确率:分子是预测该类别正确的数量,分母是预测为该类别的全部数据的数量。

FPR                    4.6%                   12.4%               FPR:实际为负例,被分类器错误判断为正例的比例。

提升度                3                           2                       提升度:准确率/正例比例

对于具体的某个分类器而言,我们不可能同时提高上面的所有指标,例如,很多时候,尤其是数据分类难度较大的情况下,准确率和召回率往往是矛盾的,我们应该根据实际应用场景,在建模的时候,在保证其他指标一定的条件之下,尽量提高我们看重的指标。

在本案例中,我们预测流失用户的目的是为了防止用户流失减少我们的收益,所以我们应该尽量找出流失用户,即尽量增大召回率(TPR),同时减少误判的比例(FPR),那么TPR和FPR是多少才行呢p>

假设我们对预测出来的流失用户进行挽留的成本是a元,成功挽留住给我们带来的收益是b元,则

训练集的收益=123*b-(123+27)*a

测试集的收益=22*b-(18+22)*a

对不同的决策树模型进行评估是,我们可以用收益的值来评估模型。

文章知识点与官方知识档案匹配,可进一步学习相关知识算法技能树首页概览34746 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2016年7月13日
下一篇 2016年7月14日

相关推荐