决策树是解决分类问题的一种常用方法,它是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
决策树的建立可以简单的分为2个过程:
1、决策树的生长
(1)如何从众多的输入变量中找到当前最佳分组变量
(2)如何从分组变量中的众多值中找到一个最佳分割点
2、决策树的剪枝
先剪枝:在建立树模型的时候就开始限制树的长大
后剪枝:先建立一个完整的树,之后在对该树进行修剪
不同的决策树算法对于上述问题的处理方式不同,下面简单的列举了其中3种算法之间的区别:
由于结果太长,上图只截取了部分图片。由上图可知,该数据集有1000条记录,42个变量。
2、数据探索
查看数据集是否有缺失值和异常值,这里使用的是summary函数,代码如下,
summary(telco)
对于分类型变量,summary输出的结果是各个变量类别和取值个数;
对于数值型变量,summary输出的结果是最小值、最小值、均值和三个四分位数;
如果有缺失值的话,summary还会显示缺失值的个数。
我们截取了含有缺失值的变量的结果
可知19个变量已经被剔除掉了,还剩19个变量用于模型的构建
5、模型评估
训练集 测试集
正确率 86.4% 74.5% 正确率:被分对的样本数除以所有的样本数;
TPR(召回率)56.2% 40% 召回率:所有正例中被分对的比例,衡量了分类器对正例的识别能力
准确率 82% 55% 准确率:分子是预测该类别正确的数量,分母是预测为该类别的全部数据的数量。
FPR 4.6% 12.4% FPR:实际为负例,被分类器错误判断为正例的比例。
提升度 3 2 提升度:准确率/正例比例
对于具体的某个分类器而言,我们不可能同时提高上面的所有指标,例如,很多时候,尤其是数据分类难度较大的情况下,准确率和召回率往往是矛盾的,我们应该根据实际应用场景,在建模的时候,在保证其他指标一定的条件之下,尽量提高我们看重的指标。
在本案例中,我们预测流失用户的目的是为了防止用户流失减少我们的收益,所以我们应该尽量找出流失用户,即尽量增大召回率(TPR),同时减少误判的比例(FPR),那么TPR和FPR是多少才行呢p>
假设我们对预测出来的流失用户进行挽留的成本是a元,成功挽留住给我们带来的收益是b元,则
训练集的收益=123*b-(123+27)*a
测试集的收益=22*b-(18+22)*a
对不同的决策树模型进行评估是,我们可以用收益的值来评估模型。
文章知识点与官方知识档案匹配,可进一步学习相关知识算法技能树首页概览34746 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!