目录
- 一、决策树
- 二、决策树之ID3生成算法
-
- (1)理论
- (2)代码实现
- 三、决策树之Sklearn库实现ID3、C4.5、CART
-
- (1)ID3
- (2)C4.5
- (3)CART
- 四、总结
- 五、参考资料
一、决策树
决策树(decision tree)是一种基本的分类与回归方法。一般情况下,回归方法可以转换为分类方。
决策树主要算法有:ID3、C4.5、CART。以及进化后的C4.5算法C5.0、分类有极大提升的Tsallis等算法。这些算法的区别就在于选择最优特征的方式。但C5.0的核心原理与C4.5是相同的,它对于C4.5的改进在于计算速率,尤其是对于大数据,C4.5的速度非常慢,而C5.0对大数据运算效率极高。但C5.0一直是商用算法,之前一直未开源,但官方提供了可将C5.0构建的分类器嵌入到自己组织中的C源码。
二、决策树之ID3生成算法
(1)理论
输入:训练数据集D和特征A
输出:特征A对训练数据集D的信息增益g(D,A)
1.经验熵
(2)代码实现
1.导入包并读取数据
2.计算给定数据集的信息熵
3.选择最好的数据集划分特征,根据信息增益值来计算
4.判断数据集的各个属性集是否完全一致
5.创建决策树
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!