决策树挑好西瓜

目录

  • 一、决策树
  • 二、决策树之ID3生成算法
    • (1)理论
    • (2)代码实现
  • 三、决策树之Sklearn库实现ID3、C4.5、CART
    • (1)ID3
    • (2)C4.5
    • (3)CART
  • 四、总结
  • 五、参考资料

一、决策树

决策树(decision tree)是一种基本的分类与回归方法。一般情况下,回归方法可以转换为分类方。

决策树主要算法有:ID3、C4.5、CART。以及进化后的C4.5算法C5.0、分类有极大提升的Tsallis等算法。这些算法的区别就在于选择最优特征的方式。但C5.0的核心原理与C4.5是相同的,它对于C4.5的改进在于计算速率,尤其是对于大数据,C4.5的速度非常慢,而C5.0对大数据运算效率极高。但C5.0一直是商用算法,之前一直未开源,但官方提供了可将C5.0构建的分类器嵌入到自己组织中的C源码。

二、决策树之ID3生成算法

(1)理论

输入:训练数据集D和特征A
输出:特征A对训练数据集D的信息增益g(D,A)

1.经验熵

(2)代码实现

1.导入包并读取数据

2.计算给定数据集的信息熵

3.选择最好的数据集划分特征,根据信息增益值来计算

4.判断数据集的各个属性集是否完全一致

5.创建决策树

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年9月28日
下一篇 2021年9月28日

相关推荐