Python sklearn各分类算法及调参调优(一)

最近在学习分类算法及Python的相关实现,比较有趣。在此将所了解的内容归纳,分享一下,整体内容主要包含以下几点:

  • 通过seaborn实现数据集不同特征之间的关系以及分布的可视化;
  • 通过train_test_split、StratifiedKFold实现不同的训练集/测试集的构建;
  • 基于不同方式所构建的训练集/测试集,在K近邻、支持向量机、决策树等分类算法下的识别率差异;
  • 通过GridSearchCV实现分类算法参数的最优化组合;

  • 数据集背景

    首先先简单介绍下数据集,如下:

    数据描述

  • 实例数量:150(三个类各50个)
  • 属性数量:4个特征数值属性、一个预测属性,属性信息如下:1. 萼片长度(厘米);2. 萼片宽度(厘米);3.花瓣长度(厘米);4. 花瓣宽度(厘米);5. 类(Iris Setosa——山鸢尾,Iris Versicolour——杂色鸢尾,Iris Virginica——维吉尼亚鸢尾)
  • 缺少属性值:None
  • 类别分布:3个类别各占33.3%。
  • 数据样例

    iris.data文件数据样例,如下:

    5.1,3.5,1.4,0.2,Iris-setosa4.9,3.0,1.4,0.2,Iris-setosa4.7,3.2,1.3,0.2,Iris-setosa4.6,3.1,1.5,0.2,Iris-setosa5.0,3.6,1.4,0.2,Iris-setosa

    seaborn 实现数据集特征间的关系及分布可视化

    pandas.read_csv

    1.根据样例数据格式,使用pandas.read_csv加载iris.data文件,并且给定列名,如下。

    2.输出前三条数据,如下:

    3.使用describe()可以很方便的查看数据的大致信息,数据集描述如下:

    seaborn

    为了比较直观的查看数据的分布,使用seaborn、matplotlib.pyplot实现iris.data数据集不同特征之间的关系、分布以及不同鸢尾花卉特征差异的可视化。

    若对你有所帮助,欢迎大家评论、留言、关注,感谢支持!

    关联阅读

    Python sklearn各分类算法及调参调优(一)

    Python sklearn各分类算法及调参调优(二)

    Python sklearn各分类算法及调参调优(三)

    Python sklearn各分类算法及调参调优(四)

    声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

    上一篇 2019年3月21日
    下一篇 2019年3月21日

    相关推荐