探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一。在拿到一个新数据集时首先就需要花费大量时间进行EDA来研究数据集中内在的信息。
- DTale
- Pandas-profiling
- sweetviz
- autoviz
- dataprep
- KLib
- dabl
- speedML
- datatile
- edaviz
1、D-Tale
2、Pandas-Profiling
Pandas-Profiling可以生成Pandas DataFrame的概要 告。panda-profiling扩展了pandas DataFrame df.profile_report(),并且在大型数据集上工作得非常好,它可以在几秒钟内创建 告。
4、AutoViz
5、Dataprep
Dataprep是一个用于分析、准备和处理数据的开源Python包。DataPrep构建在Pandas和Dask DataFrame之上,可以很容易地与其他Python库集成。
DataPrep的运行速度这10个包中最快的,他在几秒钟内就可以为Pandas/Dask DataFrame生成 告。
klibe虽然提供了很多的分析函数,但是对于每一个分析需要我们手动的编写代码,所以只能说是半自动化的操作,但是如果我们需要更定制化的分析,他是非常方便的。
8、Speedml
SpeedML是用于快速启动机器学习管道的Python包。SpeedML整合了一些常用的ML包,包括 Pandas,Numpy,Sklearn,Xgboost 和 Matplotlib,所以说其实SpeedML不仅仅包含自动化EDA的功能。
SpeedML官方说,使用它可以基于迭代进行开发,将编码时间缩短了70%。
10、edaviz
edaviz是一个可以在Jupyter Notebook和Jupyter Lab中进行数据探索和可视化的python库,他本来是非常好用的,但是后来被砖厂(Databricks)收购并且整合到bamboolib 中,所以这里就简单的给个演示。
一、Python所有方向的学习路线
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
三、入门学习视频
五、面试资料
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览212732 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!